2008年11月26日水曜日

第16回オープンソーステクノロジー勉強会へ参加

個人的に「業務のバッチ処理の分散実行」、という用途のためにHadoop,MapReduceの仕組みを結構興味を持ってみていたのと、EC2/S3両方とも時々使用していながらHadoopのインスタンスを起動した事が無いのでその話を聞きたかった、という事で参加。

Hadoopの概要と最新の動向

株式会社プリファードインフラストラクチャーの太田さんの発表。
Hadoop、MapReduceをわかりやすく説明。その後事例の紹介。
  • Yahoo: 2000台。ログ解析とか検索(?広告だったか?)用途。
  • Amazon: 400台。ログ解析。
  • はてなもログ解析で使用していると紹介。これはWEB+DBで出てた話かな。
  • その他、某大手キャリアがHFSを利用(MapReduceはどうなんだろ?)
事例が聞けたという事は、実際安定して稼働しているんだなー、と理解した。

HadoopとEC2による、『安くて簡単』大規模データ処理

blogeye開発者の大倉さん。
blogeyeサービスの裏側で行われる処理にてAWS EC2(+S3)を利用しているとの事。
  • WebServerとして稼働しているインスタンス、インデックス用のMySQLを立ち上げているインスタンス、Master、と立ち上げていて、こなすたすくは「ブログのクロール」と「日本語処理」の2種類。
  • クロールについては思わぬ大きなデータを受信してしまってメモリを逼迫してしまったり、と危険も伴う処理なのでSlave専用のインスタンスで処理している。
  • 日本語処理については300GBのデータを処理する必要があり、その時だけインスタンスを80台まで一気に増やして丸二日間で処理している。
  • MapReduceについては、Reducerが確保されるタイミングを調整する事が出来ずソースを書き換えた(?)部分もあったとか。

お二方のお話でどちらも「ファイルシステムについてデータロストは一度も無い」という説明が印象的で、さらに結構適用されてるもんなんだなーと。事例について全然収集できていない自分の知識不足を痛感した。良い刺激になった。

発表されたお二方、会場を提供してくださったグリー株式会社様、運用をスムーズにしてくださったスタッフの皆様方、大変お世話になりました、ありがとうございました!

コメントを投稿