Hadoopの概要と最新の動向
株式会社プリファードインフラストラクチャーの太田さんの発表。Hadoop、MapReduceをわかりやすく説明。その後事例の紹介。
- Yahoo: 2000台。ログ解析とか検索(?広告だったか?)用途。
- Amazon: 400台。ログ解析。
- はてなもログ解析で使用していると紹介。これはWEB+DBで出てた話かな。
- その他、某大手キャリアがHFSを利用(MapReduceはどうなんだろ?)
HadoopとEC2による、『安くて簡単』大規模データ処理
blogeye開発者の大倉さん。blogeyeサービスの裏側で行われる処理にてAWS EC2(+S3)を利用しているとの事。
- WebServerとして稼働しているインスタンス、インデックス用のMySQLを立ち上げているインスタンス、Master、と立ち上げていて、こなすたすくは「ブログのクロール」と「日本語処理」の2種類。
- クロールについては思わぬ大きなデータを受信してしまってメモリを逼迫してしまったり、と危険も伴う処理なのでSlave専用のインスタンスで処理している。
- 日本語処理については300GBのデータを処理する必要があり、その時だけインスタンスを80台まで一気に増やして丸二日間で処理している。
- MapReduceについては、Reducerが確保されるタイミングを調整する事が出来ずソースを書き換えた(?)部分もあったとか。
お二方のお話でどちらも「ファイルシステムについてデータロストは一度も無い」という説明が印象的で、さらに結構適用されてるもんなんだなーと。事例について全然収集できていない自分の知識不足を痛感した。良い刺激になった。
発表されたお二方、会場を提供してくださったグリー株式会社様、運用をスムーズにしてくださったスタッフの皆様方、大変お世話になりました、ありがとうございました!
0 件のコメント:
コメントを投稿