Hadoopカウントダウン(Yet Another Advent Calendar HAHAHA)
![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
「Hadoopで安くなる」は基幹バッチについては幻想。そもそも基幹系のSIでのハードのコスト割合は今はもうそれほど高くない。設計・テストの工数は従来と変わらない。実装工数はフレームワークに依存する。むしろ設計の重要度が高いのでコスト管理は要注意。 #HadoopCountDown
2010-12-31 22:10:00![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
ただ、Hadoopで盛り上がった分散基盤技術の、その先にあるものを考えてく為には、Hadoopを通って始めてわかる世界だと思っています。その意味でも、金融フロンティア領域でHadoopを検討することは重要だと思っています。 #hadoopCountDown
2010-12-31 22:12:46![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
難しくなる代表としては、ヒストリカルな分析。SQL脳で考えると何回もreduceするようなデザインになってしまうという意味。その先にあるものとしては、CEP、リアルタイム。この辺、みんな同じこと考えてる、何もしないと置いてかれるのは時間の問題。 #hadoopCountDown
2010-12-31 22:17:47![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
Hadoop 触るなら最低限「象本」には目を通してください。象本とはオライリーから出ている「Hadoop」のことです。初版は日本語訳も出ています。ネットの情報だけで構築するとひどいことになります http://bit.ly/6CwjIR #HadoopCountDown
2010-12-31 22:33:44![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
本全般に言える話ですが、目次だけでなく索引も活用してください。たとえば象本で「ログ」の項目を引くと、複雑な Hadoop のロギング処理に関する内容が記述されている箇所を網羅できます。 #HadoopCountDown
2010-12-31 22:37:40![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
HadoopクラスタのHW選定の際は象本9章冒頭の推奨スペックを参考にするといいです。また、Cloudera公式ブログには2010年3月時点の、用途別の推奨スペックが書かれています(英語) http://bit.ly/g9NVJ1 #HadoopCountDown
2010-12-31 22:46:00![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
分散システムの研究者としてHadoopをみると、これまで数多くの分散システムはあったのに、なぜHadoopはブレークしたのかはいろいろ考えされされます。 #HadoopCountDown
2010-12-31 22:48:19![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
MapReduceの考え方自体はシンプル。小さいMapReduceモドキでいいので、自分で作ってみると、Hadoopを使っている限りは見えないものが見えてきます。 #HadoopCountDown
2010-12-31 22:48:59![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
hadoop って関連ソフトいっぱいありすぎて何が何だか分かんない!と思ったら Hadoop エコシステムのグラフを見ましょう。象本筆者 Tom White 氏の作品です。 http://bit.ly/ifb6Wu #HadoopCountDown
2010-12-31 22:53:58![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
アプリを開発してちゃんと動くようにするのは前提として、Hadoopのシステムとして考えると、インフラの運用をどうするか、ジョブをどう制御するか等、運用のスケーラビリティにどう切り込めるかが重要。 #HadoopCountDown
2010-12-31 23:03:50![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
Hive がどういう仕組みで動いているのか気になったら、Hive wiki の Design のページを見ましょう。アーキテクチャが1枚の図になってるから簡単に理解できます http://bit.ly/hPs12H #HadoopCountDown
2010-12-31 23:04:21![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
ロゴでざっくりイメージつかんでおきたい場合 http://bit.ly/fHNsbN RT @shiumachi http://bit.ly/ifb6Wu #HadoopCountDown
2010-12-31 23:11:30![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
いずれにしろ、Hadoopは前奏曲でしかない。Bigデータもしかり。大規模分散環境が一般のビジネス与えるインパクトは、ネットの普及と同じくらいのセカンドインパクトで、来年もサービスサービスですぜ!本年は大変お世話になりました! #HadoopCountDown
2010-12-31 23:24:56![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
Cloudera の公式ブログは Hadoop 関連の基本的な情報源の一つです。全部英語で分量も多いので、まずは左のタグから興味のあるものを選択してざっと見てみてください http://bit.ly/gcScOu #HadoopCountDown
2010-12-31 23:27:10![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
hadoop 自体のビルド環境を整えたければ、Hadoop wiki の Developer Documentation を見ましょう。 eclipse連携やgit連携の方法なども書いてます http://bit.ly/eUQkLO #HadoopCountDown
2010-12-31 23:32:08![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
今年のHDFSトラブルの多くがクライアント側のデッドロックでした。数十GB単位のデータの取得でクライアント側が固まる。対策としてはもうタイムアウト付けるしかない。 #HadoopCountDown
2010-12-31 23:32:12![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
デッドロック...詳しくはどういう状況でしょうか? RT @kzk_mover: 今年のHDFSトラブルの多くがクライアント側のデッドロックでした。数十GB単位のデータの取得でクライアント側が固まる。対策としてはもうタイムアウト付けるしかない。 #HadoopCountDown
2011-01-01 00:23:12![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
HDFS/MapReduceが問題解決を行うにつれ、それだけではカバー出来ない領域が登場し、Hadoop自体の使い方が問い直される。特にリアルタイム更新データ、差分更新型のデータ。つまりHDFSが苦手とする領域。 #HadoopCountDown
2010-12-31 23:33:10![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
hBaseでリアルタイム更新データについてはカバー出来そうだが、hBase自体が1台辺りのパフォーマンスが良くないので、百台以上は並べないと感覚的に意味が無さそう。ソフトウェアスタックも複雑で運用も難しく、障害の際に太刀打ち出来る人が必須。 #HadoopCountDown
2010-12-31 23:36:45![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
そもそもJavaによるMapReduce自体の記述性が微妙なので高生産なフレームワークが必須。PigやHiveも良いが、全体のジョブとしてのTestabilityが欲しい。 #HadoopCountDown
2010-12-31 23:37:36![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
MapReduceのshuffle&sortは非常に強力なツールですが、それを必要としないケースにおいてはその処理をスキップすることでそれなりのパフォーマンス向上が見込めるというこの論文は面白かったです。http://bit.ly/dbT5FT #HadoopCountDown
2010-12-31 23:40:27![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
全体のMapReduceジョブ自体を記述する中間表現、それを実行する実行エンジンが欲しい。中間表現以降のテストや最適化に関してはpluggableになっており、様々なエンジンが使える様になっていると嬉しい。 #HadoopCountDown
2010-12-31 23:41:13![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
Hadoopだけではなく、その他の分散システムとデータを共有しよう・データを相互にやり取りしようという上位の枠組みも出てきた。その1つがMesos. #hadoopCountDown
2010-12-31 23:41:47![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
今年面白かったのが、インターネットサービス以外にも通信/自動車/金融/電力等様々なインフラ領域で同時多発的にBig Dataを利用しようという動きが有った事。来年はもっと凄い事になりそう! #HadoopCountDown
2010-12-31 23:55:22