Hadoopカウントダウン(Yet Another Advent Calendar HAHAHA)

「Hadoop Advent Calendar はないのか」 @shiumachi が何気なくつぶやいた一言に @okachimachiorz1 さんが反応。 どこが Advent Calendar なんだよというツッコミもある中、ノリだけで始まったこの企画に果たして参加者は集まるのか!? ルール ・tweet に hadoop に関する tips を書く 続きを読む
38
前へ 1 ・・ 4 5 次へ
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

「Hadoopで安くなる」は基幹バッチについては幻想。そもそも基幹系のSIでのハードのコスト割合は今はもうそれほど高くない。設計・テストの工数は従来と変わらない。実装工数はフレームワークに依存する。むしろ設計の重要度が高いのでコスト管理は要注意。 #HadoopCountDown

2010-12-31 22:10:00
disktnkジョン飯 @disktnk

ただ、Hadoopで盛り上がった分散基盤技術の、その先にあるものを考えてく為には、Hadoopを通って始めてわかる世界だと思っています。その意味でも、金融フロンティア領域でHadoopを検討することは重要だと思っています。 #hadoopCountDown

2010-12-31 22:12:46
disktnkジョン飯 @disktnk

難しくなる代表としては、ヒストリカルな分析。SQL脳で考えると何回もreduceするようなデザインになってしまうという意味。その先にあるものとしては、CEP、リアルタイム。この辺、みんな同じこと考えてる、何もしないと置いてかれるのは時間の問題。 #hadoopCountDown

2010-12-31 22:17:47
Sho Shimauchi @shiumachi

Hadoop 触るなら最低限「象本」には目を通してください。象本とはオライリーから出ている「Hadoop」のことです。初版は日本語訳も出ています。ネットの情報だけで構築するとひどいことになります http://bit.ly/6CwjIR #HadoopCountDown

2010-12-31 22:33:44
Sho Shimauchi @shiumachi

本全般に言える話ですが、目次だけでなく索引も活用してください。たとえば象本で「ログ」の項目を引くと、複雑な Hadoop のロギング処理に関する内容が記述されている箇所を網羅できます。 #HadoopCountDown

2010-12-31 22:37:40
Sho Shimauchi @shiumachi

HadoopクラスタのHW選定の際は象本9章冒頭の推奨スペックを参考にするといいです。また、Cloudera公式ブログには2010年3月時点の、用途別の推奨スペックが書かれています(英語) http://bit.ly/g9NVJ1 #HadoopCountDown

2010-12-31 22:46:00
ICHIRO SATOH @ichiro_satoh

分散システムの研究者としてHadoopをみると、これまで数多くの分散システムはあったのに、なぜHadoopはブレークしたのかはいろいろ考えされされます。 #HadoopCountDown

2010-12-31 22:48:19
ICHIRO SATOH @ichiro_satoh

MapReduceの考え方自体はシンプル。小さいMapReduceモドキでいいので、自分で作ってみると、Hadoopを使っている限りは見えないものが見えてきます。 #HadoopCountDown

2010-12-31 22:48:59
Sho Shimauchi @shiumachi

hadoop って関連ソフトいっぱいありすぎて何が何だか分かんない!と思ったら Hadoop エコシステムのグラフを見ましょう。象本筆者 Tom White 氏の作品です。 http://bit.ly/ifb6Wu #HadoopCountDown

2010-12-31 22:53:58
Kenichiro HAMANO @hamaken

アプリを開発してちゃんと動くようにするのは前提として、Hadoopのシステムとして考えると、インフラの運用をどうするか、ジョブをどう制御するか等、運用のスケーラビリティにどう切り込めるかが重要。 #HadoopCountDown

2010-12-31 23:03:50
Sho Shimauchi @shiumachi

Hive がどういう仕組みで動いているのか気になったら、Hive wiki の Design のページを見ましょう。アーキテクチャが1枚の図になってるから簡単に理解できます http://bit.ly/hPs12H #HadoopCountDown

2010-12-31 23:04:21
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

いずれにしろ、Hadoopは前奏曲でしかない。Bigデータもしかり。大規模分散環境が一般のビジネス与えるインパクトは、ネットの普及と同じくらいのセカンドインパクトで、来年もサービスサービスですぜ!本年は大変お世話になりました! #HadoopCountDown

2010-12-31 23:24:56
Sho Shimauchi @shiumachi

Cloudera の公式ブログは Hadoop 関連の基本的な情報源の一つです。全部英語で分量も多いので、まずは左のタグから興味のあるものを選択してざっと見てみてください http://bit.ly/gcScOu #HadoopCountDown

2010-12-31 23:27:10
Sho Shimauchi @shiumachi

hadoop 自体のビルド環境を整えたければ、Hadoop wiki の Developer Documentation を見ましょう。 eclipse連携やgit連携の方法なども書いてます http://bit.ly/eUQkLO #HadoopCountDown

2010-12-31 23:32:08
Kazuki Ohta @kzk_mover

今年のHDFSトラブルの多くがクライアント側のデッドロックでした。数十GB単位のデータの取得でクライアント側が固まる。対策としてはもうタイムアウト付けるしかない。 #HadoopCountDown

2010-12-31 23:32:12
三上俊輔 @shun0102

デッドロック...詳しくはどういう状況でしょうか? RT @kzk_mover: 今年のHDFSトラブルの多くがクライアント側のデッドロックでした。数十GB単位のデータの取得でクライアント側が固まる。対策としてはもうタイムアウト付けるしかない。 #HadoopCountDown

2011-01-01 00:23:12
Kazuki Ohta @kzk_mover

@shun0102 単純にHDFSのクライアント側がファイルの受信中に固まるという状況です。

2011-01-01 00:29:22
Kazuki Ohta @kzk_mover

HDFS/MapReduceが問題解決を行うにつれ、それだけではカバー出来ない領域が登場し、Hadoop自体の使い方が問い直される。特にリアルタイム更新データ、差分更新型のデータ。つまりHDFSが苦手とする領域。 #HadoopCountDown

2010-12-31 23:33:10
Kazuki Ohta @kzk_mover

hBaseでリアルタイム更新データについてはカバー出来そうだが、hBase自体が1台辺りのパフォーマンスが良くないので、百台以上は並べないと感覚的に意味が無さそう。ソフトウェアスタックも複雑で運用も難しく、障害の際に太刀打ち出来る人が必須。 #HadoopCountDown

2010-12-31 23:36:45
Kazuki Ohta @kzk_mover

そもそもJavaによるMapReduce自体の記述性が微妙なので高生産なフレームワークが必須。PigやHiveも良いが、全体のジョブとしてのTestabilityが欲しい。 #HadoopCountDown

2010-12-31 23:37:36
チーフ データサイエンティスト@トレジャ @doryokujin

MapReduceのshuffle&sortは非常に強力なツールですが、それを必要としないケースにおいてはその処理をスキップすることでそれなりのパフォーマンス向上が見込めるというこの論文は面白かったです。http://bit.ly/dbT5FT #HadoopCountDown

2010-12-31 23:40:27
Kazuki Ohta @kzk_mover

全体のMapReduceジョブ自体を記述する中間表現、それを実行する実行エンジンが欲しい。中間表現以降のテストや最適化に関してはpluggableになっており、様々なエンジンが使える様になっていると嬉しい。 #HadoopCountDown

2010-12-31 23:41:13
Shinpei Ohtani @shot6

Hadoopだけではなく、その他の分散システムとデータを共有しよう・データを相互にやり取りしようという上位の枠組みも出てきた。その1つがMesos. #hadoopCountDown

2010-12-31 23:41:47
Kazuki Ohta @kzk_mover

今年面白かったのが、インターネットサービス以外にも通信/自動車/金融/電力等様々なインフラ領域で同時多発的にBig Dataを利用しようという動きが有った事。来年はもっと凄い事になりそう! #HadoopCountDown

2010-12-31 23:55:22
前へ 1 ・・ 4 5 次へ