Hadoopエンタープライズソリューションセミナー
テキストログやDBだけでなく、シミュレーションデータやWebのクローリングデータもHadoopの入力として好例。
2011-06-02 16:24:28データ指向のIT化→3ステップ →Gather データを集めて →Extract 面白そうな対象を選び →Load&Transform システムに取り込み、モデリング
2011-06-02 16:27:41とりあえず問題点ね。データ配置の偏りは自分で解決+スループットは自分で最適化してね(スプリットの管理)+バランスの良い製品(まぁ同じ程度のしておきましょう) #hadoop
2011-06-02 16:28:53◯分散処理を気軽なものに ◯分散環境の構築を容易に △偏りのないデータの分散配置→Shuffle後のReduceタスク処理量に偏りが生じる可能性がある
2011-06-02 16:30:01データの偏りは死ぬので、避ける。ノウハウですかね。ドメイン・エンジニアとの連携が必要。キーの偏りなんで、ま~、ドメインエンジというより、アプリエンジニアですね。
2011-06-02 16:30:33RDBはデータを管理するという観点で、重複を避ける為に正規化してコンパクトにする。 Hadoopは管理は行わない。重複気にしない。基本的に全件スキャン。一度にスキャンする範囲を大きくして一回の実行でたくさんの処理結果を得られるように。
2011-06-02 16:32:16適用例 帳票の転記が主体のバッチ処理に適用。入力に対して複数の帳票を作成。入力100MBに対し、中間及び出力データは100GB
2011-06-02 16:34:20重複を気にしない、ということと結合しない、ってことは意味違うからね。
2011-06-02 16:35:36MongoもRDBよりもHadoop的なデータ志向に寄ってると思んやけどな…取り敢えずデータ溜め込んで価値のあるものを見つけるところとか
2011-06-02 16:36:49Hadoop話終わり。やっべー超面白そう過ぎて今の仕事をしている自分は何なのだと考えてしまう。元来クラスタとかでの可用性とか分散処理とか大好きだからね、、、
2011-06-02 16:59:31Hadoop セミナーが終わった。概念的な話やデータ分析事例、 CDHv3の紹介が主な内容でした。 ちょっと早いけどこのまま 直帰しよ。
2011-06-02 17:01:56