更新 2014年5月21日作成 2011年6月2日

Hadoopエンタープライズソリューションセミナー

6/2に開催されたHadoopエンタープライズソリューションセミナー～ Big Dataを経営の力に変える鍵を探る～に関するつぶやきです。 http://oss.nttdata.co.jp/hadoop/event/201106/index.html

プログラミング hadoop

wyukawa
5714
0
9
2

前へ 1 ・・ 5 6 7 次へ

wyukawa @wyukawa

CDHにMavenが含まれるのかな

2011-06-02 16:04:38

チーフデータサイエンティスト@トレジャ @doryokujin

MapReduceはMapShuffleReduce

2011-06-02 16:10:37

チーフデータサイエンティスト@トレジャ @doryokujin

4000台の運用実績もある

2011-06-02 16:12:16

チーフデータサイエンティスト@トレジャ @doryokujin

一日数百PB！！((((；ﾟДﾟ)))))))

2011-06-02 16:13:00

wyukawa @wyukawa

そういや、4000台が上限だけど10000台目指してアーキテクチャを変えるという話を聞いたな

2011-06-02 16:13:10

チーフデータサイエンティスト@トレジャ @doryokujin

HDFS の特徴。この資料は欲しい

2011-06-02 16:16:12

チーフデータサイエンティスト@トレジャ @doryokujin

大規模、大数量の全データをスキャンし、加工、転記する処理がHadoopの基本的な適用例。

2011-06-02 16:21:31

チーフデータサイエンティスト@トレジャ @doryokujin

スモールスタートにも的している。導入コスト面でデータウェアハウスよりも優れている

2011-06-02 16:22:20

チーフデータサイエンティスト@トレジャ @doryokujin

テキストログやDBだけでなく、シミュレーションデータやWebのクローリングデータもHadoopの入力として好例。

2011-06-02 16:24:28

チーフデータサイエンティスト@トレジャ @doryokujin

気楽に、シリアスに！w

2011-06-02 16:25:09

チーフデータサイエンティスト@トレジャ @doryokujin

データ指向のIT化→3ステップ →Gather データを集めて →Extract 面白そうな対象を選び →Load&Transform システムに取り込み、モデリング

2011-06-02 16:27:41

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

とりあえず問題点ね。データ配置の偏りは自分で解決＋スループットは自分で最適化してね（スプリットの管理）＋バランスの良い製品（まぁ同じ程度のしておきましょう） #hadoop

2011-06-02 16:28:53

チーフデータサイエンティスト@トレジャ @doryokujin

◯分散処理を気軽なものに ◯分散環境の構築を容易に △偏りのないデータの分散配置→Shuffle後のReduceタスク処理量に偏りが生じる可能性がある

2011-06-02 16:30:01

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

データの偏りは死ぬので、避ける。ノウハウですかね。ドメイン・エンジニアとの連携が必要。キーの偏りなんで、ま～、ドメインエンジというより、アプリエンジニアですね。

2011-06-02 16:30:33

チーフデータサイエンティスト@トレジャ @doryokujin

RDBはデータを管理するという観点で、重複を避ける為に正規化してコンパクトにする。 Hadoopは管理は行わない。重複気にしない。基本的に全件スキャン。一度にスキャンする範囲を大きくして一回の実行でたくさんの処理結果を得られるように。

2011-06-02 16:32:16

チーフデータサイエンティスト@トレジャ @doryokujin

適用例帳票の転記が主体のバッチ処理に適用。入力に対して複数の帳票を作成。入力100MBに対し、中間及び出力データは100GB

2011-06-02 16:34:20

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

重複を気にしない、ということと結合しない、ってことは意味違うからね。

2011-06-02 16:35:36

チーフデータサイエンティスト@トレジャ @doryokujin

MongoもRDBよりもHadoop的なデータ志向に寄ってると思んやけどな…取り敢えずデータ溜め込んで価値のあるものを見つけるところとか

2011-06-02 16:36:49

チーフデータサイエンティスト@トレジャ @doryokujin

「Hadoopを本気でやってみたい方、募集しています」NTTデータさん

2011-06-02 16:39:44

wyukawa @wyukawa

イケメンのリベンジなう

2011-06-02 16:40:22

船井　覚, Satoru Funai @satoruf

hadoop本気でやりたい人募集中、NTTデータ

2011-06-02 16:41:26

チーフデータサイエンティスト@トレジャ @doryokujin

HDFSブラウザとしてのHUE

2011-06-02 16:45:54

Куросал @kurosal

Hadoop話終わり。やっべー超面白そう過ぎて今の仕事をしている自分は何なのだと考えてしまう。元来クラスタとかでの可用性とか分散処理とか大好きだからね、、、

2011-06-02 16:59:31

cds_tange @cds_tange

Hadoop セミナーが終わった。概念的な話やデータ分析事例、 CDHv3の紹介が主な内容でした。ちょっと早いけどこのまま直帰しよ。

2011-06-02 17:01:56

しみず @shimy_net

hadoopイベントたのしかった。人材を募集中だって。

2011-06-02 17:17:08

前へ 1 ・・ 5 6 7 次へ

いま話題のタグ