Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会（第4回） (8ページ目)

#hadoopmodeling MRはオールドファッションだけどどうなの、という話。でも、なぜかMRはうまくいってるっぽい。要素技術としての蓄積はあるけど、2,3年で使い果たすだろうという感じではある。

2011-03-28 21:20:11

#hadoopmodeling SQLはだいぶ使いまくりで成熟してるし、他の出口があるのはいい感じ。アプリ的にも、機会学習とか適用領域はある。

2011-03-28 21:20:53

( #hadoopModeling live at http://ustre.am/hx3O ) ・COBOLは関数型＝＞オブジェクト指向的な実装で落とす・PigはSQLインターフェースがないから不人気・HiveはSQLインターフェースがあるからなじみやすい

2011-03-28 21:21:41

#hadoopmodeling Hive的なものとPig的なものどちらがよいか。後者の方がいけてる感じ。前者はSQLっぽいので、データの流れを隠ぺいしていて使うのは簡単。後者はある程度抽象化されているので、つかいづらいこともある。

2011-03-28 21:22:41

傳智之 @dentomo

限りなくリアルタイムに近いバッチ処理をどうとらえるか。SQLライクにやるか、別の方法か #HadoopModeling

2011-03-28 21:23:25

#hadoopmodeling 蓄積データに対する分析という観点自体はどうなのか。過去データじゃなくて未来向けな分析がいるのでは？で、それをやるにしても、高速バッチでやるか別のアーキテクチャでやるかは難しいところ。

2011-03-28 21:23:37

tomo🐧@learning @cocoatomo

#hadoopmodeling Hadoop で現状を分析することに意味はあると思うけど, 将来を予測するには向かないのでは? (萩原先生)

2011-03-28 21:23:39

Tatsuya Kawano @tatsuya6502

品川駅に到着。ひょっとして、まだ二次会は始まってないとか⁉ #hadoopmodeling

2011-03-28 21:24:19

#hadoopmodeling Googleとかはバッチの時間短縮からストリームプロセッシングてきなところにいったけど、こっちはどうするかという話もある。追いかけるか別なとこに行くか。

2011-03-28 21:24:58

@nsiena

SQL に似た宣言型の言語で書くとしても、内部的には演算子レベルでは非同期で処理するという実現方法もあるわけで。SQL 即だめ、とも思えない。 #hadoopmodeling

2011-03-28 21:26:40

( #hadoopModeling live at http://ustre.am/hx3O ) ・SQL型（オブジェクト型）でいくのか関数型で行くのか・同期処理でいくのか非同期処理それの組み合わせで実装イメージが変わってくる

2011-03-28 21:26:47

@nsiena

ストリームデータ処理システムとかも SQL + ECA みたいなものもあるし。 #hadoopmodeling

2011-03-28 21:27:33

リアルタイムと言えば Yahoo の s4 を思い出したけど、リアルタイムというかストリーム処理。 "processing continuous unbounded streams of data" http://s4.io/ #hadoopModeling

2011-03-28 21:28:46

( #hadoopModeling live at http://ustre.am/hx3O ) Cassandra+Hive=Bricks 等のようにリアルタイム蓄積＋検索のニーズはあると思うという話＜ストリームデータ処理＝＞組込系みたいな開発手法になってる

2011-03-28 21:30:11

S4はMapReduceではない。 #hadoopmodeling http://s4.io/ http://labs.yahoo.com/files/KDCloud%202010%20S4.pdf

2011-03-28 21:31:29

( #hadoopModeling live at http://ustre.am/hx3O ) 同じアルゴリズム＝＞大量データを同時処理にするというアプローチただ欧米とかだと日本の銀行システムと違ってパッケージ化されているので障害の話はすくない＜パッケージの最適化?

2011-03-28 21:35:47

MapReduceでは、Reduceだけがバッチ処理で、Mapはストリーム処理。同期が必要な限りはバッチは必要だと思うけど、そのデータ量をlocal-reduceと言うかpartial aggregation的な方法で、逐次的に減らすのは可能なハズ。#hadoopmodeling

2011-03-28 21:37:27

( #hadoopModeling live at http://ustre.am/hx3O ) ・データを同期を取るフェーズは必ず発生するので、その部分は時間が発生する・ただそれに至るまではデータの最適化自体は可能のはず＝＞そこら辺を考慮して設計する必要があり

2011-03-28 21:39:15

( #hadoopModeling live at http://ustre.am/hx3O ) 技術屋に統計の知識をどう学ぶべきか?) ・慣れるしかない? （機械学習等）・統計屋さんは頭いい人が多いので＝＞処理をゴリゴリ分回すアプローチで

2011-03-28 21:41:59

( #hadoopModeling live at http://ustre.am/hx3O ) 3/31 にAsakusa DSL ソース公開＜GitHub、S3 4/9 にハッカソン有り＜チャリティ有り後で詳細は告知します

2011-03-28 21:43:13