Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第4回)

のまとめ。#hadoopmodeling
14
前へ 1 ・・ 7 8 次へ
close_yutori @kimukou2628

( #hadoopModeling live at http://ustre.am/hx3O ) ・編集画面等を作ると同期処理が必要になるので、現在の非同期モデルを適応しようとすると破綻する部分もある<syncronizedとか? ・COBOLの前処理、処理、後処理が必須?

2011-03-28 21:18:33
marble @marblejenka

#hadoopmodeling MRはオールドファッションだけどどうなの、という話。でも、なぜかMRはうまくいってるっぽい。要素技術としての蓄積はあるけど、2,3年で使い果たすだろうという感じではある。

2011-03-28 21:20:11
marble @marblejenka

#hadoopmodeling SQLはだいぶ使いまくりで成熟してるし、他の出口があるのはいい感じ。アプリ的にも、機会学習とか適用領域はある。

2011-03-28 21:20:53
close_yutori @kimukou2628

( #hadoopModeling live at http://ustre.am/hx3O ) ・COBOLは関数型=>オブジェクト指向的な実装で落とす ・PigはSQLインターフェースがないから不人気 ・HiveはSQLインターフェースがあるからなじみやすい

2011-03-28 21:21:41
marble @marblejenka

#hadoopmodeling Hive的なものとPig的なものどちらがよいか。後者の方がいけてる感じ。前者はSQLっぽいので、データの流れを隠ぺいしていて使うのは簡単。後者はある程度抽象化されているので、つかいづらいこともある。

2011-03-28 21:22:41
傳智之 @dentomo

限りなくリアルタイムに近いバッチ処理をどうとらえるか。SQLライクにやるか、別の方法か #HadoopModeling

2011-03-28 21:23:25
marble @marblejenka

#hadoopmodeling 蓄積データに対する分析という観点自体はどうなのか。過去データじゃなくて未来向けな分析がいるのでは?で、それをやるにしても、高速バッチでやるか別のアーキテクチャでやるかは難しいところ。

2011-03-28 21:23:37
tomo🐧@learning @cocoatomo

#hadoopmodeling Hadoop で現状を分析することに意味はあると思うけど, 将来を予測するには向かないのでは? (萩原先生)

2011-03-28 21:23:39
Tatsuya Kawano @tatsuya6502

品川駅に到着。ひょっとして、まだ二次会は始まってないとか⁉ #hadoopmodeling

2011-03-28 21:24:19
marble @marblejenka

#hadoopmodeling Googleとかはバッチの時間短縮からストリームプロセッシングてきなところにいったけど、こっちはどうするかという話もある。追いかけるか別なとこに行くか。

2011-03-28 21:24:58
@nsiena

SQL に似た宣言型の言語で書くとしても、内部的には演算子レベルでは非同期で処理するという実現方法もあるわけで。SQL 即だめ、とも思えない。 #hadoopmodeling

2011-03-28 21:26:40
close_yutori @kimukou2628

( #hadoopModeling live at http://ustre.am/hx3O ) ・SQL型(オブジェクト型)でいくのか関数型で行くのか ・同期処理でいくのか非同期処理 それの組み合わせで実装イメージが変わってくる

2011-03-28 21:26:47
@nsiena

ストリームデータ処理システムとかも SQL + ECA みたいなものもあるし。 #hadoopmodeling

2011-03-28 21:27:33
Sadayuki Furuhashi @frsyuki

リアルタイムと言えば Yahoo の s4 を思い出したけど、リアルタイムというかストリーム処理。 "processing continuous unbounded streams of data" http://s4.io/ #hadoopModeling

2011-03-28 21:28:46
close_yutori @kimukou2628

( #hadoopModeling live at http://ustre.am/hx3O ) Cassandra+Hive=Bricks 等のようにリアルタイム蓄積 + 検索のニーズはあると思うという話<ストリームデータ処理 =>組込系みたいな開発手法になってる

2011-03-28 21:30:11
close_yutori @kimukou2628

( #hadoopModeling live at http://ustre.am/hx3O ) 同じアルゴリズム=>大量データを同時処理にするというアプローチ ただ欧米とかだと日本の銀行システムと違ってパッケージ化されているので障害の話はすくない<パッケージの最適化?

2011-03-28 21:35:47
Sadayuki Furuhashi @frsyuki

MapReduceでは、Reduceだけがバッチ処理で、Mapはストリーム処理。同期が必要な限りはバッチは必要だと思うけど、そのデータ量をlocal-reduceと言うかpartial aggregation的な方法で、逐次的に減らすのは可能なハズ。#hadoopmodeling

2011-03-28 21:37:27
close_yutori @kimukou2628

( #hadoopModeling live at http://ustre.am/hx3O ) ・データを同期を取るフェーズは必ず発生するので、その部分は時間が発生する ・ただそれに至るまではデータの最適化自体は可能のはず =>そこら辺を考慮して設計する必要があり

2011-03-28 21:39:15
close_yutori @kimukou2628

( #hadoopModeling live at http://ustre.am/hx3O ) 技術屋に統計の知識をどう学ぶべきか?) ・慣れるしかない? (機械学習等) ・統計屋さんは頭いい人が多いので=>処理をゴリゴリ分回すアプローチで

2011-03-28 21:41:59
close_yutori @kimukou2628

( #hadoopModeling live at http://ustre.am/hx3O ) 3/31 にAsakusa DSL ソース公開<GitHub、S3 4/9 にハッカソン有り<チャリティ有り 後で詳細は告知します

2011-03-28 21:43:13
Sadayuki Furuhashi @frsyuki

OLAPとOLTPを明確に分離できない(したくない)ケースは多そうだけど、たぶん整合性重視なOLTP処理の統合は厳しくて(透過的に見せるのはできそう)…ストリーミング入力と逐次PAが可能なバッチ処理システムは割と現実的な良さそうな印象。#hadoopmodeling

2011-03-28 21:43:16
Chipmunks @TerRisu

#hadoopmodeling 終了。皆様ありがとうございました。今回は、自分には難しい内容でしたが、とても刺激になりました。

2011-03-28 22:00:12
宮川 拓 @miyakawa_taku

#hadoopmodeling Asakusa は 3/31 に公開。βテスト版では Eclipse プロジェクトごとの提供でしたが、公開版は Maven コンポーネント化されて、依存性を設定すれば外から普通に使えるとのこと。このスピード感!

2011-03-28 22:01:11
宮川 拓 @miyakawa_taku

#hadoopmodeling リポジトリは独自に立てるとのこと。当面は支障ないはず。

2011-03-28 22:03:48
前へ 1 ・・ 7 8 次へ