Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会 (2010/05/14 Fri)

2010/05/14 Fri 18:00-20:00 に開催された「Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会@スター研修センター御茶ノ水」<http://atnd.org/events/4136>; のハッシュタグ #hadoopmodeling タイムライン
6
@okachimachiorz

#hadoopModeling で。RT @kazunori_279: @yutuki_r @okachimachiorz うぉそうなんですか!ご指摘ありがとうございます。タグどうしましょう?

2010-05-12 16:24:32
@kimtea

RT @okachimachiorz: #hadoopModeling で。RT @kazunori_279: @yutuki_r @okachimachiorz うぉそうなんですか!ご指摘ありがとうございます。タグどうしましょう?

2010-05-12 19:36:12
Tatsuya Kawano @tatsuya6502

今日はこれに参加します。 Hadoop を中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会 5/14 18:00〜20:00 http://atnd.org/events/4136 #hadoopModeling

2010-05-14 06:29:35
tsh 二号 @tsh_2

Hadoop を中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会 http://atnd.org/events/4136 に参加させて頂きます!みなさんよろしくです。 #hadoopModeling

2010-05-14 09:05:00
@nsiena

今夜は、Hadoop(中略)座談会 <http://atnd.org/events/4136 > なのだった。危うくすっぽかすところだった。楽しみ。/ ハッシュタグは何になるのかしら。決まったら、ATND に書いてあるとうれしいな。

2010-05-14 15:33:08
@nsiena

Hadoop(ry はじまた

2010-05-14 18:02:30
@nsiena

「Hadoop の現状: 各所で実証されつつある。500-1000ノード単位まで順調にスケールしそう。ログ解析などで実運用には行っているところもある。 #hadoopmodeling

2010-05-14 18:12:11
@nsiena

「MR の概説。関数型プログラミングの分散処理への応用。map(): データを (k,v) にする。データ処理の独立性から自然にスケール。reduce(): k に基づいて各種演算をする。データ横断的処理が必要だとボトルネックになる事も。 #hadoopmodeling

2010-05-14 18:12:26
@nsiena

「k-v スタイルで処理できるデータモデルは? 並行性を維持するため、並行する処理との独立性が必要。MR だけでもいろいろ欠ける。join もやり方はいろいろ。課題: (1) 設計技法, (2) 実装の再利用方法。 #hadoopmodeling

2010-05-14 18:12:36
@nsiena

「とりあえず UML とかで書いてみるけど、いまいち。今後の可能性: (1) DBボトルネックの解消, (2) 並行処理による ETL の時間短縮, (3) 割とシンプルで耐障害性も高い, (4) バッチの業務処理をオープン系 #hadoopmodeling

2010-05-14 18:16:11
@nsiena

「『Hadoop』は何度も読むといい。開発のお供に。問題: (1) 本当に仕事の役に立つか、パラダイム転換のコストを払うべきか, #hadoopmodeling

2010-05-14 18:21:27
@nsiena

「(2) スケールアウトさせる必要あるか、データ設計とか他に大切なことがあるのでは, (3) 活用させるデータ量があるか、付加価値の出るデータは掘り起こせるか #hadoopmodeling

2010-05-14 18:21:36
@nsiena

「Hadoop とアプリや別ミドルウェアとのつながりをイメージできてるか。Hadoop にいれる前や、MR の境界、HDFS から出た後などボトルネックになりやすい #hadoopmodeling

2010-05-14 18:22:50
@nsiena

「RDBMS でモデル設計できる時のように、バッチを MR で設計できるか。並列性のために虚だいでーたをぶんかつするためのせっけいをできるか。 #hadoopmodeling

2010-05-14 18:23:51
@nsiena

「MR に馴染んでるか。生MR で書く、Hive を使う、Pig を使うべきところを切り分けられるか。指針を他の人に伝えられるか。SQL で書ける処理をさくっと書けるか。MR を多段で書けるか。 #hadoopmodeling

2010-05-14 18:26:32
@nsiena

「...基本的処理フローを押さえているか。JobTracker, TaskTracker, InputFormat, Writable。第1回勉強会の資料を参照。 #hadoopmodeling

2010-05-14 18:26:45
@nsiena

「開発環境をプロジェクトで配れる/簡単に構築できるか。テストのイメージは: 単体/結合テストできる?, テストケースについて以前と違う点は? どう対処する? #hadoopmodeling

2010-05-14 18:28:20
@nsiena

「実環境で, 欠点を補うような SW/HW は必要か。HeartBeat, JobTracker が死んだ時の対処。 ディレクトリや権限の設計。VM と新規HW のどちらがいい? #hadoopmodeling

2010-05-14 18:29:36
@nsiena

「バグをどうやって効果的に見つけるか。どこで何が問題を起こしてるか分かりにくい。定番のツールが必要。/ バッチの品質をどうやって担保するか。関係者の説得も必要。/ 運用はどれくらい楽になるか。障害対応など可能か。 #hadoopmodeling

2010-05-14 18:31:28
@nsiena

「コマンド長い。/ 拡張の話は良くあるが、縮退運転は可能か。時刻開閉機能はあるか。データのバックアップは? #hadoopmodeling

2010-05-14 18:32:39
@nsiena

「すぐに思い付くだけでもこれだけある。重要: 設計, 開発, テスト, 運用, 障害対策, 品質保証。 #hadoopmodeling

2010-05-14 18:36:32
@nsiena

「並列分散処理を簡単に使えるという **ルールの変化**。先の疑問は解決は必須。Hadoop だけの話ではなく、トータルで効率よい仕組みが必要。設計モデルも重要。上位FW も重要。 #hadoopmodeling

2010-05-14 18:36:52
@nsiena

「一人でなく、コミュニティで解決する場が必要。「Hadoop大国日本」も可能。 #hadoopmodeling

2010-05-14 18:37:52
1 ・・ 6 次へ