Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会 (2010/05/14 Fri)
#hadoopModeling で。RT @kazunori_279: @yutuki_r @okachimachiorz うぉそうなんですか!ご指摘ありがとうございます。タグどうしましょう?
2010-05-12 16:24:32RT @okachimachiorz: #hadoopModeling で。RT @kazunori_279: @yutuki_r @okachimachiorz うぉそうなんですか!ご指摘ありがとうございます。タグどうしましょう?
2010-05-12 19:36:12今日はこれに参加します。 Hadoop を中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会 5/14 18:00〜20:00 http://atnd.org/events/4136 #hadoopModeling
2010-05-14 06:29:35Hadoop を中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会 http://atnd.org/events/4136 に参加させて頂きます!みなさんよろしくです。 #hadoopModeling
2010-05-14 09:05:00今夜は、Hadoop(中略)座談会 <http://atnd.org/events/4136 > なのだった。危うくすっぽかすところだった。楽しみ。/ ハッシュタグは何になるのかしら。決まったら、ATND に書いてあるとうれしいな。
2010-05-14 15:33:08「Hadoop の現状: 各所で実証されつつある。500-1000ノード単位まで順調にスケールしそう。ログ解析などで実運用には行っているところもある。 #hadoopmodeling
2010-05-14 18:12:11「MR の概説。関数型プログラミングの分散処理への応用。map(): データを (k,v) にする。データ処理の独立性から自然にスケール。reduce(): k に基づいて各種演算をする。データ横断的処理が必要だとボトルネックになる事も。 #hadoopmodeling
2010-05-14 18:12:26「k-v スタイルで処理できるデータモデルは? 並行性を維持するため、並行する処理との独立性が必要。MR だけでもいろいろ欠ける。join もやり方はいろいろ。課題: (1) 設計技法, (2) 実装の再利用方法。 #hadoopmodeling
2010-05-14 18:12:36「とりあえず UML とかで書いてみるけど、いまいち。今後の可能性: (1) DBボトルネックの解消, (2) 並行処理による ETL の時間短縮, (3) 割とシンプルで耐障害性も高い, (4) バッチの業務処理をオープン系 #hadoopmodeling
2010-05-14 18:16:11「『Hadoop』は何度も読むといい。開発のお供に。問題: (1) 本当に仕事の役に立つか、パラダイム転換のコストを払うべきか, #hadoopmodeling
2010-05-14 18:21:27「(2) スケールアウトさせる必要あるか、データ設計とか他に大切なことがあるのでは, (3) 活用させるデータ量があるか、付加価値の出るデータは掘り起こせるか #hadoopmodeling
2010-05-14 18:21:36「Hadoop とアプリや別ミドルウェアとのつながりをイメージできてるか。Hadoop にいれる前や、MR の境界、HDFS から出た後などボトルネックになりやすい #hadoopmodeling
2010-05-14 18:22:50「RDBMS でモデル設計できる時のように、バッチを MR で設計できるか。並列性のために虚だいでーたをぶんかつするためのせっけいをできるか。 #hadoopmodeling
2010-05-14 18:23:51「MR に馴染んでるか。生MR で書く、Hive を使う、Pig を使うべきところを切り分けられるか。指針を他の人に伝えられるか。SQL で書ける処理をさくっと書けるか。MR を多段で書けるか。 #hadoopmodeling
2010-05-14 18:26:32「...基本的処理フローを押さえているか。JobTracker, TaskTracker, InputFormat, Writable。第1回勉強会の資料を参照。 #hadoopmodeling
2010-05-14 18:26:45「開発環境をプロジェクトで配れる/簡単に構築できるか。テストのイメージは: 単体/結合テストできる?, テストケースについて以前と違う点は? どう対処する? #hadoopmodeling
2010-05-14 18:28:20「実環境で, 欠点を補うような SW/HW は必要か。HeartBeat, JobTracker が死んだ時の対処。 ディレクトリや権限の設計。VM と新規HW のどちらがいい? #hadoopmodeling
2010-05-14 18:29:36「バグをどうやって効果的に見つけるか。どこで何が問題を起こしてるか分かりにくい。定番のツールが必要。/ バッチの品質をどうやって担保するか。関係者の説得も必要。/ 運用はどれくらい楽になるか。障害対応など可能か。 #hadoopmodeling
2010-05-14 18:31:28「並列分散処理を簡単に使えるという **ルールの変化**。先の疑問は解決は必須。Hadoop だけの話ではなく、トータルで効率よい仕組みが必要。設計モデルも重要。上位FW も重要。 #hadoopmodeling
2010-05-14 18:36:52