2011/04/22 Advanced Tech Night No.1 「クラウドのさきっちょ」復活版 (2ページ目)

(#atn2011 ust at http://bit.ly/dWXdGm ) ・Hadoopの初回と言えば MapReduce（＋HDFS,HBase) と紹介されますよね＝＞ Cloudera・・提供ベンダさんサイトにいけばいろいろと情報があるらしい

2011-04-22 19:22:19

close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) ・大量データの並列分散処理基盤・安価なハードウエアを並列処理＜調子が悪いPCは交換できる

2011-04-22 19:23:10

close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) Hadoop)・・といっても3つのベンダー製があります・Apache ・Cloudera社・・商用サポート有り＜CDHと呼びます・Yahoo

2011-04-22 19:24:30

close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) ・Pig・・データ処理を簡単に記述する為のIF ・Flume・・分散大量データ収集インフラ Apache製とCloudera製は中身の構成が違います＜ソース自体はOSSで公開されている

2011-04-22 19:26:34

close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) HDFS) ・Hadoopが用いる分散ファイルシステム・Master/Slave構成 Master・・全体で１／Slave・・各ノードに1プロセス

2011-04-22 19:28:05

close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) ・自動的にData replicationされるので障害対応製は高い＜マスターノード除く MapReduce) ・Map：大量データをキーで情報分散・Reduce；データを集める

2011-04-22 19:29:52

close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) HBase）・TB,PBデータを使うぐらいが最適＜それ以下の場合はパフォーマンスが落ちる Hive) ・SQLライクでデータ操作＜CRUDが可能・HiveQLでデータ操作

2011-04-22 19:31:28

close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) Pig) ・スクリプト（PigLatin）を書くだけでMapReduceを操作＜＝バックグラウンドで自動コンパイル：ジョブ化してくれる

2011-04-22 19:33:49

close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) ・簡単な操作はHiveの方が向いている例)年間最高気温を求める・・4行程度で書ける records = LOAD 'temparature' AS (year:int ～

2011-04-22 19:37:05

Kenichiro Murata @muraken720

#atn2011 Pig のcsvファイルを加工するスクリプト例やってます。ヘェ〜。便利ね。

2011-04-22 19:37:48

close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) Mahout) ・Hadoop上で動作する機械学習ライブラリ＝＞レコメンドエンジン、スパムフィルター（協調フィルタリング）で使われる・K平均法/ファジィK平均法/Canoopy 等

2011-04-22 19:39:10

close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) Sqoop）・RDB(mysql)<=>HDFS間でのデータコピーツール＜＝HDFSにインポート後、HiveやPigで操作

2011-04-22 19:40:31

close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) Flume）・データマイニング分野で仕様・agentからデータをHDFSに収集する為のデータ収集インフラ

2011-04-22 19:41:41

close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) 組合せて出来る事）・センサ-データ＝＞Flume（複数のAgent容易）＝＞HDFSに溜め込む＝＞Hive,Pig、Mahoutで処理＜＝これからセンサー系の話は熱くなるかもな話

2011-04-22 19:44:55

ひろうぃん @heroween

#atn2011 Hadoopのプロダクト群を組み合わせる事で何が実現できるか。

2011-04-22 19:46:17

ＩＳＳＥＩ @isseing333

RT @kimukou_26: (#atn2011 ust at http://bit.ly/dWXdGm ) Mahout) ・Hadoop上で動作する機械学習ライブラリ＝＞レコメンドエンジン、スパムフィルター（協調フィルタリング）で使われる・K平均法/ファジィK平均法/Canoopy 等

2011-04-22 19:47:21

石の上にも20年弱。 @XienceK

RT @kimukou_26: (#atn2011 ust at http://bit.ly/dWXdGm ) Mahout) ・Hadoop上で動作する機械学習ライブラリ＝＞レコメンドエンジン、スパムフィルター（協調フィルタリング）で使われる・K平均法/ファジィK平均法/Canoopy 等

2011-04-22 19:47:33

close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) HiveとPigの違い）・Hive・・ちょっとした事を遣る（SQL一発実行・Pig・・スクリプトで色々と複雑な事をする＜フィルタリングしたりとかな使い方ではないかという話

2011-04-22 19:47:48

ひろうぃん @heroween

#atn2011 当然だけどそれぞれのプロダクトの効用をきちんと考慮しないと、簡単に出来る事を逆に複雑にしてしまう懸念もあるかな。

2011-04-22 19:49:58

close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) ・全てのプロダクトを動かそうとするとセットアップは結構大変１）最初：1プロセス＝＞全部動かしてみる＜MapReduce 1ノード:1 2)分散環境と順追った方が良。VER依存も有

2011-04-22 19:50:39

close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) MaprReduce ｅｃｌｉｐｓｅ Plugin の最新版の生成設定＝＞環境によりコンパイル通らない事も＞＜な話もあり

2011-04-22 19:52:10

ひろうぃん @heroween

#atn2011 APIの実装が頻繁に変わるので互換性に問題が発生すると。

2011-04-22 19:52:31

Takanori Suzuki @takanorig

#atn2011 セッション２「AWS Elastic Beanstalk で気軽にクラウド化しよう！」です。

2011-04-22 19:53:29

close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) Elastic Beanstalk 手順）・利用申請・・玉川さんがスライド作っているので資料を見てね・Webアプリ開発：Cubbyのwarファイルを容易

2011-04-22 19:57:59

close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) create New Application => 名前登録、アップロードするwar指定＝＞インスタンスタイプを決める＝＞しばらくお待ちください（時間がかかりますよw

2011-04-22 20:00:18

いま話題のタグ