2011/04/22 Advanced Tech Night No.1 「クラウドのさきっちょ」復活版
- kimukou2628
- 2454
- 0
- 1
- 0
(#atn2011 ust at http://bit.ly/dWXdGm ) ・Hadoopの初回と言えば MapReduce(+HDFS,HBase) と紹介されますよね => Cloudera・・提供ベンダ さん サイトにいけばいろいろと情報があるらしい
2011-04-22 19:22:19(#atn2011 ust at http://bit.ly/dWXdGm ) ・大量データの並列分散処理基盤 ・安価なハードウエアを並列処理<調子が悪いPCは交換できる
2011-04-22 19:23:10(#atn2011 ust at http://bit.ly/dWXdGm ) Hadoop)・・といっても3つのベンダー製があります ・Apache ・Cloudera社・・商用サポート有り<CDHと呼びます ・Yahoo
2011-04-22 19:24:30(#atn2011 ust at http://bit.ly/dWXdGm ) ・Pig・・データ処理を簡単に記述する為のIF ・Flume・・分散大量データ収集インフラ Apache製とCloudera製は中身の構成が違います<ソース自体はOSSで公開されている
2011-04-22 19:26:34(#atn2011 ust at http://bit.ly/dWXdGm ) HDFS) ・Hadoopが用いる分散ファイルシステム ・Master/Slave構成 Master・・全体で1/Slave・・各ノードに1プロセス
2011-04-22 19:28:05(#atn2011 ust at http://bit.ly/dWXdGm ) ・自動的にData replicationされるので障害対応製は高い<マスターノード除く MapReduce) ・Map:大量データをキーで情報分散 ・Reduce;データを集める
2011-04-22 19:29:52(#atn2011 ust at http://bit.ly/dWXdGm ) HBase) ・TB,PBデータを使うぐらいが最適<それ以下の場合はパフォーマンスが落ちる Hive) ・SQLライクでデータ操作<CRUDが可能 ・HiveQLでデータ操作
2011-04-22 19:31:28(#atn2011 ust at http://bit.ly/dWXdGm ) Pig) ・スクリプト(PigLatin)を書くだけでMapReduceを操作 <=バックグラウンドで自動コンパイル :ジョブ化してくれる
2011-04-22 19:33:49(#atn2011 ust at http://bit.ly/dWXdGm ) ・簡単な操作はHiveの方が向いている 例)年間最高気温を求める・・4行程度で書ける records = LOAD 'temparature' AS (year:int ~
2011-04-22 19:37:05(#atn2011 ust at http://bit.ly/dWXdGm ) Mahout) ・Hadoop上で動作する機械学習ライブラリ =>レコメンドエンジン、スパムフィルター(協調フィルタリング)で使われる ・K平均法/ファジィK平均法/Canoopy 等
2011-04-22 19:39:10(#atn2011 ust at http://bit.ly/dWXdGm ) Sqoop) ・RDB(mysql)<=>HDFS間でのデータコピーツール <=HDFSにインポート後、HiveやPigで操作
2011-04-22 19:40:31(#atn2011 ust at http://bit.ly/dWXdGm ) Flume) ・データマイニング分野で仕様 ・agentからデータをHDFSに収集する為のデータ収集インフラ
2011-04-22 19:41:41(#atn2011 ust at http://bit.ly/dWXdGm ) 組合せて出来る事) ・センサ-データ=>Flume(複数のAgent容易)=>HDFSに溜め込む=>Hive,Pig、Mahoutで処理 <=これからセンサー系の話は熱くなるかも な話
2011-04-22 19:44:55RT @kimukou_26: (#atn2011 ust at http://bit.ly/dWXdGm ) Mahout) ・Hadoop上で動作する機械学習ライブラリ =>レコメンドエンジン、スパムフィルター(協調フィルタリング)で使われる ・K平均法/ファジィK平均法/Canoopy 等
2011-04-22 19:47:21RT @kimukou_26: (#atn2011 ust at http://bit.ly/dWXdGm ) Mahout) ・Hadoop上で動作する機械学習ライブラリ =>レコメンドエンジン、スパムフィルター(協調フィルタリング)で使われる ・K平均法/ファジィK平均法/Canoopy 等
2011-04-22 19:47:33(#atn2011 ust at http://bit.ly/dWXdGm ) HiveとPigの違い) ・Hive・・ちょっとした事を遣る(SQL一発実行 ・Pig・・スクリプトで色々と複雑な事をする<フィルタリングしたりとか な使い方ではないか という話
2011-04-22 19:47:48#atn2011 当然だけどそれぞれのプロダクトの効用をきちんと考慮しないと、簡単に出来る事を逆に複雑にしてしまう懸念もあるかな。
2011-04-22 19:49:58(#atn2011 ust at http://bit.ly/dWXdGm ) ・全てのプロダクトを動かそうとするとセットアップは結構大変 1)最初:1プロセス=>全部動かしてみる<MapReduce 1ノード:1 2)分散環境 と順追った方が良。VER依存も有
2011-04-22 19:50:39(#atn2011 ust at http://bit.ly/dWXdGm ) MaprReduce eclipse Plugin の最新版の生成設定=>環境により コンパイル通らない事も>< な話もあり
2011-04-22 19:52:10#atn2011 セッション2「AWS Elastic Beanstalk で気軽にクラウド化しよう!」です。
2011-04-22 19:53:29(#atn2011 ust at http://bit.ly/dWXdGm ) Elastic Beanstalk 手順) ・利用申請・・玉川さんがスライド作っているので資料を見てね ・Webアプリ開発:Cubbyのwarファイルを容易
2011-04-22 19:57:59(#atn2011 ust at http://bit.ly/dWXdGm ) create New Application => 名前登録、アップロードするwar指定 =>インスタンスタイプを決める =>しばらくお待ちください(時間がかかりますよw
2011-04-22 20:00:18