2011/04/22 Advanced Tech Night No.1 「クラウドのさきっちょ」復活版

ATND: http://atnd.org/events/14331 ハッシュタグ #atn2011 UST http://bit.ly/dWXdGm 2011/04/22 19:00 to 21:00 続きを読む
0
前へ 1 2 ・・ 5 次へ
close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) ・Hadoopの初回と言えば MapReduce(+HDFS,HBase) と紹介されますよね => Cloudera・・提供ベンダ さん サイトにいけばいろいろと情報があるらしい

2011-04-22 19:22:19
close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) ・大量データの並列分散処理基盤 ・安価なハードウエアを並列処理<調子が悪いPCは交換できる

2011-04-22 19:23:10
close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) Hadoop)・・といっても3つのベンダー製があります ・Apache ・Cloudera社・・商用サポート有り<CDHと呼びます ・Yahoo

2011-04-22 19:24:30
close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) ・Pig・・データ処理を簡単に記述する為のIF ・Flume・・分散大量データ収集インフラ Apache製とCloudera製は中身の構成が違います<ソース自体はOSSで公開されている

2011-04-22 19:26:34
close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) HDFS) ・Hadoopが用いる分散ファイルシステム ・Master/Slave構成 Master・・全体で1/Slave・・各ノードに1プロセス

2011-04-22 19:28:05
close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) ・自動的にData replicationされるので障害対応製は高い<マスターノード除く MapReduce) ・Map:大量データをキーで情報分散 ・Reduce;データを集める

2011-04-22 19:29:52
close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) HBase) ・TB,PBデータを使うぐらいが最適<それ以下の場合はパフォーマンスが落ちる Hive) ・SQLライクでデータ操作<CRUDが可能 ・HiveQLでデータ操作

2011-04-22 19:31:28
close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) Pig) ・スクリプト(PigLatin)を書くだけでMapReduceを操作 <=バックグラウンドで自動コンパイル :ジョブ化してくれる

2011-04-22 19:33:49
close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) ・簡単な操作はHiveの方が向いている 例)年間最高気温を求める・・4行程度で書ける records = LOAD 'temparature' AS (year:int ~

2011-04-22 19:37:05
Kenichiro Murata @muraken720

#atn2011 Pig のcsvファイルを加工するスクリプト例やってます。ヘェ〜。便利ね。

2011-04-22 19:37:48
close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) Mahout) ・Hadoop上で動作する機械学習ライブラリ =>レコメンドエンジン、スパムフィルター(協調フィルタリング)で使われる ・K平均法/ファジィK平均法/Canoopy 等

2011-04-22 19:39:10
close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) Sqoop) ・RDB(mysql)<=>HDFS間でのデータコピーツール <=HDFSにインポート後、HiveやPigで操作

2011-04-22 19:40:31
close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) Flume) ・データマイニング分野で仕様 ・agentからデータをHDFSに収集する為のデータ収集インフラ

2011-04-22 19:41:41
close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) 組合せて出来る事) ・センサ-データ=>Flume(複数のAgent容易)=>HDFSに溜め込む=>Hive,Pig、Mahoutで処理 <=これからセンサー系の話は熱くなるかも な話

2011-04-22 19:44:55
ひろうぃん @heroween

#atn2011 Hadoopのプロダクト群を組み合わせる事で何が実現できるか。

2011-04-22 19:46:17
ISSEI @isseing333

RT @kimukou_26: (#atn2011 ust at http://bit.ly/dWXdGm ) Mahout) ・Hadoop上で動作する機械学習ライブラリ =>レコメンドエンジン、スパムフィルター(協調フィルタリング)で使われる ・K平均法/ファジィK平均法/Canoopy 等

2011-04-22 19:47:21
石の上にも20年弱。 @XienceK

RT @kimukou_26: (#atn2011 ust at http://bit.ly/dWXdGm ) Mahout) ・Hadoop上で動作する機械学習ライブラリ =>レコメンドエンジン、スパムフィルター(協調フィルタリング)で使われる ・K平均法/ファジィK平均法/Canoopy 等

2011-04-22 19:47:33
close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) HiveとPigの違い) ・Hive・・ちょっとした事を遣る(SQL一発実行 ・Pig・・スクリプトで色々と複雑な事をする<フィルタリングしたりとか な使い方ではないか という話

2011-04-22 19:47:48
ひろうぃん @heroween

#atn2011 当然だけどそれぞれのプロダクトの効用をきちんと考慮しないと、簡単に出来る事を逆に複雑にしてしまう懸念もあるかな。

2011-04-22 19:49:58
close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) ・全てのプロダクトを動かそうとするとセットアップは結構大変 1)最初:1プロセス=>全部動かしてみる<MapReduce 1ノード:1 2)分散環境 と順追った方が良。VER依存も有

2011-04-22 19:50:39
close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) MaprReduce eclipse Plugin の最新版の生成設定=>環境により コンパイル通らない事も>< な話もあり

2011-04-22 19:52:10
ひろうぃん @heroween

#atn2011 APIの実装が頻繁に変わるので互換性に問題が発生すると。

2011-04-22 19:52:31
Takanori Suzuki @takanorig

#atn2011 セッション2「AWS Elastic Beanstalk で気軽にクラウド化しよう!」です。

2011-04-22 19:53:29
close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) Elastic Beanstalk 手順) ・利用申請・・玉川さんがスライド作っているので資料を見てね ・Webアプリ開発:Cubbyのwarファイルを容易

2011-04-22 19:57:59
close_yutori @kimukou2628

(#atn2011 ust at http://bit.ly/dWXdGm ) create New Application => 名前登録、アップロードするwar指定 =>インスタンスタイプを決める =>しばらくお待ちください(時間がかかりますよw

2011-04-22 20:00:18
前へ 1 2 ・・ 5 次へ