Hadoop関連技術勉強会@福岡

まとめましたー。 Zusaar http://www.zusaar.com/event/263103
1
きしだൠ(K1S) @kis

「Nameノードがぶっ壊れることはあるんですか、ということですが、実際ありました。原因はマザーボードです。ハードウェアはぶっ壊れるんです」

2012-04-19 19:06:34
Hidenori nhide Nakamura @nhide

I/Oが詰まっているバッチはHadoopで早くなる。ビッグデータかどうかは関係ない。基本的には既存のバッチ実行に30分以上かかっていれば効果が出る。 #hadoopfukuoka

2012-04-19 19:07:13
きしだൠ(K1S) @kis

「ビッグデータとか関係なく、IOが詰まってるならHadoopは有効」

2012-04-19 19:07:53
Hidenori nhide Nakamura @nhide

基幹系でHadoopを使うために必要なものをすべて準備したのがAsakusaFWです。 #hadoopfukuoka

2012-04-19 19:08:12
草薙 昭彦 @nagix

Hadoopで効果が出る前提は、IOがボトルネックになっている30分以上の処理。データの大小は関係ない。#hadoopfukuoka

2012-04-19 19:10:36
Hidenori nhide Nakamura @nhide

お客さんによっては DMDL だけ使ってるケースがあった。Asakusaで書くよりも素でMapReduceを書くほうが早い。Hadoopのクラスは使いづらい。へー。 #hadoopfukuoka

2012-04-19 19:12:02
Hidenori nhide Nakamura @nhide

分散処理のテストはUTがCTになる。簡単ではないので、そのためのツールを提供している。 #hadoopfukuoka

2012-04-19 19:12:53
きしだൠ(K1S) @kis

「分散処理のテストはUTがCTになる」略しすぎです

2012-04-19 19:13:31
Hidenori nhide Nakamura @nhide

Linux環境用のAsakusa環境のインストーラー。Jinrikisya。すべて自動でやってくれる。 #hadoopfukuoka

2012-04-19 19:16:17
OsamuHashimoto @osacaz4

おかちまちさんのおまけ。Hadoopの今後。最大の課題はクラスターへの転送。さらにインフラ構築がポイント。 #hadoopfukuoka

2012-04-19 19:17:36
OsamuHashimoto @osacaz4

低レイテンシはオンメモリ。20分以上かかる処理はHadoopでいける。RDBMS面白くなる。 #hadoopfukuoka

2012-04-19 19:19:03
きしだൠ(K1S) @kis

「RDBMSの特許が切れ始めたのが2010年。これから面白いものがでてくる」

2012-04-19 19:19:36
Hidenori nhide Nakamura @nhide

Multi-cluster support for YAESS。分散しないHadoop。つまりは、データがあるところで処理させるっていうことですかね。 #hadoopfukuoka

2012-04-19 19:23:40
Hidenori nhide Nakamura @nhide

次は @osacaz4 さんから、Mahoutの説明です。Mahoutだけじゃなくていろいろ説明します。NEBULABという会社を設立しました。パチパチパチ。 #hadoopfukuoka

2012-04-19 19:33:22
きしだൠ(K1S) @kis

Mahoutの説明。とりあえず読み方わかったから満足

2012-04-19 19:33:35
Hidenori nhide Nakamura @nhide

今日はデータマイニングの説明もします。by @osacaz4 さん。ありがたいです。 #hadoopfukuoka

2012-04-19 19:35:05
kota15 @kota153

データマイニングのお話に興味津々(^^) #hadoopfukuoka

2012-04-19 19:37:43
Hidenori nhide Nakamura @nhide

データマイニングのフロー。1)データ収集と事前処理。2)データの分析。3)データの可視化。 #hadoopfukuoka

2012-04-19 19:39:18
Hidenori nhide Nakamura @nhide

1)の事前処理とは:ノイズを取り除く。基準を合わせる。処理しやすいようにデータを小さくする。 #hadoopfukuoka

2012-04-19 19:40:47
Hidenori nhide Nakamura @nhide

3)のデータの可視化はとても重要。解析して理解できたとしても相手に伝わらなければ駄目。相手に分かりやすく伝えるためにはセンスも問われる。#hadoopfukuoka

2012-04-19 19:42:49
Hidenori nhide Nakamura @nhide

科学の世界にデータマイニングを導入して実感していること。化学の実験では材料の配合を経験則でやっている。データを解析すると、思い込みを排除できる。 #hadoopfukuoka

2012-04-19 19:46:20
Hidenori nhide Nakamura @nhide

デメリットは大きなデータが必要なこと。大きさとは多様性と組み合わせと絶対量。50件でも3時間かかる。それを早く処理するためにMahoutがある。 #hadoopfukuoka

2012-04-19 19:46:45
きしだൠ(K1S) @kis

「Mahoutの読み方の正確なところは私にもよくわかりません」なんと!

2012-04-19 19:47:30
Hidenori nhide Nakamura @nhide

Mahoutはデータマイニングを実装しているが、Hadoop上で実行できることがポイント。 #hadoopfukuoka

2012-04-19 19:48:42
Hidenori nhide Nakamura @nhide

Classifiersの中には分散に向くものと向かないものがある。SupportVectorMachineはシーケンシャルな処理なので分散しない。 #hadoopfukuoka

2012-04-19 19:52:22