Hadoop関連技術勉強会＠福岡 (3ページ目)

きしだൠ(K1S) @kis

「Nameノードがぶっ壊れることはあるんですか、ということですが、実際ありました。原因はマザーボードです。ハードウェアはぶっ壊れるんです」

2012-04-19 19:06:34

Hidenori nhide Nakamura @nhide

I/Oが詰まっているバッチはHadoopで早くなる。ビッグデータかどうかは関係ない。基本的には既存のバッチ実行に30分以上かかっていれば効果が出る。 #hadoopfukuoka

2012-04-19 19:07:13

きしだൠ(K1S) @kis

「ビッグデータとか関係なく、IOが詰まってるならHadoopは有効」

2012-04-19 19:07:53

Hidenori nhide Nakamura @nhide

基幹系でHadoopを使うために必要なものをすべて準備したのがAsakusaFWです。 #hadoopfukuoka

2012-04-19 19:08:12

草薙昭彦 @nagix

Hadoopで効果が出る前提は、IOがボトルネックになっている30分以上の処理。データの大小は関係ない。#hadoopfukuoka

2012-04-19 19:10:36

Hidenori nhide Nakamura @nhide

お客さんによっては DMDL だけ使ってるケースがあった。Asakusaで書くよりも素でMapReduceを書くほうが早い。Hadoopのクラスは使いづらい。へー。 #hadoopfukuoka

2012-04-19 19:12:02

Hidenori nhide Nakamura @nhide

分散処理のテストはUTがCTになる。簡単ではないので、そのためのツールを提供している。 #hadoopfukuoka

2012-04-19 19:12:53

きしだൠ(K1S) @kis

「分散処理のテストはUTがCTになる」略しすぎです

2012-04-19 19:13:31

Hidenori nhide Nakamura @nhide

Linux環境用のAsakusa環境のインストーラー。Jinrikisya。すべて自動でやってくれる。 #hadoopfukuoka

2012-04-19 19:16:17

OsamuHashimoto @osacaz4

おかちまちさんのおまけ。Hadoopの今後。最大の課題はクラスターへの転送。さらにインフラ構築がポイント。 #hadoopfukuoka

2012-04-19 19:17:36

OsamuHashimoto @osacaz4

低レイテンシはオンメモリ。20分以上かかる処理はHadoopでいける。RDBMS面白くなる。 #hadoopfukuoka

2012-04-19 19:19:03

きしだൠ(K1S) @kis

「RDBMSの特許が切れ始めたのが2010年。これから面白いものがでてくる」

2012-04-19 19:19:36

Hidenori nhide Nakamura @nhide

Multi-cluster support for YAESS。分散しないHadoop。つまりは、データがあるところで処理させるっていうことですかね。 #hadoopfukuoka

2012-04-19 19:23:40

Hidenori nhide Nakamura @nhide

次は @osacaz4 さんから、Mahoutの説明です。Mahoutだけじゃなくていろいろ説明します。NEBULABという会社を設立しました。パチパチパチ。 #hadoopfukuoka

2012-04-19 19:33:22

きしだൠ(K1S) @kis

Mahoutの説明。とりあえず読み方わかったから満足

2012-04-19 19:33:35

Hidenori nhide Nakamura @nhide

今日はデータマイニングの説明もします。by @osacaz4 さん。ありがたいです。 #hadoopfukuoka

2012-04-19 19:35:05

kota15 @kota153

データマイニングのお話に興味津々(^^) #hadoopfukuoka

2012-04-19 19:37:43

Hidenori nhide Nakamura @nhide

データマイニングのフロー。1)データ収集と事前処理。2)データの分析。3)データの可視化。 #hadoopfukuoka

2012-04-19 19:39:18

Hidenori nhide Nakamura @nhide

1)の事前処理とは：ノイズを取り除く。基準を合わせる。処理しやすいようにデータを小さくする。 #hadoopfukuoka

2012-04-19 19:40:47

Hidenori nhide Nakamura @nhide

3)のデータの可視化はとても重要。解析して理解できたとしても相手に伝わらなければ駄目。相手に分かりやすく伝えるためにはセンスも問われる。#hadoopfukuoka

2012-04-19 19:42:49

Hidenori nhide Nakamura @nhide

科学の世界にデータマイニングを導入して実感していること。化学の実験では材料の配合を経験則でやっている。データを解析すると、思い込みを排除できる。 #hadoopfukuoka

2012-04-19 19:46:20

Hidenori nhide Nakamura @nhide

デメリットは大きなデータが必要なこと。大きさとは多様性と組み合わせと絶対量。50件でも3時間かかる。それを早く処理するためにMahoutがある。 #hadoopfukuoka

2012-04-19 19:46:45

きしだൠ(K1S) @kis

「Mahoutの読み方の正確なところは私にもよくわかりません」なんと！

2012-04-19 19:47:30

Hidenori nhide Nakamura @nhide

Mahoutはデータマイニングを実装しているが、Hadoop上で実行できることがポイント。 #hadoopfukuoka

2012-04-19 19:48:42

Hidenori nhide Nakamura @nhide

Classifiersの中には分散に向くものと向かないものがある。SupportVectorMachineはシーケンシャルな処理なので分散しない。 #hadoopfukuoka

2012-04-19 19:52:22

いま話題のタグ