Hadoop関連技術勉強会@福岡

まとめましたー。 Zusaar http://www.zusaar.com/event/263103
1
前へ 1 ・・ 3 4
Hidenori nhide Nakamura @nhide

Clustering は郡を丸で囲むこと。似たような特徴を持った要素ごとにまとめること。かな。これにもいろいろアルゴリズムがあるらしい。例えば点と点の距離を測るアルゴリズムは分散に向く。これは理解しやすいです。 #hadoopfukuoka

2012-04-19 19:54:33
Hidenori nhide Nakamura @nhide

実際の例。科学組成をインプットして物質の性質を知る。実際に実験をしなくても組成の性質を推測できる。2千400万の組み合わせ(階乗)を圧縮した。 #hadoopfukuoka

2012-04-19 19:57:39
Hidenori nhide Nakamura @nhide

科学組成から物質の性質を導くことが出来れば、逆も出来るのでは?ということでやっている。物質の性質から科学組成を導きだす。まだまだ結果のパターンが1万と大量になる。もっと減らしたい。 #hadoopfukuoka

2012-04-19 19:59:39
なべ @nabemarunabe

お勧めしてくれる自動販売機・・・すごい!レコメンデーション、Mining技術もここまで来てるんですね。#hadoopfukuoka

2012-04-19 20:01:35
Hidenori nhide Nakamura @nhide

JR東日本の事例。スマート自動販売機。Suicaの属性を用いた。時間帯と年代と性別を条件におすすめ商品を解析。100GB/2億件のデータ。手頃な大きさですね。 #hadoopfukuoka

2012-04-19 20:02:00
Hidenori nhide Nakamura @nhide

解析が出来てよいこと:意思決定のコストを減らせる。悩まなくても数値で出せる。これはインパクトがあること。 #hadoopfukuoka

2012-04-19 20:03:29
Matsuzaki @matsumana

データマイニングは意思決定に役立つ #hadoopfukuoka

2012-04-19 20:04:08
Hidenori nhide Nakamura @nhide

株式会社ネビラボのコンセプト:データから知識に。知識から将来への創造に。スマートXXをどんどんやっていくってことっすね。 #hadoopfukuoka

2012-04-19 20:04:41
きしだൠ(K1S) @kis

2400万の階乗て、1億5000万桁くらいかの? #hadoopfukuoka

2012-04-19 20:04:41
Hidenori nhide Nakamura @nhide

最後はSSCの小田原さんです。Pentahoの紹介をします。 #hadoopfukuoka

2012-04-19 20:10:07
きしだൠ(K1S) @kis

巨大なデータにたいしてSVMをどう適用するかの解として最有力なのは「たとえばSVMを避ける」になるよね #HadoopFukuoka

2012-04-19 20:12:10
Hidenori nhide Nakamura @nhide

PentahoはオープンソースのBIツール。無料のコミュニティ版を使用してバッチ連携機能を活用している。他にも様々な機能がある。 #hadoopfukuoka

2012-04-19 20:12:23
Hidenori nhide Nakamura @nhide

バッチプログラムをごりごり書かなくても、GUIでデザインすると最小限の記述で済む。入出力は様々な種類に対応。 #hadoopfukuoka

2012-04-19 20:13:35
OsamuHashimoto @osacaz4

pentahoってデータマイニングのツール的な見方しかしてなかったけど、ETLモアルノネ。 #hadoopfukuoka

2012-04-19 20:18:34
きしだൠ(K1S) @kis

「うまく動かないですね。。。ま、こちらにできあがったものがございますので。」3分クッキングメソッド! #HadoopFukuoka

2012-04-19 20:21:01
Hidenori nhide Nakamura @nhide

デモの例:既存データの100件は一部のカラムが欠けている。それを補う100件と新規の100件の合計200件のCSVファイルを受け取った。既存のデータを削除せずに更新したい。 #hadoopfukuoka

2012-04-19 20:24:10
Hidenori nhide Nakamura @nhide

いろいろ本番ならではのトラブルが起きたものの、更新100件、新規100件のデータ連携が実現できました。(^^; #hadoopfukuoka

2012-04-19 20:24:58
Matsuzaki @matsumana

PentahoのETL。salesforceに送るのが200万件で3〜4時間。 #hadoopfukuoka

2012-04-19 20:30:51
ねぎ式™ 🥃📷🖥 @ohtsuka

基幹業務のオープン化(RDBMS化)は失敗した。というのは新鮮な分析だったな。今日一番の収穫だったかも。 #HadoopFukuoka

2012-04-19 20:59:53
前へ 1 ・・ 3 4