「Nameノードがぶっ壊れることはあるんですか、ということですが、実際ありました。原因はマザーボードです。ハードウェアはぶっ壊れるんです」
2012-04-19 19:06:34I/Oが詰まっているバッチはHadoopで早くなる。ビッグデータかどうかは関係ない。基本的には既存のバッチ実行に30分以上かかっていれば効果が出る。 #hadoopfukuoka
2012-04-19 19:07:13基幹系でHadoopを使うために必要なものをすべて準備したのがAsakusaFWです。 #hadoopfukuoka
2012-04-19 19:08:12お客さんによっては DMDL だけ使ってるケースがあった。Asakusaで書くよりも素でMapReduceを書くほうが早い。Hadoopのクラスは使いづらい。へー。 #hadoopfukuoka
2012-04-19 19:12:02分散処理のテストはUTがCTになる。簡単ではないので、そのためのツールを提供している。 #hadoopfukuoka
2012-04-19 19:12:53Linux環境用のAsakusa環境のインストーラー。Jinrikisya。すべて自動でやってくれる。 #hadoopfukuoka
2012-04-19 19:16:17おかちまちさんのおまけ。Hadoopの今後。最大の課題はクラスターへの転送。さらにインフラ構築がポイント。 #hadoopfukuoka
2012-04-19 19:17:36低レイテンシはオンメモリ。20分以上かかる処理はHadoopでいける。RDBMS面白くなる。 #hadoopfukuoka
2012-04-19 19:19:03Multi-cluster support for YAESS。分散しないHadoop。つまりは、データがあるところで処理させるっていうことですかね。 #hadoopfukuoka
2012-04-19 19:23:40次は @osacaz4 さんから、Mahoutの説明です。Mahoutだけじゃなくていろいろ説明します。NEBULABという会社を設立しました。パチパチパチ。 #hadoopfukuoka
2012-04-19 19:33:22今日はデータマイニングの説明もします。by @osacaz4 さん。ありがたいです。 #hadoopfukuoka
2012-04-19 19:35:05データマイニングのフロー。1)データ収集と事前処理。2)データの分析。3)データの可視化。 #hadoopfukuoka
2012-04-19 19:39:181)の事前処理とは:ノイズを取り除く。基準を合わせる。処理しやすいようにデータを小さくする。 #hadoopfukuoka
2012-04-19 19:40:473)のデータの可視化はとても重要。解析して理解できたとしても相手に伝わらなければ駄目。相手に分かりやすく伝えるためにはセンスも問われる。#hadoopfukuoka
2012-04-19 19:42:49科学の世界にデータマイニングを導入して実感していること。化学の実験では材料の配合を経験則でやっている。データを解析すると、思い込みを排除できる。 #hadoopfukuoka
2012-04-19 19:46:20デメリットは大きなデータが必要なこと。大きさとは多様性と組み合わせと絶対量。50件でも3時間かかる。それを早く処理するためにMahoutがある。 #hadoopfukuoka
2012-04-19 19:46:45Mahoutはデータマイニングを実装しているが、Hadoop上で実行できることがポイント。 #hadoopfukuoka
2012-04-19 19:48:42Classifiersの中には分散に向くものと向かないものがある。SupportVectorMachineはシーケンシャルな処理なので分散しない。 #hadoopfukuoka
2012-04-19 19:52:22