第2回NHNテクノロジーカンファレンス #nhntech まとめ
#nhntech tagomoris 「ツール自作しましょう」doryokujin「既存のツール使わないんですか?」これはひどいww
2012-08-18 17:23:13続いてTreasure Dataの井上さん。データサイエンティストとHadoop。 #nhntech http://t.co/ypWHPCnS
2012-08-18 17:23:20まさかり背負った金太郎がいなくても、すぐにスモールスタート可能な環境を用意、ユーザは本来のゴールに集中できるようにする。。。 #nhntech
2012-08-18 17:26:04Hiveのメリット:SQL形式なのでラーニングコストが低い、既存のBIツールのJDBC/ODBCに対応している、解析に必要なデータセットが素早く得られる #nhntech
2012-08-18 17:31:29さっきランニングコストと言ったのかラーンニングコストと言ったのかどっちだ? まぁ後者は前者に含まれるけど。 #nhntech
2012-08-18 17:35:03monitaring と Business Intelligence は違う。BIはクオリティの高いレポートのため、インタラクティブな操作が必要。 #nhntech
2012-08-18 17:35:33この手のBIツールって、使いこなせる人実際にどのくらいいるんだろうなー。IT系じゃない人に言わせると「Excelでできないことはそもそもしない」なんて感じらしいし #nhntech
2012-08-18 17:39:11インタラクティブな解析を可能にするには、データ量が多すぎるので、事前にデータ量を削減した中間データを作っておくのが現代の常識(ではなく昔からの常識らしい)。毎回 Hadoop にジョブを投げて待ってはいられない。 #nhntech
2012-08-18 17:40:23BIツールではData Cubeと呼ばれる中間データを使う。任意の条件での検索に即時に応えるために、予め全ての組み合わせの集計値を持っておきたい #nhntech
2012-08-18 17:40:47そんなわけで Hadoop で1次集計してデータ量を削減し、どこか RDB とか MongoDB などに入れ、それを可視化ツールから参照するのが、Hive の典型的な利用パターンの一つ。そこで Cube。ですよ。 #nhntech
2012-08-18 17:42:52