これが今どきのデータ解析基盤だ!初心者のためのデータ解析講座 #yapcasia #yapcasiaD
データ解析の基本的な流れ データソース->収集->保存->処理->可視化->レポート、監視 #yapcasia #yapcasiaD
2015-08-22 13:16:10#yapcasia #yapcasiaD とりあえずデータ貯めるならまずは RDBMS | 一般的だしユーザーも情報も多い。単一プロセスなので単純。
2015-08-22 13:17:14何故かビジネスサイドの人からグラフよりテーブルと数字の羅列で出してくれって言われることある。一度に見える量が多いかららしい。良く分からん。 #yapcasia #yapcasiaD
2015-08-22 13:17:15#yapcasia #yapcasiaD ETL = Extract(抽出) + Transformation(変換) + Load(登録)
2015-08-22 13:17:56#yapcasia #yapcasiaD RDBMS の課題: 時系列でデータが増えていくものに対してはそんなに強くない > 並列 RDBMS
2015-08-22 13:19:03データが無いと何もできないので、とりあえず突っ込むの重要。あるもの全部入れる。RDBMSだとそこが結構きつい。スキーマの話も後で出るかな。とりあえずJSONで全部突っ込んでから考えるのがいい #yapcasia #yapcasiaD
2015-08-22 13:20:34今Redshiftばっか触ってるから、この辺の話は良く分かる。 #yapcasia #yapcasiaD
2015-08-22 13:24:34#yapcasia #yapcasiaD 並列RDBMSではデータの分散の仕方が肝。データノードと計算ノードが一緒にあるのでスケーリングが難しい。
2015-08-22 13:25:09#yapcasia #yapcasiaD 並列RDBMS > スキーマが頻繁に変更されると再構築かかったりして辛い > 最近のサービス運用だと頻繁に変わりがち > 実際に課題になってきた
2015-08-22 13:26:54スキーマにはインデックスも含まれるかな。どんなクエリが走るのかを予測しないとインデックスは張れない。でもインデックス張りすぎるとメモリが足らない。どんなクエリが走るかは、分からんし、変わる。分散キーとかも色々あって、使いこなし大変。 #yapcasia #yapcasiaD
2015-08-22 13:27:08#yapcasia #yapcasiaD Schema on Write: 書くときにスキーマを付ける(RDBMS) 書くときに重いがクエリは軽い スキーマは事前に決める必要がある
2015-08-22 13:28:17#yapcasia #yapcasiaD Schema on Read 読むときにスキーマを付与(Hadoop) スキーマ変更に強い 書き込みは軽い クエリは重い
2015-08-22 13:29:23