これが今どきのデータ解析基盤だ!初心者のためのデータ解析講座 #yapcasia #yapcasiaD

データ分析基盤を支える技術 - YAPC::Asia Tokyo 2015 http://yapcasia.org/2015/talk/show/dd8ce20e-fad2-11e4-b6e7-8ab37d574c3a
5
前へ 1 2 ・・ 6 次へ
Yak! @yak_ex

#yapcasia #yapcasiaD 収集部分で処理してしまうものも増えている

2015-08-22 13:16:08
ぷーすk @iekusup

データ解析の基本的な流れ データソース->収集->保存->処理->可視化->レポート、監視 #yapcasia #yapcasiaD

2015-08-22 13:16:10
eiryu @eiryu

TSVだと簡単にPostgreSQLに入るしね #yapcasiaD #yapcasia

2015-08-22 13:17:11
Yak! @yak_ex

#yapcasia #yapcasiaD とりあえずデータ貯めるならまずは RDBMS | 一般的だしユーザーも情報も多い。単一プロセスなので単純。

2015-08-22 13:17:14
joker1007 (アルフォートおじさん) @joker1007

何故かビジネスサイドの人からグラフよりテーブルと数字の羅列で出してくれって言われることある。一度に見える量が多いかららしい。良く分からん。 #yapcasia #yapcasiaD

2015-08-22 13:17:15
Yak! @yak_ex

#yapcasia #yapcasiaD ETL = Extract(抽出) + Transformation(変換) + Load(登録)

2015-08-22 13:17:56
e-mon @eemon18

ETL = Extract + Transformation + Load #yapcasia #yapcasiaD

2015-08-22 13:18:07
アサギマダラ @M_T_Asagi

「データベース・サーバーが一台で済んでいれば世の中はもっと幸せだった」 #yapcasia #yapcasiaD

2015-08-22 13:18:32
eiryu @eiryu

データ量が増えるとRDBMSでは破綻 #yapcasiaD #yapcasia

2015-08-22 13:19:00
Yak! @yak_ex

#yapcasia #yapcasiaD RDBMS の課題: 時系列でデータが増えていくものに対してはそんなに強くない > 並列 RDBMS

2015-08-22 13:19:03
Sadayuki Furuhashi @frsyuki

データが無いと何もできないので、とりあえず突っ込むの重要。あるもの全部入れる。RDBMSだとそこが結構きつい。スキーマの話も後で出るかな。とりあえずJSONで全部突っ込んでから考えるのがいい #yapcasia #yapcasiaD

2015-08-22 13:20:34
Yokoda @adokoy0001

列指向はひとつの列をまとめて保存する。これに依ってIOコストが節約できる。 #yapcasia #yapcasiaD

2015-08-22 13:22:20
joker1007 (アルフォートおじさん) @joker1007

今Redshiftばっか触ってるから、この辺の話は良く分かる。 #yapcasia #yapcasiaD

2015-08-22 13:24:34
黒薔薇 @kurobara

並列分散するようにしても、それ専用のノウハウが必要 #yapcasiaD

2015-08-22 13:24:55
Yak! @yak_ex

#yapcasia #yapcasiaD 並列RDBMSではデータの分散の仕方が肝。データノードと計算ノードが一緒にあるのでスケーリングが難しい。

2015-08-22 13:25:09
eiryu @eiryu

'データの再構築が頻繁に起きると人は疲弊していくわけですね'w #yapcasiaD #yapcasia

2015-08-22 13:26:25
Komatsu Yasushi @komapotter

#yapcasiaD 並列RDBMSではデータ配置や取得のチューニング厳密が前提とね。

2015-08-22 13:26:35
Yak! @yak_ex

#yapcasia #yapcasiaD 並列RDBMS > スキーマが頻繁に変更されると再構築かかったりして辛い > 最近のサービス運用だと頻繁に変わりがち > 実際に課題になってきた

2015-08-22 13:26:54
坂井 恵(SAKAI Kei) @sakaik

本日のキーワード「世の中そんなに甘くない」 #yapcasiaD

2015-08-22 13:27:05
Sadayuki Furuhashi @frsyuki

スキーマにはインデックスも含まれるかな。どんなクエリが走るのかを予測しないとインデックスは張れない。でもインデックス張りすぎるとメモリが足らない。どんなクエリが走るかは、分からんし、変わる。分散キーとかも色々あって、使いこなし大変。 #yapcasia #yapcasiaD

2015-08-22 13:27:08
Yak! @yak_ex

#yapcasia #yapcasiaD Schema on Write: 書くときにスキーマを付ける(RDBMS) 書くときに重いがクエリは軽い スキーマは事前に決める必要がある

2015-08-22 13:28:17
Yak! @yak_ex

#yapcasia #yapcasiaD Schema on Read 読むときにスキーマを付与(Hadoop) スキーマ変更に強い 書き込みは軽い クエリは重い

2015-08-22 13:29:23
前へ 1 2 ・・ 6 次へ