2015/03/29 Developers.IO 2015 Developer Day CM勢ビッグデータトラック #cmdevio2015G
列圧縮タイプはアナライズかけるとLZOが良く引っかかる。圧縮率は高いかもしれないが速いものとは限らないので推奨エンコードを参考にしてどれにするかは腕の見せどころ。 #cmdevio2015g
2015-03-29 15:38:04RedShiftのノードタイプ。スライス(CPU)あたりのメモリはほぼ均一。(1スライス:7〜7.5GBメモリ)、ストレージ種別、SSD or HDDと容量が大きな違い。 #cmdevio2015G #cmdevio2015
2015-03-29 15:39:54RedShift、細かいクエリは苦手。分散処理効く重い処理に本領発揮。同時実行数の上げすぎ(15以上)は、弊害も。 #cmdevio2015 #cmdevio2015G
2015-03-29 15:41:25データウェアハウスは並列処理があまり得意ではない。 並列度を高めることが効率を上げることではない。 #cmdevio2015g
2015-03-29 15:42:03RDB/RDSとの違いをしること 適切な分散キーの選定は最優先 同時実行や小さいクエリーは向かない #cmdevio2015g
2015-03-29 15:49:35「ETLツールに高度な分析ができる機能を付加したものがAlteryxです」 Alterixのデモ始まりました #cmdevio2015H
2015-03-29 16:03:22Alteryx DesignerにはR言語のエンジンを追加でインストールできるとのこと。Alteryx Serverが社内共有用。Alteryx Analytics Galleryがパブリック公開用(便利マクロのリポジトリ) #cmdevio2015H
2015-03-29 16:06:26Alteryx Analytics Galleryを探ると、基本機能にないマクロがいろいろあるらしい。MongoDBと繋ぐ機能とか #cmdevio2015H
2015-03-29 16:07:16CSVデータは型がないのでただの文字列だが、RDBに投入する時に型情報やサイズの付与が必要。オートフィールドという機能で、各列項目を検索して型情報や最大サイズを定義してくれる。 #cmdevio2015H
2015-03-29 16:16:43Alterix、データを分析しやすくするための前処理のための組込み関数が充実しているという話。また、異なるデータソースのデータ(RDBのデータとCSVとか)をJOINする操作も簡単。 #cmdevio2015H
2015-03-29 16:21:58