2015/03/29 Developers.IO 2015 Developer Day CM勢ビッグデータトラック #cmdevio2015G

Developers.IO 2015 | IoT, BigData, BI. in 3/27(金),29(日) http://devio2015.classmethod.jp/ ハッシュタグ:#cmdevio2015G ※CM勢ビッグデータ関連トラックのつぶやきを収集します。 続きを読む
0
ばしし @rada_bashishi

列圧縮タイプはアナライズかけるとLZOが良く引っかかる。圧縮率は高いかもしれないが速いものとは限らないので推奨エンコードを参考にしてどれにするかは腕の見せどころ。 #cmdevio2015g

2015-03-29 15:38:04
Ryo Suzuki @suzryo

RedShiftのノードタイプ。スライス(CPU)あたりのメモリはほぼ均一。(1スライス:7〜7.5GBメモリ)、ストレージ種別、SSD or HDDと容量が大きな違い。 #cmdevio2015G #cmdevio2015

2015-03-29 15:39:54
Ryo Suzuki @suzryo

RedShift、細かいクエリは苦手。分散処理効く重い処理に本領発揮。同時実行数の上げすぎ(15以上)は、弊害も。 #cmdevio2015 #cmdevio2015G

2015-03-29 15:41:25
ばしし @rada_bashishi

データウェアハウスは並列処理があまり得意ではない。 並列度を高めることが効率を上げることではない。 #cmdevio2015g

2015-03-29 15:42:03
ばしし @rada_bashishi

クエリーの実行にオーバーヘッドがかかるので1回の処理で大量のデータを処理するのが良い #cmdevio2015g

2015-03-29 15:45:18
ばしし @rada_bashishi

RedshiftはタイムゾーンがUTC固定! #cmdevio2015g

2015-03-29 15:48:12
ばしし @rada_bashishi

RDB/RDSとの違いをしること 適切な分散キーの選定は最優先 同時実行や小さいクエリーは向かない #cmdevio2015g

2015-03-29 15:49:35
torazuka @torazuka

「ETLツールに高度な分析ができる機能を付加したものがAlteryxです」 Alterixのデモ始まりました #cmdevio2015H

2015-03-29 16:03:22
torazuka @torazuka

Alteryx DesignerにはR言語のエンジンを追加でインストールできるとのこと。Alteryx Serverが社内共有用。Alteryx Analytics Galleryがパブリック公開用(便利マクロのリポジトリ) #cmdevio2015H

2015-03-29 16:06:26
torazuka @torazuka

Alteryx Analytics Galleryを探ると、基本機能にないマクロがいろいろあるらしい。MongoDBと繋ぐ機能とか #cmdevio2015H

2015-03-29 16:07:16
torazuka @torazuka

CSVデータは型がないのでただの文字列だが、RDBに投入する時に型情報やサイズの付与が必要。オートフィールドという機能で、各列項目を検索して型情報や最大サイズを定義してくれる。 #cmdevio2015H

2015-03-29 16:16:43
torazuka @torazuka

Alterix、データを分析しやすくするための前処理のための組込み関数が充実しているという話。また、異なるデータソースのデータ(RDBのデータとCSVとか)をJOINする操作も簡単。 #cmdevio2015H

2015-03-29 16:21:58
torazuka @torazuka

データ処理をデータベース側で行う新機能In-Databaseの話 #cmdevio2015H

2015-03-29 16:25:56
torazuka @torazuka

分析データと地図データ(通り、番地レベル)との組み合わせもできる #cmdevio2015H

2015-03-29 16:30:16
torazuka @torazuka

Alteryx、ディシジョンツリーの作成やバスケット分析を支援する機能もある #cmdevio2015H

2015-03-29 16:37:32