もう1つのHadoop Summit 〜 #HAWQ #Spark #Kafka などの紹介 #futureofdata

HadoopやSpark、Kafkaの勉強会。10/26, 27の「Hadoop Summit 2016 Tokyo」の掘り下げなど。東京六本木ミッドタウンのCISCOさんにて開催されました。
0
Kimihiko Kitase @kkitase

12/14開催「もう1つのHadoop Summit」の紹介 - 19:05 〜 データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」 by Pivotalジャパン 松下さん futureofdata.connpass.com/event/45927/ #futureofdata

2016-12-08 17:00:41
Kimihiko Kitase @kkitase

12/14開催「もう1つのHadoop Summit」の紹介 - 19:25 〜 Spark Streamingを活用したシステムの検証結果と設計時のノウハウ 日立製作所 伊藤さん futureofdata.connpass.com/event/45927/ #futureofdata

2016-12-08 17:01:58
リンク connpass もう1つのHadoop Summit 〜 #HAWQ #Spark #Kafka などの紹介 (2016/12/14 19:00〜) # はじめに Future Of Dataは、世界39都市で、ビッグデータ関連のミートアップを行うグローバルコミュニティです。日本でもデータの利活用に関する情報発信、情報 共有を行い、データエンジニアリング、データサイエンスの普及および人材育成に貢献します。 今回は10/26, 27に行われた「Hadoop Summit 2016 Tokyo」のCFP (Call For Papers)の中から、当日都合により話せなかった内容などを紹介する勉強会を開催したいと思います。 # 日時 2016/ 4 users 93
issei*fam @it__ssei

I love Cisco UCS ! #cisco でカレンダーもらえるとな(3名)。欲しい! #futureofdata

2016-12-14 19:07:25
issei*fam @it__ssei

会場提供のCISCOさんから会社紹介。PC不機嫌すぎワロタ。 #futureofdata

2016-12-14 19:09:46
issei*fam @it__ssei

CISCO高いけど、機械学習のプラットフォームとしてはコスト効率高いという結果があるそうで #futureofdata

2016-12-14 19:10:32
ろぐ @log2n307

I love Cisco UCS ! #cisco でカレンダーもらえるらしい #futureofdata

2016-12-14 19:10:41
issei*fam @it__ssei

トップバッター、Pivotal松下さん #futureofdata

2016-12-14 19:10:54
issei*fam @it__ssei

Pivotal HDB(OSS版:Apache HAWQ)とは。 ・HAdoop With Query ・HDFS向けの高速クエリ処理が特徴 ・標準SQLに準拠している #futureofdata

2016-12-14 19:14:38
issei*fam @it__ssei

グリーンプラムの人たちがHAWQ作ったのか。というかHDFS対応したのか。 #futureofdata

2016-12-14 19:16:28
issei*fam @it__ssei

15TBのデータセットでロード時間を比較するとか面白そう #futureofdata

2016-12-14 19:19:01
Kimihiko Kitase @kkitase

#futureofdata 本日は、シスコシステムズ様で「もう一つのHadoop Summit」を開催してます。 pic.twitter.com/qp0RzWwj3R

2016-12-14 19:20:37
拡大
拡大
issei*fam @it__ssei

Impara比でHAWQは相当速いのね。 #futureofdata

2016-12-14 19:20:38
issei*fam @it__ssei

HAWQの速さの秘訣はデータの読み書きにあり。 ・Pivotalが改良したlibhdfs3(C API)によるHDFSへの配置 ・書き込み時:自身のデータノードにまず書き込む ・読み出し時:ローカルのデータブロックから最優先で読み出す #futureofdata

2016-12-14 19:26:45
issei*fam @it__ssei

HAWQのメリット ・インタラクティブに解析できる  ・速い  ・SQL使える、とか ・外部DBとの連携も可能  ・テーブルとして扱えるエクステンションがあるとな #futureofdata

2016-12-14 19:28:45
issei*fam @it__ssei

遊んでみたい人はここからVMイメージダウンロード可能とな(無償、ユーザ登録あり) network.pivotal.io/products/pivot… #futureofdata

2016-12-14 19:30:46
issei*fam @it__ssei

二人目、日立の伊藤さん「Spark Streamingを活用したシステムの検証結果と設計時のノウハウ 」 #futureofdata

2016-12-14 19:31:31
issei*fam @it__ssei

SparkはインメモリなのでHadoopより速い #futureofdata

2016-12-14 19:32:19
issei*fam @it__ssei

Spark Streaming ・マイクロバッチ方式(数秒~数分のバッチ処理) ・疑似的なストリーム処理が可能 ・二種類のオペレーション  ・ウィンドウ  ・状態更新 #futureofdata

2016-12-14 19:35:23
issei*fam @it__ssei

リアルタイムレコメンドエンジンでのOSS組み合わせ例 キュー:Kafka リアルタイム処理:Spark Streaming 検索:ElasticSearch 機械学習:MLlib クラスタ管理:YARN ファイルシステム:HDFS #futureofdata

2016-12-14 19:38:42
issei*fam @it__ssei

Kafkaのパーティション数をCPUコア数より多めにとって、Sparkのタスク数を使い切るのが重要とな #futureofdata

2016-12-14 19:39:28
Kimihiko Kitase @kkitase

#futureofdata 伊藤さん: 「Spark Streamingを活用したシステムの検証結果と設計時のノウハウ 」 をきいています。

2016-12-14 19:39:55
1 ・・ 4 次へ