もう1つのHadoop Summit 〜 #HAWQ #Spark #Kafka などの紹介 #futureofdata

HadoopやSpark、Kafkaの勉強会。10/26, 27の「Hadoop Summit 2016 Tokyo」の掘り下げなど。東京六本木ミッドタウンのCISCOさんにて開催されました。
0
odz @odz

カレンダー狙い I love cisco UCS #cisco #futureofdata

2016-12-14 19:40:36
Kimihiko Kitase @kkitase

#futureofdata 伊藤さん: KafkaとSpark Streaming の処理性能は反比例する

2016-12-14 19:44:30
issei*fam @it__ssei

Kafkaのパーティション数とSparkのスレッド数同じ→Kafkaボトルネック KafkaのProducerとBrokerの両方を増やす→Kafkaボトルネック解消できた #futureofdata

2016-12-14 19:46:04
issei*fam @it__ssei

Kafkaクラスタ(Broker)のネットワーク帯域がボトルネックになるとか #futureofdata

2016-12-14 19:46:29
Kimihiko Kitase @kkitase

#futureofdata まとめ。Kafkaのパーティション数 > Sparkが使用するCPUコア数に設定する。Kafkaのレプリケーションでネットワーク帯域がボトルネックとなりやすい。帯域を1G -> 10Gにするなどで対応

2016-12-14 19:48:47
issei*fam @it__ssei

・Kafka使うときの性能上の注意点 Kafkaパーティション数 > Sparkが使う合計CPUコア数にする Kafkaのレプリケーションでネットワーク帯域がボトルネックになる Kafkaのディスクがボトルネックになる →台数増やすとかSSDにすべし #futureofdata

2016-12-14 19:48:54
issei*fam @it__ssei

3人目。島本さん。ストリーミングとバックプレッシャーの話とな #futureofdata

2016-12-14 19:50:22
issei*fam @it__ssei

GitBucketの開発者の一人なのか!ありがたい。 #futureofdata

2016-12-14 19:51:03
Kimihiko Kitase @kkitase

#futureofdata 次は、島本さん .@chibochibo03 の「Is Spark Streaming based on Reactive Streams? 」Spark Streamingのバックプレッシャーについて説明します。普段はScala界隈に生息してます。

2016-12-14 19:51:08
Kimihiko Kitase @kkitase

#futureofdata 島本さん: 普段はSparkクラスタをつくって使っている。

2016-12-14 19:51:43
issei*fam @it__ssei

小規模クラスタを組むにはback pressureが良いらしい #futureofdata

2016-12-14 19:52:03
Kimihiko Kitase @kkitase

#futureofdata 島本さん: Spark 1.3から使っているが、Back pressureがなかった。Back pressureとは、ストリーム処理にてデータのフロー制御を行う機能です。

2016-12-14 19:52:28
issei*fam @it__ssei

back pressure:受け取り側が処理可能な量を通知する機能。過負荷なら受け取り拒否できる #futureofdata

2016-12-14 19:53:20
issei*fam @it__ssei

リアルタイムに動き続けている中でデータ量を制御できるのが重要 #futureofdata

2016-12-14 19:54:11
issei*fam @it__ssei

spark.streaming.backpressure.enabledをtrueにすれば使える(since 1.5) #futureofdata

2016-12-14 19:54:53
Kimihiko Kitase @kkitase

#futureofdata 島本さん: Spark 1.5からback pressureに対応。デフォルトは、spark.streaming.receiver.maxRate が falseになってる、有効にするにはtrueにする

2016-12-14 19:55:20
Kimihiko Kitase @kkitase

#futureofdata 島本さん: Reactive Streamsとは、非同期ストリーム処理の標準化を目指す。「みんなで足並みを揃えよう!」これに必要なのが、back pressure。

2016-12-14 19:56:35
issei*fam @it__ssei

Reactive Streams(共通API規格なのかな?) ・Akka Streams (Scala) ・Flow API (JDK 9) ・対応中 (Spring 5) →spring floかなこれ #futureofdata

2016-12-14 19:57:33
issei*fam @it__ssei

Publisher→Subscription→Subscriber Subscriberは何個受け取れるか返して、その分だけ送ってもらう感じ #futureofdata

2016-12-14 20:00:11
Kimihiko Kitase @kkitase

#futureofdata Spark Streaming の詳細な話?になってきて、私のレベルでは追いつけないw

2016-12-14 20:00:52
issei*fam @it__ssei

SparkはReactive Streamingには対応してない。 でも思想は取り込んでるとな #futureofdata

2016-12-14 20:01:16
issei*fam @it__ssei

SparkでReactive Streamingのback pressureに準拠できないのは、受け取り手が送信元へフィードバックできないから。やりたければ作りこめるそうな #futureofdata

2016-12-14 20:10:00
issei*fam @it__ssei

続いて、須田さんの「AWSでつくる小中規模Apache Kafkaといろんな悩み」 #futureofdata

2016-12-14 20:11:47