もう1つのHadoop Summit 〜 #HAWQ #Spark #Kafka などの紹介 #futureofdata
Kafkaのパーティション数とSparkのスレッド数同じ→Kafkaボトルネック KafkaのProducerとBrokerの両方を増やす→Kafkaボトルネック解消できた #futureofdata
2016-12-14 19:46:04#futureofdata まとめ。Kafkaのパーティション数 > Sparkが使用するCPUコア数に設定する。Kafkaのレプリケーションでネットワーク帯域がボトルネックとなりやすい。帯域を1G -> 10Gにするなどで対応
2016-12-14 19:48:47・Kafka使うときの性能上の注意点 Kafkaパーティション数 > Sparkが使う合計CPUコア数にする Kafkaのレプリケーションでネットワーク帯域がボトルネックになる Kafkaのディスクがボトルネックになる →台数増やすとかSSDにすべし #futureofdata
2016-12-14 19:48:54#futureofdata 次は、島本さん .@chibochibo03 の「Is Spark Streaming based on Reactive Streams? 」Spark Streamingのバックプレッシャーについて説明します。普段はScala界隈に生息してます。
2016-12-14 19:51:08#futureofdata 島本さん: Spark 1.3から使っているが、Back pressureがなかった。Back pressureとは、ストリーム処理にてデータのフロー制御を行う機能です。
2016-12-14 19:52:28back pressure:受け取り側が処理可能な量を通知する機能。過負荷なら受け取り拒否できる #futureofdata
2016-12-14 19:53:20spark.streaming.backpressure.enabledをtrueにすれば使える(since 1.5) #futureofdata
2016-12-14 19:54:53#futureofdata 島本さん: Spark 1.5からback pressureに対応。デフォルトは、spark.streaming.receiver.maxRate が falseになってる、有効にするにはtrueにする
2016-12-14 19:55:20#futureofdata 島本さん: Reactive Streamsとは、非同期ストリーム処理の標準化を目指す。「みんなで足並みを揃えよう!」これに必要なのが、back pressure。
2016-12-14 19:56:35Reactive Streams(共通API規格なのかな?) ・Akka Streams (Scala) ・Flow API (JDK 9) ・対応中 (Spring 5) →spring floかなこれ #futureofdata
2016-12-14 19:57:33Publisher→Subscription→Subscriber Subscriberは何個受け取れるか返して、その分だけ送ってもらう感じ #futureofdata
2016-12-14 20:00:11#futureofdata Spark Streaming の詳細な話?になってきて、私のレベルでは追いつけないw
2016-12-14 20:00:52SparkはReactive Streamingには対応してない。 でも思想は取り込んでるとな #futureofdata
2016-12-14 20:01:16SparkでReactive Streamingのback pressureに準拠できないのは、受け取り手が送信元へフィードバックできないから。やりたければ作りこめるそうな #futureofdata
2016-12-14 20:10:00