2016年12月15日

もう１つのHadoop Summit 〜 #HAWQ #Spark #Kafka などの紹介 #futureofdata

HadoopやSpark、Kafkaの勉強会。10/26, 27の「Hadoop Summit 2016 Tokyo」の掘り下げなど。東京六本木ミッドタウンのCISCOさんにて開催されました。

プログラミング

it__ssei
1319
1
0
0

前へ 1 2 3 4 次へ

odz @odz

カレンダー狙い I love cisco UCS #cisco #futureofdata

2016-12-14 19:40:36

Kimihiko Kitase @kkitase

#futureofdata 伊藤さん: KafkaとSpark Streaming の処理性能は反比例する

2016-12-14 19:44:30

issei*fam @it__ssei

Kafkaのパーティション数とSparkのスレッド数同じ→Kafkaボトルネック KafkaのProducerとBrokerの両方を増やす→Kafkaボトルネック解消できた #futureofdata

2016-12-14 19:46:04

issei*fam @it__ssei

Kafkaクラスタ(Broker)のネットワーク帯域がボトルネックになるとか #futureofdata

2016-12-14 19:46:29

Kimihiko Kitase @kkitase

#futureofdata まとめ。Kafkaのパーティション数 > Sparkが使用するCPUコア数に設定する。Kafkaのレプリケーションでネットワーク帯域がボトルネックとなりやすい。帯域を1G -> 10Gにするなどで対応

2016-12-14 19:48:47

issei*fam @it__ssei

・Kafka使うときの性能上の注意点 Kafkaパーティション数＞ Sparkが使う合計CPUコア数にする Kafkaのレプリケーションでネットワーク帯域がボトルネックになる Kafkaのディスクがボトルネックになる →台数増やすとかSSDにすべし #futureofdata

2016-12-14 19:48:54

issei*fam @it__ssei

３人目。島本さん。ストリーミングとバックプレッシャーの話とな #futureofdata

2016-12-14 19:50:22

issei*fam @it__ssei

GitBucketの開発者の一人なのか！ありがたい。 #futureofdata

2016-12-14 19:51:03

Kimihiko Kitase @kkitase

#futureofdata 次は、島本さん .@chibochibo03 の「Is Spark Streaming based on Reactive Streams? 」Spark Streamingのバックプレッシャーについて説明します。普段はScala界隈に生息してます。

2016-12-14 19:51:08

Kimihiko Kitase @kkitase

#futureofdata 島本さん: 普段はSparkクラスタをつくって使っている。

2016-12-14 19:51:43

issei*fam @it__ssei

小規模クラスタを組むにはback pressureが良いらしい #futureofdata

2016-12-14 19:52:03

Kimihiko Kitase @kkitase

#futureofdata 島本さん: Spark 1.3から使っているが、Back pressureがなかった。Back pressureとは、ストリーム処理にてデータのフロー制御を行う機能です。

2016-12-14 19:52:28

issei*fam @it__ssei

back pressure：受け取り側が処理可能な量を通知する機能。過負荷なら受け取り拒否できる #futureofdata

2016-12-14 19:53:20

issei*fam @it__ssei

リアルタイムに動き続けている中でデータ量を制御できるのが重要 #futureofdata

2016-12-14 19:54:11

issei*fam @it__ssei

spark.streaming.backpressure.enabledをtrueにすれば使える(since 1.5) #futureofdata

2016-12-14 19:54:53

Kimihiko Kitase @kkitase

#futureofdata 島本さん: Spark 1.5からback pressureに対応。デフォルトは、spark.streaming.receiver.maxRate が falseになってる、有効にするにはtrueにする

2016-12-14 19:55:20

Kimihiko Kitase @kkitase

#futureofdata 島本さん: Reactive Streamsとは、非同期ストリーム処理の標準化を目指す。「みんなで足並みを揃えよう！」これに必要なのが、back pressure。

2016-12-14 19:56:35

issei*fam @it__ssei

Reactive Streams(共通API規格なのかな？) ・Akka Streams (Scala) ・Flow API (JDK 9) ・対応中 (Spring 5) →spring floかなこれ #futureofdata

2016-12-14 19:57:33

ろぐ @log2n307

#futureofdata TCPのフロー制御みたいね

2016-12-14 19:59:31

issei*fam @it__ssei

Publisher→Subscription→Subscriber Subscriberは何個受け取れるか返して、その分だけ送ってもらう感じ #futureofdata

2016-12-14 20:00:11

issei*fam @it__ssei

たしかに #futureofdata

2016-12-14 20:00:34

Kimihiko Kitase @kkitase

#futureofdata Spark Streaming の詳細な話?になってきて、私のレベルでは追いつけないw

2016-12-14 20:00:52

issei*fam @it__ssei

SparkはReactive Streamingには対応してない。でも思想は取り込んでるとな #futureofdata

2016-12-14 20:01:16

issei*fam @it__ssei

SparkでReactive Streamingのback pressureに準拠できないのは、受け取り手が送信元へフィードバックできないから。やりたければ作りこめるそうな #futureofdata

2016-12-14 20:10:00

issei*fam @it__ssei

続いて、須田さんの「AWSでつくる小中規模Apache Kafkaといろんな悩み」 #futureofdata

2016-12-14 20:11:47

前へ 1 2 3 4 次へ

いま話題のタグ