OCHaCafe2 #6 『Cloud Native × Streaming はじめの一歩』
- OracleDev_JP
- 1348
- 3
- 0
- 0
DataFrame で構造化されたデータを SQL で扱えるようになった。ただし型安全ではない。 彡(゚)(゚) #ochacafe
2020-05-13 19:22:15Driver Program, Executer, Cluster Manager の役割分担 彡(゚)(゚) #ochacafe
2020-05-13 19:24:35YARN, k8s などが Cluster Manager として利用可能 彡(゚)(゚) #ochacafe
2020-05-13 19:25:20クラスタマネージャのYARNとNode.jsのパッケージマネージャyarnはいつもややこしい。 #ochacafe
2020-05-13 19:25:26Spark Streaming は ストリーミングデータ に対するリアルタイム処理 彡(゚)(゚) #ochacafe
2020-05-13 19:26:52前回にも似たようなぼやきをしたけど、ストリーミングデータに対する処理と言えば Oracle製品だと CEP(OEP) なんやけど、これも何処行ったんやろ…… 彡(-)(-) #ochacafe
2020-05-13 19:27:51SparkのRDD/DF/DSのデータコレクショングラフは、(関係代数のそれに似た) 演算子グラフにパーティショニングされたデータを割り当ててインスタンス化したようなもの。というふうに考えると、プログラミングしていると問合せ最適化器の気持ちになれて楽しい(苦しい)。 #ochacafe
2020-05-13 19:28:51ストリーミングデータを RDD に変換して、ニア・リアルタイム で処理していく。マイクロバッチ 彡(゚)(゚) #ochacafe
2020-05-13 19:31:59Structured Streaming → DataFrame, Dataset を Spark SQL で処理する仕組み 彡(゚)(゚) #ochacafe
2020-05-13 19:33:19Data Source → Input → Result → Output というシーケンスで処理する。Input が時系列で積み上がっていく。 彡(゚)(゚) #ochacafe
2020-05-13 19:35:24@nari_trials 製品名が変わっただけなのか、Sparkベースでまるっと作り替えてるのか。 彡(゚)(゚) #ochacafe
2020-05-13 19:38:54ターミナル画面によるデモ、左側が netcat(Input), 右側が Spark Streaming(Output) 彡(゚)(゚) #ochacafe
2020-05-13 19:41:46左側の netcat で Input すると 右側の Spark でカウントされる。 彡(゚)(゚) #ochacafe
2020-05-13 19:43:59Spark側 を Complete から Update に変更して実行、更新部分だけが出力される。 彡(゚)(゚) #ochacafe
2020-05-13 19:46:22