データエンジニアRadio 初心者にやさしいストリーミングの前提知識

さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

今日の #データエンジニアRadio のテーマは・・・ pic.twitter.com/Ekvf0Fkrqj

2024-04-18 08:00:47

拡大

かおり @mocca1103

オープニング決まった！！すごいかっこよかったです👍 #データエンジニアRadio pic.twitter.com/yPxqcb8nQ7

2024-04-18 08:01:55

さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■前回の復習　ストリーミングとは？ -> データの処理方式のひとつで、リアルタイムで流れてくるデータを処理すること ★バッチ処理：エレベーター -> 人（データ）をまとめて一気に運ぶ ★ストリーミング：エスカレーター -> 人（データ）をリアルタイムにちょっとずつ運ぶ #データエンジニアRadio

2024-04-18 08:02:53

さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■前回の復習② ラムダ／カッパアーキテクチャ ★ラムダバッチとストリーミング、２系統で処理を行う ★カッパ全部ストリーミングでいいじゃない #データエンジニアRadio pic.twitter.com/lHvlRPfY4z

2024-04-18 08:04:03

拡大

拡大

拡大

拡大

ホイル焼き @afooooil

ラムダの改善という意味がこもってそうなのにミューじゃなくてカッパーなのに今気づいた #データエンジニアRadio

2024-04-18 08:08:32

さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■前回の疑問「Kudu はなんで速いのか？」 #データエンジニアRadio

2024-04-18 08:09:32

さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■初心者の視点① 大前提コンピューターの世界では、「速さ」と「大きさ」がトレードオフ #データエンジニアRadio pic.twitter.com/jRrB9AVGeb

2024-04-18 08:10:53

拡大

さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■初心者の視点② 歴史が証明するSQLのすごさ ★リンディの法則 -> すでに長く生き残っているものほど、今後も長く生き延びる可能性が高い -> 生物もテクノロジーも同様 gigazine.net/news/20170731-… ★誕生年 1959 – COBOL 1971 - UNIX 1978 – SQL 1991 – LINUX 1995 – Java #データエンジニアRadio

2024-04-18 08:12:24

ホイル焼き @afooooil

長く生き残ってるものほど生き残りやすい #データエンジニアRadio

2024-04-18 08:15:03

さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■初心者の視点③ ムーアの法則 -> 半導体の性能は、2年で倍になる souken.shikigaku.jp/19853/ ・CPUは半導体を使っている＜↑からざっくり導き出せること＞・同じ値段で、2年後には倍の性能のCPUが作れる・同じ性能のCPUが、2年後には半分の値段で作れる #データエンジニアRadio

2024-04-18 08:15:05

さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■基本知識のおさらい① Hadoop以前／以後で、「大量データ処理」の常識はどう変わったか？ #データエンジニアRadio pic.twitter.com/8LWK65a1GP

2024-04-18 08:19:33

拡大

拡大

拡大

拡大

さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■基本知識のおさらい② Hadoop = 元気玉システムの仕組みと、何が嬉しいのか #データエンジニアRadio pic.twitter.com/cOzm4EM51E

2024-04-18 08:21:46

拡大

拡大

拡大

拡大

さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■元気玉システムの処理方法（初期）泣く子も黙る Map Reduce! 「列Aと列Bの値が等しいデータを抽出する」を Map Reduce（Java）で書くとこうなる（一例） #データエンジニアRadio pic.twitter.com/cjWOZXs7Fk

2024-04-18 08:25:20

拡大

さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■Map Reduce を見て、一般人が思うであろうこと難しい Map Reduce の処理を、シンプルに SQL で書けたらどんなにいいか…＞＜！そんな願いを叶えるために、神龍のごとく現れたのが Hive！ #データエンジニアRadio pic.twitter.com/WG7MOdlhKf

2024-04-18 08:26:28

拡大

さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■初期の Hive の問題・SQL を Map Reduce に翻訳してくれる・Map Reduce は、中間ファイルをすべてディスクに書き出しながら処理する・ディスクは遅い → Hive も遅い　という問題が浮上。 #データエンジニアRadio pic.twitter.com/vDCXPWMfQF

2024-04-18 08:27:14

拡大

ぼうさん / 外資IT魔法戦士 / Shumpei Kubo @_bou_3

古い技術が滅びないのには、長い時間を生き延びただけの何らかの理由があるんでしょうね。立川談志ぎ言ってたみたいに。 #データエンジニアRadio x.com/_bou_3/status/…

2024-04-18 08:28:29

ぼうさん / 外資IT魔法戦士 / Shumpei Kubo @_bou_3

『現実は正解なんだ。時代が悪いの、世の中がおかしいといったところで仕方がない。現実は事実だ。そして、現実を理解、分析してみろ。そこにはきっと、何故そうなったかという原因があるんだ。現実を認識して把握したら処理すりゃいいんだ。その行動を起せないやつを俺の基準で馬鹿という』立川談志

2022-08-31 17:22:19

さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■マリーさん登場・メモリ　 - 速い・高い・ディスク - 遅い・安い → コンピューターの性能が安くなったことに伴い、（当初はおそらく非現実的だった）「大量データをメモリで処理」が現実的になってきた #データエンジニアRadio pic.twitter.com/L6PdTv2ano

2024-04-18 08:29:01

拡大

ホイル焼き @afooooil

javaを生で書くのが辛い...をhiveが隠蔽する #データエンジニアRadio

2024-04-18 08:29:15

さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■インメモリ戦国時代（2010年代半ば）・たくさんのインメモリの処理エンジンが登場・基本的にメモリで処理し、あふれた分をディスクに書き込む・↑と似た発想をストレージに持ち込んだのが Kudu！ #データエンジニアRadio pic.twitter.com/f6sOTdxrns

2024-04-18 08:30:28

拡大

ホイル焼き @afooooil

昔のこち亀のPC回とかをみるとメモリの貧弱さに驚く、これがエンタープライズになると... #データエンジニアRadio

2024-04-18 08:31:23

ホイル焼き @afooooil

kudu知らなかった #データエンジニアRadio

2024-04-18 08:32:59

さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■Kudu（インメモリDB）がもたらそうとしたもの ★現状・基幹業務／分析業務は二つの違う世界・基幹業務に影響を与えないよう、分析系は基幹業務のデータを別のストレージにロードして使う ★アフター・基幹業務と分析業務を同じDBでDBで、垣根なくできる！ #データエンジニアRadio pic.twitter.com/1NlfsHFdX0

2024-04-18 08:33:51