データエンジニアRadio 初心者にやさしいストリーミングの前提知識

4/18(木)に開催した #データエンジニアRadio のツイートまとめです。Spaceの録音を聞きつつ、ぜひご覧ください。 https://twitter.com/i/spaces/1MYxNopaQgNKw
0
かおり @mocca1103

オープニング決まった!!すごいかっこよかったです👍 #データエンジニアRadio pic.twitter.com/yPxqcb8nQ7

2024-04-18 08:01:55
さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■前回の復習 ストリーミングとは? -> データの処理方式のひとつで、リアルタイムで流れてくるデータを処理すること ★バッチ処理:エレベーター -> 人(データ)をまとめて一気に運ぶ ★ストリーミング:エスカレーター -> 人(データ)をリアルタイムにちょっとずつ運ぶ #データエンジニアRadio

2024-04-18 08:02:53
さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■前回の復習② ラムダ/カッパアーキテクチャ ★ラムダ バッチとストリーミング、2系統で処理を行う ★カッパ 全部ストリーミングでいいじゃない #データエンジニアRadio pic.twitter.com/lHvlRPfY4z

2024-04-18 08:04:03
拡大
拡大
拡大
拡大
ホイル焼き @afooooil

ラムダの改善という意味がこもってそうなのにミューじゃなくてカッパーなのに今気づいた #データエンジニアRadio

2024-04-18 08:08:32
さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■初心者の視点① 大前提 コンピューターの世界では、「速さ」と「大きさ」がトレードオフ #データエンジニアRadio pic.twitter.com/jRrB9AVGeb

2024-04-18 08:10:53
拡大
さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■初心者の視点② 歴史が証明するSQLのすごさ ★リンディの法則 -> すでに長く生き残っているものほど、今後も長く生き延びる可能性が高い -> 生物もテクノロジーも同様 gigazine.net/news/20170731-… ★誕生年 1959 – COBOL 1971 - UNIX 1978 – SQL 1991 – LINUX 1995 – Java #データエンジニアRadio

2024-04-18 08:12:24
ホイル焼き @afooooil

長く生き残ってるものほど生き残りやすい #データエンジニアRadio

2024-04-18 08:15:03
さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■初心者の視点③ ムーアの法則 -> 半導体の性能は、2年で倍になる souken.shikigaku.jp/19853/ ・CPUは半導体を使っている <↑からざっくり導き出せること> ・同じ値段で、2年後には倍の性能のCPUが作れる ・同じ性能のCPUが、2年後には半分の値段で作れる #データエンジニアRadio

2024-04-18 08:15:05
さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■基本知識のおさらい① Hadoop以前/以後で、「大量データ処理」の常識はどう変わったか? #データエンジニアRadio pic.twitter.com/8LWK65a1GP

2024-04-18 08:19:33
拡大
拡大
拡大
拡大
さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■基本知識のおさらい② Hadoop = 元気玉システムの仕組みと、何が嬉しいのか #データエンジニアRadio pic.twitter.com/cOzm4EM51E

2024-04-18 08:21:46
拡大
拡大
拡大
拡大
さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■元気玉システムの処理方法(初期) 泣く子も黙る Map Reduce! 「列Aと列Bの値が等しいデータを抽出する」を Map Reduce(Java)で書くとこうなる(一例) #データエンジニアRadio pic.twitter.com/cjWOZXs7Fk

2024-04-18 08:25:20
拡大
さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■Map Reduce を見て、一般人が思うであろうこと 難しい Map Reduce の処理を、シンプルに SQL で書けたらどんなにいいか…><! そんな願いを叶えるために、神龍のごとく現れたのが Hive! #データエンジニアRadio pic.twitter.com/WG7MOdlhKf

2024-04-18 08:26:28
拡大
さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■初期の Hive の問題 ・SQL を Map Reduce に翻訳してくれる ・Map Reduce は、中間ファイルをすべて ディスクに書き出しながら処理する ・ディスクは遅い → Hive も遅い という問題が浮上。 #データエンジニアRadio pic.twitter.com/vDCXPWMfQF

2024-04-18 08:27:14
拡大
ぼうさん / 外資IT魔法戦士 / Shumpei Kubo @_bou_3

古い技術が滅びないのには、長い時間を生き延びただけの何らかの理由があるんでしょうね。 立川談志ぎ言ってたみたいに。 #データエンジニアRadio x.com/_bou_3/status/…

2024-04-18 08:28:29
ぼうさん / 外資IT魔法戦士 / Shumpei Kubo @_bou_3

『現実は正解なんだ。時代が悪いの、世の中がおかしいといったところで仕方がない。現実は事実だ。そして、現実を理解、分析してみろ。そこにはきっと、何故そうなったかという原因があるんだ。現実を認識して把握したら処理すりゃいいんだ。その行動を起せないやつを俺の基準で馬鹿という』 立川談志

2022-08-31 17:22:19
さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■マリーさん登場 ・メモリ  - 速い・高い ・ディスク - 遅い・安い → コンピューターの性能が安くなったことに伴い、(当初はおそらく非現実的だった)「大量データをメモリで処理」が現実的になってきた #データエンジニアRadio pic.twitter.com/L6PdTv2ano

2024-04-18 08:29:01
拡大
ホイル焼き @afooooil

javaを生で書くのが辛い...をhiveが隠蔽する #データエンジニアRadio

2024-04-18 08:29:15
さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■インメモリ戦国時代(2010年代半ば) ・たくさんのインメモリの処理エンジンが登場 ・基本的にメモリで処理し、あふれた分をディスクに書き込む ・↑と似た発想をストレージに持ち込んだのが Kudu! #データエンジニアRadio pic.twitter.com/f6sOTdxrns

2024-04-18 08:30:28
拡大
ホイル焼き @afooooil

昔のこち亀のPC回とかをみるとメモリの貧弱さに驚く、これがエンタープライズになると... #データエンジニアRadio

2024-04-18 08:31:23
さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■Kudu(インメモリDB)がもたらそうとしたもの ★現状 ・基幹業務/分析業務は二つの違う世界 ・基幹業務に影響を与えないよう、分析系は基幹業務のデータを別のストレージにロードして使う ★アフター ・基幹業務と分析業務を同じDBでDBで、垣根なくできる! #データエンジニアRadio pic.twitter.com/1NlfsHFdX0

2024-04-18 08:33:51
拡大
せたくみ @setadata

TiDBで聞いたHTAP、意外と前からあった単語だったのか #データエンジニアRadio

2024-04-18 08:37:15
さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

■Kudu が活躍する領域 ・製造業(工場)の時系列データ → 多数のエンドポイントから刻々と生まれるデータを、時系列の整合性とデータの中身を失わずに処理・保管 ・コネクティッドカー、ウェアラブル端末、スマートシティ、スマート家電 #データエンジニアRadio

2024-04-18 08:38:20
さのちひろ | データエンジニアの卵🍳 @IQ_Bocchi

#データエンジニアRadio ご参加ありがとうございました✨ 「初心者でもわかる」って名前はなんかタカビーな感じで気に入ってないけど編集できなかったんです>< 初心者の心に寄り添う、楽しいラジオの録音はこちら📻✨✨ ぜひお聞きください🍀✨ twitter.com/i/spaces/1MYxN…

2024-04-18 08:52:25