データエンジニアRadio 初心者にやさしいストリーミングの前提知識
今日の #データエンジニアRadio のテーマは・・・ pic.twitter.com/Ekvf0Fkrqj
2024-04-18 08:00:47オープニング決まった!!すごいかっこよかったです👍 #データエンジニアRadio pic.twitter.com/yPxqcb8nQ7
2024-04-18 08:01:55■前回の復習 ストリーミングとは? -> データの処理方式のひとつで、リアルタイムで流れてくるデータを処理すること ★バッチ処理:エレベーター -> 人(データ)をまとめて一気に運ぶ ★ストリーミング:エスカレーター -> 人(データ)をリアルタイムにちょっとずつ運ぶ #データエンジニアRadio
2024-04-18 08:02:53■前回の復習② ラムダ/カッパアーキテクチャ ★ラムダ バッチとストリーミング、2系統で処理を行う ★カッパ 全部ストリーミングでいいじゃない #データエンジニアRadio pic.twitter.com/lHvlRPfY4z
2024-04-18 08:04:03■初心者の視点① 大前提 コンピューターの世界では、「速さ」と「大きさ」がトレードオフ #データエンジニアRadio pic.twitter.com/jRrB9AVGeb
2024-04-18 08:10:53■初心者の視点② 歴史が証明するSQLのすごさ ★リンディの法則 -> すでに長く生き残っているものほど、今後も長く生き延びる可能性が高い -> 生物もテクノロジーも同様 gigazine.net/news/20170731-… ★誕生年 1959 – COBOL 1971 - UNIX 1978 – SQL 1991 – LINUX 1995 – Java #データエンジニアRadio
2024-04-18 08:12:24■初心者の視点③ ムーアの法則 -> 半導体の性能は、2年で倍になる souken.shikigaku.jp/19853/ ・CPUは半導体を使っている <↑からざっくり導き出せること> ・同じ値段で、2年後には倍の性能のCPUが作れる ・同じ性能のCPUが、2年後には半分の値段で作れる #データエンジニアRadio
2024-04-18 08:15:05■基本知識のおさらい① Hadoop以前/以後で、「大量データ処理」の常識はどう変わったか? #データエンジニアRadio pic.twitter.com/8LWK65a1GP
2024-04-18 08:19:33■基本知識のおさらい② Hadoop = 元気玉システムの仕組みと、何が嬉しいのか #データエンジニアRadio pic.twitter.com/cOzm4EM51E
2024-04-18 08:21:46■元気玉システムの処理方法(初期) 泣く子も黙る Map Reduce! 「列Aと列Bの値が等しいデータを抽出する」を Map Reduce(Java)で書くとこうなる(一例) #データエンジニアRadio pic.twitter.com/cjWOZXs7Fk
2024-04-18 08:25:20■Map Reduce を見て、一般人が思うであろうこと 難しい Map Reduce の処理を、シンプルに SQL で書けたらどんなにいいか…><! そんな願いを叶えるために、神龍のごとく現れたのが Hive! #データエンジニアRadio pic.twitter.com/WG7MOdlhKf
2024-04-18 08:26:28■初期の Hive の問題 ・SQL を Map Reduce に翻訳してくれる ・Map Reduce は、中間ファイルをすべて ディスクに書き出しながら処理する ・ディスクは遅い → Hive も遅い という問題が浮上。 #データエンジニアRadio pic.twitter.com/vDCXPWMfQF
2024-04-18 08:27:14古い技術が滅びないのには、長い時間を生き延びただけの何らかの理由があるんでしょうね。 立川談志ぎ言ってたみたいに。 #データエンジニアRadio x.com/_bou_3/status/…
2024-04-18 08:28:29『現実は正解なんだ。時代が悪いの、世の中がおかしいといったところで仕方がない。現実は事実だ。そして、現実を理解、分析してみろ。そこにはきっと、何故そうなったかという原因があるんだ。現実を認識して把握したら処理すりゃいいんだ。その行動を起せないやつを俺の基準で馬鹿という』 立川談志
2022-08-31 17:22:19■マリーさん登場 ・メモリ - 速い・高い ・ディスク - 遅い・安い → コンピューターの性能が安くなったことに伴い、(当初はおそらく非現実的だった)「大量データをメモリで処理」が現実的になってきた #データエンジニアRadio pic.twitter.com/L6PdTv2ano
2024-04-18 08:29:01■インメモリ戦国時代(2010年代半ば) ・たくさんのインメモリの処理エンジンが登場 ・基本的にメモリで処理し、あふれた分をディスクに書き込む ・↑と似た発想をストレージに持ち込んだのが Kudu! #データエンジニアRadio pic.twitter.com/f6sOTdxrns
2024-04-18 08:30:28■Kudu(インメモリDB)がもたらそうとしたもの ★現状 ・基幹業務/分析業務は二つの違う世界 ・基幹業務に影響を与えないよう、分析系は基幹業務のデータを別のストレージにロードして使う ★アフター ・基幹業務と分析業務を同じDBでDBで、垣根なくできる! #データエンジニアRadio pic.twitter.com/1NlfsHFdX0
2024-04-18 08:33:51■Kudu が活躍する領域 ・製造業(工場)の時系列データ → 多数のエンドポイントから刻々と生まれるデータを、時系列の整合性とデータの中身を失わずに処理・保管 ・コネクティッドカー、ウェアラブル端末、スマートシティ、スマート家電 #データエンジニアRadio
2024-04-18 08:38:20#データエンジニアRadio ご参加ありがとうございました✨ 「初心者でもわかる」って名前はなんかタカビーな感じで気に入ってないけど編集できなかったんです>< 初心者の心に寄り添う、楽しいラジオの録音はこちら📻✨✨ ぜひお聞きください🍀✨ twitter.com/i/spaces/1MYxN…
2024-04-18 08:52:25