Repro Tech Meetup #9 実践・並列分散処理基盤

https://repro-tech.connpass.com/event/131612/ 並列分散処理基盤に関連した次のような発表内容を想定しています。 - 並列分散処理基盤のアーキテクチャについて。 続きを読む
0
前へ 1 ・・ 4 5 7 次へ
cory (K.Oshita) @adnm

最適な方を出力できるように、クエリ生成用の中間表現を持ってて、rubyスクリプトで実際にクエリ吐いてるのか > HiveとPrestoのクエリ生成 #reprotech

2019-06-04 20:36:50
wyukawa @wyukawa

#reprotech クエリジェネレーター欲しいな。日付関数とかpresto , hiveで違うから書き換えが面倒って話があるんだよな…

2019-06-04 20:37:32
はくどー @HKDnet

#reprotech ファイル単位でオーバーヘッドかかるってゆー話だと格納するS3側でも考える余地がありそうですかね

2019-06-04 20:37:40
P 山 @p_hyama

「Taming Distributed/Parallel Query Execution Engine of Apache Spark」 by Takeshi Yamamuro #reprotech pic.twitter.com/dkGjmpB7MF

2019-06-04 20:47:31
拡大
threetreeslight @threetreeslight

「一昔前のhadoopはinstallするのに2日かかりました」 まじかw #reprotech

2019-06-04 20:50:18
P 山 @p_hyama

Spark Meetup Tokyo #1 (Spark+AI Summit 2019) が 2019/06/12(水) に開催されるとな #reprotech

2019-06-04 20:51:27
threetreeslight @threetreeslight

「まずクエリを最適化するのが大事。その先にPlanとか処理の最適化をするべき」 #reprotech

2019-06-04 20:52:10
P 山 @p_hyama

#reprotech twitter.com/maropu/status/…

2019-06-04 20:52:27
Takeshi Yamamuro @maropu

ブログ書きました // Spark+AI Summit 2019参加レポート at San Francisco — Spark3.0/Koalas/MLflow/Delta Lake - NTT Open Source blog - medium.com/nttlabs/spark-…

2019-05-28 12:31:15
P 山 @p_hyama

「CSV で 300 ギガとかありますよね?」 #reprotech

2019-06-04 20:53:30
とーます @grimrose

おろし金Mac Pro買えば…(゚A゚;)ゴクリ #reprotech

2019-06-04 20:53:39
joker1007 (アルフォートおじさん) @joker1007

mac proで1/5TBのメモリを詰めば100GBぐらいのCSVはpandasで処理できそうw #reprotech

2019-06-04 20:53:49
えっちゃん @eccyan

NTT の @maropu さん Spark コミッターによる Spark のお話し #reprotech pic.twitter.com/D3YKwoTGs7

2019-06-04 20:54:00
拡大
拡大
拡大
拡大
おおた @ota42y

pandas、10倍のメモリがいるのか、、、 #reprotech

2019-06-04 20:54:02
threetreeslight @threetreeslight

「localで数百GBのcsv」 なにそれ怖い #reprotech

2019-06-04 20:54:17
Yuki Nagae @yukinagae

pyspark、pandasとインターフェースだいぶ違うので置き換えるの頭の体操感ある(˘ω˘)スヤァ #reprotech

2019-06-04 20:55:02
カントク @uokada

個人的に気になるのがspark実行するのにどの分散処理エンジンで実行するのが流行ってるのか? 世の中のトレンド知りたい。 #reprotech

2019-06-04 20:56:30
threetreeslight @threetreeslight

「Query側からでチューンしたいけど、出来ないことも多い。どうしようもないので分散ログを見ていく」 なるほどw #reprotech

2019-06-04 20:57:37
P 山 @p_hyama

Treasure Data と Repro は協業関係です。 #reprotech

2019-06-04 20:57:53
しんそつおわたまん @higitune

prestoの会だからかspark使ってるひと思ったより少なかったな #reprotech

2019-06-04 20:58:00
threetreeslight @threetreeslight

「Spark v2.4.3から遅延評価を行わないオプションが追加された」 ってまじかw #reprotech

2019-06-04 20:59:01
とーます @grimrose

TDの怖い人…(゚A゚;)ゴクリ #reprotech

2019-06-04 20:59:40
しんそつおわたまん @higitune

Spark v2.4.3 eager loadこれは魂売った感がある #reprotech

2019-06-04 21:00:10
前へ 1 ・・ 4 5 7 次へ