SparkMeetup (6ページ目)

Nobuhiro Sue @nobusue

信号処理はScalaで、データの絞り込みや変換はSparkSQLで、と分担すれば楽ができそうです。 #sparkmeetup

2014-09-08 20:29:52

和田俊輔 👼 @letusfly85

フルスキャンのほうが早いこともあるのでは #sparkmeetup

2014-09-08 20:30:16

Taro L. Saito @taroleo

@tagomoris TDのほとんどのクエリが、time index pushdownが重要です。。。

2014-09-08 20:30:29

Yuta Okamoto @okapies

Scala ファン的な視点で言うと、こういうロジックが素直な表現で書き下せるのは良いところですねぇ。 github.com/apache/spark/b… #sparkmeetup

2014-09-08 20:30:52

tagomoris @tagomoris

@taroleo そのへんはもちろんそうだろうなと思います。NULLまわりの最適化とかは(まあ簡単にやれるしやるんだろうけど)実際どうなのかなというところにちょっと興味がありました。

2014-09-08 20:31:40

tacke @tacke_jp

Catalyst読めばRDBSのオプティマイザの勉強になるのでは？？？？ #sparkmeetup

2014-09-08 20:33:32

Guutara mmmmm (⁰⊖⁰) くぁwせdrftgy ふじこlp @Guutara

いやぁ、これは、運用できないぞ。。いまの現場じゃ。教育とか、研究ならいいかなぁ。。

2014-09-08 20:34:04

Geforce RTX 3060Ti @showyou

クエリ最適化、自動ですんじゃなくてレコメンドすればいいんじゃ？

2014-09-08 20:34:38

Akihiro Okuno @choplin

@tacke_jp いわゆるRDBMSで使われているコストベースの処理がないのでそこはちょっと微妙かもですね

2014-09-08 20:35:39

Yuta Okamoto @okapies

「Catalyst そのものは一般的な関係代数の実装なので、早いところ Spark の配下から抜けて Pig とかに応用できるようにして頂きたい」 #sparkmeetup

2014-09-08 20:36:02

もろ @低規模言語モデル ';DROP TABLE 人生-- @jagd5168

"基本的に関係代数で表せる処理であれば Catalyst を乗せることができるので Spark 以外でも適用ができそう" #sparkmeetup

2014-09-08 20:36:50

Akihiro Okuno @choplin

スキーマの管理とかはやらないのかな。HCatalogみたいな。

2014-09-08 20:38:26

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

統計情報？っぽい？もの？・・・なんですかそれわ #sparkmeetup

2014-09-08 20:38:58

和田俊輔 👼 @letusfly85

統計情報っぽいものってなんだろ #sparkmeetup

2014-09-08 20:39:02

tagomoris @tagomoris

「統計情報『ぽいもの』」ぽいもの……、Hiveの統計情ウッ……

2014-09-08 20:39:07

Taro L. Saito @taroleo

@tagomoris コンパイラの教科書的な最適化ですよねぇ。まず最初にやってみたくなる的な #sparkmeetup

2014-09-08 20:39:08

Akihiro Okuno @choplin

parquetかー

2014-09-08 20:39:55

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

そもそもデータが分散している基盤で統計情報ってのが的な #sparkmeetup

2014-09-08 20:40:09

Geforce RTX 3060Ti @showyou

統計情報ってpostgreにあるあれみたいなもん？

2014-09-08 20:40:22

Geforce RTX 3060Ti @showyou

hiveに統計情報なんてあったのか。。

2014-09-08 20:41:33

Akihiro Okuno @choplin

cost-based join reorderingとな

2014-09-08 20:43:24

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

cost-based join reordering #sparkmeetup

2014-09-08 20:43:26

tagomoris @tagomoris

Sparkがあればなんでもできる！

2014-09-08 20:44:24

SAM @smrmkt

ざっとコードみた感じ，統計情報って最大値と最小値っぽい．平均とか分散とか今後入るのかしら #sparkmeetup

2014-09-08 20:44:28

Taro L. Saito @taroleo

@okachimachiorz @tagomoris マシン台数とかメモリ量とかの情報も渡さないと、join-reorderingは。。。

2014-09-08 20:44:51

いま話題のタグ