Presto ソースコードリーディング #4

http://atnd.org/events/53545 frsyuki来日記念に行ったやつのまとめです.
2
SKS rep @repeatedly

1タスク1パーティション(IOがローカルタスクで一つという前提の元にたてば),visitUnionで並列にするよりは,1つをローカルでガリガリ読んで,もう片方をExchangeになげて待った方が効率はよさそう #prestodb_scr

2014-07-15 20:37:09
Sadayuki Furuhashi @frsyuki

ここまできたら、task executorで話すことはもう無いんでは…!? #prestodb_scr

2014-07-15 20:39:11
SKS rep @repeatedly

DriverのBLOCKED,データが無いときにBLOCKEDになる.他のワーカーからPullするデータがなかった時とか.その時はそのDriverをpendingにして,他の実行にうつる #prestodb_scr

2014-07-15 20:43:53
wyukawa @wyukawa

#prestodb_scr Driver.processあたりの話。Operator.isBlockedをhackしてスケジューラーを実装することが出来る? 例えば無料ユーザはジョブが途中で止まるとか。

2014-07-15 20:48:49

@frsyuki によるその場でPrestoについて解説

SKS rep @repeatedly

VimでJavaのソースコードを読む人 #prestodb_scr

2014-07-15 20:51:53
oza @oza_x86

#prestodb_scr の Tez 版を開催したいな

2014-07-15 20:52:34
SKS rep @repeatedly

Presto,Exchangeの構成など,前段のOptimizerに依存してタスクが実装されている感じがしている,とashigeru先生の談.オペレータの配置などは確かにそんな感じ #prestodb_scr

2014-07-15 20:53:28
oza @oza_x86

Presto のコードキレイ... #prestodb_scr

2014-07-15 20:54:14
wyukawa @wyukawa

#prestodb_scr 実行時間が短いものが優先されるようなロジックになっているのでadhocクエリもすぐ終わるはず

2014-07-15 20:57:02
wyukawa @wyukawa

#prestodb_scr worker数が多い場合はquery.initial-hash-partitions(default:8)を増やしてもいいかも

2014-07-15 21:01:12
SKS rep @repeatedly

query.initial-hash-partitions,今は起動時に固定だが,クエリ毎に欲しいワーカーの数が変わるので,動的に変更したい.Treasure Dataは弄って対応していて,他の会社からも要求が出ているので,いつかその機能は入りそう #prestodb_scr

2014-07-15 21:02:15
tagomoris @tagomoris

query.initial-hash-partitions をどうにかするのはPrestoいじるネタとしては面白いな #prestodb_scr

2014-07-15 21:02:46
wyukawa @wyukawa

#prestodb_scr presto teamは任意のkey-value pairが嫌いらしい

2014-07-15 21:03:15
SKS rep @repeatedly

任意のKVを持てるように,という要求を投げてる人がいるが,Prestoチームは任意のKVは「HadoopのConfigurationと同じでコードがクソになるので嫌」ということで,基本的にNo #prestodb_scr

2014-07-15 21:03:32
SKS rep @repeatedly

query.initial-hash-partitionsは今熱いネタ #prestodb_scr

2014-07-15 21:04:34
SKS rep @repeatedly

node-scheduler.min-candidatesはテーブルスキャンに聞いてくる.ワーカーをmin-cadidatesの数だけ持ってきて,そこから選んでスキャンする? #prestodb_scr

2014-07-15 21:06:40
wyukawa @wyukawa

#prestodb_scr presto teamはmapreduceとprestoを同居することを想定しているのではという話

2014-07-15 21:08:32
SKS rep @repeatedly

PrestoはFacebookでは,HadoopのMapReduce用のノードで共存している疑惑.単体ではメモリとかを使い切ることがあまりない.今のところはスケールアウト向けの実装 #prestodb_scr

2014-07-15 21:10:33
SKS rep @repeatedly

PrestoのCREATE VIEWはHiveとは互換性がない.ConnectorのcreateViewが呼ばれて,Connector側のviewが作られる.Hiveはメタストアに色々入っているので,少し違う #prestodb_scr

2014-07-15 21:13:23
wyukawa @wyukawa

#prestodb_scr prestoはデータストアを持たない設計。なのでcreate viewした場合はconnector側のmetastoreにその情報が入る。

2014-07-15 21:15:52
SKS rep @repeatedly

FacebookではPrestoで8時間かかるクエリとか投げているらしい.データ量多すぎる… #prestodb_scr

2014-07-15 21:17:49
wyukawa @wyukawa

#prestodb_scr facebookは8時間ぐらいかかるようなジョブでもprestoで実行している?

2014-07-15 21:17:58
SKS rep @repeatedly

Task Recovery,いらないんじゃないか議論 #prestodb_scr

2014-07-15 21:18:33
SKS rep @repeatedly

Prestoチームはバランスが良い.ガッツリ書いて答えたがるDainと,ブレーキ役のMartin #prestodb_scr

2014-07-15 21:20:24