Presto ソースコードリーディング #4
- repeatedly
- 3264
- 0
- 1
- 1
1タスク1パーティション(IOがローカルタスクで一つという前提の元にたてば),visitUnionで並列にするよりは,1つをローカルでガリガリ読んで,もう片方をExchangeになげて待った方が効率はよさそう #prestodb_scr
2014-07-15 20:37:09DriverのBLOCKED,データが無いときにBLOCKEDになる.他のワーカーからPullするデータがなかった時とか.その時はそのDriverをpendingにして,他の実行にうつる #prestodb_scr
2014-07-15 20:43:53#prestodb_scr Driver.processあたりの話。Operator.isBlockedをhackしてスケジューラーを実装することが出来る? 例えば無料ユーザはジョブが途中で止まるとか。
2014-07-15 20:48:49@frsyuki によるその場でPrestoについて解説
Presto,Exchangeの構成など,前段のOptimizerに依存してタスクが実装されている感じがしている,とashigeru先生の談.オペレータの配置などは確かにそんな感じ #prestodb_scr
2014-07-15 20:53:28#prestodb_scr worker数が多い場合はquery.initial-hash-partitions(default:8)を増やしてもいいかも
2014-07-15 21:01:12query.initial-hash-partitions,今は起動時に固定だが,クエリ毎に欲しいワーカーの数が変わるので,動的に変更したい.Treasure Dataは弄って対応していて,他の会社からも要求が出ているので,いつかその機能は入りそう #prestodb_scr
2014-07-15 21:02:15query.initial-hash-partitions をどうにかするのはPrestoいじるネタとしては面白いな #prestodb_scr
2014-07-15 21:02:46任意のKVを持てるように,という要求を投げてる人がいるが,Prestoチームは任意のKVは「HadoopのConfigurationと同じでコードがクソになるので嫌」ということで,基本的にNo #prestodb_scr
2014-07-15 21:03:32node-scheduler.min-candidatesはテーブルスキャンに聞いてくる.ワーカーをmin-cadidatesの数だけ持ってきて,そこから選んでスキャンする? #prestodb_scr
2014-07-15 21:06:40#prestodb_scr presto teamはmapreduceとprestoを同居することを想定しているのではという話
2014-07-15 21:08:32PrestoはFacebookでは,HadoopのMapReduce用のノードで共存している疑惑.単体ではメモリとかを使い切ることがあまりない.今のところはスケールアウト向けの実装 #prestodb_scr
2014-07-15 21:10:33PrestoのCREATE VIEWはHiveとは互換性がない.ConnectorのcreateViewが呼ばれて,Connector側のviewが作られる.Hiveはメタストアに色々入っているので,少し違う #prestodb_scr
2014-07-15 21:13:23#prestodb_scr prestoはデータストアを持たない設計。なのでcreate viewした場合はconnector側のmetastoreにその情報が入る。
2014-07-15 21:15:52FacebookではPrestoで8時間かかるクエリとか投げているらしい.データ量多すぎる… #prestodb_scr
2014-07-15 21:17:49Prestoチームはバランスが良い.ガッツリ書いて答えたがるDainと,ブレーキ役のMartin #prestodb_scr
2014-07-15 21:20:24