Tenzing: A SQL Implementation On The MapReduce Framework (2011/09/08)
Talk at #vldb2011 on Tenzing - A SQL Implementation on the MapReduce Framework by Google folks. Talk is jammed with 200 in audience.
2011-09-02 05:59:14#Google presented Tenzing (a #SQL on #MapReduce implementation). Will MR become a query scale-out imp strategy for the 80% case? #vldb2011
2011-09-02 06:33:32#Google presenting, Tenzing, a SQL Implementation on MapReduce at #vldb2011, paper link?
2011-09-02 06:49:40Google's super-secret Tenzing now out at VLDB 2011. Awaiting blogpost from @googleresearch http://j.mp/nKySHC #mapreduce
2011-09-02 11:05:43"Tenzing A SQL Implementation On The MapReduce Framework". Hive done the Google way. http://t.co/YfWd1tU
2011-09-08 19:46:09おもしろい論文出てきた Tenzing A SQL Implementation On The MapReduce Framework - http://t.co/25GF7P5
2011-09-08 21:02:08Googleが打ち出したSQLのクエリで実行できるMapReduceフレームワーク、Tenzing。GoogleではTenzingを使って1日に1000人以上のエンジニアが10000クエリを、1.5PBのデータに対して実行している。 http://t.co/7Px1dPB
2011-09-08 22:02:47おおー。VLDB2011の論文で読みたかったやつでたー。 RT @doryokujin: おもしろい論文出てきた Tenzing A SQL Implementation On The MapReduce Framework - http://t.co/XHThe67
2011-09-08 22:03:43Tenzing が扱えるデータはrow stores, column stores, Bigtable, GFS , text and protocol buffers。heterogeneousなシステムなのでこれらを統括的に扱える
2011-09-08 22:05:12Tenzingは基本的なSQLオペレータに加えてSawzallの関数が扱える。基本的な集約関数に加えて CORR,、COVAR、STDDEVの統計関数も扱える。UNIONなどのSETオペレーションやOLAP Extensionsも。
2011-09-08 22:08:27@paulscott56 I'm sorry for a bad link. This is right.. http://t.co/7Px1dPB
2011-09-08 22:09:34Tenzingは扱えるデータフォーマットで特徴的なのは複雑な protocol buffer structuresを扱えること。内部的には平坦化されて複数のレコードとして扱われるやけども。現状はDremelと違ってflat relational dataしか扱えない。
2011-09-08 22:13:20さらにTenzingは R のようなscalar や table-valued のUDFが扱える。これはSawzallによって記述できるがこれによってtableに対するオペレーションが行える。
2011-09-08 22:14:33そしてTenzingはJOINに関してめっちゃ研究して最適化してると言うてはる。BROADCAST JOINS、REMOTE LOOKUP JOINS、DISTRIBUTED SORT-MERGE JOINS、DISTRIBUTED HASH JOINS
2011-09-08 22:16:11FacebookはHiveを作り、GoogleはTenzingを作った。SQLでMapReduceを実行したいという需要はあるんだねー。まあ集計作業をやるならSQLだとjoin, group byが一発でできるからねえ。
2011-09-08 22:17:38Hiveとの違いには言及されていないのでよくわかりません。ただし6. RELATED WORKは現在のMapReduceの研究がまとめられているのでそこだけ読むのもいいかも
2011-09-08 22:18:28SQLと親和性の高いMapReduceフレームワークはHIVE, SCOPE, HadoopDB, Hadaptなど。
2011-09-08 22:20:41おぉ重要なところが。TenzingはMapReduceを強化して使っている。 1. Workerpool 2. Streaming & In-memory Chaining 3. Sort Avoidance 4. Block Shuffle 5. Local Execution
2011-09-08 22:29:20Hash JoinやHash Aggregationのようにsortが不要なところはMapReduceが自動でsort機能をオフにしてくれるらしい。MRのエンハンスメントのところは是非ともフィードバックしてほしいなぁ
2011-09-08 22:33:35Nephele/PACTs: A Programming Model and Execution Framework for Web-Scale Analytical Processing http://t.co/ZmvZzWg
2011-09-08 22:43:36MapReduce and PACT - Comparing Data Parallel Programming Models http://t.co/TVaDZPp
2011-09-08 22:43:54