Tenzing: A SQL Implementation On The MapReduce Framework (2011/09/08)

さっとまとめました。 素早く読むためのデコレーションを行いました。
4
Frank Olken @frankolken

Talk at #vldb2011 on Tenzing - A SQL Implementation on the MapReduce Framework by Google folks. Talk is jammed with 200 in audience.

2011-09-02 05:59:14
Michael Rys @MikeDoesBigData

#Google presented Tenzing (a #SQL on #MapReduce implementation). Will MR become a query scale-out imp strategy for the 80% case? #vldb2011

2011-09-02 06:33:32
Jeff Dalton @JeffD

#Google presenting, Tenzing, a SQL Implementation on MapReduce at #vldb2011, paper link?

2011-09-02 06:49:40
Delip Rao e/σ @deliprao

Google's super-secret Tenzing now out at VLDB 2011. Awaiting blogpost from @googleresearch http://j.mp/nKySHC #mapreduce

2011-09-02 11:05:43
Michaël Figuière @mfiguiere

"Tenzing A SQL Implementation On The MapReduce Framework". Hive done the Google way. http://t.co/YfWd1tU

2011-09-08 19:46:09
チーフ データサイエンティスト@トレジャ @doryokujin

おもしろい論文出てきた Tenzing A SQL Implementation On The MapReduce Framework - http://t.co/25GF7P5

2011-09-08 21:02:08
チーフ データサイエンティスト@トレジャ @doryokujin

Hiveのアーキテクチャを知らないのでTenzingと違いがよくわからぬ

2011-09-08 21:56:41
チーフ データサイエンティスト@トレジャ @doryokujin

Googleが打ち出したSQLのクエリで実行できるMapReduceフレームワーク、Tenzing。GoogleではTenzingを使って1日に1000人以上のエンジニアが10000クエリを、1.5PBのデータに対して実行している。 http://t.co/7Px1dPB

2011-09-08 22:02:47
Yuki Morishita @yukim

おおー。VLDB2011の論文で読みたかったやつでたー。 RT @doryokujin: おもしろい論文出てきた Tenzing A SQL Implementation On The MapReduce Framework - http://t.co/XHThe67

2011-09-08 22:03:43
チーフ データサイエンティスト@トレジャ @doryokujin

Tenzing が扱えるデータはrow stores, column stores, Bigtable, GFS , text and protocol buffers。heterogeneousなシステムなのでこれらを統括的に扱える

2011-09-08 22:05:12
チーフ データサイエンティスト@トレジャ @doryokujin

Tenzingは基本的なSQLオペレータに加えてSawzallの関数が扱える。基本的な集約関数に加えて CORR,、COVAR、STDDEVの統計関数も扱える。UNIONなどのSETオペレーションやOLAP Extensionsも。

2011-09-08 22:08:27
tagomoris @tagomoris

Tenzing のペーパーざらーーーっと眺めたけど、Hiveと較べてなんか嬉しそうかというと別にーと思いましたまる

2011-09-08 22:12:31
チーフ データサイエンティスト@トレジャ @doryokujin

Tenzingは扱えるデータフォーマットで特徴的なのは複雑な protocol buffer structuresを扱えること。内部的には平坦化されて複数のレコードとして扱われるやけども。現状はDremelと違ってflat relational dataしか扱えない。

2011-09-08 22:13:20
チーフ データサイエンティスト@トレジャ @doryokujin

さらにTenzingは R のようなscalar や table-valued のUDFが扱える。これはSawzallによって記述できるがこれによってtableに対するオペレーションが行える

2011-09-08 22:14:33
チーフ データサイエンティスト@トレジャ @doryokujin

そしてTenzingはJOINに関してめっちゃ研究して最適化してると言うてはる。BROADCAST JOINS、REMOTE LOOKUP JOINS、DISTRIBUTED SORT-MERGE JOINS、DISTRIBUTED HASH JOINS

2011-09-08 22:16:11
wyukawa @wyukawa

FacebookはHiveを作り、GoogleはTenzingを作った。SQLでMapReduceを実行したいという需要はあるんだねー。まあ集計作業をやるならSQLだとjoin, group byが一発でできるからねえ。

2011-09-08 22:17:38
チーフ データサイエンティスト@トレジャ @doryokujin

Hiveとの違いには言及されていないのでよくわかりません。ただし6. RELATED WORKは現在のMapReduceの研究がまとめられているのでそこだけ読むのもいいかも

2011-09-08 22:18:28
チーフ データサイエンティスト@トレジャ @doryokujin

SQLと親和性の高いMapReduceフレームワークはHIVE, SCOPE, HadoopDB, Hadaptなど。

2011-09-08 22:20:41
チーフ データサイエンティスト@トレジャ @doryokujin

他と大きな機能差というよりも、パフォーマンス高そうなイメージ

2011-09-08 22:21:46
チーフ データサイエンティスト@トレジャ @doryokujin

一日にTenzingから10000クエリが実行されとるってジョブ管理どないしとんやろ

2011-09-08 22:23:30
チーフ データサイエンティスト@トレジャ @doryokujin

おぉ重要なところが。TenzingはMapReduceを強化して使っている。 1. Workerpool 2. Streaming & In-memory Chaining 3. Sort Avoidance 4. Block Shuffle 5. Local Execution

2011-09-08 22:29:20
チーフ データサイエンティスト@トレジャ @doryokujin

Hash JoinやHash Aggregationのようにsortが不要なところはMapReduceが自動でsort機能をオフにしてくれるらしい。MRのエンハンスメントのところは是非ともフィードバックしてほしいなぁ

2011-09-08 22:33:35
チーフ データサイエンティスト@トレジャ @doryokujin

Nephele/PACTs: A Programming Model and Execution Framework for Web-Scale Analytical Processing http://t.co/ZmvZzWg

2011-09-08 22:43:36