Tenzing: A SQL Implementation On The MapReduce Framework (2011/09/08)

Talk at #vldb2011 on Tenzing - A SQL Implementation on the MapReduce Framework by Google folks. Talk is jammed with 200 in audience.

2011-09-02 05:59:14

Michael Rys @MikeDoesBigData

#Google presented Tenzing (a #SQL on #MapReduce implementation). Will MR become a query scale-out imp strategy for the 80% case? #vldb2011

2011-09-02 06:33:32

Jeff Dalton @JeffD

#Google presenting, Tenzing, a SQL Implementation on MapReduce at #vldb2011, paper link?

2011-09-02 06:49:40

Delip Rao e/σ @deliprao

Google's super-secret Tenzing now out at VLDB 2011. Awaiting blogpost from @googleresearch http://j.mp/nKySHC #mapreduce

2011-09-02 11:05:43

Michaël Figuière @mfiguiere

"Tenzing A SQL Implementation On The MapReduce Framework". Hive done the Google way. http://t.co/YfWd1tU

2011-09-08 19:46:09

チーフデータサイエンティスト@トレジャ @doryokujin

おもしろい論文出てきた Tenzing A SQL Implementation On The MapReduce Framework - http://t.co/25GF7P5

2011-09-08 21:02:08

チーフデータサイエンティスト@トレジャ @doryokujin

Hiveのアーキテクチャを知らないのでTenzingと違いがよくわからぬ

2011-09-08 21:56:41

チーフデータサイエンティスト@トレジャ @doryokujin

Googleが打ち出したSQLのクエリで実行できるMapReduceフレームワーク、Tenzing。GoogleではTenzingを使って1日に1000人以上のエンジニアが10000クエリを、1.5PBのデータに対して実行している。 http://t.co/7Px1dPB

2011-09-08 22:02:47

Yuki Morishita @yukim

おおー。VLDB2011の論文で読みたかったやつでたー。 RT @doryokujin: おもしろい論文出てきた Tenzing A SQL Implementation On The MapReduce Framework - http://t.co/XHThe67

2011-09-08 22:03:43

チーフデータサイエンティスト@トレジャ @doryokujin

Tenzing が扱えるデータはrow stores, column stores, Bigtable, GFS , text and protocol buffers。heterogeneousなシステムなのでこれらを統括的に扱える

2011-09-08 22:05:12

チーフデータサイエンティスト@トレジャ @doryokujin

Tenzingは基本的なSQLオペレータに加えてSawzallの関数が扱える。基本的な集約関数に加えて CORR,、COVAR、STDDEVの統計関数も扱える。UNIONなどのSETオペレーションやOLAP Extensionsも。

2011-09-08 22:08:27

チーフデータサイエンティスト@トレジャ @doryokujin

@paulscott56 I'm sorry for a bad link. This is right.. http://t.co/7Px1dPB

2011-09-08 22:09:34

tagomoris @tagomoris

Tenzing のペーパーざらーーーっと眺めたけど、Hiveと較べてなんか嬉しそうかというと別にーと思いましたまる

2011-09-08 22:12:31

チーフデータサイエンティスト@トレジャ @doryokujin

Tenzingは扱えるデータフォーマットで特徴的なのは複雑な protocol buffer structuresを扱えること。内部的には平坦化されて複数のレコードとして扱われるやけども。現状はDremelと違ってflat relational dataしか扱えない。

2011-09-08 22:13:20

チーフデータサイエンティスト@トレジャ @doryokujin

さらにTenzingは R のようなscalar や table-valued のUDFが扱える。これはSawzallによって記述できるがこれによってtableに対するオペレーションが行える。

2011-09-08 22:14:33

チーフデータサイエンティスト@トレジャ @doryokujin

そしてTenzingはJOINに関してめっちゃ研究して最適化してると言うてはる。BROADCAST JOINS、REMOTE LOOKUP JOINS、DISTRIBUTED SORT-MERGE JOINS、DISTRIBUTED HASH JOINS

2011-09-08 22:16:11

wyukawa @wyukawa

FacebookはHiveを作り、GoogleはTenzingを作った。SQLでMapReduceを実行したいという需要はあるんだねー。まあ集計作業をやるならSQLだとjoin, group byが一発でできるからねえ。

2011-09-08 22:17:38

チーフデータサイエンティスト@トレジャ @doryokujin

Hiveとの違いには言及されていないのでよくわかりません。ただし6. RELATED WORKは現在のMapReduceの研究がまとめられているのでそこだけ読むのもいいかも

2011-09-08 22:18:28

チーフデータサイエンティスト@トレジャ @doryokujin

SQLと親和性の高いMapReduceフレームワークはHIVE, SCOPE, HadoopDB, Hadaptなど。

2011-09-08 22:20:41

チーフデータサイエンティスト@トレジャ @doryokujin

他と大きな機能差というよりも、パフォーマンス高そうなイメージ

2011-09-08 22:21:46

チーフデータサイエンティスト@トレジャ @doryokujin

一日にTenzingから10000クエリが実行されとるってジョブ管理どないしとんやろ

2011-09-08 22:23:30

チーフデータサイエンティスト@トレジャ @doryokujin

おぉ重要なところが。TenzingはMapReduceを強化して使っている。 1. Workerpool 2. Streaming & In-memory Chaining 3. Sort Avoidance 4. Block Shuffle 5. Local Execution

2011-09-08 22:29:20

チーフデータサイエンティスト@トレジャ @doryokujin

Hash JoinやHash Aggregationのようにsortが不要なところはMapReduceが自動でsort機能をオフにしてくれるらしい。MRのエンハンスメントのところは是非ともフィードバックしてほしいなぁ

2011-09-08 22:33:35

チーフデータサイエンティスト@トレジャ @doryokujin

Nephele/PACTs: A Programming Model and Execution Framework for Web-Scale Analytical Processing http://t.co/ZmvZzWg

2011-09-08 22:43:36

チーフデータサイエンティスト@トレジャ @doryokujin

MapReduce and PACT - Comparing Data Parallel Programming Models http://t.co/TVaDZPp

2011-09-08 22:43:54

いま話題のタグ