Hadoopソースコードリーディング 第12回 まとめ

2012/8/28の『Hadoopソースコードリーディング 第12回』http://hadoop-scr12th.eventbrite.com/ のまとめです。 1. Using Standard File-Based Applications and SQL-Based Tools with Hadoop(Tomer Shiran , Director of Product Management, MapR Technologies) http://www.slideshare.net/MapRTechnologies/nfs-and-odbc 2. Sqoopコネクタを書いてみた(NTTデータ 岩崎 正剛 氏) 続きを読む
2
草薙 昭彦 @nagix

後半は岩崎さんの「Sqoopコネクタを書いてみた」 #hadoopreading

2012-08-28 20:22:02
草薙 昭彦 @nagix

Sqoopとは。ExportジョブでSqoopはなにをやっているかの図。Mapオンリージョブですね。 #hadoopreading

2012-08-28 20:23:01
Tatsuo Kawasαki @kernel023

スライドは明日ぐらいにアップロードされるようです。URLはこちら http://t.co/Plq0EmRN #hadoopreading

2012-08-28 20:23:25
草薙 昭彦 @nagix

SqoopRecordとは。データレコードに対応するオブジェクト。MapReduceタスクの入出力。直接シーケンスファイルに出力可能。 #hadoopreading

2012-08-28 20:24:43
草薙 昭彦 @nagix

SqoopRecordの生成。テーブルのスキーマに応じて変わる。ソースを吐いてjarにする、ということを毎回やっている。 #hadoopreading

2012-08-28 20:25:41
Takashi Shitamichi @shita

@nagix Map オンリー。(source 読んでない) #hadoopreading

2012-08-28 20:25:54
草薙 昭彦 @nagix

スキーマ情報の取得。JDBCでステートメントを実行、ResultSetのgetMetadataから情報をとる。JDBCでとれないものはとれない。 #hadoopreading

2012-08-28 20:26:46
草薙 昭彦 @nagix

このイベントでソースコードを見せたのはひさしぶりwww #hadoopreading

2012-08-28 20:27:17
草薙 昭彦 @nagix

Sqoopコネクタ。RDBMSに応じて切り替えて使われる。SQLの方言の違いを吸収。ConnManagerを継承して実装する。#hadoopreading

2012-08-28 20:28:32
Ryu Kobayashi @ryu_kobayashi

#象坊 RT @shita: ここで象ust 見たら殺されるな。

2012-08-28 20:28:38
草薙 昭彦 @nagix

ConnManagerの実装はいろいろ用意されている。sqoop --connectオプションで切り替える。 #hadoopreading

2012-08-28 20:29:28
草薙 昭彦 @nagix

pg_bulkloadコネクタを書いてみた。PostgreSQL向けに書いたコネクタ。早い。ETL的なことができる。SQOOP-390。PostgreSQLコネクタを改造。 #hadoopreading

2012-08-28 20:31:25
Kenichiro HAMANO @hamaken

Hadoopソースコードリーディングで、久しぶりにソースコードが登場! #hadoopreading

2012-08-28 20:31:40
草薙 昭彦 @nagix

MapReduceジョブでデータをexport。pg_bulkloadはテーブルロックをとるため、各Mapタスクは自分用の一時テーブルを作成。#hadoopreading

2012-08-28 20:32:50
草薙 昭彦 @nagix

pg_bulkloadのexportジョブのMapReduceジョブ概念図。 #hadoopreading

2012-08-28 20:33:44
Kenichiro HAMANO @hamaken

ベースとなっている pg_bulkload の開発者は、会場内にしれっと座っている #hadoopreading

2012-08-28 20:33:56
Tatsuo Kawasαki @kernel023

pg_bulkload はreducerを使うようですね #hadoopreading

2012-08-28 20:33:56
草薙 昭彦 @nagix

よいところ: 速い。でもCOPYでも速いけど。エラーレコードを飛ばしてインポートできるのは結構便利。 いまいちなところ:DBサーバと全スレーブにpg_bulkloadのセットアップが必要。RPMパッケージを利用したいな。super user権限が必要 #hadoopreading

2012-08-28 20:36:06
草薙 昭彦 @nagix

pg_bulkloadコネクタの使い方。Mapタスク数とReduceタスク数の指定の仕方がカオスw #hadoopreading

2012-08-28 20:37:27
草薙 昭彦 @nagix

Sqoopのソースコード開発の流れ。ソースコードの編集とビルド。お作法としてはant checkstyleのあとにant testでテスト。で、パッチファイルの作成。#hadoopreading

2012-08-28 20:39:34