Hadoopソースコードリーディング 第12回 まとめ
スライドは明日ぐらいにアップロードされるようです。URLはこちら http://t.co/Plq0EmRN #hadoopreading
2012-08-28 20:23:25SqoopRecordとは。データレコードに対応するオブジェクト。MapReduceタスクの入出力。直接シーケンスファイルに出力可能。 #hadoopreading
2012-08-28 20:24:43SqoopRecordの生成。テーブルのスキーマに応じて変わる。ソースを吐いてjarにする、ということを毎回やっている。 #hadoopreading
2012-08-28 20:25:41スキーマ情報の取得。JDBCでステートメントを実行、ResultSetのgetMetadataから情報をとる。JDBCでとれないものはとれない。 #hadoopreading
2012-08-28 20:26:46Sqoopコネクタ。RDBMSに応じて切り替えて使われる。SQLの方言の違いを吸収。ConnManagerを継承して実装する。#hadoopreading
2012-08-28 20:28:32ConnManagerの実装はいろいろ用意されている。sqoop --connectオプションで切り替える。 #hadoopreading
2012-08-28 20:29:28pg_bulkloadコネクタを書いてみた。PostgreSQL向けに書いたコネクタ。早い。ETL的なことができる。SQOOP-390。PostgreSQLコネクタを改造。 #hadoopreading
2012-08-28 20:31:25MapReduceジョブでデータをexport。pg_bulkloadはテーブルロックをとるため、各Mapタスクは自分用の一時テーブルを作成。#hadoopreading
2012-08-28 20:32:50ベースとなっている pg_bulkload の開発者は、会場内にしれっと座っている #hadoopreading
2012-08-28 20:33:56よいところ: 速い。でもCOPYでも速いけど。エラーレコードを飛ばしてインポートできるのは結構便利。 いまいちなところ:DBサーバと全スレーブにpg_bulkloadのセットアップが必要。RPMパッケージを利用したいな。super user権限が必要 #hadoopreading
2012-08-28 20:36:06Sqoopのソースコード開発の流れ。ソースコードの編集とビルド。お作法としてはant checkstyleのあとにant testでテスト。で、パッチファイルの作成。#hadoopreading
2012-08-28 20:39:34