更新 2012年9月6日作成 2012年8月28日

Hadoopソースコードリーディング第12回まとめ

2012/8/28の『Hadoopソースコードリーディング第12回』http://hadoop-scr12th.eventbrite.com/ のまとめです。 1. Using Standard File-Based Applications and SQL-Based Tools with Hadoop（Tomer Shiran , Director of Product Management, MapR Technologies） http://www.slideshare.net/MapRTechnologies/nfs-and-odbc 2. Sqoopコネクタを書いてみた（NTTデータ岩崎正剛氏）続きを読む

hishidama
2787
1
0
2
1

2

前へ 1 2 3 4 5 次へ

Ryu Kobayashi @ryu_kobayashi

ピザの匂いが。。。

2012-08-28 20:05:15

Keisuke Kawamura @kkawamura

ピザタイム

2012-08-28 20:15:53

草薙昭彦 @nagix

後半は岩崎さんの「Sqoopコネクタを書いてみた」 #hadoopreading

2012-08-28 20:22:02

草薙昭彦 @nagix

Sqoopとは。ExportジョブでSqoopはなにをやっているかの図。Mapオンリージョブですね。 #hadoopreading

2012-08-28 20:23:01

Tatsuo Kawasαki @kernel023

スライドは明日ぐらいにアップロードされるようです。URLはこちら http://t.co/Plq0EmRN #hadoopreading

2012-08-28 20:23:25

草薙昭彦 @nagix

SqoopRecordとは。データレコードに対応するオブジェクト。MapReduceタスクの入出力。直接シーケンスファイルに出力可能。 #hadoopreading

2012-08-28 20:24:43

草薙昭彦 @nagix

SqoopRecordの生成。テーブルのスキーマに応じて変わる。ソースを吐いてjarにする、ということを毎回やっている。 #hadoopreading

2012-08-28 20:25:41

Takashi Shitamichi @shita

@nagix Map オンリー。（source 読んでない） #hadoopreading

2012-08-28 20:25:54

草薙昭彦 @nagix

スキーマ情報の取得。JDBCでステートメントを実行、ResultSetのgetMetadataから情報をとる。JDBCでとれないものはとれない。 #hadoopreading

2012-08-28 20:26:46

草薙昭彦 @nagix

このイベントでソースコードを見せたのはひさしぶりwww #hadoopreading

2012-08-28 20:27:17

草薙昭彦 @nagix

Sqoopコネクタ。RDBMSに応じて切り替えて使われる。SQLの方言の違いを吸収。ConnManagerを継承して実装する。#hadoopreading

2012-08-28 20:28:32

Ryu Kobayashi @ryu_kobayashi

#象坊 RT @shita: ここで象ust 見たら殺されるな。

2012-08-28 20:28:38

草薙昭彦 @nagix

ConnManagerの実装はいろいろ用意されている。sqoop --connectオプションで切り替える。 #hadoopreading

2012-08-28 20:29:28

草薙昭彦 @nagix

なんか今日はコードが多い #hadoopreading

2012-08-28 20:29:50

草薙昭彦 @nagix

pg_bulkloadコネクタを書いてみた。PostgreSQL向けに書いたコネクタ。早い。ETL的なことができる。SQOOP-390。PostgreSQLコネクタを改造。 #hadoopreading

2012-08-28 20:31:25

Kenichiro HAMANO @hamaken

Hadoopソースコードリーディングで、久しぶりにソースコードが登場！ #hadoopreading

2012-08-28 20:31:40

Toru Shimogaki @shimtoru

pg_bulkload 登場 #hadoopreading

2012-08-28 20:31:43

草薙昭彦 @nagix

MapReduceジョブでデータをexport。pg_bulkloadはテーブルロックをとるため、各Mapタスクは自分用の一時テーブルを作成。#hadoopreading

2012-08-28 20:32:50

草薙昭彦 @nagix

pg_bulkloadのexportジョブのMapReduceジョブ概念図。 #hadoopreading

2012-08-28 20:33:44

Kenichiro HAMANO @hamaken

ベースとなっている pg_bulkload の開発者は、会場内にしれっと座っている #hadoopreading

2012-08-28 20:33:56

Tatsuo Kawasαki @kernel023

pg_bulkload はreducerを使うようですね #hadoopreading

2012-08-28 20:33:56

草薙昭彦 @nagix

よいところ: 速い。でもCOPYでも速いけど。エラーレコードを飛ばしてインポートできるのは結構便利。いまいちなところ：DBサーバと全スレーブにpg_bulkloadのセットアップが必要。RPMパッケージを利用したいな。super user権限が必要 #hadoopreading

2012-08-28 20:36:06

草薙昭彦 @nagix

pg_bulkloadコネクタの使い方。Mapタスク数とReduceタスク数の指定の仕方がカオスw #hadoopreading

2012-08-28 20:37:27

Toru Shimogaki @shimtoru

@hamaken しれっと座っていますw #hadoopreading

2012-08-28 20:37:46

草薙昭彦 @nagix

Sqoopのソースコード開発の流れ。ソースコードの編集とビルド。お作法としてはant checkstyleのあとにant testでテスト。で、パッチファイルの作成。#hadoopreading

2012-08-28 20:39:34

前へ 1 2 3 4 5 次へ

いま話題のタグ

らーめん再遊記6 Apple1761 サーティワン31 竹田くん5 任天堂1051 ホラー1585 ゲゲゲの謎16 ザ!鉄腕!DASH!!526 ファンタジー1661 仕事3326 岸辺露伴は動かない86 出禁46 サンドイッチ103 おがくず153 AIイラスト261