#xdev Hadoopによる基幹バッチの導入 Enterprise Hadoop の実際のSI

XDev2011 B-5 ノーチラス・テクノロジーズの神林さんによる『Hadoopによる基幹バッチの導入 Enterprise Hadoop の実際のSI』 (http://ac.nikkeibp.co.jp/cn/xdev11http://itpro.nikkeibp.co.jp/article/MAG/20110824/366921/?ST=xdev)のツイートのまとめです。
8
NOMURA Yoshihide @yoshimov

さて、これから今日の本命のAsakusa。やはり人は多そうな感じ。 #xdev #xdev_b

2011-09-16 14:51:34
NAO @nemoton

ノーチラス・テクノロジーズ 神林さんによる、 Hadoop による基幹バッチの導入 Enterprise Hadoop の実際のSI #xdev

2011-09-16 15:07:02
NOMURA Yoshihide @yoshimov

Hadoopによる基幹バッチの導入。Hadoopの説明を聞きたい人、ゼロ。 #xdev #xdev_b

2011-09-16 15:07:14
NOMURA Yoshihide @yoshimov

Hadoopを使うのは、分散IOのため。ビッグデータは関係ない。 #xdev #xdev_b

2011-09-16 15:11:19
NAO @nemoton

いかにして汎用機に勝つか、普通にオープン系をやっても勝てない、チャレンジ!調査!コミュニティ系が今のAsakusa を支えるにいたる!ビッグデータ関係無い、単純に分散IO使いたい、扱えるデータの種類増える。でもMRの制限は結構なもの。きちんと適・不適の見極め重要~。 #xdev

2011-09-16 15:13:36
NOMURA Yoshihide @yoshimov

処理対象が5GBを超えたらHadoop適用を検討する価値あり。 #xdev #xdev_b

2011-09-16 15:14:38
NOMURA Yoshihide @yoshimov

バッチにHadoopを使うメリットは、大量ではなく多種類のデータが扱えるようになること。やれることが増える。 #xdev #xdev_b

2011-09-16 15:15:49
NOMURA Yoshihide @yoshimov

Hiveはテストが難しい。Asakusaはテストができるのが特徴。 #xdev #xdev_b

2011-09-16 15:18:00
Ryu Kobayashi @ryu_kobayashi

MBAがWiFIで固まったから再起動したら繋がった。XDevおかちまちセッションに潜入中。

2011-09-16 15:19:53
NOMURA Yoshihide @yoshimov

データの取り込みは普通にRDBにDump&Load。基幹だとHDFSでは信頼性が確保できない。 #xdev #xdev_b

2011-09-16 15:22:23
NOMURA Yoshihide @yoshimov

データの取り込みはこれから肝になる。Hadoopはもう当たり前。 #xdev #xdev_b

2011-09-16 15:25:19
NOMURA Yoshihide @yoshimov

Hadoopで見える情報量が増えるのが、フロント系のコスト増に繋がることがある。 #xdev #xdev_b

2011-09-16 15:27:24
NOMURA Yoshihide @yoshimov

DBサーバのデータをHDFS上に透過的に反映。自分で作ると大変。EDIの専門家でも作るのは大変だった。 #xdev #xdev_b

2011-09-16 15:28:45
NOMURA Yoshihide @yoshimov

Hadoopクラスタは絶対壊れる。2重化がおすすめ。フェイルオーバーする。 #xdev #xdev_b

2011-09-16 15:29:27
NAO @nemoton

今はhadoopクラスタそのものの話が重要でなく、高速なファイルサーバーをどうシステムに配置して機能させるかなど。。。FaceBookはHBaseを、、、これはこれまでのBIとは全く異なる、はっきりいって基幹系。基幹系への流れ、基幹そのもの。 #xdev

2011-09-16 15:31:14
Ryu Kobayashi @ryu_kobayashi

@nemoton 基幹の話は聞かんとかいかんですね!

2011-09-16 15:32:22
NOMURA Yoshihide @yoshimov

個別原価法を導入すると、売価還元法と比べて計算量1000倍。Hadoopでないとバッチ処理は不可能だった。 #xdev #xdev_b

2011-09-16 15:35:51
NAO @nemoton

ビッグデータ、というよりも、業務系ではこれまで取れていたデータを使いきる、最大限使えるようになったことが、Hadoop の大きな特徴。 #xdev

2011-09-16 15:36:34
NOMURA Yoshihide @yoshimov

基幹バッチにはアジャイルはおすすめしない。機能間が複雑に依存しているため。きっちり処理を設計する。設計にはDFDを利用。 #xdev #xdev_b

2011-09-16 15:38:43
Ryu Kobayashi @ryu_kobayashi

ビッグデータ、ビッグデータっていうけど、なんで単位がTB、PBだけなんだろうね。やることによっちゃ数GBで1000万レコードもあれば十分ビックデータなのに。

2011-09-16 15:40:41
NOMURA Yoshihide @yoshimov

AsakusaのDSLはJavaベース。Hadoopを知っている必要はない。 #xdev #xdev_b

2011-09-16 15:40:52
さすらいのレビュー屋 @mori_ryuji

CTってなんだろう。統合テストのことかな? #xdev

2011-09-16 15:41:55
NOMURA Yoshihide @yoshimov

分散環境でのUTは実際はCT。テストのやり方が変わってくる。 #xdev #xdev_b

2011-09-16 15:42:02
NAO @nemoton

IFRS に対応するのは仕方がないのだが、個別原価法だと一個一個の在庫を全部トレースしないといけないので、売価原価法の扱うデータに比べて1000倍程度になるので、このデータ量をいかにさばくががあれだったが、Hadoop なら食える感覚がすぐにあったが、その通りだった #xdev

2011-09-16 15:43:04
NOMURA Yoshihide @yoshimov

Hadoopで基幹バッチを行う場合、バッチ処理の見積もりはだいたい半分ぐらい。あとは普通のSI。 #xdev #xdev_b

2011-09-16 15:44:20