御徒町さんのHadoop管理者トレーニング2日目

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

ITのキャズム越えの一つのクライテリアは、間違いなく女子率。

2010-11-02 07:48:43

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

女子率上昇中！だけで、なぜか人増えるのは皆様ご承知済み。・・・さて移動開始。

2010-11-02 07:49:43

Shinpei Ohtani @shot6

@okachimachiorz1 Hadoopは・・・・ｗ

2010-11-02 07:59:01

Tatsuya Kawano @tatsuya6502

@mikka_tech トレーニングですが、理解が怪しいところは、休憩時間などを利用して、ぜひ講師にきいてみてください。NTTデータの人に通訳してもらえば、英語も問題なし。質問されると講師も喜びますよ。

2010-11-02 08:00:06

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

@shot6 Hadoopはキャズム越えたね。越えましたね。今回のトレーニングでわかるわけです。

2010-11-02 08:01:09

豊月 @yutuki_r

何となく解るRT @okachimachiorz1 @shot6 Hadoopはキャズム越えたね。越えましたね。今回のトレーニングでわかるわけです

2010-11-02 08:03:58

Tatsuya Kawano @tatsuya6502

Toddさんに、Hadoop HDFS の SequenceFile の読み込みがけっこうCPUパワーを食う、という話をしたところ、データのエラーチェックをしてるためだよとの回答をもらいました。

2010-11-02 08:28:12

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

BackUpNode（NameNode)は導入予定。

2010-11-02 09:21:30

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

NameNodeからのリカバリーはやっても、書き込みの途中とかのファイルはゴミになってしまいますぜ。

2010-11-02 09:24:06

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

SecondaryNodeのデータのバックアップは、まーそれなりに有効。

2010-11-02 09:24:30

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

HadoopのUpgradeはトラブル時に前のバージョンに切り戻し可能

2010-11-02 09:26:30

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

デフォルトSchedulerはFIFOで、priority順にとにかく順に消化するので、全部HHighPriorityにしておくと意味なし。

2010-11-02 10:03:50

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

FairSchedulerは、長いjobと短いjobを両立させることが目的。まず、Poolの割り当てをユーザー単位で行う、んでPoolへslotを割り当てていく。

2010-11-02 10:08:42

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

まずMinの設定（これはadmin設定）で、まずこいつに割り振る。これはslotが余れば、比例配分。んで、demand（user設定）については、ゼロとそれ以外がまずあって、それ以外は数で割るｗ。でないとuser設定で勝手に増やすからｗ。

2010-11-02 10:17:13

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

minが保証できるような場合は、単純にPoolの数で割る。

2010-11-02 10:18:24

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

あーdemandゼロなら、minが設定されても配分されない。そもそもjobがないってことで。

2010-11-02 10:21:38

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

WeightをつけるとPoolの位置づけ（slotの割り当て）がWeightされる。（minは影響しない）

2010-11-02 10:25:00

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

min優先権がある場合は、「他のjobをkill」できる。（SLA確保）

2010-11-02 10:37:43

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

遅延スケジュールは0.21よりリリース

2010-11-02 10:38:17

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

遅延スケジュールはデフォルト5sec。(調整可能）

2010-11-02 10:39:45

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

GangliaではDataConsolidationを多層構造にできる（大規模クラスター）→ラック単位とかで設定する感じ

2010-11-02 11:20:10

Mikka @mikka_tech

logファイルの種類、.logと.out二つあるのがなんでかわかってなかった。嬉しい。

2010-11-02 11:27:11

Mikka @mikka_tech

logファイルで容量圧迫していないか、気をつけないといけない。デフォルトでは.logは消されたりしないから。

2010-11-02 11:29:00

M.Mouri @m_mouri

@mikka_tech logファイルでi-nodeを圧迫してないかも気にした方がいいかも。

2010-11-02 11:31:44

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

クラスターベンチマークはTerasort

2010-11-02 11:33:16

いま話題のタグ