御徒町さんのHadoop管理者トレーニング2日目

Mikkaさんと御徒町さんの「Hadoop Training for Administrators」2日目(最終日)のつぶやきです。 http://groups.google.com/group/hadoop-jp/browse_thread/thread/388f484cab45809c
11
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

ITのキャズム越えの一つのクライテリアは、間違いなく女子率。

2010-11-02 07:48:43
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

女子率上昇中!だけで、なぜか人増えるのは皆様ご承知済み。・・・さて移動開始。

2010-11-02 07:49:43
Tatsuya Kawano @tatsuya6502

@mikka_tech トレーニングですが、理解が怪しいところは、休憩時間などを利用して、ぜひ講師にきいてみてください。NTTデータの人に通訳してもらえば、英語も問題なし。質問されると講師も喜びますよ。

2010-11-02 08:00:06
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

@shot6 Hadoopはキャズム越えたね。越えましたね。今回のトレーニングでわかるわけです。

2010-11-02 08:01:09
豊月 @yutuki_r

何となく解るRT @okachimachiorz1 @shot6 Hadoopはキャズム越えたね。越えましたね。今回のトレーニングでわかるわけです

2010-11-02 08:03:58
Tatsuya Kawano @tatsuya6502

Toddさんに、Hadoop HDFS の SequenceFile の読み込みがけっこうCPUパワーを食う、という話をしたところ、データのエラーチェックをしてるためだよとの回答をもらいました。

2010-11-02 08:28:12
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

NameNodeからのリカバリーはやっても、書き込みの途中とかのファイルはゴミになってしまいますぜ。

2010-11-02 09:24:06
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

SecondaryNodeのデータのバックアップは、まーそれなりに有効。

2010-11-02 09:24:30
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

HadoopのUpgradeはトラブル時に前のバージョンに切り戻し可能

2010-11-02 09:26:30
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

デフォルトSchedulerはFIFOで、priority順にとにかく順に消化するので、全部HHighPriorityにしておくと意味なし。

2010-11-02 10:03:50
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

FairSchedulerは、長いjobと短いjobを両立させることが目的。まず、Poolの割り当てをユーザー単位で行う、んでPoolへslotを割り当てていく。

2010-11-02 10:08:42
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

まずMinの設定(これはadmin設定)で、まずこいつに割り振る。これはslotが余れば、比例配分。んで、demand(user設定)については、ゼロとそれ以外がまずあって、それ以外は数で割るw。でないとuser設定で勝手に増やすからw。

2010-11-02 10:17:13
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

minが保証できるような場合は、単純にPoolの数で割る。

2010-11-02 10:18:24
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

あーdemandゼロなら、minが設定されても配分されない。そもそもjobがないってことで。

2010-11-02 10:21:38
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

WeightをつけるとPoolの位置づけ(slotの割り当て)がWeightされる。(minは影響しない)

2010-11-02 10:25:00
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

min優先権がある場合は、「他のjobをkill」できる。(SLA確保)

2010-11-02 10:37:43
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

遅延スケジュールはデフォルト5sec。(調整可能)

2010-11-02 10:39:45
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

GangliaではDataConsolidationを多層構造にできる(大規模クラスター)→ラック単位とかで設定する感じ

2010-11-02 11:20:10
Mikka @mikka_tech

logファイルの種類、.logと.out二つあるのがなんでかわかってなかった。嬉しい。

2010-11-02 11:27:11
Mikka @mikka_tech

logファイルで容量圧迫していないか、気をつけないといけない。デフォルトでは.logは消されたりしないから。

2010-11-02 11:29:00
M.Mouri @m_mouri

@mikka_tech logファイルでi-nodeを圧迫してないかも気にした方がいいかも。

2010-11-02 11:31:44
1 ・・ 4 次へ