shiumachi先生のCDH講座2012

shiumachiさん・kernel023さん他の、ClouderaのHadoopに関するツイートの備忘です。
0
Sho Shimauchi @shiumachi

帰宅途中にすることがなくなってしまった。仕方ないので象のtipsでもツイートするか……誰得だがよくわからんが

2012-06-27 23:08:08
Sho Shimauchi @shiumachi

1. hadoop の NN や DN は、動かすだけならヒープは50MBもあれば十分。だから Mac 上で20ノード並列稼働するなんてことも可能。 #14e35d

2012-06-27 23:17:37
Sho Shimauchi @shiumachi

2. 小さいファイルをまとめて1ブロックに格納するには HAR ファイルを使う。HAR ファイルは HDFS 上のディレクトリを指定して hadoop archive で生成できる。このコマンドはMRジョブである。har:// でアクセスすると中身を読める #14e35d

2012-06-28 19:36:25
Sho Shimauchi @shiumachi

@ryu_kobayashi 会社帰りにツイートする象tips用ハッシュタグ

2012-06-28 19:40:32
Tatsuo Kawasαki @kernel023

これは前回の書き込みパスのブログに続き有用な情報です。 RT @cloudera Learn about #HBase Input/Output with HFile in this blog post by @th30z http://t.co/aC0SvY8Z

2012-06-30 08:38:02
Sho Shimauchi @shiumachi

4. 1ツイートでわかるhadoopうるう秒障害 現象:JavaプロセスのCPU負荷急増、落ちる場合あり 原因:Linuxカーネルのバグ 一番確実な対処例:OSリブート 注意:いきなり落とさずきちんと一つ一つサービス停止すること #14e35d

2012-07-02 23:17:46
Sho Shimauchi @shiumachi

5. Hadoop の対応 Java バージョンは以下のサイトで確認できる。 http://t.co/T6bpeyw2 #14e35d

2012-07-03 20:34:26
Sho Shimauchi @shiumachi

6. hadoop のファイル数の最大値は dfs. namenode. max. objects (CDH3では dfs. max. objects)で指定可能。デフォルトはなし(事実上longの最大値が上限) #14e35d

2012-07-04 16:43:37
Sho Shimauchi @shiumachi

HBase のドキュメントをレビューする際に必ず行わねばならないこと。それは B の大文字チェックである

2012-07-09 20:42:07
Sho Shimauchi @shiumachi

7. Hadoop のネームノードのイメージファイル保存ディレクトリ dfs . name . dir はカンマ区切りで複数指定可能。3つ指定し、1つは NFS にするのが運用の基本 #14e35d

2012-07-09 20:43:20
Sho Shimauchi @shiumachi

8. YARN は次世代 MapReduce とか MapReduce2 などと言われるが、正確には MapReduce は汎用の分散処理フレームワークである YARN アプリケーションの一つに過ぎない #14e35d

2012-07-11 21:24:38
Sho Shimauchi @shiumachi

2012/7/1 9:00(日本時間)に発生した、Linuxカーネルのうるう秒バグに関する障害について、Cloudera からレポートが出されました / “Watching the Clock: Cloudera’s Response…” http://t.co/Wgo2iELB

2012-07-12 08:23:10
Sho Shimauchi @shiumachi

9. Hadoop/HBaseでありがちなのが開けるファイルディスクリプタ数の設定忘れ。これを増やさないとすぐに制限にひっかかるが、OS側の設定のため知らないと問題の原因と気づくのが難しい。limits.conf を編集してnofileを最低3万に増やすこと #14e35d

2012-07-12 23:25:28
Sho Shimauchi @shiumachi

10. CDH/Cloudera Manager の全コンポーネントで使用される全ポート一覧及びその変更方法はリンク先に記載されている。CDH4 対応なのでもちろんYARNも載っている https://t.co/MFFTlfZA #14e35d

2012-07-13 23:10:48
Tatsuo Kawasαki @kernel023

先程RTしたように、YARN(MR2)にFair Schedulerがportされたようです。こらで移行の障壁が少し下がる、、かな。 https://t.co/L1Jk8A1h

2012-07-14 00:04:30
Sho Shimauchi @shiumachi

Cloudera Manager 4 による、CDHインストールの動画。見ての通り凄まじく簡単。デモだとなかなかお見せできないのが残念 http://t.co/Yb2UUQsU #hadoop

2012-07-14 15:55:43
Takuya UESHIN @ueshin

8 に関連して、Hadoopのプロジェクト構成はMapReduceではなくYARNが直系のサブプロジェクトであるべきだと思う。MapReduceはその下。

2012-07-14 21:42:37
Takuya UESHIN @ueshin

まぁ、いわゆるMRv1もあるので1系が生きている間は外すわけにはいかないけど。

2012-07-14 21:44:50
Takuya UESHIN @ueshin

あ、ここでいう"1系"はHadoop1系のことでした。 “@ueshin: まぁ、いわゆるMRv1もあるので1系が生きている間は外すわけにはいかないけど。”

2012-07-14 21:46:35
Takuya UESHIN @ueshin

あれ、CDH4ではHDFSフェデレーションって使えないのかしら。

2012-07-14 22:32:54
Sho Shimauchi @shiumachi

@ueshin 使えます。どこ情報ですかそれ……

2012-07-14 22:33:59
Takuya UESHIN @ueshin

@shiumachi あ、そうですか。僕情報でした。設定方法とかのドキュメントが見当たらなかったのでつい。

2012-07-14 22:35:18
Takuya UESHIN @ueshin

@shiumachi おー、ありがとうございます〜。

2012-07-14 22:39:29
1 ・・ 23 次へ