1. hadoop の NN や DN は、動かすだけならヒープは50MBもあれば十分。だから Mac 上で20ノード並列稼働するなんてことも可能。 #14e35d
2012-06-27 23:17:372. 小さいファイルをまとめて1ブロックに格納するには HAR ファイルを使う。HAR ファイルは HDFS 上のディレクトリを指定して hadoop archive で生成できる。このコマンドはMRジョブである。har:// でアクセスすると中身を読める #14e35d
2012-06-28 19:36:25これは前回の書き込みパスのブログに続き有用な情報です。 RT @cloudera Learn about #HBase Input/Output with HFile in this blog post by @th30z http://t.co/aC0SvY8Z
2012-06-30 08:38:024. 1ツイートでわかるhadoopうるう秒障害 現象:JavaプロセスのCPU負荷急増、落ちる場合あり 原因:Linuxカーネルのバグ 一番確実な対処例:OSリブート 注意:いきなり落とさずきちんと一つ一つサービス停止すること #14e35d
2012-07-02 23:17:465. Hadoop の対応 Java バージョンは以下のサイトで確認できる。 http://t.co/T6bpeyw2 #14e35d
2012-07-03 20:34:266. hadoop のファイル数の最大値は dfs. namenode. max. objects (CDH3では dfs. max. objects)で指定可能。デフォルトはなし(事実上longの最大値が上限) #14e35d
2012-07-04 16:43:377. Hadoop のネームノードのイメージファイル保存ディレクトリ dfs . name . dir はカンマ区切りで複数指定可能。3つ指定し、1つは NFS にするのが運用の基本 #14e35d
2012-07-09 20:43:208. YARN は次世代 MapReduce とか MapReduce2 などと言われるが、正確には MapReduce は汎用の分散処理フレームワークである YARN アプリケーションの一つに過ぎない #14e35d
2012-07-11 21:24:382012/7/1 9:00(日本時間)に発生した、Linuxカーネルのうるう秒バグに関する障害について、Cloudera からレポートが出されました / “Watching the Clock: Cloudera’s Response…” http://t.co/Wgo2iELB
2012-07-12 08:23:109. Hadoop/HBaseでありがちなのが開けるファイルディスクリプタ数の設定忘れ。これを増やさないとすぐに制限にひっかかるが、OS側の設定のため知らないと問題の原因と気づくのが難しい。limits.conf を編集してnofileを最低3万に増やすこと #14e35d
2012-07-12 23:25:2810. CDH/Cloudera Manager の全コンポーネントで使用される全ポート一覧及びその変更方法はリンク先に記載されている。CDH4 対応なのでもちろんYARNも載っている https://t.co/MFFTlfZA #14e35d
2012-07-13 23:10:48先程RTしたように、YARN(MR2)にFair Schedulerがportされたようです。こらで移行の障壁が少し下がる、、かな。 https://t.co/L1Jk8A1h
2012-07-14 00:04:30Cloudera Manager 4 による、CDHインストールの動画。見ての通り凄まじく簡単。デモだとなかなかお見せできないのが残念 http://t.co/Yb2UUQsU #hadoop
2012-07-14 15:55:438 に関連して、Hadoopのプロジェクト構成はMapReduceではなくYARNが直系のサブプロジェクトであるべきだと思う。MapReduceはその下。
2012-07-14 21:42:37あ、ここでいう"1系"はHadoop1系のことでした。 “@ueshin: まぁ、いわゆるMRv1もあるので1系が生きている間は外すわけにはいかないけど。”
2012-07-14 21:46:35