Hadoopカウントダウン(Yet Another Advent Calendar HAHAHA)
Hadoop Streamingは、cat data.txt | mapper | reducer のようにpipeで繋げて実行することで簡単なデバッグができる。次は @horiuchi さん! #HadoopCountDown
2010-12-28 23:28:08mapreduce(hadoop)の解説とグラフアルゴリズムやEM法の実装に関する解説と一部の実装(Cloud9)にはNLP系の仕事するときお世話になりました http://bit.ly/cAVmaC #HadoopCountDown 次は無茶ぶりで@ykfで
2010-12-29 09:34:12Macをマスターにして起動する際、余りにもスレーブの台数が多すぎると、プロセス数上限に引っかかってコネクション張っている途中にコケることがある。その場合は上限を上げれば良い。http://bit.ly/eKUYhn #HadoopCountDown 次は.@y_benjo先生…
2010-12-29 10:25:32Macでhadoopの件: ちなみに10.6の場合は1ユーザあたり266プロセスまで。そしてroot奪える環境じゃなかった(@学校)ので、追試はしてません。もしかしたら他の問題もあるかもしれません。 #HadoopCountDown
2010-12-29 10:26:01. @okachimachiorz1 先日お話した通り、 #HadoopCountDown は 18時以降あたりから各人が自由にツイートする感じでいいでしょうか?
2010-12-31 13:10:35.@shiumachi やりましょう!ぜひ。18:00ぐらいから始めましょう。Hadoop年末総決算ってことで、各自勝手にGOGOGOで、 #HadoopCountDown
2010-12-31 15:31:49Hadoopのパフォーマンスの向上のポイントは分散IO。IOを分散させることでIOボトルネックを解消し使い切れていないCPU資源を最大限に活かす。パフォーマンスの向上はCPU使用率X追加ノード数で向上するため、ノード追加以上のメリットが享受可能。 #HadoopCountDown
2010-12-31 18:58:30Mapreduceそれ自体はドメイン中立だけど、Hadoop上のUtility、例えばPigやHIveは本来的にはBI利用に最適化されている。データ入出力や演算子にその特長が顕著。したがってそれ以外の用途に使うときには注意が必要。 #HadoopCountDown
2010-12-31 19:00:57Hadoopが他のKVS系のOSSと違うのは、上位の処理層までMepReduceを含めてフレームワーク化していること。HDFSはMapreduce専用のファイルシステムと言ってもよい。MapReduceを利用しないのであれば、その価値は半減。 #HadoopCountDown
2010-12-31 19:03:24PigやHiveは基本的に抽出系の演算子に特化していると言える。一定の集合から別の集合を導き出す操作が主眼。データを分岐させたり、複雑な制御構文を入れ込むことは不得意。業務系の処理を行うのでは不適当。ただしBI系の処理を行うのであれば良い選択肢。#HadoopCountDown
2010-12-31 19:05:30PigやHiveの最適化はこれからどんどん進む。現在はMapreduceを書く上でのノウハウの実装が進んでいる。使い勝手はどんどん向上する。同時に隠蔽化も進む。良い面はマーケットやユーザーの拡大。悪い面は実装の肥大化。実装の肥大化は品質に影響する #HadoopCountDown
2010-12-31 19:07:00今後のPigやHive、その他の言語からのHadoopMapreduceの実行環境がどんどん提供されるだろう。評価ポイントは「最適化」「どのドメインを意識しているか」「テスト可能性」が非常に大事。特に最後は結構大事で、意外にできていない。 #HadoopCountDown
2010-12-31 19:07:52Hadoopを見ているとDBモデルと計算モデルの統合への流れが感じられる。 RT @okachimachiorz1: 今後のPigやHive、その他の言語からのHadoopMapreduceの実行環境がどんどん提供されるだろう。... #HadoopCountDown
2010-12-31 19:11:58その通りですね。目下の最重要論点のひとつ。RT @pokarim: Hadoopを見ているとDBモデルと計算モデルの統合への流れが感じられる。 RT その他の言語からのHadoopMapreduceの実行環境がどんどん提供されるだろう。... #HadoopCountDown
2010-12-31 19:13:55元来BI系はテストが困難。実際のコーナーケースの把握が難しい+そもそも結果は計算して見なければわからないということが多い。勢い、テストツールの充実が放っておかれることもある。テストどうしてんの?って聞いてみよう。「それはまだよ」は危険信号。 #HadoopCountDown
2010-12-31 19:22:02Hadoopではテスト環境の構築・実装がハードルが高い。開発環境がスタンドアローン・擬似分散・クラスタというステージアップすること+MRの実装によってはBugの追及が困難。事前にテスト可能性やデータトレーサビリティを準備しておくことが肝要。 #HadoopCountDown
2010-12-31 19:23:35Hadoopはもはや相当大規模に使われているため、リリーススピードが他のOSSに比べて遅い。下位互換性確保に留意しているから。でも、言われるほど下位互換じゃない。特に設定・セットアップ・運用周りは微妙なことが多い。古いマニュアルの鵜呑みは危険。 #HadoopCountDown
2010-12-31 19:41:09Hadoopは確実に分散環境の敷居を下げた。今後の様々な分散ソリューションが出てくるだろう。一つだけはっきりしているのは、SharedNothing型にある種のアドバンテージがあるということだ。Hadoopをそれを実証していると言える。#HadoopCountDown
2010-12-31 19:42:09どんな技術も適材適所。といって「自分には関係ない」と思っては危険。来年も「Hadoopを、過剰信仰する阿呆に、学ばぬ阿呆」となりませんように 参考:http://bit.ly/beMKBL #hadoopCountDown
2010-12-31 19:55:53Hadoopで業務処理を行う場合は、そもそも本来的に分散的な処理なケースと、アルゴリズムを変更して分散処理化に組み立て直すケースの大きく二つのパターンがある。基幹バッチ系でオープン化されていない現行バッチは大抵が分散処理に向いていることが多い。 #HadoopCountDown
2010-12-31 20:46:55HadoopSecurityのKerberosはただのダミープラグ。コアコンセプトのTGTを利用せず、DelegationTokenを利用している。HadoopSecurityで押さえるべきポイントは番犬ではなく、下位にあるToken認証 #HadoopCountDown
2010-12-31 20:48:17Hadoopで基幹処理をする場合は、まずデータのリカバリーをどうするか考えることがスタート地点。バックアップリカバリー、またバックトラックをどう処理するかが最大のポイントになる。必要なデータのみをリカバリーするということが必要。 #HadoopCountDown
2010-12-31 20:49:13Hadoopでアトミック処理を意識する場合、まずアトミック処理の単位を設計した後にその中身をMap Reduceの単位に分割する。Map Reduceはあくまで分散処理の物理的な制約単位 #HadoopCountDown
2010-12-31 20:54:45