Hadoopカウントダウン(Yet Another Advent Calendar HAHAHA)

「Hadoop Advent Calendar はないのか」 @shiumachi が何気なくつぶやいた一言に @okachimachiorz1 さんが反応。 どこが Advent Calendar なんだよというツッコミもある中、ノリだけで始まったこの企画に果たして参加者は集まるのか!? ルール ・tweet に hadoop に関する tips を書く 続きを読む
38
前へ 1 2 3 ・・ 6 次へ
moto @j3tm0t0

Hadoop Streamingは、cat data.txt | mapper | reducer のようにpipeで繋げて実行することで簡単なデバッグができる。次は @horiuchi さん! #HadoopCountDown

2010-12-28 23:28:08
堀内康弘 @horiuchi

Hadoop初心者なのでつなぎ役に徹します! @ynil さん後はよろしくお願いします! #HadoopCountDown

2010-12-29 01:36:16
赤城みりあ @ynil

mapreduce(hadoop)の解説とグラフアルゴリズムやEM法の実装に関する解説と一部の実装(Cloud9)にはNLP系の仕事するときお世話になりました http://bit.ly/cAVmaC #HadoopCountDown 次は無茶ぶりで@ykf

2010-12-29 09:34:12
  @ykf

Macをマスターにして起動する際、余りにもスレーブの台数が多すぎると、プロセス数上限に引っかかってコネクション張っている途中にコケることがある。その場合は上限を上げれば良い。http://bit.ly/eKUYhn #HadoopCountDown 次は.@y_benjo先生…

2010-12-29 10:25:32
  @ykf

Macでhadoopの件: ちなみに10.6の場合は1ユーザあたり266プロセスまで。そしてroot奪える環境じゃなかった(@学校)ので、追試はしてません。もしかしたら他の問題もあるかもしれません。 #HadoopCountDown

2010-12-29 10:26:01
Sho Shimauchi @shiumachi

. @okachimachiorz1 先日お話した通り、 #HadoopCountDown は 18時以降あたりから各人が自由にツイートする感じでいいでしょうか?

2010-12-31 13:10:35
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

.@shiumachi やりましょう!ぜひ。18:00ぐらいから始めましょう。Hadoop年末総決算ってことで、各自勝手にGOGOGOで、 #HadoopCountDown

2010-12-31 15:31:49
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

Hadoopのパフォーマンスの向上のポイントは分散IO。IOを分散させることでIOボトルネックを解消し使い切れていないCPU資源を最大限に活かす。パフォーマンスの向上はCPU使用率X追加ノード数で向上するため、ノード追加以上のメリットが享受可能。 #HadoopCountDown

2010-12-31 18:58:30
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

Mapreduceそれ自体はドメイン中立だけど、Hadoop上のUtility、例えばPigやHIveは本来的にはBI利用に最適化されている。データ入出力や演算子にその特長が顕著。したがってそれ以外の用途に使うときには注意が必要。 #HadoopCountDown

2010-12-31 19:00:57
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

Hadoopが他のKVS系のOSSと違うのは、上位の処理層までMepReduceを含めてフレームワーク化していること。HDFSはMapreduce専用のファイルシステムと言ってもよい。MapReduceを利用しないのであれば、その価値は半減。 #HadoopCountDown

2010-12-31 19:03:24
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

PigやHiveは基本的に抽出系の演算子に特化していると言える。一定の集合から別の集合を導き出す操作が主眼。データを分岐させたり、複雑な制御構文を入れ込むことは不得意。業務系の処理を行うのでは不適当。ただしBI系の処理を行うのであれば良い選択肢。#HadoopCountDown

2010-12-31 19:05:30
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

PigやHiveの最適化はこれからどんどん進む。現在はMapreduceを書く上でのノウハウの実装が進んでいる。使い勝手はどんどん向上する。同時に隠蔽化も進む。良い面はマーケットやユーザーの拡大。悪い面は実装の肥大化。実装の肥大化は品質に影響する #HadoopCountDown

2010-12-31 19:07:00
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

今後のPigやHive、その他の言語からのHadoopMapreduceの実行環境がどんどん提供されるだろう。評価ポイントは「最適化」「どのドメインを意識しているか」「テスト可能性」が非常に大事。特に最後は結構大事で、意外にできていない。 #HadoopCountDown

2010-12-31 19:07:52
pokarim @pokarim

Hadoopを見ているとDBモデルと計算モデルの統合への流れが感じられる。 RT @okachimachiorz1: 今後のPigやHive、その他の言語からのHadoopMapreduceの実行環境がどんどん提供されるだろう。... #HadoopCountDown

2010-12-31 19:11:58
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

その通りですね。目下の最重要論点のひとつ。RT @pokarim: Hadoopを見ているとDBモデルと計算モデルの統合への流れが感じられる。 RT その他の言語からのHadoopMapreduceの実行環境がどんどん提供されるだろう。... #HadoopCountDown

2010-12-31 19:13:55
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

元来BI系はテストが困難。実際のコーナーケースの把握が難しい+そもそも結果は計算して見なければわからないということが多い。勢い、テストツールの充実が放っておかれることもある。テストどうしてんの?って聞いてみよう。「それはまだよ」は危険信号。 #HadoopCountDown

2010-12-31 19:22:02
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

Hadoopではテスト環境の構築・実装がハードルが高い。開発環境がスタンドアローン・擬似分散・クラスタというステージアップすること+MRの実装によってはBugの追及が困難。事前にテスト可能性やデータトレーサビリティを準備しておくことが肝要。 #HadoopCountDown

2010-12-31 19:23:35
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

Hadoopはもはや相当大規模に使われているため、リリーススピードが他のOSSに比べて遅い。下位互換性確保に留意しているから。でも、言われるほど下位互換じゃない。特に設定・セットアップ・運用周りは微妙なことが多い。古いマニュアルの鵜呑みは危険。 #HadoopCountDown

2010-12-31 19:41:09
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

Hadoopは確実に分散環境の敷居を下げた。今後の様々な分散ソリューションが出てくるだろう。一つだけはっきりしているのは、SharedNothing型にある種のアドバンテージがあるということだ。Hadoopをそれを実証していると言える。#HadoopCountDown

2010-12-31 19:42:09
傳智之 @dentomo

どんな技術も適材適所。といって「自分には関係ない」と思っては危険。来年も「Hadoopを、過剰信仰する阿呆に、学ばぬ阿呆」となりませんように 参考:http://bit.ly/beMKBL #hadoopCountDown

2010-12-31 19:55:53
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

Hadoopで業務処理を行う場合は、そもそも本来的に分散的な処理なケースと、アルゴリズムを変更して分散処理化に組み立て直すケースの大きく二つのパターンがある。基幹バッチ系でオープン化されていない現行バッチは大抵が分散処理に向いていることが多い。 #HadoopCountDown

2010-12-31 20:46:55
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

HadoopSecurityのKerberosはただのダミープラグ。コアコンセプトのTGTを利用せず、DelegationTokenを利用している。HadoopSecurityで押さえるべきポイントは番犬ではなく、下位にあるToken認証 #HadoopCountDown

2010-12-31 20:48:17
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

Hadoopで基幹処理をする場合は、まずデータのリカバリーをどうするか考えることがスタート地点。バックアップリカバリー、またバックトラックをどう処理するかが最大のポイントになる。必要なデータのみをリカバリーするということが必要。 #HadoopCountDown

2010-12-31 20:49:13
Suguru ARAKAWA @ashigeru

Hadoopでアトミック処理を意識する場合、まずアトミック処理の単位を設計した後にその中身をMap Reduceの単位に分割する。Map Reduceはあくまで分散処理の物理的な制約単位 #HadoopCountDown

2010-12-31 20:54:45
前へ 1 2 3 ・・ 6 次へ