Gfarmシンポジウム2015

4
SODA Noriyuki @n_soda

Pwrake ディスクキャッシュの効率利用 ・FIFO 並列度高い。ディスクキャッシュは使えない ・LIFO ディスクキャッシュを効率利用。末尾タスク問題あり ・LIFO+HRF 処理の前半を LIFO。最後だけ変えて末尾タスク問題解決 #gfarm2014

2015-12-14 14:10:44
SODA Noriyuki @n_soda

Pwrake 2.0.0 2015/11/11リリース ・タスクプロパティによる、タスク毎のコア数、ホスト指定、スチール不可などの設定 ・タスク異常終了時の振舞の指定 ・プロローグ機能 ・ハートビート間隔の設定 #gfarm2015

2015-12-14 14:12:56
SODA Noriyuki @n_soda

Pwrake 2.0.0 高性能化: ・Fiberによる低オーバーヘッド。省メモリ ・ Montage ワークフロー: NFS を使った場合の10倍 #gfarm2015

2015-12-14 14:13:36
SODA Noriyuki @n_soda

gfarm_hadoop プラグイン: ・HDFS を用いた場合よりもスケールする #gfarm2015

2015-12-14 14:14:26
SODA Noriyuki @n_soda

実装の話 ・close-to-open consistency: 書き込みクローズ時に初めて更新が見える。 ・読み込みは、レプリカに分散して行なう ・ファイルクローズ時に、複製の世代番号を上げ、古い複製を削除。新世代を複製 #gfarm2015

2015-12-14 14:16:41
SODA Noriyuki @n_soda

障害対応と一貫性 ・gfsd起動時に、メタデータと実ファイルとの一貫性検査(存在、サイズ) ・アクセス時、複製作成時のセキュアハッシュによるファイル損傷チェック ・複製数維持機能 ・I/Oエラー時のgfsd自動停止 … #gfarm2015

2015-12-14 14:18:41
SODA Noriyuki @n_soda

pwrake に関する質問 Q: 依存関係がなく、並列実行な場合で、最後にスケジュールされたファイルが大きいと、それに足を引っ張られて、全体の終了が遅れることがある。 A(@masa16tanakaさん): 次のバージョンで #gfarm2015

2015-12-14 14:24:05
SODA Noriyuki @n_soda

HPCI共用ストレージ silent data corruption事例報告。 物理15PB(論理8PB)の全ファイルについて、メタデータと実データのsecure hashの比較。 15万ファイル破損していたが、99.4%は正常な複製が存在したため、復旧した #gfarm2015

2015-12-14 14:30:32
SODA Noriyuki @n_soda

silent data corruption OSレベルでは書き込みもクローズも成功。当然、ユーザープロセスにもエラーが返らない。 OS→ストレージコントローラ→ディスク のどこかで何らかの障害。 障害発覚までに時間がかかる→被害規模が拡大する。 #gfarm2015

2015-12-14 14:34:01
SODA Noriyuki @n_soda

silent data corruption 対策 ・早期発見・早期対策 ・Gfarmのreplicacheck機能。定期的にデータ消失ファイルの報告がログに残る ・リストを管理し、増えた場合は利用者に報告 #gfarm2015

2015-12-14 14:43:56
SODA Noriyuki @n_soda

silent data corruption対策 実データとメタデータのsecure hashをcronで定期的に比較 $ gfspooldigest -M 1 -m 8 -G -h ホスト名 -r スプールディレクトリ #gfarm2015

2015-12-14 14:46:25
SODA Noriyuki @n_soda

silent data corruption 対策 このコマンドの場合、昨日〜8日前に作成・更新されたファイルを対象に比較 実行時間は5〜6時間くらい #gfarm2015

2015-12-14 14:48:22
SODA Noriyuki @n_soda

silent data corruption 対策 10/27にストレージコントローラのHW交換を行なったところ、gfspooldigestで破損検出 10/28に検出。ファイルが消失したが、発見が早かったため、ユーザーがコピーをもっていた #gfarm2015

2015-12-14 14:49:04
SODA Noriyuki @n_soda

silent data corruption 対策 課題: データー一貫性チェックの作業負荷軽減→次のバージョンでgfspooldigest相当の機能は自動化 silent data corruption、検知されてないが発生しているサイトがあるのでは? #gfarm2015

2015-12-14 14:53:08
SODA Noriyuki @n_soda

silent data corruption 対策 Q: この問題は、ハードウェアの問題? Gfarmだから起きた問題? A: 去年も10月も、ハードウェアの問題(実際は、ハードウェアを制御するソフトウェアの問題) #gfarm2015

2015-12-14 14:56:33
SODA Noriyuki @n_soda

silent data corruption 対策 Q: 避けられない問題では? A: 書き込んだ段階では分からないし避けられない。ただし、Gfarmはデータにchecksum (secure hash)を付与しているので後で検知はできる。 #gfarm2015

2015-12-14 14:58:52
SODA Noriyuki @n_soda

HPCI共用ストレージにおけるITIL視点でのGfarm運用分析 ITIL - Information Technology Infrastructure Library きっかけ: 大規模障害 (さきほどの silent data corruption) #gfarm2015

2015-12-14 15:06:01
SODA Noriyuki @n_soda

HPCI共用ストレージ提供拠点: 3拠点 単一のストレージを構成しているが、各拠点のSIベンダーは全部違う。 #gfarm2015

2015-12-14 15:14:15
SODA Noriyuki @n_soda

ITIL視点での運用分析 運用ガイドライン策定・プロセス改善 ・サービスレベル管理 ・ITサービス財務管理 ・キャパシティ管理 ・ITサービス継続性管理 (ディザスタリカバリ) ・可用性管理 #gfarm2015

2015-12-14 15:24:23
SODA Noriyuki @n_soda

分析の手順 ・カテゴリ定義: サービスデスク/インシデント管理(一次対応)/問題管理(一次対応で解決しない問題)/変更管理/リリース管理/構成管理 ・運用4P(process/people/products/partners等)の観点で該当する要件を定義 #gfarm2015

2015-12-14 15:31:49
SODA Noriyuki @n_soda

分析の手順 ・運用4Pそれぞれに、成熟度レベルの目安を定義。レベル: 初期→管理(拠点毎)→定義(拠点共通)→定量的管理→最適化 ・アセスメントにより、各拠点のレベルを判定 ・拠点ごとに目標を制定 ・改善プロセス #gfarm2015

2015-12-14 15:39:07
SODA Noriyuki @n_soda

情報通信研究機構(NICT) 村田先生 Gfarm/Pwrake を活用した様々な科学研究アプリケーションとそれを支える高速データ通信プロトコルの研究 #gfarm2015

2015-12-14 16:01:11
SODA Noriyuki @n_soda

NICTサイエンスクラウド。 2010年〜 HPCIやJLDGより小規模な3PB。データ保存だけではなくデータ処理基盤として使っている。 #gfarm2015

2015-12-14 16:06:44
SODA Noriyuki @n_soda

ビッグデータ: 可視化に時間がかかる 対策: 事前に、多次元多階層化された画像ファイルを作っておき、これを対話的に表示する 例: ひまわり8号リアルタイムWeb himawari8.nict.go.jp #gfarm2015

2015-12-14 16:12:07