Gfarmワークショップ2016

2016年10月21日(金) @神戸 http://oss-tsukuba.org/event/gw2016
1
SODA Noriyuki @n_soda

mpirunによる並列書き込み: ノード数を増やしてもスケールしない...同一ノードに割り当てられたせいだと思われる 物理ノードを割り当ててmpirun: 1ノードあたり約50MB/sでノード数に比例してスケール #gfarm2016

2016-10-21 15:53:14
SODA Noriyuki @n_soda

10GbEのノードdr計測してみては?という提案あり #gfarm2016

2016-10-21 15:54:11
SODA Noriyuki @n_soda

理研原田さんによる次世代のHPCI共用ストレージに関する発表 #gfarm2016

2016-10-21 15:56:40
SODA Noriyuki @n_soda

HPCI共用ストレージ 2012年のHPCI運用開始当初から提供 理研AICS 10PB、東大13.5PBから構成される広域分散ストレージ #gfarm2016

2016-10-21 16:08:42
SODA Noriyuki @n_soda

共用ストレージの世代更新が承認された。 目標 ・ペタバイト規模のストレージを、運用を継続したまま更新 ・AICSと東大で地理分散したファイル複製を提供 ・地理分散したメタデータフェイルオーバー?(現行環境でも何度か試験実行はしている) ・可用性向上 #gfarm2016

2016-10-21 16:31:04
SODA Noriyuki @n_soda

・ログインノードの拡充 ・基幹スイッチの100GbE化 #gfarm2016

2016-10-21 16:39:16
SODA Noriyuki @n_soda

これまで停止期間が伸びた原因 2013年は、xfs関係とIRQ balanceの関係で、サーバーリブート障害があった。 2015年は、silent data corruption発覚後、全データを読み直してチェックサム比較を行った。 #gfarm2016

2016-10-21 16:40:19
SODA Noriyuki @n_soda

2015年は、計画停電期間の影響も大きい ネットワークトポロジーまで含めた冗長性向上で、グラフの程度、停止期間を短縮できる見積もり。(グラフの赤は障害による停止期間) #gfarm2016 pic.twitter.com/QGUPhrWJn5

2016-10-21 16:45:03
拡大
SODA Noriyuki @n_soda

研究利用が承認されれば、クラウド・ストレージだと数千万円になるサイズの容量を無償で利用できるので、HPCI課題申請をしてみて欲しい。 計算資源を使わず、ストレージのみの申請もできる。#gfarm2016

2016-10-21 16:50:29
SODA Noriyuki @n_soda

田中昌宏@筑波大 (@masa16tanaka)さん による、ワークフローシステムPwrakeの耐障害性 #gfarm2016

2016-10-21 17:37:05
SODA Noriyuki @n_soda

HPC155 (SWoPP2016) info.ipsj.or.jp/kenkyukai/even… で発表したもの MTAGS16 (SuperComputing 2016) sites.google.com/site/mtags2016/ で発表するものとほぼ同じ内容 #gfarm2016

2016-10-22 00:02:07
SODA Noriyuki @n_soda

Pwrake パラレル・ワークフローrake - github.com/masa16/pwrake/… に対故障性機能を追加した。 全体をコントロールするマスターノードと、そこからsshでpwrake workerプロセスを起動されるワーカーノードで構成される #gfarm2016

2016-10-22 00:09:10
SODA Noriyuki @n_soda

去年の復習 タスクをFIFOでスケジュールするのはキャッシュ的に最悪。LIFOはかなり良くてHRFと組み合わせるとさらに良い。ノード数が増えるとキャッシュ総量が増えるので性能向上率は線形よりも上: oss-tsukuba.org/wp-content/upl… の15頁 #gfarm2016

2016-10-22 00:22:33
SODA Noriyuki @n_soda

ストレージのメタデータ対故障性はGfarmメタデータサーバーのフェイルオーバーで実現。 データの対故障性は、Gfarmの自動複製機能と、gfsdの障害検知時自動停止による代替する複製を持つgfsdの自動スケジューリングで実現。 #gfarm2016

2016-10-22 00:27:03
SODA Noriyuki @n_soda

pwrakeのworkerノードの障害は、障害ノードをリタイアさせることで対処。 マスターノードの障害時は、別のノードでpwrakeを再実行すれば中断したところから再実行される。これはmake系は、依存規則上の中間ファイルがチェックポイントの役割を果たすため #gfarm2016

2016-10-22 00:31:20
SODA Noriyuki @n_soda

workerノードの障害検知は ・通信中断 ・heartbeat ・タスクの失敗は別のノードで再実行 ・同一ノード上での複数の失敗はノード障害と見なす ・同一タスクの複数の失敗はタスクの誤りと見なし、ユーザーの介入が必要 #gfarm2016

2016-10-22 00:35:51
SODA Noriyuki @n_soda

複製作成の性能への影響: ワークフロー実行時間 +5% タスク累積実行時間 +9% Gigabit Ethernetでの計測なので、ネットワークボトルネックだと思われる #gfarm2016 pic.twitter.com/tao3OF7RYM

2016-10-22 00:43:23
拡大
SODA Noriyuki @n_soda

3種類の方式で障害を発生させて対故障性を確認 #gfarm2016 pic.twitter.com/1ugVXVbSqT

2016-10-22 00:49:34
拡大
SODA Noriyuki @n_soda

3種類の中で性能への影響はkill gfsdがもっとも大きい。これはファイルアクセスがローカルになるようなスケジューリング機能の効果がなくなるせい。 #gfarm2016 pic.twitter.com/IrdMgl4UmD

2016-10-22 00:58:41
拡大
SODA Noriyuki @n_soda

この後、Pwrakeのチュートリアルがあったけど、後日 oss-tsukuba.org/event/gw2016 に資料が上がるという話で、資料以上のことは書けないと思うので略。 #gfarm2016

2016-10-22 01:06:18
SODA Noriyuki @n_soda

今年も12月に東京で、Gfarmシンポジウムを開催するそうです。 というわけで Gfarm Workshop 2016の報告は完。 #gfarm2016

2016-10-22 01:07:43