- masa16tanaka
- 957
- 4
- 0
- 0
mpirunによる並列書き込み: ノード数を増やしてもスケールしない...同一ノードに割り当てられたせいだと思われる 物理ノードを割り当ててmpirun: 1ノードあたり約50MB/sでノード数に比例してスケール #gfarm2016
2016-10-21 15:53:14HPCI共用ストレージ 2012年のHPCI運用開始当初から提供 理研AICS 10PB、東大13.5PBから構成される広域分散ストレージ #gfarm2016
2016-10-21 16:08:42共用ストレージの世代更新が承認された。 目標 ・ペタバイト規模のストレージを、運用を継続したまま更新 ・AICSと東大で地理分散したファイル複製を提供 ・地理分散したメタデータフェイルオーバー?(現行環境でも何度か試験実行はしている) ・可用性向上 #gfarm2016
2016-10-21 16:31:04これまで停止期間が伸びた原因 2013年は、xfs関係とIRQ balanceの関係で、サーバーリブート障害があった。 2015年は、silent data corruption発覚後、全データを読み直してチェックサム比較を行った。 #gfarm2016
2016-10-21 16:40:192015年は、計画停電期間の影響も大きい ネットワークトポロジーまで含めた冗長性向上で、グラフの程度、停止期間を短縮できる見積もり。(グラフの赤は障害による停止期間) #gfarm2016 pic.twitter.com/QGUPhrWJn5
2016-10-21 16:45:03研究利用が承認されれば、クラウド・ストレージだと数千万円になるサイズの容量を無償で利用できるので、HPCI課題申請をしてみて欲しい。 計算資源を使わず、ストレージのみの申請もできる。#gfarm2016
2016-10-21 16:50:29田中昌宏@筑波大 (@masa16tanaka)さん による、ワークフローシステムPwrakeの耐障害性 #gfarm2016
2016-10-21 17:37:05HPC155 (SWoPP2016) info.ipsj.or.jp/kenkyukai/even… で発表したもの MTAGS16 (SuperComputing 2016) sites.google.com/site/mtags2016/ で発表するものとほぼ同じ内容 #gfarm2016
2016-10-22 00:02:07Pwrake パラレル・ワークフローrake - github.com/masa16/pwrake/… に対故障性機能を追加した。 全体をコントロールするマスターノードと、そこからsshでpwrake workerプロセスを起動されるワーカーノードで構成される #gfarm2016
2016-10-22 00:09:10去年の復習 タスクをFIFOでスケジュールするのはキャッシュ的に最悪。LIFOはかなり良くてHRFと組み合わせるとさらに良い。ノード数が増えるとキャッシュ総量が増えるので性能向上率は線形よりも上: oss-tsukuba.org/wp-content/upl… の15頁 #gfarm2016
2016-10-22 00:22:33ストレージのメタデータ対故障性はGfarmメタデータサーバーのフェイルオーバーで実現。 データの対故障性は、Gfarmの自動複製機能と、gfsdの障害検知時自動停止による代替する複製を持つgfsdの自動スケジューリングで実現。 #gfarm2016
2016-10-22 00:27:03pwrakeのworkerノードの障害は、障害ノードをリタイアさせることで対処。 マスターノードの障害時は、別のノードでpwrakeを再実行すれば中断したところから再実行される。これはmake系は、依存規則上の中間ファイルがチェックポイントの役割を果たすため #gfarm2016
2016-10-22 00:31:20workerノードの障害検知は ・通信中断 ・heartbeat ・タスクの失敗は別のノードで再実行 ・同一ノード上での複数の失敗はノード障害と見なす ・同一タスクの複数の失敗はタスクの誤りと見なし、ユーザーの介入が必要 #gfarm2016
2016-10-22 00:35:51複製作成の性能への影響: ワークフロー実行時間 +5% タスク累積実行時間 +9% Gigabit Ethernetでの計測なので、ネットワークボトルネックだと思われる #gfarm2016 pic.twitter.com/tao3OF7RYM
2016-10-22 00:43:233種類の方式で障害を発生させて対故障性を確認 #gfarm2016 pic.twitter.com/1ugVXVbSqT
2016-10-22 00:49:343種類の中で性能への影響はkill gfsdがもっとも大きい。これはファイルアクセスがローカルになるようなスケジューリング機能の効果がなくなるせい。 #gfarm2016 pic.twitter.com/IrdMgl4UmD
2016-10-22 00:58:41この後、Pwrakeのチュートリアルがあったけど、後日 oss-tsukuba.org/event/gw2016 に資料が上がるという話で、資料以上のことは書けないと思うので略。 #gfarm2016
2016-10-22 01:06:18今年も12月に東京で、Gfarmシンポジウムを開催するそうです。 というわけで Gfarm Workshop 2016の報告は完。 #gfarm2016
2016-10-22 01:07:43