Gfarmシンポジウム2018

2
SODA Noriyuki @n_soda

明日はGfarmシンポジウム: twitter.com/koie/status/10… 今年はGfarm以外の分散ファイルシステム/ストレージの話もするってことで Post-K のファイルシステムとか産総研 ABCI の話もするそうです。

2018-10-25 09:54:23
SODA Noriyuki @n_soda

Gfarmシンポジウム2018 oss-tsukuba.org/event/gs2018 ハッシュタグはワークショップと同じ #gfarm2018 でいいですかね。 ライブ中継が youtube.com/watch?v=Zn_AO7… からあります。

2018-10-26 13:32:01
拡大
SODA Noriyuki @n_soda

建部先生による「Gfarm ファイルシステムの最新機能」 #gfarm2018

2018-10-26 13:33:24
SODA Noriyuki @n_soda

■特徴 ○性能・容量がスケールアウト - データアクセス局所性、ファイル複製 - 無停止で拡張、更新可能 ○単一障害点なし - 複製数維持機能、ホットスタンバイメタデータサーバー ○silent data corruption対策 #gfarm2018

2018-10-26 13:37:10
SODA Noriyuki @n_soda

■利用例 ○大規模ストレージ JLDG 10.7PB 8拠点 HPCI共用ストレージ 100PB 2拠点 NICTサイエンスクラウド (クロリティア) Active!world等で実運用 ○計算ノードのローカルディスクによるデータ解析 - すばる望遠鏡データ解析、メタゲノム解析 ○ Pwrake ワークフローシステム、MapReduce #gfarm2018

2018-10-26 13:37:34
SODA Noriyuki @n_soda

■主なリリース 2018/02/22 2.7.10: gfmd のレスポンス改善 2017/10/01 2.7.6: 書き込みキャッシュストレージ支援、データ移行支援 2017/02/04 2.7.2: Gfarm/バーストバッファ 2016/12/08 2.7.0: InfiniBnad RDMA サポート、directory quota 2016/01/16 2.6.8: 書き込み後ベリファイ #gfarm2018

2018-10-26 13:41:51
SODA Noriyuki @n_soda

HPCI共用ストレージは2017年度後半に、無停止で20PB→100PBの容量拡大、機器入れ換えでを行なったが、データ移行支援、gfmd のレスポンス改善はそれに関連した項目。 twitter.com/n_soda/status/… はその話。 #gfarm2018

2018-10-26 13:59:55
SODA Noriyuki @n_soda

@yohhoy 置きました: gist.github.com/n-soda/1204f34… 先頭のコメントの「Unfair behavior is~e.g.」にあるように、2つあるスレッドのうち io() スレッドの方が40秒以上スケジューリングされないみたいなことが起きます。再現しないようなら引数の数字を大きくしてみてください。

2018-07-13 22:12:52
SODA Noriyuki @n_soda

■Gfarm/バーストバッファ ノードローカル NVME SSD高速ストレージによる一時的な分散ファイルシステム ○データアクセス性能の向上 - ファイルディスクリプタパッシングを用いた gfsd を経由しないクライアントからの直接アクセス - RDMA #gfarm2018

2018-10-26 14:04:15
SODA Noriyuki @n_soda

■Gfarm/バーストバッファ ○メタデータアクセス性能の向上 1,100iops (pgsql+ジャーナル+スレーブgfmd) ↓ 12,000iops (メタデータの永続性および冗長性について目をつぶる) #gfarm2018

2018-10-26 14:05:04
SODA Noriyuki @n_soda

■ディレクトリクオータ xfs と異なり、グループクオータと併用して、グループとディレクトリの両方のQUOTAのAND条件で制限できる #gfarm2018

2018-10-26 14:05:48
SODA Noriyuki @n_soda

■データ完全性 書き込み時に digest を計算してメタデータに保存 書き込み後、数時間たってから読み直して整合性検査 読み込み時に gfsd で digest検査→不適合の場合 EIO が返り lost+found へ移動 JLDG 10.7PB 8拠点で 6ファイルのデータ破損を検知。 #gfarm2018

2018-10-26 14:06:41
SODA Noriyuki @n_soda

■進行中 - IPv6 対応 - Gfarm 2.8 - replica_check (複製数維持のパトロール) の高速化 - クラウドストレージ連携 #gfarm2018

2018-10-26 14:07:10
SODA Noriyuki @n_soda

分散深層学習を支えるストレージ技術 〜AI橋渡しクラウド ABCIの事例と将来課題 産業技術総合研究所人工知能研究センター 主任研究員 佐藤 仁さん #gfarm2018

2018-10-26 14:09:15
SODA Noriyuki @n_soda

■分散深層学習 ○データ並列 vs モデル並列 データ並列: バッチサイズを大きくすると精度が下がる モデル並列: モデルの層毎や層内で計算を分割 ○ 同期型 vs 非同期型 同期型: スループットが低いが精度が高い 非同期型: その逆 デファクトスタンダードはデータ並列・同期型 ChainerMN #gfarm2018

2018-10-26 14:19:43
SODA Noriyuki @n_soda

分散深層学習のI/O ○Small READ I/O to Huge Files - Painful I/O patterns for shared file systems - Increasing Metadata Operation ○汎化性能を上げるためにランダム性を上げる ファイルキャッシュをありにすると倍程度の性能になる スループットだけでなくメタデータ性能も重要 #gfarm2018

2018-10-26 14:30:10
SODA Noriyuki @n_soda

次世代スーパーコンピュータ向けファイルシステムについて(仮) 富士通株式会社 次世代TC開発本部 ソフトウェア開発統括部 シニアアーキテクト 住元 真司さん #gfarm2018

2018-10-26 14:36:29
SODA Noriyuki @n_soda

A64FX: High Performance ARM CPU HotChip 30th fujitsu.com/jp/Images/2018… および Cluster 2018 のスライドより #gfarm2018

2018-10-26 14:39:44
SODA Noriyuki @n_soda

Armv8.2-A (AArch64 Only) SVE 512-bit wide SIMD 48 computing cores 4 asistant cores (こちらはOS用) HBM2 32GB TofuD: 6D Mesh / Torus, 28Gbps x 2lanes x 10 ports PCIe Gen3 16 lanes #gfarm2018

2018-10-26 14:46:00
SODA Noriyuki @n_soda

TofuD 従来に比べてレイテンシは半分に改善 To/From far CMGs: 0.54マイクロ秒 To/From near CMGs: 0.49マイクロ秒 #gfarm2018

2018-10-26 14:50:12
𝚘𝚔𝚊𝚖𝚘(𝚊𝚐𝚎𝚍 8 𝚢𝚛𝚜) @hei_nyan

gfarm2018でもおれのswoppのスライドが使われているんだろうか

2018-10-26 14:53:19
SODA Noriyuki @n_soda

■京のファイルシステム: FEFS (lustreベース) Pre-Stgeing-In / Post-Staging-Out Method を採用した。 性能は安定する。 stage in → 計算 → stage out: の3フェーズで進むので3倍の容量が必要。 #gfarm2018

2018-10-26 14:53:48
SODA Noriyuki @n_soda

■Post-Kのファイルシステム ○要求 10倍の性能 100倍の容量 ○ 3階層 ・SSDベース。アプリケーションに近いストレージ ・Lustre ベース (Job制御はこのレイヤ) ・アーカイブストレージ #gfarm2018

2018-10-26 14:56:36
SODA Noriyuki @n_soda

■ 第1階層 SSD 上にファイルキャッシュとして持つ 読み込みは一回だけならフラッシュを経由しない方が… 書き込みはフラッシュ経由で良い(1回書くだけとしてもジョブが早く終る) #gfarm2018

2018-10-26 15:04:15
SODA Noriyuki @n_soda

○ 書き込み寿命問題 ターゲットアプリケーションのうち、最もI/O intensiveなものは 7.1TB/Day Enterprise向けフラッシュ: 4.8〜8TB/Day Consumer 向けフラッシュ: 70〜430GB/Day Intel Optaneは? 現在 0.72〜11.2TB/Day #gfarm2018

2018-10-26 15:04:38
SODA Noriyuki @n_soda

○ LLIO Prototype Implementation 2種類の計算ノード - Burst Buffer Computing Node (BBCN) … こちらにSSDがつく - Computing Node (CN) 性能 Lustre: 800MB/s LLIO: 2GB/s (read-only なら 5GB/s) #gfarm2018

2018-10-26 15:07:30