Gfarmシンポジウム2016

http://oss-tsukuba.org/event/gs2016 2016-12-09 13:30-17:00 筑波大学文教キャンパス
2
SODA Noriyuki @n_soda

Pwrakeを使った並列IOベンチマーク作成中 #gfarm2016 pic.twitter.com/sgFXal9rXH

2016-12-09 14:23:47
拡大
SODA Noriyuki @n_soda

質問: Q: RDMAは、IPoIB ではない? A: IPoIB ではない。クライアントとファイルシステムノードが Infiniband でローカル通信している場合に RDMA になる。ローカル通信できない場合は IPoIB になる #gfarm2016

2016-12-09 14:24:54
SODA Noriyuki @n_soda

次の発表 Gfarm Performance Azure HPCソリューションズ 河野さん #gfarm2016

2016-12-09 14:25:41
SODA Noriyuki @n_soda

Azureの紹介は略。Azure自身にも広域レプリケーション機能はある #gfarm2016

2016-12-09 14:31:11
SODA Noriyuki @n_soda

Azureの I/Oスループット VM (DS15v2) あたり 500MB/s (8xデータディスク) ストレージアカウントあたり 2500MB/s (40xデータディスク) #gfarm2016

2016-12-09 14:34:10
SODA Noriyuki @n_soda

さきほどのはVMあたり こちらはストレージアカウントあたりの性能。2500~2700 #gfarm2016 pic.twitter.com/lejepqD4Bp

2016-12-09 14:50:52
拡大
SODA Noriyuki @n_soda

Azure上に構築したGfarmを gfarm2fs (FUSE)経由でアクセス ditect_io した方が、ディスクを増やしてもスケールする #gfarm2016 pic.twitter.com/sWBFBlG7Wp

2016-12-09 15:05:47
拡大
SODA Noriyuki @n_soda

Azureにある3つの冗長化オプションどうしの比較 #gfarm2016 pic.twitter.com/QMMElAFWdw

2016-12-09 15:10:18
拡大
masa16 @masa16tanaka

HpFP hpfp.nict.go.jp 遅延・パケロスがあるネットワークでも性能を出せるプロトコル #gfarm2016

2016-12-09 15:17:20
SODA Noriyuki @n_soda

Azure上のGfarmのレプリケーション性能 この結果はなにか変 #gfarm2016 pic.twitter.com/56feT0bxku

2016-12-09 15:23:22
拡大
SODA Noriyuki @n_soda

Q: Azureに silent data corruption 対策は? A: あるという話だが詳細不明 #gfarm2016

2016-12-09 15:24:29
SODA Noriyuki @n_soda

Q: 商用クラウドストレージは、ディスク容量だけではなくデータ転送量に対する課金の点で、HPC用学術サービスと大きく違うが… #gfarm2016

2016-12-09 15:27:12
SODA Noriyuki @n_soda

A: Azureへのアップロードは無料。Azureから外に送る場合に課金発生。クラウドの内部で閉じてデータ処理なら良いが、そうではない場合、非常に高価になる 可視化のためにクラウド上のデータをとってくるのが遅くて高価なのが学術利用ではよく問題になっている #gfarm2016

2016-12-09 15:27:46
SODA Noriyuki @n_soda

次の発表 Gfarm高速化のための技術開発 NICT 村田先生 #gfarm2016

2016-12-09 15:38:03
SODA Noriyuki @n_soda

ひまわり8号リアルタイムWeb himawari8.nict.go.jp 生データ1年間で150TB (ひまわりWebのために追加で70TB) 画像ファイル年間2億ファイル 縦横11000ピクセル 8Kディスプレイを越える解像度 #gfarm2016

2016-12-09 15:38:46
SODA Noriyuki @n_soda

保存用ストレージはGfarm。 表示用ストレージは今はNAS…メタデータサーバーの128GBのメモリ(5億ファイルくらい)がネックで Gfarmを使ってない。 縦横11000ピクセルの静止画を連続表示してアニメーション表示している。撮影から2分半程度の遅延。 #gfarm2016

2016-12-09 15:39:43
SODA Noriyuki @n_soda

HpFP (OSS) と xTCP (有償) の2つのプロトコル実装を開発中 RTT 500ms、1%以上のパケットロスでも高速通信。1コネクションで10Gbps #gfarm2016

2016-12-09 15:40:57
SODA Noriyuki @n_soda

ユーザーが、目標とするバンド幅を指定するようになっている 並列転送する場合、全体のバンド幅を並列数で割った(控え目な)バンド幅を指定した方が、バラつきが減って性能が上がることがある。 #gfarm2016

2016-12-09 15:41:36
SODA Noriyuki @n_soda

これを使ったGfarm高速化の実験 gfpcopy と比較。gfarmの標準TCP転送だと、パケットロスが若干(大学間転送で、現実に存在するくらい)あると性能が極端に落ちるが、これだと落ちない。 #gfarm2016

2016-12-09 15:45:35
SODA Noriyuki @n_soda

gfarm2fs (FUSE) 上でのファイルコピーの実験。ロスも遅延もない場合は、コネクション開設時のオーバーヘッドのせいで、ふつうのTCPの方が速い。ロスや遅延があると逆転。 小さいファイルがたくさんある場合は、xTCPによる高速化の割合が少ない。 #gfarm2016

2016-12-09 15:47:01
SODA Noriyuki @n_soda

TCPに比べて転送ウィンドウが開くのが速い。 100GBのファイル、RTT150msec ロス0.5% TCPの5秒くらいに対し、2〜3秒でwindowが開ききる 損失が多いネットワークで、小さなファイルを多く送る場合に有利。 さらに高速で開くモードを開発中 #gfarm2016

2016-12-09 16:09:29
SODA Noriyuki @n_soda

次の発表 Gfarmシステム運用におけるアウトソーシング活用の試み 東大 中さん #gfarm2016

2016-12-09 16:11:34
SODA Noriyuki @n_soda

東大の運用チームは3人 土日や深夜の緊急対応をアウトソース。 障害時、自動failoverに使っているzabbixが、過負荷で動作しなかったことがあった。そういう場合に人手で対処。 #gfarm2016

2016-12-09 16:12:10
SODA Noriyuki @n_soda

原田さん: 外部の人間に頼んだ方がいい面もありそう - 運用知識を外部化できる? - セキュリティ監査 #gfarm2016

2016-12-09 16:29:08