まとめの限定公開に「リンク限定」が追加されました。URLを伝えてまとめを共有しよう!

Gfarmシンポジウム2017

平成29年12月22日(金) 筑波大学東京キャンパス文京校舎122講義室 http://oss-tsukuba.org/event/gs2017
エンタープライズ
343view 0コメント
1
SODA Noriyuki @n_soda
午後の Gfarmシンポジウム oss-tsukuba.org/event/gs2017 参加のため東京に向かってます。 ハッシュタグは #gfarm2017 でいいかしら
SODA Noriyuki @n_soda
@n_soda Gfarm ワークショップについても計画中だけど、年度末くらいになりそうって聞いたっす。
SODA Noriyuki @n_soda
筑波大学建部先生「Gfarm ファイルシステムの概要と最新機能」 #gfarm2017
SODA Noriyuki @n_soda
oss-tsukuba.org/software/gfarm/ 19,000 downloads サポート : NPO法人つくばOSS技術支援センター oss-tsukuba.org Libre Solutions Pty Ltd (オーストラリア): Debian パッケージのメンテ #gfarm2017
SODA Noriyuki @n_soda
・性能・容量がスケーラブル ・無停止で拡張、更新可能 ・単一障害点なし ・データ局所性を利用した計算をサポート pwrake 他 #gfarm2017
SODA Noriyuki @n_soda
最大の利用者: HPCI共用ストレージ これまで 20PB もうすぐ 100PB 国内のスパコン間のデータ共有 #gfarm2017
SODA Noriyuki @n_soda
gfarm-2.7.6 書き込みキャッシュストレージ支援、データ移行支援(HPCI機器のリプレース: 20PB→100PB) gfarm-2.7.2 Gfarm/バーストバッファ #gfarm2017
SODA Noriyuki @n_soda
■データ移行支援 (1) 新設ノードを書き込み禁止で接続 - readonly設定 または - spool_base_load を設定し、ノードの負荷を仮想的に増やし書き込み対象から外す (2) 新設ノードに対する複製新規作成だけは許す - 「replication_busy_host enable」…高負荷が高くても複製対象としては許す #gfarm2017
SODA Noriyuki @n_soda
(3) レプリカ自動削除を禁止 gfrepccheck remove disable (4) 新規導入マシンのみに2つずつ複製を作成する gfhostgroup -s 新規ホスト1 NEW_MACHINES gfhostgroup -s 新規ホスト2 NEW_MACHINES 〜 gfhostgroup -s 新規ホストN NEW_MACHINES gfncopy -S NEW_MACHINES:2 / #gfarm2017
SODA Noriyuki @n_soda
(5) (1)でreadonly 設定をした場合は、spool_base_load を設定し readonly 設定を外す #gfarm2017
SODA Noriyuki @n_soda
(6) あとは replica_check のログを監視し、複製処理がそれ以上行なわれなくなるまで待つ #gfarm2017
SODA Noriyuki @n_soda
■一時的な書き込みキャッシュとしての利用を支援 データ移行支援と同様な設定。 保存用ストレージを、移行支援の新設ノードと同様な設定(=ファイル作成はしない。作成されたファイルの複製作成対象とする)。 #gfarm2017
SODA Noriyuki @n_soda
■Gfarm/バーストバッファ ○ノードローカルな SSD (NVMe等) アクセス性能の向上 ・file descriptor passing により、クライアントが直接データにアクセス ・Infiniband を用いた RDMAアクセス ○メタデータ性能の向上 - 永続性なし。メモリキャッシュオンリーなモードでgfmdを起動 #gfarm2017
SODA Noriyuki @n_soda
ディレクトリ生成性能 - 5400iops メタデータ永続性あり、冗長メタデータサーバーあり - 12000iops メタデータ永続性あり - 15000iops メタデータ永続性なし、冗長メタデータサーバーあり #gfarm2017
SODA Noriyuki @n_soda
■ディレクトリクオータ機能 - XFSと異なりグループクオータと併用可能 ○ 使い方 - directory set 作成 (クオータ計算は directory set 単位) - directory set にディレクトリを追加 (複数のディレクトリを追加可能) #gfarm2017
SODA Noriyuki @n_soda
○ ディレクトリクオータ制限事項 - (管理者を除き) 異なるdirset間のディレクトリ移動は禁止 - (管理者を除き) dirsetに登録できるのは空のディレクトリのみ (容量計算) - 異なる dirset 間でのハードリンクは禁止 - dirset からの削除は、ディレクトリ自身を削除することで行なう #gfarm2017
SODA Noriyuki @n_soda
■データ完全性 … silent data corruption 対策 - 書き込み時に digest を計算 - 書き込み後、6時間たってから読み直して digest を再計算してベリファイ #gfarm2017
Masahiro Tanaka 田中昌宏 @masa16tanaka
機械学習の研究室でRubyを覚えてもらうのが大変という理由で、Pwrake を使ってもらえない事例 #gfarm2017
SODA Noriyuki @n_soda
○silent data corruption 事例 - 2016年8月: 書き込みエラーがないのに、ベリファイでエラーが出たことがあった。5ファイル あと、新規導入マシンの初期不良が、負荷試験中のベリファイで発覚したことがあったような…(2017年秋) #gfarm2017
SODA Noriyuki @n_soda
■ 大規模言語資源を活用した自然言語処理 東北大学 乾研究室 井之上直也氏、山口健史氏 SNSのテキストデータ 14TB をGfarmファイルシステムで提供 2013年から利用。 データ局所性を利用した処理ができるためGfarmを選択。 #gfarm2017
SODA Noriyuki @n_soda
主にPythonを使っている。 pwrake ではなく、もっと単純に、gfwhere で調べて自ノードにデータが存在するファイルのみを処理するコマンドを、単純に並列実行 #gfarm2017
Masahiro Tanaka 田中昌宏 @masa16tanaka
parallelコマンドみたいなインタフェースのGfarm対応コマンドみたいなのが要るのかもねえ
SODA Noriyuki @n_soda
■HPCI共用ストレージ東拠点の機材更新に伴うデータ移行について 東京大学 中誠一郎氏 東拠点 東京大学 西拠点 理研AICS 5年ぶりの機材更新 #gfarm2017
SODA Noriyuki @n_soda
旧機材では、複製設定はユーザー責任。 総容量22PB だと、複製数2では容量不足となるので、複製数1が多い。 gfpcopy -mm で Gfarmに登録して、利用者のローカルストレージにも残す 新機材では、東と西にそれぞれ複製を持つようにする #gfarm2017
残りを読む(15)
ログインして広告を非表示にする
ログインして広告を非表示にする