h r k 先生の「Hot Chips 31」レポート

2019年8月18日から20日にかけて米スタンフォード大学で開催された「HotChips31」に関するh r k 先生のレポート
3
hrk先生 @Prof_hrk

RISC-Vの最後はETHの Fabian Schuiki、大学院生。 Open Source Processorを作るとあるぞ。何かAsanovic先生の話とずれを感じる。 で、RISC-Vを使ったEdgeデバイス用のAIチップを作る。40K gates。命令の拡張でコンボリューションを10倍の速度にする。1.8GOPS 385GOPS/W。200MHzクロック。

2019-08-19 09:09:28
hrk先生 @Prof_hrk

Hotchips 1日目。88Submissionで26Acceptedなので、難しいカンファレンスに近づきつつあるみたい。最初はサーバチップのセッション。いつもは一番最後だったが人気の中心が移ったことを反映しているみたい。

2019-08-20 00:57:00
hrk先生 @Prof_hrk

汎用プロセッサの最初はAMDのZEN2.David Suggsが講演。Chipletを使っていることが特徴。マイクロアーキテクチャには特別なことはないが、最適化してZENより15%IPCが向上。エネルギーは約1/2に向上。IPCで15%, Designで17%、7nmで47%向上。セキュリティとか他も普通に向上させている。

2019-08-20 01:04:13
hrk先生 @Prof_hrk

各種メモリ・レジスタ、FLPなどの数字も大きくなっている。が、驚きはない。コンテンツのマーケットのためにPCIE Gen4でストレージを高速化している。これを8個までをIO コントローラなどとChipletとして集積化したROMEサーバを作った。これを2個までL3でつなげて128コアまで拡張できる。

2019-08-20 01:19:10
hrk先生 @Prof_hrk

次はARM, Andrea Pellegrini。N1はクラウドからエッジまでをカバーするプラットフォーム、 7nm. 将来は7/5nm+のZeusなど。Reference desigでは、64から128のN1をタイル状に並べる。N1のフィーチャーは汎用CPUとしては一般的なもの。190SPECint_rate2017くらい。105W SoC power.

2019-08-20 01:34:52
hrk先生 @Prof_hrk

エッジとサーバ用はタイル数を4から64まで変えることで作り分ける。ARMがメインストリームCPUの領域についに進出したというイメージ。勿論Fの富岳のCPUがあるが、本家がPerformanceに乗り出した感がある。

2019-08-20 01:53:10
hrk先生 @Prof_hrk

次はIBMのPower 9SU 14nm..Jeff Stuecheli, Scott Willenborgが講演。 2017 のPower9 SO、最適化した2018のSUを更にメモリを強くしたAIOを説明する。何かブルートフォースで工夫が足りない印象がある。これを使ってSupercomputer SUMMITを作る(SUか?)。

2019-08-20 02:08:13
hrk先生 @Prof_hrk

次はメモリのセッション。Processing in Memory. UP memの人が講演。4GB DRAMのダイに8個のプロセッサーを組み込む。これをDDR4 2400 DIMMにする。DRAM用のプロセスで作れるところがミソ。 アプリはゲノム情報処理、Index検索、スカイラインアルゴリズムなどを例示。

2019-08-20 03:10:00
hrk先生 @Prof_hrk

スカイライン計算はどのアルゴリズムと比べているのか?普通使われている方法は私達の提案法より100倍くらい遅いぞ。 と言うように、一見速くなるように見えてPIMアルゴリズムはすぐ追いつかれるのできつい筈。それがPIMが登場以来30年でもなかなかメジャーになれない理由だと思う。

2019-08-20 03:13:57
hrk先生 @Prof_hrk

次はHongyang Jia、Princeton大のPIMについて。PIMで物を動かさないのでエネルギー低減を目指す。割と似たものだが、研究ベースなのでFancy。その次はIntelのOptane. Lily Looi(女性)とJane Xu(女性)。OptaneはI/Fプロトコル、コントローラ、ソフトウェアを変えてDRAMの下にあたるNVMEMを狙う。

2019-08-20 03:58:05
hrk先生 @Prof_hrk

3D構造のOptane MemoryがDRAMより遅くCCDより速い特徴をどのように生かすか。DIMM上にコントローラとファームウェアを乗せる。コントローラは要約するとアドレス変換を実現する。うーん、早いNVRAM以上のものがあるのか? 全然面白くない。Speakerが開発系じゃないからかな?

2019-08-20 04:09:15
hrk先生 @Prof_hrk

展示テーブルにGoogleのTPU v3のボードが出ていてた。他人が設計したボードはいつもとても興味深い。細かい点に色々苦労の跡がある。一番角の取り付け穴が長円形しているとか、材質が高価なMegtron系らしいとか。

2019-08-20 05:10:06
hrk先生 @Prof_hrk

午後のセッションの最初はAMDのLisa SuのKey note.元気なおばさんだ。お題はFuture of High-performance Computing. 右上がりの様々なグラフを示し、ムーア則はおわったのではなく、スローダウンということを強調している。特にDatacenter用CPUはPC用のトレンドより急上昇している。

2019-08-20 06:06:50
hrk先生 @Prof_hrk

結論はAMDはやります、です(当然か)。偉い人のKey noteとしては面白かった。

2019-08-20 06:44:26
hrk先生 @Prof_hrk

次はMLのセッション。まずはエッジから。StanfordのKeyi Zhangから、ハードウェア設計の方法論の話。応用の仕様からハード、ソフトと設計するウォーターフォール法では変化についていけない。ここではアジャイルなハードウェア設計法を提案する。 (これってハードウェア設計の世界では普通では?)

2019-08-20 06:48:38
hrk先生 @Prof_hrk

アプリ⇒HW+SWコンパイラ⇒実証⇒バグ取と評価⇒アプリ とサイクルを回す。ただし、全部が流動的だとサイクルがまわらない。 提案ではアプリとコンパイラの間にHalide,実証の間にCoreIRという層をいれること。実行ハードウェアをアジャイルにするために、粗粒度の再構成ロジック(CGRA)を使う

2019-08-20 06:52:26
hrk先生 @Prof_hrk

CGRAは演算処理とメモリをタイル状にした、粗粒度FPGAのようなもの。Genesis2で作り、SystemVerilogで書いた。物が今年初めに来た。 (これって既に色々な先行研究があるが、結局フラットなFPGAに勝てなかったのではないか?何が新しい兵器なのだろう) 新しい兵器としてDSLを導入。

2019-08-20 06:56:11
hrk先生 @Prof_hrk

PE, MEM, Interconnectを各々それ用のDLSで記述して、Generatorに食わせ全体をRTLとして出力する。Stage GeneratorとしてGemstoneを提案。RTLを段階的に作り上げていく。これでJadeチップの後継のGarnetチップを作った。Garnetは32x16のCGRAと周辺で出来ている。

2019-08-20 07:04:06
hrk先生 @Prof_hrk

博士論文のためにDSLとかデザインサイクルとか流行を取り入れているが、実際の場面で役に立つToolかが謎だ。性能評価が無いところを見ると、あまり動いてないのかな?

2019-08-20 07:06:20
hrk先生 @Prof_hrk

次は、MLperf、MLシステムの評価ベンチマーク。Peter MattsonがSpeaker. MLの標準ベンチマークを目指すもの。彼はGoogleのエンジニア。TrainingとInferenceの両方を含む。 Trainingでは、Dataset⇒モデル⇒目標品質(75%とか) DatasetはVision, Speech, Language, Commerce, Researchから。

2019-08-20 07:12:14
hrk先生 @Prof_hrk

評価は必要なので、Slideをチェックする必要がある。が、Googleがアッパーハンドを取りたいための戦略にも見える。また、結果は何でNormalizeするか?電力?チップ数? 今は後者。また、結果をSingle Numberにするか、とか。HPCのベンチマークと同じだよ。ベンチマークは商売直結だから怖い。

2019-08-20 07:24:52
hrk先生 @Prof_hrk

次はFBの学習用プラットフォーム、FBのMisha Smelyanskiyが演者。学習データは1年で3倍ふえ、使用量も急増。それに対応したシステムをHW-SWコデザインで作った。Workloadはランキングと利己面で―ション、ヴィション、言語処理。特にリコメンデーションがFBでは大事。 (余計なことしなくて良いのに)

2019-08-20 07:40:40
hrk先生 @Prof_hrk

詳細はスライドにある。CPUとくらべアクセラレータは10倍はやいが2倍電気を食う、演算はBFLOAT16を使う。HBMを使うと容量1/10でバンド幅10倍。で、CPU用とアクセラレータ用に別のインターコネクト。NIC, P2P, RDMA, PCI-SWITCH経由。

2019-08-20 07:49:21
hrk先生 @Prof_hrk

作ったシステムは、1セットに4Uサーバ(OCP8個)と1Uサーバ4台を入れる。OCPはFacebookが主体で作り上げたもの。下には各社のサーバが刺さる。1個のノードから8個手が出て、完全結合のスーパーセットを1セット内に実現。4台の1UとアクセラレータはPCIEで接続。

2019-08-20 07:55:57
hrk先生 @Prof_hrk

PCIEとインターコネクトのハイブリッドはありがちな気がするが、私見としてはあまり共感しない。PCIEがあるならそこでインターコネクト変換するほうがつぶしが利くのに。

2019-08-20 07:58:50