2019年8月24日

h r k 先生の「Hot Chips 31」レポート

2019年８月18日から20日にかけて米スタンフォード大学で開催された「HotChips31」に関するｈ r k 先生のレポート

ARM AMD ISA Intel TPU CPU Google FPGA IBM RISC-V

CordwainersCat
3066
6
0
0

3

前へ 1 2 3 4 次へ

ｈｒｋ先生 @Prof_hrk

RISC-Vの最後はETHの Fabian Schuiki、大学院生。　Open Source Processorを作るとあるぞ。何かAsanovic先生の話とずれを感じる。で、RISC-Vを使ったEdgeデバイス用のAIチップを作る。40K gates。命令の拡張でコンボリューションを10倍の速度にする。1.8GOPS 385GOPS/W。200MHzクロック。

2019-08-19 09:09:28

ｈｒｋ先生 @Prof_hrk

Hotchips　1日目。88Submissionで26Acceptedなので、難しいカンファレンスに近づきつつあるみたい。最初はサーバチップのセッション。いつもは一番最後だったが人気の中心が移ったことを反映しているみたい。

2019-08-20 00:57:00

ｈｒｋ先生 @Prof_hrk

汎用プロセッサの最初はAMDのZEN2.David Suggsが講演。Chipletを使っていることが特徴。マイクロアーキテクチャには特別なことはないが、最適化してZENより15%IPCが向上。エネルギーは約1/2に向上。IPCで15%, Designで17％、7nmで47％向上。セキュリティとか他も普通に向上させている。

2019-08-20 01:04:13

ｈｒｋ先生 @Prof_hrk

各種メモリ・レジスタ、FLPなどの数字も大きくなっている。が、驚きはない。コンテンツのマーケットのためにPCIE Gen4でストレージを高速化している。これを8個までをIO コントローラなどとChipletとして集積化したROMEサーバを作った。これを2個までL3でつなげて128コアまで拡張できる。

2019-08-20 01:19:10

ｈｒｋ先生 @Prof_hrk

次はARM, Andrea Pellegrini。N1はクラウドからエッジまでをカバーするプラットフォーム、　7nm. 将来は7/5nm+のZeusなど。Reference desigでは、64から128のN1をタイル状に並べる。N1のフィーチャーは汎用CPUとしては一般的なもの。190SPECint_rate2017くらい。105W SoC power.

2019-08-20 01:34:52

ｈｒｋ先生 @Prof_hrk

エッジとサーバ用はタイル数を4から64まで変えることで作り分ける。ARMがメインストリームCPUの領域についに進出したというイメージ。勿論Fの富岳のCPUがあるが、本家がPerformanceに乗り出した感がある。

2019-08-20 01:53:10

ｈｒｋ先生 @Prof_hrk

次はIBMのPower 9SU 14nm..Jeff Stuecheli, Scott Willenborgが講演。 2017 のPower9 SO、最適化した2018のSUを更にメモリを強くしたAIOを説明する。何かブルートフォースで工夫が足りない印象がある。これを使ってSupercomputer SUMMITを作る（SUか？）。

2019-08-20 02:08:13

ｈｒｋ先生 @Prof_hrk

次はメモリのセッション。Processing in Memory. UP memの人が講演。4GB DRAMのダイに8個のプロセッサーを組み込む。これをDDR4 2400 DIMMにする。DRAM用のプロセスで作れるところがミソ。アプリはゲノム情報処理、Index検索、スカイラインアルゴリズムなどを例示。

2019-08-20 03:10:00

ｈｒｋ先生 @Prof_hrk

スカイライン計算はどのアルゴリズムと比べているのか？普通使われている方法は私達の提案法より100倍くらい遅いぞ。と言うように、一見速くなるように見えてPIMアルゴリズムはすぐ追いつかれるのできつい筈。それがPIMが登場以来30年でもなかなかメジャーになれない理由だと思う。

2019-08-20 03:13:57

ｈｒｋ先生 @Prof_hrk

次はHongyang Jia、Princeton大のPIMについて。PIMで物を動かさないのでエネルギー低減を目指す。割と似たものだが、研究ベースなのでFancy。その次はIntelのOptane.　Lily Looi(女性）とJane Xu(女性）。OptaneはI/Fプロトコル、コントローラ、ソフトウェアを変えてDRAMの下にあたるNVMEMを狙う。

2019-08-20 03:58:05

ｈｒｋ先生 @Prof_hrk

３D構造のOptane MemoryがDRAMより遅くCCDより速い特徴をどのように生かすか。DIMM上にコントローラとファームウェアを乗せる。コントローラは要約するとアドレス変換を実現する。うーん、早いNVRAM以上のものがあるのか？全然面白くない。Speakerが開発系じゃないからかな？

2019-08-20 04:09:15

ｈｒｋ先生 @Prof_hrk

展示テーブルにGoogleのTPU v3のボードが出ていてた。他人が設計したボードはいつもとても興味深い。細かい点に色々苦労の跡がある。一番角の取り付け穴が長円形しているとか、材質が高価なMegtron系らしいとか。

2019-08-20 05:10:06

ｈｒｋ先生 @Prof_hrk

午後のセッションの最初はAMDのLisa SuのKey note.元気なおばさんだ。お題はFuture of High-performance Computing. 右上がりの様々なグラフを示し、ムーア則はおわったのではなく、スローダウンということを強調している。特にDatacenter用CPUはPC用のトレンドより急上昇している。

2019-08-20 06:06:50

ｈｒｋ先生 @Prof_hrk

結論はAMDはやります、です（当然か）。偉い人のKey noteとしては面白かった。

2019-08-20 06:44:26

ｈｒｋ先生 @Prof_hrk

次はMLのセッション。まずはエッジから。StanfordのKeyi Zhangから、ハードウェア設計の方法論の話。応用の仕様からハード、ソフトと設計するウォーターフォール法では変化についていけない。ここではアジャイルなハードウェア設計法を提案する。（これってハードウェア設計の世界では普通では？）

2019-08-20 06:48:38

ｈｒｋ先生 @Prof_hrk

アプリ⇒HW+SWコンパイラ⇒実証⇒バグ取と評価⇒アプリ　とサイクルを回す。ただし、全部が流動的だとサイクルがまわらない。提案ではアプリとコンパイラの間にHalide,実証の間にCoreIRという層をいれること。実行ハードウェアをアジャイルにするために、粗粒度の再構成ロジック（CGRA)を使う

2019-08-20 06:52:26

ｈｒｋ先生 @Prof_hrk

CGRAは演算処理とメモリをタイル状にした、粗粒度FPGAのようなもの。Genesis2で作り、SystemVerilogで書いた。物が今年初めに来た。（これって既に色々な先行研究があるが、結局フラットなFPGAに勝てなかったのではないか？何が新しい兵器なのだろう）新しい兵器としてDSLを導入。

2019-08-20 06:56:11

ｈｒｋ先生 @Prof_hrk

PE, MEM, Interconnectを各々それ用のDLSで記述して、Generatorに食わせ全体をRTLとして出力する。Stage GeneratorとしてGemstoneを提案。RTLを段階的に作り上げていく。これでJadeチップの後継のGarnetチップを作った。Garnetは３２ｘ１６のCGRAと周辺で出来ている。

2019-08-20 07:04:06

ｈｒｋ先生 @Prof_hrk

博士論文のためにDSLとかデザインサイクルとか流行を取り入れているが、実際の場面で役に立つToolかが謎だ。性能評価が無いところを見ると、あまり動いてないのかな？

2019-08-20 07:06:20

ｈｒｋ先生 @Prof_hrk

次は、MLperf、MLシステムの評価ベンチマーク。Peter MattsonがSpeaker.　MLの標準ベンチマークを目指すもの。彼はGoogleのエンジニア。TrainingとInferenceの両方を含む。 Trainingでは、Dataset⇒モデル⇒目標品質（７５％とか） DatasetはVision, Speech, Language, Commerce, Researchから。

2019-08-20 07:12:14

ｈｒｋ先生 @Prof_hrk

評価は必要なので、Slideをチェックする必要がある。が、Googleがアッパーハンドを取りたいための戦略にも見える。また、結果は何でNormalizeするか？電力？チップ数？　今は後者。また、結果をSingle Numberにするか、とか。HPCのベンチマークと同じだよ。ベンチマークは商売直結だから怖い。

2019-08-20 07:24:52

ｈｒｋ先生 @Prof_hrk

次はFBの学習用プラットフォーム、FBのMisha Smelyanskiyが演者。学習データは1年で3倍ふえ、使用量も急増。それに対応したシステムをHW-SWコデザインで作った。Workloadはランキングと利己面で―ション、ヴィション、言語処理。特にリコメンデーションがFBでは大事。（余計なことしなくて良いのに）

2019-08-20 07:40:40

ｈｒｋ先生 @Prof_hrk

詳細はスライドにある。CPUとくらべアクセラレータは10倍はやいが2倍電気を食う、演算はBFLOAT16を使う。HBMを使うと容量1/10でバンド幅10倍。で、CPU用とアクセラレータ用に別のインターコネクト。NIC, P2P, RDMA, PCI-SWITCH経由。

2019-08-20 07:49:21

ｈｒｋ先生 @Prof_hrk

作ったシステムは、1セットに4Uサーバ（OCP8個）と1Uサーバ4台を入れる。OCPはFacebookが主体で作り上げたもの。下には各社のサーバが刺さる。1個のノードから8個手が出て、完全結合のスーパーセットを1セット内に実現。4台の1UとアクセラレータはPCIEで接続。

2019-08-20 07:55:57

ｈｒｋ先生 @Prof_hrk

PCIEとインターコネクトのハイブリッドはありがちな気がするが、私見としてはあまり共感しない。PCIEがあるならそこでインターコネクト変換するほうがつぶしが利くのに。

2019-08-20 07:58:50

前へ 1 2 3 4 次へ

いま話題のタグ

詐欺999 仮面アメリカ8 ゴジラ483 草津62 岸田文雄198 タヌキ108 宇宙食6 らーめん再遊記6 イスラエル659 柴犬247 新人157 クマ206 ゲゲゲの鬼太郎197 鈴木亮平42 水曜日のダウンタウン123