
こんにちは,HACARUS 東京R&Dセンター所属のエッジ・エバンジェリスト 田胡治之です.この連載では,半導体業界で長年知識や情報を得てきた私,田胡がこれまでと異なるAI業界に飛び込み,そこから感じる業界のニュースやトピックを独自の視点で紹介したいと思います.今回は,(1) 世界最大のネット通販であると同時に最大のクラウドコンピュータを持つAmazon のサーバー台数推計と自社開発が有利な理由,(2) Amazon 自社開発マイクロプロセッサ Graviton, Graviton2, Graviton3 の設計と性能,(3) 日系半導体メーカーによるArm Neoverse を使ったロジック集積回路開発例を見ていきます.
Amazon Web Service の規模
アマゾン(Amazon Inc.)2021年第4四半期(2021/Q4)の全世界売り上げ額は,約1374億1200万ドルでした[2][3].内訳はネット通販が約660億7500万ドル(2021/Q3から40%増加)で総売り上げの 45% を占め,クラウドサービスの AWS(Amazon Web Service)は177億8000万ドル(2021/Q3から40%増加)で総売り上げの 13%を占めます.Amazon EC2(Elastic Compute Cloud)とは仮想サーバサービスのことで,(1)必要なときに必要な計算リソースを確保可能, (2)ワークロードに応じて様々なインスタンスタイプを選択可能,(3)数分で起動し秒単位の従量課金,などの特長を持ちます[4][6].2021年時点のAmazon社EC2 のCPU選択肢を Figure 1 右に,インテル社CPU,AMD社CPU,とAmazon自社開発Graviton2(水色) 三種のシェア推移を,Figure 1 左に示します.Graviton2 のシェア増加が目につきます.

Figure 1 左:Amazon社EC2に占める Graviton2 の割合[5],右:Amazon社 EC2 の高性能CPUの選択肢 [6]
AWS C7g Instance の構成
AWS は様々なインスタンス(仮想CPU環境)を提供します.Graviton3 を使ったインスタンスは,C7g です.サーバーラック(Figure 2 左)には複数の C7gボードが入ります.C7gボードのブロック図によると,Nitro card に Graviton3 チップが3個接続されています(Figure 2 右).C7g ボード写真(Figure 2 中央,放熱器が外された写真と推定)には,中央に Graviton3チップ3個,奥に Nitro card と SSD があり,手前は電源回路と見られます.

Figure 2 C7g rack and board
Graviton3チップ(パッケージ)の写真が Figure 3 左で,パッケージ内部に7個の半導体片(ダイ,die)が見えます.Amazon はそれ以上の詳細を発表していません.メディア情報[8] [11] に筆者の推定を加えた模式図を,Figure 3 右に示します.7個のダイの内訳は,Graviton3 CPUダイが1個(薄い黄色),DDR5 ダイが4個(薄い緑色)に PCIe gen5(PCI express 第5世代のI/O)ダイが2個(薄い青色)です.パッケージ基板(Figure 3 左の緑色部分)に,DDR5 ダイ4個と PCIe gen5 ダイ2個が上向きにマウントされています.これらのダイの入出力端子は上面にあります(小さな緑色の半球) .次に Gravition3 CPUダイ表面(入出力端子がある側)を下に向けて(face-down),マウント済みの DDR5 ダイと PCIe gen5 ダイの入出力端子にぴったり合わせて直接接合させます.このとき,各ダイ表面に生成されたバンプ(bump,数十ミクロン径の半田ボール)同士が少し潰れながら直接接合します.もちろん,バンプ位置がぴったり合うように,Graviton3ダイ,DDR5ダイと PCI3 gen5ダイは設計されています.このようにすることで,パッケージ基板を介することなく,Graviton3 ダイ,DDR5ダイ,PCI3 gen5ダイ間を 0.1~0.2mm程度の距離で接続できたと考えます.

Figure 3 左:Graviton3 package,右:Seven chiplets in Graviton3 (筆者推定)
このメリットは大きく二つあると考えます.
- Gvavition3 CPUダイと DDR5ダイ間距離が 0.1~0.2mm 程度に短縮することで配線容量が大きく減り,配線容量に比例するメモリーインタフェースの消費電力が大きく減ります.また高速なDDR5動作タイミングに余裕が生まれます.
- Graviton3ダイとPCIe gen5 の開発を独立に進められます.PCIe gen5 は最新のI/O IP であり,供給ベンターは米Synopsys社などに限られるでしょう.半導体の特性に敏感な高速アナログ回路を含むため,半導体製造プロセスに合わせこんだ設計開発が必要です.Graviton3 CPUダイにPCIe gen5 IP をワンチップ化するには,TSMC 5nm 半導体特性に合わせこむ設計期間がかかり,一発動作しないリスクもあるでしょう.動作確認済みの PCIe gen5 ダイを使えば,そのリスクを回避できると考えます.
Graviton3パッケージ内中央の Graviton3 CPU ダイには Arm社Neoverse V1 IPが使われ,64コアがメッシュ状に接続されています(Figure 4 右).一つのコア内部の主要ブロック図を Figure 4 左の枠内に示します.Graviton2(Figure 5 左の左端)に比べて命令解読部が強化されると共に,実行ユニット数も約2倍に増えています.並列実行できる命令が増えて性能が上がります.

Figure 4 右:Graviton3 – Interconnect & system に加筆,左:Graviton2 CPUコアから Graviton3 CPUコアへの強化 [1]
AWS Instance の比較
2021年時点での Graviton2を使った m6g インスタンス,AMD社EPYC7571を使ったm5aインスタンス,Intel社Xeon Platinum 8259CL を使った m5n インスタンスの仕様と性能比較を Figure 5 に示します.特に目を引くのは,m6g のTDP(Thermal Design Power,熱設計消費電力)が m5a, m5n の半分程度と小さいことです.またm6g の時間あたり料金が一番安く,ユーザを m6g に誘導しています.

Figure 5 Graviton2, AMD, Intel, AMD の比較 [10]

Figure 6 Graviton, Graviton2, Graviton3 の比較.赤字は参考文献が粗い推定としている項目 [11]
Graviton3 の性能
CPU性能ベンチマークの一つ SPEC cpu2017rate 値を比較します(Figure 7 左 ). C6g(Graviton2)のそれを100%とすると,C7g(Graviton3)は約130%~160%に向上しました.Intel社,AMD社CPUは 70%~90% です. 機械学習の一例として自然言語処理(NLP)のBERTモデル性能は,C6g に比べて約2.4倍に向上しています(Figure 7 右 ).

Figure 7 左:Graviton3 SPEC cpu2017 rate,右:Graviton3 の機械学習性能 [1]
Gravition3 は Arm Neoverse V1(Zeus) を使っていますが,Arm は次世代 プラットフォームとなる Poseidon Generation Platform も準備しています(Figure 8).
Oracle Cloudでも半導体ベンチャーのAmpere(Neoverse N1を搭載)チップを搭載したAmpere Altraサーバーが採用されています[9].中国のTencentでもNeoverse N1を採用したCPUが稼働しており,中国のAlibabaもArmを採用しているそうです[5].

Figure 8 Arm Neoverse Platform Roadmap [5]
日本で開発された Neoverse ベースのロジック半導体
日本の半導体メーカ,ソシオネクストが,Neoverse を使った40コアCPUを開発しました[12].「Armコア40個からなる大規模CPU(Central Processing Unit)をソシオネクスト(横浜市)が設計した.ある海外顧客のSoC(System on a Chip)に集積されるCPUで,同SoCは台湾TSMCがいう「7nmプロセス」で製造され,CPUは3GHzと高速動作する.同等のプロセスで製造される米Intel(インテル)のサーバー向け最新MPU(マイクロプロセッサー)「第3世代Xeon Scalable Processor(Xeon SP)」(開発コード名:Ice Lake-SP)が最大40コアで,ベースクロック周波数が2.3GHz/ターボ動作時の最大クロック周波数が3.4GHzであり,今回のCPUの規模や性能はこれに近い.」と報告されています.

Figure 9 日本の半導体メーカ,ソシオネクストによる Neoverse を使った40コアCPUの開発 [12]
まとめ
- AWSは数百万台のサーバーを持ち,毎年100万台を超えるサーバーを入れ替えている,と言われています.この規模を生かして,サーバーの自社開発に大きなメリットが生じます.第一にAWSのワークロードに最適化したサーバーを持てること,第二にIntel社やAMD社からの購入に比べ低コストでの調達が可能になることです.
- 2021年末に,AWSが開発したGraviton3 CPUとそれを使った C7g インスタンスが発表されました.自然言語処理での性能は,C6gインスタンス(Graviton2)に比べて約2.4倍に向上した一方で,消費電力は Gravition2 同程度の 100Wに抑えられています.CPUコアに 使われた Arm Neoverse V1 IP,先端パッケージング技術,TSMC 5nm半導体製造技術がキー技術と考えます.
- Oracle, Ampere, Tencent, Alibaba などのクラウドのヘビーユーザーも,Arm Neoverseを使った自社製サーバーを開発中と伝えられます.Arm は,さらに高性能な次世代 Neoverse も発表しています.
- 日本の半導体メーカ,ソシオネクストが,Neoverse N1 を使った40コアCPUを開発しました.ある海外顧客向けにロジック集積回路の物理設計を行い,3GHzの高速動作させる設計技術力を示しました.
参考文献
[1] AWS re:Invent 2021 – {New Launch} Deep dive into AWS Graviton3 and Amazon EC2 C7g instances
https://www.youtube.com/watch?v=WDKwwFQKfSI
[2] AMAZON.COM ANNOUNCES FOURTH QUARTER RESULTS
https://s2.q4cdn.com/299287126/files/doc_financials/2021/q4/business_and_financial_update.pdf
[3] Amazon、売上高は過去最高も予測に届かず 純利益98%増は出資先Rivianの上場益 2022年2月4日
https://www.itmedia.co.jp/news/articles/2202/04/news065.html
[4] AWSとは? 初心者にもわかりやすく解説
https://www.skyarch.net/column/whataws01/
[5] Arm、DC向けCPU IPデザイン「Neoverse」の高性能版「Neoverse V1」とArmv9に対応した「Neoverse N2」を発表
https://cloud.watch.impress.co.jp/docs/news/1321510.html
[6] Amazon EC2 で選択できる高性能CPUの選択肢
https://d1.awsstatic.com/webinars/jp/pdf/services/20200707_BlackBelt_Graviton2.pdf
[7] コレ1枚で分かる「クラウドコンピューティング 2019年版」
[8] Amazon Graviton 3 Uses Chiplets & Advanced Packaging To Commoditize High Performance CPUs | The First PCIe 5.0 And DDR5 Server CPU
[9] 『半導体業界の第一人者,AI業界を行く!』 Vol.12:クラウドネイティブプロセッサ 2021年7月9日
https://hacarus.com/ja/ai-lab/20210709-cloud-native-prosessor/
[10] Amazon’s Arm-based Graviton2 Against AMD and Intel: Comparing Cloud Compute
https://www.anandtech.com/show/15578/cloud-clash-amazon-graviton2-arm-against-intel-and-amd
[11] INSIDE AMAZON’S GRAVITON3 ARM SERVER PROCESSOR
https://www.nextplatform.com/2022/01/04/inside-amazons-graviton3-arm-server-processor/
[12] 日本に残る世界レベルの設計力、40コア大規模CPUで見せつける
https://xtech.nikkei.com/atcl/nxt/column/18/00138/090200869/