『半導体業界の第一人者,AI業界を行く!』 Vol.20:アップル M1 Ultra の秘密

『半導体業界の第一人者,AI業界を行く!』  Vol.20:アップル M1 Ultra の秘密

こんにちは,HACARUS 東京R&Dセンター所属のエッジ・エバンジェリスト 田胡治之です.この連載では,半導体業界で長年知識や情報を得てきた私,田胡がこれまでと異なるAI業界に飛び込み,そこから感じる業界のニュースやトピックを独自の視点で紹介したいと思います.今回は,2022年3月に発表され話題となっている Apple M1 Ultra と Mac Studio PCについて,(1) 仕様と性能,(2) Apple M1 から Apple M1 Ultra へ,(3)Apple M1 Ultra の挑戦 ,(4) Apple Ultra Fusion の秘密,を読み解きます.

Apple M1 Ultra と Mac Studio PC

2022年3月の Apple Event で,M1 Ultra マイクロプロセッサーと,それを使った Mac Studio PC が発表されました[1][2].Mac Studio PC にはマイクロプロセッサー種類と個数の異なるいくつかの仕様があり,最大構成(Figure 1)では M1 Ultra を 2個使い,高い処理性能を得ています.例えば最大18本の8K ProRes 422ビデオストリームを再生できるそうで,驚きます.消費電力も低く,同じCPU性能のWindows PC に比べ消費電力は90%減(Figure 2左),同じGPU性能のWindows PC に比べ200W低い(Figure 2右)そうです.Mac Studio PCのプロセッサーとメモリーの選択を「20コアCPU+64コアGPU+128GBメモリー」(Figure 1の構成)にした場合.価格は 5,799ドル(税別)となります.Mac Studio PC はより高パフォーマンスを望むプレミアム製品の位置付けと考えられます [4].

Figure 1 Apple M1 Ultra を使った Mac Studio PC  [2]

Figure 2 左:CPU performance vs power consumption, 右:GPU performance vs power consumption  [1]

Apple M1 から Apple M1 Ultra へ 

AppleのMac向けマイクロプロセッサーの自社開発は,M1(2020年11月発表)から始まりました.2022年3月までに,M1, M1 Pro, M1 Max, M1 Ultra の4品種が開発されています.チップ写真,チップ面積などを Figure 3 に示します.M1 については,この Blog で既に取り上げました [3].

Figure 3 Apple M1, M1 Pro, M1 Max, M1 Ultra Dies  [2], [5]

CPUコア数などの仕様を Figure 4 に示します.2020年11月から2022年3月までに,4種類の Apple Silicon が発表され,それらを使った Mac が発売されています.チップ面積を増やしながら,CPUコア数,GPUコア数,AIアクセラレータコア数などの「演算エンジン」数を増加させています.処理速度を決める重要なファクターであるメモリバンド幅も,M1, M1 Pro, M1 Max と倍々に増やしてきました(Figure 5).M1, M1 Pro, M1 Max までは順当な進化と言えるでしょう.

 

Chip Name→ M1 M1 Pro M1 Max M1 Ultra
CPU core count (note1) 4+4 8+2 8+2 16+4
GPU core count (note2) 8 16 32 64
AI accelerator core count 16 16 16 32
Main memory capacity 8GB 16GB 32GB 64GB
DRAM type LPDDR4x-4266 LPDDR5-6400 LPDDR5-6400 LPDDR5-6400
DRAM channel count 2 2 4 8
Total channel x  bits per channel 2ch x 64bit/ch 2ch x 128bit/ch 4ch x 128bit/ch 8ch x 128bit/ch
Memory bandwidth 68,2GB/s 204.8GB/s 409.6GB/s 819.2GB/s

Figure 4 Specifications of Apple M1, M1 Pro, M1 Max, M1 Ultra [5]

note1: Performance-core count + Efficiency-core count,

note2: total implemented GPU cores which may include unactivated cores.

Figure 5  Main memory capacity and memory bandwidth trend for Apple M1, M1 Pro, M1 Max, M1 Ultra [5] を元に筆者作成

Apple M1 Ultra の挑戦 

半導体製造技術に M1 Max と同じ TSMC N5 を使う条件で,M1 Max より処理性能を2倍に高めたマイクロプロセッサーを開発するとしましょう.CPU core数,GPU core数,AI アクセラレータ数を2倍にすると共に,メモリバンド幅も M1 Max の2倍に引き上げる必要があります.大きく2つの挑戦があった,と考えます.

挑戦1:チップサイズの壁

TSMC 5nm製造工程には,EUVスキャナが使われています.波長 13.5nmのEUV(極端紫外光)を用いて,マスクに描かれたレイアウトパターンをウェハー表面に縮小露光する装置です.露光面積には上限があり,最大幅26mm×長さ33mm,面積では858平方mmです[6].M1 Max チップ面積は 432mm2 なので,M1 Max の2倍のチップ面積では,露光面積上限を超えてしまいます.仮に露光限界内にチップを収めたとしても,このような巨大チップでは歩留まりが低下し,チップ製造コストが上がってしまいます.従って,ひとつのパッケージ内に複数のCPUチップを収める方法が有力になります.

挑戦2:ユニファイドメモリアクセスの確保

Apple ニュースリリースにおいて[1],「(前略)、これにより、M1 Ultraは1つのチップのように動作し、ソフトウェアに認識されるので、デベロッパはそのパフォーマンスを生かすためにコードを書き直す必要がありません。」と述べています.M1 シリーズは Unified Memory アーキテクチャをとっています.ソフトウェアからメインメモリは単一アドレス空間(Unified Memory)に見え,CPU core, GPU core, AI acclerator core などから任意のメモリアドレスにアクセスできること,を意味します.M1 Max チップ内には多数のCPU core, GPU core, AI acclerator coreやメモリ―インターフェースIP があり,それらを相互接続するオンチップ接続網(On-chip Interconection)が張り巡らされています.ソフトウェア互換性を保つために,2つのM1 Maxチップを接続する場合でも,この Unified memory の特性を維持する必要があります.そのために,2つのM1 Maxチップそれぞれのオンチップ接続網をほぼそのまま直結した(バッファやレジスタは多少入るでしょうが),と筆者は考えます.更に Apple ニュースリリースにおいて[1],「(前略),一方、Appleの革新的なUltraFusionは、10,000を超える信号を通じてチップを接続するシリコンインターポーザを使用し、業界トップのマルチチップインターコネクトテクノロジーの4倍以上の帯域幅である2.5TB/sという膨大で低レイテンシのプロセッサ間帯域幅を実現します。」とあります.その実現のため Silicon Bridge を使った,と考えます(後述).

Apple Ultra Fusion の秘密

Apple イベントのプロモーションビデオ [2] に,2つのM1 Max ダイを近づけて中央の細長く黒っぽいモノを挟んで1万本以上の配線を接続するシーンがありました(Figure 6)[2]. Appleは,このチップ間接続構造を Ultra Fusion と呼んでいます[1].

Figure 6 A snapshot from the Apple event video [2]

Appleが示した M1 Ultra パッケージ内部イラストに筆者が加筆した図を Figure 7 に示します.Apple のイラストは説明用イメージ図で,実際には 2つの M1 Max die と中央の接続用小片(赤い四角形),8個のDDR5 die は全て face-down にマウントされている,筆者は考えます.M1 Max die と DDR5 die 間配線はパッケージ基板に埋め込まれている,と考えます.

Figure 7 Apple M1 Ultra パッケージ内部イラスト [1]をベースに,筆者加筆

複数ダイを1つのパッケージ内に収める手法(MCP: Multi Chip Package,または MCM:Multi Chip Module)は広く使われています.複数ダイ間の配線技術と配線ハーフピッチ(half line pitch)に着目したグラフを Figure 8 に示します[7].配線ハーフピッチが緩い順に,(1) 10um以上 Traditional Organic Packages (FCBGA),(2) 2~3um以上 High Density Organic Interposers,(3) 2um 以下 Technologies that use Si backend wiring 技術が使われます. (3) が隣接チップ間の短い接続に使われる場合,一般的には Silicon Bridge と呼ばれるようです.Intel社AMD社は EMIB(Embedded Multi-die Interconnect Bridge) と呼んでいます.グラフにおいて (3)技術による配線最小ハーフピッチは約1um と読みとれ,即ち配線ピッチ2um になります.一方.[1]では,M1 Maxチップ間を1万本以上の配線で接続した,と述べています.M1 Maxチップ横幅は約19.3mmなので,単純計算で配線ピッチは約2um (19.3mm / 10,000本)になります.これは,Silicon Bridge の最小配線ピッチ 2um とと矛盾しません.更に Apple は,「2.5TB/s (Tera Byte per second) の転送バンド幅を達成した」と述べています.接続部分を通る信号のスイッチング速度を見積もってみます.差動信号と仮定した場合,8bit/B x 2.5TB/s / (10,000/2) から 4Gbps (Giga bit per second)と見積れます.パソコンで広く使われている USB3.0のデータ転送速度理論値が最大5Gbps なので,ほぼ同程度です.M1 Ultra では隣接M1 Max チップ間の短距離転送なので,十分実現できると考えます. 

Figure 8:  Three interconnect technologies of MCP(Multi-Chip Package)  and their half-line pitches. from page 10 of [7]

Figure 7の一点鎖線位置(A A’間)の断面模式図(筆者推定)を Figure 9 に示します.Figure 7 赤い四角形の実体は上述した Silicon Bridge で,1万本以上の配線でM1 Max die間を直接接続しています.M1 Max die のDDR5信号(1千本以上)とその他信号は,Cupper Pillars を通ってパッケージ基板に接続され,Top build-up layer の配線を介してDDR5 die やパッケージ端子と接続されている,と推定します.

Figure 9 M1 Ulta パッケージの垂直断面図(筆者推定)

推定を重ねて来ましたが,隣接 M1 Max die 接続目的だけにしては,Silicon Bridge の高さ(Figure 5)が かなり高く,駆動能力が高そうな設計に見えるのが腑に落ちません.M1 Max die を3個,4個と増やし,メモリも増やした次世代M1 Ultra バージョンへの準備なのかもしれません [8].

Apple の米国特許

Apple は,複数ダイのパッケージ方法について特許出願をしています.その一例,”US 2020/0176419 A1 WAFER RECONSTITUTION AND DIE – STITCHING”

[9] を紹介します.概要には,「再構成されたチップが、ウェーハ再構成およびダイステッチング技術を使用して形成されることが記載されている。 一実施形態では、再構成されたチップレベルを含むチップラインのバックエンド(BEOL)ビルド-接続する構造 無機ギャップ充填材に埋め込まれたダイセット。」とあります.もちろん特許なので多くの実施例が書かれており,M1 Ultra に使われたかどうかはよくわかりませんが,関係ありそうな図面を Figure 10 に示します.

Figure 10  Apple_US2020_0176419_Al_Fig.3, Fig4 [9]

まとめ

  1. 2022年3月,Apple は Apple M1 Ultraマイクロプロセッサーと,それを使ったMac Studio PC を発表しました.高性能かつローパワーな M1 Ultra の設計と実装方法が業界で話題になっています.
  2. Apple は Mac向けマイクロプロセッサーとして,チップ面積を増やしつつ M1, M1 Pro, M1 Max を開発し,順当に性能を上げてきました.しかし M1 Max が製造可能なチップ面積上限近くに達し,更にチップ面積を増やすことができなくなりました. 
  3. ソフトウェア互換性を維持しつつ,処理性能をM1 Max より更に向上させるため,2つの M1 Max ダイを直結し,8個の DDR5ダイをパッケージ内に実装する新しいMCP (Multi Chip Package)を採用しました.最先端のパッケージ技術である Silicon Bridge (Silion Interposer の一種)を使って 2つの M1 Max ダイを広帯域(2.5TB/s)かつ低遅延で直結する構成(Apple 呼称: Ultra Fusion)を採用して課題を解決した,と筆者は考えます.Ultra Fusion は拡張性があるので,M1 Max の個数を2個から更に増やしメモリ容量も増やした製品も可能かもしれません.Apple Silicon から目が離せません.

参考文献

[1] Apple unveils M1 Ultra, the world’s most powerful chip for a personal computer

https://www.apple.com/ca/newsroom/2022/03/apple-unveils-m1-ultra-the-worlds-most-powerful-chip-for-a-personal-computer/

[2]  Apple Event – March 9 –

https://www.youtube.com/watch?v=CUwg_JoNHpo

[3] 田胡,『半導体業界の第一人者、AI業界を行く!』 Vol.4:Apple M1 プロセッサはなぜ速い?

https://hacarus.com/ja/information/column/20210120-apple-m1/

[4] 鈴木 淳也,順当進化だが限界も見えた「M1 Ultra」、次期Apple Siliconの布石となるか

https://xtech.nikkei.com/atcl/nxt/column/18/01983/031000001/?P=2

[5] Wikipedia Apple silicon

https://en.wikipedia.org/wiki/Apple_silicon#Apple_M1_Ultra

[6] 福田昭のセミコン業界最前線 開発が本格化する次世代EUV露光技術、3nm以降の微細化を主導

https://pc.watch.impress.co.jp/docs/column/semicon/1165543.html

[7] R. Mahajan and S. Sane, Intel, “Technology Provider: Intel packaging technologies for chiplets and 3D”, HotChip33, 2021

https://hc33.hotchips.org/assets/program/tutorials/Tutorial_Mahajan_Sane_HotChips_2021_Talk_final_Formatted_1.pdf

[8]  大原雄介のエレ・組み込みプレイバック ウルトラ高性能な「Apple M1 Ultra」の謎

https://techfactory.itmedia.co.jp/tf/articles/2204/07/news042.html

[9] US 2020/0176419 A1 WAFER RECONSTITUTION AND DIE-STITCHING

https://patentimages.storage.googleapis.com/ee/a1/13/470ad3bdceab68/US20200176419A1.pdf

ニュースレター購読Newsletter

登録はこちら