『半導体業界の第一人者、AI業界を行く!』Vol.6:FPGA を使ったコンピュータの新潮流

『半導体業界の第一人者、AI業界を行く!』Vol.6:FPGA を使ったコンピュータの新潮流

こんにちは,HACARUS 東京R&Dセンター所属のエッジ・エバンジェリスト 田胡治之です.この連載では,半導体業界で長年知識や情報を得てきた私,田胡がこれまでと異なるAI業界に飛び込み,そこから感じる業界のニュースやトピックを独自の視点で紹介したいと思います.

第5回のテーマは,NV-FPGA Initiative 第二回公開シンポジウム(2021年1月8日開催)についてです.

シンポジウムの位置付けとプログラム

産業技術総合研究所(産総研,AIST)が運営するテーマ別の研究会,産総研コンソーシアム [1] のテーマの一つ,Non-Volatile Field-Programmable Gate Array(NV-FPGA)Initiative 第二回公開シンポジウム Webinar (1月8日開催) を聴講しました.研究会メンバーではない筆者が,簡単に報告します.

発表プログラム

  1. “組合せ最適化処理を加速する CMOSアニーリングマシンとその FPGA 実装”,日立製作所 山岡雅直氏
  2. ”Microchip 社 不揮発性 FPGA をベースにした RISC-V の実現について”,マクニカ 池田修久氏
  3. ”原子スイッチ FPGA 技術の最新動向”,NanoBridge Semiconductor 阪本利司
  4. ”知的ロボットシステムのための FPGA コンポーネント技術”,東海大学 大川猛氏
  5. パネルディスカッション ”不揮発性スイッチ FPGA の将来”

進行司会:NV-FPGA Initiative 事務局 松本武雄氏

本稿では,講演1 と 4 をベースに FPGA を使った New Wave コンピュータ をレポートします.

 

講演1:組合せ最適化処理を加速する CMOSアニーリングマシンとその FPGA 実装

まず,日立製作所の山岡雅直氏による講演1について紹介し,筆者の所感を申し上げます.

対象とする問題

社会イノベーションの実現には,社会システムの最適化が必須となります.例えば,交通システムや物流システム,電力グリッドなどでは,車の流れや配送経路,電力の流通量などを最適化する必要があります.こういった最適化には,組合せ最適化問題と呼ばれる問題を解く必要がありますが,従来の計算機では,組合せ最適化問題を効率的に解くことは困難です.

そこで,日立製作所の研究グループは,社会イノベーションを実現するためのコンピューティング技術として,組合せ最適化問題を効率的に解く新しい概念のコンピューティング技術を開発しました[2].組合せ最適化問題のよく知られている例に, 巡回セールスマン問題があります(Figure 1).

巡回セールスマン問題(英: traveling salesman problem, TSP)[3] とは,「都市の集合と各2都市間の移動コスト(たとえば距離)が与えられたとき,全ての都市をちょうど一度ずつ巡り出発地に戻る巡回路のうちで総移動コストが最小のものを求める(セールスマンが所定の複数の都市を1回だけ巡回する場合の最短経路を求める)組合せ最適化問題」です.

都市数が少なければすべて全ての解候補をしらみつぶしに調べることが可能です.しかし,都市数が例えば30都市に増えると候補数が爆発的に増加し,その組合せの数は10の30乗という非常に大きな値となります.

この場合,全ての解候補を網羅的にリスト化して最適経路を求めるには,スーパーコンピュータを用いたとしても1,400万年という天文学的な時間が必要となってしまいます.このように,組合せ最適化問題はパラメータが増えると厳密解を得ることが途端に解くのが難しくなる特徴があります [4].

Figure 1 巡回セールスマン問題(配送経路問題).この問題は,都市間の距離のリストが与えられた際に,セールスマンが複数の都市をどの順序で訪問すれば最短の移動経路(最適経路)で済むかを求める問題 [4]

Figure 1 巡回セールスマン問題(配送経路問題).この問題は,都市間の距離のリストが与えられた際に,セールスマンが複数の都市をどの順序で訪問すれば最短の移動経路(最適経路)で済むかを求める問題 [4]

2000年代になり,量子アニーリングマシンが登場し,その一種として半導体アニーリングマシンも登場しました(Figure 2)

Figure 2 最適化問題を解く手法の変遷と,それらの特徴.従来コンピュータ+最適化問題解決アルゴリズムは大規模計算に課題がある.また量子アニーリングマシンは-273℃に冷却する必要があり,多大なコストが必要. [5]

Figure 2 最適化問題を解く手法の変遷と,それらの特徴.従来コンピュータ+最適化問題解決アルゴリズムは大規模計算に課題がある.また量子アニーリングマシンは-273℃に冷却する必要があり,多大なコストが必要. [5]

動作原理

最適化問題を,強磁性体の模型(モデル)であるイジングモデル(Ising model)に置き換え(Figure 3),系のエネルギー H が最小になる状態を求める問題に変換します.システムのエネルギーH を高い温度から初めて徐々に下げます(annealing:焼きなまし).

その過程で局所解に陥ることをなるべく避けるため,アニーリング中にランダムにスピン値を破壊します.このステップを繰り返して温度が十分に下がった段階では,各格子のスピン状態の組合せは全体のエネルギー最小となる組合せになっている,と考えます.

必ず最適解が求まるわけではないですが,工学的には最適値に近い解が求まる,としています.従来型コンピュータのプログラムに対応するものは,イジングモデルの格子点の結合形式や強さに相当します.

Figure 3 強磁性体の性質を表す統計力学上のモデルである.2つの配位状態をとる格子点(スピン)から構成され,隣接する格子点の相互作用を考慮したエネルギーHが最低の場合に安定状態となる. [6]

Figure 3 強磁性体の性質を表す統計力学上のモデルである.2つの配位状態をとる格子点(スピン)から構成され,隣接する格子点の相互作用を考慮したエネルギーHが最低の場合に安定状態となる. [6]

ノイマン型コンピュータアーキテクチャ(Figure 4 左)は問題を逐次的なアルゴリズムで表現するのに対し,提案アーキテクチャ(Figure 4 右)では,問題をイジングモデルに置き換えて解きます.

Figure 4 ノイマン型コンピュータアーキテクチャ(左)と提案アーキテクチャ(右)の比較 [7]

Figure 4 ノイマン型コンピュータアーキテクチャ(左)と提案アーキテクチャ(右)の比較 [7]

組合せ問題を解く専用計算機の比較

アニーリング技術を使って組合せ問題を解く専用計算機の比較を Figure 5 に示します[5].CMOSアニーリング技術は,搭載スピン数が大きい,常温で動作する,などの特長が挙げられます.

Figure 5 アニーリング技術のベンチマーク [5]

Figure 5 アニーリング技術のベンチマーク [5]

FPGAへの実装

FPGAデバイスに Xilinx社UltraScale,FPGA間接続にXilinx社Auroraを使い,4k個のパラメータを持つFPGAボードを開発しました.動作クロック周波数は 82.5MHzでした.FPGAボードを25枚ラックに入れトーラス状に接続し,100k個のパラメータまで扱えるシステムを構築しました.

性能評価として,ランダムに生成したイジングモデルの基底状態探索にかかる時間を,(A) CMOSアニーリングマシンと,(B) 従来計算機(汎用CPU)で走るシミュレーテドアニーリング(SA)プログラム,を使って比較しました.

100kパラメータの時,(A) 10.527ms に対し,(B) 1648.9ms であり,従来計算機に対し 156倍の速度向上を確認したそうです.ユーザが気軽に体験できるように Annealing Cloud Web が提供されています[7].

実際の社会課題を解くためには,(1) 実在する課題をイジングモデルへ変換するプロセスが必要,(2) 業務の熟知,そしてアニーリング前処理の高度な技術が求められる,とのことでした.

 

応用例:数十人,数百人規模の最適な勤務シフトを生成

コロナ禍で密を避けるなど制約の多い状況で,日立中央研究所360名の研究員の一週間の勤務シフトを作成し,性能を実証しました[8].「勤務シフト最適化ソリューション」の提供も始まっています[9].

Figure 6 勤務シフト作成の概要 [5]

Figure 6 勤務シフト作成の概要 [5]

筆者の感想です.お客様が試せる Cloud システムが開発され,ソリューション提供ビジネスが始まっています.ビジネスを拡げる上でのネックは,解くべき最適化問題をイジングモデルに置き換えるステップ,と感じました.従来のプログラムからの自動的変換は難しく,同技術のエキスパートがコンサルテーションが必要と感じました.

 

講演4:知的ロボットシステムのための FPGA コンポーネント技術

続いて,東海大学の大川猛氏による講演4について見ていきましょう.

文部科学省傘下の科学技術振興機構(JST) の,戦略的創造研究推進事業CREST [コンピューティング基盤]令和元年度採択課題のひとつ,「MEC用マルチノード統合システム」の研究です[9][10][11].5G時代には,端末と基地局間の応答時間は 0.5ms 以下になるとされます.

IoTで必要なタイミングクリティカル な処理を,エッジデバイスが接続される5G無線網基地局近傍に計算資源を配置して行う構想です(Figure 7).遅延が大きく消費電力も大きいクラウド処理でもなく,消費電力や計算能力に制限のあるエッジ端末での処理でもない,5Gの低遅延を生かすことを狙った構想と言えるでしょう.

これを,MEC(Multi-access Edge Computing)と呼んでいます.応用には,工場制御,交通制御,電力制御などの準リアルタイム処理,将来は自動運転など本格的なリアルタイム処理も期待されています.

Figure 7 MEC(Multi-acess Edge Computing) のイメージ [12]

Figure 7 MEC(Multi-acess Edge Computing) のイメージ [12]

FPGA をアクセラレータとして使うにあたってのポイントは,(A)ネットワーク透過性,(B) FPGA設計データの高いポータビリティ,です.(A) の例として,エッジ機器が5G基地局A圏内 から基地局B圏内に移動した場合に処理を引き継げること,あるいは,エッジ機器が5G基地局圏外に出た場合,エッジ機器内部のFPGAアクセラレータに処理を引き継げること,が目標になります.

(B) の例として,一度設計したFPGAアクセラレータ設計情報を,基地局のアクセラレータとしても,エッジ機器のアクセラレータとしても使えること.が挙げられます.5G基地局近くのFPGA アクセラレータと,エッジ機器内のそれの規模は異なるので,スケーラブルなFPGAアクセラレータの仕組みが必要です.

複数の FPGAボードを M-KUBOS(エム・キューボス)で接続したシステムが開発されました (Figure 8).複数の FPGAボード群を,論理的に一つの FPGA システム (FiC Cluster)として扱えるシステムです. M-KUBOS 規格を使った FPGA ボードは既に製品化されています(Figure 9, 10)[13].

Figure 8 M-KUBOS/PYNQ cluster [12]

Figure 8 M-KUBOS/PYNQ cluster [12]

Figure 9 PALTEK M-KUBOS/PYNQ [12]

Figure 9 PALTEK M-KUBOS/PYNQ [12]

Figure 10 左:PALTEK社製 M-KUBOS ボード,右:デスクトップ型,19" ラック収納,パネルマウントなど各種カスタマイズ対応可能 [13]

Figure 10 左:PALTEK社製 M-KUBOS ボード,右:デスクトップ型,19″ ラック収納,パネルマウントなど各種カスタマイズ対応可能 [13]

M-KUBOS PYNQ Clusterを Figure 11 に示します[12].

Figure 11 M-KUBOS PYNQ Cluster[11]

Figure 11 M-KUBOS PYNQ Cluster[11]

大川氏の研究グループでは,ROS2 (Robot Operating System 2) にロボット応用アプリケーションを載せる検討を行っています.応用イメージはロボット介護とのこと.なお,ROS2 (Robot Operating System 2) とは,ロボット開発のために必要な一連のライブラリとツール群,さらにはユーザと開発者を繋ぐオープンなコミュニティを含む統合的ソフトウェアプラットフォームのことです[14].

ROS/ROS2 はミドルウェアであり,OS ではありません.画像処理プログラムを例に,FPGAアクセラレータで処理,Intel社CPUで処理,Arm社CPU(FPGAチップ内蔵のArmコア)で処理した場合の性能比較を Figure 12 に示します.

FPGAアクセラレータ処理の Latency(遅れ時間)は270.7ms と小さく,消費電力も低くなりました.一方,Intel CPU の Latency はその 36.3倍,Armでは 263.2倍も大きく,また消費電力も大きくなりました.FPGAアクセラレータの高い応答性と低い消費電力を示したといえます.

 

Figure 12 ROS2 ノード画像処理性能の例

Figure 12 ROS2 ノード画像処理性能の例

 

筆者の感想です.コンピュータシステムのアーキテクチャレベル研究では,近年ソフトウェアモデルのシミュレーションによる性能予測が多いです.ハードウェアを開発するのは多大な手間とコストがかかる一方で,研究のポイントに絞ったソフトウェアモデルを作れば短期間で結果が得られ論文を書きやすいからでしょう.

しかし現実のハードウェア特性をどこまで反映しているかはモデル次第であるため,性能予測のレベルも様々です.このような研究論文は,ペーパーマシン(Paper machine)と揶揄されることもあります.

研究代表者の慶大理工学部天野英晴研究室では,実際のハードウェアを作りつつ研究を行う,今や珍しい?伝統があります.この MEC 研究プロジェクトもその伝統にのっとり,FPGAボードを使ったハードウェアをまず開発し,その上に基盤ソフトを開発する手法をとっています.研究成果の5Gシステムへの社会実装を期待したいです.

参考文献

[1] 産総研コンソーシアム
https://unit.aist.go.jp/colpla/iuao2020/consortium.html
筆者注: No.35 が Non-Volatile Field-Programmable Gate Array(NV-FPGA)Initiative

[2] M. Yamaoka, et.al., “Advanced Research into AI Ising Computer”,
Hitachi Review, Vol.65 (2016) No.6, p.156-160,
https://www.hitachi.com/rev/archive/2016/r2016_06/pdf/r2016_06_110.pdf

[3] Travelling salesman problem
https://en.wikipedia.org/wiki/Travelling_salesman_problem

[4] Annealing Cloud Web “WHAT IS THE COMBINATORIAL OPTIMIZATION PROBLEM”
https://annealing-cloud.com/en/knowledge/1.html

[5] CMOSアニーリングの顧客適用に向けた量子コンピュータ技術の応用
https://www.hitachihyoron.com/jp/archive/2020s/2020/03/03b09/index.html

[6] M. Yamaoka et.al., “20k-spin Ising chip for combinational optimization problem with CMOS annealing”, ISSCC 2015,

[7] Annealing Cloud Web “THE ISING MODEL AND THE ANNEALING MACHINE”
https://annealing-cloud.com/en/knowledge/2.html

[8] Annealing Cloud Web
https://annealing-cloud.com/en/index.html

[9] 日立製作所ニュースリリース 数十人,数百人規模の最適な勤務シフトを作成するソリューションを提供開始
https://www.hitachi.co.jp/New/cnews/month/2020/10/1019a.html

[10] CREST プログラムの概要
https://www.jst.go.jp/kisoken/crest/about/index.html

[11] [コンピューティング基盤]令和元年度採択課題
https://www.jst.go.jp/kisoken/crest/project/1111102/1111102_2019.html

[12] Challenge to Multi-access Edge Computing CANDAR 2020 Special Session (2020.11.25)
http://www.am.ics.keio.ac.jp/crest/wp-content/uploads/2020/12/CANDAR2020.pdf

[13] 5G時代に注目されるエッジコンピューティング
https://www.paltek.co.jp/techblog/productinfo/200602-1

[14] ROS 2 Documentation
https://index.ros.org/doc/ros2/

ニュースレター購読Newsletter

登録はこちら