『半導体業界の第一人者,AI業界を行く!』 Vol.18: 少量データ型AI開発でカーボンフットプリントが100分の1に/深層学習型に比べ「脱炭素」実現

『半導体業界の第一人者,AI業界を行く!』  Vol.18: 少量データ型AI開発でカーボンフットプリントが100分の1に/深層学習型に比べ「脱炭素」実現

こんにちは,HACARUS 東京R&Dセンター所属のエッジ・エバンジェリスト 田胡治之です.この連載では,半導体業界で長年知識や情報を得てきた私,田胡がこれまでと異なるAI業界に飛び込み,そこから感じる業界のニュースやトピックを独自の視点で紹介したいと思います.今回は,(1) 機械学習トレーニング時の演算量推移を調べ,(2) 最近のディープラーニングモデルのトレーニング時消費電力と推定CO2排出量がとても大きいことを説明し,(3) スパースモデリングはディープラーニングよりもカーボンフットプリントがはるかに小さいことを述べたいと思います.

機械学習モデルのトレーニング時演算量の推移

機械学習の元祖と言われるパーセプトロン(1960年)から AlphaGoZero(2020年)までの60年間にわたる機械学習モデルトレーニング時の演算量推移を Fig. 1 に示します[1] .トレーニング時演算量とは,機械学習モデルのトレーニング(学習)期間に行われる計算回数です.例えば,3.1 x 0.45 + 9.7E-3 の演算量は,浮動小数点乗算1回と浮動小数点加算1回の合計で2浮動小数点演算(FLOP: FLoating OPeration)と数えます.Fog.1 の横軸は論文発表年.縦軸はトレーニングに必要な一日あたりの演算量です.演算量は,60年間で 1e+18倍(1e+4 / 1e-14)に増加しました.縦軸の単位 Petaflop/s-days は後述します.2012年以前を第一世代(First Era),2012年以降をモダン世代(Modern Era,薄緑色のハッチング)に大別しています.演算量の増加ペースは2012年を境にはっきり折れ曲がっており,2012年以降の増加ペースは,3.4ヵ月で2倍(年増加率換算では11.5倍/年)に大きく増加しています.2012年はディープラーニング技術の一つである CNN (Convolutional Neural Network) が使われてベンチマーク画像の誤認識率が大きく下がり,ディープラーニングブームが始まった年です.

Figure 1  機械学習モデルのトレーニング時演算量の推移(1960 ~2020)[1]の図に加筆

モダン世代(2012年 ~ 2018年)の演算量推移を Fig. 2 に示します.例として,2012年発表の AlexNet (Fig.2中の A )の演算量を求めてみます.

AlexNetの論文では,「私たちのネットワークは,2つのGTX 580 3GB GPUでトレーニングするのに5〜6日かかる」と述べられています[2] .Nvidia社GTX 580 定格性能を1.48E+12FLOP/s,GPU平均利用率を 0.33 (33%) と見積って,AlexNet トレーニングにかかった演算量(計算回数)を以下のように見積もっています [2].

The_number_of_GPUs * GPU_FLOP/S * Execution_time * GPU_estimated_utilization
= 2 * 1.58E+12FLOP/s * ( 5.5days * 24hours/day * 3600s/hour ) * 0.33
= 496E+15FLOP

これが演算量(計算回数)で,単位は FLOP (FLoating OPeration) です.

496E+15FLOPを「一日あたりの演算速度」を含む形に変形します.
.                           一日の秒数           一日あたりの演算速度
496E+15FLOP = 86400s    *   (496E+15FLOP / 86400s)
= 86400s * 5.741E-3Petaflop/s-days
一日あたりの演算速度 5.741E-3Petaflop/s-days は,Fig. 2 A点と一致します.

Figure 2 ディープラーニング時代のトレーニング時演算量の推移(2012年 ~2018年)[1] に加筆

Fig. 2 では,ビジョン(画像認識)向け機械学習モデル(Alexnet, VGG, Xception, 等),自然言語処理向けモデル(DeepSpeech2, Neural Machine Translation, 等 )とゲーム向け(囲碁)モデル(AlphaZero, AlphaGoZero)がプロットされています.分野によらず,各モデルが3.4ヵ月で2倍に増加ペースにほぼ乗っているのは興味深いと思います.

ディープラーニングモデルのハイパーパラメータ数の推移

自然言語処理(NLP)モデルのハイパーパラメータ数の推移(Fig.3 左)と,ビジョン(画像認識)モデルのハイパーパラメータ数の推移( Fig.3 右) に示します.どちらも 3.4ヵ月で2倍の増加ベースに近いようです.

Figure 3  左:自然言語処理モデルのハイパーパラメータ数の推移,右:ビジョン(画像認識)モデルのハイパーパラメータ数の推移

自然言語処理(NLP: Natural Language Processing)向け機械学習モデルのトレーニング時の消費電力見積り

[2]では,自然言語処理(NLP: Natural Language Processing)の機械学習モデル8種類を対象に,各モデルのトレーニング時の消費電力(Power (W)),冷却を含む総消費電力量,それを推定二酸化炭素排出量に換算した値(CO2e),とクラウドコンピュータ利用料金を見積もっています.多くの論文ではこれらの値は公表されていないからです.そこで彼らは以下の実験を行い,トレーニング時の消費電力を見積りました.

  • 実行マシン:ELMoモデルには Nvidia社 GTX1080 TI GPU 三台装備したPC.それ以外のモデルには Nvidia社Titan X GPU を一台装備したPC を使用.
  • 機械学習ソフトェア:それぞれの論文で公表されているソフトウェアをデフォルト設定で走らせる
  • 実行時間:最大一日間動作.
  • 消費電力測定: Intel’s Running Average Power Limit interface を使って CPU消費電力を, NVIDIA System Management Interface2 を使ってGPU消費電力を多数回サンプリングし,平均電力を求める.

各モデルのパラメータと見積結果を Fig. 4 に示します.全てクラウドコンピューター上のデータです.Model,Hardware と Hoursの列は公表されたデータであり,Power(W), kWh-PUE と CO2e は見積り結果です.例えば Transformerbase では,P100(おそらく Nvidia社 Tesla P100 [5])8台が使われています.彼らの実験[2]で使った Nvidia社 Titan X 1台とは,GPUモデルも台数も異なります.測定した消費電力に何らかの変換係数を掛けて 1415.78Wを見積もったと筆者は推測しますが,論文に具体的方法は述べられていません.また,TPU(Tensor Processing Unit)は,Google社開発のディープラーニング・アクセラレータです.TPU は Google クラウドでのみ利用可能で消費電力は非公表のため,TPUを使ったモデルの消費電力は空欄となっています.

Figure 4  様々な自然言語処理ディープラーニングモデルのハードウェア構成,コンピュータ消費電力,実行時間,冷却等を含んだ消費電力量(kWh-PUE),推定CO2排出量(lb),クラウドコンピューターの料金 [2][4]

Power (W) は前述したクラウドコンピュータの正味消費電力(W)の見積りで,式(1)分子の ( ) 内に対応します.それに実行時間(単位:hours)を掛けるとコンピュータの消費エネルギーになります.PUE(Power Usage Effectiveness)はデータセンターの電力使用効率を表す指標で,

 PUE = (コンピュータの消費電力+付帯設備の消費電力)/ コンピュータの消費電力

で定義されます.付帯設備の消費電力の多くは冷却設備のものです.2018年の世界平均 PUE : 1.58 を使っています.PUEを掛けて単位を kWh に直したものが,総電力量 Pt です.

式1 ハードウェア構成と実行時間からクラウドコンピュータの消費電力量(kWh)を求める.[2] Eq.(1)に加筆

次に,総電力量 Pt (KWh)を 推定CO2排出量(CO2e)に変換します.CO2eの単位は,ポンド  pound (記号:lb),1lb = 約0.454kg です.米国環境保護庁(EPA)は,米国で消費される電力に対して生成される平均CO2(キロワット時あたりのポンド数)を発表しています(EPA,2018),式(2) で総電力量を推定CO2排出量に変換します.例えば電力量 1kWh は,推定CO2排出量 0.954lbs に変換されます.

式2   電力量から推定CO2排出量への換算式 [2]

[2]では,わずかの性能向上のために高いクラウドコンピュータ料金を支払い,多くの二酸化炭素を排出している風潮を皮肉って,「NASモデル (So etal, 2019)は英語からドイツ語への機械翻訳で新しい最先端の29.7のBLEUスコアを達成したことを報告しました.少なくとも15万ドルのクラウド計算コストと自明でない炭素排出量のコスト(筆者注:TPUを使っているため数値は不明)を払って,わずか 0.1 BLEU の増加です.」,と述べています.

ディープラーニングのトレーニング時の推定二酸化炭素排出量は非常に大きい

見積もった自然言語処理(NLP)モデルのトレーニング時のCO2eを,身近な活動のCO2e と比較します(Fig.5).例えば Transformer(big) (Data label G)はトレーニング一回でCO2e 192lbs を排出します.ディープラーニングのトレーニングでは,より良い結果を得るためハイパーパラメータを変化させてトレーニングを多数回繰り返します.Data label H では,CO2e 626,155lbs (約284,274kg)なので,トレーニングを3,361回繰り返したと推定されます.

比較対象として,身近な活動の推定CO2排出量が Data label A ~ D に示されています. A は,ニューヨーク・サンフランシスコ間往復フライトでの旅客1人あたりの CO2e で,1984lbs です.B は,人間1人(たぶん全世界平均)が一生で排出するCO2e で 11,023lbs です.D は,乗用車一台が新車から廃車になるまでに燃料からの排出も含んだ CO2e で 126,000lbs (約57,204kG)です.これを H と比較して,

「自然言語処理のディープラーニングモデルのトレーニング時の二酸化炭素排出量(消費電力から換算)は,普通乗用車5台が使われ始めてから寿命までに排出される二酸化炭素排出量に匹敵しうる」と述べています(冒頭グラフ), [2][3].

Figure 5  自然言語処理(NLP)ディープラーニングモデルのトレーニングでの推定二酸化炭素排出量CO2e と身近な活動のCO2e   [2] Table.1 にData label を加筆

筆者の提言 [2]

  • 論文著者はトレーニング時間とハイパーパラメータの感度を報告すべき

費用便益(精度)分析を行うために異なるモデルを直接比較することが有益であること,を示唆しています.

  • 学術研究者は,計算資源への公平なアクセスが必要

利用可能なコンピューティングの最近の進歩は,それへのアクセスを希望する全ての人には高額すぎます.たとえば,8つのNVIDIA 1080 Ti GPUとサポートハードウェアを含む既製のGPUサーバーは,約20,000米ドルで購入できます.筆者らのケーススタディのモデル開発に必要なハードウェア(約58 GPUを使い実行時間172日間)は145,000米ドルと電力コストと見積もられ,それは商用クラウドのGPUコストの約半分です,一元化された計算リソースは多くのプロジェクトで共有されるため成果に繋がります。 政府が資金提供するアカデミックコンピューティングクラウドは,すべての研究者に公平なアクセスを提供します.

  • 研究者は計算量上効率的なハードウェアとアルゴリズムを優先するべき

より計算効率の高いアルゴリズムと,より少ないエネルギーを必要とするハードウェアの研究を促進するために,産業界と学界が協力して取り組むことを勧めます.

スパースモデリングとディープラーニングの消費エネルギー比較

HACARUSのAI・スパースモデリングは,少量データでも高精度の成果を得られ,

ディープラーニングに比べて 4 ~ 5倍のトレーニング速度が得られる事例もあります[6][7].トレーニング期間の消費エネルギーは,ディープラーニングの1%程度ととても少なく,即ちカーボンフットプリントはとても小さいです.

Figure 6: スパースモデリングのトレーニングとディープラーニングのトレーニングにおける,消費エネルギー量とトレーニング時間の比較 [7]

トレーニング後に得られた精度レベルは同等でしたが,HACARUSスパースモデリングの消費エネルギーは,ディープラーニングの消費エネルギーのわずか 1%程度でした.またディープラーニングのトレーニング時間が100分であったのに対し,HACARUSスパースモデリング は20分で,約4~5倍高速でした.

Figure 7: 実験条件と結果 [7]

まとめ

  1. 機械学習モデルのトレーニング(学習)期間の演算量は,1960年から2020年までの60年間で 1018 倍に増加しました.2012年以降,演算量の増加ペースは 3.4ヵ月で2倍(年増加率換算では11.5倍/年)に大きく増加しています.
  2. ポピュラーな自然言語処理(NLP)ディープラーニングの既製 (off-the-shelf) モデルについて,消費電力,冷却を含む総消費エネルギー,推定CO2排出量,クラウドコンピュータコストを見積もって比較しました.例えば,Transforer big の全てのトレーニングの推定CO2排出量 626,155lbs は,普通乗用車5台が使われ始めてから寿命までに排出される二酸化炭素排出量に匹敵する,と見積られました.
  3. HACARUSのAI・スパースモデリングなら,少量データでも高精度の成果を得られ,ディープラーニングトレーニングの4 ~ 5倍のトレーニング速度が得られる事例もあります.トレーニング期間の消費エネルギーは,ディープラーニングの1%程度と低く,カーボンフットプリントがとても小さいです.

参考文献

[1] AI and Compute

https://openai.com/blog/ai-and-compute/

[2] E.Strubell, et.al., “Energy and Policy Considerations for Deep Learning in NLP”

https://arxiv.org/abs/1906.02243

[3] K. Hao, “Training a single AI model can emit as much carbon as five cars in their lifetimes”, MIT Technology Review, June 6 2019

https://www.technologyreview.com/2019/06/06/239031/training-a-single-ai-model-can-emit-as-much-carbon-as-five-cars-in-their-lifetimes/

[4] J. Dean, “The Deep Learning Revolution and Its Implications

for Computer Architecture and Chip Design”, Google Research 

https://arxiv.org/ftp/arxiv/papers/1911/1911.05289.pdf

[5] NVIDIA TESLA P100 The World’s First AI Supercomputing Data Center GPU

https://www.nvidia.com/en-us/data-center/tesla-p100/

[6] HACARUS独自のAI技術あスパースモデリングとは?

https://hacarus.com/ja/sparse-modeling-benefits/

[7] LESS IS MORE  スパースモデリング:スリムだがパワフルな組込み向けAI

https://hacarus.com/wp-content/uploads/2019/12/02DEC2019-whitepaper-congatec-less-is-more-JA-WEB-compressed.pdf

ニュースレター購読Newsletter

登録はこちら