米AWS、Trainium4に米NVIDIAのNVLink Fusion採用

AWSが次世代「Trainium4」を公開 NVLink Fusion採用でGPU連携強化

※記事を視覚化したイメージであり、実際の事象とは異なります。

本サイトの記事や画像はAIが公的資料や報道を整理し制作したものです。[続きを表示]ただし誤りや不確定な情報が含まれることがありますので、参考の一助としてご覧いただき、実際の判断は公的資料や他の報道を直接ご確認ください。[私たちの取り組み]

米Amazon.comのクラウド子会社Amazon Web Services(AWS)は米国時間12月2日、次世代AIチップ「Trainium4」にNVIDIAの高速接続技術「NVLink Fusion」を採用するとラスベガスの年次イベントで表明した。この技術で自社開発チップとGPUを密に連携させ、大規模AIを狙う顧客を取り込む構えだが、自前路線と他社依存をどう両立させるのかが新たな焦点となる。

NVLinkでつながるチップ群 利用企業に広がる選択と囲い込み

NVLink Fusionは、異なる種類のチップ同士を高速・低遅延で結ぶNVIDIAの中核インターコネクト技術だ。将来のTrainium4は、この仕組みを通じてNVIDIA製GPUと同一ラック内で密に連携できるとされる。演算性能は現行世代に比べてFP4精度で最大6倍、メモリ帯域も大幅に拡張される見通しで、巨大な生成AIモデルの学習や推論を短時間で処理したい企業にとって、計算資源の「塊」を一気に確保しやすくなる。

利用者側から見ると、AWS上で自社チップとNVIDIA GPUを組み合わせた構成を選べる余地が広がる一方で、インフラの自由度には別の制約も見えてくる。すでにNVIDIAは複数のCPUメーカーにもNVLink対応を広げており、同社技術を中心としたエコシステム色が強まっている。NVLink前提の設計を進めれば、性能や開発効率は得やすくなるが、将来クラウドを乗り替える際の移行コストや、価格交渉力の低下といった「見えにくい負担」が利用企業に跳ね返る可能性もある。

足元では、より身近な選択肢として現行世代の「Trainium3」を搭載したUltraServerがすでに提供開始されている。AWSによれば、前世代比で最大4.4倍の計算性能と約40%の電力効率改善を実現し、1台に多数のチップを詰め込んだ構成で学習コストを抑える狙いだ。多くの企業は、まずTrainium3ベースの環境でワークロードを移しつつ、将来Trainium4とNVIDIA GPUを混在させる構成を見据える、段階的な投資判断を迫られることになる。

自前チップとNVIDIA連合 AWSが描くAIデータセンターの地図

今回の発表は、単なる1製品の仕様決定にとどまらない。AWSとNVIDIAは、次世代AIデータセンター構想「AWS AI Factories」でも連携を深めている。ここでは、NVIDIAの「Grace Blackwell」などのGPUサーバーと、将来のTrainium4を同一の施設内で組み合わせ、巨大モデル向けの専用インフラを世界各地の顧客に提供する計画だ。クラウド事業者が自社チップと外部ベンダーの最先端GPUを束ね、「AI専用工場」として売り出す動きが本格化している。

他社の動きも対照的だ。Googleは独自のTPUを前面に出しつつ他社GPUも併用し、MicrosoftはNVIDIAと緊密に組んだ大規模GPUクラスターで先行してきた。これまでAWSは、自社製チップでコストを抑えたいユーザーに訴求するポジションを強調してきたが、NVLink Fusion採用は「NVIDIA標準」の世界にも本格的に足を踏み入れることを意味する。NVIDIA側から見れば、複数クラウドと自社技術で深く結びつくことで、AI計算基盤の事実上の標準としての地位を固める狙いが透けて見える。

その裏側では、半導体設計会社や製造受託企業にとっても新たな商機が生まれつつある。クラウド各社が独自ASICとNVLink対応を組み合わせる流れが強まれば、設計支援やパッケージング、テストなどを担うプレーヤーの役割は一段と重くなる。一方で、AIデータセンターの設計思想が少数のインターコネクト技術に収れんすれば、標準から外れた企業や国・地域がアクセスしにくい「技術の境界線」が生じかねないという懸念も残る。

高性能化の先に残る依存リスク 利用者はどこまで預けるか

Trainium4がうたう性能向上は、AIインフラの単価を押し下げる期待と表裏一体だ。FP4やFP8といった低精度演算を前提にすれば、1つのラックで扱えるトークン数やバッチサイズを大きく伸ばせるため、特に大規模言語モデルを運用する企業には魅力的に映る。ただし、そのためにはAI Factoriesのような大規模施設と、NVLinkで緊密に結ばれた専用ラック群への長期的なコミットメントが必要になり、投資の回収リスクはクラウド事業者だけでなく利用企業も一部背負う構図になる。

もう一つの論点は、NVIDIAの専有技術への依存度が高まることだ。NVLinkはすでに実績ある高速インターコネクトだが、ライセンス条件や将来の製品計画が一社に大きく左右される点は変わらない。万一、供給制約や地政学的な要因でGPUや関連部材が不足すれば、NVLinkと結びついたチップ群全体の拡張計画に影響が及ぶ可能性がある。クラウドにAI基盤を全面的に任せる企業ほど、そのリスクは見えにくい形で業務継続性やコストに波及しうる。

それでも、複数種類のアクセラレータを1つのラックで柔軟に組み合わせられるという方向性自体は、ワークロードに応じて最適な計算資源を選べる環境につながる。重要なのは、どこまでを特定クラウドとNVIDIA連合に預け、どこからを自社データセンターや他クラウドと分散させるのかという設計だ。AWSとNVIDIAの新たな提携は、AIの計算力を誰がどの条件で使えるのかという力学を映し出す鏡でもあり、利用者側にとっては、性能だけでなく依存の度合いを見極める視点がこれまで以上に問われている。

参考・出典

ニュースはAIで深化する—。日々の出来事を深掘りし、次の時代を考える視点をお届けします。

本サイトの記事や画像はAIが公的資料や報道を整理し制作したものです。
ただし誤りや不確定な情報が含まれることがありますので、参考の一助としてご覧いただき、
実際の判断は公的資料や他の報道を直接ご確認ください。
[私たちの取り組み]