米国最先端AIとの差は約8カ月、DeepSeek評価が示した現在地

※記事を視覚化したイメージであり、実際の事象とは異なります。

2026.05.08

本サイトの記事や画像は、AIが公的資料や複数の報道を基に事実関係を整理・再構成し制作したものです。[続きを表示]特定の報道内容や表現を再利用・要約することを目的としたものではありません。ただし、誤りや不確定な情報が含まれる可能性がありますので、参考の一助としてご覧いただき、実際の判断は公的資料や各出典元の原文をご確認ください。[私たちの取り組み]

米商務省の米国立標準技術研究所（NIST）に置かれたAI標準・イノベーションセンター（CAISI）は、中国のDeepSeekのオープンウェイトAIモデル「DeepSeek V4 Pro」を2026年4月に評価し、CAISIがこれまで評価した中国製AIモデルの中で最も高性能だと位置付けた。一方で、米国のフロンティアモデルには約8カ月遅れていると整理しており、中国勢の急伸と、なお残る米国側の優位を同時に示す内容となった。

非公開評価を含む9つのベンチマーク

評価対象はサイバー、ソフトウェア工学、自然科学、抽象推論、数学の5分野で、計9つのベンチマークが使われた。一般に公開された問題だけでなく、ARC-AGI-2のsemi-privateデータセットや、CAISIが内部で構築したソフトウェア工学評価「PortBench」も含まれる。公開問題だけで測ると、モデル側が事前に似た問題を学習している可能性を排除しにくい。非公開要素を入れるのは、未知の問題にどこまで対応できるかを測るためだ。

能力差の集計は、単一の点数を比べる単純な方式ではない。複数の課題を試験問題のように扱い、各モデルがどの難度の問題まで解けるかを推定する考え方に近い手法でまとめている。その結果、DeepSeek側の自己申告ベンチマークではV4がClaude Opus 4.6やGPT-5.4級に見える一方、政府側評価ではGPT-5級に近く、米国のフロンティア水準から約8カ月前の位置に相当するとされた。

コスト面では、米国側の参照モデルとしてGPT-5.4 miniが採用された。DeepSeek V4は比較対象となった7ベンチマークのうち5件で、より高いコスト効率を示した。ただし、全体では53%安いケースから41%高いケースまで幅があり、「常に米国モデルより大幅に安い」とまではいえない。費用比較からは、連続スコアで現行手法に対応していないPortBenchと、GPT-5.4 miniの評価走行で技術的問題があったARC-AGI-2が除外された。

自己評価と政府評価の開き

AP通信によると、DeepSeekはV4系について、「Pro」と「Flash」を含む更新版で、知識、推論、エージェント機能を改善し、ファーウェイ製チップへの一部対応も進めたと説明している。長い入力を扱える文脈長や低コスト運用を前面に出す戦略は、研究室内の性能競争だけでなく、企業や開発者が実際に使う市場での競争力を意識したものだ。

同社側の自己評価では、「V4 Pro Max」はGPT-5.2を上回り、GPT-5.4とGemini 3.1-Proにはわずかに及ばないとされる。ただ、今回の政府側評価は、そうした自己申告とは異なる見え方を示した。重要なのは、DeepSeekの性能主張が単純に否定されたということではなく、公開ベンチマーク中心の自己評価と、非公開要素を含む第三者評価で到達点の見積もりが分かれた点にある。

今後の焦点は、政府評価と企業自己評価の差を市場や研究コミュニティがどう受け止めるか、非公開評価を含む手法がどこまで標準的な物差しとして定着するかに移る。中国製オープンウェイトモデルは実用面での存在感の高まりを示しているが、最先端性能の評価では、ベンチマークの選び方、非公開データの扱い、コスト比較の条件が結果を大きく左右する。各種の第三者評価との整合性が、次の判断材料となる。

非公開評価を含む9つのベンチマーク

自己評価と政府評価の開き

参考・出典