AIの性能向上を支えた「大量データ」戦略に壁　公開テキスト逼迫の見通し

※記事を視覚化したイメージであり、実際の事象とは異なります。

2026.05.08

本サイトの記事や画像は、AIが公的資料や複数の報道を基に事実関係を整理・再構成し制作したものです。[続きを表示]特定の報道内容や表現を再利用・要約することを目的としたものではありません。ただし、誤りや不確定な情報が含まれる可能性がありますので、参考の一助としてご覧いただき、実際の判断は公的資料や各出典元の原文をご確認ください。[私たちの取り組み]

米スタンフォード大の「AI Index」2025年版は、Epoch AIの推計を引用し、公開された人間生成テキストを中心とする学習データの有効ストックが2026年から2032年の間にフル活用される可能性があると整理した。これはインターネット上の文章が物理的になくなるという意味ではなく、大規模言語モデルを現在のペースで大型化する際に、学習に使える公開データの余地が逼迫するということだ。性能向上を支えてきた「より大きなモデルに、より多くのデータを読ませる」戦略に、データのボトルネックという制約が意識され始めている。

2026〜2032年に迫る有効データの壁

同報告書が扱う中心的な見積もりは、現在の学習データの有効ストックが80%信頼区間で2026年から2032年の間にフル活用されるというものだ。時期に幅があるのは、学習データセットの過去の増え方をどう見るかに加え、モデルを計算量に対して最適な範囲で学習させるのか、同じデータをより多く繰り返し読ませる「過学習気味」の運用をどこまで許すのかで結果が変わるためである。

条件を変えると、逼迫時期は前倒しになる。モデルを5倍程度オーバートレーニングする場合は2027年にデータストックをフル活用し、100倍まで強める場合は2025年にも到達し得るとの説明がある。ここでいう「使い切る」とは、文章が消えることではなく、性能向上に有効な形で新たに投入できる公開テキストの余地が小さくなるという意味に近い。

規模感として、Common Crawlのデータストック中央値は約130兆トークン、検索エンジンなどに索引化されたウェブは約510兆トークン、ウェブ全体では約3100兆トークンとされる。トークンはAIが文章を処理する際の細かな単位で、単語や文字片に近い。数字だけ見れば巨大だが、最先端モデルの学習量も急速に膨らんでおり、質を満たすデータに絞れば「量の壁」が論点になる。もっとも、以前の推計では高品質テキストの枯渇を2024年ごろと見ていたのに対し、2025年時点の整理では2028年ごろまで後ずれし得るとの見方も示されており、単純な危機ではなく見積もりの更新として読む必要がある。

問われるデータ拡大型スケーリングの持続力

今回の論点は、AI開発が数年で止まるという話ではない。問題になっているのは、公開された人間生成テキストを大量に集め、モデル規模と学習量を増やせば性能が伸びるという従来型のスケーリングが、今後も同じ効率で続くのかという点だ。データの有効ストックが逼迫すれば、単にウェブから文章を集めるだけでは、これまでのような伸びを得にくくなる可能性がある。

補完策としては、AIが作った合成データの利用、学習効率の改善、検索との組み合わせ、推論時に計算を増やす手法などがある。ただし、合成データだけを繰り返し使えば十分だと確定しているわけではない。人間が書いたデータに含まれる多様性や誤りにくい知識を、機械生成データでどこまで置き換えられるかは、なお検証が必要な領域である。

今後は、公開ウェブ以外のデータがどこまでボトルネックを和らげられるかも論点になる。企業や研究機関が持つ非公開データ、出版社などとのライセンス契約によるデータ、医療・法律・科学技術などの専門データ、さらに画像・動画・音声を含むマルチモーダルデータは補完候補となる。ただし、非公開データや専門データの利用には法的・実務的な制約も残る。データ不足懸念は、AIの終わりを告げるものではなく、次の性能向上が「量を増やす競争」から「使えるデータをどう確保し、どう学習に生かすか」の競争へ移ることを示している。

2026〜2032年に迫る有効データの壁

問われるデータ拡大型スケーリングの持続力

参考・出典