文化庁、国語研コーパス拡充 国内LLM向け基盤を2億語へ

文化庁が日本語コーパス2億語へ拡充 AI開発向け4000万語早期提供へ

※記事を視覚化したイメージであり、実際の事象とは異なります。

本サイトの記事や画像は、AIが公的資料や複数の報道を基に事実関係を整理・再構成し制作したものです。[続きを表示]特定の報道内容や表現を再利用・要約することを目的としたものではありません。ただし、誤りや不確定な情報が含まれる可能性がありますので、参考の一助としてご覧いただき、実際の判断は公的資料や各出典元の原文をご確認ください。[私たちの取り組み]

文化庁は、国立国語研究所の日本語コーパスを拡充し、国内事業者の大規模言語モデル(LLM)開発に使えるデータ基盤の整備を進めている。2026年度概算要求では、既存の「現代日本語書き言葉均衡コーパス」を2028年度末までに2億語規模へ広げる計画を示し、2025年度補正予算では企業向けに4,000万語分の現代日本語テキストデータセットを早期に整える方針も打ち出した。

BCCWJ2で20年分を追加 2026年度は2千万語を情報付与

拡充の軸になるのは、2005年までのデータで整備された既存コーパスに、2006年から2025年までの20年分を加える事業だ。直近の言語変化を反映させるため、2026年3月には一部の拡張データが先行公開されている。文化庁の「信頼できる言語資源としての現代日本語の保存・活用のためのデジタル基盤整備事業」は2024年度から2028年度までの5か年で進められ、1億語規模だった基盤を2億語規模へ広げる。国立国語研究所のBCCWJ2専用ページでも、文化庁委託事業として同じ計画が公表されている。

文化庁の2026年度概算要求は、日本語コーパスを生成AIの再学習(ファインチューニング)に使う「規範データ」と位置づけ、2026年度分として2千万語の情報付与を進めるとしている。あわせて政府の「統合イノベーション戦略2025」に触れ、質の高い日本語データを整備・拡充し、企業への提供に加えて政府や自治体での活用も視野に入れる考えを示した。

補正予算資料で示された4,000万語分の早期整備は、この長期計画と並行して国内事業者の再学習や評価に使えるテキストデータセットを先に用意する位置づけだ。文化庁は国際比較にも言及しており、米国やフランスの国費コーパスに近い規模へ日本語資源を引き上げる必要性を打ち出している。

方言AI向けに7県分を整備 災害時の医療や復旧も想定

文化庁は書き言葉だけでなく、方言に対応するAI向けの基盤整備にも乗り出す。補正予算資料では、7県分の方言音声、テキスト、共通語訳からなるデータセットを作成する方針を示した。想定する用途には方言特化型AIや音声認識が含まれ、災害時の医療や復旧の現場で高齢の方言話者と円滑に意思疎通する必要があると説明している。

一方で、公表資料の段階では、企業がいつからどの条件で利用申請できるのか、4,000万語の早期整備分と2028年度末までの2億語化をどう切り分けて提供するのかといった運用の細部までは示されていない。それでも、研究用資源として整備されてきた日本語コーパスを、国内LLMの再学習や評価、さらに方言対応AIへ広げる政策の輪郭はかなり明確になってきた。

日本語の大規模データを継続的に増やし、方言の音声・テキストも体系的にそろえる方針が進めば、国内の生成AI開発で使える基盤は着実に厚みを増す。言語資源の整備を研究保存にとどめず、産業や行政での実装につなげる流れが、今回の計画で具体化しつつある。

参考・出典

ニュースはAIで深化する—。日々の出来事を深掘りし、次の時代を考える視点をお届けします。

本サイトの記事や画像はAIが公的資料や報道を整理し制作したものです。
ただし誤りや不確定な情報が含まれることがありますので、参考の一助としてご覧いただき、
実際の判断は公的資料や他の報道を直接ご確認ください。
[私たちの取り組み]