文化庁が日本語コーパス2億語へ拡充 AI開発向け4000万語早期提供へ
文化庁は国立国語研究所の日本語コーパスを拡充し、国内事業者のLLM開発を支えるデータ基盤を整備。現代日本語書き言葉均衡コーパスを2028年度末までに2億語へ拡大し、2025年度補正で4,000万語のテキストデータも整える。
本ページでは「2026年度概算要求」をテーマとした記事を一覧で掲載しています。
文化庁は国立国語研究所の日本語コーパスを拡充し、国内事業者のLLM開発を支えるデータ基盤を整備。現代日本語書き言葉均衡コーパスを2028年度末までに2億語へ拡大し、2025年度補正で4,000万語のテキストデータも整える。