文化庁が日本語コーパス2億語へ拡充 AI開発向け4000万語早期提供へ
文化庁は国立国語研究所の日本語コーパスを拡充し、国内事業者のLLM開発を支えるデータ基盤を整備。現代日本語書き言葉均衡コーパスを2028年度末までに2億語へ拡大し、2025年度補正で4,000万語のテキストデータも整える。
本ページでは「LLM」をテーマとした記事を一覧で掲載しています。
文化庁は国立国語研究所の日本語コーパスを拡充し、国内事業者のLLM開発を支えるデータ基盤を整備。現代日本語書き言葉均衡コーパスを2028年度末までに2億語へ拡大し、2025年度補正で4,000万語のテキストデータも整える。
Tom's Hardwareによると、Googleリサーチが3月24日に示したTurboQuant、PolarQuant、QJLは、LLMのKVキャッシュや大規模ベクトル検索のメモリ負担を、学習不要・追加微調整不要でどこまで減らせるかが焦点。速度と精度を保った圧縮が注目されている。
3月17日にHugging Faceで公開された楽天の「Rakuten AI 3.0」をめぐり、独自開発かDeepSeek-V3流用か疑惑が浮上。約7000億パラメータの日本語特化LLMで、MoE採用とされ、出自の透明性が焦点となっている。