総務省、生成AIの“安全度”をAIでチェックする仕組みづくりへ　2026年度に試作公開へ

2025.11.15

本サイトの記事や画像はAIが公的資料や報道を整理し制作したものです。ただし誤りや不確定な情報が含まれることがありますので、参考の一助としてご覧いただき、実際の判断は公的資料や他の報道を直接ご確認ください。[私たちの取り組み]

総務省が、生成AI（文章や画像を自動生成するAI）の“答え”をAIで点検する基盤づくりに踏み出す。複数の評価用AIが差別や誤情報の有無を自動チェックし、結果を指標として公表する構想だ。NICT（情報通信研究機構）で来春に開発を始め、2026年度中に試作モデルの提供を目指す。使う側の選択を助け、作る側の改善を促す狙いがある。

評価を担うのはAI、その結果を指標で示す

基盤の核は“評価用AI”だ。複数のAIが多様な質問を自動生成し、評価対象となる生成AIに答えさせる。返ってきた文面に差別や偏り、危険な指南が紛れないかを機械的に洗い出す。評価用AI自体の動作は人が定期監査し、誤った判定が続かないよう点検する。

集めた結果はスコアやラベルなどの指標に整え、誰でも比べやすい形で公表する。利用者は用途に応じて“どのAIを使うか”を判断しやすくなる。行政や企業の調達でも、共通の指標を参照して選べるようにする構えだ。公開手法は再現可能性を重視し、評価の更新履歴も追える形を想定する。

開発はNICTで来春に着手し、2026年度中の試作提供を見込む。蓄積した評価データや判定手法は再利用しやすい形式に整理し、将来は政府系のAIセーフティ・インスティテュート（AIの安全性確保を担う機関）の仕組みに接続する想定だ。基盤は民間の検証にも開く方向で設計が進む。

7つの観点と国際ルールとのつながり

評価の物差しは7項目を想定する。差別やプライバシー侵害の回避、犯罪助長の有無、誤情報や根拠欠如の確認、内容のバランス、日本の文化への忠実さ、欺きの防止、未知のリスクへの備えである。まずは汎用的なケースから適用範囲を広げ、業種別の補助指標を追加していく。

基準づくりは、G7の国際ルール「広島AIプロセス」（生成AIのガバナンス枠組み）を踏まえ、社会学や法学の有識者を交えた会議で詰める。国内外の規範や実務との整合を図りつつ、評価文脈を日本の実情に合わせることが柱になる。手順やデータの記録様式は、比較可能性を損ねない範囲で簡素化する。

海外製AIの普及が進む一方、領土や歴史認識の回答に自国の主張が強く出る例や、英語偏重の学習から欧米の価値観に寄る指摘がある。今回の基準は、そのズレを可視化し、説明可能な形で利用者に返すことを狙う。結果として、利用の自由を損なわずに透明性を高める設計を目指す。

調達をてこに、国産の底上げへ

公開される指標は、行政や企業の優先採用につながる可能性がある。一定水準を満たすAIが選ばれやすくなれば、開発側には改善の動機が働く。評価という“共通テスト”が市場のインセンティブに変わる設計だ。モデルの多様性を損なわないため、目的別の評価セットも段階的に整える。

評価の過程で日本企業のモデルに課題が見つかれば、NICTが補強データを生成して開発元に提供する案も検討する。単なる減点ではなく、学習素材の不足を埋める支援に踏み込む点が特色で、国産モデルの実用域を押し上げる。生成データの品質検証は独立して行い、供給と監査の分離を保つ。

一方で、評価用AIの選定や継続監査、文化適合性の定義など、運用には丁寧さが要る。既にAISI（政府が設置したAI安全の専門組織）は評価観点ガイドを公表しており、この知見と連携しながら、検証の透明性と再現性を確保する姿勢が問われる。評価は、技術の速さに追いつく呼吸で更新されていく。

評価を担うのはAI、その結果を指標で示す

7つの観点と国際ルールとのつながり

調達をてこに、国産の底上げへ

参考・出典