NEDOなど10者、医療業務支援向け日本語LLMを開発　専門医試験型で正答率90.8%

※記事を視覚化したイメージであり、実際の事象とは異なります。

2026.06.17

本サイトの記事や画像は、AIが公的資料や複数の報道を基に事実関係を整理・再構成し制作したものです。[続きを表示]特定の報道内容や表現を再利用・要約することを目的としたものではありません。ただし、誤りや不確定な情報が含まれる可能性がありますので、参考の一助としてご覧いただき、実際の判断は公的資料や各出典元の原文をご確認ください。[私たちの取り組み]

NEDO、さくらインターネット、東京大学など連名10者は5月28日、医療業務支援向けの日本語大規模言語モデル（LLM）を開発したと発表した。医療機関のオンプレミス環境や、医療機関が管理する国内クラウドなど、患者情報を安全に扱える環境での運用を想定した医療特化型モデルで、主要商用LLMに迫る性能と安全性検証の結果を併せて示した。

専門医試験型ベンチマークで最大90.8%

この取り組みは、NEDOの「AIの安全性確保に関する研究開発・検証等の推進事業/日本語版医療特化型LLMの社会実装に向けた安全性検証・実証」の成果に当たる。採択時の実施体制では、2025年4月23日に代表法人をさくらインターネット、共同実施先を東京大学、ABEJA、理化学研究所、国際医療福祉大学、藤田医科大学、東京科学大学、九州大学、ヘリオスとする予定先が決定されていた。事業期間は2025年度の1年間とされた。

独自ベンチマークによる検証では、専門医試験を模した学術試験で最大90.8%の正答率を達成した。比較対象とした主要商用LLMの91.4%に迫る水準で、医療分野の日本語業務支援に必要な知識処理能力を確認した形だ。

安全性面では、患者情報をモデルが記憶してしまうリスクの評価手法、患者情報の自動検出・マスキング機能、5万件超の対話型安全性ベンチマーク、6000件規模のレッドチーミングを実施した。レッドチーミングは、あえて危険な入力や想定外の使い方を試し、AIの弱点を洗い出す検証である。性能だけでなく、医療現場で使うための安全性を同時に確認した点が今回の柱になる。

用途は診断ではなく事務・文書支援

想定する用途は、医療従事者の事務作業や文書作成の補助に絞られている。具体的には、JLAC11コード変換、脳卒中レジストリ用の症例データ自動整理、退院時サマリーの下書き作成、電子カルテへの自然言語問い合わせなどで、いずれも医療現場の記録や情報整理を支える使い方だ。

発表では、これらの用途は疾病の診断や治療そのものを行うものではなく、最終判断は医師や医療従事者が担うと整理している。今後は医療現場の業務効率化と医療の質向上を目指し、段階的に社会実装を進める方針だ。導入開始時期や提供形態、商用化の枠組みなどの詳細は明らかにされておらず、実運用でどの程度の業務削減や安全性向上につながるかが次の焦点となる。

専門医試験型ベンチマークで最大90.8%

用途は診断ではなく事務・文書支援

参考・出典