本サイトの記事や画像は、AIが公的資料や複数の報道を基に事実関係を整理・再構成し制作したものです。[続きを表示]特定の報道内容や表現を再利用・要約することを目的としたものではありません。ただし、誤りや不確定な情報が含まれる可能性がありますので、参考の一助としてご覧いただき、実際の判断は公的資料や各出典元の原文をご確認ください。[私たちの取り組み]
「まずはAIに聞く」が当たり前になりつつあるが、症状の相談では必ずしも近道にならない。オックスフォード大学インターネット研究所のチームによる研究が、医療症状をAIに尋ねても、通常のネット検索などと比べて判断の質が上がらない可能性を示したと、ロイターが2月9日(日本時間10日未明)に報じた。
AI単体高得点でも「人が使う」と精度低下
研究は医師グループが作成した10のシナリオを使い、一般的な風邪から脳内出血のような重い状態まで幅広く想定した。参加者は、LLMの支援を受ける群と、必要なら各自が選ぶ情報源を使う対照群に分けて比較した。
モデル単体でテストした場合は、GPT-4o、Llama 3、Command R+が病態の特定で94.9%と高い成績だった一方、受診や救急要請など「次に取る行動(disposition)」の正答は平均56.3%にとどまったという。ところが人が同じモデルを使って判断すると、病態の特定は34.5%未満、行動の正答も44.2%未満まで落ち、対照群と差が出なかったと報じられている。
ポイントは、AIが知識を持っているかではなく、患者が自分の状況をどう言語化し、出てきた答えをどう受け止めるかにある。質問の仕方、安心したい気持ち、言い回しの強さなどが重なると、正しい情報があっても判断につながりにくい構図が浮かぶ。
医療助言の安全性検証 人を入れた試験が焦点
筆者らは、健康相談でAIやチャットボットを使う人が増える一方、それが最善で安全だという根拠は十分ではないと指摘した。知識ベンチマークや模擬対話だけでは、実際の利用場面の弱点を取り逃がすためだ。
日常では、AIを「診断の代わり」に置くより、受診前の整理に使う方が現実的だ。症状の経過、服薬状況、既往歴、迷っている点を短くまとめる補助として使い、最終判断は医療者に委ねる。緊急性が疑われるときは、検索やAIより先に医療機関や救急へつなぐのが基本である。
AIの医療活用は「当たるかどうか」から、「人が使ったときに安全に働くか」へ評価軸が移った。便利さが広がるほど、入力の癖や誤解の起点も増える。医療の現場と同じく、利用者を含めた検証と運用設計が、信頼の土台として問われている。
