本サイトの記事や画像は、AIが公的資料や複数の報道を基に事実関係を整理・再構成し制作したものです。[続きを表示]特定の報道内容や表現を再利用・要約することを目的としたものではありません。ただし、誤りや不確定な情報が含まれる可能性がありますので、参考の一助としてご覧いただき、実際の判断は公的資料や各出典元の原文をご確認ください。[私たちの取り組み]
OpenAIは6月18日、ChatGPTの健康分野における応答品質改善を発表した。健康・ウェルネス関連質問は世界で毎週2億3000万人超に上り、同社はGPT-5.5 Instantと医師主導の評価基盤を軸に、回答の正確性や受診勧奨の改善を進めている。
専用空間としてのChatGPT Health
ChatGPT Healthは、健康・ウェルネスに関する会話を通常のチャットから分けて扱う専用空間として案内されている。利用者が任意で医療記録やウェルネスアプリを接続すると、回答を本人の健康情報や文脈に基づかせやすくなる。医療記録の接続は米国限定で、18歳超の利用者が対象となる。
OpenAIは、Health内の会話、メモリー、ファイルを基盤モデルの学習には使わないとしている。健康データについては、通常のChatGPTとは分離した管理や追加の保護を設ける説明であり、Healthの保護仕様をChatGPT全体の健康会話に広げて受け取られないよう、本文上も切り分けて扱う必要がある。
医師との協働は、Healthの設計と回答品質改善の双方に関わる。OpenAIは1月時点で、60カ国の260人超の医師と2年超にわたり協働し、30分野で60万回超の出力フィードバックを受けたと説明していた。6月18日の品質改善説明では、60カ国、49言語、26診療科にまたがる260人超の医師ネットワークが回答例を評価し、これまでに70万件超のモデル回答例を確認したとしている。
医師作成の基準で測るHealthBench
HealthBenchは、健康分野のAI応答を評価するための基盤であり、262人の医師、60カ国、5000件の現実的な健康会話を基に構築された。単に試験問題を解けるかを見る仕組みではなく、医師が作成した評価ルーブリックに沿って、安全性、明確さ、適切な受診勧奨、利用者ごとの文脈への配慮などを確認する。
2025年5月のHealthBench発表では、同社のフロンティアモデルが数カ月で同ベンチマーク上の性能を28%改善したと説明していた。6月18日の発表では、GPT-5.5 InstantがHealthBench Professionalを含む健康評価の集計で最新のThinking系モデルに近い性能に達し、2026年3月公開のGPT-5.3 Instantから大きく改善したとしている。
OpenAIはさらに、本番環境の健康関連トラフィックをプライバシー保護型の監視で分析した結果、少なくとも1つの事実性問題が検出された回答の割合が過去2カ月で71%低下したと説明している。これらはベンチマークや監視指標上の改善であり、実際の診断精度や治療結果が同じ割合で改善したことを示すものではない。健康相談でAIを使う人が増えるなか、同社は利用規模と評価基盤をあわせて示し、医療に近い領域での慎重な運用設計を打ち出している。
