注目huggingface_papers2分
LLMの医療判断、誤情報注入で正答率71%→38%に急落
30秒で把握
- 1LLM正答率、誤誘導コンテキスト注入で71.1%→38.0%に低下・攻撃成功率51.5%
- 2権威偽装ルール型の攻撃成功率69.5%・10,932問のMedMisBenchを公開
- 3既存ベンチマークは知識のみ測定・誤情報下での判断維持能力を評価できない構造的盲点
要約
LLMは医師国家試験レベルのスコアを達成しているが、その高得点が安全な医療判断を保証するという前提が脆弱であることが示された。正解できる問題に誤誘導コンテキストを注入すると、平均正答率は71.1%から38.0%へ低下し、攻撃成功率は51.5%に達した。特に権威を装った虚偽ルール形式の注入は攻撃成功率69.5%、例外中毒型は64.1%と最も破壊的だった。7カ国14名の臨床専門家パネルがレビューした事例の38.2%で深刻な潜在的危害を認定した。この知見をもとに10,932問・48,889ペアを収録したベンチマーク「MedMisBench」を公開し、既存評価が「何を知っているか」しか測れず誤情報下での判断維持能力を見落としている構造的盲点を指摘した。
あなたへの影響
医療用途でLLMを活用しているチームは、既存の精度ベンチマーク単体では安全性を保証できないと認識し、MedMisBenchを用いた敵対的コンテキスト耐性の評価を採用プロセスに組み込むことを検討すべき。
推奨:特に患者向け対話システムや臨床支援ツールでは、権威的語調のプロンプトインジェクション耐性を実環境に近いシナリオで検証することが今後の標準になり得る。