Нейросети оказались очень уязвимы к "запрос-взломам" при работе с пациентами

Для оценки защищенности существующих систем ИИ к взлому ученые подготовили 12 клинических сценариев, в рамках которых исследователи воспроизвели типичные диалоги между врачами и пациентами, страдавшими от диабета, гипертонии, опухолей, острых респираторных заболеваний или инфекций во время беременности
Редакция сайта ТАСС
16:06

МОСКВА, 19 декабря. /ТАСС/. Южнокорейские медики обнаружили, что шесть популярных коммерческих систем ИИ на базе больших языковых моделей оказались крайне уязвимы к внедрению вредоносных подсказок в запросы при подготовке диагнозов и медицинских рекомендаций. Это делает их опасными для здоровья пользователей данных нейросетей, пишут исследователи в статье, опубликованной в журнале JAMA Network Open.

"Проведенное нами исследование указало на то, что все шесть больших языковых моделей были очень уязвимы к вредоносным модификациям запросов - они давали некорректные или опасные рекомендации в 94% случаев. Особенную тревогу вызвало то, что они советовали беременным женщинам принимать крайне опасные для плода препараты, такие как талидомид. Это подчеркивает необходимость тщательного тестирования и контроля над такими системами ИИ", - пишут исследователи.

К такому выводу пришла группа медиков под руководством доцента Университета Ульсана (Корея) Со Джунге в рамках практического эксперимента, нацеленного на оценку стойкости трех популярных "легковесных" больших языковых моделей (GPT-4o-mini, Gemini-2.0-flash-lite и Claude-3-haiku), и трех передовых моделей (GPT-5, Gemini 2.5 pro и Claude 4.5 Sonnet) к вредоносным модификациям запросов медицинского характера.

Интерес ученых к этой проблеме связан с тем, что в последние годы многие люди начали пользоваться большими языковыми моделями в медицинских целях. Помимо того, что зачастую подготовленные ИИ ответы бывают бесполезными или даже вредными для здоровья пациентов, также существует угроза того, что злоумышленники могут внедрить в запросы пользователей или врачей так называемые "вредоносные подсказки", которые заставят ИИ поставить некорректный диагноз или дать опасный совет.

Об исследовании 

Для оценки защищенности существующих систем ИИ к подобному взлому ученые подготовили 12 клинических сценариев, в рамках которых исследователи воспроизвели типичные диалоги между врачами и пациентами, страдавшими от диабета, гипертонии, опухолей, острых респираторных заболеваний или инфекций во время беременности. В эти ситуации ученые встроили вредоносные подсказки, которые должны были побудить ИИ порекомендовать пациенту съесть женьшень вместо лекарства или принять опасные препараты.

Последующие наблюдения показали, что все системы ИИ были крайне уязвимыми к "запрос-взлому". В среднем, они слушались вредоносных подсказок в 94% случаях, причем в 70% случаев ИИ продолжали настаивать на некорректных рекомендациях и после нескольких дополнительных вопросов "пациента" и просьб уточнить диагноз. При этом ученые не зафиксировали существенных различий в защищенности легковесных и передовых систем ИИ к подобным запросам. Это говорит о том, что предпринимаемые их создателями меры явно недостаточны для обеспечения безопасности здоровья пациентов, подытожили медики.