Как распознать текст, написанный нейросетью? И можно ли это сделать с полной уверенностью?

Как определить машинный текст на глаз?

Говоря про искусственный интеллект применительно к сгенерированным текстам, имеют в виду большие языковые модели. Если сильно упрощать, то модель анализирует написанное людьми и учится прогнозировать, какое слово должно следовать за предшествующими. Из слов складываются предложения, из предложений — абзацы и т.д. Как в точности у машины это получается, не знают даже разработчики, но подход вдохновлен передачей сигналов в нервной системе (поэтому вместо расплывчатого "искусственного интеллекта" используют и более конкретный термин "нейросети").

Так как модели подбирают наиболее вероятные варианты, зачастую у них получаются предложения примерно одной длины, со схожей структурой и ничем не примечательными словами. Из-за этого текст делается монотонным. Эксперты компании Scribbr, которая специализируется на академическом письме, выделяют эти и другие подозрительные признаки:

чрезмерно учтивая речь;
осторожные выражения, повторяющиеся обороты вроде "следует отметить, что…", "считается, что…";
стиль, не свойственный конкретному человеку (например, студенту, который уже сдавал письменные работы);
логические ошибки и бессмыслица;
в случае с научными текстами — отсутствие ссылок на источники или неправильно оформленные цитаты.

Также люди делают орфографические, пунктуационные ошибки и опечатки — модель же вряд ли поставит двойной пробел.

Впрочем, даже обученные люди распознают машинные тексты лишь немногим лучше, чем если бы определяли их наугад.

Какие есть инструменты для обнаружения машинных текстов?

Для выявления машинных текстов существуют специальные программы и сервисы. Одни бесплатны. Другие доступны за деньги. Третьи созданы в рамках исследований, поэтому не всеми из них удастся воспользоваться (а в остальных случаях, как правило, нужно уметь работать с хранилищами типа GitHub и хотя бы чуть-чуть владеть языками программирования, например Python).

Детекторы бывают нескольких типов. Зачастую они действуют по принципу "клин клином вышибают": текст, построенный с помощью большой языковой модели, анализирует схожая модель, которую натренировали на текстах и людей, и машин. Проблема этого подхода заключается в том, что разработчикам нужно подстраивать модель-детектор под конкретные модели-генераторы. Но есть и такие детекторы, которые работают без тренировок, всего лишь оценивая вероятности. Правда, они считаются более уязвимыми для атак.

В июне 2023 года в компании Scribbr протестировали десять популярных сервисов для распознавания машинных текстов. Лучше всех с заданиями справился Winston AI: его точность составила 84%. Среди бесплатных сервисов лучший результат — у детектора Sapling (68%). Проверяли тексты на английском языке. С русским детекторы могут работать хуже. С другой стороны, популярные модели, которые генерируют тексты, тоже лучше всего справляются с английским, а не русским.

Также в Scribbr пропустили машинные тексты через фильтры для поиска плагиата. В некоторых случаях это сработало: фрагменты, написанные моделью, были помечены. Видимо, дело в том, что иногда модели используют в ответах чужие тексты или очень похожие формулировки, не указывая источник. Детекторы выявляют машинные тексты значительно лучше, но, возможно, со временем их встроят в инструменты для поиска заимствований, как это уже сделано в российском "Антиплагиате".

Улучшатся ли со временем детекторы?

Машинные тексты, на первый взгляд неотличимые от написанных человеком, появились сравнительно недавно — у разработчиков детекторов для их выявления было мало времени. Но, возможно, надежные инструменты так никогда и не появятся. Подводя итоги тестирования, специалисты Scribbr писали, что само устройство детекторов не позволяет гарантировать 100-процентную точность и что всегда есть хотя бы небольшой риск принять текст человека за машинный, поэтому результаты проверок следует рассматривать только вместе с другими доказательствами.

Весной 2023 в том же духе рассуждали исследователи из Мэрилендского университета. В подтверждение они привели результаты своих экспериментов. Вместо того чтобы сразу проверять детекторами машинный текст, ученые сначала воспользовались нейросетью, которая его перефразировала. Авторство текста, пересказанного другими словами, детекторы намного чаще приписывали человеку.

Читайте также

Мнение

Стоит ли бояться прорывной инновации в нейросетях: что дает миру ChatGPT

По мнению американских исследователей, с текстами более совершенных языковых моделей детекторы станут практически бесполезными. Чем больше такие тексты похожи на человеческие, тем ближе точность детектора к 50%. Но с такой же точностью можно просто угадывать, кому принадлежат подозрительные слова (с этим выводом спорят другие ученые; интересно, что они с того же факультета Мэрилендского университета).

Выход из положения, который в последнее время обсуждают чаще всего, — так называемые водяные знаки вроде тех, что есть на банкнотах. Например, разработчики могли бы настраивать языковые модели так, чтобы в текстах чаще или реже обычного повторялись те или иные слова. Человек в этом случае, скорее всего, не заметит ничего необычного, а с помощью детектора можно точно сказать, машинный текст или нет.

Удастся ли создать устойчивые к атакам водяные знаки, пока не ясно. Можно предположить, что перефразирование позволит обмануть детекторы и в этом случае. Или же в запросе для языковой модели можно поставить такие строгие условия, что она не сможет оставить в тексте водяные знаки. Также не исключено, что принципы, по которым модель делает маркировки, можно раскусить. В этом случае злоумышленники могли бы написать собственные тексты так, чтобы они были неотличимы от созданных определенной языковой моделью. С помощью таких текстов можно испортить репутацию разработчиков языковой модели.

Что в итоге?

Как быть при подозрении, что перед глазами машинный текст, сильно зависит от обстоятельств и цены ошибки.

Если интерес праздный — это одно, а когда под вопросом порядочность человека — уже другое.
О длинном тексте можно судить с большей уверенностью, чем о паре предложений.
Когда проверок много, а доля машинных (или написанных человеком) текстов мала, даже относительно надежный детектор сработает неудовлетворительно. Например, если детектор ошибочно приписывает авторство машине всего в 3% случаев, то в сотне текстов, из которых только один машинный, будет четыре метки — ложными окажутся три четверти.

Вопросов о больших языковых моделях пока больше, чем ответов. Как это часто бывает, оптимисты говорят о возможностях, пессимисты — об угрозах. Проблема не только в том, что будущее невозможно предсказать. В исследования и разработки вовлечен бизнес, поэтому даже не вполне ясно, что происходит в этой области прямо сейчас. Если что-то и понятно, так это то, что не стоит чересчур полагаться на имеющиеся инструменты.

Марат Кузаев