Эксперт: до начала исследований интерпретируемости ИИ был "черным ящиком"

Даниил Гаврилов

Почему человечество до сих пор не понимает, как искусственный интеллект принимает решения, и как нам научиться это делать, в интервью ТАСС рассказал руководитель лаборатории научных исследований искусственного интеллекта T-Bank AI Research Даниил Гаврилов. Интервью прошло в рамках IV Конгресса молодых ученых (КМУ).

— Какие тренды в развитии искусственного интеллекта (ИИ) в настоящее время вы бы обозначили?

— Я бы выделил два очень важных лейтмотива, которые сейчас присутствуют в этой области. Исследования по этим направлениям интересны как международному сообществу, так и нам.

Первый тренд связан с тем, что все достижения в сфере искусственного интеллекта в последние годы основывались на масштабировании размеров моделей и данных, на которых они обучались. То есть успехи в этой сфере стали возможны благодаря увеличению размеров моделей за счет большего количества данных для их обучения. Однако в последнее время все чаще говорят о том, что законы масштабирования, которые мы наблюдали ранее, перестают работать. Кроме того, мы сталкиваемся с ограничениями: доступные данные для обучения новых крупных моделей заканчиваются, а сами модели не могут генерировать принципиально новое знание. Модель просто "повторяет" то, что она видела в данных. Она хорошо решает привычные задачи, но если мы попросим ее доказать теорему, которую никто ранее не доказывал, то она с этим не справится. Даже если это будет очень простая задача на программирование, сформулированная таким образом, что ее точно не было в данных, модель не сможет ее решить.

Поэтому одно из важнейших направлений развития искусственного интеллекта сегодня — это поиск новых подходов к масштабированию. В частности, речь идет о том, чтобы модели могли самостоятельно корректировать свои размышления и улучшать решения. Если раньше масштабирование шло за счет увеличения объемов данных, то сейчас мы стремимся к масштабированию длительности размышлений модели над проблемой.

Второе направление, как мне кажется, также крайне важно и в последние годы стремительно набирает обороты — это интерпретируемость искусственного интеллекта. Оно существовало и раньше, но не было понятных методов, которые приносили реальную пользу.

— Для чего необходимо заставлять модели дольше размышлять?

— На самом деле это достаточно общая формулировка, и в ее рамках может происходить многое. Во время размышления модель может, например, дообучаться и корректировать свои ответы, взаимодействуя с окружающим миром. С другой стороны, она может "рассуждать" в своем воображении, делая дополнительные шаги в размышлении. Примером такого подхода является модель OpenAI o1, которая обучена выполнять эти дополнительные шаги для принятия более обоснованных решений.

— А что вообще такое интерпретируемость?

— Если говорить простыми словами, это методы, которые позволяют заглянуть внутрь модели, понять, почему она приняла то или иное решение, и при необходимости повлиять на это решение. Интерпретируемость также включает изучение того, что происходит во время обучения модели: из чего она состоит, что она знает и как функционирует. Причем все это делается на основе доказуемых утверждений о строении и работе модели.

— Почему именно эти два направления?

— Мы видим, что именно эти направления критически важны для дальнейшего развития искусственного интеллекта. За ними будущее. Они позволят нам создавать все более качественные и полезные решения.

Что касается первого направления, это буквально вопрос того, насколько эффективно будут работать наши модели и сколько задач они смогут решать. Учитывая, что мы уперлись в предел возможностей традиционных подходов, нам необходимо найти пути к прорыву. Сейчас существует множество задач, которые мы до сих пор не умеем решать. Если мы сможем их преодолеть, откроется огромное количество новых возможностей. Спектр задач, а значит, и человеческих проблем, которые мы можем решить, расширится.

А интерпретируемость — потому что сейчас существует ощущение, которое часто транслируется, что мы не контролируем языковые модели, в том числе из-за опасений по поводу сильного искусственного интеллекта. Интерпретируемость направлена на то, чтобы мы могли рассматривать работу искусственного интеллекта как обычную программу. Это позволит разработчикам точечно исправлять проблемы, которые существуют в моделях, для их корректной работы. Сейчас же складывается ситуация, при которой если модель выдает неправильный ответ, единственное, что могут сделать разработчики, — это развести руками, так как они не понимают, что происходит внутри.

Мы не можем представить, например, такую ситуацию в контексте приложения для вызова такси. Такая реакция разработчиков будет воспринята как нечто абсурдное. Если мы вызвали такси, а приложение ведет себя неправильно (например, списывает все деньги с карты), мы можем решить проблему на уровне софта — буквально с точностью до строки (или нескольких строк) кода можно найти, где возникла проблема, и исправить ее. Поэтому если пользователь напишет в поддержку в такой ситуации, ему точно вернут деньги и починят приложение. В своих исследованиях мы стремимся к тому, чтобы работа языковых моделей была так же прозрачна и контролируема.

— Как давно ученые начали изучать интерпретируемость? И что их сподвигло?

— Вообще, интерпретируемость изучали достаточно давно, но до того, как она пережила трансформацию, примерно два года назад, это, по сути, было гаданием на кофейной гуще. Предсказания о работе моделей в большинстве случаев делались наугад.

Исследователей сподвигло на изучение интерпретируемости то, что большие модели стали повсеместно использоваться. Раньше модели являлись инструментом для исследователей и разработчиков, а простые пользователи не имели к ним прямого доступа. Но с тех пор, как модели стали доступны широкой аудитории, встал вопрос о необходимости гарантий их безопасности или, по крайней мере, уверенности в том, что возникающие проблемы можно будет решить постфактум.

С момента, когда этот вопрос стал действительно важным, произошли значительные прорывы. Мы активно следим за этим направлением и в последний год активно инвестируем в исследования интерпретируемости искусственного интеллекта. У нас готовятся статьи по этой теме, и уже есть некоторые успехи, о которых, надеюсь, мы скоро сможем рассказать.

— Чего удастся добиться, если в этой области будут прорывы?

— Я ожидаю, что мы наконец перестанем рассматривать искусственный интеллект как "черный ящик", внутри которого абсолютно непонятно, что происходит. Если в нем возникают проблемы, мы больше не будем разводить руками.

Я жду появления понятного набора инструментов, который позволит относиться к моделям как к обычным программам: анализировать их работу, понимать, что происходит внутри, а также тестировать и исправлять их. Пропущенные блоки разработки, которые мы наблюдаем сейчас, будут заполнены, и сам процесс создания моделей кардинально изменится. Интерпретируемость станет не исследовательской забавой, а общедоступным инструментом. Появится целая индустрия, где стартапы смогут заниматься аналитикой и QA (Quality Assurance, обеспечение качества — прим. ТАСС) в сфере искусственного интеллекта на заказ, а крупнейшие корпорации организуют целые отделы для выполнения этих задач.

Интервью брала Владислава Резниченко