22 ноября 2023, 10:48
Онлайн-конференция

Конференция Сбера по искусственному интеллекту AIJ 2023. Текстовая трансляция первого дня

Текстовая трансляция первого дня международной конференции Сбера по искусственному интеллекту и машинному обучению AIJ* 2023 (12+), которая прошла с 22 по 24 ноября. Приглашенные гости и эксперты обсудили возможности, которые благодаря искусственному интеллекту открываются для мировой науки, а также новейшие разработки в этой области.

Открытие дня

Максим Орешкин, Администрация Президента:

 

  • Изначально конференции AIJ начинались как мероприятия про технологии будущего, сейчас ИИ в России вошел во все сферы жизни, меняет их и делает лучше. Например, в сфере здравоохранения 16% организаций внедрили те или иные решения на базе ИИ. 

 

  • Тренд ИИ набирает обороты, в России заметные значительные изменения.

 

Александр Ведяхин, Сбер:

 

  • Начиналось скромно - чуть более 1000 участников. В этом году мы целимся в аудиторию более 100 миллионов. Сейчас мы видим, что AIJ - крупнейшая площадка, которая объединяет много участников из очень большого количества стран мира.

 

  • Три дня конференции. Первый день - наука, второй - бизнес, третий - общество. Сегодня будет также работа с молодежью. 

 

  • В "научный" день выступят более 200 спикеров из Индонезии, ЮАР, Индии, ОАЭ и других стран.

 

Андрей Омельчук, Министерство науки и высшего образования: 

 

  • В этом году целый день посвящен науке. Это важное направление нашей совместной работы, наука должна нести свой вклад в развитие технологий. 

 

  • ИИ сегодня глубоко проникает в прикладную науку и в медицину.
Скриншот онлайн-трансляции конференции Сбера по искусственному интеллекту и машинному обучению AIJ 2023

Большие языковые модели

1

Навигация по ландшафту генеративного ИИ: большие языковые модели и их преобразующая роль в научных исследованиях

 

Свагатам Дас, Индийский статистический институт:


О значении больших языковых моделей

 

  • Большие языковые модели могут быть предобучены и потом настроены для достижения конкретных целей. Потом такая модель должна иметь возможность кастомизации под конкретные настройки. Предобучение большой языковой модели можно сравнить с дрессировкой собаки. Сначала ее обучают общим командам "сидеть", "лежать" и т. п., а потом, если нужна специализация для помощи слепым или полицейским, вы собаку дообучаете или как бы донастраиваете. Языковые модели аналогично учатся на общих задачах, а потом настраиваются на выполнение конкретных задач. Например, преобученная языковая модель собирает информацию о проекте в промышленной области, включая информацию о восприятии ее клиентами через имейлы, смски и прочие источники, потом анализ показывает, есть ли позитивное отношение к компании в данном сегменте, что в конечном итоге влияет на стоимость ее акций.

 

О трансформерах

 

  • Внутри больших языковых моделей есть также трансформационная модель. Это архитектура кодирования и раскодирования. Например, поступившее слово нейросеть сопоставляет со всеми словами, к которым она имеет доступ, и значения должны совпасть в одной точке в шифрующем пространстве. В итоге мы сможем понять его семантическое значение. К примеру, при чтении предложения мозг воспринимает его значение за счет двух-трех ключевых слов, а смысл возникает на основании ассоциаций.

 

О принципах работы больших языковых моделей

 

  • Обучение без ознакомления - например, когда модель обучают способности распознавать слона, а вместо него ей показывают изображение грузовика, и модель на основе своего опыта должна его распознать. Помимо этого, любая большая языковая модель должна уметь делать выводы на основании обратной связи с большим количеством источников. Модель также должна уметь подстраиваться под ваш запрос. Например, когда вы просите перевести с английского на французский.

 

  • Большие языковые модели могут быть очень эффективным при использовании в научных исследованиях, в том числе при анализе и генерировании кода, автоматизации логического вывода и т. д.

 

  • Большие языковые модели должны быть связаны с культурой, потому что, к примеру, одно и то же слово в разных языках может иметь разные значения, в том числе до оскорбительного.
Скриншот онлайн-трансляции конференции Сбера по искусственному интеллекту и машинному обучению AIJ 2023

Сессия 2

2

Применение ИИ на основе нейронных сетей в стеганографии


Деди Дарвис, Индонезийский технократический университет:

 

  • Стеганография существовала сотни лет. Это искусство и наука написания скрытых сообщений так, что только отправитель и получатель знают о секретной идее изображения, ее нельзя прочитать без ключа. 

 

  • Стеганография используется для защиты цифровых данных в современном мире. Проект сосредоточен на сравнении различных методов стеганографии. В этом году началась разработка стеганографии на основе ИИ.

 

  • Нейросеть - тип ИИ, который моделируется на основании структуры и функционирования человеческого мозга. Архитектура нейросети имеет три компонента - входной, скрытый и выходной слой. Первый получает данные, скрытый несет процессы вычисления, последний дает выходные данные и предсказания.

 

  • ИИ на основе нейросетей произвели революцию в стеганографии благодаря тому, что мы получили более безопасные и эффективные способы шифровать информацию. Нейросети позволяют создавать более сложные алгоритмы, которые дают возможность анализировать данные и манипулировать ими таким образом, как ранее было невозможно. Например, нейросеть можно обучить вычислять закономерности и использовать их так, чтобы скрыть информацию.

 

Пролегомены к минералогическому вызову ИИ: слепое пятно антропологического перехода

 

Янник Харрель, Cyberstrategie Est-Ouest:

 

  • Есть четыре экосистемы. Это земля, море, пространство, воздух. Но есть также пятая - кибер. Она сильно отличается от естественного мира, так как ее создали люди. Для реализации нужно физическое соединение, например минералогические ресурсы, то есть сырье.

 

  • Есть расширенная реальность - сочетание двух миров. Пример соединения "двух реальностей" - автомобиль 3.0. Это, по сути, компьютер, оснащенный колесами, которым управляет ИИ. У него два вида топлива - электроэнергия и данные. Для обоих нужно сырье.

 

  • Больше возможностей - больше потребностей. Это значит, что будут более мощные алгоритмы, больше процессов, данных, серверов, энергии.

 

Архитектура и технологии в основе интеллектуальной системы здравоохранения Цинхуа (THIS)

 

Бин Ян, Университет Цинхуа:

 

  • Мы занимаемся разработкой интеллектуальной системы здравоохранения THIS - Tsinghua Healthcare Intelligent System. 

 

  • Эта система - поддержка от ИИ, медуслуги от ИИ. Благодаря этому мониторить состояние здоровья дома можно как пациенту, так и врачу. 

 

  • Благодаря системе можно также подключиться к сети здравоохранения, чтобы получить помощь и передать данные лечащему врачу. Используется сеть для связи учреждений, граждан и поставщиков. Через систему можно как получать услуги, так и оказывать их.

 

  • Как создается THIS. Разрабатываются стандарты, строятся системы поддержки, сервисы по поддержке с ИИ, управлению визуализации, операционный стандарт. Также создается собственная цифровая система, которая позволяет обеспечить интеллектуальный надзор.

 

  • Если приходит пациент из другой больницы, то его данные будут приходить из прикрепленного медучреждения. Из разных записей генерируются конкретные рекомендации.

 

  • Создан инструментарий для обучения специалистов в области здравоохранения. Они могут помочь врачам в больницах управлять процессами в учреждении и пациентам в пределах и за пределами больницы.
Скриншот онлайн-трансляции конференции Сбера по искусственному интеллекту и машинному обучению AIJ 2023

Сессия 3

3

Предварительное исследование текущего состояния и будущего развития ИИ


Хуай Чжан, директор института Искусственного Интеллекта в Университете Цинхуа:

 

О методах исследования ИИ

 

  • Прежде всего, ИИ - это симулирование человеческого интеллекта. Существуют два основных метода решения этой задачи. Первый - поведенческий, когда воссоздается манера поведения человека. Второй метод - это интернализм, когда основной движущей силой исследования становится эволюция интеллектуальных традиций и исследовательских программ.

 

  • В частности, на первом этапе развития ИИ представлял собой символизм на основе знаний, главным образом имеется в виду симуляция человеческого поведения. На этом этапе используются экспертные знания для формирования общей базы знаний. Второе поколение ИИ работает на основе анализа данных. Классический пример второго поколения ИИ, когда в 1997 году программа Deep Blue играла в шахматы против Гарри Каспарова и выиграла у него. Залогом успеха программы стали знания, опыт, алгоритмы и вычислительная мощность.

 

  • Сегодня самый расхожий пример - программа для отслеживания динамики цен на акции, в которой собраны сведения о 40 ведущих компаниях стоимостью больше 1 миллиарда долларов по отраслям. Если мы говорим о применении ИИ на базе данных, то нельзя не упомянуть робототехнику. Например, гибкая искусственная рука, которая может двигать пальцами, делать жесты, играть на пианино, помогает людям, лишенным кисти.


О сферах применения ИИ

 

  • В Стенфордском университете в свое время ученые сформулировали основные сферы применения ИИ с 2015 до 2030 года. Среди них - управление транспортным потоком, домашние роботы, здравоохранение, образование, охрана, организация рабочего пространства, а также туризм, финансы, промышленность.

 

  • Помимо этого, все еще остается много нерешенных задач, поскольку при текущих ресурсах способности ограничены, так что необходимо их постоянно совершенствовать. 

 

  • Следующее поколение ИИ - мультимодальные модели, которые способны обрабатывать одновременно в режиме реального времени текст, изображение, голос, видео, код и получать достойный результат. Например, наши студенты разработали программу, позволяющую идентифицировать каждого человека на видео, где танцует много людей.

 

Повышение эффективности и качества обучения больших нейросетевых моделей


Иван Оселедец, генеральный директор компании AIRI, профессор Сколтеха:

 

О текущем состоянии работы нейросистемных моделей

 

  • Работа с текстами и изображениями - это уже практически решенные задачи. Но следующий шаг - мультимодальные модели, работа с ними только началась. Нами разработана первая мультимодальная модель в России OmniFusion. Принцип ее работы заключается в объединении двух модальностей: текста и картинок. Она вполне способна на основе полученных данных обрабатывать их и поддерживать диалог. Можно также объединять тексты и графы, тексты и видео или текст и движение робота. Всему этому требуется обучить языковую модель. Этот процесс достаточно трудоемкий и дорогостоящий.

 

О том, как строить мультимодальные архитектуры

 

  • Основная проблема в том, как установить связь между модальностями. Наиболее эффективным методом ее решения нам кажется использование инкодеров, которые позволяют переводить картинку в вектор, а дальше строятся небольшие адаптеры, представляющие собой маленькую нейросеть и переводящие информацию с языка картинок на язык текстов. При этом, конечно, предполагается, что мы работаем с хорошей предобученной языковой моделью и такой же моделью работы с картинками, поэтому нам нужно обучить только адаптеры. Итоговое качество получается довольно высоким. При этом модель продолжает обучаться, и качество ее работы совершенствуется. Наша модель уже превзошла по ряду характеристик общеизвестную мультимодальную модель Lava13B.

 

  • Мультимодальность - это ключевой момент. В идеале мультимодальная модель должна работать с произвольным количеством модальностей. Такие попытки внедрить в нейросети способность работать с большим количеством модальностей были, но они пока не увенчались успехом. Думаю, что все-таки подход с адаптерами вполне сможет достичь этой цели. 

 

О снижении стоимости обучения нейросетей

 

  • Эффективность обучения больших языковых моделей сегодня достигает максимум 50%, даже при использовании современных методов. Но чаще всего этот показатель достигает 30%. Сегодня модель с 40 миллиардами параметров будет обучаться примерно два месяца. Одна из наших разработок строится на том, что при создании алгоритма вычисления градиентов для поточечной нелинейности, на которую обычно никто не обращает внимания, можно использовать вместо 16 бит всего 3 бита с сохранением точности. Это позволит снизить объем памяти, требуемый для обучения до 5-10%, а память при обучении - это основной ресурс.

 

  • Второй подход, который мы применяем, это использование техник рандомизированной линейной алгебры для ускорения вычисления градиентов большого линейного слоя. Если упростить, то можно, не меняя алгоритм, но поменяв порядок операций, получить более быстрый и точный результат. Пример: в нашем большом проекте NNTile мы хотим заново реализовать базовые операции с нуля без использования каких-то больших пакетов, чтобы получить максимальную производительность, причем на многопроцессорных системах.

 

От стохастических дифференциальных уравнений до задачи Монжа-Канторовича и обратно: путь к искусственному интеллекту?


Евгений Бурнаев, профессор, руководитель Центра прикладного ИИ Сколтеха, руководитель научной группы "Обучаемый интеллект" AIRI:

 

  • Важное свойство, которым должен обладать искусственный интеллект и которым обладает человек, - это креативность, возможность создавать новые образы. Так, модель ИИ может создавать картинки согласно текстовому описанию, заданному человеком. Математически задачу построения новых образов можно описать как задачу построения модели распределения над разными типами сложных данных: изображением, текстом, звуком и т. д. Моделировать связи между этими данными тоже надо уметь.

 

  • Теперь при помощи нейросетей мы аппроксимируем (исследуем числовые характеристики и качественные свойства объекта - Прим. ТАСС) недоступный нам ранее градиент логарифма плотности и получаем после ряда вычислений генеративную модель, которая преобразует белый шум в картинку, аналогичную реальному миру, но с несуществующими на самом деле объектами (собаки, автомобили, растения, лица и т. д.).

 

  • Использование фундаментальных математических знаний при построении алгоритмов позволяет, прежде всего, изучить теоретические свойства методов и понять, почему системы ИИ работают так, а не иначе. Второе: если мы видим, что фундаментальные методы стохастики оказываются полезными в генеративных моделях, то имеет смысл привлекать и более глубокие знания из области фундаментальной математической науки, чтобы получить еще более качественные генеративные модели.

 

ИИ для дизайна и генерации белковых молекул

 

Ольга Кардымон, руководитель группы «Биоинформатика» AIRI:

 

О необходимости дизайна белков

 

  • Когда говорят о белках, особенно после пандемии ковида, обычно аудитория ждет, что сейчас что-то будет про вакцины, про лекарства. Но не надо забывать, что белки участвуют и в других сферах жизни. Например, есть ферменты, которые необходимо улучшать, чтобы они перерабатывали мусор, или есть целый биотехкластер, который производит вещества для бытовых нужд, в частности, усиливает свойства стирального порошка. Все эти задачи можно разделить на четыре больших блока. Первый блок - генерирование окружения белка, чтобы он мог хорошо работать. Второй блок - зная каркас белка, мы генерируем его аминокислотный состав, чтобы придать ему каталитически активные функции и использовать дальше. Третий блок - дизайн фрагмента белков, которые, к примеру взаимодействуют с поверхностью вирусов. Четвертый блок - диффузионная модель создания белков открывает огромную вселенную возможностей работы с белком. Таким образом инструменты на основе ИИ могут трансформировать нашу медицину.

 

О генерировании белка под определенную задачу

 

  • Если мы можем делать теги для новостей по их типу "Политика", "Культура" и т. д., то точно такие же теги мы можем делать, создавая семейства белков, которые будут сигнализировать о предполагаемой функции белка, который будет генерироваться. Таким образом наши коллеги, разработавшие языковую модель Progen для работы с 280 миллионами белковых последовательностей, добавили более 19 тысяч известных семейств белков. В итоге они смогли сгенерировать 1 миллион белковых последовательностей, похожих на семейство лизоцинов, обладающих антибактериальными свойствами, способными разрушать клеточные стенки бактерий. Для его получения выбрали из миллиона последовательностей 102 проверки, из которых, в свою очередь, удалось синтезировать не в клеточной линии всего лишь 72 белка. Из них только часть показала реальную каталитическую активность. Были выбраны пять наиболее активных белков, которые уже решили синтезировать в клеточных линиях, как это делают на фармпроизводстве при разработке новых белковых препаратов. В итоге были выявлены два активных белка, разрушающих бактериальные стенки. Один из этих белков был проверен методом рентгеноструктурного анализа, который подтвердил, что его структура соответствует предсказанной и похожа на структуру лизоцина дикого типа.

 

  • В биологии очень важна также обратная задача. Ее выполнила языковая модель ProteinMPNN, когда имеющийся каркас нужно вернуть в изначальное состояние, чтобы потом снова его синтезировать. Эта модель основана на известной модели для работы с текстами и имеет три слоя инкодера, три слоя декодера, а на входе, помимо каркаса, она получает еще и координаты, где расположены азот, углерод и другие элементы, чтобы была понятна структура будущего белка, который предстоит сгенерировать. Эта модель позволяет на определенных последовательностях зафиксировать аминокислоты, которые для нас важны, и вокруг них будет генерироваться последовательность, формирующая белок. У этой модели очень много хороших результатов синтеза белков, к тому же она генерирует более стабильные белки, которые существуют в природе. Эти показатели обнадеживают.

 

О диффузии белка

 

  • Если бы белки были картинкой, не было бы никаких проблем, мы бы воспользовались алгоритмами, о которых говорилось ранее. Но белки - это 3D-cтруктуры, имеющие координаты, расстояние и прочее. И чтобы создать белый гауссовский шум для диффузии белков, мы должны работать в первую очередь с координатами. На координаты "расстояние между атомами" мы делаем гауссовский шум и благодаря направлениям броуновского движения мы можем это все генерировать в структуру белка. Этим летом вышла языковая модель RF diffusion от Института дизайна белков. Она берет за основу последовательность аминокислот и еще ряд исходных данных и предсказывает структуру белка. Таким образом они могут также в дальнейшем генерировать симметричные белки, которые могут быть использованы для производства вакцин и выполнять другие операции, необходимые для исследований.
Скриншот онлайн-трансляции конференции Сбера по искусственному интеллекту и машинному обучению AIJ 2023

Сессия 4

4

Техники сжатия активаций слоев и градиентов для распределенного обучения моделей ИИ


Александр Гасников, Университет Иннополис, ИСП РАН, Сколтех, МФТИ:

 

  • Дата-параллелизм - техника сжатия информации, которая позволяет решать задачи огромных размеров совместной работы.

 

  • Дата-параллелизм - когда часть выборки хранится на разных устройствах. Узкое место тут - коммуникация. Наша задача - сократить число коммуникаций или их стоимость.

 

  • Если мы сжимаем в 10 раз, то можно обыграть так, чтобы не надо было в 10 раз больше тратиться на коммуникацию - важен суммарный эффект. Нужны узлы, которые будут забирать часть информации.

 

  • Модельный параллелизм - это когда разные слои информации хранятся на разных устройствах. Наука в части модельного параллелизма использует те же идеи, но они недоработаны. Сейчас это открытые задачи и начало пути.

 

ИИ и навигация в химическом пространстве: поиск и создание молекул

 

Максим Федоров, ИППИ РАН им. А. А. Харкевича:

 

  • Химия - новая точка роста для использования инструментов. Химическое пространство состоит из молекул и их соединений. Число их увеличивается. Стоит вопрос, как ориентироваться в пространстве известных молекул и что делать с пространством молекул, которые еще не известны. 

 

  • Многие базовые структуры были найдены более 100 лет назад, иногда их модифицируют. Стоит вопрос об отправке в экспедицию к новым месторождениям соединений. Можно использовать новое поколение методов машинного обучения для быстрого предсказания нахождения новых соединений.

 

  • Существующие методы недостаточны для описания сложных свойств, но они важны и нужны для верификации машинного обучения и механизмов реакций. Когда мы имеем дело с огромным количеством молекул, на помощь приходит машинное обучение.

 

  • Сейчас у нас есть полноценная платформа. На ней можно как анализировать, так и предсказывать ряд свойств, спектры, а также стоимость и путь синтеза. Также она предоставляет навигацию по соединениям.

 

Генеративный ИИ в Сбере

 

Максим Еременко, Сбер:

 

  • Количество "хайпа" вокруг генеративного ИИ связано с плотностью событий последнего времени. Год назад началась революция в сфере генеративного ИИ, в том числе тут речь об Open AI.

 

  • Мы пойдем к расширению доступных модальностей. Модели уже могут работать в промышленном формате, остальное тоже будет осваиваться. Также дальше будет идти работа с мультимодальностью.
Скриншот онлайн-трансляции конференции Сбера по искусственному интеллекту и машинному обучению AIJ 2023

Сессия 5

5

OmniFusion

 

Андрей Кузнецов, AIRI:

 

  • Модели нужно насыщать новыми модальностями, типами данных (звук, изображение, видео), чтобы они умели более естественно общаться с человеком. Также модель станет мультизадачной.

 

  • С 1990 по 2010 год в основном все алгоритмы искусственного интеллекта были сконцентрированы в области статистических исследований. Позже стали появляться модели глубокого обучения, и сейчас стали говорить про базовые фундаментальные модели, которые могут решать большое количество задач, используя разные типы данных.

 

  • В последний год количество продуктов и научных статей по мультимодальному исследованию возросло до почти 3 тысяч.

 

  • В этом году вышли GPT-4V(ision) и The Dawn of LMMS.

 

  • OmniFusion представляет собой языковую модель, которая с помощью специальных адаптеров переводит картинку в пространство, известное модели. Разработка может анализировать, описывать и отвечать на вопросы по изображениям.

 

  • Процесс обучения модели был недолгим, разработчики использовали вопросно-ответные системы, которые задавались по изображениям.

 

  • OmniFusion может применяться в разных областях. Например, модель по изображению может определить животное, описать блюдо и рассказать его рецепт, определить город по карте и предложить маршрут для прогулки, прочитать рентген-снимок и многое другое.

 

Kandinsky

 

Денис Димитров, Сбер, AIRI:

 

  • Kandinsky - модель, которая по текстовому запросу генерирует изображение.

 

  • Анонсированы две новые модели - Kandinsky 3.0 и Kandinsky Video (генерация видео).

 

  • Задача генерации картинки - новая, первая работа по генеративно-состязательным нейросетям (GAN) появилась в 2014 году.

 

  • Для обучения Kandinsky 3.0 использовали 1,5 миллиарда пар "картинка - текст" с разным разрешением. Новая модель лучше понимает текст и генерирует более качественные изображения. Опрос, проведенный среди пользователей, также показал, что версия Kandinsky 3.0 опередила Kandinsky 2.2.

 

  • Кроме текста, новая версия принимает начальную часть картинки. Например, пользователь может добавить объект на уже сгенерированное моделью изображение.

 

  • Kandinsky Video может генерировать видео несколькими способами: через приближение картинки, с помощью анимации и представлять серию изображений, которые воспринимаются как видео.

 

  • Модель генерации видео используют в рекламе, дизайне, повседневной жизни. Разработка не является заменой человека, а выполняет функцию инструмента для задач пользователей.

 

GigaChat: /dev/notes

 

Федор Минькин, SberDevices:

 

  • GigaChat - инструмент, который заменяет поисковую систему, подсказывает и генерирует идеи. Мультимодальная система искусственного интеллекта может общаться с пользователем, умеет работать с текстами, писать код на нескольких языках программирования, рисовать картинки.

 

  • У GigaChat появились две новые модели - на 7 и на 29 миллиардов параметров.

 

  • Обучение GigaChat проходило в три стадии: предобучение, развитие умения следования инструкциям, улучшение точности выполнения указаний.

 

  • Модель на 7 миллиардов параметров обучалась 10 дней, на 29 миллиардов параметров - 40 дней.

 

  • Модель GigaChat на 29 миллиардов параметров проходит экзамен на юриста с 80% правильных ответов.

 

  • GigaChat можно использовать для решения задач бизнеса: создать собственный виртуальный ассистент и внедрить искусственный интеллект в продукт.

 

Валерий Терновский, SberDevices:

 

  • Для обучения GigaChat собрали данные с русскоязычных сайтов, которые структурировали в вопросно-ответные пары.

 

* Artificial Intelligence Journey - путешествие в мир искусственного интеллекта, англ.