2 ноября 2021, 12:51

Сбер разработал нейросеть, создающую изображения по словесному описанию

Валерий Шарифулин/ ТАСС
Разработка может быть востребована в сфере дизайна и рекламы, считают в компании

МОСКВА, 2 ноября. /ТАСС/. Специалисты Сбера разработали нейронную сеть, которая создает изображения, используя текстовое описание на русском языке. Разработка может быть востребована в сфере дизайна и рекламы, сообщила во вторник пресс-служба Сбера.

"Нейросеть ruDALL-E одновременно обучается на двух видах данных - изображениях и текстах, и позволяет создавать неограниченное число новых изображений по заданному описанию <…> Использовать ее можно для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, архитектурного и промышленного дизайна", - говорится в сообщении.

Авторы создали две версии нейросети, содержащие разное количество параметров. Модель ruDALL-E XL доступна для бесплатной загрузки с сервиса Github, сообщает пресс-служба Сбера. Оба варианта разработки, включая расширенную версию ruDALL-E 12B, также будут представлены на платформе ML Space компании SberCloud, входящей в экосистему Сбера.

Создание изображений при помощи ruDALL-E происходит в три этапа: сначала нейросеть принимает текст и генерирует заданное число картинок, на следующем этапе она выбирает, какие из них наиболее удачны и максимально соответствуют описанию, на завершающей стадии - увеличивает их в размере без потери качества.

Подобная модель для работы с англоязычным текстом была представлена американской компанией OpenAI в 2021 году, однако она не была полностью выложена в открытый доступ. Разработчики Сбера (компаний SberDevices и Sber AI при участии представителей SberCloud) воспроизвели опубликованный коллегами код и запустили обучение нейросети на платформе ML Space, использующей мощности суперкомпьютера "Кристофари".

"В результате получилась самая большая модель такого рода в мире, работающая с русским языком: обучение заняло 23 тыс. GPU-часов на массиве данных из 120 млн пар "текст-изображение". Проект по обучению ruDALL-E стал самым большим нейросетевым вычислительным проектом в России и СНГ", - отметили в пресс-службе Сбера.

Вклад в развитие технологий

Исполнительный вице-президент Сбербанка, технический директор (СТО) Сбера, руководитель блока "Технологии" Давид Рафаловский, комментируя полученные результаты, отметил, что такая разработка вносит большой вклад в развитие искусственного интеллекта.

"Генерация изображений [также] закрывает две важных потребности современного бизнеса - возможность получить уникальную картинку под собственное описание и в любой момент создавать необходимое количество licence-free-иллюстраций (изображения со "свободной лицензией" - прим.ТАСС) <…> Технология пока совсем новая, первые шаги в этом направлении были сделаны только в прошлом году, а еще в 2018-2019 годах даже постановку такого рода задачи нельзя было себе представить. [Нейросеть] ruDALL-E можно считать настоящим прорывом для русскоязычной индустрии", - цитирует Рафаловского пресс-служба Сбера. 

Теги:
Россия