Нейросеть ruDALL-E научилась генерировать изображения по описаниям на иностранных языках

Она одновременно обучается на двух видах данных - изображениях и текстах, и позволяет создавать неограниченное число новых изображений по заданному описанию

Редакция сайта ТАСС

11 ноября 2021, 16:18

МОСКВА, 11 ноября. /ТАСС/. Нейросеть ruDALL-E, созданная специалистами "Сбера" и генерирующая изображения по словесному описанию, научилась понимать иностранные языки, в том числе английский. Об этом сообщила в четверг пресс-служба "Сбера".

"Сайт открытой нейронной сети ruDALL-E, генерирующей изображения на основе текстового описания, теперь может работать с текстами не только на русском, но и на других языках. В мобильном приложении "Салют" и на устройствах Sber создать картинку можно даже по голосовому запросу, перевод на английский получил и демо-сайт, на котором можно попробовать модель", - говорится в сообщении.

Отмечается, что ruDALL-E получила большую популярность всего за несколько дней с начала своей работы.

"За неделю с момента релиза ruDALL-E пользователи по всему миру уже сгенерировали более 3 млн изображений при помощи ruDALL-E, используя для формирования русскоязычных запросов различные системы машинного перевода, а теперь смогут делать запросы на английском и других языках. При вводе текста модель самостоятельно определяет язык ввода и генерирует соответствующее изображение", - рассказали в пресс-службе.

Создание мультиязычного варианта стало реакцией на популярность нейросети, рассказал в четверг на международной конференции AI Journey 2021 исполнительный вице-президент "Сбера" Давид Рафаловский, которого цитирует пресс-служба.

"После запуска ruDALL-E мы увидели большой интерес к модели со стороны аудитории. Поэтому мы решили создать мультиязычный вариант сервиса, который упростит пользователю путь к созданию изображения. Сейчас моделью может воспользоваться практически любой желающий по всему миру", - сказал Рафаловский.

О нейросети ruDALL-E

"Сбер" объявил о создании нейросети, создающей изображение по текстовому описанию на русском языке, 2 ноября 2021 года. Отмечалось, что разработка может быть востребована для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, архитектурного и промышленного дизайна.

Как пояснили специалисты "Сбера", ruDALL-E одновременно обучается на двух видах данных - изображениях и текстах, и позволяет создавать неограниченное число новых изображений по заданному описанию. Созданы два варианта нейросети: ruDALL-E XL содержит 1,3 млрд параметров, ruDALL-E XXL - 12 млрд. Первая модель доступна для бесплатной загрузки.

Генерация изображений при помощи ruDALL-E происходит в три этапа: сначала нейросеть принимает текст и генерирует заданное число картинок, на следующем этапе она выбирает, какие из них наиболее удачны и максимально соответствуют описанию, на завершающей стадии - увеличивает их в размере без потери качества, пояснили в "Сбере".

Россия