26 января, 06:11
Наука

В Петербурге обучили нейросеть распознавать эмоциональную речь

Обучение проводилось на основе интервью с жертвами Холокоста

САНКТ-ПЕТЕРБУРГ, 26 января. /ТАСС/. Ученые Санкт-Петербургского государственного университета (СПбГУ) научили нейросеть распознавать речь людей, рассказывающих о сильном эмоциональном потрясении. Обучение она проходила на основе интервью с жертвами Холокоста, сообщили ТАСС в пресс-службе вуза.

"Лингвисты Санкт-Петербургского государственного университета модифицировали нейросеть Wav2Vec 2.0, "научив" ее распознавать речь людей, рассказывающих о сильном эмоциональном потрясении, которое они пережили. Нейросеть была обучена на интервью с жертвами Холокоста, записанными фондом мемориального комплекса истории Холокоста Яд ва-Шем", - говорится в сообщении.

Распознавание речи является важной задачей для компьютерных автоматических систем, так как это позволяет формировать субтитры, генерировать пересказ основных мыслей. Современные технологии позволяют это делать, но когда человек в своей речи ярко выражает эмоции, плачет или громко кричит, то задача сильно усложняется.

По данным пресс-службы, ученые СПбГУ нашли способ для решения проблемы и смогли обучить русскоязычную модель распознавания речи профессора Новосибирского государственного университета Ивана Бондаренко на материалах интервью с жертвами Холокоста, которые опубликованы в публичный доступ израильским государственным национальным мемориалом Яд Ва-шем. Видеосвидетельства собирались мемориалом более 50 лет, на них люди рассказывают о событиях, свидетелями которых они стали.

Специалисты СПбГУ обработали более 26 часов разговоров. Для этого была составлена социолингвистическая разметка, определен пол, возраст, примерный регион происхождения и родной язык интервьюируемых. Как объяснили эксперты, эти признаки существенно влияют на то, с каким акцентом люди говорят, какую лексику используют, и как качественно их речь будет распознаваться автоматическими моделями. В результате технология применима и к записям других людей, но качество распознавания может отличаться из-за различных условий записи и в случае, если речь была слабо представлена в выборке, как, например, детская речь.

"Мы использовали предобученную на русском языке глубокую нейросеть Wav2Vec 2.0. Идея ее работы заключается в том, чтобы выучить сопоставление каждого звука устной речи человека соответствующей букве алфавита. Конкретно данная архитектура нейросети также использует так называемый механизм внимания, для того чтобы научиться "обращать внимание" на значимые для определения той или иной буквы по звуку признаки, что значительно повышает качество результата", - привели в пресс-службе слова магистранта кафедры математической лингвистики СПбГУ Михаила Долгушина.