Если вы хотя бы раз заходили в магазин — неважно, бытовой техники, косметики или продовольственный, где на каждом шагу расставлены интерактивные экраны с меняющейся рекламой, вероятно, вы сталкивались с этой технологией. Реклама на экране, возле которого вы остановились, была адресована именно вам, а не кому-то еще. Ведь когда вы зашли в зал, нейросеть, к которой подключены камеры, просканировала вас и узнала, кто вы — мужчина или женщина, сколько примерно вам лет, в каком вы настроении. И магазин предложил то, что вам может понравиться в этот момент.
Сейчас коммерсанты во всем мире экспериментируют с такими алгоритмами для улучшения продаж. Чуть реже нейросети следят за тем, чтобы менеджеры и официанты были приветливы с клиентами. Планируется, что в будущем такие разработки будут помогать предотвращать теракты, потасовки на митингах и футбольных матчах. Рассказываем, как это работает.
Какие эмоции видит нейросеть. И как это происходит
Американский психолог Пол Экман, известный как консультант сериала "Обмани меня" и прототип главного героя Лайтмана, выделяет семь базовых эмоций человека. Это злость, отвращение, страх, счастье, грусть, удивление, нейтральное состояние.
Есть и другие классификации, но нейросети, создаваемые для распознавания эмоциональных состояний, обычно используют классификацию Экмана. Во всяком случае, на международном конкурсе EmotiW для разработчиков таких алгоритмов командам предлагается разделять эмоции людей именно так. В 2017 году в EmotiW, который проходил в Глазго, участвовала команда от Высшей школы экономики (ВШЭ) и заняла четвертое место среди 15 команд.
"Мы обучали алгоритм "видеть" настроение группы, — рассказывает Андрей Савченко, руководитель команды, доктор технических наук, профессор кафедры информационных систем и технологий ВШЭ. — Ему нужно было "рассмотреть" много маленьких лиц в толпе на концерте, митинге или в торговом центре, определить эмоциональное состояние каждого и сделать вывод — какие эмоции превалируют среди людей в этом месте. Важно, чтобы в процессе решения не учитывался контекст, алгоритм не должен распознавать само место действия, то есть не должен предполагать, что на концерте люди будут счастливыми, а на протестном митинге — агрессивными".
Алгоритм выделяет в толпе лица, захватывает на них "точки" — на тех участках, где проявляются определенные мимические признаки, объединяет эти признаки. И после отправляется в фотобазу сравнивать этот неопределенный снимок с теми снимками, на которых эмоция уже определена. Там находит схожие признаки и выдает свое решение. Весь процесс занимает сотые доли секунды.
Групповое визуальное распознавание эмоций — это то, что сейчас больше всего востребовано в мире, добавляет Савченко. Также создаются нейросети, которые определяют эмоциональное состояние человека по голосу, — их уже тестируют в колл-центрах. Но больше всего продавцы, организаторы концертов и футбольных матчей хотят знать, как мы чувствуем себя, когда ходим по торговому центру или сидим на трибунах, чтобы понимать, как сделать нас более довольными.
"Организаторы конкурса предоставили базу из 3,5 тыс. фотографий групп людей с разными эмоциями. Этого, конечно, мало для обучения полноценной нейросетевой модели, нужна выборка из десятков тысяч фото, а лучше миллионов: чем больше данных, тем нейросеть лучше работает. Но мы смогли найти хорошее решение, чтобы алгоритм работал с высокой точностью — 78,5%. Мы отстали по точности от команды, занявшей первое место, на 2%. А вот алгоритм, который был на пятом месте, уже показал точность ниже нашей более чем на 3%".
После конкурса Савченко вместе с командой продолжил работать над алгоритмом. Нейросеть "накормили" еще десятками тысяч изображений. И обучили распознавать эмоции каждого человека в группе на лицах очень малого размера (48x48 пикселей).
"Вообще, у разработчиков таких алгоритмов есть большая проблема — где взять данные? — объясняет он. — В идеале нужна огромная база со снимками, которые были бы классифицированы".
Недавно одна российская компания, которая разрабатывает и продает такие алгоритмы, предоставила Савченко доступ к видео с людьми — от посетителей концертов и промоакций в ТРЦ.
"Видеоролики могут помочь нам улучшить алгоритм, — считает он. — Но нужно понимать: создавать их труднее, чем те, которые анализируют пол, возраст или даже определяют личность людей по какой-либо базе. Человеку порой сложно определить, какие эмоции испытывает собеседник. А машинное зрение находится на более раннем этапе развития".
Как нейросети путают эмоции
Даже самые толстокожие люди несравнимо проницательнее алгоритмов. "Лучше всего нейросети понимают, когда люди счастливы. А нейтральные эмоции часто путают с негативными", — уточняет Савченко.
Это подтверждает разработчик Вадим Конушин, основатель компании "Тевиан". "Продавцы хотят знать, какие эмоции испытывают посетители, когда входят в магазин, ходят по залу, стоят в очереди на кассе. Насколько вежливо продавцы обслуживают покупателей. Если бы эти алгоритмы работали более точно, спрос на них был бы очень высокий. Но они хорошо определяют улыбки, все другие эмоции путают. А в "диких условиях" — не на конкурсах, где они видят статичные фото хорошего качества, а в реальном магазине с большой проходимостью — они не покажут адекватной точности, в отличие от уже широко применяемой оценки демографии — определения пола и возраста посетителей".
Разработчики "Тевиан" "накормили" свою нейросеть базой из десятков тысяч снимков лиц. "Мы взяли лица с фотостоков и разослали людям, которые просматривали снимки и помечали каждый из них соответствующей эмоцией: от злости до радости", — рассказывает разработчик.
Сервис распознавания эмоций от "Тевиан" встроен в робота Promobot.
"Это нужно в первую очередь нашим клиентам — ретейлерам, организаторам мероприятий, — объясняет Олег Кивокурцев, сооснователь Promobot. — Робот определяет пол, возраст посетителей, их эмоциональное состояние. С помощью сервиса собственники робота могут делать аналитические диаграммы: половина посетителей были веселыми, 35% нейтральными, 15% грустными. Людям не нужно подходить к роботу, чтобы он их просканировал, он замечает всех, кто прошел мимо. Но еще мы отслеживали, какие эмоции вызывает у людей наш робот, например сделали вывод, что вторая версия робота больше нравится детям, а четвертая — взрослым".
Где используются такие нейросети. И сколько они стоят
Петербургская компания Addreality продает интерактивные экраны, связанные с "умными" камерами и нейросетью, распознающей эмоции, они работают по принципу, описанному в начале текста. Камеры "видят" человека, нейросеть понимает его эмоции, экран предлагает один товар для грустной девушки, а другой — для мужчины в приподнятом настроении.
"Важно, что эти алгоритмы не определяют персональные данные человека, — уточняет Сергей Галеев, сооснователь компании. — Для программы вы остаетесь безликим посетителем, который радовался или грустил, делая покупки в этом магазине".
Несмотря на это, пользователи — это сетевые магазины, реже банки — обычно договариваются с разработчиками о неразглашении информации о том, что они следят за эмоциональным состоянием клиентов. Из тех, кто не против, — ретейлер "Рив Гош".
"В новых магазинах "Рив Гош" тестируется алгоритм, распознающий эмоции, — продолжает он. — Ему нужны хорошие камеры — если оборудование дает нечеткую картинку, точность снижается. Поэтому оборудование для зала нужно закупать исходя из этого факта. У нас больше 20 сетевых клиентов, заказавших эту разработку. Цена внедрения и обслуживания — порядка нескольких сотен тысяч рублей в месяц для магазина, где проходит примерно 10 тыс. покупателей в день. В реальности крупного бренда это комфортная сумма, и в анализе эмоций покупателей чаще заинтересованы даже не сами магазины, а бренды, представленные в них. Бренды готовы платить за технологию".
В школе в китайском Ханчжоу учеников контролируют с помощью "умных" камер. Система мониторит настроение детей и их дисциплину, например, если кто-то спит на уроке, алгоритм присылает учителю уведомление.
В российской сети пиццерий "Додо Пицца" нейросеть следит за уровнем "счастья клиентов" во время их обслуживания на кассе. Камеры анализируют эмоциональное состояние посетителей и в реальном времени показывают на экране кассиру его "карму", которая зависит от числа довольных клиентов.
Есть развлекательные приложения. Например, вы загружаете свою (или чужую) фотографию в сервис и получаете ответ, какую эмоцию транслирует ваше лицо, например, в 2015 году такую программу обнародовала Microsoft. Сейчас существует много подобных "игрушек".
Стартап Emotient, который в 2016 году купила Apple, двумя годами ранее создал модуль распознавания эмоций для "умных" очков Google Glass. Гаджет, по задумке, должен подсказывать пользователю, какие эмоции испытывает его собеседник. В целом алгоритмы для распознавания эмоций пытаются внедрять многие производители "умных" очков.
Галеев уточняет, что рынок систем распознавания эмоций пока не сформировался. Большинство клиентов заказывают не такой алгоритм, а тот, что определяет возраст, пол и считает посетителей.
"Причины и в том, что алгоритмам есть куда расти, и в том, что ретейлеры должны к ним привыкнуть, — продолжает он. — Да, люди лучше понимают, что чувствует клиент, но у нейросетей есть преимущества. Они не создают для себя стереотипы вроде молодые люди веселее, чем пожилые, женщины серьезнее мужчин и так далее. Нейросеть — хладнокровная система, которая меньше чем за секунду учитывает множество факторов. Будут ли они когда-то лучше людей понимать эмоции? Нет. Но они станут точнее и смогут помогать анализировать эмоции группы или отдельного человека везде, где это нужно".
Анастасия Степанова