28 сентября 2018, 10:54
Статья

Зрение робота. Как и зачем камеры на улицах, в метро и магазинах узнают вас в лицо

Александр Крайнов, руководитель службы компьютерного зрения "Яндекс", — это он научил голосового помощника Алису распознавать лица — о настоящем и будущем технологии
Руководитель службы компьютерного зрения "Яндекс" Александр Крайнов. Пресс-служба "Яндекс"
Руководитель службы компьютерного зрения "Яндекс" Александр Крайнов

Компьютерное зрение — это та технология, благодаря которой ваш смартфон, если он снабжен функцией Face ID, видит и узнает вас. "Умные" камеры в метро замечают брошенные предметы и сообщают об этом охране, а камеры ГИБДД распознают нарушителей на дорогах. "Мозг" этой системы — программа, "глаза" — камеры, а функция, которая позволяет понять верно все, что видит компьютер, — большие данные.

Хотя разработчики признают, что технология еще сырая, она уже внедряется повсеместно почти во всех городах мира. Корреспондент ТАСС выяснил у эксперта, что нужно знать о машинном зрении.

О том, как машины видят мир

Для компьютера изображение существует в виде цифрового кода.

Чтобы искусственный интеллект с помощью камер узнавал людей и предметы — он выбирает из своей базы или интернета максимально близкие изображения по этому коду. Чем больше база данных и продуманнее алгоритмы, отвечающие за поиск по ней, — тем точнее и быстрее машина узнает объекты. Все "умные" камеры работают по такому принципу: обработка картинки — поиск в базе — узнавание.

Для примера: камеры с биометрическими системами, которые "вылавливают" в толпе людей из базы МВД (преступники, пропавшие без вести), камеры в метро, замечающие брошенные предметы, камеры ГИБДД на дороге.

"Технология проходит свой пик либо даже прошла его, — говорит Александр Крайнов. — Был период, когда накапливались алгоритмы и данные для обучающей выборки — все сложилось таким образом, что произошел скачок. Сейчас у нас бурное развитие, через какое-то время оно замедлится, но уже решится максимальное число практических задач".

О компьютерном зрении Алисы

В июне 2018 года разработчики научили голосового помощника Алису работать с изображениями — искать информацию по фотографиям с камеры или изображениям, которые вы ей предоставите. Ранее приложение "Яндекс" умело распознавать изображения, но все работало не так удобно и красиво, как выглядит в Алисе, говорится на сайте компании.

Обычный пользователь, по задумке, может установить приложение "Яндекса" на телефон, загружать незнакомые предметы и спрашивать: что это такое. 

"Особенно хорошо алгоритмам удается узнать плоское изображение — картину, обложку книги, рисунок на коробке конфет, — говорит Крайнов. — Лица машины научились распознавать лучше, чем человек. Эта задача, решенная с точки зрения применения. Конечно, будет еще прогресс, но сейчас она умеет по одной-двум фотографиям человека находить его среди миллионов или миллиардов других изображений. Уверен, что ученый-ботаник цветы распознает лучше Алисы, но я ей проигрываю полностью".

При проверке функции автором текста Алиса не смогла распознать лист подорожника. Но Крайнов утверждает, что потенциально не существует такой вещи, которую не смогут распознать алгоритмы. Они с каждым годом будут работать все лучше. Все зависит от того, насколько активно будут пополняться базы данных.

"Мы делали интересный проект — распознавали персонажей из мультфильма "Монстры на каникулах", — приводит пример разработчик. — Там есть персонаж человек-невидимка — стояла задача его распознавать, и мы иногда справлялись. Мы фотографию загружали, и алгоритм понимал, что там человек-невидимка".

Об изменчивых предметах

Есть области, в которых компьютерное зрение еще серьезно уступает человеческому. 

"Одна из самых сложных областей — это одежда, потому что это очень нежесткий объект, очень изменчивый, — объясняет Крайнов. — У нас гораздо больше обучающая выборка — мы один предмет одежды видим гораздо большее количество раз — на разных людях, в сложенном виде, в шкафу, постиранный, и мы умеем в голове делать некий перенос — мы представляем себе, если мы видим куртку в магазине, как она будет выглядеть на нас. Здесь размер нашей обучающей выборки наших примеров намного превосходит то, что было в алгоритмах обучения, поэтому здесь пока машины отстают от человека".

О магазине Amazon с камерами вместо продавцов

В 2016 году компания Amazon открыла в Сиэтле магазин без касс и продавцов. Покупатель, который предварительно зарегистрировался в базе магазина, может взять любые товары с полок и уйти. Камеры, расставленные в магазине, видят и определяют покупки, находят его аккаунт в базе и отправляют счет к оплате. Эти камеры путают людей и товары, что доказывает несовершенство технологии.

"Я абсолютно уверен, что это преодолимо, сейчас еще недостаточно опыта — раньше таких магазинов не было, и всегда пионеры собирают некоторое количество граблей. Они набьют на них шишки и смогут справиться с проблемами. Другое дело, что инженеры еще не нашли красивого решения, как это сделать. Возможно, мы будем идентифицироваться не только по нашему лицу, но и по телефону, который у нас в кармане. Может, мы будем здороваться с роботом, и наш голос будет распознаваться", — сказал Крайнов.

Даже существенный прорыв в сфере точности не переубедит техноскептиков, уверен он.

"Как развивается наше отношение к технологиям? Вот какая-то вещь не работала совсем, и вдруг она в одном из десяти случаев работает — для нас это магия, мы аплодируем. Потом мы привыкаем, и происходит следующее — камера распознает лицо человека в 9999 случаев из 10 000. И нам достаточно случая, чтобы сказать: ну, это ерунда! Как с самолетами — мы к ним привыкли, теперь задержка в 15 минут вызывает раздражение".

О "Большом брате" и приватности

Впрочем, некоторые обеспокоены не недостаточной точностью технологии компьютерного зрения, а, наоборот, активным ее развитием. Разработки открывают неограниченные возможности для слежки за людьми. Ведь потенциально любая камера — у подъезда дома, в магазине, у школы, на входе в театр — сможет человека распознать и зафиксировать его передвижения.

"Для меня это проблема, — признается Крайнов, — я вырос, когда ничего этого не было: не было соцсетей, распознавания лиц и так далее. Меня немного пугает, что жизнь людей выставлена наружу в социальных сетях. Но я смотрю на своих детей, для них это не является проблемой. Люди спокойно пишут свои откровенные мысли в соцсетях, и их не смущает, что кто угодно их может прочитать, — они выросли в такой среде. Очевидно, что с развитием технологий у нас меньше станет приватного. Как будет тем, кто в этом родился и в этом вырос, — не знаю, может, и будет лучше".

Вся история развития технологий в последнее время идет в направлении уменьшения приватности ради удобства, продолжает он, мы пользуемся банковскими картами, понимая, что каждая наша покупка записывается, чтобы не носить наличные деньги. Мы разрешаем отслеживать наши гаджеты, чтобы найти их в случае потери.

"Мы опасаемся слежки, но, с другой стороны, можем представить ситуацию, когда у нас нет паспортов, не нужно их носить с собой. Я прихожу в банк, хочу взять кредит, там распознают мое лицо, голос. Машина проверяет мою кредитную историю. Кредит одобрен — я ухожу, нет никаких справок. Мне надо получить визу: я захожу на сайт посольства, спрашиваю, можно ли мне въехать в страну, — мой голос распознан, лицо распознано, и виза выдана. Еду в аэропорт, у меня нет загранпаспорта, там даже никакой пограничной будки нет — камера видит, что я — это я, и все. Я перестаю видеть барьеры".

Он подчеркивает, что все алгоритмы настроены на то, чтобы защитить информацию, что, безусловно, требует и развития законодательства в сфере защиты персональных данных по мере развития технологий.

О будущем и "Игре престолов" со Смоктуновским

Уже сегодня, утверждает Крайнов, во многих отраслях использование правильного и должным образом обученного алгоритма удобнее и эффективнее, чем обучение человека.

"Если взять историю с рентгеновским снимком. Врачи определяют, что произошло — сломана кость или не сломана. Мне кажется, уже сейчас выгоднее обучить алгоритм, чем обучать человека. Хорошо обученный алгоритм будет работать лучше и точнее", — считает Крайнов.

Ближайшее будущее — синтез изображений, добавляет он.

"Я верю, что мы сможем сказать: "Хочу посмотреть "Игру престолов" со Смоктуновским в главной роли", нажмем кнопку и мы это получим. Мы сможем фильмы смотреть, по своему усмотрению подбирая актерский состав, я верю, что будет генерация фильма такая, что можно написать сюжет и сразу будет создан фильм, сократится роль студии, продюсеров, любой человек сможет написать сюжет и получить результат".

Искусственный интеллект, несмотря ни на какое свое развитие, не сможет заменить человека, подчеркивает разработчик.

"Компьютерное зрение, распознавание голоса — инструменты, которые можно собрать в один корпус. Но это не такая же история, как с интеллектом человека, где опыт решения одних задач помогает решать другие. В этом огромное преимущество человека перед искусственным интеллектом. Но в этом и недостаток перед ним. Когда речь заходит про решение конкретной узкой задачи — человек проигрывает машине. Когда мы говорим о том, чтобы просто жить и добиваться успеха, существовать в окружающем мире, — человек бесподобен и никакой искусственный интеллект не сможет с ним сравнится, и это прекрасно".

Константин Крылов