Нынешний ажиотаж вокруг данных связан с компьютерными нейронными сетями — особыми алгоритмами, которые принципом работы напоминают мозг. В 2017 году консалтинговая фирма CB Insights даже подсчитала, что в финансовых отчетах публичных компаний искусственный интеллект стал упоминаться почти втрое чаще старого бизнес-заклинания — Big Data. Но еще когда компьютеры были размером со шкаф, а машинное обучение в основном было предметом теоретических изысканий, люди пытались перекроить мир с оглядкой на цифры.
Модель — это упрощение
В 1970-х Нью-Йорк переживал не лучшие времена. Чтобы сократить дефицит бюджета, мэр Джон Линдси попросил аналитический центр RAND оптимизировать работу пожарной службы. Специалисты RAND создали компьютерные модели и загрузили в них информацию о местах, времени и частоте возгораний, чтобы рассчитать, как быстро приедет бригада. В результате были закрыты 13 пожарных станций, а в семи точках были открыты новые. Позже по выкладкам RAND упразднили еще несколько десятков депо.
Но модель была чересчур грубой. К примеру, предполагалось, что бригады всегда выезжают со станций, но часто с одного пожара они сразу же ехали тушить другой. Нагрузка на спасателей выросла вчетверо, и пока по всей стране число людей, погибших в огне, сокращалось, в Нью-Йорке оно увеличилось в два раза. К концу 1970-х в Бронксе каждый день сгорали десятки зданий, но в ответ на возмущение жителей и пожарных власти показывали расчеты компьютерной модели и дальше гнули свою линию.
Нью-йоркская история полувековой давности служит напоминанием, что любая модель всегда проще, чем реальность, которую пытаются воссоздать с ее помощью. Часто в этом нет проблемы, но иногда неучтенные детали приводят к ошибкам и даже беде.
Кроме оплошности экспертов RAND, существует много других примеров этой проблемы. В 2014 году организация Institute of Physics проанализировала, насколько рекультивация лесов и производство биотоплива способны замедлить изменение климата. В случае с деревьями логика прозрачная, как воздух на вершине заповедной горы: они поглощают углекислый газ, чтобы питаться, и выделяют влагу — и то и другое снижает температуру воздуха. Идея спасти планету с помощью растений довольно популярна. Существует даже общественная кампания, которая так и называется, — "Триллион деревьев": каждый желающий может посадить березку или сосну и зарегистрировать саженец на сайте.
Вот только есть одна проблема: вероятно, деревья — во всяком случае, в северных широтах — ускоряют глобальное потепление. Дело в том, что зимой снег отражает солнечную энергию обратно в космос. Если же засадить поля и пустоши деревьями, то тепло от нашей звезды будет поглощаться лучше, а атмосфера — сильнее нагреваться. В статье на сайте Institute of Physics этот эффект вскользь упоминается, но эксперты не стали учитывать его в своих расчетах и пришли к выводу, что лесонасаждения — хороший метод контроля глобального потепления.
Другой пример — генетические тесты, которые якобы способны выявить глубокие корни человека. Судя по счетчикам просмотров, многие видели рекламу, где люди с кожей самых разных оттенков рассказывают о своих предках, а под конец обливаются слезами умиления и дружно смеются: мол, ну надо же, оказывается, пращуры бледного и рыжего ирландца родом откуда-то с Африканского Рога. Человек человеку брат.
Устроены генетические тесты следующим образом. В основном ДНК разных людей практически совпадает, но есть в ней тысячи едва заметных отличий, так называемых снипов. В лаборатории смотрят на эти отличия и обращают внимание, где какие снипы встречаются чаще: в Юго-Восточной Азии — одни, в Центральной Америке — другие. Если у человека есть африканские вариации, выходит, в какой-то мере он африканец.
Но конкретные снипы или их совокупности не обязательно попадаются только в одном месте. И наоборот: в некоторых регионах живут очень разные люди. Например, на Урале есть тюрки, финно-угры, славяне, чьи предки поселились там в незапамятные времена. Поэтому неудивительно, что человек может получить отличающиеся результаты, даже обратившись в одну и ту же компанию.
Наконец, с подобными тестами надо держать в уме, что генетическое разнообразие регионов изучено не одинаково: где-то лучше, где-то хуже. Но это — отдельная проблема, которая выходит далеко за рамки потребительской генетики.
Данных редко хватает, даже если их перебор
Хорошая модель — это половина дела. Чтобы был толк, модели нужно "скормить" данные: точные, полные, непредвзятые, своевременные. Подчас информации, удовлетворяющей этим условиям, просто нет.
К примеру, существуют приложения для смартфонов, отслеживающие продолжительность и качество сна. Делают они это исходя из двигательной активности в кровати. Но как время, за которое пожарная бригада добирается до места возгорания, не дает исчерпывающего представления о работе спасателей, так и шуршание простыни не позволяет понять, хорошо ли кто-то высыпается. Вместо этого специалисты по сну смотрят на результаты полисомнограммы, но смартфоном ее не снимешь — нужны специальные датчики. И даже в этом случае врачи не всегда сходятся в интерпретации показаний.
Сон — штука важная, но редко судьбоносная, в отличие от правоохранительной и судебной систем. В этих областях статистические методы оценки применяются почти 100 лет, а обработка больших массивов данных в последние годы перевела их на новый уровень.
Полицейские — прежде всего, в США, но похожие проекты запущены в Европе и Китае, — пользуются прогностическими компьютерными моделями. Эти модели обрабатывают всевозможные данные вроде сообщений о преступлениях, профилей в социальных сетях, времени работы баров, школ. Одни указывают, где и когда может произойти что-то противозаконное, другие — кто может нарушить закон или стать жертвой. Иногда алгоритмы используются и в судах. Программы высчитывают, с какой вероятностью преступник еще раз сделает что-нибудь дурное, от этой оценки зависит приговор, решение об условно-досрочном освобождении, сумма залога.
Предполагается, что алгоритмы беспристрастны, но на этот счет есть сомнения. Когда журналисты сайта ProPublica проверили индивидуальные оценки риска для 7 тыс. человек и посмотрели, кого из них осудили в последующие два года, оказалось, что чернокожим программа завышала баллы, а белым, наоборот, занижала. Точность прогнозов для насильственных преступлений составила 20% (если подбрасывать монету, прогноз получится в 2,5 раза точнее).
Рассуждая о подобных предсказательных системах, урбанист и специалист по IT Адам Гринфилд писал в книге "Радикальные технологии": "Но мы должны постоянно себе напоминать, что кто-то же создал эту модель — если не сам Верник (разработчик системы, внедренной в Чикаго, — прим. ТАСС), то какой-то другой определенный, идентифицируемый человек, действующий в некотором историческом контексте. Кто-то выбирал ее источники, устанавливал признаки и веса или, по крайней мере, подтверждал, что какой-то атрибут, случайно выбранный автоматизированным процессом извлечения признаков, действительно может служить сигналом о преступном намерении. На каждом этапе во внешне нейтральное функционирование алгоритма вкладывались человеческие суждения". Но то же самое можно сказать и про многие другие системы на основе машинного обучения.
Существующее, несуществующее и существенное
Принципиальная ограниченность компьютерных моделей и данные, качество которых зачастую оставляет желать лучшего, — проблемы вроде бы очевидные, но постоянно ускользающие от внимания. Эти проблемы теряются в шуме новостей о чудодейственных нейросетях, которым под силу то, что раньше умел только человек, и о всеведущих корпорациях, опережающих желания своих пользователей. Кажется, алгоритмы везде (что недалеко от правды).
Повсеместное распространение компьютерной обработки больших массивов информации — прежде всего, распространение в мыслях людей, — породило идеологию, которую историк Юваль Харари называет датаизмом (от англ. data — данные). Харари ставит эту новую веру в один ряд с религиозными учениями старины и потеснившим их гуманизмом. По его мнению, радикальные адепты этой веры рассматривают всю Вселенную как поток информации, организмы — как биохимические алгоритмы, а предназначение человечества они видят в том, чтобы сконструировать всеохватную вычислительную систему и слиться с ней воедино.
Но пока объять все сущее не получится, а выходит скорее наоборот. Лучше всего алгоритмы справляются с конкретными и сравнительно маленькими задачами: распознать кошку на фотографии или определить оптимальную длину пролета моста. Из-за этого мир не сливается в громадный поток данных, а распадается — на множество инженерных проблем. Строительство, поиск новых лекарств, управление автомобилем действительно можно представить как несколько взаимосвязанных задач, для которых можно найти решение с помощью измерений и вычислений. Но как быть, например, с терроризмом?
В статье The Guardian, вышедшей еще пять лет назад, говорится, что спецслужбы преподносят борьбу с терроризмом как информационную проблему — выявление угроз с помощью постоянной слежки, в том числе с помощью обработки данных. Исторические предпосылки, политика, условия жизни, которые приводят к появлению экстремистов, в расчет не берутся. Но с таким подходом нельзя создать условия, где людям не придет в голову обвесить себя взрывчаткой или протаранить толпу самосвалом. Радикалов можно только опередить, страх перед ними делается обыденностью, а слежка — необходимостью.
Некоторые вещи сложно свести к числам, а когда это все-таки пытаются сделать, результаты иногда получаются совсем не такими, как хотелось. В книге "Тирания показателей" историк Джерри Мюллер приводит в пример американских врачей, чью зарплату привязали к показателям эффективности. Это вышло боком пациентам с тяжелыми болезнями и травмами: чтобы не терять деньги, хирурги старались их не оперировать: вдруг еще умрет и испортит статистику. Людей стали хуже лечить из-за меры, которая должна была повысить качество медицинских услуг. По мнению Мюллера, когда метрики используют неосмотрительно, работа рано или поздно теряет смысл и сводится к тому, чтобы соответствовать поставленной планке.
В конце концов, истовая вера в данные и алгоритмы искажает картину мира. Цифры порождают мнимые сущности вроде "гена поиска новизны", выявленного после сложной статистической обработки образцов ДНК и психологических тестов (дальнейшие исследования показали, что ген DRD4 если и влияет на поведение, то едва заметно).
Верно и обратное: то, что нельзя свести к формулам, вроде как не существует. Свежий пример этого стал известен на прошлой неделе. Сайт The Verge заполучил документы, где говорится, что на складах компании Amazon автоматическая система штрафует и увольняет рабочих. В логике алгоритма (и корпорации с капитализацией $1 трлн, которая его внедрила) имеет место несоответствие производительности заданным показателям качества, и его надо устранить. Но человеческое чутье подсказывает, что с сотнями людей обошлись несправедливо. Не видя лучших альтернатив, они взялись за тупую, изнурительную работу и лишились ее, потому что есть уйма других нуждающихся, у которых пока остались силы перекладывать коробки с места на место за гроши. Несправедливость легко заметить невооруженным взглядом, но трудно измерить.
Ирония в том, что к формулам и алгоритмам не сводится и изобретательность — та самая сила, благодаря которой появились математика, полупроводники, датчики, программирование, машинное обучение, рыночная экономика, то есть столпы, на которых держится вера во всемогущество чисел. И пока общий искусственный интеллект — интеллект без стыдливых оговорок — остается далекой мечтой, в нашем пантеоне должны остаться воображение, чутье и рассудок.
Марат Кузаев