Откуда супермаркет через дорогу знает, какие продукты закончились у вас дома, и почему именно их предлагает купить со скидкой? Как стриминговый сервис понимает, что вам понравится новый сериал? Ответ - с помощью анализа больших данных. В последние годы произошел настоящий бум этой технологии, и сегодня на ней завязаны многие, даже обыденные, процессы.
Что такое большие данные
Сегодня вряд ли кого-то можно удивить тем, что почти каждый интернет-сервис за считанные секунды угадывает желания пользователя: предлагает подходящие товары, фильмы, музыку и другие виды контента. Без анализа больших данных такое было бы невозможно. Как именно это работает?
Big Data - это большие массивы данных, которые обрабатывают с помощью специальных автоматизированных инструментов и используют для сбора статистики, принятия или обоснования решений, составления прогнозов. По сути, это набор неперсонализированных данных, которые вместе образуют обезличенный портрет пользователя с набором определенных социально-демографических характеристик.
По мере развития интернета и информационных технологий в целом данные накапливаются все в большем объеме. Крупнейшие в мире операторы данных - Google, Microsoft, IBM, Oracle, Amazon и другие - первыми обратили внимание на то, что в них есть потенциал для изучения и практического использования. Они стали активно собирать данные пользователей, анализировать их и применять для улучшения собственных сервисов. Таким образом анализ больших данных открыл перед компаниями возможность анализировать привычки своих клиентов и использовать полученную информацию при разработке различных стратегий развития. Кроме того, в крупнейших вузах мира стали появляться направления по изучению Big Data, а на рынке труда - профильные специалисты.
Где и как собирают Big Data
Чтобы от больших данных была польза, необходимо где-то их собирать и обрабатывать. Основные источники Big Data сегодня - поисковики, соцсети и блоги, а также данные компаний, в особенности из сфер e-commerce, телекоммуникаций, foodtech, fintech, сервисов доставки и такси, стриминговых сервисов. Кроме того, большие данные формируются с помощью статистических данных (медицинских, городских, метеорологических, географических и др.), данных "интернета вещей" (IoT) и девайсов.
Вся эта информация хранится в дата-центрах с мощнейшими серверами, которые обеспечивают ее быструю и качественную обработку. Помимо физических серверов, зачастую используются облачные хранилища - так называемые Data Lake ("озера данных"), а также платформы Hadoop и Spark на основе открытого кода, созданные специально для хранения и обработки Big Data. Благодаря появлению инструментов, которые значительно упрощают обработку Big Data и снижают стоимость их хранения, аналитика на их основе стала еще более востребованной.
Сценарии применения больших данных
Потенциал аналитики больших данных настолько велик, что сегодня ее можно использовать во множестве сценариев и практически во всех сферах. Среди областей, в которых аналитика на основе больших данных сегодня находит применение чаще всего, - промышленность, ретейл, медицина, телекоммуникации.
В промышленности анализ больших данных позволяет предсказывать аварии и оптимизировать производство. Внедрив на предприятии решение на базе "интернета вещей", то есть "умных" датчиков, компания начинает собирать данные, с помощью которых мониторит и анализирует состояние оборудования, предотвращает возможные сбои, моделирует производственные процессы, изучает их эффективность, рассчитывает наиболее экономные модели потребления ресурсов.
Так, например, "умные" датчики на атомных или гидроэлектрических станциях в режиме реального времени мониторят работу большинства систем, основываясь на множестве имеющихся данных. При обнаружении отклонений от нормы датчики моментально срабатывают, позволяя человеку вовремя среагировать и устранить неполадки.
Главная ценность использования больших данных в производстве - оптимизация издержек и снижение себестоимости продукции.
С помощью больших данных производитель может прогнозировать спрос на свою продукцию, ориентируясь на продажи за прошлые периоды, сезонность спроса, условия на рынке, изменения стоимости расходных материалов и т.д. Все эти данные содержатся в общей базе и дают представление обо всем, что может повлиять на производство.
В ретейле большие данные помогают компаниям лучше понимать своих клиентов, оптимизировать логистику и точнее прогнозировать продажи.
Компании анализируют покупки потребителей, выявляют закономерности, которые позволяют точнее рассчитывать спрос на продукцию. Добавляя к этим данным информацию о самих покупателях, которая есть у розничных компаний, ретейлеры делают клиентам персонализированные предложения. А с помощью геоаналитики розничные компании принимают решение об экспансии в другие регионы и точнее рассчитывают логистические цепочки.
К примеру, внедрение инструментов анализа больших данных крупнейшей в мире сети оптово-розничной торговли Walmart позволило увеличить объем выручки от онлайн-продаж с 10% до 15%. Другой пример использования больших данных в этой сфере - улучшение системы рекомендаций. Так, новая рекомендательная система Amazon, основанная на Big Data, стала генерировать треть выручки компании.
Важность использования Big Data в медицине обусловлена тем, что через систему здравоохранения проходит практически каждый житель Земли, а, значит, данные о нем могут дополнить общую картину и помочь медучреждениям работать более эффективно.
Например, анализ больших данных дает возможность исследовать эффективность лечения и профилактики заболеваний. Кроме того, он позволяет разрабатывать новые методы оздоровления населения, прогнозировать спрос на лекарственные препараты, проводить массовый скрининг с целью предотвращения эпидемий.
Электронные медицинские карты являются одним из основных источников данных реальной клинической практики. Централизованный сбор обезличенных медицинских записей в "озера данных", обработка информации, ее структурирование, анализ и изучение позволяют получить огромное количество ценных данных, необходимых для решения различных задач в области здравоохранения, например, для оценки распространенности заболеваний, проведения исследований, использования данных в качестве доказательной базы.
Аналогично ретейлу в телекоме большие данные позволяют собирать более детальную информацию о потребителях и использовать ее, чтобы улучшать предложения по услугам, разрабатывать новые тарифы и сервисы, прогнозировать продажи и т.д.
Одна из самых интересных и полезных областей применения больших данных в телекоммуникациях - предотвращение фрода. Благодаря технологии машинного обучения операторы способны отслеживать спам-звонки и таким образом ограждать абонентов от навязчивой рекламы.
Телеком-операторы - одни из самых крупных владельцев больших данных, что позволяет им предлагать услуги по анализу и обработке Big Data для компаний из других сфер. Например, МегаФон, как одна из ведущих телекоммуникационных компаний, имеет многолетний опыт работы с Big Data. Благодаря партнерам аналитические инструменты МегаФона анализируют данные 98% населения страны.
Российский рынок Big Data
В России на сегодняшний день уже есть сформированный рынок больших данных, которому обещают стремительный рост. Так, по информации Ассоциации больших данных (АБД) и Boston Consulting Group, в конце 2019 года объем российского рынка больших данных оценивался в 45 миллиардов рублей с темпом роста 12% в течение последних пяти лет.
В 2018 году была создана профильная ассоциация, которая объединила крупнейших игроков рынка Big Data в России, включая МегаФон, Билайн, МТС, Сбер, VK (ранее Mail.ru Group), "Яндекс" и других. Основная цель ассоциации - создание условий для развития технологий и продуктов в сфере больших данных в России.
Российский рынок больших данных еще достаточно молод, но его потенциал огромен. В 2019 году Ассоциация представила стратегию развития рынка больших данных в нашей стране. В ней собраны предложения по совершенствованию рыночных механизмов и государственного регулирования отрасли.
Согласно расчетам ассоциации, за период с 2019 по 2024 годы накопленный экономический эффект от использования технологий больших данных может составить почти 3 триллиона рублей. Обновленная стратегия развития рынка данных в России будет представлена АБД в конце 2022 – начале 2023 года.