29 сентября 2022, 09:02
Партнерский материал

Big Data: что нужно знать о технологии, изменившей мир

Gettyimages
Где собирают и хранят большие данные, зачем они нужны и как их применить в бизнесе, рассказываем в материале ТАСС

Откуда супермаркет через дорогу знает, какие продукты закончились у вас дома, и почему именно их предлагает купить со скидкой? Как стриминговый сервис понимает, что вам понравится новый сериал? Ответ - с помощью анализа больших данных. В последние годы произошел настоящий бум этой технологии, и сегодня на ней завязаны многие, даже обыденные, процессы.

Что такое большие данные

Gettyimages

Сегодня вряд ли кого-то можно удивить тем, что почти каждый интернет-сервис за считанные секунды угадывает желания пользователя: предлагает подходящие товары, фильмы, музыку и другие виды контента. Без анализа больших данных такое было бы невозможно. Как именно это работает?

Big Data - это большие массивы данных, которые обрабатывают с помощью специальных автоматизированных инструментов и используют для сбора статистики, принятия или обоснования решений, составления прогнозов. По сути, это набор неперсонализированных данных, которые вместе образуют обезличенный портрет пользователя с набором определенных социально-демографических характеристик.

По мере развития интернета и информационных технологий в целом данные накапливаются все в большем объеме. Крупнейшие в мире операторы данных - Google, Microsoft, IBM, Oracle, Amazon и другие - первыми обратили внимание на то, что в них есть потенциал для изучения и практического использования. Они стали активно собирать данные пользователей, анализировать их и применять для улучшения собственных сервисов. Таким образом анализ больших данных открыл перед компаниями возможность анализировать привычки своих клиентов и использовать полученную информацию при разработке различных стратегий развития. Кроме того, в крупнейших вузах мира стали появляться направления по изучению Big Data, а на рынке труда - профильные специалисты.

Где и как собирают Big Data

Gettyimages

Чтобы от больших данных была польза, необходимо где-то их собирать и обрабатывать. Основные источники Big Data сегодня - поисковики, соцсети и блоги, а также данные компаний, в особенности из сфер e-commerce, телекоммуникаций, foodtech, fintech, сервисов доставки и такси, стриминговых сервисов. Кроме того, большие данные формируются с помощью статистических данных (медицинских, городских, метеорологических, географических и др.), данных "интернета вещей" (IoT) и девайсов.

Вся эта информация хранится в дата-центрах с мощнейшими серверами, которые обеспечивают ее быструю и качественную обработку. Помимо физических серверов, зачастую используются облачные хранилища - так называемые Data Lake ("озера данных"), а также платформы Hadoop и Spark на основе открытого кода, созданные специально для хранения и обработки Big Data. Благодаря появлению инструментов, которые значительно упрощают обработку Big Data и снижают стоимость их хранения, аналитика на их основе стала еще более востребованной.

Сценарии применения больших данных

Gettyimages

Потенциал аналитики больших данных настолько велик, что сегодня ее можно использовать во множестве сценариев и практически во всех сферах. Среди областей, в которых аналитика на основе больших данных сегодня находит применение чаще всего, - промышленность, ретейл, медицина, телекоммуникации.

В промышленности анализ больших данных позволяет предсказывать аварии и оптимизировать производство. Внедрив на предприятии решение на базе "интернета вещей", то есть "умных" датчиков, компания начинает собирать данные, с помощью которых мониторит и анализирует состояние оборудования, предотвращает возможные сбои, моделирует производственные процессы, изучает их эффективность, рассчитывает наиболее экономные модели потребления ресурсов.

Так, например, "умные" датчики на атомных или гидроэлектрических станциях в режиме реального времени мониторят работу большинства систем, основываясь на множестве имеющихся данных. При обнаружении отклонений от нормы датчики моментально срабатывают, позволяя человеку вовремя среагировать и устранить неполадки.

Главная ценность использования больших данных в производстве - оптимизация издержек и снижение себестоимости продукции.

С помощью больших данных производитель может прогнозировать спрос на свою продукцию, ориентируясь на продажи за прошлые периоды, сезонность спроса, условия на рынке, изменения стоимости расходных материалов и т.д. Все эти данные содержатся в общей базе и дают представление обо всем, что может повлиять на производство.

В ретейле большие данные помогают компаниям лучше понимать своих клиентов, оптимизировать логистику и точнее прогнозировать продажи.

Компании анализируют покупки потребителей, выявляют закономерности, которые позволяют точнее рассчитывать спрос на продукцию. Добавляя к этим данным информацию о самих покупателях, которая есть у розничных компаний, ретейлеры делают клиентам персонализированные предложения. А с помощью геоаналитики розничные компании принимают решение об экспансии в другие регионы и точнее рассчитывают логистические цепочки.

К примеру, внедрение инструментов анализа больших данных крупнейшей в мире сети оптово-розничной торговли Walmart позволило увеличить объем выручки от онлайн-продаж с 10% до 15%. Другой пример использования больших данных в этой сфере - улучшение системы рекомендаций. Так, новая рекомендательная система Amazon, основанная на Big Data, стала генерировать треть выручки компании.

Важность использования Big Data в медицине обусловлена тем, что через систему здравоохранения проходит практически каждый житель Земли, а, значит, данные о нем могут дополнить общую картину и помочь медучреждениям работать более эффективно.

Например, анализ больших данных дает возможность исследовать эффективность лечения и профилактики заболеваний. Кроме того, он позволяет разрабатывать новые методы оздоровления населения, прогнозировать спрос на лекарственные препараты, проводить массовый скрининг с целью предотвращения эпидемий.

Электронные медицинские карты являются одним из основных источников данных реальной клинической практики. Централизованный сбор обезличенных медицинских записей в "озера данных", обработка информации, ее структурирование, анализ и изучение позволяют получить огромное количество ценных данных, необходимых для решения различных задач в области здравоохранения, например, для оценки распространенности заболеваний, проведения исследований, использования данных в качестве доказательной базы.

Аналогично ретейлу в телекоме большие данные позволяют собирать более детальную информацию о потребителях и использовать ее, чтобы улучшать предложения по услугам, разрабатывать новые тарифы и сервисы, прогнозировать продажи и т.д.

Одна из самых интересных и полезных областей применения больших данных в телекоммуникациях - предотвращение фрода. Благодаря технологии машинного обучения операторы способны отслеживать спам-звонки и таким образом ограждать абонентов от навязчивой рекламы.

Телеком-операторы - одни из самых крупных владельцев больших данных, что позволяет им предлагать услуги по анализу и обработке Big Data для компаний из других сфер. Например, МегаФон, как одна из ведущих телекоммуникационных компаний, имеет многолетний опыт работы с Big Data. Благодаря партнерам аналитические инструменты МегаФона анализируют данные 98% населения страны.

Российский рынок Big Data

Gettyimages

В России на сегодняшний день уже есть сформированный рынок больших данных, которому обещают стремительный рост. Так, по информации Ассоциации больших данных (АБД) и Boston Consulting Group, в конце 2019 года объем российского рынка больших данных оценивался в 45 миллиардов рублей с темпом роста 12% в течение последних пяти лет.

В 2018 году была создана профильная ассоциация, которая объединила крупнейших игроков рынка Big Data в России, включая МегаФон, Билайн, МТС, Сбер, VK (ранее Mail.ru Group), "Яндекс" и других. Основная цель ассоциации - создание условий для развития технологий и продуктов в сфере больших данных в России.

Российский рынок больших данных еще достаточно молод, но его потенциал огромен. В 2019 году Ассоциация представила стратегию развития рынка больших данных в нашей стране. В ней собраны предложения по совершенствованию рыночных механизмов и государственного регулирования отрасли.

Согласно расчетам ассоциации, за период с 2019 по 2024 годы накопленный экономический эффект от использования технологий больших данных может составить почти 3 триллиона рублей. Обновленная стратегия развития рынка данных в России будет представлена АБД в конце 2022 – начале 2023 года.