МОСКВА, 17 августа. /ТАСС/. Автоматизированная система "Окулус", которая будет заниматься выявлением признаков запрещенного контента в сети, может появиться в России уже к декабрю. При этом самостоятельно искать информацию система не будет, сообщил ТАСС в среду директор по цифровым технологиям подведомственного Роскомнадзору ФГУП "Главный радиочастотный центр" (ГРЧЦ) Константин Буланов.
"Работы по созданию системы начнутся с даты подписания договора. Окончание работ - не позднее 12 декабря 2022 года, к этому времени система должна заработать. На создание системы выделено 57,7 млн рублей", - рассказал он.
"Окулус" будет анализировать изображения и кадры видеоматериалов на наличие запрещенной символики - графики, логотипов, флагов, монет запрещенных организаций и другого. Согласно техническому заданию, которое есть в распоряжении ТАСС, в системе также планируют реализовать распознавание текстовой информации на изображениях и кадрах видеоматериалов, включая расшифровку QR-кодов, переписки в чатах и каналах мессенджеров, надписей, URL-адресов, субтитров и другого. Далее результат будет передаваться во внешнюю систему для выявления признаков нарушений.
При этом самостоятельно искать и собирать информацию в интернете система не будет. "Для мониторинга онлайн-СМИ и средств массовой коммуникации предназначены другие информационные системы, которые уже работают в составе Единого модуля анализа (ЕМА). "Окулус" также интегрируют в ЕМА. Данные из мониторинговых систем будут загружаться в "Окулус" автоматически. Новая система даст оценку того, есть ли в материале признаки запрещенной законом информации. Далее, при выявлении таких признаков, автоматический отчет направится операторам для экспертного подтверждения и принятия дальнейших решений", - пояснил Буланов.
По плану система будет анализировать не менее 200 тыс. изображений в сутки, на анализ одного изображения должно уходить не более 3 секунд. Также допускается пакетная обработка с пропорциональным увеличением времени.
Среди нарушений, которые попали в приоритетный перечень для выявления, указаны изображения и видео с признаками экстремизма, призывы к массовым беспорядкам и противоправны действиям, оскорбление общества, государства, официальных государственных символов, конституции или госорганов, призывы к суицидам, информация о способах, методах разработки, изготовления и использования, местах приобретения наркотиков, а также пропаганда нетрадиционных сексуальных отношений среди детей и демонстрация табачной продукции.
Для обучения системы будут специально сформированы наборы данных по каждому из пунктов перечня. В них войдут не менее тысячи изображений по каждому типу нарушений. Кроме того, должно быть сформировано не менее 100 наборов данных для обучения модели распознавания лиц, так как "Окулус" предстоит распознавать сцены, действия и персоналии.
Как ранее Буланов сообщал "Коммерсантъ", для стабильной работы системы понадобится не менее 48 серверов, которые будут оснащены высокопроизводительными графическими ускорителями. Поиск запрещенного контента будет осуществляться благодаря нейронным сетям, работающим на основе глубокого машинного обучения.
Запрещенный контент в сети
Только за второй квартал 2022 года на основании решений судов РФ было заблокировано 5 268 материалов, содержавших ЛГБТ-пропаганду, сообщали ранее в Роскомнадзоре. Также ведомство заблокировало почти 7 тыс. ресурсов с детской порнографией, более 13 тыс. сайтов, распространяющих сведения о местах приобретения или культивирования наркотических средств, более тысячи с призывами к самоубийствам, почти 23 тыс. с информацией о способах и местах проведения азартных игр, а также 1,5 тыс. ресурсов, рассказывавших о местах дистанционной продажи алкоголя. Новая система должна помочь увеличить возможности мониторинговых систем.
В вопросе выявления и удаления опасного контента важна оперативность, чтобы минимизировать количество интернет-пользователей, получивших к ней доступ, сообщали ТАСС в ведомстве. С учетом современных технологических вызовов, таких как треш-стримы, скорость в этом вопросе также помогает предотвращать правонарушения, которые могут происходить в реальном времени.