В России улучшили алгоритмы моделей ИИ для анализа данных из соцсетей
МУРМАНСК, 29 декабря. /ТАСС/. Ученые Кольского научного центра РАН разработали и испытали новый метод интеграции больших языковых моделей (Large Language Models, LLM) искусственного интеллекта для анализа данных из соцсетей. Это позволит сделать шаг к созданию "ответственного ИИ", сообщили ТАСС в Министерстве науки и высшего образования РФ.
"Ученые из Института информатики и математического моделирования Кольского научного центра РАН Андрей Федоров, Игорь Датьев и Иван Вишняков разработали и протестировали новый гибридный метод интеграции LLM в системы мониторинга открытых данных социальных медиа. Метод уже внедрен в созданную авторами систему и может использоваться в региональном управлении, экстренных службах, аналитических центрах или даже в научных проектах, где важна не только скорость обработки информации, но и ее достоверность", - говорится в сообщении.
В Минобрнауки пояснили, что соцсети могут быть надежным источником для изучения общественных настроений, однако стандартные подходы в использовании LLM сталкиваются с тем, что такие модели склонны к генерации правдоподобной, но фактически недостоверной информации.
Ученые в своих разработках предложили три варианта последовательности шагов, на которых LLM взаимодействует с реальными данными: прямой запрос - самый простой, но наименее стабильный. Второй - конвейер с предварительным извлечением ключевых слов, на основе которых формулируются темы. В третьем - кластерном - тексты преобразуются в векторы с помощью LLM, группируются по схожести, а затем каждая группа кластеров обобщается отдельно.
"Эксперименты проводились на двух реальных наборах данных из домовых чатов. Первый подход хорошо показал себя на небольших объемах данных, но страдает от вариативности формулировок и низкой прослеживаемости. Второй обеспечил неплохой баланс между стабильностью и точностью, особенно при средних объемах данных. Кластерный подход показал наилучшие результаты на большом наборе данных: 100% стабильность и 94% прослеживаемости. Это делает его наиболее перспективным для масштабного мониторинга общественных мнений", - отметили в Минобрнауки.
Исследование подтвердило, что эффективность и надежность LLM при мониторинге соцсетей сильно зависят от архитектуры обработки данных. Эффективность показать может только хорошо продуманный гибридный подход, который сочетает в себе классические методы информационного поиска, машинного обучения и генеративного ИИ. "Работа ученых из КНЦ РАН - это не просто техническое улучшение алгоритмов, а важный шаг к созданию "ответственного ИИ", результаты которого можно проверить, понять и доверять им, особенно когда речь идет об анализе общественных настроений - чувствительном и социально значимом процессе", - заключили в Минобрнауки.


