Методика и фреймворк конструирования лингвистических моделей для сетевого мониторинга
Аннотация
Дата поступления статьи: 25.11.2015Высочайшая динамика процессов проявления экстремизма задает темп развитию методологии и программного инструментария, способных в режиме реального времени отслеживать распространение информации, в том числе, в социальных сетях, анализировать ее смыслы и посылы и строить прогностические модели развития ситуаций. Представлена методика умного конструирования лингвистических моделей, которые способны учитывать контекст и гибко адаптироваться под предметную область для анализа текстов в социальных сетях в рамках прикладной задачи упреждения информационно-управляемых угроз на основе технологий Data Mining . Выделены основные недостатки использования простого инжиниринга атрибутов (feature engineering) и метода «мешок слов» (bag of words) в задачах классификации текстов. Описан программный интерфейс и возможности фреймворка, в котором эта методика применяется и показано, как данный фреймворк может использоваться для решения задач бизнеса и государства в процессе сбора и анализа публикаций в сети Интернет.
Ключевые слова: обработка естественного языка, лингвистическая модель, машинное обучение, feature engineering, фреймворк обработки текста, классификация текстов, конструктор языковых моделей, morphology analysis
05.13.01 - Системный анализ, управление и обработка информации (по отраслям)
05.13.18 - Математическое моделирование, численные методы и комплексы программ