Импутация данных методами статистического моделирования
Аннотация
Дата поступления статьи: 15.04.2023Одной из задач предварительной обработки данных является задача устранения пропусков в данных, т.е. задача импутирования. В работе предложены алгоритмы заполнения пропусков в данных на основе метода статистического имитационного моделирования. Предлагаемые алгоритмы заполнения пропусков включают этапы кластеризации данных по набору признаков, классификации объекта с пропуском, построения функции распределения для признака, имеющего пропуски по каждому кластеру, восстановления пропущенных значений методом обратной функции. Проведены вычислительные эксперименты на основе статистических данных социально-экономических показателей по субъектам РФ за 2022 год. Проведен анализ свойств предлагаемых алгоритмов импутирования в сравнении с известными методами. Показана эффективность предлагаемых алгоритмов.
Ключевые слова: алгоритм импутации, пропуски в данных, статистическое моделирование, метод обратной функции, имитационное моделирование данных
1.2.2 - Математическое моделирование, численные методы и комплексы программ
.