Введение
Аномалии при анализе данных создают помехи и сказываются на достоверности информации. Аналитика экономических данных подразумевает обработку крупного массива данных, полученных путем измерений, опросов или экспертных оценок. Интеллектуальный анализ экономических данных позволяет описывать процессы и явления, создавать модели и прогнозы будущего развития. Экономические модели используются как на микро, так и на макроуровне, позволяют прогнозировать вероятность банкротства, финансовые временные ряды и прочие экономические индикаторы. Результат измерения, существенно выбивающийся из подборки, может серьезно исказить итоговую оценку. Именно поэтому крайне важно различать возможные типы и формы возникновения аномальных элементов для их своевременного обнаружения и нейтрализации.
Цель исследования
Целью исследования является обзор отечественных и зарубежных подходов к классификации аномальных явлений и выбросов на данных, а также оценка применимости существующих классификаций к данным экономического характера.
Материал и методы исследования
В ходе исследования использовались материалы из зарубежных и российских периодических изданий, и монографий, а также общедоступные ресурсы сети Интернет. Для достижения поставленных целей были применены эмпирические и теоретические методы исследования, такие как сбор, изучение и анализ данных, обобщение, сравнение и классифицирование.
Результаты исследования и их обсуждение
Исследованию аномалий и выбросов, возникающих в процессе интеллектуального анализа данных, посвящены работы как российских, так и зарубежных ученых. Причем понимание и противопоставление исследуемых понятий различно. Одни авторы употребляют понятия аномалии и выброса в качестве синонимов, другие разделяют дефиниции. В зарубежной специализированной литературе преимущественно применяется понятие выброс, тогда как подавляющее большинство отечественных исследований посвящены изучению аномалий. В рамках данного исследования данные понятия носят синонимичный характер.
Стоит отметить, что научная база по изучению аномалий и выбросов в экономических данных крайне ограничена. Среди всего многообразия тематических работ лишь единицы посвящены исследованию аномалий в данных экономического характера (Толви Д., 2001; Минтс А., 2017) [7, 10].
На сегодняшний день не существует общепринятой классификации аномальных явлений или выбросов на данных. Наиболее часто в работах отечественных и зарубежных ученых встречается классификация, в рамках которой выделены три типа аномалий: точечные, контекстные и коллективные (Каранжит Сингх, Шучита Упадьяя, 2012; Чандола В., Банерджи А., Кумар В., 2009) [4, 9]. Примеры данной типологии применительно к экономическим данным представлены на рис. 1–3.
В упомянутой классификации аномалии разделены по форме возникновения. Точечная аномалия представляет собой отдельный экземпляр данных, который не вписывается в общую картину и является аномальным по отношению к остальным данным. Точка А (рис. 1), размещенная на совокупности данных о соотношении объема выпускаемой продукции и объема капиталовложений отдельного предприятия, является примером точечной аномалии на экономических данных.
Второй тип – контекстные аномалии также называют условными, так как признак аномальности проявляется только в рамках определенного контекста. В отличие от точечной аномалии, выявление контекстной аномалии обусловлено наличием поведенческих и контекстных атрибутов. В качестве примера данного типа аномалии (точка В) представлены данные о спросе на туристические услуги – численности иностранных туристов на территории города Сочи (рис. 2). Для города Сочи точка В не является аномальной только благодаря наличию контекстных атрибутов, а именно проведение в 2014 году международного мероприятия в регионе. Для любого другого города России подобное значение было бы расценено как аномальное.
Рис. 1. Пример точечной аномалии на экономических данных
Рис. 2. Пример контекстной аномалии на экономических данных
К следующему типу аномалий – коллективным относят совокупности взаимосвязанных данных, являющихся аномальными по отношению ко всему набору данных. Причем, в отдельности каждый элемент коллективной аномалии не является аномальным, лишь их совместное появление рассматривается аномально. Точкой С отмечена коллективная аномалия в наборе данных об объеме продаж определенной марки автомобиля в зависимости от динамики цены (рис. 3). Единичный рост спроса при росте цены не является аномальным, так как может быть обусловлен экономической ситуацией или прочими внешними условиями. А повторение аналогичной ситуации на протяжении трех отчетных периодов является аномальным.
Группа американских ученых под руководством Камбера М. предлагает несколько другой подход к данной классификации, определяя простейшие выбросы (элементы данных, значительно отличающиеся от остальной части набора данных) как глобальные [6].
Кришна Моди дополняет традиционную классификацию, разделяя выбросы на реальные и ошибочные (призрачные) [8]. Реальными автор называет выбросы, которые действительно содержат в себе нетипичную, а возможно и ценную информацию – нечто новое и инновационное. Их устранение полностью стабилизирует информацию, но при этом может стать препятствием при обнаружении уникальной тенденции. Призрачные выбросы при интеллектуальном анализе данных возникают в связи с внутренними проблема или сбоями и заключаются в ошибочном определении той или иной совокупности данных как аномальных.
Наиболее обширная из существующих классификаций представлена в работе Ральфа Фуртуса [5]. Классификация основана на пересечении двух классификационных признаков: тип информации и мощность связи (рис. 4).
Аномалии 1 типа – экстремальных значений подразумевают возникновение чрезвычайно высокого или низкого показателя в совокупности данных. При анализе экономических данных этот вид аномалии встречается достаточно часто, и для его обработки используется показатель стандартного отклонения. Многомерные аномалии зависят от нескольких атрибутов, и для их выявления необходимо проводить совместный анализ как минимум по двум признакам (атрибутам). Всего в классификации представлено 6 видом аномалий.
Одномерный тип связи означает, что аномалия возникает в рамках одного измерения, многомерные выбросы выделяются сразу в нескольких измерениях. Используя исключительно критерий мерности или охвата, можно также разделить выбросы на несколько групп: одномерные, многомерные и категориальные (возникают в отдельных категориях данных) [3].
Рис. 3. Пример коллективной аномалии на экономических данных
Рис. 4. Классификация аномалий Р. Фуртуса
Среди исследований, посвященных изучению аномальных явлений и выбросов непосредственно на экономических данных, следует выделить работу Дж. Толви [10]. Автор рассматривает три типа выбросов на макроэкономических данных, среди них:
1. Аддитивные выбросы – слишком большое или маленькое значение, единожды встреченное в выборке.
2. Выброс временного изменения – выброс, воздействие которого на общую совокупность данных постепенно угасает, и ряд возвращается к обычному уровню.
3. Выброс сдвига уровня – выброс, оказывающий перманентное воздействие на все последующие элементы выборки, то есть приводит к изменению уровня данных.
Рассмотренные выше классификации можно назвать унифицированными и применить как к данным экономического характера, так и к любому другому набору данных. Также выбросы могут быть разделены по силе и продолжительности воздействия, по источнику возникновения и охвату. В таблице представлены существующие классификации выбросов и аномалий на данных с выделением классификационного признака.
Источниками формирования данных экономического характера служат административные и статистические ресурсы, данные внутреннего учета предприятий, экспертные оценки и опросы. Вероятность возникновения ошибки, образующей в дальнейшем аномальное значение в наборе данных, при сборе исходной информации крайне велика. Причем выброс может быть сформирован как искусственным, так и случайным путем. Искусственные выбросы появляются в связи с неверным предоставлением информации, типографическими ошибками, умышленной недостоверностью данных, либо ошибочно сформированной выборкой. Случайные выбросы связаны с выбором конкретного образца данных из выборки. Присутствие любого из данных выбросов может серьезно повлиять на результаты аналитического исследования. Однако стоит отметить, что практические исследования, представленные в литературе, подтверждают существование выбросов, не сказывающихся на общей совокупности данных. К примеру, группа ученых во главе с Алварез Е. при анализе показателей бедности ряда стран пришла к выводу, что наличие выбросов не сказалось на результатах оценки, и после их удаления существенного изменения в данных не произошло. Таким образом, можно разделить выбросы по наличию воздействия на набор данных: искажающие и нейтральные.
Обзор существующий классификаций аномалий и выбросов
Классификационный признак |
Авторы |
Типы аномалий/выбросов |
Форма возникновения |
Чандола В., Банерджи А., Кумар В., Сайн К., Упадьяя Ш., Хан Дж., Камбер М., Пей Дж., Моди К., Оза Б. |
Точечные, контекстные (условные), коллективные (глобальные) |
Сущность выброса |
Моди К., Оза Б. |
Реальные, ошибочные (призрачные) |
Тип информации и мощность связей |
Фуртиус Р. |
Аномалии экстремальных значений, редкого класса, простая аномалия смешанных данных, многомерная числовая аномалия, многомерная редкого класса, многомерная смешанных данных |
Сила воздействия |
Аггарвал С.С. |
Слабый выброс, сильный выброс |
Продолжительность воздействия |
Хуберт М., Руссо П., Сигарт П. |
Изолированные выбросы, постоянные выбросы (сдвиговые, амплитудные и выбросы формы) |
Стадия возникновения |
Браун Г. |
Выбросы в данных опроса, в административных данных, в моделировании |
Источник |
Анскомб Ф.Дж. |
Искусственные, случайные |
Охват |
Богарт З., Роббинс Дж. |
Одномерные, многомерные, категориальные |
Форма влияния |
Толви Дж. |
Аддитивные, временного изменения, сдвига уровня |
Источник: составлено автором на основе [1–10].
Выводы (заключение)
Изучение существующих подходов к классификации аномальных явлений и выбросов позволяет заключить, что большинство классификационных групп носят унифицированный характер. Следовательно, разнообразные типы выбросов могут быть обнаружены в данных любого характера, в том числе экономического. Львиную долю существующей научно-исследовательской базы по изучаемой тематике составляют труды зарубежных ученых. Российский вклад в изучение интеллектуального анализа данных не столь обширен. Также отличительной чертой зарубежных подходов является использование преимущественно понятия выброс, тогда как в российской практике чаще встречается термин аномалия.
В ходе исследования существующие классификации были изучены и сгруппированы по выявленным классификационным признакам. Также, основываясь на проблематике изученных тематических исследований, был выявлен еще один признак дифференциации – наличие воздействия на выборку. И исходя из этого предложена классификация выбросов по двум типам: искажающие совокупность данных и нейтральные по отношению к ней.
Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 19-01-00370.