Блог Reshape Analytics

Что такое Data drift и чем он опасен для бизнеса?


Максимально точный прогноз очень важен для любого бизнеса, и его нужно стараться улучшать с течением времени. Сделать это непросто, но к этому нужно стремиться. Однако бывает такое, что прогноз в компании с течением времени не улучшается, а ухудшается, причем настолько, что приводит к критическим ситуациям — совершенно неточным прогнозам и, соответственно, принятию неверных и необоснованных управленческих решений. В условиях кризиса — это может быть очень опасно для бизнеса. Зачастую это происходит из-за так называемого Data drift — дрейфа данных. Что это такое и почему это происходит в компаниях, как распознать и предотвратить проблемы?



Что такое дрейф данных


Начнем с того, что все потенциальные проблемы с системами, которые занимаются моделированием и прогнозированием, делятся на два типа: статистические и инфраструктурные.
С инфраструктурными проблемами все понятно — это связано с вычислительными ресурсами и памятью (хватает ли?), задержкой (быстро ли реагирует система?), пропускной способностью (успеваем ли мы обработать все входящие запросы?) и так далее.
Со статистическими проблемами все сложнее. К ним как раз относится дрейф данных.

Вообще, прогностические модели строятся таким образом, что сначала изучаются закономерности в обучающих данных, а затем эти закономерности используются для прогнозирования целевых значений для новых данных.
В этом процессе используются два набора данных: данные обучения и данные вывода или Serving Data. Модель будет хорошо работать (т.е. давать точные прогнозы в соответствии с ожиданиями), когда новые данные вывода будут аналогичны данным обучения. Однако когда эти два набора данных отличаются, наша модель может стать менее точной и привести к неожиданным результатам.

Иными словами, дрейф данных — это сдвиг в распределении входных признаков между обучающими данными и Serving Data. Когда данные обучения и данные на выходе изменяются с течением времени настолько, что модель теряет способность предсказывать, говорят, что данные дрейфуют.


Почему происходит дрейф данных


Он может происходить по разным причинам:

  • сбит процесс сбора данных (система сбора данных вышла из строя, идет обновление софта и т. д.);
  • возникли проблемы с качеством данных (данные от людей меняются с изменением демографии, приходом новой моды, экономическим кризисом и т. д.).

На втором пункте остановимся подробнее. Нестабильная экономическая ситуация значительно влияет почти на все сферы жизни общества и бизнеса. Меняется потребительское поведение, производственные и логистические цепочки, закупочные цены, доступность огромного количества товаров и услуг и даже состав конкурентов на рынке. Конечно, все это сказывается на качестве многих моделей машинного обучения, поскольку они были обучены на исторических данных, которые уже не актуальны. В результате данные, на которых модель обучали, не соответствуют данным, приходящим в модель во время работы. Все это негативно влияет на метрики модели и, соответственно, результаты прогнозирования.


Как обнаружить дрейфы


Чтобы вовремя обнаружить дрейфы, нужно проводить постоянный мониторинг входных данных, предсказаний модели, а также истинных значений целевого признака во входных данных. Делать это необходимо как на тренировочных данных, так и на обслуживаемых моделью новых данных.

Дрейф данных можно вычислить, если сравнить распределение входных признаков в обучающей выборке и в новых поступающих данных. Поскольку данные чаще всего поступают в систему непрерывно, заниматься мониторингом и сравнением нужно регулярно, желательно максимально автоматизировать этот процесс.



Мы — команда Reshape Analytics — имеем многолетний опыт работы с данными и можем помочь вам в принятии оптимальных решений на основе продвинутой аналитике, а также выявлении проблемных мест вашего бизнеса и поиска их решений. Оставляйте заявку на бесплатную консультацию, где мы ответим на все интересующие вас вопросы и подробно разберем особенности вашего проекта.
2022-12-25 14:00