Какие факты полезно учесть при запуске проектов аналитики данных?
Юлия Порохненко, аналитик данных, Beltel Datanomics.
Данные нужно подготовить
Идеальные данные – это утопия, которая может встречаться только в теории. В реальном мире данные никогда не бывают чистыми.
Самые распространенные проблемы, которые могут возникнуть при работе с данными:
- Неполная информация: пропущенные данные и отсутствие разметки, которые появляются при обработке и записи данных из-за ошибок в программном обеспечении, человеческого фактора или при аварийной потере данных.
- Неверные значения параметров: такие данные могут появляться, например, при неисправности датчиков на производстве.
- Аномальные значения: данные, которые не вписываются в обычный сценарий какого-то процесса, например, увеличение продаж на товары первой необходимости из-за ситуации с коронавирусом.
Для обработки большого объёма данных требуются большие вычислительные мощности, при этом не всегда есть необходимость в работе со всей информацией одновременно. Целесообразно делить данные на удобные для работы и понимания таблицы и исключать избыточную информацию.
Для того, чтобы модель достигла желаемой точности и работала эффективно, данные необходимо подготовить: убрать «шумы», заполнить пропущенные значения, выделить наиболее значимые параметры и т.д. Подготовка данных занимает 80% времени в проектах анализа данных и является самым трудоемким и ответственным этапом в разработке.
Аналитика данных – не решение «из коробки»
У каждой компании уникальные данные, свой способ обработки и хранения, комплекс программного обеспечения и т.д. Всё это требует индивидуального подхода.
Существуют общие методы и принципы, которые могут применяться для различных классов задач, но их чаще всего недостаточно для достижения наилучшего результата.
Необходимо принимать во внимание:
- Технические возможности компании: от этого зависит, как будут передаваться данные, архитектура решения, где будет располагаться конечный продукт – в облаке или на серверах.
- Качество данных: влияет на набор алгоритмов для их подготовки.
- Цели и результат: в зависимости от того, какой результат необходимо получить, применяются различные модели и алгоритмы.
Учитывая особенности проекта, можно получить наиболее эффективное решение.
Все модели ошибаются
Существует распространенное заблуждение, что искусственный интеллект – это идеальная модель, которая никогда не ошибается. Однако это не так. Невозможно получить модель машинного обучения, которая работала бы со стопроцентной точностью.
На точность влияет чистота входных данных, количество и значимость учитываемых параметров, выбранный алгоритм машинного обучения и прочие факторы.
Например, спрос на товар зависит от сезона, тренда, наличия промо-акции, дня недели, погоды, маршрута человека с работы до дома и прочего. Но не все признаки можно учесть при прогнозировании спроса, поэтому во внимание принимаются самые значимые. Основное правило – выдерживать баланс между затраченными усилиями на добавление признака и полученным результатом по качеству модели прогнозирования.
Джордж Бокс, британский статистик, писал: «В сущности, все модели неправильны, но некоторые полезны». Любой алгоритм машинного обучения будет ошибаться, задача – свести ошибку к минимуму и сделать решение эффективным.
Бизнес и наука – два разных мира
Это утверждение касается и аналитики данных.
Научный подход – это поиск новых методов, проведение исследований и экспериментов, проверка гипотез и доказательства. Бизнес – это скорость в решении проблемы и эффективный результат.
Именно поэтому при разработке моделей нужно отдавать приоритет максимально возможной точности, которую можно получить за поставленные сроки, и не углубляться в бесконечный анализ и перебор подходов к решению задачи.
В алгоритмах всегда можно делать какие-то улучшения, но при этом необходимо понимать, что этот процесс может затянуться, а клиенту результат нужен уже сейчас.
Заключение
Подготовка данных, индивидуальный подход к задаче, ошибки моделей, сжатые сроки – это некоторые факты в работе специалистов по анализу данных. Знание этих особенностей при запуске проектов анализа данных позволяет заказчику точно оценивать сроки, формулировать достижимый результат, тем самым снижая риски проекта.