01.06.2020

Какие факты полезно учесть при запуске проектов аналитики данных?

Юлия Порохненко, аналитик данных, Beltel Datanomics.

Данные нужно подготовить

Идеальные данные – это утопия, которая может встречаться только в теории. В реальном мире данные никогда не бывают чистыми.

Самые распространенные проблемы, которые могут возникнуть при работе с данными:

  • Неполная информация: пропущенные данные и отсутствие разметки, которые появляются при обработке и записи данных из-за ошибок в программном обеспечении, человеческого фактора или при аварийной потере данных.
  • Неверные значения параметров: такие данные могут появляться, например, при неисправности датчиков на производстве.
  • Аномальные значения: данные, которые не вписываются в обычный сценарий какого-то процесса, например, увеличение продаж на товары первой необходимости из-за ситуации с коронавирусом.

Для обработки большого объёма данных требуются большие вычислительные мощности, при этом не всегда есть необходимость в работе со всей информацией одновременно. Целесообразно делить данные на удобные для работы и понимания таблицы и исключать избыточную информацию.

Для того, чтобы модель достигла желаемой точности и работала эффективно, данные необходимо подготовить: убрать «шумы», заполнить пропущенные значения, выделить наиболее значимые параметры и т.д. Подготовка данных занимает 80% времени в проектах анализа данных и является самым трудоемким и ответственным этапом в разработке.

Аналитика данных – не решение «из коробки»

У каждой компании уникальные данные, свой способ обработки и хранения, комплекс программного обеспечения и т.д. Всё это требует индивидуального подхода.

Существуют общие методы и принципы, которые могут применяться для различных классов задач, но их чаще всего недостаточно для достижения наилучшего результата.

Необходимо принимать во внимание:

  • Технические возможности компании: от этого зависит, как будут передаваться данные, архитектура решения, где будет располагаться конечный продукт – в облаке или на серверах.
  • Качество данных: влияет на набор алгоритмов для их подготовки.
  • Цели и результат: в зависимости от того, какой результат необходимо получить, применяются различные модели и алгоритмы.

Учитывая особенности проекта, можно получить наиболее эффективное решение.

Все модели ошибаются

Существует распространенное заблуждение, что искусственный интеллект – это идеальная модель, которая никогда не ошибается. Однако это не так. Невозможно получить модель машинного обучения, которая работала бы со стопроцентной точностью.

На точность влияет чистота входных данных, количество и значимость учитываемых параметров, выбранный алгоритм машинного обучения и прочие факторы.

Например, спрос на товар зависит от сезона, тренда, наличия промо-акции, дня недели, погоды, маршрута человека с работы до дома и прочего. Но не все признаки можно учесть при прогнозировании спроса, поэтому во внимание принимаются самые значимые. Основное правило – выдерживать баланс между затраченными усилиями на добавление признака и полученным результатом по качеству модели прогнозирования.

Джордж Бокс, британский статистик, писал: «В сущности, все модели неправильны, но некоторые полезны». Любой алгоритм машинного обучения будет ошибаться, задача – свести ошибку к минимуму и сделать решение эффективным.

Бизнес и наука – два разных мира 

Это утверждение касается и аналитики данных.

Научный подход – это поиск новых методов, проведение исследований и экспериментов, проверка гипотез и доказательства. Бизнес – это скорость в решении проблемы и эффективный результат.

Именно поэтому при разработке моделей нужно отдавать приоритет максимально возможной точности, которую можно получить за поставленные сроки, и не углубляться в бесконечный анализ и перебор подходов к решению задачи.

В алгоритмах всегда можно делать какие-то улучшения, но при этом необходимо понимать, что этот процесс может затянуться, а клиенту результат нужен уже сейчас.

Заключение

Подготовка данных, индивидуальный подход к задаче, ошибки моделей, сжатые сроки – это некоторые факты в работе специалистов по анализу данных. Знание этих особенностей при запуске проектов анализа данных позволяет заказчику точно оценивать сроки, формулировать достижимый результат, тем самым снижая риски проекта.

Оставьте заявку и получите бюджет и план внедрения наших решений в ваш бизнес

    Заполняя форму, Вы соглашаетесь с правилами обработки персональных данных.

    Мы используем файлы cookies, чтобы получать статистику и делать наш сайт и другие сервисы удобными для вас. Продолжая дальнейшее использование сайта и/или его сервисов, вы соглашаетесь с этим. Более подробную информацию можно прочитать в «Политика обработки персональных данных» и в «Политика Cookies»