Вопросы и ответы

На точность модели влияют:

чистота данных,
их достаточность,
правильный подбор модели.

Пробовать снова надо. Но обязательно перед этим или поработать дополнительно с данными, почистив их, или накопить исторические данные за более продолжительный период.

За правильность выбора модели отвечают математики. Поэтому если нет своих, то наши высококвалифицированные Data Scientist (аналитики данных) готовы поработать над вашей моделью.

Прогнозные модели Белтел Datanomics, разработанные методами машинного обучения, доступны компаниям среднего и малого бизнеса, так как работают на базе облачных сервисов.

Решения продаются по подписке (модель SaaS) и не требуют капитальных вложений на начальном этапе (например покупки серверов или лицензий).

ПРИМЕР:
продукт для прогнозирования спроса в целях минимизации возвратов хлебобулочной продукции позволяет cэкономить производству 500,000 рублей в месяц, а стоимость этого решения Белтел Datanomics по подписке (SaaS) - меньше 50,000 рублей в месяц.

Можно. Но оптимальнее - комбинированное использование облачной и собственной инфраструктуры:

для обучения арендуются мощности в облаке (например, на несколько часов в месяц),
обученная модель переносится и работает на собственных серверах внутрь закрытой инфраструктуры.

Создание решений на базе искусственного интеллекта (ИИ) имеет стандартные стадии, три из которых активно используют вычислительные мощности:

Обучение модели
Работа обученной модели
Дообучение модели на новых данных

Стадии 1 и 3 требуют максимального быстродействия, использования специализированных GPU ускорителей и т.п. в течение нескольких часов (иногда - дней). Т.е. - мощных серверов.

Для работы уже готовой модели (стадия 2) достаточно стандартных ресурсов (серверов).

Если не использовать "облако", то можно купить
- мощные и дорогие серверы, чтобы обучение модели проходило за приемлемое время, и потом использовать эти серверы на 5% мощности,
или
- стандартные серверы, и обучать модель неделями.

Оба варианта довольно затратны. Поэтому Белтел Datanomics использует комбинированное решение, которое экономит ресурсы заказчиков.

Категория (Назначение)	Ключевые Технологии	Соответствие Требованию
I. Фундамент и Разработка
Языки программирования	Python, SQL, JavaScript	Языки программирования
II. Обработка Данных (Big Data)
Платформы обработки	Apache Spark, Hadoop	Программное обеспечение
Системы управления БД	PostgreSQL, NoSQL решения (например, MongoDB, Cassandra)	Программное обеспечение
III. Машинное Обучение и ИИ
ML-фреймворки	TensorFlow, PyTorch, Scikit-learn	Программное обеспечение
IV. Развертывание и Инфраструктура (MLOps)
Контейнеризация	Docker, Kubernetes	Наборы правил и инструментов
Облачные платформы	Yandex Cloud	Программное обеспечение
V. Визуализация и Отчетность (BI)
Аналитические инструменты	Yandex DataLens	Программное обеспечение

Нашей команде удалось поработать в различных направлениях использования Больших данных.

Например, решение автозаказа для мясоперерабатывающего производства полного цикла, построенное на основе Datanomics Demand Forecast (DDF), приносит производству 150 000 рублей ежемесячно чистого дохода (сокращение расходов за вычетом стоимости подписки).
За счет автоматизации работы был сокращён аналитический отдел, а часть специалистов были переведены на другие задачи.
Решение позволило за счет точных прогнозов оптимизировать допоставки в торговые точки, тем самым увеличив продажи по некоторым позициям на 10%, а затраты по списанию снизить на 6%.

Востребованным в промышленности является компьютерное зрение.
Решение на базе Datanomics Industrial Video Analytics (DIVA) для промышленной аналитики позволяет детектировать вредные выбросы в коксо-химическом производстве и своевременно оповещать ответственный персонал для устранения проблемы, чтобы не нарушать загрязнениями окружающую среду.

Период, за который требуются данные, зависит от поставленной задачи.

Для прогнозирование спроса, где есть ярко выраженная сезонность, нам нужна информация минимум о двух сезонных повторениях, т.е. больше чем за два года.

Для прогнозирование технологического процесса требуемые данные измеряются количествами завершенных процессов и их разнообразием, а не календарным периодом.
Хотя если на технологический процесс влияет, например, температура и влажность окружающей среды, то привязка к календарю тоже будет.

Специалисты Белтел Datanomics имеют опыт написания сложных и объёмных технических заданий для комплексной интеллектуальной системы (то есть для модели, построенной с использованием алгоритмов машинного обучения) и будут рады вам помочь.

Они составят техническое задание с учётом всех требования к сбору и хранению данных, сформулируют критерии оценки результата прогноза, встраивание его в бизнес-процесс.

Мы рекомендуем начинать с оценки приоритетов. Понимания какая задача самая трудоемкая и критичная для бизнеса. Составить рейтинг таких «проблем». Потом оценить наличие данных для решения этой задачи. Если самостоятельно это сделать сложно, специалисты Белтел Datanomics будут рады вас проконсультировать.

При условии наличия качественных данных решение можно развернуть за 4 недели.

В нашей команде работают специалисты из разных областей. Для того, чтобы сделать решение, имеющее ценность для бизнеса, недостаточно уметь только писать код. Нужно понимать бизнес-процессы клиента, вникнуть в проблему и точно сформулировать задачу, оценить качество данных, подобрать правильную модель, найти факторы, влияющие на точность модели, далее интегрировать решение в учетные системы клиента, сделать дружественный интерфейс и визуализацию. Поэтому над этой задачей работают математики (Data Scientist ), программисты-разработчики, специалисты в финансово-операционной сфере, маркетологи, и сертифицированные в той или иной области инженеры и технологи.

Начать можно. Для некоторых задач и этих данных может быть достаточно. Однако если в данных есть какая-либо сезонность или «праздничные» пики, то с их прогнозированием могут возникнуть сложности. Другими словами – количество данных прямо пропорционально качеству (точности) прогноза.

К сожалению, нет. Ценность прогноза в его точности, точность прямо пропорциональна количеству данных. Смешав данные за месяц в одном котле, мы теряем их достаточность. Ценность для бизнеса такое решение иметь не будет.

Вопросы и ответы

Уже построенная для нас прогнозная модель не точна. Почему так получилось? И стоит ли пытаться модель переделывать?

А сколько это стоит? Такие прогнозные модели, наверное, очень дорогие?

Мы не готовы передавать данные в облако. Можно ли развернуть решение на своих серверах?

Какой стек технологий вы используете?

Приведите примеры историй успеха. Кто уже использует ваши решения и как они им помогают?

За какой период нужны данные? Трёх месяцев достаточно?

Если у нас нет специалистов, которые могут сформулировать техническое задание на решение, где их искать?

Продвинутая/предиктивная аналитика - это очень интересно, и мы понимаем, что нам это надо, но не знаем, с чего начать.

Сколько времени потребуется на развертывание решения?

Какие специалисты занимаются разработкой решения и построением модели? Это программисты-разработчики?

Если у меня данные меньше чем за год, можно ли начать что-то прогнозировать?

Вы говорите, что для прогнозирования спроса вам нужны данные о продажах на каждый день за два года. Из нашей системы это долго выгружать. А можно по месяцам?