Озеро данных для производства металлопроката
Заказчик – металлургическое предприятие полного цикла производства, в ассортиментную линейку которого входит сортовой металлопрокат качественных марок сталей, поставляемый для нужд различных отраслей промышленности.
Задача
Построить аналитическую платформу для сбора, обработки, хранения и анализа широкого спектра данных из различных источников.
Цели создания озера данных:
- Автоматизировать сбор и хранение данных из различных источников
- Хранить необработанные и обработанные/очищенные данные в едином пространстве
- Исследовать и делать глубокий анализ данных в системе Business Intelligence (далее BI)
- Обеспечить гибкий доступ для получения данных и построения аналитических отчетов.
Источники данных:
- Управленческая база данных «1С: ERP Управление предприятием»
- Технологическая база данных процесса выплавки, разливки и доводки стали
- Технологические данные на серверах ввода/вывода АСУ ТП
- БД КТС АСКУЭ
- Данные видеонаблюдения
- Электронные таблицы в подразделениях
- Документы (в том числе имеющие отношение к производству, а не только внутренние стандарты и постановления)
- Электронная почта (Outlook)
- Информация о кадрах предприятия
- Внешние источники структурированных и неструктурированных данных (биржевые, обзоры рынков, котировки, тендеры и пр., оговоренные в УТЗ).
Решение
Для достижения целей проекта развернута аналитическая платформа с использованием вычислительных и аналитических облачных ресурсов Yandex Cloud. Архитектура аналитической платформы представлена на Рисунке 1.
Рис. 1. Архитектура аналитической платформы
Архитектура включает сервисы и подсистемы:
CDC Client – сервис для захвата изменений в базах данных (Change Data Capture) и отправки их на обработку в другие системы. В предложенной архитектуре сервис отслеживает изменения в БД заказчика, осуществляет актуализацию БД в облаке.
Managed Service for Kafka – сервис для первичного хранения потоковых данных, поступающих из различных источников.
Managed Service for ClickHouse – сервис для хранения структурированных данных и быстрого доступа к ним.
Object Storage – универсальное масштабируемое облачное объектное хранилище. В предложенной архитектуре используется для хранения данных различного типа и форматов в неограниченном объеме.
Virtual Machine (Compute Cloud) – сервис для создания и мониторинга виртуальных машин, на которые можно установить необходимое окружение для анализа данных.
Yandex Data Proc – сервис для обработки многотерабайтных массивов данных с использованием инструментов с открытым исходным кодом, например, Apache Spark™, Apache Hadoop®. Сервис используется для обработки больших данных, получения аналитических отчетов и построения ML моделей.
Yandex DataLens – сервис визуализации и анализа данных. Сервис предоставляется бесплатно,
без ограничений на количество пользователей и запросов.
Результат
В результате внедрения и запуска решения заказчик получил аналитическую систему, построенную на облачных сервисах Yandex Cloud, которая позволяет:
- Осуществлять автоматизированный сбор и хранение структурированных/неструктурированных данных независимо от источника, формата и объема данных
- Гибко использовать различный инструментарий для обработки многотерабайтных массивов данных и внедрять решения для аналитической обработки данных с помощью современных методов анализа и обработки данных AI, ML, и др.
- Осуществлять визуализацию результатов обработки данных из разных источников данных в удобном и наглядном для пользователя виде (таблицы, графики, аналитические дашборды), моделировать производственные, экономические сценарии работы и развития предприятия
- Эффективно использовать, а также по требованию оперативно и гибко наращивать и масштабировать вычислительные ресурсы, внедрять интеллектуальные сервисы для решения производственных задач.
Дальнейшее масштабирование и развитие платформы
В качестве последующего развития аналитической платформы возможны различные решения по исследованию и анализу собираемых данных с целью повышения эффективности производственных процессов, повышению качества выпускаемой продукции, точности планирования и прогноза доходов и расходов.
Ожидаемые результаты работ по развитию аналитической платформы:
- Совершенствование технологии производства и снижение брака
- Улучшение качества планирования, точности прогноза доходов и расходов
- Оптимизация расхода материалов и снижение себестоимости
- Сокращение жизненного цикла продукции
- Увеличение количества прорабатываемых запросов
- Своевременное обеспечение материалами
- Снижение уровня неликвидных остатков.