Аналитическая платформа данных для федерального медицинского центра
Цели и задачи
Для управления ресурсами федерального медицинского центра используется медицинская информационная система, генерирующая данные в БД Cashe и YottaDB. Однако эти базы непригодны для построения аналитических отчетов, поэтому создан ETL-процесс для переноса данных в СУБД MSSQL. Структурная схема ETL-процесса до начала проекта представлена на Рис. 1:
Рис. 1. ETL-процесс до начала проекта
ИТ-инфраструктура и визуализация данных аналитической отчетности до проекта:
- Хранение данных выполнялось на локальных серверах в условиях постоянно увеличивающегося объема данных, требовались дополнительные дорогостоящие и иногда дефицитные вычислительных ресурсы
- Построение аналитических отчетов осуществлялось с использованием решения Microsoft Power BI, которое к моменту начала проекта вендором не поддерживалось, был риск остановки действия лицензии Power BI
- Отсутствовала возможность делать отчеты общедоступными с разграничением прав.
В рамках проекта требовалось:
- Построить аналитическую платформу данных, обеспечивающую сбор, обработку, хранение и анализ широкого спектра данных с различных источников (МИС и др.)
- Обеспечить скорость обмена данными между источниками данных и аналитической платформой до возможности осуществлять аналитику данных в режиме реального времени или приближенно к данному режиму
- Обеспечить гибкий доступ для получения данных с разграничением прав и предоставлением гибкого инструментария построения аналитических отчетов.
Решение
Для достижения поставленных целей было предложено развертывание аналитической платформы с использованием вычислительных и аналитических облачных ресурсов Yandex Cloud.
Предложено на первом этапе разработать и внедрить архитектуру аналитической платформы, которая позволит оптимизировать ETL-процесс. Для обеспечения бесперебойной работы системы отчетности и возможности ее дальнейшего развития выполнить миграцию из Microsoft Power BI в Yandex DataLens, повторив необходимые для медицинского центра отчеты.
Рис. 2. Обновленный ETL-процесс
Решение позволяет:
- Построить аналитическую платформу данных, обеспечивающую сбор, обработку, хранение и анализ широкого спектра данных из различных источников (МИС и др.)
- Осуществить оптимизацию ETL-процесса за счет настройки в YottaDB механизма передачи потока изменений данных. Обработка изменений позволяет увеличить скорость ETL-процесса, исключив таким образом процесс полного пересчета вычисляемых величин по истории с глубиной до одного года
- Обеспечить гибкий доступ для получения данных с разграничением прав и предоставлением гибкого инструментария построения аналитических отчетов
- По требованию оперативно наращивать и масштабировать вычислительные ресурсы, внедрять интеллектуальные сервисы для решения исследовательских задач.
На случай если задача по скорости обмена данными в рамках реализации первого этапа внедрения аналитической платформы не будет удовлетворять требованиям заказчика, предусмотрена возможность доработки платформы до решения прямого взаимодействия МИС с облачными сервисами через сервис Apache Kafka, минуя YottaDB. Это позволит решить вопрос скорости обмена данными между источниками и аналитической платформой для формирования отчетности в режиме реального времени. Основное условие выполнимости данного этапа – возможность реализовать в МИС механизм актуализации данных во внешних БД.
Результат
На базе сервиса визуализации Yandex DataLens разработан дашборд, максимально повторяющий привычные для медицинского учреждения отчеты Microsoft Power BI.
Рис.3. Представление медицинских данных