Принципы создания датасета для систем компьютерного зрения в ритейле
Юлия Порохненко, аналитик данных, Beltel Datanomics.
Датасет – это данные, которые необходимы для обучения нейронных сетей. Разметка изображений – неотъемлемая часть разработки систем искусственного интеллекта и одна из основных задач в технологии компьютерного зрения.
Сегодня готового универсального датасета для цифрового мерчандайзинга не существует, поэтому перед ритейлерами встаёт вопрос: выполнить разметку на стороне поставщика решения или собрать данные самому. Наличие собственного размеченного датасета кроме экономии бюджета позволяет свободно выбирать исполнителя: с датасетом можно устраивать хакатоны, тендеры и определить лучшие модели распознавания или готовые продукты.
Этапы подготовки датасета
1. Сбор фотографий
Основные требования к фотографиям:
- фотографии должны быть хорошего качества, сделанные при достаточном освещении;
- снимать полку необходимо фронтально, захватывая как можно большую площадь, по возможности объекты на полке не должны быть обрезаны;
- чем больше фотографий будет приходиться на каждый SKU, тем лучше;
- минимальное количество фотографий – 200 изображений на один SKU.
2. Разметка фотографий
Разметка данных – самый трудоемкий этап в разработке решений в области компьютерного зрения. На этом шаге каждому объекту на изображении ставится в соответствие метка, обозначающая SKU, к которому и принадлежит этот объект. Аннотированные изображения нужны в качестве входных данных для обучения нейронных сетей.
Существует ряд готовых решений для разметки фотографий: ImageTagger, LabelImg, Lionbridge AI, TrainingData.io, Hive, Scale, Supervise.ly. Некоторые из них, например, ImageTagger и LabelImg, бесплатные, руководства по их установке и использованию можно найти на GitHub. Стоимость использования платных сервисов зависит от количества фотографий, SKU и аннотаций. Подробную информацию можно узнать на официальных сайтах.
Прежде чем приступить к разметке, данные необходимо структурировать. Фотографии можно распределить согласно заданной логике, например, каждая планограмма будет размещаться в свою папку. Так будет проще ориентироваться в данных и искать изображения.
Необходимо составить список меток. Для этого можно использовать справочник актуальных SKU, которые есть в магазине, или товаров определенного поставщика.
Название меток должно быть однозначно интерпретируемым, то есть соответствовать только одному SKU. Если метка называется, например, «газированная вода в бутылке», то невозможно наверняка определить, о каком именно артикуле идёт речь.
После того, как список сформирован, можно приступать к разметке фотографии: выделение объекта на фотографии в рамку. Это может быть прямоугольник, полигон, параллелепипед. Стороны рамки должны плотно прилегать к границам объекта.
На этапе разметки фотографий стоит учитывать, что эту задачу могут выполнять несколько сотрудников, у каждого из которых своё представление о правильности аннотирования, поэтому рекомендуем выпустить инструкцию, в которой будут однозначно регламентированы правила.
Результат разметки – это набор данных, который содержит информацию о названии фотографии, её размерах, метки и координаты границ всех объектов.
Заключение
На рынке существует много сервисов для аннотации изображений, в том числе бесплатных. Кроме того, некоторые компании, занимающиеся разработкой продуктов в области компьютерного зрения, предлагают собственные системы.
Сбор данных и разметка фотографий – необходимый этап для проектов цифрового мерчандайзинга. Качественно подготовленные материалы – залог успешного обучения нейросети, а значит и эффективности полученного решения.
Материал подготовлен специалистами Beltel Datanomics для New Retail