Какие данные скорее вред, чем польза?
Исследователи разбивают свойства Big Data на четыре, каждое из которых, играет определенную роль в анализе и подтверждает их бизнес-ценность.
Условно свойства Big data определялись четырьмя «V»:
1. VOLUME — масштаб
2. VARIETY — разнообразие
3. VELOCITY — скорость передачи
4. VERACITY — достоверность
В настоящее время упоминается еще «пятый V» больших данных, который играет весьма существенную роль. Это VALUE — стоимость.
Существует много источников данных и сегодня их больше, чем когда-либо.
По сведениям IDC, в 2025 году глобальные данные вырастут до 163 Зетабайт (триллион гигабайт). Это в 10 раз больше, чем 16,1 цетта-байт данных, сгенерированных только в 2016 году.
С появлением новых приложений и процессов каждый день мы будем только увеличивать в своей повседневной жизни число датчиков, систем и устройств для передачи Big Data.
Но не все так гладко, как кажется на первый момент. Не факт, что много данных — это только хорошо.
Рассмотрим случаи, когда имеющиеся данные — это скорее вред, чем польза.
Почему мы должны учитывать такое свойство, как «VALUE» и какие данные значительно влияют на ее определение?
1. В первую очередь, речь идет о грязных данных.
Грязные данные — это неверные, неточные, вводящие в заблуждения, дубликаты, занесенные с нарушением бизнес-процессов, а также с банальными нарушениями пунктуации или правописания.
Причиной возникновения такого вида ошибок является человеческий фактор, связанный с ежедневными рутинными операциями работников, специалистов по сбору данных.
Еще один немаловажный фактор, который влияет на появление грязных данных — критический срок для сбора, когда люди просто делают исправления в ошибках, которые очевидны, на поверхности, не вникая в причину или первоисточник их возникновения.
2. Скрытые или «темные данные»
Большинство компаний имеют темные данные или данные, которые они собирают, обрабатывают и хранят как часть повседневной деловой активности, но не используют для каких-либо значимых исследований и решений. В этих данных есть ценность, но этот потенциал скрыт от глаз.
В первую очередь, такая ситуация может возникнуть в результате несогласованности действий разных отделов компании, например, Data Scientists и IT-отделами.
Задача Data Scientist-ов уметь собирать информацию от разных конечных точек и генерировать ответы на возникающие в результате анализа вопросы.
3. Неструктурированные данные
Иногда данные доступны, но не готовы к использованию.
Их необходимо обогатить, в некотором смысле, сделать их совместимыми с системой, которая должна потребляют данные.
Для подготовки данных для алгоритмов машинного обучения, используется информация автономных систем и все они должны быть структурированы.
Например, тысячи часов видео должны быть разбиты, часто кадр за кадром, в массовом масштабе (подумайте, миллионы кадров!).
Только после этого неструктурированные данные преобразуются в структурированные и используется для создания и обучения моделей машинного обучения.
Сейчас самое время подумать над тем, какие данные имеете вы и как их можно использовать для достижения цели, минимизируя риски, связанные с повышением стоимости данных.