Понимание данных
Первый шаг к очистке «грязных» данных –это понимание того, почему они получились такими.
До сих пор, самой большой проблемой в обеспечении точности Big Data является человеческий фактор.
Как бы всё не было автоматизировано и механизировано, работа с большими данными осуществляется прежде всего человеческими руками, а людям свойственно ошибаться.
Ошибки в данных, связанные с человеком, могут иметь множественное происхождение.
Например:
1.Некорректное введение.
Введенные данные не соответствуют допустимым значениям поля.
Например, значение определенного месяца, вероятно будет числом от 1 до 12. Человек случайно может ввести совершенно произвольное значение и исправить эту ошибку можно только с помощью просмотра таблиц и редактирования.
2.Неаккуратное введение.
Значение ввели неаккуратно, непонятно. Система может оценить точное значение таких данных только на основе контекста.
3. С нарушением бизнес правил.
Значение недействительно или введено с нарушением правил бизнеса.
Например, дата вступления договора в силу всегда должна быть указана до даты истечения срока действия договора, а не наоборот.
4. Нестабильность информации.
Значение в одном поле не соответствует значению в поле, которое должно иметь те же данные.
Например, данные об одном и том же клиенте в полях из разных источников не совпадают.
5. Неполная информация.
У данных отсутствуют значения. Например, в записи адреса клиента отсутствует улица.
6. Дубликаты.
Данные появляются более одного раза в системе. Основные причины возникновения дубликатов — повторные представления, неправильное соединение данных из разных источников, ошибки пользователя при занесении информации.
Поэтому, перед использованием имеющихся данных для построения бизнес-модели, необходимо учитывать все факторы и провести ряд упреждающих процедур для повышения качества Big Data:
1. Разработчик может использовать скрипты и средства кодирования для более точного и согласованного объединения данных из разных источников.
2. При загрузке данных можно показать системе , что необходимо удалить дубликаты, отрегулировать регистр, формат даты/времени и учитывать орфографию.
Извлечение, преобразование, загрузка (ETL) — это процессы, известные с 1970-х годов, которые ассимилируют данные из разных источников в единую базу.
Форматы данных, источники и системы значительно расширились со временем и ETL не являются единственными методами, которые используют для сбора, импорта и обработки Big Data , но в любом случае они должны быть важной частью вашей стратегии интеграции данных.