Как обеспечить качество данных в больших данных?

Как обеспечить качество данных в больших данных?

Немного больше Прошло десять лет с тех пор, как The Economist предупредил, что мы скоро утонем в данных. Как спасательный жилет от этого потока данных, современный стек данных был создан стартапами Кремниевой долины, такими как Snowflake, Databricks и Confluent.

Любой предприниматель может зарегистрироваться в BigQuery или Snowflake сегодня и получить решение для обработки данных, которое масштабируется вместе с его бизнесом в течение нескольких часов. Резкое увеличение объема данных побудило к разработке гибких и доступных решений для хранения данных, которые можно масштабировать в соответствии с меняющимися потребностями бизнеса.

В настоящее время в мире производится 2,5 квинтиллиона байтов данных в день. Бурный рост объемов данных продолжается в бурные 20-е годы, как с точки зрения генерации, так и хранения - ожидается, что объем хранимых данных будет продолжать удваиваться, по крайней мере, каждые четыре года. Одному из компонентов современной инфраструктуры данных по-прежнему не хватает решений, которые могли бы решить проблемы эпохи больших данных. Это мониторинг и проверка качества данных.

Позвольте мне рассказать вам, как мы дошли до этого момента и что ждет качество данных в будущем.

Дилемма больших данных между объемом и стоимостью

Революционная статья Тима О'Рейли 2005 года «Что такое Web 2.0?» положили начало гонке за большими данными. Роджер Мугалас, компания O'Reilly, ввел термин «большие данные» в его современном контексте. Это относится к большому количеству данных, которые практически невозможно обработать или управлять с помощью традиционных инструментов бизнес-аналитики.

В 2005 году серьезной проблемой было управление большими объемами данных. Инструменты инфраструктуры данных были дорогими и сложными в использовании, а рынок облачных услуг только начинался (AWS не был запущен публично до 2006 года). Во-вторых, скорость: как отмечает Тристан Хэнди из Fishtown Analytics (компания, стоящая за долгами), до запуска Redshift в 2012 году выполнение относительно простого анализа могло занимать невероятно много времени даже с наборами данных среднего размера. Эти две проблемы были решены всей экосистемой инструментов для работы с данными.

Раньше было сложно масштабировать реляционные базы данных или устройства хранилищ данных. Компания, которая хотела понять поведение клиентов, должна была приобрести и установить в стойку серверы, чтобы позволить своим специалистам по данным и инженерам генерировать идеи. Это было всего 10 лет назад. Хранение и прием крупномасштабных данных были непомерно дорогими.

Мы должны убедиться, что большие объемы больших данных имеют достаточно высокое качество, прежде чем их можно будет использовать.

Затем было (Redshift). AWS представила Redshift в октябре 2012 года. Это была облачная и массово-параллельная обработка (MPP), база данных, которую каждый мог использовать за 100 долларов в месяц. Это в 1000 раз меньше, чем при настройке «локальный сервер». Столь значительное падение цен открыло шлюзы, позволяющие каждой компании, независимо от ее размера, хранить и обрабатывать огромные объемы данных и открывать новые возможности.

Хотите арендовать наши услуги? Обратитесь к нашим консультантам!

Как резюмирует Джамин Болл из Altimeter Capital, Redshift имел большое значение, потому что это было первое облачное хранилище OLAP, которое на порядки снизило стоимость владения базой данных OLAP. Кроме того, значительно увеличилась скорость обработки аналитических запросов. Снежинка сделала это первой. Позже они разделили хранилище и вычисления, что позволило клиентам независимо масштабировать свои вычислительные ресурсы и ресурсы хранения.

О чем все это было? Всплеск хранения и сбора данных.