Немного больше Прошло десять лет с тех пор, как The Economist предупредил, что мы скоро утонем в данных. Как спасательный жилет от этого потока данных, современный стек данных был создан стартапами Кремниевой долины, такими как Snowflake, Databricks и Confluent.

Любой предприниматель может зарегистрироваться в BigQuery или Snowflake сегодня и получить решение для обработки данных, которое масштабируется вместе с его бизнесом в течение нескольких часов. Резкое увеличение объема данных побудило к разработке гибких и доступных решений для хранения данных, которые можно масштабировать в соответствии с меняющимися потребностями бизнеса.

В настоящее время в мире производится 2,5 квинтиллиона байтов данных в день. Бурный рост объемов данных продолжается в бурные 20-е годы, как с точки зрения генерации, так и хранения - ожидается, что объем хранимых данных будет продолжать удваиваться, по крайней мере, каждые четыре года. Одному из компонентов современной инфраструктуры данных по-прежнему не хватает решений, которые могли бы решить проблемы эпохи больших данных. Это мониторинг и проверка качества данных.

Позвольте мне рассказать вам, как мы дошли до этого момента и что ждет качество данных в будущем.

Дилемма больших данных между объемом и стоимостью

Революционная статья Тима О'Рейли 2005 года «Что такое Web 2.0?» положили начало гонке за большими данными. Роджер Мугалас, компания O'Reilly, ввел термин «большие данные» в его современном контексте. Это относится к большому количеству данных, которые практически невозможно обработать или управлять с помощью традиционных инструментов бизнес-аналитики.

В 2005 году серьезной проблемой было управление большими объемами данных. Инструменты инфраструктуры данных были дорогими и сложными в использовании, а рынок облачных услуг только начинался (AWS не был запущен публично до 2006 года). Во-вторых, скорость: как отмечает Тристан Хэнди из Fishtown Analytics (компания, стоящая за долгами), до запуска Redshift в 2012 году выполнение относительно простого анализа могло занимать невероятно много времени даже с наборами данных среднего размера. Эти две проблемы были решены всей экосистемой инструментов для работы с данными.

Раньше было сложно масштабировать реляционные базы данных или устройства хранилищ данных. Компания, которая хотела понять поведение клиентов, должна была приобрести и установить в стойку серверы, чтобы позволить своим специалистам по данным и инженерам генерировать идеи. Это было всего 10 лет назад. Хранение и прием крупномасштабных данных были непомерно дорогими.

Мы должны убедиться, что большие объемы больших данных имеют достаточно высокое качество, прежде чем их можно будет использовать.

Затем было (Redshift). AWS представила Redshift в октябре 2012 года. Это была облачная и массово-параллельная обработка (MPP), база данных, которую каждый мог использовать за 100 долларов в месяц. Это в 1000 раз меньше, чем при настройке «локальный сервер». Столь значительное падение цен открыло шлюзы, позволяющие каждой компании, независимо от ее размера, хранить и обрабатывать огромные объемы данных и открывать новые возможности.

Хотите арендовать наши услуги? Обратитесь к нашим консультантам!

Как резюмирует Джамин Болл из Altimeter Capital, Redshift имел большое значение, потому что это было первое облачное хранилище OLAP, которое на порядки снизило стоимость владения базой данных OLAP. Кроме того, значительно увеличилась скорость обработки аналитических запросов. Снежинка сделала это первой. Позже они разделили хранилище и вычисления, что позволило клиентам независимо масштабировать свои вычислительные ресурсы и ресурсы хранения.

О чем все это было? Всплеск хранения и сбора данных.

Как обеспечить качество данных в больших данных?

Дилемма больших данных между объемом и стоимостью

☕ Каковы преимущества мобильного приложения для недв...

☕

Читайте также:

Последние записи авторов

Как обеспечить качество данных в больших данных?

Дилемма больших данных между объемом и стоимостью

☕ Каковы преимущества мобильного приложения для недв...

☕

Читайте также:

☕ Ценность AI-Driven: управляемый AI каталог больших данных повлияет на продажи B2B - и он ближе, чем вы думаете

☕ Что большие данные и искусственный интеллект могут предложить для оптимизации управления цепочкой поставок?

☕ 5 способов, которыми технологии будут продолжать преобразовывать нашу повседневную жизнь

☕ Все, что вам нужно знать перед использованием больших данных

☕ Как большие данные делают создание продуктов питания легким и быстрым

Последние записи авторов