조금 더 이코노미스트가 우리가 곧 데이터에 잠길 것이라고 경고한 지 10년이 되었습니다. 이 데이터 홍수에 대한 구명 조끼로 Snowflake, Databricks 및 Confluent와 같은 실리콘 밸리 신생 기업에서 최신 데이터 스택을 만들었습니다.
모든 기업가는 지금 BigQuery 또는 Snowflake에 가입하고 몇 시간 내에 비즈니스에 맞게 확장되는 데이터 솔루션을 얻을 수 있습니다. 데이터 볼륨의 엄청난 증가는 변화하는 비즈니스 요구 사항에 따라 확장할 수 있는 유연하고 경제적인 데이터 스토리지 솔루션의 개발을 촉발했습니다.
현재 세계는 하루에 2.5퀸틸리언의 데이터 바이트를 생성합니다. 데이터의 폭발적인 증가는 생성과 저장 모두에서 광란의 20년대에도 계속되고 있습니다. 저장된 데이터의 양은 적어도 4년마다 두 배로 계속 증가할 것으로 예상됩니다. 현대 데이터 인프라의 한 구성 요소에는 여전히 빅 데이터 시대의 과제를 해결할 수 있는 솔루션이 부족합니다. 이것은 데이터 품질의 모니터링 및 검증입니다.
우리가 어떻게 이 지경에 이르렀고 데이터 품질에 대한 미래는 무엇인지 말씀드리겠습니다.
빅데이터의 양과 가치 사이의 딜레마
Tim O'Reilly의 획기적인 2005년 기사 "웹 2.0이란 무엇입니까?" 빅 데이터 경쟁을 시작합니다. O'Reilly의 Roger Mougalas는 "빅 데이터"라는 용어를 현대적 맥락에서 소개했습니다. 이는 기존의 BI 도구를 사용하여 처리하거나 관리하는 것이 거의 불가능한 대용량 데이터를 의미합니다.
2005년에는 대량의 데이터를 관리하는 것이 주요 과제였습니다. 데이터 인프라 도구는 비싸고 사용하기 어려웠으며 클라우드 서비스 시장은 이제 막 시작되었습니다(AWS는 2006년까지 공개적으로 출시되지 않았습니다). 다른 하나는 속도였습니다. Fishtown Analytics(채무 관련 회사)의 Tristan Handy는 Redshift가 2012년에 출시되기 전에 비교적 간단한 분석을 수행하는 것은 중간 규모의 데이터 세트에서도 엄청나게 시간이 많이 걸릴 수 있다고 말했습니다. 이 두 가지 문제는 전체 데이터 도구 생태계에서 해결되었습니다.
과거에는 관계형 데이터베이스 또는 데이터 웨어하우스 어플라이언스를 확장하기가 어려웠습니다. 고객 행동을 이해하고자 하는 회사는 데이터 과학자와 엔지니어가 통찰력을 생성할 수 있도록 서버를 구입하고 랙을 설치해야 했습니다. 불과 10년 전의 일입니다. 대규모 데이터 저장 및 수집은 엄청나게 비쌌습니다.
우리는 대량의 빅 데이터가 사용되기 전에 충분히 높은 품질을 보장해야 합니다.
그런 다음 (Redshift)이있었습니다. AWS는 2012년 10월에 Redshift를 도입했습니다. 이는 누구나 월 100달러의 비용으로 사용할 수 있는 클라우드 네이티브 및 대규모 병렬 처리(MPP) 데이터베이스였습니다. 이것은 "로컬-서버" 설정보다 1,000배 적습니다. 이처럼 큰 폭의 가격 하락은 모든 기업이 규모에 관계없이 엄청난 양의 데이터를 저장 및 처리하고 새로운 가능성을 열 수 있도록 수문을 열었습니다.
Altimeter Capital의 Jamin Ball이 요약한 것처럼 Redshift는 최초의 클라우드 네이티브 OLAP 웨어하우스였으며 OLAP 데이터베이스 소유 비용을 크게 줄였기 때문에 큰 문제였습니다. 또한 분석 쿼리를 처리하는 속도가 크게 향상되었습니다. 눈송이는 이것을 처음으로 수행했습니다. 나중에 스토리지와 컴퓨팅을 분리하여 고객이 컴퓨팅 및 스토리지 리소스를 독립적으로 확장할 수 있게 되었습니다.
이게 다 뭐였지? 데이터 저장 및 수집의 급증.