Lidt mere Det er et årti siden The Economist advarede om, at vi snart ville drukne i data. Som redningsvest for denne dataflod blev den moderne datastak skabt af Silicon Valley-startups som Snowflake, Databricks og Confluent.
Enhver iværksætter kan tilmelde sig BigQuery eller Snowflake i dag og få en dataløsning, der skaleres med deres forretning inden for få timer. Den massive stigning i datamængden fik udviklingen af fleksible og overkommelige datalagringsløsninger, der kan skaleres med skiftende forretningsbehov.
I øjeblikket producerer verden 2,5 quintillion databyte om dagen. Eksplosionen af data fortsætter i de brølende 20'ere, både hvad angår generation og lagring - mængden af lagrede data forventes at fortsætte med at fordoble mindst hvert fjerde år. En komponent i den moderne datainfrastruktur mangler stadig løsninger, der kan imødekomme Big Data -æraens udfordringer. Dette er overvågning og validering af datakvalitet.
Lad mig fortælle dig, hvordan vi nåede til dette punkt, og hvad fremtiden bringer for datakvalitet.
Big Data's dilemma mellem volumen og værdi
Tim O'Reillys banebrydende artikel fra 2005, "Hvad er Web 2.0?" satte gang i Big Data -løbet. Roger Mougalas, O'Reilly, introducerede udtrykket "Big Data" i sin moderne kontekst. Dette refererer til en stor mængde data, der er næsten umulig at behandle eller administrere ved hjælp af traditionelle BI -værktøjer.
I 2005 var styring af store datamængder en stor udfordring. Datainfrastrukturværktøjer var dyre og vanskelige at bruge, og markedet for cloudtjenester var lige begyndt (AWS blev ikke lanceret offentligt før i 2006). Den anden var hastighed: Som Tristan Handy fra Fishtown Analytics (virksomheden bag gæld) bemærker, at udførelse af relativt enkle analyser kunne være utrolig tidskrævende, selv med mellemstore datasæt, før Redshift blev lanceret i 2012. Disse to spørgsmål er blevet behandlet af et helt dataværktøjsøkosystem.
Det plejede at være vanskeligt at skalere relationelle databaser eller datavarehusapparater. Et firma, der ønskede at forstå kundens adfærd, måtte købe og oprette servere for at give sine dataforskere og ingeniører mulighed for at generere indsigt. Dette var kun 10 år siden. Stor datalagring og indtagelse var uoverkommeligt dyrt.
Vi skal sikre, at store mængder Big Data er af tilstrækkelig høj kvalitet, før de kan bruges.
Derefter var der en (Redshift). AWS introducerede Redshift i oktober 2012. Det var cloud-native og massivt parallel behandling (MPP), en database, som alle kunne bruge til en månedlig pris på $ 100. Dette er 1.000x mindre end opsætningen af "lokal server". Et så stort prisfald åbnede sluserne for at tillade enhver virksomhed, uanset hvor stor eller lille, at gemme og behandle enorme mængder data og låse op for nye muligheder.
Som Jamin Ball fra Altimeter Capital opsummerer, var Redshift en stor ting, fordi det var det første cloud-native OLAP-lager og reducerede omkostningerne ved at eje en OLAP-database med størrelsesordener. Også hastigheden, hvormed analytiske forespørgsler blev behandlet, steg betydeligt. Snowflake var den første til at gøre dette. Senere adskilte de lager og computing, hvilket gjorde det muligt for kunder at skalere deres computer- og lagringsressourcer uafhængigt.
Hvad handlede dette om? En stigning i datalagring og indsamling.