Hvordan adskiller Data Lake sig fra Data Warehouse? En superenkel forklaring for alle

Hvordan adskiller Data Lake sig fra Data Warehouse? En superenkel forklaring for alle

Hvis du endda er tangentielt involveret i big data , er du opmærksom på, at det er yderst vigtigt at finde lagringsløsninger til de datamængder, der oprettes hvert øjeblik. Med hensyn til håndtering af data kan dataprofessionelle se på at ansætte et datalager eller en infosø som et datalager. For at afgøre, hvad der er bedst for din virksomhed, lad os først definere, hvad de er, og derefter sammenligne dem.

Hvad er en Data Lake?

Nogle mener forkert, at en datasø kun er 2.0-modellen til et datalager. Mens de ligner hinanden, er de forskellige værktøjer, der skal bruges til forskellige formål. James Dixon, CTO for Pentaho, krediteres med at navngive ideen om en datasø. Han bruger en anden analogi:

" Hvis du tænker på en datamat som et lager af vand - renset og pakket og struktureret til simpelt forbrug - at datasøen er en enorm vandmasse i en naturlig tilstand. Indholdet af denne datasø strømmer ind fra en kilde til at fylde søen, og forskellige forbrugere af søen kunne komme til at analysere, dykke ned i eller acceptere prøver. "

En datasø opbevarer data på en ustruktureret måde, og der er absolut ikke noget hierarki eller firma en af de enkelte dele af data. Det bevarer data i sin råeste form - det behandles eller analyseres ikke. Derudover tager en datadamme op og opbevarer alle data fra alle datakilder, understøtter alle datatyper og skemaer (nøjagtigt det middel, hvormed dataene lagres i en database) anvendes kun, når dataene er klar til at blive brugt.

Hvad er et datalager?

Et datalager gemmer data på en organiseret måde med alt arkiveret og arrangeret på en defineret måde. Når et datalager er designet, sker der en betydelig indsats i de første faser for at undersøge datakilder og forstå forretningsprocesser. Der træffes beslutninger om, hvilke data der skal medtages og ekskluderes i lageret. Data indlæses kun i lageret, når der er identificeret en brug af dataene.

Hvordan adskiller datasøer og datalagre sig?

Data

Datasøer bevarer alle data - organiserede, semistrukturerede og ustrukturerede / rådata. Det er muligt, at et antal af dataene i en datasø aldrig nogensinde vil blive brugt. Datadamme opbevarer også alle data. Et datalager inkluderer kun data, der behandles (bestilles) og kun de data, der skal bruges til rapportering eller til besvarelse af specifikke forretningsspørgsmål.

Adræthed

Da en datasø mangler struktur, er det relativt simpelt at foretage justeringer af modeller og forespørgsler. Datadamme er mere fleksible og kan konfigureres og omkonfigureres efter behov baseret på det job, du har brug for. Det er meget sværere og tidskrævende at ændre opbygningen af et datalager på grund af antallet af virksomhedsprocedurer, der er knyttet til det.

Sikkerhed

Da datalager er mere modne end datasøer, kan sikkerheden for datalager også være mere moden. Der er også bekymring for, at fordi alle data er gemt i 1 arkiv ved en datasø, hvilket det også skaber dataene mere sårbare. Det gør bestemt revision og overholdelse enklere med kun en butik at administrere.

Brugere

Dataforskere er typisk de personer, der får adgang til dataene i datasøer, da de har det nøjagtige sæt til at foretage en dyb undersøgelse. Teknisk set kan datasøer opmuntre alle kunder og er så tilgængelige for alle. Datavarehuse bruges af specifikke mindre forretningsbrugere til at udtrække og rapportere en særlig betydning fra de data, der blev defineret, da datalageret blev oprettet; de er normalt for restriktive til, at dataforskere, der skal gå ud over lagerets grænser, for at få nye undersøgelser ud fra dataene.

Datasøer og datalager er forskellige værktøjer til forskellige formål . Hvis du allerede har et gennemprøvet datalager, kan du vælge at anvende en infosø sammen med det for at løse nogle af de begrænsninger, du støder på med et datalager. For at fastslå, om det er datasøen eller datalageret er ideelt til dine behov, skal du begynde med det mål, du forsøger at nå og bruge datalageret, som hjælper dig med at nå dit mål.