Data Lake는 데이터웨어 하우스와 어떻게 다릅니 까? 누구에게나 매우 간단한 설명

Data Lake는 데이터웨어 하우스와 어떻게 다릅니 까? 누구에게나 매우 간단한 설명

빅 데이터에 접선 적으로 관여하는 경우 매 순간 생성되는 데이터 볼륨에 대한 스토리지 솔루션을 찾는 것이 가장 중요하다는 것을 알고 있습니다. 데이터 관리와 관련하여 데이터 전문가는 데이터 저장소 또는 정보 레이크를 데이터 저장소로 사용하는 것을 고려할 수 있습니다. 따라서 귀사에 가장 적합한 것이 무엇인지 결정하기 위해 먼저 그들이 무엇인지 정의한 다음 비교해 보겠습니다.

Data Lake 란 무엇입니까?

일부는 데이터 레이크가 데이터웨어 하우스의 2.0 모델 일 뿐이라고 잘못 생각합니다. 비슷하지만 다른 목적으로 사용해야하는 다른 도구입니다. Pentaho의 CTO 인 James Dixon은 데이터 레이크의 아이디어를 명명 한 공로를 인정 받았습니다. 그는 또 다른 비유를 사용합니다.

" 데이터 마트를 단순 소비를 위해 정화 및 포장되고 구조화 된 물 저장소로 생각한다면 데이터 레이크는 자연 상태의 거대한 수역입니다.이 데이터 레이크의 내용은 호수를 채울 수있는 소스와 호수의 다양한 소비자가 샘플을 분석, 다이빙 또는 수용 할 수 있습니다. "

데이터 레이크는 구조화되지 않은 방식으로 데이터를 유지하며 데이터의 개별 부분 중 계층이나 회사가 전혀 없습니다. 데이터를 가장 원시 형태로 유지하며 처리하거나 분석하지 않습니다. 또한 데이터 풀은 모든 데이터 소스에서 모든 데이터를 가져와 유지하고 모든 데이터 유형을 지원하며 데이터를 사용할 준비가 된 경우에만 스키마 (데이터가 데이터베이스에 저장되는 정확한 수단)를 사용합니다.

데이터웨어 하우스 란?

데이터웨어 하우스는 모든 것이 정의 된 방식으로 보관되고 정렬 된 체계적인 방식으로 데이터를 저장합니다. 데이터웨어 하우스를 디자인 한 후 첫 번째 단계에서 데이터 소스를 검사하고 비즈니스 프로세스를 이해하기 위해 상당한 노력이 필요합니다. 웨어 하우스에 포함 및 제외 할 데이터에 대한 결정이 내려집니다. 데이터의 용도가 식별 된 경우에만 데이터가웨어 하우스에로드됩니다.

데이터 레이크와 데이터웨어 하우스는 어떻게 다릅니 까?

데이터

데이터 레이크는 조직화, 반 구조화 및 비정형 / 원시 데이터 등 모든 데이터를 유지합니다. 데이터 레이크의 많은 데이터가 활용되지 않을 수 있습니다. 데이터 연못도 모든 데이터를 유지합니다. 데이터웨어 하우스에는 처리 (순서) 된 데이터와보고에 사용하거나 특정 비즈니스 질문에 대답하는 데 필요한 데이터 만 포함됩니다.

민첩

데이터 레이크에는 구조가 없기 때문에 모델과 쿼리를 조정하는 것이 비교적 간단합니다. 데이터 폰드는 더 유연하며 필요한 작업에 따라 필요에 따라 구성 및 재구성 할 수 있습니다. 연결된 회사 절차의 수로 인해 데이터웨어 하우스의 구성을 수정하는 것은 훨씬 더 어렵고 시간이 많이 걸립니다.

보안

데이터웨어 하우스는 데이터 레이크보다 성숙하기 때문에 데이터웨어 하우스의 보안도 더 성숙해질 수 있습니다. 또한 모든 데이터가 데이터 레이크의 하나의 저장소에 저장되어 데이터를 더욱 취약하게 만드는 문제도 있습니다. 단 하나의 매장 만 관리하므로 감사 및 규정 준수가 더 간단 해집니다.

사용자

데이터 과학자는 일반적으로 심층 조사를 수행 할 수있는 정확한 기술을 보유하고 있으므로 데이터 레이크의 데이터에 액세스하는 개인입니다. 기술적으로 데이터 레이크는 모든 고객을 장려 할 수 있으므로 모두가 사용할 수 있습니다. 데이터웨어 하우스는 특정 중소기업 사용자가 데이터웨어 하우스를 설치할 때 정의 된 데이터에서 특정 중요성을 추출하고보고하는 데 활용됩니다. 일반적으로 데이터에서 새로운 조사를 수집하기 위해웨어 하우스의 경계를 넘어서는 데이터 과학자에게는 너무 제한적입니다.

데이터 레이크와 데이터웨어 하우스는 용도에 따라 서로 다른 도구입니다 . 이미 검증 된 데이터웨어 하우스가있는 경우 데이터웨어 하우스에서 발생하는 몇 가지 제약 사항을 해결하기 위해 정보 레이크를 함께 사용할 수 있습니다. 데이터 레이크 또는 데이터웨어 하우스가 요구 사항에 이상적인지 확인하려면 목표를 달성하는 데 도움이되는 데이터 저장소를 얻고 사용하려는 대상부터 시작해야합니다.