Data/용어정리

[Data] 데이터 마트, 데이터 웨어하우스, 데이터 레이크 개념 정리

장그래 2022. 12. 26. 13:34
반응형

개요

개인적으로 공부하고 있는 빅데이터 용어를 정리하려고 한다.

개념 정리

데이터 레이크 : 데이터 레이크는 구조화되거나 반구조화되거나 구조화되지 않은 대량의 데이터를 저장, 처리, 보호하기 위한 중앙 집중식 저장소입니다. 데이터 레이크는 데이터를 기본 형식으로 저장할 수 있으며, 크기 제한을 무시하고 다양한 데이터를 처리할 수 있습니다.
출처 - 구글 클라우드
데이터 웨어하우스: 데이터 웨어하우스(data warehouse)란 사용자의 의사 결정에 도움을 주기 위하여 기간시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스를 말한다. 줄여서 DW로도 불린다.
출처 - 위키백과
데이터 마트 : 데이터 마트는 (Data Mart, DM)는 데이터 웨어하우스(Data Warehouse, DW) 환경에서 정의된 접근계층으로, 데이터 웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할을 한다.
출처 - 위키백과

데이터 저장소는 크게 3가지로 분류할 수 있다. 아래 그림을 보면 이해가 더 쉬울 것이다.
데이터 레이크는 원시의 데이터 셋을 기본 형식으로 저장한 저장소다. 이러한 데이터셋을 ETL 과정을 통해 만들어진 것이 데이터 웨어하우스에 담긴다. ETL된 데이터 셋은 데이터 분석에 적합한 정규화 된정규화된 모델로 구성이 되어있을 것이다. 이러한 정규화된 모델로 구성되어 있는 데이터 셋을 특정 부서와 같은 작은 단위의 분석 할 때 사용하는 것이 데이터 마트이다.

출처 : https://medium.com/@david.alvares.62/datalake-datawarehouse-datamart-with-bigquery-32f6c3735a9d

 

반응형