레이크하우스 아키텍처 파헤치기
“데이터 레이크의 자유로움과 데이터 웨어하우스의 안정성, 둘 다 가질 수 없을까?”
데이터 플랫폼, 왜 이렇게 나뉘었을까?
기존의 데이터 플랫폼 아키텍처는 이렇게 나뉘어 있었습니다:
종류 | 역할 | 장점 | 단점 |
데이터 레이크 (Data Lake) | 다양한 형태의 원시 데이터를 유연하게 저장 | 비용 효율성, 확장성 | 쿼리 성능 낮음, 정합성 미보장 |
데이터 웨어하우스 (DWH) | 정형화된 데이터를 빠르게 분석 | 안정성, 고성능 쿼리 | 스키마 고정, 유연성 부족, 비용 ↑ |
결국 많은 기업들은 이렇게 운영했습니다:
💻 데이터는 S3/HDFS에 저장 →
🧪 일부를 ETL하여 DWH에 적재 →
📊 분석/BI/ML은 DWH 기반으로 수행
문제는 여기서 복잡성과 중복이 발생한다는 점입니다.
데이터는 두 번 저장되고, 관리 대상은 두 배로 늘어나며, DWH 적재에 시간도 비용도 소모됩니다.
이 문제를 근본적으로 해결하고자 등장한 것이 바로 레이크하우스 아키텍처(Lakehouse Architecture)입니다.
레이크하우스란?
레이크하우스는 데이터 레이크의 유연성과 데이터 웨어하우스의 성능/정합성을 하나의 통합된 아키텍처로 결합한 구조입니다.
| 🧠 데이터 레이크 + 🏢 데이터 웨어하우스 = 🌊 레이크하우스 |
즉, 데이터는 데이터 레이크(S3, ADLS, GCS 등)에 저장하지만, 쿼리 성능은 웨어하우스 수준으로 제공되며, AI/ML 워크로드도 같은 저장소에서 바로 수행할 수 있게 됩니다.
✅ 하나의 저장소에서: BI 분석도, ML 훈련도, 대시보드도 수행
✅ 데이터 이동 없음: ETL 줄이기, 일관성 보장
✅ 확장성 + 성능 + 정합성 → 모두 확보
데이터브릭스 레이크하우스의 구성요소
데이터브릭스는 레이크하우스를 다음 세 가지 핵심 구성요소로 구현합니다:
1. 개방형 저장 계층 – Delta Lake
- 오픈소스 스토리지 포맷 (Parquet 기반 + 트랜잭션 로그)
- 주요 기능:
- 🔄 ACID 트랜잭션
- 🧬 스키마 진화 및 검증
- ⏳ 타임 트래블 (버전 기반 조회)
- 🧪 데이터 품질 검증 (Expectations)
💡 기존 데이터 레이크가 ‘쓰기만 가능한 일기장’이었다면, Delta Lake는 ‘읽고 수정 가능한 데이터베이스’입니다.
2. 고성능 컴퓨팅 계층 – Spark + Photon
- Apache Spark: 대규모 분산 처리 엔진 (배치 + 스트리밍 모두 지원)
- Photon: C++ 기반 SQL 실행 엔진 (벡터화 처리로 성능 극대화)
- 기존 Spark 대비 최대 10배 빠른 쿼리 속도
- BI/대시보드/SQL 쿼리 분석에 최적화
✅ 컴퓨팅과 스토리지를 분리하여 필요 시 유연한 확장 가능
✅ 비용 최적화 가능 (스토리지만 늘리거나, 컴퓨팅만 확장)
3. 통합 거버넌스 – Unity Catalog
- 데이터, 테이블, 컬럼, 노트북, 모델까지 모든 자산을 통합 관리
- 주요 기능:
- 🔒 세분화된 권한 관리 (RBAC)
- 🔎 데이터 계보(Lineage) 추적
- 📜 정책 통합 및 감사 로그 기록
- 분석, ML, BI, API 사용까지 모두 일관된 보안 정책 적용 가능
🛡️ “데이터 거버넌스”가 단지 보안 차원을 넘어, 협업과 재사용성을 높이는 기반이 됩니다.
외부와의 안전한 연결 – Delta Sharing
- 외부 파트너, 고객, 부서와 복사 없이 실시간 데이터 공유
- 오픈 프로토콜 기반
- 사용 사례:
- 👉 제휴사에 매일 최신 데이터 공유
- 👉 사내 다른 부서에 분석 결과 테이블 제공
🔗 “복사 없이 공유”, “파일 전송 없이 협업”이 가능한 시대
아키텍처 한눈에 보기
+--------------------+
| BI/AI 사용자 | ← SQL, 노트북, API
+--------------------+
↓
+--------------------+
| Unity Catalog | ← 통합 거버넌스
+--------------------+
↓
+-----------------------------+
| Spark / Photon 엔진 (컴퓨팅) |
+-----------------------------+
↓
+----------------------------+
| Delta Lake (저장소) | ← S3, GCS, ADLS
+----------------------------+
왜 이것이 중요한가?
레이크하우스는 단지 기술적인 아키텍처를 넘어서서, 다음과 같은 비즈니스 가치를 제공합니다:
측면 | 가치 |
💡 인사이트 | 실시간 분석 및 ML 적용 가능성 증가 |
🔄 일관성 | 하나의 저장소, 하나의 진실된 데이터 뷰 |
🧰 생산성 | 분석가/엔지니어/PM 모두 동일 데이터 접근 가능 |
📉 비용 | ETL/복제/라이선스 비용 절감 |
⚙️ 확장성 | 스트리밍/배치/ML/BI 모두 확장성 있게 지원 |
🔐 보안 | 전사 통합 거버넌스로 보안 관리 |
다른 아키텍처와 어떻게 다른가?
아키텍처 | 저장소 | 처리 | 분석 대상 | 확장성 | 데이터 일관성 |
전통 DWH | DWH | OLAP | 정형 데이터 | 제한적 | 좋음 |
Data Lake | S3/HDFS | MapReduce 등 | 모든 데이터 | 좋음 | 낮음 |
레이크하우스 | S3 + Delta | Spark + Photon | 정형 + 반정형 + ML | 우수 | 우수 |
요약: 데이터 레이크와 웨어하우스, 싸우지 말고 통합하자
데이터브릭스의 레이크하우스는 다음과 같은 철학을 중심으로 설계되었습니다:
- ✅ 데이터는 하나의 저장소에 모으자 (Delta Lake)
- ✅ 고성능 분석도, AI도 모두 같은 환경에서 하자 (Spark + Photon)
- ✅ 보안, 권한, 공유는 중앙에서 통합하자 (Unity Catalog)
이는 단지 기술의 진화가 아니라, 조직의 데이터 활용 방식 자체를 바꾸는 혁신입니다.
다음 편 예고: 역할별 데이터브릭스 사용법
레이크하우스 아키텍처 위에서 일하는 사람들은 모두 다릅니다.
데이터 엔지니어, 분석가, PM, 그리고 일반 비즈니스 사용자까지 각자 필요한 기능은 다르죠.
다음 편에서는 역할별로 데이터브릭스를 어떻게 활용할 수 있는지, 어떤 기능을 중점적으로 쓰게 되는지를 사례 중심으로 알아보겠습니다.
다음 글: 6 - 당신의 역할에 맞는 데이터브릭스 활용법
'데이터 과학 (Data Science) > 데이터브릭스' 카테고리의 다른 글
7 - 함께 일하는 방식의 혁신 (0) | 2025.04.03 |
---|---|
6 - 당신의 역할에 맞는 데이터브릭스 활용법 (0) | 2025.04.03 |
4 - AI/ML 개발의 진화 (0) | 2025.04.03 |
3 - 대용량 데이터 처리의 진화 (0) | 2025.04.03 |
2 - 데이터브릭스로 만드는 AI 기반 BI 대시보드 (0) | 2025.04.03 |