' 2025 데이터 아키텍처의 진화와 트렌드: DW에서 AI-Ready 레이크하우스까지
본문 바로가기
카테고리 없음

2025 데이터 아키텍처의 진화와 트렌드: DW에서 AI-Ready 레이크하우스까지

by havanabrown 2025. 8. 17.

빅데이터 플랫폼 관련 사진

📊 1. 빅데이터 플랫폼의 진화

지난 10여 년간 데이터 플랫폼은 **데이터 웨어하우스(DW)**에서 시작해, 데이터 레이크, 그리고 최근에는 레이크하우스로 진화해 왔습니다.
기존 DW는 정형 데이터 중심이라 반정형·비정형 데이터를 다루기 어려웠고, 머신러닝이나 AI 워크로드에는 한계가 있었습니다. 이에 따라 데이터 레이크가 등장해 다양한 형태의 데이터를 수용할 수 있게 되었죠. 하지만 데이터 레이크는 관리·거버넌스 측면에서 불편함이 많아, 결국 ACID 트랜잭션을 지원하는 오픈 테이블 포맷 기반의 레이크하우스가 업계 표준으로 자리잡고 있습니다

 

✅ 데이터 웨어하우스 → 데이터 레이크 → 레이크하우스

  • 정형 위주 DW에서 반정형/비정형 + ML 대응을 위한 데이터 레이크로 확장
  • 레이크하우스: 오브젝트 스토리지 + 오픈 테이블 포맷 + ACID 트랜잭션

🧠 주요 의사결정 포인트:

  • 데이터 저장 포맷: Parquet/ORC vs Delta/Iceberg/Hudi
  • 쿼리 엔진: Spark, Trino, DuckDB, Polars 등 병렬 지원
  • 배치/스트리밍 통합 여부
  • AI·ML 워크로드와 연결 가능 여부  (Feature Store, Vector Database 등)

 

✅ 오픈 테이블 포맷의 중요성 확대

최근에는 Iceberg, Delta Lake, Hudi가 가장 많이 비교·검토되는 테이블 포맷입니다.

  • Iceberg: 계층형 메타데이터 구조와 멀티엔진 호환성 덕분에 Spark, Trino, Flink에서 안정적으로 활용
  • Delta Lake: Databricks 생태계와 긴밀히 통합되어 있고, UniForm 기능을 통해 Iceberg와도 호환성을 강화
  • Hudi: 증분 처리와 Spark 기반 워크로드에 강점

 

⚙️ 운영 고려사항

레이크하우스 환경을 안정적으로 운영하기 위해서는 단순히 저장소와 엔진만 고르는 게 아니고 아래와 같은 운영 요소가 필수적입니다.

  • Optimistic Concurrency Control
  • ACID 일관성 유지 전략
  • 메타데이터 카탈로그 관리

이 부분이 부족하면 레이크하우스가 오히려 “데이터 스왐프(Data Swamp)”로 전락할 수 있습니다.

 

✅ Data Mesh 개념 부상

데이터 플랫폼 병목을 풀기 위한 새로운 패러다임으로 **데이터 메쉬(Data Mesh)**가 주목받고 있습니다.
중앙 집중형 ETL 대신, 각 도메인 팀이 데이터를 직접 소유하고 관리합니다. 이렇게 하면 데이터는 “팀이 제공하는 하나의 제품”이 되며, 표준화된 **데이터 계약(Data Contract)**과 리니지 추적이 함께 운영됩니다

  • 중앙 집중형 ETL 병목 해소 → 도메인 기반 소유권으로 전환
  • Mesh 4대 원칙: 도메인 지향 / 데이터 제품화 / 셀프서비스 플랫폼 / 연합 거버넌스

⚠️ 실무 유의사항:

  • 조직 문화 및 구조 전환 선행 필요
  • 데이터 계약, 메타데이터 표준화, 리니지 추적 병행

 

✅ 클라우드 네이티브 기반 설계

오늘날 대부분의 데이터 플랫폼은 클라우드 네이티브 환경에서 돌아갑니다.

  • Kubeflow, Argo, Airflow on K8s 등의 워크플로우 엔진이 널리 쓰임
  • Iceberg + Spark/Trino/Flink 조합은 사실상 표준 아키텍처로 자리잡고 있음
  • FinOps(비용최적화), Policy-as-Code, Observability는 데이터 엔지니어링의 핵심 운영 포인트가 되었음

 


 

🔮 2. 2024–2025 최신 트렌드 및 아키텍처 패턴

 

🚀 레이크하우스 + AI 활용 가속화

과거에는 DW와 레이크하우스의 장단점을 두고 논쟁이 있었다면, 이제는 **“레이크하우스 위에 AI와 실시간 처리를 어떻게 결합할 것인가”**가 핵심 화두가 되고 있습니다. 업계 리포트에 따르면 2025년 기준 전체 분석 워크로드의 절반 이상이 레이크하우스에서 처리되고 있으며, 기업 데이터 활용의 85%가 AI 개발 목적과 연결되어 있습니다. 이는 단순한 분석 플랫폼을 넘어, AI-Ready 데이터 플랫폼으로의 전환이 가속화되고 있음을 보여줍니다.

  • 레이크하우스 기반 분석: 전체의 55% 이상
  • AI 개발 목적 활용: 85% 도달
  • Feature Store, Stream Procssing, GPU 최적화 고려

 

⚡ 데이터 속도·품질·민첩성 중심 전환

실시간 데이터 처리에 대한 수요도 빠르게 커지고 있습니다. 전통적인 배치 처리 중심에서 벗어나, Kafka + Flink 조합을 통한 실시간 스트리밍 파이프라인이 대세로 자리 잡았습니다. 이와 함께 Apache Pinot, Druid, Paimon 같은 스트리밍 레이크하우스 기술이 부상하며, 초저지연 분석 환경을 가능하게 하고 있습니다

  • Kafka + Flink 실시간 파이프라인 조합
  • Apache Druid/Pinot, Paimon 등 스트리밍 레이크하우스 확대
  • Monte Carlo, Databand + OpenLineage 기반 데이터 관찰성 도입

 

🌐 오픈소스 생태계 확장 및 상용화 경계 재편

또 하나 주목할 점은 오픈소스 생태계와 상용 플랫폼 간 경계가 흐려지고 있다는 것입니다. Delta, Iceberg, Hudi 같은 오픈 테이블 포맷은 UniForm, OneTable 등의 시도로 상호운용성을 넓혀가고 있으며, DataHub, Amundsen 같은 메타데이터 플랫폼, dbt 기반 Semantic Layer도 함께 확장되고 있습니다. 반면 일부 벤더는 BSL/SSPL 같은 라이선스 변경으로 생태계를 재편하려 하고 있어, 기술 선택 시 고려가 필요합니다.

  • Delta/Iceberg/Hudi 간 상호운용성 확대 (UniForm, OneTable)
  • Semantic Layer (dbt), DataHub/Amundsen 메타데이터 플랫폼 확장
  • Confluent 등 BSL/SSPL 라이선스 변경 이슈로 기술 재검토 필요

 

🔗 폴리글랏 기반 아키텍처 부상

폴리글랏 아키텍처의 확산도 눈에 띕니다. 단일 DB나 단일 스토리지로 모든 문제를 해결하던 시대는 끝났습니다. 기업들은 Graph DB, NoSQL, VectorDB, Object Storage를 조합하여 다양한 워크로드를 최적화하고 있으며, 특히 IoT와 실시간 분석 환경에서 활발히 활용되고 있습니다. 

  • 다양한 저장/처리 기술 혼합: Graph DB + NoSQL + VectorDB + Object Storage
  • IoT, 실시간 분석에서 활발히 적용

 

🛡️ 보안/비용/운영을 아우르는 AI-Ready 플랫폼

AI 활용이 늘어나면서 Zero Trust 보안, 프라이버시 보호 컴퓨팅, FinOps 기반 비용 관리가 더 이상 선택이 아니라 필수 요소로 자리 잡고 있습니다.

  • Zero Trust, Privacy-Preserving Computing 적용 증가
  • 클라우드 환경(GCP, AWS, Azure) 기반 FinOps·옵저버빌리티 자동화 중요
  •  

 


 

참고

🔍 테이블 포맷 기술 비교

항목 Iceberg Delta Hudi Paimon
ACID 지원 ✅ MVCC ✅ Optimistic Concurrency ✅ Timeline 기반 ✅ LSM 기반
멀티엔진 ✅ Spark/Trino/Flink/Presto 등 🔶 Spark 중심 (Flink/Trino 개선 중) ✅ Spark/Flink/Presto/Hive 🔶 Flink 우선 (Spark 지원)
업서트 성능 🔶 Copy-on-Write/Merge-on-Read ✅ Deletion Vectors (빠름) ✅ MOR 테이블 강점 ✅ Primary Key 테이블
스트리밍 적합성 🔶 배치 최적화 🔶 구조적 스트리밍 지원 ✅ 증분 처리 우수 ✅ CDC 네이티브 지원
Time Travel ✅ 스냅샷 기반 ✅ 버전 기반 ✅ Timeline 기반 ✅ 스냅샷 기반
스키마 진화 ✅ 완전 지원 ✅ 지원 🔶 제한적 ✅ 지원

🧭 카탈로그 비교

항목 Polaris Unity Catalog AWS Glue Nessie
표준 호환 ✅ Iceberg REST Catalog 🔶 Delta 중심 + Iceberg 지원 ✅ Hive Metastore 호환 ✅ Iceberg REST
권한/거버넌스 ✅ 세분화된 ACL ✅ RBAC/ABAC/Row-Column 레벨 ✅ IAM + Lake Formation 🔶 기본적 권한
버전 관리 ✅ 테이블 스냅샷 ✅ 감사 로그 + 히스토리 🔶 제한적 ✅ Git-like 브랜치/태그
멀티클라우드 ✅ 클라우드 중립 🔶 Azure/AWS 지원 시작 ❌ AWS 전용 ✅ 클라우드 중립
오픈소스 ✅ Apache 라이선스 ❌ 상용 (일부 오픈) ❌ AWS 서비스 ✅ Apache 라이선스

⚡ 실시간 OLAP 비교

항목 Pinot ClickHouse Doris StarRocks
지연 시간 ✅ < 100ms (P99) ✅ < 50ms (단순 쿼리) 🔶 100-500ms ✅ < 100ms
JOIN 성능 🔶 Lookup Join 중심 ✅ 다양한 JOIN 지원 ✅ Colocate JOIN ✅ Broadcast/Shuffle JOIN
윈도우 함수 🔶 제한적 ✅ 완전 지원 ✅ 완전 지원 ✅ 완전 지원
업서트 ✅ 실시간 업서트 🔶 ReplacingMergeTree ✅ Unique Key 모델 ✅ Primary Key 모델
벡터 검색 🔶 플러그인 지원 🔶 실험적 (Annoy) ❌ 미지원 🔶 개발 중
스토리지 ✅ 계층형 (Hot/Cold) ✅ 티어드 스토리지 ✅ 계층형 ✅ 계층형

 

 

출처 (References)

  1. Dremio. (2024). The State of the Data Lakehouse. dremio.com
  2. SpringerLink. (2025). Cloud-native big data architecture designs. springer.com
  3. pracdata.io. (2025). Open Source Data Engineering Landscape. pracdata.io
  4. Monte Carlo Data. (2024). Future of Data Engineering. montecarlodata.com
  5. arXiv. (2024–2025). Polyglot Big Data Systems, Data Mesh. arxiv.org
  6. CRN. (2024). AI/ML Infrastructure Predictions. crn.com
  7. automq.com. (2025). Streaming Lakehouse Patterns. automq.com
  8. Wikipedia. (2025). Data Mesh Overview. wikipedia.org
  9. YouTube. (2024). Lakehouse Trends - Webinar. YouTube

이 글은 최신 기술 문서, 아카이브 논문, 공식 보고서들을 바탕으로 2025년 기준 데이터 아키텍처 트렌드를 정리한 글입니다. 레이크하우스, 오픈 테이블 포맷, 실시간 분석 엔진, 카탈로그, 거버넌스까지 현업에서 꼭 알아야 할 내용을 모두 담았습니다.