数据湖

数据湖定义为一个集中式存储,以任意规模存储所有结构化和非机构化数据,但从应用上来说可以用作离线数仓的替代(能力增强),以及与实时数仓的统一(牺牲一定的实时性),然而实际的降本增效效果是其大规模应用的障碍。

WHY

2024-02-25T19:33:29.171947943-bgbxfjba.png

历史:数据库(事务) -> 数据仓库(分析) -> 数据湖(非结构化) -> 湖仓一体(统一)

  • 低成本&高可靠性

  • 元数据

  • 时间旅行

  • 更新

WHAT

表格式

HOW

三剑客:Delta vs Iceberg vs Hudi

后起之秀:Paimon

Dive Into Deep

  • Paimon: LSM Tree

USE

  • CDC入湖

  • 状态外置:Flink成也状态,败也状态。

  • 流批&全增量一体

  • Upsert

OLAP

查询加速:数据缓存&物化视图


数据湖
https://syntomic.cn/archives/data-lake
作者
syntomic
发布于
2024年04月20日
更新于
2024年11月09日
许可协议