数据湖
数据湖定义为一个集中式存储,以任意规模存储所有结构化和非机构化数据,但从应用上来说可以用作离线数仓的替代(能力增强),以及与实时数仓的统一(牺牲一定的实时性),然而实际的降本增效效果是其大规模应用的障碍。
WHY
历史:数据库(事务) -> 数据仓库(分析) -> 数据湖(非结构化) -> 湖仓一体(统一)
低成本&高可靠性
元数据
时间旅行
更新
WHAT
表格式
HOW
三剑客:Delta vs Iceberg vs Hudi
后起之秀:Paimon
Dive Into Deep
Paimon: LSM Tree
USE
CDC入湖
状态外置:Flink成也状态,败也状态。
流批&全增量一体
Upsert
OLAP
查询加速:数据缓存&物化视图
数据湖
https://syntomic.cn/archives/data-lake