湖流一体:重塑实时开发
纯实时场景:flink + paimon + fluss
传统架构
Kafka -> Flink -> Kafka -> Flink -> OLAP/Kafka
Kafka
不支持去重
查询能力不足
数据回溯困难
过高的网络成本
Flink
状态
回撤
计算&存储:一起解决问题
Q1:Changelog
changelog 乱序:SinkUpsertMaterializer vs Sequence Field
Real-Time Updates and Changelog、
RocksDB
Q2:可以干掉状态嘛?
聚合
实时:前置计算准实时:中置计算
关联
维表关联:LookUp
双流join
主键:Partial Update
外键:Delta Join
Q3:回溯成本太高?
Lakehouse: Union Read
https://alibaba.github.io/fluss-docs/blog/unified-streaming-lakehouse/
流批一体:增量计算
近线(分钟级)&离线场景:调度+增量计算
https://developer.aliyun.com/article/1648292
参考文献
湖流一体:重塑实时开发
https://syntomic.cn/archives/wei-ming-ming-wen-zhang