数据湖 数据湖定义为一个集中式存储,以任意规模存储所有结构化和非机构化数据,但从应用上来说可以用作离线数仓的替代(能力增强),以及与实时数仓的统一(牺牲一定的实时性),然而实际的降本增效效果是其大规模应用的障碍。 2024-04-20 数据 #简介
金融经济学 金融处理的是金融资产在不同主体之间的分配,而时间和不确定性是金融活动两个不可缺少的维度,金融经济学运用经济分析的技术来理解个人的储蓄与投资决策,公司的投资、融资、分红决策,利率、金融资 产和衍生品价格的水平和性质,以及金融中介所发挥的经济作用。 2024-02-11 读书笔记 #总结
消灭暴力扫描,世界属于渐进 数仓建设过程中大部分表都是增量表,当计算过去一段时间的聚合指标时,常规的实现方式会重复扫描分区,带来大量计算的浪费。本文我们将介绍一些增量计算的方式,避免重复扫描分区,提高计算效率~ 2023-12-09 数据 #总结#数仓
大数据去重统计 Unique Visitor(UV)是大数据统计中常见一个指标,但由于其自身的不可加性,常常会碰见性能瓶颈。本文我们将对比几种常见计算UV的方法,了解其原理以及特点。 2023-08-25 数据 #去重#数据结构#总结
Flink规则引擎 随着业务发展,对风控能力的要求会越来越高,比如丰富的事件类型处理、不同的统计方式计算、动态的规则配置支持等。本篇文章我们就来讨论如何利用Flink构建一个规则引擎,去解决这些问题,来支持风控平台的建设。 2023-07-15 数据 #Flink#风控#架构#教程