文章目录
- 1. 如何进行体系化建模
- 2. 高层模型设计
- 3. 派生指标
- 3.1 派生指标体系的架构、概念
- 一种可行的指标构造方式:
- 举例:
- 3.2 派生指标体系的规范细则
1. 如何进行体系化建模
体系化建模流程图:
指标相关设计流程:
- 首先,基于数仓规划,将业务提的指标、维度映射到对应的主题、业务过程,
- 然后,基于数据定义标准,对业务指标进行结构化拆解,实现指标的技术定义,完成高层模型设计;
- 其次,基于高层模型设计环节沉淀的元数据,驱动和约束最终的物理模型设计,为后续的数据加工确定最终的DDL,完成物理模型设计,以此来约束后续的数据开发。
【注1】:指标的规范定义很重要!!而不能需要什么就直接定义一个,不考虑复用/后期维护!!与代码中类/方法的定义相似!
2. 高层模型设计
一线的数据需求都是以指标和维度的形式提给数据工程师的,数据工程师
- (1)首先要根据拿到的指标需求确定要分析的业务过程,完成业务过程的划分和定义,同时将指标归属到对应的业务过程下;
- (2)其次,根据指标的业务口径,将业务指标拆分成原子指标+限定条件+时间周期或计算指标+限定条件+时间周期形式,完成指标的技术定义;
- (3)第三,综合各方分析视角,完成该业务过程一致维度的设计,多个业务过程一致性维度的设计构成该主题下的总线矩阵。
高层模型设计图:
结构化指标方案将指标分为:原子指标、计算指标和衍生指标,并针对这三类指标做了如下明确的定义:
- 原子指标:指在某一业务过程下不可再拆分的指标,具有明确业务含义的名词。在物理实现上,它是特定业务过程下业务实体字段加特定聚合算子的组合。
- 计算指标:由原子指标与限定条件组合并经过加减乘除四则运算得到的指标。计算指标有明确的计算公式作为计算指标的定义,可以与多个限定条件进行组合。对于计算指标的归属,我们遵循2个原则①由于原子指标都能归属到相应的业务过程,业务过程一般来说都有时间前后顺序,将计算指标归属到顺序靠后的业务过程中;②如果涉及到多个业务过程,同时这些业务过程没有时间的先后顺序,这种情况下需要判断指标描述内容与主题业务过程的相关性,然后再归属到对应的业务过程。在物理实现上,计算指标可以由其定义的计算公式直接自动的生成其实现逻辑。
- 衍生指标:由 “时间周期+多个限定条件+原子指标/计算指标” 组成的指标。由于衍生指标是由原子指标/计算指标衍生出来的,所以衍生指标需要归属到原子指标/计算指标所属的业务过程。
- 限定条件:限定条件是指标业务口径的一个逻辑封装,时间周期也可以算作一类特殊的限定条件,是衍生指标必须包含的。在物理实现上我们将其加工成衍生事实的一个逻辑标签。
在这样的定义后,衍生指标便清晰地分为原子衍生指标和计算衍生指标两类,都可以比较容易地通过结构化的方式半自动生成定义和实现。
- 衍生指标覆盖了用户生成报表等数据产品的所有指标,
- 原子指标和计算指标作为指标体系的核心内容不直接提供给用户使用。
- 在指标的实现方式上也容易明确,原子指标和计算指标的逻辑尽量下沉在基础事实层中,而衍生指标在中间层和应用层根据需求实现。
思考:什么样的指标应该定义为原子指标?规范性!
- 指标定义规范性:需求申请、审核、上线为可用
- 指定指标命名、口径说明规范、运算逻辑描述规范等
- 由于运算逻辑、派生、衍生指标的存在,后期修改指标会造成连锁反应,慎重修改
3. 派生指标
3.1 派生指标体系的架构、概念
- 数据域:是指一个或多个业务过程或者维度的集合
- 业务过程:是指业务活动事件,如 下单、支付等。业务过程是一个不可拆分的行为事件。
- 维度:维度是度量的环境,用来反映业务的一类属性。
- 如 地理维度,包括国家、地区、省、城市等级别的内容
- 如 时间维度,包括年、季、月、周、日等级别的内容
- (维度)属性:隶属于一个维度。
- 度量:事实就是度量,是对某个业务事件的衡量,通常为数字,如某笔订单的金额。度量命名一般不带有具体的业务动作。
- 注意与指标进行区分:任何数据仓库都有维度和度量,但指标是业务分析中的概念。
- 修饰类型:是对修饰词的一种抽象划分。
- 如 日志域的访问终端类型,其修饰词可以包括无线终端、PC端等
- 修饰词:修饰词隶属于一个修饰类型。(也可以看作是修饰类型的值)
- 时间周期:用来明确数据同级的时间范围和时间点。如 最近30天、自然周、截至当日等。(可以作为一种修饰类型)
- 原子指标:基于某一业务过程下的度量。
- 原子指标 = 业务过程(动作)+度量。例如:支付(事件)+金额(度量)=支付金额
- 派生指标:可以理解为对原子指标业务统计范围的圈定。派生指标由原子指标、修饰词、时间周期三大要素构成,用于统计目标指标在具体时间、维度、业务条件下的数值表现,反映企业某一业务活动的业务状况。
- 派生指标 = 指标 + 时间周期 + 修饰词(可多个、可选项)。
- 派生指标 = 指标 + 时间周期 + 修饰词(可多个、可选项)。
一种可行的指标构造方式:
衍生指标可以生成复合指标。
举例:
3.2 派生指标体系的规范细则
指标类型如下:
(1)比率型
如 “最近1天店铺首页CTR” | CTR(Click-Through-Rate)即点击通过率
- 原子指标:“CTR”
- 时间周期:“最近1天”
- 修饰词类型:“页面类型”
- 修饰词:“店铺首页”
(2)比例型
如 “最近1天IOS终端支付金额占比”
- 原子指标:“支付金额占比”
- 修饰词类型:“终端类型”
- 修饰词:“IOS”
(3)变化量型
如 “最近1天订单支付金额上1天变化量”
- 原子指标:“订单支付金额”
- 时间周期:“最近1天”
- 修饰词类型:“统计方法”
- 修饰词为:“上1天变化量”
(4)变化率
如 “最近7天海外买家支付金额上7天变化率”
- 原子指标:“支付金额变化率”
- 修饰词类型:“卖家地域”
- 修饰词:“海外买家”
(5)统计型
如 “自然月 日均UV”
- 原子指标:UV
- 修饰词类型:“统计方法”
- 修饰词:“日均”
(6)排名型
一般为top_xxx_xxx
- 统计方法(例如:降序,升序);
- 排名名次(例如:TOP10);
- 排名范围(例如:行业、省份、一级来源等);
- 根据什么排序(例如:搜索次数,浏览PV)
参考文献:
【1】美团:数据治理一体化实践之体系化建模
【2】阿里OneData:One Data:看阿里如何进行数据指标体系的治理
【3】阿里云DataWorks:派生指标_用户指南_DataWorks_企业版
【4】概述–大数据研发治理套件-火山引擎