【数据治理】指标体系

文章目录

  • 1. 如何进行体系化建模
  • 2. 高层模型设计
  • 3. 派生指标
    • 3.1 派生指标体系的架构、概念
      • 一种可行的指标构造方式:
      • 举例:
    • 3.2 派生指标体系的规范细则

1. 如何进行体系化建模

体系化建模流程图:[图片]

指标相关设计流程:
在这里插入图片描述

  • 首先,基于数仓规划,将业务提的指标、维度映射到对应的主题、业务过程,
  • 然后,基于数据定义标准,对业务指标进行结构化拆解,实现指标的技术定义,完成高层模型设计;
  • 其次,基于高层模型设计环节沉淀的元数据,驱动和约束最终的物理模型设计,为后续的数据加工确定最终的DDL,完成物理模型设计,以此来约束后续的数据开发。
    【注1】:指标的规范定义很重要!!而不能需要什么就直接定义一个,不考虑复用/后期维护!!与代码中类/方法的定义相似!

2. 高层模型设计

一线的数据需求都是以指标和维度的形式提给数据工程师的,数据工程师

  • (1)首先要根据拿到的指标需求确定要分析的业务过程,完成业务过程的划分和定义,同时将指标归属到对应的业务过程下;
  • (2)其次,根据指标的业务口径,将业务指标拆分成原子指标+限定条件+时间周期或计算指标+限定条件+时间周期形式,完成指标的技术定义;
  • (3)第三,综合各方分析视角,完成该业务过程一致维度的设计,多个业务过程一致性维度的设计构成该主题下的总线矩阵。

高层模型设计图:
在这里插入图片描述

结构化指标方案将指标分为:原子指标、计算指标和衍生指标,并针对这三类指标做了如下明确的定义:

  1. 原子指标:指在某一业务过程下不可再拆分的指标,具有明确业务含义的名词。在物理实现上,它是特定业务过程下业务实体字段加特定聚合算子的组合。
  2. 计算指标:由原子指标与限定条件组合并经过加减乘除四则运算得到的指标。计算指标有明确的计算公式作为计算指标的定义,可以与多个限定条件进行组合。对于计算指标的归属,我们遵循2个原则①由于原子指标都能归属到相应的业务过程,业务过程一般来说都有时间前后顺序,将计算指标归属到顺序靠后的业务过程中;②如果涉及到多个业务过程,同时这些业务过程没有时间的先后顺序,这种情况下需要判断指标描述内容与主题业务过程的相关性,然后再归属到对应的业务过程。在物理实现上,计算指标可以由其定义的计算公式直接自动的生成其实现逻辑。
  3. 衍生指标:由 “时间周期+多个限定条件+原子指标/计算指标” 组成的指标。由于衍生指标是由原子指标/计算指标衍生出来的,所以衍生指标需要归属到原子指标/计算指标所属的业务过程。
  4. 限定条件:限定条件是指标业务口径的一个逻辑封装,时间周期也可以算作一类特殊的限定条件,是衍生指标必须包含的。在物理实现上我们将其加工成衍生事实的一个逻辑标签。
    在这样的定义后,衍生指标便清晰地分为原子衍生指标和计算衍生指标两类,都可以比较容易地通过结构化的方式半自动生成定义和实现。
  • 衍生指标覆盖了用户生成报表等数据产品的所有指标,
  • 原子指标和计算指标作为指标体系的核心内容不直接提供给用户使用。
  • 在指标的实现方式上也容易明确,原子指标和计算指标的逻辑尽量下沉在基础事实层中,而衍生指标在中间层和应用层根据需求实现。

思考:什么样的指标应该定义为原子指标?规范性!

  • 指标定义规范性:需求申请、审核、上线为可用
  • 指定指标命名、口径说明规范、运算逻辑描述规范等
  • 由于运算逻辑、派生、衍生指标的存在,后期修改指标会造成连锁反应,慎重修改

3. 派生指标

3.1 派生指标体系的架构、概念

[图片]

  • 数据域:是指一个或多个业务过程或者维度的集合
  • 业务过程:是指业务活动事件,如 下单、支付等。业务过程是一个不可拆分的行为事件。
  • 维度:维度是度量的环境,用来反映业务的一类属性。
    • 如 地理维度,包括国家、地区、省、城市等级别的内容
    • 如 时间维度,包括年、季、月、周、日等级别的内容
  • (维度)属性:隶属于一个维度。
  • 度量:事实就是度量,是对某个业务事件的衡量,通常为数字,如某笔订单的金额。度量命名一般不带有具体的业务动作。
    • 注意与指标进行区分:任何数据仓库都有维度和度量,但指标是业务分析中的概念。

  • 修饰类型:是对修饰词的一种抽象划分。
    • 如 日志域的访问终端类型,其修饰词可以包括无线终端、PC端等
  • 修饰词:修饰词隶属于一个修饰类型。(也可以看作是修饰类型的值)
  • 时间周期:用来明确数据同级的时间范围和时间点。如 最近30天、自然周、截至当日等。(可以作为一种修饰类型)

  • 原子指标:基于某一业务过程下的度量。
    • 原子指标 = 业务过程(动作)+度量。例如:支付(事件)+金额(度量)=支付金额
  • 派生指标:可以理解为对原子指标业务统计范围的圈定。派生指标由原子指标、修饰词、时间周期三大要素构成,用于统计目标指标在具体时间、维度、业务条件下的数值表现,反映企业某一业务活动的业务状况。
    • 派生指标 = 指标 + 时间周期 + 修饰词(可多个、可选项)。
      在这里插入图片描述

一种可行的指标构造方式:

[图片]

衍生指标可以生成复合指标。
[图片]

举例:

在这里插入图片描述

3.2 派生指标体系的规范细则

指标类型如下:
(1)比率型
如 “最近1天店铺首页CTR” | CTR(Click-Through-Rate)即点击通过率

  • 原子指标:“CTR”
  • 时间周期:“最近1天”
  • 修饰词类型:“页面类型”
  • 修饰词:“店铺首页”

(2)比例型
如 “最近1天IOS终端支付金额占比”

  • 原子指标:“支付金额占比”
  • 修饰词类型:“终端类型”
  • 修饰词:“IOS”

(3)变化量型
如 “最近1天订单支付金额上1天变化量”

  • 原子指标:“订单支付金额”
  • 时间周期:“最近1天”
  • 修饰词类型:“统计方法”
  • 修饰词为:“上1天变化量”

(4)变化率
如 “最近7天海外买家支付金额上7天变化率”

  • 原子指标:“支付金额变化率”
  • 修饰词类型:“卖家地域”
  • 修饰词:“海外买家”

(5)统计型
如 “自然月 日均UV”

  • 原子指标:UV
  • 修饰词类型:“统计方法”
  • 修饰词:“日均”

(6)排名型
一般为top_xxx_xxx

  • 统计方法(例如:降序,升序);
  • 排名名次(例如:TOP10);
  • 排名范围(例如:行业、省份、一级来源等);
  • 根据什么排序(例如:搜索次数,浏览PV)

参考文献:
【1】美团:数据治理一体化实践之体系化建模
【2】阿里OneData:One Data:看阿里如何进行数据指标体系的治理
【3】阿里云DataWorks:派生指标_用户指南_DataWorks_企业版
【4】概述–大数据研发治理套件-火山引擎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3019277.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

基于大数据+Hadoop的豆瓣电子图书推荐系统实现

🌹作者主页:青花锁 🌹简介:Java领域优质创作者🏆、Java微服务架构公号作者😄 🌹简历模板、学习资料、面试题库、技术互助 🌹文末获取联系方式 📝 系列文章目录 基于大数…

手动实现简易版RPC(四)

手动实现简易版RPC(四) 往期内容 手动实现简易版RPC(一):RPC简介及系统架构 手动实现简易版RPC(二):简单RPC框架实现 手动实现简易版RPC(三):mock数据生成 前言 接上几篇博客我们实现了最…

便签怎么设置不同的标签 便签创建不同分组标签的方法

在日常工作和生活中,便签已成为我随身携带的小助手。每当灵感闪现,或是需要临时记录一些重要事项,我都会随手打开便签,快速记录下来。然而,随着记录的内容越来越多,如何高效地管理和查找这些信息成为了一个…

联丰策略股票炒股市场港股恒生指数止步“10连阳”

查查配港股市场今日未能持续之前的上涨趋势。恒生指数在经历了4月22日至5月6日的“十日连阳”罕见行情后,其反弹动能有所减弱。与此同时,恒生科技指数也遭遇了回调。截至收盘,恒生指数跌0.53%,报收18479.37点;科技指数跌2.13%,报收3922.54点;国企指数跌0.70%,报收6526.67点。 …

【保姆级详细步骤教学用DOSBoxV0.74写出一个汇编语言程序输出Hello World!】

使用任何文本编辑器创建一个名为 HELLO.ASM 的文件,并将以下代码粘贴到文件中: .MODEL SMALL .STACK 100H.DATAMSG DB Hello, World!, $PROMPT DB 13, 10, Press any key to exit..., $.CODEMAIN PROCMOV AX, DATAMOV DS, AXMOV AH, 09HLEA DX, MSGINT …

R语言【Tidyverse、Tidymodel】机器学习

机器学习已经成为继理论、实验和数值计算之后的科研“第四范式”,是发现新规律,总结和分析实验结果的利器。机器学习涉及的理论和方法繁多,编程相当复杂,一直是阻碍机器学习大范围应用的主要困难之一,由此诞生了Python…

2024最详细全面的发卡平台对比调研

最近在调研目前市面上的发卡平台,对一些主流的托管式发卡平台与github上开源的发卡项目做了横向对比,本文主要介绍各自特点以及需要注意避免的坑。 直接上表格,一目了然。 对比独角数卡***发卡/泛发卡平台iDataRiver发卡稳定性/跑路风险自己…

双层胶工艺是什么?

知 识星球(星球名: 芯片制造与封测社区,星球号: 63559049)里的学员问: 什么是双层胶工艺? 为什么要用双层胶呢? 本图由allresist公司提供,特此鸣谢 为什么要涂双层…

【机器学习与实现】线性回归示例——波士顿房价分析

目录 一、创建Pandas对象并查看数据的基本情况二、使用皮尔逊相关系数分析特征之间的相关性三、可视化不同特征与因变量MEDV(房价中值)间的相关性四、划分训练集和测试集并进行回归分析 一、创建Pandas对象并查看数据的基本情况 boston.csv数据集下载&a…

Proxmox VE 8 SDN创建VLAN隔离用户网络

作者:田逸(formyz) 在上一篇文章中,我们用SDN的Simple对租户(用户)网络实现了隔离功能,但它有个限制,仅仅能在单个物理节点上进行通信,而不能跨越物理节点(除…

天诚再出学校物联网锁新品,打造AIoT高校数智化通行解决方案

为进一步提升高职及本科院校校园安防智能化管理水平,助力学校教育信息化转变,校园全场景AIoT解决方案服务商——江苏新巢天诚智能技术有限公司(以下简称“天诚”)推出系列校园物联网锁新品,为在校师生用户群体提供更多…

24_Scala集合Map

文章目录 Scala集合Map1.构建Map2.增删改查3.Map的get操作细节 Scala集合Map –默认immutable –概念和Java一致 1.构建Map –创建kv键值对 && kv键值对的表达 –创建immutable map –创建mutable map //1.1 构建一个kv键值对 val kv "a" -> 1 print…

数据挖掘流程是怎样的?数据挖掘平台基本功能有哪些?

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 数据挖掘的流程是: 清晰地定义出业务问题,确定数据挖掘的目的。 数据准备: 数据准备包括&am…

《ElementUI 基础知识》el-tree 之“我的电脑”目录结构效果

前言 项目需求,Web 端获取服务器文件夹目录结构。目录数据是调接口获取,本篇略过,直接展现数据! 效果 实现 html 代码 8 - 15 行,自定义节点信息;代码 9 - 14 行,判断 icon 显示&#xff1b…

数据结构学不会?数据结构可视化网站来了

目录 前言 图码网站 算法可视化 算法编辑器 数据结构全书 数据结构课程 总结 前言 数据结构与算法在计算机的学习中应该是许多小白最头疼的东西,明明听的时候那么容易,为什么转换成代码就那么抽象呢? 有没有一个网站可以数据结构与算…

C语言——文件描述符、系统调用操作文件

文件描述符 在Unix-like操作系统中,文件描述符(file descriptor)是一个用于标识打开文件或I/O设备的整数值。它是对底层文件系统的抽象,用于在应用程序和操作系统之间传递文件信息。 文件描述符是一个非负整数,通常是…

FX110书籍推荐:如何快速成为一名专业股票投资人?

股票投资领域有一本神作《股票交易入门》,它是股票从业人员的入门必备书籍。 关于股票入门的书籍很多,但这本书涉及的知识面最全、实用性最强。从这本书里,我们可以领略到股票交易世界的跌宕起伏而又波澜壮阔的魅力。本书作者 本书的作者是美…

【自动驾驶|毫米波雷达】卡尔曼滤波

目录 一. 滤波器分类 二.卡尔曼滤波(Kalman Filter)原理 (1)定性理解 (2)定量推导 1. 预测阶段 2. 更新阶段 3. 卡尔曼增益 1)卡尔曼增益 2)如何理解卡尔曼增益? 三…

省份数量00

题目链接 省份数量 题目描述 注意点 1 < n < 200isConnected[i][j] 为 1 或 0isConnected[i][i] 1isConnected[i][j] isConnected[j][i] 解答思路 最初想到的是广度优先遍历&#xff0c;当某个城市不属于省份&#xff0c;需要从该城市开始&#xff0c;根据isConne…

重大消息!软考高级论文单考,综合和案例连考

依据辽宁省信息技术教育中心&#xff08;辽宁省软考办&#xff09;发布《关于2024年上半年计算机技术与软件专业技术资格(水平)考试批次安排的通知》可知&#xff0c;2024年上半年软考有如下调整&#xff1a; 1.软考高级考试中&#xff0c;综合知识和案例分析连考&#xff08;…