大数据实践之路 读后感

欢迎关注公众号:数据运营入表资产化服务,获取更多算法源码材料

2023数据资源入表白皮书,推荐系统源码下载-CSDN博客

浅析研发支出费用化和资本化的区别-CSDN博客

商业银行数据资产估值白皮书,推荐系统源码下载-CSDN博客

用友BIP数据资产入表解决方案白皮书,推荐系统源码下载-CSDN博客

1、内容总体概括

简单来说一下,本书内容可以分四个大部分:一是介绍了数据中台的五大功能模块即元数据中心、数据指标中心、数据资产中心、数仓模型中心、数据服务中心为基础,这部分的构建可以帮助企业更好的梳理自己业务上的数据资产,且使其得到有效的管理和应用;接着第二部分主要围绕数据分析这个岗位来谈了数据分析的分析流程、常见的三种业务场景、分析师需要具备的核心能力、个人成长等;接着第三部分谈了BI系统和用户画像两个知识点,这两部分也是数据分析常见的工作内容;最后一部分以三个数据应用实例来结尾即电商反作弊、咨询个性化推荐、电商个性化推荐。

本书的“故事”叙述方式是我比较喜欢的方式,即以对话、模拟实际业务工作场景来进行叙述的。

2、个人阅读体感

2.1 数据中台的部分:

主要原因是我自己以前在瞎子摸灯的情况下做过,而我当时基本网上各种看现有的资料来搭建自己公司的数据中台,而这本书算是帮我回顾了以前做过的东西和反思,比如数据指标我当时是按照原生指标和派生指标来规划的,和本书不谋而合;但是数据仓库我也没有理完整到底是怎么个架构,因为这部分当时是开发人员负责的,而本书这块正好给了我去补充这点;还有数据资产部分,我当时有做了数据的监控,但是资产成本这块就是欠考虑的,我没有太去考虑这点。总之,这部分的内容,我觉得对于要进行数据中台的搭建工作的同学是可以进行参考,算是讲的全的,细致,同时也建议可以去看一些中台建设的实例配合去看。

2.2 数据分析理论:

这部分虽然有的同学说就是一些概念的堆叠,我倒觉得有的地方可以去借鉴。

比如数据赋能业务,看完后我想到的是大家经常讨论的:怎么体现数分的价值?答案就是数据和业务结合,当然过程必须是满足逻辑闭环(论据要支撑结论)+业务闭环(业务策略要在业务上能够行的通),此处我想再加一个观点:紧扣目标。

比如数据分析团队部分,这部分通过将独立的分析团队和存在于业务的数分岗,因为部门不同,所以你的职责和发展肯定不同,当你知道了这个不同,我觉得就可以帮你在求职的时候有了一个参考依据。前几天有人朋友说,我准备去独立的数据分析部分,在那边更能体现自己的价值啥的。

再比如数据分析过程,我倒觉得无论是在做需求、作专题分析等,这个分析过程是始终是贯穿我们的工作中的。其中有两点我觉得说的很好。第一、始终从解决问题本身出发;第二、核心是分析的思路和方法。

其他部分,自行可以结合自己工作体会。

2.3 用户画像部分:

这部分内容主要以知识理论为主,虽然我没有做过,但是整个体系很完整,值得学习。因为没有太多参与用户画像,感触不深。个人觉得可以看一些实际的案例来更深理解。

3、推荐介绍

本书所讲的知识框架比较完整,偏基础,但是似乎有点太完整,我倒觉得再有一点实际可能遇到的问题,怎么解决,可能会好点。毕竟实际业务纷繁复杂,变化和影响因素很多。适合数据中台搭建、数分人来看。

4、分模块阐述重点内容

4.1 数据中台内容模块

1)元数据中心:

可以系统、全面地查询元数据信息;变更评估及精准变更周知;协助数据问题定位及解决。 核心功能:数据整合;数据管理;数据地图。

数据整合:要支持不同的结构化/非结构化的数据源,且要考虑不同数据源的不同集群。##通过配置定时采集器的方式,对数据进行采集。采集计划有两种:场景采集、周期采集。

数据管理:就是管理数据中台所有的元数据,元数据即描述数据的数据。

元数据数据类型的三大类别:数据属性、数据字典、数据血缘。

1)数据属性主要是关于数据本身的描述。其包括以下几种类型:基础信息、标签信息、业务信息、技术信息、权限信息。
2)数据字典主要描述数据的结构信息。其主要的数据来源是数仓模型中心的数据表的相关配置、调度系统等。
3)数据血缘主要描述表与表之间的关系。其主要的数据来源是数仓模型中心的调度依赖配置、数据指标中心的指标生产逻辑、数据服务中心的逻辑表配置信息等。数据血缘的作用:问题定位排查;指标波动分析;数据预警与产出保障;

数据地图是基于所有元数据搭建起来的数据资产列表。能够解决有什么数据的问题,还能够进行检索,解决数据在哪里的问题。

2)数据指标中心:

数据指标中心是规范化开发指标并对其进行管理和维护的系统,它将指标的组成部分解耦拆分开来,并在逻辑表中进行规范的定义,在此基础上,按照一定的规则对指标的组成部分进行自由拼装,实现自定义指标的功能。

指标管理:(1)一级指标,即原子指标与小部分全平台的核心指标,在从各个业务部门收集需求后,统一由数据中台来产出,有一套完整、规范的开发流程:需求—评审—排期—开发—测试—验收—上线。所有维护管理工作都由数据中台负责。(2)二级指标,即派生指标,由各个业务部门自行通过指标中心生成,没有严格的开发流程,各个业务部门根据需要自行创建,但需要遵守指标命名规范。

3)数据仓库模型中心:

研发流程线:依据业务分析,抽象出主题域---梳理且确定每个主题域下的业务过程---依据业务过程,定义分析维度---构建总线矩阵---数仓分层建设(包括ODS层(操作数据储存层)、CDM(公共维度模型层)ADS(应用层))。

4)数据资产中心:

数据资产中心是建立在元数据之上,对数据进行统计性治理的系统,它主要针对两个方面:质量与成本。

数据资产质量治理:按照业务规则,在数据的关键加工节点上,对每个产出表,设计一个监控规则,来确保数据的完整性(监控表的数量变化)、准确性(主要解决数据记录准确性问题)、一致性(主要解决数据在不同模型中的一致性问题)、规范性(监控代码的规范性,如表命名规范、表注释、生命周期设置等)、时效性(及时地提供服务)。

数据资产成本治理:从数据产品直接应用的数据表开始往回溯源,来计算成本。

5)数据服务中心:

数据服务中心要解决的问题:减少“数据孤岛”及高效地将数据开放出去。

数据服务的形式:数据服务中心通过配置化的方式,将不同数据源的表(关系型数据库、NoSQL数据库、HBase等)通过映射模型生成API,与API调用者形成隔离,既保证了数据的安全,又可以以标准化的方式高效地进行数据的交付。

4.2 数据分析理论

1)数据赋能业务:数据赋能业务有四个环节:数据表现、业务原因、业务策略、作用方式。其过程如下图所示:

需要考虑的问题:在数据赋能业务过程中,业务策略需要考虑两个闭环问题才能确保策略的有效性,即逻辑闭(论据要能够支撑结论)、业务闭环(业务策略在业务上要能够行得通,且能够调整和迭代)

2)数据分析过程:这个可以说是贯穿了整个该岗位的整个工作中

1)明确分析目的;2)明确分析思路;##抓住重点:始终从解决问题本身出发。3)获取数据 ;4)处理与分析数据:关注数据处理的效率、分析的结论以及呈现的方式。

##核心:注意思路和方法;5)撰写报告;补充:推动策略落地、复盘
##复盘的考察点:(1)落地的策略是否可以解决业务出现的问题?(2)落地的质量如何?(3)分析的框架有没有问题?(4)分析得出的结论有没有问题?

3)数据分析的3种场景:

预测性分析、描述性分析和诊断性分析。(1)预测性分析:基于现有的数据,结合实际情况,预测业务未来的发展。##分析思路和方法:按照数据分析的流程进行。(2)描述性分析:有逻辑、成体系地拆解业务,用合理的指标整体评估业务的状态。##对业务的描述性分析,同样按照数据分析的流程进行。(3)诊断性分析:针对业务的异常波动,分析背后的原因,并提出解决策略。##评估标准:一般是关键指标的变化符合预期。

4)数据分析的核心能力:专业能力和影响力

理解业务:
1)参与业务:实际参与业务作业一段时间。(2)调研/访谈一线业务人员。(3)多与业务部门打交道。
##对数据分析师来说, 完整的工作场景是业务—数据—信息—知识—合作。数据分析师 要尽量参与更多的环节,尤其不要只是停留在数据这个环节。

5)数据分析师的工作:

(1)偏向外的战略分析;(2)偏向内的业务分析;#补充:调研的工作。
##记住:数据只是辅助数据分析师更好地理解业务的工具。

6)个人成长:

不要只关注做了多少事,不要太多关注自己的短期收益,要看长期收益。多关注自己长期的成长、核心竞争力的培养等。

7)数据分析团队:

两种存在形式:(1)以独立的实线部门存在。(2)存在于业务部门中。##两种组织架构没有哪个是绝对合理的,只需看组织架构是否适应当前企业业务发展的需要。

8)数据分析师的工作方式:

想清楚当下自己的核心诉求是什么,要学会不断地根据客观环境调整自己的状态,让自己的工作与核心诉求保持一致,最大地激发自己的热情与创造力,要经常反观自己是否还位于第一象限。可以参考如下的工作象限图:

4.3 BI系统+用户画像

1)BI系统: BI系统的代表tableau、PowerBI、帆软等。是数据计算分析和操作交互的系统。

BI系统的核心功能:选择数据源并建立数据模型、创建可视化数据报表,以及数据分析与可视化结果展示。

2)用户画像:

在精细化运营中,用户画像体系的建设有很重要的作用。

a、用户画像基础:

用户画像概念:

用户画像是指从用户的基础信息、用户行为、业务信息等海量数据中,抽象出一个个标签,通过给用户贴上若干标签来还原用户全貌的过程。

用户标签:

用户标签是通过对用户的基础信息、用户行为、业务信息等数据,进行数据建模所产生的用户特征。其标签值具有高度概括、相互独立及可枚举、可穷尽的特点。例如,性别可枚举为男、女、未知。

用户分群:

用户分群是指由批量用户组成的用户群体,可通过筛选标签组合来获取。例如,可通过筛 选“25~30岁、女性、母婴类商品意向”等标签组合,来获取母婴类人群。

b、用户画像建设:

建设用户画像体系,最主要的是把握一个中心和一条主线。即用户画像体系=一个中心+一条主线。

  • 一个中心:

以经济建设为中心。用户画像体系本质是为了服务商业活动,需要秉持“降成本、提效率、创收益”的基本准则。

  • 一条主线:

一条主线即产品研发的基本流程为主线。 建设用户画像体系在实施层面,本质上是一个产品化的过程,因此用户画像体系的建设符合产品研发的基本规律。 用户画像体系建设可以分为需求阶段、产品规划阶段、产品设计阶段、开发测试阶段和运营阶段这5个阶段。

##用户画像的应用:1)精准广告投放;2)智能运营;3)智能客服;4)智能风控,比如营销反“薅羊毛”,做法:利用用户画像以及特征,切入智能风控。

4.4 实际案例

1)电商反作弊体系:

解决方案:a、事前阶段:活动规则设计,此营销活动规则,技术方案(接入第三方风控系统、白名单数据维护、有监督机器学习)。b、事中阶段:无监督机器学习,真人操作识别,孤立森林模型。c、事后阶段:反例特点,规则思路建设。

2)资讯个性化推荐:

个性化推荐,就是按照每个用户的喜好,在合适的时间、合适的场景,把合适的内容,以合适的形式呈现给用户,满足用户的需求。

资讯推荐的组成,如下图所示:

3)电商个性化推荐:

a、定义:App为用户推送消息就是push。

b、目标:push的目标是获取新用户、激活老用户、召回流失的用户。

c、本质:push的本质是将合适的内容,在合适的时间和合适的场景下,推荐给合适的用户,并带来转化。

d、push的衡量:从短期、长期、用户行为分析。即从短期来看,push的衡量指标是拉新数量和拉新贡献度。从长期来看,push的衡量指标从推送、点击、到达、浏览、加购、下单、支付、复购整个链条来提高,为最后的GMV负责。从用户行为路径来看,一条push经历了到达、展示、点击、浏览、加购、下单、支付的流程。

Push的衡量指标,如下图所示:

e、push的优化方向:效率高、算法准、推荐好、展示靓。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2661725.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

工业以太网交换机的出色优势是什么?

网络交换机可以分为商用网络交换机和工业以太网交换机两种类别。就其灵活性和抗干扰性而言,工业交换机和商用交换机之间存在着显著差异,工业交换机的功能更加实用。 工业以太网和商业网络在数据链路层、网络层和协议层等方面基本上没有本质区别。工业以…

白话机器学习的数学-2-分类

1、设置问题 图片分类:只根据尺寸把它分类为 纵向图像和横向图像。 如果只用一条线将图中白色的点和黑色的点分开: 这次分类的目的就是找到这条线。 2、内积 找到一条线,这是否意味着我们要像学习回归时那样,求出一次函数的斜率…

2024年第三届服务机器人国际会议(ICoSR 2024) | Ei、Scopus双检索

会议简介 Brief Introduction 2024年第三届服务机器人国际会议(ICoSR 2024) 会议时间:2024年7月26日-28日 召开地点:中国杭州 大会官网:www.iwosr.org 进入新时代,科技更新迭代快速发展,机器人不仅变得更加节能&#x…

创新型产品说明书模板的设计与实践,我悟了!

在当今这个快节奏、高效率的时代,产品说明书已经不再仅仅是一纸简单的使用指南。它既是产品的重要组成部分,也是品牌形象和用户体验的关键环节。然而,传统的产品说明书制作方式往往效率低下,管理混乱,难以满足市场的多…

vue3+ts打开echarts的正确方式

实例项目使用 vite5 vue3 ts,项目地址 vite-vue3-charts,预览地址 https://weizwz.com/vite-vue3-charts 准备工作 1. 注册为百度地图开发者 官网地址,然后在 应用管理 -> 我的应用 里,创建应用,创建好后复制 AK …

线上发布稳定性方案介绍

目录 一、方案说明 二、线上发布问题描述 2.1 无损上下线背景说明 2.1.1 服务⽆法及时下线 2.1.2 初始化慢 2.1.3 注册太早 2.1.4 发布态与运⾏态未对⻬ 三、问题解决方案 3.1 无损下线方案 3.1.1 什么是无损下线 3.1.2 传统解决方式 3.1.3 云原生场景解决方案 3.1…

Net6 Core webApi发布到IIS

Net6 Core Api发布到IIS不同于webapi,依赖框架不同,配置也移至项目内Program.cs 一、发布到指定文件夹和IIS,不过注意IIS应用程序池选择的是 “无托管代码“ 在IIS管理器中点击浏览,访问接口路径报500.19,原因是所依赖…

HALCON报错#2021:System clock has been set back 解决方案

如果操作系统修改过时间,再更新到正常的时间后,打开halcon可能会报错#2021:System clock has been set back. 解决方案: 1、联网同步Windows 系统时间。 2、检查以下目录中是否有超过当前时间的文件(删除&#xff09…

o2o生活通全开源尊享版+多城市切换+企业付款+交友IM+平台快报

搭建教程 1.把 pigo2ov282.sql 文件里面的网址 test.souho.net 全部批量替换为你的自己的 2.使用 phpmyadmin 导入 pigo2ov282.sql 到你的数据库(直接访问/phpmyadmin 即可) 3.修改数据库文件/conf/db.php 里的数据库连接信息(请勿使用记事本…

最新最全智能科学与技术专业毕业设计选题精华汇总-持续更新中

文章目录 0 简介1 如何选题2 最新智能科学与技术毕设选题3 最后 0 简介 Hi,大家好,随着毕业季的临近,许多同学开始向学长咨询关于选题和开题的问题。在这里,学长分享一些关于智能科学与技术专业毕业设计选题的内容。 以下为学长…

反转链表、链表的中间结点、合并两个有序链表(leetcode 一题多解)

一、反转链表 给你单链表的头节点 head ,请你反转链表,并返回反转后的链表。 力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 思路一:翻转单链表指针方向 这里解释一下三个指针的作用: n1&#xff1…

Emu2:37B参数开创多模态生成新篇章

引言 多模态任务在人工智能领域一直是极具挑战性的「技术高地」。智源研究院最近开源发布的新一代多模态基础模型Emu2,在这一领域取得了突破性进展。Emu2以其庞大的37B 参数规模和强大的多模态生成能力,为AI的多模态理解和生成开启了新的篇章。 模型概…

Python基础进阶:9个易错知识点

你好,我是kelly。 kelly根据自己平时工作,总结9个易错知识点,希望对大家有用。 知识点1:is 和 is比较是两个变量地址是否相同,比较是两个变量的值(内容)是否相同。 示例: In [92…

全方面了解vcruntime140_1.dll的解决方法,多种vcruntime140_1.dll丢失的方法

在日常使用电脑时,我们常常遇到各种各样的问题。其中之一就是丢失vcruntime140_1.dll文件,这是一个重要的系统文件,会影响到电脑的正常运行。今天小编就来给大家详细的说说这一方面的咨询,教会大家多种的丢失vcruntime140_1.dll的…

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《适应储能参与的调频辅助服务市场机制设计及调度策略》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主的专栏栏目《论文与完整程序》 这个标题涉及到储能技术在电力系统中参与调频辅助服务市场的机制设计和调度策略。下面对标题中的关键术语进行解读: 储能参与的调频辅助服务&am…

Cocos3D项目中fbx模型转gITF模型和glb模型

1.npm安装:先按照npm哈 npm install --save fbx2gltf -g 2. 到指定目录 cd C:\Program Files\nodejs\node_global\node_modules\fbx2gltf\bin\Windows_NT cmd命令行界面进入node_modules\fbx2gltf文件下的bin文件,然后根据平台选择进入相应目录&#…

元旦快到了,分享一些元旦祝福模板

元旦-王安石 爆竹声中一岁除,春风送暖入屠苏。 千门万户曈曈日,总把新桃换旧符。 元旦其实也是中国的传统节日了,不过元旦是由中国的春节演化而来的。传统的元旦时间是正月初一,从王安石的诗也能看的出来,其实描述的…

四川思维跳动商务信息咨询有限公司抖店开店可信吗

在当今的电商时代,越来越多的人选择在抖音平台上开设店铺,实现自己的创业梦想。然而,对于许多新手来说,如何顺利地在抖音上开店成为了他们面临的一大难题。四川思维跳动商务信息咨询有限公司作为一家专业的抖店咨询服务提供商&…

基于elemen二次封装弹窗组件

效果&#xff1a; 一、自定义内容类型弹窗 <!-- title&#xff1a;对话框的标题confirmLoading&#xff1a;当前是否处于提交中titleCenter&#xff1a;对话框标题居中方式footerCenter&#xff1a;底部按钮的对其方式visible&#xff1a;是否显示弹窗width&#xff1a;设置…