推荐 :深入浅出之个性化推荐系统实践

大数据在网易内部的应用丰富多彩,在《让机器读懂用户--大数据中的用户画像》一文中,网易工程师对用户画像进行了较为系统的介绍,并提到用户画像的一个重要作用在于个性化推荐。但企业怎样才能正确认识和利用推荐系统来拓展业务?


本文对推荐的本质和实现思路进行了深入的探讨,并介绍了网易严选的推荐系统实践,让您充分领略个性化推荐的魅力。


  • 推荐系统作用本质


有资料称亚马逊的推荐系统带来的GMV占其全站总量的20%-30%。这个数据会让人直觉地认为,电商网站只要一上好的推荐系统,就会带来相当高的GMV提升。甚至有产品会问:我们的推荐系统GMV占全站多少?为什么亚马逊能做到30%而我们做不到?

 

想象一下,亚马逊把推荐系统的位置全换成游戏广告,每次用户点击收取广告费等同于物品推荐时的单次点击价值。这时会有什么结果?合理的推荐是,如果游戏推荐做得足够精准,这个伪推荐系统的GMV占全站的比例可能越来越高,网站的用户流失率会显著增加,总体营收会趋于下降。

 

这个假设揭露了一个真相:推荐系统的位置本质上就是广告展现;对于任何一个有流量的站点来说,不断上升或者稳定的忠实用话是其最大价值;广告位的展现最好能够同时不损坏甚至提升用户体验。Facebook初上广告时就遇到一个问题:广告的投放影响了用户体验,会损失用户忠诚度,造成用户流失。而对于电商网站来说,为用户推荐物品,是一种能提升用户体验的方向投放,看起来像一种奇妙的巧合。

 

与搜索类似,推荐的本质就是提升用户体验 - 为此它们最主要的方式就是帮助用户快速的找到它需要的产商品,其他的方式还包括给用户新颖感等。事实上,亚马逊宣称的20%的GMV,其中很多是“你不向用户推荐他也会购买的东西”,推荐系统在这方面的贡献是为用户提供了便利性点击,节约了用户的精力。如果没有推荐系统或者推荐系统很糟,用户流向竞品网站的可能性就会增大,这时造成的损害是在整体GMV上。至于推荐的GMV能占全站的比率是多少才合适,这个问题很难回答。只能说每个站点的基准值由产品的综合情况决定,不能一概而论。

 

综合起来,推荐系统有如下几个作用:

1. 提升综合体验: 帮助用户节省精力,增加漫游机率,提升页面访问量及驻留时间,提升留存率;

2. 提升GMV(由1附带的效果);

3. 提升印象。


推荐的结果,用户点不点是个非0即1的的事件,但是用户对它们兴趣度是一个介于0到1的连续的数值。兴趣度的提升,能提升用户对网站的信任度,提升留存及LTV。


  • 推荐系统工作原理本质


在推荐领域被证明有效的算法非常多,如各种CF(协同过滤)、矩阵分解、基于图的算法、关联规则、各种方式的embedding、融合多种特征的CTR-based方法等。深度学习领域的进展表明,如果有一种最接近上帝的方法,那很可能就是embedding的方法。所谓embedding,数学上的意义就是映射。如word2vec通过语料训练把词变成一个数百维的向量,向量的每一维没有明确的物理意义(或者说我们无法理解)。推荐系统如果可以把人很精确地映射成一个向量,把物品也映射成一个同维度同意义的向量,那么推荐就是可以按规则处理的精确的事情了。


640?

图1.最佳的推荐形式


事实上,电影推荐的确可以这样做。豆瓣电影推荐是国内推荐系统的先驱之一,它经过多次迭代,最终形成了一种本质上是embedding的方法来实现推荐:用一定的方法把用户用一系列标签描述,将电影也样同样的标签空间描述,据此计算用户与电影的相似度来推荐,得到的推荐效果非常好。


640?wx_fmt=png

图2.豆瓣基于标签的电影推荐


  • 电商推荐系统的特点


电影是一种文化艺术商品,直接与人的感性感受相关;同时它有比较精深的空间,从数学的角度来说,它具有多个维度的属性,多到可以产生非常丰富的变化,但不至于多到让人脑难以理解。人对电影的兴趣,具有一定的稳定性,不太会发生快速的转变。


在电影的世界里,人与电影都比较容易做embedding。


与电影推荐不同,电商推荐就复杂得多了。主要有如下几点:

 

1. 商品种类数巨大,不同的商品需要不同的embedding。


放在电商的世界里,电影就相当于一种商品。如果要做embedding,用户与每一物品都要做一组embedding,不同的物品无法统一。比如,喜欢白色T-shirt的用户,不见得会喜欢白皮鞋;喜欢咸豆浆的用户,不一定会喜欢咸豆腐脑。而商品的种类可能是数以10万记的。即始可以针对每种商品做embedding,也很难将它们统一起来。

 

2. 单种商品深度不够,难以有效embedding。


描述物品的空间维度一般很浅,除了少数的商品(如女士包等)称得上博大精深,大多数是很简单的。

 

3. 人对商品的兴趣大都建立在短期或者瞬时需求之上。


大部分情况下,人对商品有兴趣是因为正好需要商品,而非中长期的喜好。很多情况下,买了某种耐用品之后,人对它的兴趣(指购买它的欲望)在很长时间内会降到最低。想要embbeding这种转瞬即逝的变化,是一件不容易的事情。当然,也有一些商品及一些情况下,用户的确是对商品有中长期的兴趣,比如刚生小孩的父母,很长时间内会对母婴用品感兴趣。在海量的商品与情景中把这些case都找出来,本身是一件不容易的事情。

 

4. 大量耐消品的影响。


上面的论述中可能已经包含这部分。但有必要单独强调一下:电影是一种极佳的快消品,而在商品的世界里,充满了海量的慢消品 - 慢消品的特点是一旦满足用户兴趣就转移了。

 

5. 用户理论上对所有商品都会有兴趣。


人在一生中,会在不同的时间对大部分商品产生兴趣。用户对商品的大部分情况是短期兴趣。一般情况下,用户短期的兴趣难以预测,只能根据用户明确指时的对哪些商品感兴趣;中长期兴趣在某些情况下可以挖掘。

 

基于以上的原因,在电商领域难以找到完美的embedding方式来实现推荐。其实我们在看各大电商的个性化推荐时,无论宣称背后用怎样复杂的模型融合,从结果看,用户近期行为的权重是非常大的,使得结果非常像itemCF推荐出来的。很容易看到,很多大型电商网站首页的“猜你喜欢”模块,推荐的基本都是与用户最近浏览相似的物品。

 

因此,现代电商的推荐往往用机器学习的方法来实现。对于推荐来说,算法与模型并不是最主要的,重要的是对需求、业务目标、平台用户、平台数据的理解及与之对应的特征工程。


  • 网易严选推荐实践


网易严选推荐的基础模型采用的是CTR模型,基于LR(逻辑回归)。


640?wx_fmt=png

图3.网易严选推荐模型


在核心的特征工程方面,网易严选推荐团队将用户的具体属性(性别、收入水平、地域等)、用户在网易严选的行为属性(短期、长期)、及时间上下文(季节、上次购买时间间隔等)作为属性空间,从1层迪卡尔积开始往上构造N层迪卡尔积形成复杂属性空间P,挖掘属性空间与商品的相关,对有明显相关(正相关或负相关)的(属性、物品)对构造特征。


640?wx_fmt=png

图4.用户属性空间


640?wx_fmt=png

图5.具体属性应用


640?wx_fmt=png

图6.行为属性作为抽象属性与具体属性置以相同的地位


640?wx_fmt=png

 图7.二阶属性(属性的2重迪卡尔积)

   

从结果来看,这一套特征工程方法可以挖出比较全的特征集,在鲁棒性与效果上都有不错的效果,自上线以来各项指标均在稳步提升。


作者沈燕 网易严选算法工程师

转自网易云 [Netease_Cloud]公众号本文已获授权

声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请联系我们。

关联阅读

原创系列文章:

1:从0开始搭建自己的数据运营指标体系(概括篇)

2 :从0开始搭建自己的数据运营指标体系(定位篇)

3 :从0开始搭建自己的数据运营体系(业务理解篇)

4 :数据指标的构建流程与逻辑

5 :系列 :从数据指标到数据运营指标体系

6:   实战 :为自己的公号搭建一个数据运营指标体系

7:  从0开始搭建自己的数据运营指标体系(运营活动分析)

数据运营 关联文章阅读:  

运营入门,从0到1搭建数据分析知识体系    

推荐 :数据分析师与运营协作的9个好习惯

干货 :手把手教你搭建数据化用户运营体系

推荐 :最用心的运营数据指标解读

干货 : 如何构建数据运营指标体系

从零开始,构建数据化运营体系

干货 :解读产品、运营和数据三个基友关系

干货 :从0到1搭建数据运营体系

数据分析、数据产品 关联文章阅读:

干货 :数据分析团队的搭建和思考

关于用户画像那些事,看这一文章就够了

数据分析师必需具备的10种分析思维。

如何构建大数据层级体系,看这一文章就够了

干货 : 聚焦于用户行为分析的数据产品

80%的运营注定了打杂?因为你没有搭建出一套有效的用户运营体系

从底层到应用,那些数据人的必备技能

读懂用户运营体系:用户分层和分群

做运营必须掌握的数据分析思维,你还敢说不会做数据分析

合作请加qq:365242293  


更多相关知识请回复:“ 月光宝盒 ”;

数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

640?wx_fmt=png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/352345.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

7个Python特殊技巧,助力你的数据分析工作之路

选自TowardsDataScience 作者: Perter Nistrup 机器之心编译 参与: 魔王 如何提升数据分析能力?Peter Nistrup 根据自身经验列出了 7 个有用工具。 本文列举了一些提升或加速日常数据分析工作的技巧,包括: 1. Pandas…

推荐 :一文带你了解协同过滤的前世今生

导读 协同过滤:在推荐领域中,让人耳熟能详、影响最大、应用最广泛的模型莫过于协同过滤。2003年,Amazon发表的论文[1]让协同过滤成为今后很长时间的研究热点和业界主流的推荐模型。 什么是协同过滤 协同过滤是基于用户行为设计的推荐算法&…

【Python爬虫】:使用高性能异步多进程爬虫获取豆瓣电影Top250

在本篇博文当中,将会教会大家如何使用高性能爬虫,快速爬取并解析页面当中的信息。一般情况下,如果我们请求网页的次数太多,每次都要发出一次请求,进行串行执行的话,那么请求将会占用我们大量的时间&#xf…

爬虫之静态页面抓取

静态网页抓取 在网络爬虫中,静态网页的数据比较容易获取,因为其所有数据都呈现在网页的HTML代码中 在静态网页抓取中,Python中的Requests库能够容易实现这个需求 通过requests发起Http请求 import requests url"http://www.santostan…

京东常用的API接口

今天分享的是京东平台API,关键字搜索接口。 点击测试​​​​​​​ 万邦京东按关键字搜索商品 API 返回值说明: { "items": { "keyword": "游戏", "page": 1, "real_total…

请问,你了解推荐系统吗

你知道吗 推荐系统:解决问题:系统环节:召回路径:推荐架构:通用技术架构:实现推荐:基于内容的推荐系统【Content-Based Recommendations】余弦相似度:示例计算:余弦相似度…

一条挨踢老狗的 2017 年终总结

2018年是中国的狗年,狗常常象征着忠诚,有忠贞不渝的意义,有时也代表财富。一条常年战斗在挨踢界,对挨踢事业忠贞不渝的老狗今天来回顾2017、展望2018。 作为一条对挨踢事业忠贞不渝的老狗,理所当然是热爱这个工作的&a…

Java面对对象三大特性之封装】

目录 1.封装2. 访问权限2.1 public权限2.2private权限2.3 默认权限 3.包的定义4. static成员5.静态成员初始化6.对象的打印 1.封装 封装:就是将数据和操作数据的方法进行结合,隐藏对象的属性和方法,仅对外实现一些接口和对象进行交互 其实就是…

Storm入门之第6章一个实际的例子

本文翻译自《Getting Started With Storm》译者:吴京润 编辑:郭蕾 方腾飞 本章要阐述一个典型的网络分析解决方案,而这类问题通常利用Hadoop批处理作为解决方案。与Hadoop不同的是,基于Storm的方案会实时输出结果。 我们的这个…

20222817 2022-2023-2《网络攻防实践》第十一次作业

目录 1.实践内容 2.实践过程 3 学习中遇到的问题及解决 4 实践总结 1.实践内容 1.Web浏览器渗透攻击实验 任务:使用攻击机和Windows靶机进行浏览器渗透攻击实验,体验网页木马构造及实施浏览器攻击的实际过程。 2.取证分析实践—网页木马攻击场景分析…

【Storm入门指南】第六章 真实示例

本章将演示一个典型的网页分析方案,通常使用 Hadoop 批量作业来解决的问题。不像 Hadoop 的实现方案,基于 Storm 的解决方案实时刷新并呈现结果。 示例有三个主要部分(如图6.1所示): 一个 Node.js 的web应用&#xff0…

Storm 实时分析系统详解

一、Storm 概述 1、Storm 简介 Storm 是一个分布式的,可靠的,容错的数据流处理系统。它会把工作任务委托给不同类型的组件,每个组件负责处理一项简单特定的任务。Storm 集群的输入流由一个被称作 spout 的组件管理,spout 把数据传递给 bolt, bolt 要么把数据保存到某种存…

Storm 的一个案例

本章要阐述一个典型的网络分析解决方案,而这类问题通常利用Hadoop批处理作为解决方案。与Hadoop不同的是,基于Storm的方案会实时输出结果。 我们的这个例子有三个主要组件(见图6-1) 一个基于Node.js的web应用,用于测试…

getting start with storm 翻译 第六章 part-4

转载请注明出处:http://blog.csdn.net/lonelytrooper/article/details/9982967 Redis服务器 Redis是一套高级的用于持久化的内存KeyValue存储系统(见http://redis.io)。使用它来存储下述信息: ﹒产品信息,用于服务网站。 ﹒用户导航队列…

Phpstorm调试详解(包含命令行以及浏览器)

2019独角兽企业重金招聘Python工程师标准>>> 运行环境 PHP版本:5.5.12 Phpstorm : 9.0.2 xdebug : 2.2.5 下载地址,请下载与当前PHP版本对应的版本 系统平台:Windows 7 一 ,要先给php安装xdebug扩展 1,…

windows核心编程之进程(3)

获取系统版本的函数: GetVersion返回一个DWORD类型的值,高子返回MS-DOS版本号,低字返回windows版本号 本来按照逻辑来说应该是低字的高字节返回windows的主版本号,低字节返回此版本号,但是编写该代码程序员犯了一个小错误&#…

2023CCPC河南省赛 VP记录

感觉现在的xcpc,风格越来越像CF,不是很喜欢,还是更喜欢多点算法题的比赛 VP银了,VP银也是银 感觉省赛都是思维题,几乎没有算法题,感觉像打了场大型的CF B题很简单没开出来,一直搞到最后&…

大学计算机专业 学习Python学习路线图(最新版)

这是我刚开始学习python时的一套学习路线,从入门到上手。(不敢说精通,哈哈~) 希望对大家有帮助哈~ 大家需要高清得完整python学习路线可以 一、Python入门、环境搭建、变量、数据类型 二、数据库编程 三、Linux系统 四、网页编…

哪些手机待办事项软件可以记录备忘并设置提醒?

当下手机软件的种类那么多,为什么有那么多人使用手机待办事项软件呢?原因很简单,因为这类软件可以记录备忘并设置提醒,非常适合哪些喜欢提前规划待办事项的人使用。但是,面对如此多的手机待办事项软件,具体…

【HTML】第 2 节 - HTML 标签

欢迎来到博主 Apeiron 的博客,祝您旅程愉快 ! 时止则止,时行则行。动静不失其时,其道光明。 目录 1、缘起 2、标题标签 3、段落标签 4、文本格式化标签 5、图像标签 5.1、基本作用 5.2、属性 6、超链接标签 7、音频标…