国内外在推荐系统领域的发展现状?

来源:本站 浏览

小编:  首先看下整个新闻推荐系统大图,今天这篇文章就是为大家讲解这张图的具体含义和相互关系,今天主要是介绍大概最为开篇,接下来会有一系列文章介绍图中每一部分的策略

  首先看下整个新闻推荐系统大图,今天这篇文章就是为大家讲解这张图的具体含义和相互关系,今天主要是介绍大概最为开篇,接下来会有一系列文章介绍图中每一部分的策略。

  图中红色相关的形状是两个输入,分别是用户和内容,分别代表两个路径,表示的是当推荐系统进入一个用户或一个内容的行为轨迹。本文把整个推荐系统按照业务路径分成3个部分,分别是用户数据轨迹、内容数据轨迹以及推荐列表生成,接下来分别介绍下每个环节的作用。

  用户轨迹方面,每次进来一名用户首先要判断这名用户是否是新用户,一旦发现是新用户将启动冷启动策略,这个策略在之前的文章已经介绍过。如果用户不涉及到冷启动问题,则进入用户画像的构建流程。

  用户画像的构建分为两种,分别是用户注册标签特征(用户注册的时候获取的特征),还有一种是平台行为特征(用户过去在平台的一些操作日志)

  账号注册信息:注册的时候可以让用户填写年龄、性别等内容、手机号等内容,同时也可以通过LBS信息了解用户的活动区域。针对这些信息可以给用户兴趣做一个初步判断,比如年轻的都市女性,往往有较高的消费能力,在推荐策略上可以推荐高规格的一些内容

  身份证信息:现在很多系统都需要实名认证,身份证号其实可以带来很多有用的信息,比如前两位是省级代码,34位是市级代码,7-14位是生日代码,第17位是性别代码(奇数代表男性、偶数代表女性)

  社交账号登录:如果系统可以设计成支持淘宝、微信等账号登录,也可以通过这些系统拿到部分用户画像信息

  预采集:现在很多APP,当用户初次进入都有一个兴趣爱好勾选的按钮,这个就是为了解决冷启动的一个手段,在推荐之前先通过用户标记获取用户信息

  数据交换:注册的时候其实可以拿到用户的手机号码,现在有很多卖数据的公司都提供用户画像数据的交易,只要提供手机号就能获取特别全的用户数据(这个貌似是个黑产业)

  获取了以上用户的特征信息,做汇总就可以入“用户总库”,这个用户行为数据库将对接下来的模型训练起到重要作用。

  内容轨迹指的是每次平台新增新闻内容时的操作。新闻内容不同于其它推荐场景,对于内容的安全审查是非常重要的。如果出现不健康内容,对于平台会有很大的伤害,具体策略日后详细讲解。执行完内容审查,要开始对内容进行打标,标签分两种,分别是内容自身特征以及平台行为特征。

  当收集了内容以及用户特征后,就组成了所有平台上的内容总库以及用户总库,可以将这两个组件合并构建出模型训练集。训练集汇总了所有平台上的某某文章被某某阅读点击过的全部行为日志,这样就可以通过算法训练一个模型用来新闻推荐。

  有了内容推荐模型后,要进行的操作就比较简单了,为用户预测出他感兴趣的模型。有的同学会说,既然有了模型那么对每个用户在全网所有文章的兴趣点预测一次,取topN不就可以了?通常推荐系统不会这么做,因为每个用户对每个文章都算一下兴趣度计算量非常大,而且很难在用户进入新闻终端时快速拿到预测结果。

  通常的做法是先通过召回策略筛选出部分推荐候选集,再通过内容推荐模型对候选集进行预测并排序,这样就可以大大减少计算量。

  通过内容推荐模型对召回候选集数据进行预测,拿到用户感兴趣的文章排序列表,就可以推送给用户。以上是本文的介绍,略过了中间的很多策略,待后续文章补充。

  推荐系统其实是一个非常大的领域,电商推荐、内容推荐(内容还分很多类别)都有各自的特点,从这两年看的主要趋势是:

  1. 因为机器学习技术的成熟,以及对各种复杂特征的利用方式逐步成熟。现在国内较大的公司如A和今日头条等,都在广泛使用机器学习来构建推荐系统。传统的协同过滤、tag、和各种你能看懂的基于规则或者群体智能甚至物理学的传统推荐方法在逐渐被淘汰。这点在内容推荐上尤其明显,因为这些传统推荐策略都无法解决对长尾内容的精细化个性化推荐和热度穿透等问题,而且效果上也远远不如机器学习方法。

  当然,这些传统的启发式策略在做冷热启动、降级策略、初筛策略时仍然是有价值的

  2. 基于机器学习的推荐系统说白了和计算广告是类似的,就是用超大规模的稀疏表达的特征(上亿轻轻松松),和巨量的样本,训练一个预估用户点击率、浏览时长、点赞率、购买率(反正是你的某个业务目标)的模型。这个技术已经比较成熟,这两年主要的发展是各种之前想不到或者想到了但是很难用的特征可以被加入进来,而且还越用越6,包括但不限于:

  a) GPS坐标、ip地址、屏幕分辨率:之前GPS坐标可能还要转下义,现在有人直接经纬度组合起来就敢用,效果还不错,而且随着业务覆盖人群越大,这个特征的信号越强。

  d) 实时session:用户最近的行为,直接拿来做特征,可以让模型具有极好的个性化效果,前提是你会用正确的方法来使用

  e) 某些我不方便说的涉及到公司专利的特征,使得模型体积变得巨大无比的同时,真正做到对每个用户id产出的推荐结果都非常不一样。

  f)通过一些特征的构造让模型有记忆能力,在信息流式的内容应用中特别有价值,比如避免你过多看到同一类新闻、视频等。而这些都不是通过规则,而是在模型中通过参数来表达的。

  3. 模型本身的技术升级,如果你了解这个领域,那么LR 一定是你最熟悉的模型。其实LR依赖特征工程,本身也是个上限很高的模型,值得做很久。那么后面到加入FFM(尽管很难调),到使用GBDT构造特征,到使用某些奇淫技巧把超级稀疏的特征以类似embedding的方式变成连续特征直接用上GBDT。这每一步升级都会带来实际效果的明显提升。当然目前也有人用DNN在做特征甚至直接做模型。但是由于硬件的问题,DNN做模型在商业上对于推荐系统这种大规模成本敏感的行业,还是不够经济,但是这一天可能也不会很远了。

  4. 你可以想象,为了使用到这么巨大的维度的特征和复杂的模型以获得商业回报,相应的算法框架和基础设施也有了巨大的发展。基于一系列机器学习专用工程优化的计算框架也方兴未艾, 使得我们可以在很便宜的(相比几年以前)云端集群上拉拉GUI就能在几分钟内完成训练上亿特征的工业可用的复杂模型,然后点一下鼠标就能推上线变成服务。这种机器学习平台工具我们应该是国内不多的对外开放的供应商之一:

  先写这么多,这个问题实在太大了,有兴趣的可以在评论中,能回答的一定回答。

  推荐系统是工业界和学术界研究的热门话题,因此学术界和工业界都在以此为重点来展开研究,学术界更侧重理论层面的分析、模型精度的提升;工业界更侧重实践层面的发展、用户体验的提升。

  1、为了缓解用户-物品矩阵的数据稀疏以及冷启动问题,引入更多附加信息。比如社交信息、文本评论信息、上下文信息等。

  2、为了更细粒度的抽取用户、物品的特征,引入深度学习技术。比如利用CNN来处理文本信息来更好的建模物品属性、利用GE来处理社交网络信息来更好的建模用户偏好等。

  3、在实现更精确推荐的同时,可解释性也逐渐成为研究热点。用户不仅需要精确的推荐列表,更迫切的需要给我特定推荐列表的推荐解释。好的推荐理由可以让用户更加相信推荐算法的健壮性。比如利用社交网络的朋友信息来实现推荐物品的解释。

  4、随着用户对于个性化要求的逐渐提高,探索与利用问题也值得关注。用户希望推荐系统可以精确的捕捉自己的兴趣爱好,同时也希望推荐算法可以探索出自己不知道的一面,给用户以惊喜度。

  5、随着用户与物品的数量急剧增加,推荐效率也被提上日程。随着移动互联的发展,用户更多的是使用移动设备,如何在大数据量面前能够实现快速模型训练与推荐,哈希技术没准能帮上大忙。

  6、推荐的隐私与安全问题不容忽视。这是推荐的一个矛盾问题,一方面由于数据稀疏,我们希望获取用户的数据越多越好;相反,拿到越来越多用户的个人数据后隐私与安全问题就会显现。因此如何做好缓解数据稀疏与保护用户隐私安全是一个很严峻的研究问题。

  另外,基于以上研究问题,最近整理了一份推荐论文列表,包括100多篇论文,里边涵盖了经典综述、传统经典推荐算法、社会化推荐算法、基于深度学习的推荐算法、推荐系统中的冷启动缓解算法、POI推荐算法、用于推荐的哈希算法、推荐中的探索与利用算法以及推荐系统中的可解释性文章等。

  互联网行业从业近7年,大数据近7年,推荐相关经验5年左右,目前带着大数据和算法团队,其中推荐系统是我们的重点项目,可以说一些相关的东西。

  推荐相关的一些基础,之前有写过专栏,完整的系列,感兴趣的可以看看,不管是技术的还是数据开发还是产品运营,多了解一些。

  最新的基本都是和深度学习挂钩的,比如Youtube的推荐,spotify的推荐,他们已经用起来了,

  我昨天突然知道我们全广告位的AUC已经做到了0.92, 我也是非常震惊的。

当前网址:http://www.hbxwzx.com/shehui/2020-12-30/187360.html

免责声明:本文仅代表作者个人观点,与北方资讯网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

你可能喜欢的: