陌路茶色/

Deep Neural Networks for YouTube Recommendations

根据信息抽取的两个阶段将本论文分成deep candidate generation model和deep ranking model。【粗读,粗读,粗读!!!有点复杂。。。只想知道模型的大概结构】

INTRODUCTION

本论文重点关注在深度学习对YouTube视频推荐上的巨大影响,推荐YouTube视频存储如下三个主要方便的挑战:
(1)Scale:YouTube中存在大量的视频,现存的推荐算法只是对小数据集上很效果好,无法适应大规模的场景。
(2)Freshness:YouTube上每秒会上传有大量的视频,推荐系统应该充分关注最近上传的视频和用户最近的行为。
(3)Noise:数据的稀疏和不可观察的外部因素。
本论文提出的推荐系统如下所示,包括两个神经网络candidate generation 和ranking:
屏幕快照 2019-11-13 下午9.40.02.png

CANDIDATE GENERATION

Recommendation as Classification

将推荐作为一个多分类问题,预测问题变成给定一个用户$U$以及其上下文$C$的情况下,在时间t上观看的video $w_t$的概率:
屏幕快照 2019-11-16 下午4.49.00.png
$u \in \mathbb{R}^N$为一个高维度的embedding,$v_j ∈ \mathbb{R}^N$表示每个候选video的embedding表示。最后使用最邻近算法来获取最有可能的N个结果。

Heterogeneous Signals

使用深度学习的原因是因为连续的和分类的特征可以很容易的被添加到模型中来,搜索历史和观看历史相似,每一个query都被标记为unigram和bigram中,并作为embedding中的一部分,这样使用embedding来表示用户搜索历史的概括【没太懂,是在说卷积的过程吗???】。人口统计特征作为先验分布,对于新用户的推荐来说将是有理的【不懂】。用户的地理位置,设备信息将被嵌入并连接,简单的01特征和连续特征包括用户的性别,年龄,登入状态等将被归一化到[0,1]之间并直接输入到网络中,结构如下图所示:
屏幕快照 2019-11-16 下午6.58.23.png

推荐最近上传的内容给用户对YouTube来说是极其重要的,我们观察到用户更喜欢花费时间在新鲜的内容上,而不是在相关的视频上。最后选取视频的age作为模型的特征,当使用该特征时,模型对某个视频的预测概率和经验分布更加匹配,如下图所示:
屏幕快照 2019-11-16 下午6.40.35.png
横坐标表示该视频的上传时间,在视频上传不久,使用age特征的模型会以比较高的概率推荐给用户,符合经验概率。

Label and Context Selection

问题是预测用户下一时刻观看的video,

留下一条评论

暂无评论