陌路茶色

陌路茶色

海阔凭鱼跃,天高任鸟飞


文章主要围绕 memorization(记忆) 和 generalization(泛化)展开,memorization由一系列的特征组合来实现,即文中说的wide部分,需要做大量特征工程来挖特征,generalization由deep neural network实现,通过从稀疏特征中学习低维embedding可以更好的概括一些没有看到的特征组合,但是,当用户交互稀疏且高秩的时候(高秩的意思是user和item之间的交互矩阵对应的秩很大,即有效特征很多,白话一点就是user和item之间的关系非常的复杂,不能通过简单的几个特征来表征),dnn由于学习不充分,就会使学习到的embedding过度泛化,导致推荐一些不相关的item。于是,这篇文章联合了wide和deep来优化当前的推荐系统(本文提到的是Google Play的acquisition行为,app的下载/购买)

More...


知乎上有同类的解读 见:https://zhuanlan.zhihu.com/p/556283928
原论文:https://storage.googleapis.com/pub-tools-public-publication-data/pdf/28195006135023ef2c41f65ac16b60fa6ac99cb8.pdf

abstract

切入点是说,当前的单一向量表示没法很好的体现query和doc在某些方面的相关性,比如电商场景中的query是"白色耐克袜子",Dense Retrieval可能召回"白色阿迪袜子",即没有捕捉到品牌意图。由此,增加了一个aspect预测的任务,让模型用不同的 aspect embedding来体现不同的 aspect信息,并设计了一个轻量级的融合网络来融合这些aspect embedding,在一个电商数据集上高于比较好的Dense Retrieval模型,同时也发现aspect embedding可以加强dense Retrieval的可解释性

More...


Paper readding
Interested in:
(1)Query understanding、Retrieval、Relevance、Rank、Multi-modal
(2)Large Language Model
Keywords:Information Retrieval、Lexicon-aware retrieval、Dense retrieval、dual-encoder、sparse representations for queries and documents

More...