陌路茶色/

Theme-weighted Ranking of Keywords from Text Documents using Phrase Embeddings

18年发表,本文联合PageRank和embedding来提取并排序关键词。【单文档】
和Key2Vec: Automatic Ranked Keyphrase Extraction from Scientific Articles using Phrase Embeddings几乎一样,因此会将两篇混在一起讲述。

I. BACKGROUND AND INTRODUCTION

本论文的目标不仅仅是提取和文档相关的关键词,更重要的是找出与文档主题最相关的有意义的短语(meaningful phrase),对于选出来的top-K个关键词有如下几点要求:
1)understandability:容易理解
2)relevancy:和主题相关
3)good coverage:应该覆盖文档中被提到的主题
本论文主要的贡献如下:
1)训练phrase embedding
2)文档主题表示:使用短语embedding和为每个候选关键词分配主题权重
3)使用PageRank为候选关键词排序

II. METHODOLOGY

主要的三个步骤:candidate selection, candidate scoring,和 candidate ranking

Text Processing

依赖于Spacy的实体提取和依存句法,首先将文档分为句子,再将句子分为unigram token,作如下过滤:
1)过滤到全部是数字的名词短语和实体
2)属于DATE, TIME, PERCENT, MONEY,QUANTITY, ORDINAL, CARDINAL的实体被过滤掉
3)停用词被移除
4)标点被移除,除了'-'
同时也对名词短语和实体的前后token做如下处理:
1)如果常用的形容词和报道动词出现在名词短语和实体的前面或后面,将被移除
2)限定词如果出现在名词短语和实体的第一个token将被删除
3)。。。对第一个token和最后一个token的词性做了限定
4)前后token是停用词将被移除
5)前后token如果属于标准的英语功能词将被移除(english functional words)
同时使用Spacy中的解析器移除垃圾词,上述整个Text processing过程如下图所示:
屏幕快照 2019-12-18 上午11.04.08.png

Embedding Model Selection

embedding使用fasttext,论文中提到Fasttext相对于word2vec而言不但能体现语义的信息,而且能够体现形态的形式性,即fasttext embedding考虑单词的内部结构,对于形态语言学来说是非常有用的,尤其是对于出现比较少的单词,参考FastText and Gensim word embeddings中说明了fasttext之所以能够体现出形态学,是因为使用了n-gram,如果去掉n-gram结果和word2vec差不多,即word2vec只能学习到semantic,而fasttext不但能够学习到semantic(语义),还能学习到syntactic(句法/语法),而我们需要如果"breast cancer"在文档中的主题中,那么"breast cancer"和"breast cancer treatment"应该有相似的主题权重,而不是"breast cancer"和"prostrate cancer"有相似的主题权重。
1)Evaluation Dataset:第一个数据集由106个三元组组成,有3个短语,来评估短语-短语之间的相似性,第二个短语要比第三个短语和第一个短语更相似,sim(e1,e2)>sim(e1,e3),第二个数据集有6247个三元组,是从title中提取出来的,其中第一个短语和第二个短语在wiki中属于同一个目录,而第三个短语属于不同的目录,第三个数据集有6353个三元组,是phrase-sentence的联合,来评估phrase-sentence 和sentence-sentence的相似性,即三元组中的每一个元素由phrase-sentence组成,类似于上面的比较方式。
2) Training:使用fasttext
。。。

Candidate Scoring

要为每个文档$d_i$分配一个主题向量$(\hat τ_{d_i})$,可以根据正在处理的文档的类型以及我们希望在最终结果中获得的关键词的类型来调整主题向量,计算方式是重theme excerpts中提取出来的短语对应的Embedding的和作为$(\hat τ_{d_i})$,而候选短语的主题权重则是其对应的Embedding和主题的Embedding之间的相似度的结果

Candidate Ranking

这部分如下计算公式:
屏幕快照 2019-12-23 下午10.34.42.png
屏幕快照 2019-12-23 下午10.35.14.png
这个PMI可以理解为$c_j$和$c_k$出现在一个窗口下的频率比单独出现的频率的乘积 【我是这么理解的】

Experiments and Results

略。。。

留下一条评论

暂无评论