陌路茶色/

Salience Rank: Efficient Keyphrase Extraction with Topic Modeling

Abstract

topiccal PageRank(TPR)使用LDA来排序从文档中提取出来的名词短语。ranking过程由运行K次PageRank组成,K是LDA中中主题的个数,本论文提出了一个修改的TPR,叫Salience Rank。Salience Rank只需要运行PageRank一次就可以提取更好的keyphrase。【单文档排序方法】
可以参考前面写的两篇相同的工作:
Topic representation: finding more representative words in topic models
Re-Ranking Words to Improve Interpretability of Automatically Generated Topics
其实这篇文章就是将Salience Rank值替换了PageRank中的$p(t|w)$,而Salience Rank早就被提到过,在我上面的两篇文章中有提到。

Review of Related Models

无监督短语提取可以作为一个排序问题,首先,从文档中提取候选短语,可以定义名词短语为候选短语,然后对这些候选短语进行排序。
构建图的方法是对于语料中的单词集$W=\{w_1,w_2,...,w_N\}$,$边\ \ e(w_i,w_j)$表示$w_i$和$w_j$有边相连(比如两个单词相连作为边)

Topical PageRank

训练好LDA后,可以求解出$p(t|w)$和$p(w|t)$,按照上述方式构建图后,TPR会对每个主题下的每个单词计算重要性(PageRank):
屏幕快照 2019-11-10 下午5.08.28.png
其中$p(t|w_i)$表示单词$w_i$在主题$t$下的重要度,有边相连,代表贡献度,使用PageRank给主题下每个词加上重要度权重,对于短语而言,是其每个词重要度的和:
屏幕快照 2019-11-10 下午5.55.15.png
最后计算出每个词在所有主题下的重要度和:
屏幕快照 2019-11-10 下午6.44.49.png

Single Topical PageRank

STPR减少TPR的时间复杂度,和Salience Rank一样,运行PageRank一次,STPR的思想是基于TWI(w)的(top- ical word importance),定义为$[p(w | t_1 ), . . . , p(w | t_K )]$的向量和$[p(t_1 |d),...,p(t_K |d)]$向量的余弦相似度,然后使用下面公式代替公式(2)中的$p(t|w_i)$:
$$\frac{TWI(w_i)}{\sum_{w_k \in W} TWI(w_k)}$$

Salience Rank

Word Salience

给出如下定义,单词在主题中的重要度:
屏幕快照 2019-11-10 下午8.34.47.png
KL散度之前提到过,公式(5)表示的是(出现单词w的情况下,主题t的概率)和(主题t的概率)之间的拟合度,拟合度越高,说明w在主题t下的重要度越低,做归一化:
屏幕快照 2019-11-10 下午8.52.52.png

留下一条评论

暂无评论