陌路茶色/

LMLSTM:Extract Event-Oriented Keyphrase From News Stream

面向事件的关键短语提取,使用LMLSTM来提取事件导向的关键短语,其代表或者和某个事件相关。
本论文的模型很简单,个人觉得本论文中的P@20这个评价指标可以以后学习一下。

INTRODUCTION

之前的工作可以分为两个类别:有监督的关键短语提取和无监督的关键短语提取,有监督的关键短语通常作为一个二分类任务,本论文主要关注有监督,然而存在的有监督方法遭受如下两个缺点:
• Ignore users’ specific needs:对于不同的应用,可能需要不同的关键短语,比如谈论“俄罗斯客机在埃及坠毁”,“坠毁”应该是一个关键短语,但是当我们仅仅考虑飞机坠毁后的影响时它就不在是一个关键短语。
• Fail to extract event-oriented keyphrases:相同的主题下的不同事件可能共享相同的关键短语,显然这样不能从相同的主题下区分不同的事件。

本论文的工作可以总结为三个阶段,第一个阶段:利用n-gram获取候选短语,第二个阶段:使用LMLSTM预测候选事件导向的关键短语,第三个阶段:使用4个ranking函数从不同的方向排序提取的关键短语。

PRELIMINARIES

事件导向的关键短语提取是从相同事件中提取一组有很好区分度的关键短语,给定事件数据集$E$和新闻集$N$,其中第$i$个事件$e_i \in E$和新闻集$D_i=\{d_1,d_2,...,d_n\}$相关,我们的目标是从语料集中提取事件导向的关键短语。

METHODOLOGY

StageI: Candidate Generation

分词,移除噪声和停用词,词性标注,基于如下规则:
(1)提取的短语长度在2,3,4,5中
(2)使用停用词过滤
(3)仅保留部分词性的词,包括person (nr), location (ns), organization (nt), noun(n), and verbs (v)
按如上规则我们获取到了高质量的候选关键短语。

StageII: LMLSTM Model

模型结构如下所示:
屏幕快照 2019-12-11 下午10.50.08.png
左边是候选短语字的embedding过一层单向LSTM,右边是候选短语对应的article过一个一层单向LSTM,取最后一个输出和左边的每个输出concat,然后过一个softmax层,最后将这些概率相乘作为短语$k$和文章$y$的联合概率$p(k,y)$,相应的公式如下:
屏幕快照 2019-12-16 下午7.27.04.png
屏幕快照 2019-12-16 下午7.31.01.png
其中$h_t$为左边的隐藏层输出,$v_y$为右边最后一个单元的输出,公式10将这些概率相乘。
该模型中,每一个候选短语以<s>开始,</s>结束,所有候选词对应的全部中文字符为4550,隐藏层大小为100,学习率有1开始随着训练修改,使用早停。

StageIII: Keyphrase Ranking

上述公式(10)并不是模型的损失函数,在公式(10)的下一段中提到,使用数据集中$y$的经验频率来计算$p(y)$,使用贝叶斯规则来计算$p(y|x)$,有了这些,第三阶段提出了4中模型的损失函数(排序函数),如下(详细见论文):
屏幕快照 2019-12-16 下午7.37.56.png

EXPERIMENTS

Dataset

数据集构造:爬取新浪中热点事件,具体数据集参数如下:
屏幕快照 2019-12-16 下午7.42.16.png

Evaluation Tasks and Metrics

两个问题:
(1)LMLSTM是否好于其他基于事件的关键短语提取的baseline?
(2)LMLSTM提取事件相关的关键短语的能力如何?
使用PRF评估模型表现,使用P@20来评估提取的结果。

Baselines

TF-IDF,TextRank,RNN-LMs

Experimental Results

针对上述的两个问题来分析:
1)Performance comparisions
结果如下所示:
屏幕快照 2019-12-16 下午7.46.54.png
2)Document retrieval
选取关于"俄罗斯客机坠毁"这个事件的两个事情(文章,主题),一个是在airport,一个是在egypt【我的理解是只有两篇文章,两个事件,分别记为$e_1$,$e_2$】,这样我们一方面可以评估事件导向的关键短语是否在相同的事件下有区分度,另一方面也为了看4种排序方法的影响。
选取每种排序方法对该文章提取的前5个事件导向的关键短语,然后使用"俄罗斯客机坠毁"和keyphrase作为查询输入到google中,取google返回的前20个item来评估,展示如下图:
屏幕快照 2019-12-16 下午7.51.47.png
关于这个P@20的理解:P为PRF中的P,也就是模型判断的正样本中有多少真的是正样本,比如$p(x|y)$对应的关键短语"埃及",使用google搜索查询 "俄罗斯客机坠毁"+"埃及"的返回页面前20个有多少是在讲"俄罗斯客机坠毁"发生在egypt这个事件,结果是1表明前20个item对应的文章都是在讲事件$e_2$。

留下一条评论

暂无评论