陌路茶色/

CHAPTER 2 Topic-Level Taxonomy Generation

cube构造过程主要包括两个子任务(1)taxonomy generation:如何发现每个维度的分类结构,(2)document allocation:如何将文档分配到每一个维度下的标签中。接下来的两章描述使用小批量的监督方法的分类生成(taxonomy generation)任务,分类构建的任务是组织给定的term为一个层级结构,有两种类型的分类构建,一种是topic-level,一种是term-level。

OVERVIEW

topic-level的分类构建中每一个节点是term语义上的聚类结果,如下图所示,使用computer science research papers作为语料的结果:
屏幕快照 2019-11-08 下午5.15.59.png
自动将一系列的term归到主题层级结构中是一个非常艰巨的任务,taxonomy generation有很多监督学习的方法,但是需要大量训练集,而另外一条线是hierarchical topic models,该学习过程非常耗时,而写不适合大量语料的情况。

我们提出TaxoGen,其核心思想是:我们是否可以利用term embedding的聚类结构以一种循环的方式来构建主题分类(can we leverage such clustering structures of term embeddings to build topic taxonomies in a recursive way?),即我们需要联合term embedding和hierarchical clustering。

在上图中对computer science research papers的分类构建中,比如cs和computer science应该保留在父terms中,而不是被分配进任何子topics中,因此将父类直接分组以形成子主题是有问题的,但是必须分配不同的term到不同的等级下【没看懂???】。其次,全局embedding是有问题的,比如machine learning主题下的“machine learning” 和“reinforcement learning” term有相似的embedding,但是如果要继续分层的时候,就无法被区分开来,term embedding很难发现machine learning主题下的子主题。

TaxoGen由两个模块组成来解决上述挑战,第一个是adaptive spherical clustering模块,在当要划分一个粗略主题(coarse topic)时,将term分配到一个正确的层级下,通过不同的term对每个子主题的代表性排序来聚类,该聚类模块迭代的检测应该被保留在父类主题的term并重新定义子主题聚类的边界。第二个局部term embedding模块,去加强term embedding在低层级下的区分度,采用[Gui et al., 2018]中方法,该方法使用主题相关的文档来学习每个topic下term的局部embedding。

PRELIMINARIES

构造一个主题分类需要两个部分:(1)文档语料$D$,(2)和维度相关的一系列term集$T$。term是从$D$中提取出来的关键term。给定语料$D$和term集合$T$,我们的目标是去构建树结构的层级结构$H$,$H$中的每一个节点$C$代表一个主题概念,其描述一个语义相关的term集合$T_c \in T$。假定节点$C$有一系列的儿子节点$S_c=\{S_1,S_2,...,S_N\}$,每一个$S_n(1 \leqslant n \leqslant N )$应该是节点C的子主题。

留下一条评论

暂无评论