陌路茶色/

Weakly-Supervised Neural Text Classification

INTRODUCTION

本论文总结为如下几点:
(1)设计了WeSTClass方法来解决文本分类标签稀疏的问题
(2)通过模拟类别语义构建球形分布,我们提出了一种新颖的pseudo document generator
(3)提出self-training algorithm来训练神经网络模型,该算法利用了pseudo documents

PRELIMINARIES

Problem Formulation

定义文档集合$D = \{D_1, . . . , D_n \}$以及m个目标类别$C = \{C_1,...,C_m\}$。该论文主要关注在弱监督学习上,弱监督信号从如下几点得到:
(1)类别$C_j$的标签名$L_j$,$L=\{L_j\}|_{j=1}^{m}$。(这个是通过之前的Taxonomy Construction部分实现的,指的是维度标签,比如说按topic维度有Sports,Politics,Economy等标签名)
(2)类别$C_j$相关的关键词$S = \{S_j \}|_{j=1}^{m}, \ S_j = \{w_{j,1}, . . . ,w_{j,k} \}$
(3)有标注的文档 $D^L = \{D_j^L\}|^m_j=1,\ \ D_j^L = \{D_{j,1},...,D_{j,l}\}$,即对m个类别,分别标注l个文档,其中$l$远小于$n$

Method Overview

本论文提出的方法包括两个关键模块,第一个是pseudo-document generator:统一种子信息并输出pseudo documents,第二个是self-training algorithm,下面详细介绍。

PSEUDO DOCUMENT GENERATION

首先介绍如何在words和documents的联合语义空间中建模类别分布,其次描述pseudo document generation 过程。

Modeling Class Distribution

假设words和documents共享联合语义空间(联合的意思是说pseudo document向量也在相同的球体空间上),首先使用skip-gram来学习p维的向量表示语料中的words,然后描述如何处理不同类别的种子信息:
• Label surface names: 当仅提供标签名$L$作为种子信息时,对于每一个类别$j$,使用标签名$L_j$的embedding在语义空间中提取top-t个最相近的words。【标签名肯定在语料中???】
• Class-related keywords:当用户为每个类别$j$提供一系列相关关键词$S_j$时,我们这些种子词的embedding(取平均)在语义空间中提取top-t个关键词。
• Labeled documents: 当提供类别$j$相关的小数量的文档集$D_j^L$时,首先使用tf-idf在$D_j^L$提取t个具有代表性的关键词(文档集,不是每篇文档提取t个),然后考虑这些关键词作为类别相关的关键词。

Von Mises–Fisher distribution,第一类贝塞尔函数,看不下去了。。。。。。

留下一条评论

暂无评论