陌路茶色/

Hierarchical Topic Models and the Nested Chinese Restaurant Process

     berkeley和mit发表的

Abstract

    本文解决从数据中学习主题层级的问题(topic hierarchies),在这个领域模型选择问题是令人生畏的(daunting)-选择哪一个可能的trees,我们采用贝叶斯方法,通过在nested Chinese restaurant process分区上的分布生成先验(We take a Bayesian approach, gen- erating an appropriate prior via a distribution on partitions that we refer to as the nested Chinese restaurant process.)。没参数的先验允许任意大的分支因子以及随时适应不断增长的数据集。我们通过联合这个先验和一个基于hierarchical variant的LDA似然构建了一个hierarchical topic模型,我们在模拟的数据上解释了我们的方法并且在NIPS摘要建模上应用。

Introduction

    复杂的概率模型在生物信息学,信息提取,和vision上越来越流行起来,这些领域创造了一个基本的建模挑战,由于他们的开放性——数据集过段时间就会增长,随着增长,他们会带来新的实体和新的结构。当前的策略建模工具在这方面经常太死板,尤其,基于假设检验(hypothesis testing)的经典模型选择技术(classical model selection techniques)不能很好的匹配这个问题,在其中数据持续增加,无边界通常不相称的结构需要每步去考虑。

像这样建模挑战的一个重要实例是从数据中学习主题层级结构。给定一系列的documents,每一个都包含一系列的words,我们希望发现公共的使用模式或者是文档中的topics,并将这些主题组织为一个层级结构。在这篇文章中,我们开发了一个有效的策略方法去构造一个层级,允许它随着数据的累积而增长并改变。

我们处理模型选择问题通过为层次结构明确一个生成概率模型,并且采用贝叶斯观点在从数据上学习结构的问题上。因此我们的层次结构是随机变量,这些随机变量是根据在数据可用时构造层次结构的算法按程序指定的。这种方法所基于的概率对象是分布在称为Chinese restaurant process的整数分区上。我们展示如何扩展,以及如何使用新的过程表示主题层级的先验和后验分布。

在我们的模型中,层次结构中的每一个节点都与一个主题相关,其中主题是单词的分布。通过选择一个路径从root到leaf,document被生成,按照这个路径采样主题,并从选择的主题中采样words,将主题组织成层次结构的目标是体现在语料中使用主题的广度,反映普遍性和特殊性的潜在句法(underlying syntactic)和语法概念(semantic notions)。这个方法不同于主题层次结构的模型,那些模型是建立在父类和子类相似分布的基础上。我们假设没有这样的限制,比如根节点可能将其所有概率质量放置在功能词上,而其后继都不会将任何概率质量放置在功能词上。

Chinese restaurant processes

我们首先描述Chinese restaurant processes,随后展示这个过程如何被扩展为层次结构。

The Chinese restaurant process

CRP是一个整数分区分布,产生于想象这样一个过程,M个客户坐在一个无限数量桌子的Chinese restaurant里。这个基本过程说明如下,第一个客户坐在第一个桌子上,随后的第m个客户坐在哪一个桌子上的分布如下:
屏幕快照 2019-10-14 下午4.45.25.png
论文中没太看懂,结合层次主题模型-Hierarchical LDA以及什么叫CRP理解,公式(1)第一行式子表示的是当餐馆中已经有$m-1$人且第$i$张桌子已经有$m_i$个顾客时,当前顾客(第$m$个顾客)选择第$i$张桌子的概率。第二行式子表示的是当餐馆中已经有$m-1$人,当前顾客(第$m$个顾客)选择没有人的桌子的概率。参数$\gamma$越大,最后分出的桌子越多。CRP可以很好的描述混合模型中成分数目的不确定,但是其依旧无法刻画混合模型中各个成分之间的层次关系,于是提出nCRP

Extending the CRP to hierarchies

CRP适合混合建模,我们可以在tables和mixture components之间建立一对一的关系,以及在data和mixture components之间建立一对多的关系。在我们接下来要考虑的模型中,每一个data point和多个mixture components联系起来,这些mixture components位于层次结构的路径上。我们开发了CRP的分层版本,用于指定这样的模型的一个先验条件。

nested Chinese restaurant process 可以被定义去想象这样一个场景:假设在一个城市中有无限数量的Chinese restaurant,以及Chinese restaurant中有无数的桌子。一个餐馆被指定为根餐馆,在该餐馆的每一张桌子上有一张卡片,显示另外一个餐馆的名字,在那些餐馆的每一张桌子上都会有一张显示其他餐馆的卡片,这个结构被无限的重复,每一个餐馆只能被提到一次,因此,城市中的餐馆可以被组织为一颗无限分叉的树,每一个餐馆将和树中的一个等级联系起来,比如根餐馆位于树的第一层。

一个旅游者来到这个城市享受美食假期(for a culinary vacation),第一个晚上,他进入到根餐馆,并按照公式(1)选择一张桌子,在第二个晚上,他去第一个晚上那张桌子上指定的餐馆,同样按照公式(1)选择桌子,重复这个过程$L$天,在这个旅行结束时,游客已经去了从根餐馆到第L层餐馆路径的$L$个餐馆,在$M$个游客度假$L$天后,路径集合描述了一个$L$级的子树,如下图所示:
屏幕快照 2019-10-14 下午5.31.48.png
先验可以被使用建模主题层次结构,就像标准的CRP可以被使用解释component的数量的不确定性(也就是桌子数量的不确定性),nested CRP可以被使用来解释L层树的不确定性。

A hierarchical topic model

考虑由文档语料组成的数据集,每一个document是一个word的集合,word在vocabulary中。我们的基本假设是文档中的单词是根据混合模型(mixture model)生成的,混合的比例是随机的和文档特定的(document-specific),考虑一个多项式变量$z$,以及一组与单词相关的分布$p(w | z, β)$,β 是一个参数,在我们的模型中topic(每一个可能值$z$的分布)是一个基本的混合成分(the basic mixture components),与这些成分相关的document-specific混合比例用向量θ表示,假定在语料中有$K$个主题,假设我们会很快放松,
...看不下去了。

思考

留下一条评论

暂无评论