LDA主题模型发展历程(1)

编程入门 行业动态 更新时间:2024-10-12 14:24:13

LDA主题模型<a href=https://www.elefans.com/category/jswz/34/1757225.html style=发展历程(1)"/>

LDA主题模型发展历程(1)

**

主题模型发展历程

**
首先从Unigram model谈起,基于Unigram model加入贝叶斯先验得到贝叶斯Unigram model,再基于SVD分解得到LSA模型,在LSA模型的基础上加入概率化的解释,就得到了PLSA,在PLSA的基础上加入先验化的分布就得到了LDA。

Unigram Model



贝叶斯Unigram Model

对于以上模型,贝叶斯统计学派持有不同的意见,他们认为只假设上帝拥有一个固定的骰子不合理。在贝叶斯学派看来,一切参数都是随机变量,所以认为以上模型中的骰子不是唯一固定的,它也是一个随机变量。流程如下:


LSA

LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”。我们知道,在文档的空间向量模型中,文档被表示成由特征词出现概率组成的多维向量,可以对不同词项赋予不同的权重,在文本检索、分类、聚类问题中都得到了广泛应用,然而,向量空间模型没有能力处理一词多义和一义多词问题,例如同义词也分别被表示成独立的一维,计算向量的余弦相似度时会低估用户期望的相似度;而某个词项有多个词义时,始终对应同一维度,因此计算的结果会高估用户期望的相似度。
LSA方法的引入就可以减轻类似的问题。基于SVD分解,我们可以构造一个原始向量矩阵的一个低秩逼近矩阵,具体的做法是将词项文档矩阵做SVD分解

其中是以词项(terms)为行, 文档(documents)为列做一个大矩阵. 设一共有t行d列, 矩阵的元素为词项的tf-idf值。然后把∑的r个对角元素的前k个保留(最大的k个保留), 后面最小的r-k个奇异值置0, 得到∑k;最后计算一个近似的分解矩阵

则Ck在最小二乘意义下是的最佳逼近。由于∑k最多包含k个非零元素,所以Ck的秩不超过k。通过在SVD分解近似,我们将原始的向量转化成一个低维隐含语义空间中,起到了特征降维的作用。每个奇异值对应的是每个“语义”维度的权重,将不太重要的权重置为0,只保留最重要的维度信息,去掉一些信息“nosie”,因而可以得到文档的一种更优表示形式。

参考:
《LDA数学八卦》
...

更多推荐

LDA主题模型发展历程(1)

本文发布于:2024-02-07 14:10:26,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1757291.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:发展历程   模型   主题   LDA

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!