LDA主题模型发展历程(1)

编程入门行业动态更新时间:2024-10-12 14:24:13

LDA主题模型<a href=https://www.elefans.com/category/jswz/34/1757225.html style= 发展历程(1)"/>

LDA主题模型发展历程(1)

主题模型发展历程

**
首先从Unigram model谈起，基于Unigram model加入贝叶斯先验得到贝叶斯Unigram model,再基于SVD分解得到LSA模型，在LSA模型的基础上加入概率化的解释，就得到了PLSA,在PLSA的基础上加入先验化的分布就得到了LDA。

Unigram Model

贝叶斯Unigram Model

对于以上模型，贝叶斯统计学派持有不同的意见，他们认为只假设上帝拥有一个固定的骰子不合理。在贝叶斯学派看来，一切参数都是随机变量，所以认为以上模型中的骰子不是唯一固定的，它也是一个随机变量。流程如下：

LSA

LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”。我们知道，在文档的空间向量模型中，文档被表示成由特征词出现概率组成的多维向量，可以对不同词项赋予不同的权重，在文本检索、分类、聚类问题中都得到了广泛应用，然而，向量空间模型没有能力处理一词多义和一义多词问题，例如同义词也分别被表示成独立的一维，计算向量的余弦相似度时会低估用户期望的相似度；而某个词项有多个词义时，始终对应同一维度，因此计算的结果会高估用户期望的相似度。
LSA方法的引入就可以减轻类似的问题。基于SVD分解，我们可以构造一个原始向量矩阵的一个低秩逼近矩阵，具体的做法是将词项文档矩阵做SVD分解

其中是以词项(terms)为行, 文档(documents)为列做一个大矩阵. 设一共有t行d列, 矩阵的元素为词项的tf-idf值。然后把∑的r个对角元素的前k个保留（最大的k个保留）, 后面最小的r-k个奇异值置0, 得到∑k；最后计算一个近似的分解矩阵

则Ck在最小二乘意义下是的最佳逼近。由于∑k最多包含k个非零元素，所以Ck的秩不超过k。通过在SVD分解近似，我们将原始的向量转化成一个低维隐含语义空间中，起到了特征降维的作用。每个奇异值对应的是每个“语义”维度的权重，将不太重要的权重置为0，只保留最重要的维度信息，去掉一些信息“nosie”,因而可以得到文档的一种更优表示形式。

参考：
《LDA数学八卦》
...

更多推荐

LDA主题模型发展历程(1)

本文发布于:2024-02-07 14:10:26，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1757291.html