余弦定律应用"/>
余弦定律应用
余弦定律可用来找出相似文章。
先从句子入手:
句子A:我喜欢看电视,不喜欢看电影
句子B:我不喜欢看电视,也不喜欢看电影
怎样才能计算上面两句话的相似程度呢?
基本思路是:如果这两句话的用词越相似,它们的内容就应该越相似。因此可以从词频入手,计算它们的相似程度。
第一步:分词
句子A:我/喜欢/看/电视,不/喜欢/看/电影
句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。
第二步:列出所有的词
我 喜欢 看 电视 电影 不 也
第三步: 计算词频
句子A:我1 喜欢 2 看 2 电视 1 电影 1 不1 也0
句子B:我1 喜欢 2 看 2 电视 1 电影 1 不2 也1
第四步:写出词频向量
句子A:[1,2,3,1,1,1,0]
句子B:[1,2,2,1,1,2,1]
问题就变成了如何计算着两个向量的相似程度。
余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫“余弦相似性”
由此,就得到了“找出相似文章”的一种算法:
1、使用TF-IDF算法,找出两篇文章的关键词
2、每篇文章各取若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使用相对词频)
3、生成两篇文章各自的词频向量
4、计算两个向量的余弦相似度,值越大就表示越相似。
更多推荐
余弦定律应用
发布评论