余弦定律应用

编程入门 行业动态 更新时间:2024-10-19 04:21:08

<a href=https://www.elefans.com/category/jswz/34/1715121.html style=余弦定律应用"/>

余弦定律应用

余弦定律可用来找出相似文章。

先从句子入手:


句子A:我喜欢看电视,不喜欢看电影

句子B:我不喜欢看电视,也不喜欢看电影


怎样才能计算上面两句话的相似程度呢?


基本思路是:如果这两句话的用词越相似,它们的内容就应该越相似。因此可以从词频入手,计算它们的相似程度。


第一步:分词

句子A:我/喜欢/看/电视,不/喜欢/看/电影

句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。


第二步:列出所有的词

我  喜欢  看  电视  电影  不  也


第三步: 计算词频

句子A:我1   喜欢 2   看 2   电视 1 电影 1 不1  也0

句子B:我1   喜欢 2   看 2   电视 1 电影 1 不2  也1


第四步:写出词频向量

句子A:[1,2,3,1,1,1,0]

句子B:[1,2,2,1,1,2,1]


问题就变成了如何计算着两个向量的相似程度。


余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫“余弦相似性”


由此,就得到了“找出相似文章”的一种算法:

1、使用TF-IDF算法,找出两篇文章的关键词

2、每篇文章各取若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使用相对词频)

3、生成两篇文章各自的词频向量

4、计算两个向量的余弦相似度,值越大就表示越相似。



更多推荐

余弦定律应用

本文发布于:2024-02-16 20:16:50,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1691354.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:余弦   定律

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!