从余弦相似度值聚类

编程入门 行业动态 更新时间:2024-10-23 07:31:19
本文介绍了从余弦相似度值聚类的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧! 问题描述

我从一组URL中提取了单词并计算了每个URL内容之间的余弦相似度,并且我将值标准化为0-1(使用Min-Max).现在我需要基于余弦相似度对URL进行聚类值以找出相似的URL.哪种聚类算法最合适?.请向我建议一种动态聚类方法,因为它会很有用,因为我可以根据需要增加URL的数量,而且也会更自然.请对我进行纠正感觉我在以错误的方式取得进展.感谢您的期待.

I have extracted words from a set of URLs and calculated cosine similarity between each URL's contents.And also I have normalized the values between 0-1(using Min-Max).Now i need to cluster the URLs based on cosine similarity values to find out similar URLs.which clustering algorithm will be most suitable?.Please suggest me a Dynamic clustering method because it will be useful since i could increase number of URL's on demand and also it will be more natural.Please correct me if you feel i'm making the progress in a wrong way.Thanks in anticipation.

推荐答案

K-means聚类可用于在线学习,您只需要事先选择聚类的数量即可.另外,我认为您不应该对数据进行规范化,因为余弦已经提供了[0:1]范围内的值.您的Min-Max规范化可能会导致信息丢失.

K-means clustering can be used for online learning, you just need to select the number of clusters a priori. Also, I think you shouldn't normalize your data, because cosine already provides values in the range [0:1]. Your Min-Max normalization could lead to information loss.

更多推荐

从余弦相似度值聚类

本文发布于:2023-10-28 18:18:26,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1537402.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:余弦   度值聚类

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!