sklearn聚类之OPTICS算法|电子爱好者

admin管理员组
文章数量:1654337

文章目录

- 简介
- sklearn实现
- cluster_optics_dbscan

简介

OPTICS算法，全称是Ordering points to identify the clustering structure，是一种基于密度的聚类算法，是DBSCAN算法的一种改进。

众所周知，DBSCAN算法将数据点分为三类：

核心点：若样本 x i x_i xi的 ε \varepsilon ε邻域内至少包含了 M M M个点，则为核心点
边界点：若样本 x i x_i xi的 ε \varepsilon ε邻域内包含的点数小于 M M M，但在其他核心点的 ε \varepsilon ε邻域内，则为边界点
噪声：既非核心点也非边界点则为噪声

这里面有两个关键参数，即 ε \varepsilon ε邻域内点的个数 M M M，二者作为判定条件，用以区分核心点、边界点以及噪声。这两个参数至关重要，甚至可以直接影响聚类结果。换言之，DBSCAN受经验影响，不同的参数会导致不同的聚类结果。

OPTICS的改进思路是，降低算法对 ε \varepsilon ε值的依赖，从而引入了核心距离和可达距离的概念的概念，即对于样本 x x x，如果给定M，则使得 x x x成为核心点的最小邻域半径为 x x x的核心距离。如果 x x x是核心点，若距离 x x x最近的核心点为 y y y，则可达距离为 y y y的核心距离与 x , y x,y x,y实际距离的最大值。

OPTICS的优越之处在于，可以为每个聚类簇设置不同的核心距离与可达距离，更能在点密度的意义上，为样本提供更加个性化的聚类结果。

sklearn实现

若将OPTICS算法的聚类结果进行绘制，能更加直观地理解可达距离的作用。在sklearn中提供了OPTICS类，测试如下

from sklearn.cluster import OPTICS
import matplotlib.pyplot as plt
import numpy as np

np.random.seed(0)   # 设置随机数种子
cens = [[-5, -2], [4, -1], [1, -2], [-2, 3], [3, -2],[5, 6]]
scales =[0.8, 0.1, 0.2, 0.3, 1.6, 2]
X = np.vstack([c+s*np.random.randn(250,2) for c,s in zip(cens, scales)])

clust = OPTICS(min_samples=50, xi=0.05, min_cluster_size=0.05)

# 开始聚类
clust.fit(X)

space = np.arange(len(X))
reachability = clust.reachability_[clust.ordering_]
labels = clust.labels_[clust.ordering_]

下面对聚类结果进行可视化演示


colors = ["g.", "r.", "b.", "y.", "c."]
# 绘制可达距离
for ind, color in enumerate(colors):
    Xk = space[labels == ind]
    Rk = reachability[labels == ind]
    plt.plot(Xk, Rk, color, alpha=0.3)

# 此为噪声
plt.plot(space[labels == -1], reachability[labels == -1], "k.", alpha=0.3)
plt.plot(np.full_like(space, 2.0, dtype=float), "k-", alpha=0.5)
plt.plot(np.full_like(space, 0.5, dtype=float), "k-.", alpha=0.5)

plt.tight_layout()
plt.show()

在上图中，横坐标为点的序号，纵坐标为可达距离，不同颜色代表OPTICS聚类得到的不同的距离。可以看出不同颜色截止时对应的 y y y值是不同的，说明在OPTICS聚类的过程中，对不同的聚类簇生成了不同的参数。

上图在0.5和2.0处画了两条线，如果以这两条线所在位置为 ε \varepsilon ε进行DBSCN聚类，则意味着产生不同的聚类结果。

cluster_optics_dbscan

sklearn中提供了cluster_optics_dbscan函数，可以指定统一的可达距离，并进行聚类，调用如下

from sklearn.cluster import cluster_optics_dbscan

# 可达距离为0.5或者2时的DBSCN聚类
labels = [cluster_optics_dbscan(
    reachability=clust.reachability_,
    core_distances=clust.core_distances_,
    ordering=clust.ordering_,
    eps=0.5,
) for eps in [0.5, 2]]

然后可以对比一下这三种不同聚类方案的结果

import matplotlib.gridspec as gridspec

fig  = plt.figure()
ax = fig.subplots(1, 3)

labels = [clust.labels_] + labels
infos = [
    "Automatic Clustering\nOPTICS",
    "Clustering at 0.5 epsilon cut\nDBSCAN",
    "Clustering at 2 epsilon cut\nDBSCAN"
]

for i in range(3):
    for k, c in enumerate(colors):
        Xk = X[labels[i] == k]
        ax[i].plot(Xk[:, 0], Xk[:, 1], c, alpha=0.3)
    noise = X[labels[i] == -1].T
    indNoise = labels[i] == -1
    ax[i].plot(noise[0], noise[1], "k+", alpha=0.1)
    ax[i].set_title(infos[i])

绘图结果如下

本文标签：算法 sklearn OPTICS

版权声明：本文标题：sklearn聚类之OPTICS算法内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1729651203a1209060.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

sklearn聚类之OPTICS算法

文章目录

简介

sklearn实现

cluster_optics_dbscan

更多相关文章

python——机器学习：sklearn特征选择feature_selection

hash算法_Win10_64 默认应用的UserChoice Hash算法学习

SHA256 算法 加密文件、防文件篡改、文件校验

java运用SM4国密算法对文件的加密与解密的实现

数据挖掘的10大算法我用大白话讲清楚了，新手一看就懂

【贪心算法】2071:你可以安排的最多任务数目|2648

【状态压缩】【动态规划】【C++算法】691贴纸拼词

推荐系统冷启动中的EE算法

上海内推 | 上海人工智能实验室招聘Responsible AI大语言模型算法研究实习生

【机器学习(五)】分类和回归任务-AdaBoost算法-Sentosa_DSML社区版

sklearn.feature_extraction.text 中的 TfidfVectorizer 实现过程

from sklearn.feature_extraction.text import CountVectorizer

CVPR2021配准算法LoFTR的配置（LoFTR: Detector-Free Local Feature Matching with Transformers）

SM4算法原理和硬件实现

BLOWFISH算法

加密解密、信息摘要常用算法收集~~

加密算法： BLOWFISH算法

加密算法之BLOWFISH算法(2)

主宰这个世界的10种算法

OPTICS（Ordering points to identify the clustering structure）

发表评论

推荐文章

DiskGenius中文硬盘分区表维护软件

手写数字图片库MNIST百度网盘下载链接~

惠普HP LaserJet Pro M405d 打印机驱动

台式机win10关闭fn热键_win10惠普怎么取消fn win10惠普取消fn的简单方法

Action: Identify and stop the process that‘s listening on port 8080 or configure this application t

热门文章

维智WSD-A2系列伺服驱动器用户手册（MECHATROLINK-Ⅱ总线通信型）

计算机桌面转换打字图标不见了,电脑输入法不见了,详细教您电脑输入法图标不见了怎么办...

Linux实战 小技巧 Linux软件安装部署 瑞吉外卖部署Linux

【独家】华丽升级 DiskGenius 新版发布

【论文阅读】An LSTM-Based Deep Learning Approach for Classifying Malicious Traffic at the Packet Level

日语考试拍照搜题软件？分享5个软件和公众号，来对比看看吧 #经验分享#知识分享

Ubuntu18.04下搭建深度学习环境（tensorflow CPU GPU、Keras、Pytorch、Pycharm、Jupyter）

仿迅雷播放器教程 -- 提取exe资源(12)

程序员提问的智慧（How-To-Ask-Questions-The-Smart-Way）

Linux报错：Port xxx is in use by another program. Either identify and stop that program...

最新文章

hydra暴力破解（Linux&amp;Windows）

开源免费的Windows应用程序强力卸载工具Bulk Crap UninstallerV5.7的简单使用

2.SVN下载及其安装配置（Windows），SVN中文语言包的安装

Python 3.8 官网文档（中文版附下载）

Zwift离线版-Windows端教程

Masm for Winodws 集成实验环境安装绿色免费版

VMware9 绿色破解版 下载地址

windows下免费本地部署类ChatGpt的国产ChatGLM-6B

使用get password破解windows密码

绘图工具Draw.io开源免费供下载-draw.io-12.6.5-windows-installer.exe

安装IBM Notes V10.0.1中文版客户机

step7V5.5中文版

Firefox 110, Chrome 110, Chromium 110 官网离线下载 (macOS, Linux, Windows)

Windows下pc-lint下载安装以及搭建环境检查Linux下开发的工程代码

首个Windows 11 官方ISO镜像下载

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

SHA256 算法加密文件、防文件篡改、文件校验

Linux实战小技巧 Linux软件安装部署瑞吉外卖部署Linux

hydra暴力破解（Linux&Windows）

VMware9 绿色破解版下载地址

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载