【每日一读】Interpretation of Structural Preservation in Low-Dimensional Embeddings|电子爱好者

admin管理员组
文章数量:1609900

简介

Hello！
非常感谢您阅读海轰的文章，倘若文中有错误的地方，欢迎您指出～

ଘ(੭ˊᵕˋ)੭
昵称：海轰
标签：程序猿｜C++选手｜学生
简介：因C语言结识编程，随后转入计算机专业，获得过国家奖学金，有幸在竞赛中拿过一些国奖、省奖…已保研
学习经验：扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语！

唯有努力💪

本文仅记录自己感兴趣的内容

论文简介

原文链接：https://ieeexplore.ieee/document/9128033

期刊：IEEE Transactions on Knowledge and Data Engineering ( Volume: 34, Issue: 2, 01 February 2022) （CCF A类）

年度：2022年5月1日（发表日期）

Abstract

尽管常用于大数据分析；降维的结果对于大多数用户来说仍然是一个黑匣子。

了解低维嵌入的质量很重要，因为它不仅可以信任转换后的数据，还可以帮助在给定场景中选择最合适的降维算法。

由于现有研究主要集中在嵌入的视觉探索，因此仍然需要增强此类算法的可解释性。

为了弥补这一差距，我们提出了两种新颖的交互式解释技术，用于从任何降维算法获得的低维嵌入

第一种技术 LAPS 生成邻域结构的局部近似，以生成对单个实例的保留位置的可解释解释
第二种方法 GAPS 通过结合来自投影空间的粗离散化的非冗余局部近似来解释高维数据集在其嵌入中保留的全局结构

我们使用 16 个真实的表格、文本、图像和音频数据集展示了所提出技术的适用性

我们广泛的实验评估显示了所提出的技术在解释低维嵌入的质量以及为任何给定数据集选择最合适的降维算法方面的实用性

1 I NTRODUCTION

维数缩减算法将高维数据集转换为低维嵌入，同时试图保留数据点之间的大部分原始结构关系（即相对距离）

在高层次上，所有降维算法都执行复杂的数学优化，以获得通常难以解释的数据集的低维投影

这背后的主要原因是，这些算法得出的维度没有任何直接可解释的映射到高维数据的原始属性[1]

因此，降维是大数据分析的第一步，一个重要的问题仍然存在 [2]：

如果用户不了解低维嵌入的质量，他们将无法在后续分析中做出有效的决策
此外，缺乏降维算法的可解释性也导致了在给定场景中选择最合适算法的挑战

在他们的工作中，Maaten 等人。 [3] 和 Becht 等人。 [4] 表明， 不同的降维方法在同一数据集上执行不同。同样对于每一个这样的算法，都存在一个完全合理的度量 [4]，它优于其竞争对手。 例如，在嵌入中保留最大量的方差的情况下，主成分分析 (PCA) [3] 可以比其他方法执行得更好。或者，为了最大程度地保留数据点之间的整体距离，多维缩放 (MDS) [3] 可能是最佳选择。然而，鉴于没有确定的方法 [5] 来评估降维方法的性能，数据科学家经常按照他们的直觉使用这些算法中的任何一种，而没有真正了解它们的行为。

低维嵌入的质量 [3]、[6]、[7] 取决于算法可以保留局部结构关系（即各个邻域中的结构相似性）以及全局结构关联的程度（即整体邻域的相对差异）与原始数据集。因此，对保留结构 [1] 的交互式评估不仅可以帮助用户信任投影中各个数据点的相对位置，还可以帮助用户对整体嵌入充满信心。近年来，低维嵌入的交互式探索已成为一种越来越流行的 [1]、[8]、[9]、[10] 评估质量降维的机制。然而，我们的调查表明，现有的研究 [1]、[8]、[9]、[10]、[11] 主要支持对嵌入进行视觉探索，很少将嵌入与原始数据进行比较 [12]。此外，大多数现有技术不允许同时比较多种算法来评估它们在特定数据集上的结果。最重要的是，阿达迪等人的研究。 [2] 和 Guidotti 等人。 [13]证实仍然需要一个明确的机制来解释降维后的结构保存。

为了弥合这些差距

首先，我们提出了 LAPS - 保留结构的局部近似，一种方法和数据类型不可知技术，它提供了对低维嵌入的保留局部结构的解释。 LAPS 提出的解释通过在该点周围近似一个邻域来证明嵌入中任何单个数据点的相对定位的保真度
其次，我们提出了 GAPS - 投影空间的全局近似，这是一种交互式技术，通过结合投影空间粗离散化的非冗余局部近似来解释低维嵌入中保留的全局结构

作为广泛和全面评估的一部分，我们评估了这两种技术的灵活性（在 16 个真实数据集上使用 10 种不同的降维算法）、适用性（即，使用表格、文本、图像和音频数据），实用性（即，通过用户研究来检查他们解释投影质量 [7] 的能力）和可靠性（即，帮助选择最合适的降维算法）

我们的实验还揭示了不同用户定义参数在所提出技术的结果中的作用。此外，他们揭示了这些技术在发现高维数据中的特征相关性方面的能力

我们在这项工作中的主要贡献如下：

LAPS，一种新颖的算法，可以通过局部逼近邻域，对任何低维嵌入中保留的局部结构提供可解释和忠实的解释。
GAPS 是一种新技术，它通过将离散非冗余邻域的局部近似组合成全局近似来解释流形在其低维嵌入中的保留全局结构。
对提出的方法 LAPS 和 GAPS 进行了广泛的 5 阶段实验评估。

2 RELATED W ORK

在可解释性方面，与低维嵌入的视觉交互 [1]、[14]、[15] 一直是研究人员最常提出的方法。在过去的几年中，已经提出了几种工具 [8]、[11]、技术 [9] 和框架 [1]，以及论文 [15]，旨在让用户更容易理解复杂的降维过程.虽然可以在 [14] 和 [16] 中找到对低维嵌入的不同交互范式的详细调查，但在本节中，我们将重点介绍与我们提出的算法最密切相关的工作。一些现有技术（例如，嵌入投影仪 [8]）涵盖了与降维交互的不同方面，允许用户直观地探索嵌入中的邻域结构。其他一些技术（例如，Probing Projections [11]、CheckViz [6]）可视化投影中数据点之间相对距离的近似误差量。其中，虽然 Probing Projections [11] 帮助用户在邻域内执行距离校正，但 CheckViz [6] 可以在投影中可视化虚假邻域。将交互性的范围更进一步，一些技术（例如，Praxis [1]、DimStiller [17]、LAMP [18]）允许用户与降维过程本身进行交互。例如，Praxis [1] 允许用户以交互方式修改数据点的输入特征值以查看其投影的变化，以及更改嵌入中点的位置以查看原始特征值的变化。 DimStiller [17] 将降维期间执行的转换表示为管道中的一系列事件。该技术允许用户在输入中以交互方式添加或删除维度，并在任何时间点可视化管道中的任何步骤。交互式多维投影技术 LAMP [18] 允许用户通过使他们能够选择构建仿射映射系列的控制点来交互式地引导投影。

为了促进有效选择超参数以进行降维，一些技术（如 LDSScanner [19]）能够探索高维数据集中的邻域结构。另一方面，像 SIRIUS [9] 这样的工具可以对数据中最相关的属性和邻域进行交互式对称双重探索。同时，为了解释嵌入的质量，DimReader [10] 等技术可以对投影中新生成的轴线进行视觉探索。 Martins 等人的研究人员确定需要量化嵌入中的结构保存。 [20] 提出了使用错误和缺失邻居来视觉和定量评估低维嵌入的机制。为了解释数据点在嵌入中的相对定位，Pagliosa 等人的研究人员。 [21]，席尔瓦等人。 [22] 和 Self 等人。 [23] 提出了识别原始属性对邻域结构形成的影响的技术。

然而，我们对相关研究的调查表明，在量化嵌入的结构质量时，很少有研究人员（例如 Kodali 等人 [12]）同时考虑邻域保护和属性影响的保留。即便如此，这些方法中的大多数仅设计用于一组特定的降维算法（例如，Kodali 等人 [12] 提出的方法是为加权多维缩放设计的）。因此，这些技术很少提供机会在从不同降维算法获得的嵌入之间进行并排比较，或为任何给定数据集执行最合适算法的交互式选择。此外，很少有方法 [12] 能够在原始高维数据与其低维嵌入之间进行任何交互式比较，以解释获得的投影的质量。因此，仍然需要一种定义明确的技术，可以在视觉上和定量地解释 [2]、[13] 在缩减维度上保存的局部和全局结构的范围，并考虑邻域和属性影响保存的影响在嵌入中。

6 C ONCLUSIONS AND FUTURE WORK

在本文中，我们提出了两种交互式解释技术，用于从任意降维算法获得的低维嵌入。第一种技术 LAPS 生成邻域结构的局部近似，以生成对嵌入中单个实例的保留位置的可解释解释。第二种方法 GAPS 通过从投影空间的粗略离散化统一非冗余局部近似来解释高维数据集在其嵌入中保留的全局结构。我们对表格、图像、文本和音频数据技术的实验评估证明了这些技术的灵活性。此外，我们广泛的实验表明，所提出的技术在展示低维结构关系以及确定数据集中最相关的属性以及为任何给定数据集交互式选择最合适的降维算法方面的实用性.

我们希望探索未来工作的几种途径。例如，在任何交互技术中，最重要的方面之一是可扩展性。虽然，所提出的算法的计算复杂度为 Oðn2Þ，但对于我们当前的 LAPS 和 GAPS 设计，我们将用户定义的邻域大小（参见方程（9））限制为 10 和扰动的数量样本（参见方程式（10））最多为 5000。这些设计约束受到 Ribeiro 等人的启发。 [28] 确认了 10 个最近邻和 5000 个采样实例在确定数据点的局部属性方面的充分性。但是，我们将试验不同大小的邻域（即 > 10）留给未来的工作。虽然，改善任何固有的开放挑战 [3]、[4] 的降维技术（例如，计算复杂性 [4]、超参数的优化 [41]）超出了本研究的范围。

除了可扩展性之外，我们认为建议的工作还有几个方面可以改进。首先，虽然两种提议的算法都允许用户与流程进行交互，但可以通过将它们集成为统一视觉框架的一部分来提高方法的整体交互性。作为正在进行的工作，我们正在努力创建这样一个框架。为了增强框架的整体可扩展性，我们目前正在探索 LAPS 和 GAPS 的并行处理。其次，为了提高 GAPS 的保真度，如第 3.2 节所述，我们正在进行的工作还包括将 GAPS 的多样化样本选择定义为详尽的子集枚举 [36] 问题。

读后总结

对网络嵌入后得到的低维数据进行一个评估（看嵌入效果是否好…）

结语

文章仅作为个人学习笔记记录，记录从0到1的一个过程

希望对您有一点点帮助，如有错误欢迎小伙伴指正

本文标签：一读 interpretation Structural Embeddings Dimensional

版权声明：本文标题：【每日一读】Interpretation of Structural Preservation in Low-Dimensional Embeddings 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1728575995a1164476.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

【每日一读】Interpretation of Structural Preservation in Low-Dimensional Embeddings

目录

简介

论文简介

Abstract

1 I NTRODUCTION

2 RELATED W ORK

6 C ONCLUSIONS AND FUTURE WORK

读后总结

结语

更多相关文章

【text recognition算法】Scene Text Recognition from Two-Dimensional Perspective

Interaction Embeddings for Prediction and Explanation in Knowledge Graphs

#64 Abstract Interpretation: Introduction &amp; #66 Galois Connections - 课程笔记

ITS Mobile Template interpretation failed. Template does not exist

Design and Interpretation of Universal Adversarial Patched in Face Detection

开源项目 `outlier-interpretation` 使用教程

机器学习-Probabilistic interpretation

CheXagent: Towards a Foundation Model for Chest X-Ray Interpretation

A geometric interpretation of the covariance matrix(reproduced)

[公开课] CS61A打卡Spring2018(week9-week16): Structure and Interpretation of Computer Programs

LeetCode --- 1678. Goal Parser Interpretation 解题报告

1678. Goal Parser Interpretation

An Interpretation of Logistic Regression

leetcode 1678. Goal Parser Interpretation（python）

signature=c6caa89b4de0f520e4ec0147d95111d3,Interpretation of the Fluorescence Signatures from Vegeta...

Statistics for MIB RFC1066-MIB-INTERPRETATION

Interpretation of 403 Bounded biharmonic weights

PROBABILISTIC INTERPRETATION ON LEAST SQUARES

Structure and Interpretation of Computer Programs (the Purple Book)

探索CVPR2023 Paper Code Interpretation：深度学习的互动式理解平台

发表评论

推荐文章

win10专业版“引用的账户已锁定，且可能无法登录”解决方案

[小记】Hbase报错：Connection refused: no further information: localhost127.0.0.1:16000

前后端不分离到分离演变,优势,前后端接口联调,排错

w10系统excel服务器,win10系统下excel如何制作表格

window11如何通过升级专业版来修改用户名

热门文章

安卓系统签名修改

网页上不带下载链接但可播放的歌曲可以如何下载呢？

超长超详细本地VMware搭建Centos.7.X+Ambari+HDP集群

5g理论速度_5g速度有多快

【VINS-MONO测试】安卓手机采集mono+imu数据

sdp cdp dcp及快速充电技术介绍

expected version 1 instead. Hint: the backtrace further above shows the operation that faile

with no further qualifying information

解码深度学习的黑盒：一探可逆解释网络A Disentangling Invertible Interpretation Network...

三星root后进入android system recovery后,如何尝试使用ODIN去恢复启动界面是Android system recovery详解...

最新文章

在 装的Qt commercial 4.6.0 时报错

Toad DBA Suite for Oracle 12.6 64-bit Commercial 简单连接

Intel Non-Commercial Software Download

Toad for Oracle 10.5.1 Commercial

mysqlrouter、mycat+mysql8.0.30实现读写分离

电脑定时自动关机的多种实现方法

Toad for Oracle 10.5 Commercial

编译qt-win-commercial-src-4.3.0全过程。

java指令工具_jvm 指令工具 jcmd 命令（Java多功能命令行）

rpm 安装mysql的顺序_centos7 RPM方式安装MySQL5.7

计算机延时关机小程序,电脑自动关机小程序

Windows2000 server + Microsoft Visual Studio 6.0 + Qt-commercial4.22-src编译过程

每日论文推荐：我们距离GPT-4V有多远，最接近GPT-4V的开源多模态大模型

国际贸易术语(incoterms)

smartgit 授权文件 Free Trial License to Non-Commercial

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

#64 Abstract Interpretation: Introduction & #66 Galois Connections - 课程笔记

在装的Qt commercial 4.6.0 时报错

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载