每日一读Interpretation of Structural Preservation in Low-Dimensional Embeddings
Posted 海轰Pro
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了每日一读Interpretation of Structural Preservation in Low-Dimensional Embeddings相关的知识,希望对你有一定的参考价值。
目录
简介
Hello!
非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~
ଘ(੭ˊᵕˋ)੭
昵称:海轰
标签:程序猿|C++选手|学生
简介:因C语言结识编程,随后转入计算机专业,获得过国家奖学金,有幸在竞赛中拿过一些国奖、省奖…已保研
学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语!
唯有努力💪
本文仅记录自己感兴趣的内容
论文简介
原文链接:https://ieeexplore.ieee.org/document/9128033
期刊:IEEE Transactions on Knowledge and Data Engineering ( Volume: 34, Issue: 2, 01 February 2022) (CCF A类)
年度:2022年5月1日(发表日期)
Abstract
尽管常用于大数据分析;降维的结果对于大多数用户来说仍然是一个黑匣子。
了解低维嵌入的质量很重要,因为它不仅可以信任转换后的数据,还可以帮助在给定场景中选择最合适的降维算法。
由于现有研究主要集中在嵌入的视觉探索,因此仍然需要增强此类算法的可解释性。
为了弥补这一差距,我们提出了两种新颖的交互式解释技术,用于从任何降维算法获得的低维嵌入
- 第一种技术 LAPS 生成邻域结构的局部近似,以生成对单个实例的保留位置的可解释解释
- 第二种方法 GAPS 通过结合来自投影空间的粗离散化的非冗余局部近似来解释高维数据集在其嵌入中保留的全局结构
我们使用 16 个真实的表格、文本、图像和音频数据集展示了所提出技术的适用性
我们广泛的实验评估显示了所提出的技术在解释低维嵌入的质量以及为任何给定数据集选择最合适的降维算法方面的实用性
1 I NTRODUCTION
维数缩减算法将高维数据集转换为低维嵌入,同时试图保留数据点之间的大部分原始结构关系(即相对距离)
在高层次上,所有降维算法都执行复杂的数学优化,以获得通常难以解释的数据集的低维投影
这背后的主要原因是,这些算法得出的维度没有任何直接可解释的映射到高维数据的原始属性[1]
因此,降维是大数据分析的第一步,一个重要的问题仍然存在 [2]:
- 如果用户不了解低维嵌入的质量,他们将无法在后续分析中做出有效的决策
- 此外,缺乏降维算法的可解释性也导致了在给定场景中选择最合适算法的挑战
在他们的工作中,Maaten 等人。 [3] 和 Becht 等人。 [4] 表明, 不同的降维方法在同一数据集上执行不同。同样对于每一个这样的算法,都存在一个完全合理的度量 [4],它优于其竞争对手。 例如,在嵌入中保留最大量的方差的情况下,主成分分析 (PCA) [3] 可以比其他方法执行得更好。或者,为了最大程度地保留数据点之间的整体距离,多维缩放 (MDS) [3] 可能是最佳选择。然而,鉴于没有确定的方法 [5] 来评估降维方法的性能,数据科学家经常按照他们的直觉使用这些算法中的任何一种,而没有真正了解它们的行为。
低维嵌入的质量 [3]、[6]、[7] 取决于算法可以保留局部结构关系(即各个邻域中的结构相似性)以及全局结构关联的程度(即整体邻域的相对差异)与原始数据集。因此,对保留结构 [1] 的交互式评估不仅可以帮助用户信任投影中各个数据点的相对位置,还可以帮助用户对整体嵌入充满信心。近年来,低维嵌入的交互式探索已成为一种越来越流行的 [1]、[8]、[9]、[10] 评估质量降维的机制。然而,我们的调查表明,现有的研究 [1]、[8]、[9]、[10]、[11] 主要支持对嵌入进行视觉探索,很少将嵌入与原始数据进行比较 [12]。此外,大多数现有技术不允许同时比较多种算法来评估它们在特定数据集上的结果。最重要的是,阿达迪等人的研究。 [2] 和 Guidotti 等人。 [13]证实仍然需要一个明确的机制来解释降维后的结构保存。
为了弥合这些差距
- 首先,我们提出了 LAPS - 保留结构的局部近似,一种方法和数据类型不可知技术,它提供了对低维嵌入的保留局部结构的解释。 LAPS 提出的解释通过在该点周围近似一个邻域来证明嵌入中任何单个数据点的相对定位的保真度
- 其次,我们提出了 GAPS - 投影空间的全局近似,这是一种交互式技术,通过结合投影空间粗离散化的非冗余局部近似来解释低维嵌入中保留的全局结构
作为广泛和全面评估的一部分,我们评估了这两种技术的灵活性(在 16 个真实数据集上使用 10 种不同的降维算法)、适用性(即,使用表格、文本、图像和音频数据) ,实用性(即,通过用户研究来检查他们解释投影质量 [7] 的能力)和可靠性(即,帮助选择最合适的降维算法)
我们的实验还揭示了不同用户定义参数在所提出技术的结果中的作用。此外,他们揭示了这些技术在发现高维数据中的特征相关性方面的能力
我们在这项工作中的主要贡献如下:
- LAPS,一种新颖的算法,可以通过局部逼近邻域,对任何低维嵌入中保留的局部结构提供可解释和忠实的解释。
- GAPS 是一种新技术,它通过将离散非冗余邻域的局部近似组合成全局近似来解释流形在其低维嵌入中的保留全局结构。
- 对提出的方法 LAPS 和 GAPS 进行了广泛的 5 阶段实验评估。
2 RELATED W ORK
在可解释性方面,与低维嵌入的视觉交互 [1]、[14]、[15] 一直是研究人员最常提出的方法。在过去的几年中,已经提出了几种工具 [8]、[11]、技术 [9] 和框架 [1],以及论文 [15],旨在让用户更容易理解复杂的降维过程.虽然可以在 [14] 和 [16] 中找到对低维嵌入的不同交互范式的详细调查,但在本节中,我们将重点介绍与我们提出的算法最密切相关的工作。一些现有技术(例如,嵌入投影仪 [8])涵盖了与降维交互的不同方面,允许用户直观地探索嵌入中的邻域结构。其他一些技术(例如,Probing Projections [11]、CheckViz [6])可视化投影中数据点之间相对距离的近似误差量。其中,虽然 Probing Projections [11] 帮助用户在邻域内执行距离校正,但 CheckViz [6] 可以在投影中可视化虚假邻域。将交互性的范围更进一步,一些技术(例如,Praxis [1]、DimStiller [17]、LAMP [18])允许用户与降维过程本身进行交互。例如,Praxis [1] 允许用户以交互方式修改数据点的输入特征值以查看其投影的变化,以及更改嵌入中点的位置以查看原始特征值的变化。 DimStiller [17] 将降维期间执行的转换表示为管道中的一系列事件。该技术允许用户在输入中以交互方式添加或删除维度,并在任何时间点可视化管道中的任何步骤。交互式多维投影技术 LAMP [18] 允许用户通过使他们能够选择构建仿射映射系列的控制点来交互式地引导投影。
为了促进有效选择超参数以进行降维,一些技术(如 LDSScanner [19])能够探索高维数据集中的邻域结构。另一方面,像 SIRIUS [9] 这样的工具可以对数据中最相关的属性和邻域进行交互式对称双重探索。同时,为了解释嵌入的质量,DimReader [10] 等技术可以对投影中新生成的轴线进行视觉探索。 Martins 等人的研究人员确定需要量化嵌入中的结构保存。 [20] 提出了使用错误和缺失邻居来视觉和定量评估低维嵌入的机制。为了解释数据点在嵌入中的相对定位,Pagliosa 等人的研究人员。 [21],席尔瓦等人。 [22] 和 Self 等人。 [23] 提出了识别原始属性对邻域结构形成的影响的技术。
然而,我们对相关研究的调查表明,在量化嵌入的结构质量时,很少有研究人员(例如 Kodali 等人 [12])同时考虑邻域保护和属性影响的保留。即便如此,这些方法中的大多数仅设计用于一组特定的降维算法(例如,Kodali 等人 [12] 提出的方法是为加权多维缩放设计的)。因此,这些技术很少提供机会在从不同降维算法获得的嵌入之间进行并排比较,或为任何给定数据集执行最合适算法的交互式选择。此外,很少有方法 [12] 能够在原始高维数据与其低维嵌入之间进行任何交互式比较,以解释获得的投影的质量。因此,仍然需要一种定义明确的技术,可以在视觉上和定量地解释 [2]、[13] 在缩减维度上保存的局部和全局结构的范围,并考虑邻域和属性影响保存的影响在嵌入中。
6 C ONCLUSIONS AND FUTURE WORK
在本文中,我们提出了两种交互式解释技术,用于从任意降维算法获得的低维嵌入。第一种技术 LAPS 生成邻域结构的局部近似,以生成对嵌入中单个实例的保留位置的可解释解释。第二种方法 GAPS 通过从投影空间的粗略离散化统一非冗余局部近似来解释高维数据集在其嵌入中保留的全局结构。我们对表格、图像、文本和音频数据技术的实验评估证明了这些技术的灵活性。此外,我们广泛的实验表明,所提出的技术在展示低维结构关系以及确定数据集中最相关的属性以及为任何给定数据集交互式选择最合适的降维算法方面的实用性.
我们希望探索未来工作的几种途径。例如,在任何交互技术中,最重要的方面之一是可扩展性。虽然,所提出的算法的计算复杂度为 Oðn2Þ,但对于我们当前的 LAPS 和 GAPS 设计,我们将用户定义的邻域大小(参见方程(9))限制为 10 和扰动的数量样本(参见方程式(10))最多为 5000。这些设计约束受到 Ribeiro 等人的启发。 [28] 确认了 10 个最近邻和 5000 个采样实例在确定数据点的局部属性方面的充分性。但是,我们将试验不同大小的邻域(即 > 10)留给未来的工作。虽然,改善任何固有的开放挑战 [3]、[4] 的降维技术(例如,计算复杂性 [4]、超参数的优化 [41])超出了本研究的范围。
除了可扩展性之外,我们认为建议的工作还有几个方面可以改进。首先,虽然两种提议的算法都允许用户与流程进行交互,但可以通过将它们集成为统一视觉框架的一部分来提高方法的整体交互性。作为正在进行的工作,我们正在努力创建这样一个框架。为了增强框架的整体可扩展性,我们目前正在探索 LAPS 和 GAPS 的并行处理。其次,为了提高 GAPS 的保真度,如第 3.2 节所述,我们正在进行的工作还包括将 GAPS 的多样化样本选择定义为详尽的子集枚举 [36] 问题。
读后总结
对网络嵌入后得到的低维数据进行一个评估(看嵌入效果是否好…)
结语
文章仅作为个人学习笔记记录,记录从0到1的一个过程
希望对您有一点点帮助,如有错误欢迎小伙伴指正
以上是关于每日一读Interpretation of Structural Preservation in Low-Dimensional Embeddings的主要内容,如果未能解决你的问题,请参考以下文章
每日一读Interpretation of Structural Preservation in Low-Dimensional Embeddings
每日一读Towards Understanding the Instability of Network Embedding
每日一读Joint Unsupervised Learning of Deep Representations and Image Clusters
每日一读Joint Unsupervised Learning of Deep Representations and Image Clusters