面向机器学习的可视分析技术 | CVMJ Spotlight

Posted 图形学与几何计算

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了面向机器学习的可视分析技术 | CVMJ Spotlight相关的知识,希望对你有一定的参考价值。

日前,Computational Visual Media期刊上线发表了一篇综述论文[1],从机器学习流程出发,对模型构建之前、期间、之后三个阶段中的可视分析技术进行了全面系统的回顾(图1),对各阶段的主要可视分析任务进行了总结,并对代表性工作进行了详细评估,也对面向机器学习的可视分析所面临的挑战和未来研究方向进行了总结与展望。
这篇综述论文由清华大学刘世霞副教授及其团队博士生、微软雷德蒙德研究院的刘梦尘研究员和中南大学夏佳志教授合作,在CVMJ上联合发表。

机器学习不同阶段的可视分析任务

研究背景

机器学习的突破性进展催生了众多人工智能应用。然而,机器学习模型的内部工作机理复杂,难以有效理解,高效模型的开发往往需要冗长的反复迭代试错;在智慧医疗、自动驾驶等关键应用领域,用户对模型可解释性的要求也日渐提高。

在过去的十年中,可视分析方法被广泛地用于帮助理解、诊断和改进机器学习模型[2]。这些研究成果充分结合了交互式可视化和机器学习技术各自的优势,促进了对机器学习主要组成部分的分析和理解,从而提高机器学习模型的性能。

可视分析技术将机器学习流程中庞杂难明的特征、参数、模型结构等信息,转化为用户容易理解的可视编码,帮助分析训练数据和特征质量、理解和诊断机器学习模型、理解机器学习模型的分析结果以及监测已部署模型性能;通过提供交互手段,将人纳入分析回路,有效地融合人类知识和分析决策能力,提高了分析效率。

面向机器学习的可视分析发展进程

近年来,机器学习可视分析技术的迅速发展促使对此领域进行全面调研,以支持用户理解如何设计可视分析技术并将其应用于机器学习的不同阶段。如图1所示,文章将所调研的文献按照机器学习流程划分为三个阶段:模型构建之前,期间和之后。文章分析了机器学习模型在各阶段存在的挑战,并抽象出对应的可视分析任务,包括:

  • 模型构建之前:这一阶段机器学习的主要任务是数据处理和特征提取;可视分析技术对数据和特征进行图形编码和交互分析,增强用户对大规模数据的感知能力,帮助提高数据质量和特征质量;

  • 模型构建期间:这一阶段机器学习的主要任务是模型的选择与训练;可视分析技术对模型参数、结构或输入输出的映射关系进行可视化,增强模型的透明度和可解释性,帮助用户理解模型工作的机理,诊断模型训练问题的原因并改进模型;

  • 模型构建之后:这一阶段机器学习的任务包括模型的评估和部署,可视分析技术帮助分析理解模型的输出结果,以理解模型决策,增强模型输出的可靠性。

针对上述的每类任务,文章都通过一组精心选择的示例进行说明,阐述了可视分析如何帮助用户完成分析目标。

文章对面向机器学习的可视分析技术的总结和分析将有助于相关领域研究人员了解它们所针对的机器学习分析任务,理解它们的设计方法和设计目标。

 面向机器学习的可视分析问题和挑战  

尽管机器学习的可视分析研究在学术界和实际应用中均取得了显著的成果,但仍然存在一些长期的研究挑战。根据对机器学习流程中三个阶段的分析,文章还总结了六个有待解决的重点问题,对未来的研究方向进行了展望:

  • 模型构建之前:弱监督学习的数据质量提高与可解释的特征工程;

  • 模型构建期间:模型训练过程的在线诊断与交互式的模型改进;

  • 模型构建之后:多模态数据的理解与概念漂移的分析。

文章作者希望这项调研能够促进面向机器学习的可视分析技术的研讨,并为相关从业人员和研究人员提供一个全面的参考。

点击下方的“ 阅读原文”,可阅读论文全文,也可从如下网址下载论文:

https://link.springer.com/article/10.1007/s41095-020-0191-7

参考文献
  1. J. Yuan, C. Chen, W. Yang, M. Liu, J. Xia, and S. Liu. A survey of visual analytics techniques for machine learning. Computational Visual Media, 2020.

  2. S. Liu, X. Wang, M. Liu, and J. Zhu. Towards better analysis of machine learning models:  A visual analytics perspective. Visual Informatics, Vol.1, No.1, 48–56, 2017.

作者简介

刘梦尘,现为微软雷德蒙德研究院资深研究员,博士毕业于清华大学。他的研究兴趣包括可解释人工智能和计算机视觉。发表论文10余篇,担任CCF A类会议IEEE VIS(VAST)2019-2021的程序委员会成员。

夏佳志,中南大学计算机学院教授。主要研究方向包括可视化与可视分析、计算机图形学。发表论文40余篇,其中计算机学会推荐A类论文15篇。曾获CAD/Graphics 2017最佳论文奖。任IEEE VIS 2021程序委员会委员,曾任ChinaVis 2019-2020 综述共同主席。

刘世霞,清华大学长聘副教授,IEEE Fellow。主要研究方向包括可解释机器学习,文本可视分析和文本挖掘。迄今为止已经在ACM/IEEE Transactions和CCF A类会议上发表论文50余篇,40余项专利及专利申请。2020年入选IEEE Visualization Academy;担任CCF A类期刊IEEE Trans. on Visualization and Computer Graphics副主编、CCF A类期刊Artificial Intelligence的编委;并担任IEEE Trans. on Big Data和ACM Trans. on Interactive Intelligent Systems的编委。担任CCF A类会议IEEE VIS 2020-2024指导委员会委员,曾任IEEE VIS 2016和 2017的论文主席。

GGC往期回顾

1.  

3

4  

您可通过下方二维码,关注清华大学图形学实验室,了解图形学、Jittor平台、CVMJ期刊的相关资讯。

以上是关于面向机器学习的可视分析技术 | CVMJ Spotlight的主要内容,如果未能解决你的问题,请参考以下文章

开源流量分析系统 Apache Spot 概述

python可视化利器:pyecharts

可视化分析(机器学习)

学机器学习,不会数据分析怎么行——数据可视化分析(matplotlib)

数据挖掘

一文详解主成分分析