Facets:一款Google开源机器学习数据集可视化工具
Posted cheesezh
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Facets:一款Google开源机器学习数据集可视化工具相关的知识,希望对你有一定的参考价值。
Homepage/演示网站:https://pair-code.github.io/facets/
Pypi:https://pypi.org/project/facets-overview/
Github:https://github.com/PAIR-code/facets
1. 什么是Facets?
Better data leads to better models.
机器学习的强大之处在于从大量数据中学习到其中的模式。构建一个机器学习系统时,理解你的数据是关键的一步。
Facets包含两种强大的可视化功能,用来帮助理解和分析机器学习数据集。
Facets Overview可以让用户快速了解其数据集特征值的分布情况,可以在相同的可视化上比较多个数据集,例如按照特征对比训练集和测试集。这个功能可以揭露多种问题,例如预期之外的特征值,高比例的缺失值,训练集和实际数据集的偏差,训练集/测试集/验证集的偏差等。
Facets Dive提供了一个易于定制的交互式界面,用于探索单个大规模数据集中不同特征数据点之间的关系。通过Facets Dive,你可以调整位置、颜色和视觉效果,每条数据在工具中被表示为一个数据点,还可以通过其特征值在多个维度上通过 faceting/bucketing 来定位数据。通过Facets Dive可以轻松地在复杂数据集中检测分类异常,识别系统性错误,或者发现潜在的有效特征。
简单来说,Facets Overview是根据特征对比多个数据集的,Facets Dive是根据特征分析单个数据集的。
2. 使用 & 安装
2.1 Web 应用
https://pair-code.github.io/facets/
该网站允许任何人直接在浏览器中可视化他们自己的数据集,而无需安装或设置任何软件,并且你的数据不会被上传。
2.2 在Jupyter Notebooks/Colaboratory 中
FACETS 也可以在 Jupyter Notebook 或 Colaboratoty 中使用,这可以更灵活的在同一个 notebook 中完成整个EDA和建模。有关安装的完整细节,请参阅官方 Github 仓库 。
在Colab中使用Facets示例
https://colab.research.google.com/github/PAIR-code/facets/blob/master/colab_facets.ipynb
在Jupter Notebooks中使用Facets示例
https://github.com/PAIR-code/facets/blob/master/facets_dive/Dive_demo.ipynb
数据格式就是csv,第一行是标题,在使用过程中先用pandas读取,再转换成protobuf,详情参考上边链接中的示例。
有人会说我们可以轻松地用 Pandas 来完成这些任务,为什幺要投入到另一个工具呢?没错,当我们只有少量的特征很少的数据点时,可能不需要这样做。然而,情况在我们面对大型数据集时会有所不同,很难用 Pandas 分析多列中的每一个数据点。
Refference
- Homepage&Demo
- https://pypi.org/project/facets-overview/
- https://github.com/PAIR-code/facets
- Visualize your data with Facets
- 使用谷歌 FACETS 可视化机器学习数据集
- Google 开源机器学习数据集可视化工具 Facets
- Peter Norvig : The Unreasonable Effectiveness of Data
- Facets: An Open Source Visualization Tool for Machine Learning Training Data
以上是关于Facets:一款Google开源机器学习数据集可视化工具的主要内容,如果未能解决你的问题,请参考以下文章
Google“机器学习”开源项目teachable-machine
Google 可视化库 Facets:如何将 python 模块“facets”输出 html 离线保存到本地驱动器?