为深度机器学习标记数据集

Posted

技术标签:

【中文标题】为深度机器学习标记数据集【英文标题】:Labeling Dataset for deep machine learning 【发布时间】:2018-08-04 10:04:40 【问题描述】:

我正在尝试创建用于文本识别的 CNN Tensor-flow,我已经按照如何使用 MNIST 数据集构建它的教程进行操作,我正在尝试将我自己的数据集添加到模型中并对其进行训练,但 CNN 是在受监督的情况下构建的,并且我的数据集没有标记。我应该如何给数据集一个标签,我尝试使用不同类型的标签方法,如 labelbox 和 Amazon Mechanical Turk 但没有成功。有没有办法标记数据集或将 CNN 转换为无监督的?

示例数据集:

【问题讨论】:

【参考方案1】:

有几个工具可以标记您的数据集我个人使用了以下工具,它对我来说效果很好,它是用 python 编写的,并且非常易于使用,您可以在此处找到软件和说明:https://github.com/tzutalin/labelImg

如果它不适合您,您可以考虑使用其他工具:

列表项https://github.com/cvhciKIT/sloth 列表项https://github.com/Labelbox/Labelbox

【讨论】:

以上是关于为深度机器学习标记数据集的主要内容,如果未能解决你的问题,请参考以下文章

机器学习基础 | 获取机器学习&深度学习数据集

Mercari数据集——机器学习&深度学习视角

机器学习深度学习数据集大汇总

什么是深度学习的视频标注?

FashionMNIST数据集简要分析---深度学习&机器学习第五天

Python机器学习——机器学习概述,数据集的基本使用