如何将数据集划分为训练集和测试集?

Posted

技术标签:

【中文标题】如何将数据集划分为训练集和测试集?【英文标题】:how to divide dataset into train and test set? 【发布时间】:2017-09-30 13:18:55 【问题描述】:

我尝试使用带有 map-reduce 框架的朴素贝叶斯分类算法对数据集进行分类。 我的问题是如何将数据集划分为训练集和测试集,以计算正确和错误分类实例的准确性?

【问题讨论】:

您考虑过使用随机抽样吗? 【参考方案1】:

您可以使用RemovePercentage 过滤器 训练集: 1.加载完整的数据集 2.在预处理面板中选择RemovePercentage过滤器 3.设置正确的拆分百分比 4.应用过滤器 5.将生成的数据另存为新文件

测试集: 1. 加载完整的数据集(或者只使用 undo 来恢复对数据集的更改) 2. 如果尚未选择,请选择 RemovePercentage 过滤器 3.将invertSelection属性设置为true 4.应用过滤器 5. 将生成的数据另存为新文件

【讨论】:

数据集大约 1 giga 并且 weka 不提供大数据任何帮助? @medooSa 我会推荐 R 编程,如果你想要一个 GUI 界面,没有什么比 RStudio 更好的了。学习 R 的一个很好的在线资源是 R-bloggers。但是,与 PCA 或 k-means 相比……如果您在 R 中执行相同操作,则只需不到 5 分钟。 (我已经在效率方面对此进行了测试)除了 R,您的其他选择是 RapidMiner 或 Apache Hadhoop ......但是在我看来 weka 是大数据的最佳选择......我建议你看看门 LINK 我已经使用 eclipse 编写了一个已编译的 java .jar 文件。这是否允许 R 编程导入 .jar 文件并对其进行处理,或者我应该使用 R 编程编写所有代码? @medooSa 你必须使用 R 包包含它,使你的结构类似于inst java jarFileHere.jar R r_code_file.R 也看看Deducer 和DeducerplugInExample。 Deducer 的网络手册中有一个关于在包中包含 java 代码的教程:deducer.org/pmwiki/pmwiki.php?n=Main.Development#suaptijc 是的,我会阅读并尝试...感谢所有和您的努力:D

以上是关于如何将数据集划分为训练集和测试集?的主要内容,如果未能解决你的问题,请参考以下文章

如何利用python将txt文件划分训练集和测试集

如何把数据集划分成训练集和测试集

如何利用python将txt文件划分训练集和测试集

训练集和测试集

Alink漫谈 : 如何划分训练数据集和测试数据集

数据集的划分