如何将数据集划分为训练集和测试集?
Posted
技术标签:
【中文标题】如何将数据集划分为训练集和测试集?【英文标题】:how to divide dataset into train and test set? 【发布时间】:2017-09-30 13:18:55 【问题描述】:我尝试使用带有 map-reduce 框架的朴素贝叶斯分类算法对数据集进行分类。 我的问题是如何将数据集划分为训练集和测试集,以计算正确和错误分类实例的准确性?
【问题讨论】:
您考虑过使用随机抽样吗? 【参考方案1】:您可以使用RemovePercentage
过滤器
训练集:
1.加载完整的数据集
2.在预处理面板中选择RemovePercentage过滤器
3.设置正确的拆分百分比
4.应用过滤器
5.将生成的数据另存为新文件
测试集: 1. 加载完整的数据集(或者只使用 undo 来恢复对数据集的更改) 2. 如果尚未选择,请选择 RemovePercentage 过滤器 3.将invertSelection属性设置为true 4.应用过滤器 5. 将生成的数据另存为新文件
【讨论】:
数据集大约 1 giga 并且 weka 不提供大数据任何帮助? @medooSa 我会推荐 R 编程,如果你想要一个 GUI 界面,没有什么比 RStudio 更好的了。学习 R 的一个很好的在线资源是 R-bloggers。但是,与 PCA 或 k-means 相比……如果您在 R 中执行相同操作,则只需不到 5 分钟。 (我已经在效率方面对此进行了测试)除了 R,您的其他选择是 RapidMiner 或 Apache Hadhoop ......但是在我看来 weka 是大数据的最佳选择......我建议你看看门 LINK 我已经使用 eclipse 编写了一个已编译的 java .jar 文件。这是否允许 R 编程导入 .jar 文件并对其进行处理,或者我应该使用 R 编程编写所有代码? @medooSa 你必须使用 R 包包含它,使你的结构类似于inst java jarFileHere.jar R r_code_file.R
也看看Deducer 和DeducerplugInExample。 Deducer 的网络手册中有一个关于在包中包含 java 代码的教程:deducer.org/pmwiki/pmwiki.php?n=Main.Development#suaptijc
是的,我会阅读并尝试...感谢所有和您的努力:D以上是关于如何将数据集划分为训练集和测试集?的主要内容,如果未能解决你的问题,请参考以下文章