如何找到分类器允许的最大训练集？

Posted 2023-03-12

技术标签:

【中文标题】如何找到分类器允许的最大训练集？【英文标题】：How to find the largest size of training set that classifier allows? 【发布时间】：2017-03-05 19:43:17 【问题描述】：

我是 Python 和机器学习的新手。我得到了包含 581012 条记录和 54 列的数据集。我正在尝试将数据拆分为 80 20。80% 用于训练，20% 用于测试。我使用 GridSearchCV 进行交叉验证并找到最佳参数。由于数据太大，我执行应用程序超过一天，但无法得到结果。我认为有什么方法可以知道分类器允许的最大训练集大小是多少？下面是我的执行代码

parameters = 'max_depth' :range(1,21)
print parameters 
clf = GridSearchCV(tree.DecisionTreeClassifier(), parameters, cv=10, n_jobs=-1)
clf.fit(X,y)

tree_model = clf.best_estimator_
import pickle
s = pickle.dumps(tree_model)
print(clf.best_score_, clf.best_params_)

【问题讨论】：

【参考方案1】：

我认为您需要在培训之前修剪您的数据库。你也可以试试WEKA工具。 http://www.cs.waikato.ac.nz/ml/weka/documentation.html

【讨论】：

以上是关于如何找到分类器允许的最大训练集？的主要内容，如果未能解决你的问题，请参考以下文章