尽管数据集不是很大,我的拟合模型太大而无法上传到github

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了尽管数据集不是很大,我的拟合模型太大而无法上传到github相关的知识,希望对你有一定的参考价值。

我正在使用线性回归创建一个模型,并且在要使用的模型之外创建文件后,文件的大小大于400mb。 Github仅允许100mb的文件,所以我无法提交和推送使用Heroku所需的文件。

我很困惑,因为我的训练集的形状是(3759,10)所以有10个特征和3759个观测值。

from sklearn.pipeline import make_pipeline
from sklearn.impute import SimpleImputer 
from sklearn.linear_model import LinearRegression
import category_encoders as ce

#Create pipelines for different regressors
linear_regression = make_pipeline(
  ce.OneHotEncoder(use_cat_names = True),
  SimpleImputer(),  
  LinearRegression()
)


#Fit Models!
linear_regression.fit(X_train,y_train)


#Create file out of model
from joblib import dump
dump(linear_regression, 'linear_regression.joblib')

从模型中创建文件后,将其传输到另一个文件夹以用于应用程序。任何建议将不胜感激

答案

您是否有理由为此使用git? Git通常用于存储和共享源代码,而不是程序输出。如果要将其存储在其他应用程序使用的位置,则始终可以使该程序将转储写入数据库,并从该数据库加载应用程序。

另一答案

您可以使用AWS S3存储桶来存储模型,而不是使用Git。

查看此链接https://medium.com/@nrk25693/how-to-use-boto3-to-load-your-pickle-files-dcdf59cc0016

以上是关于尽管数据集不是很大,我的拟合模型太大而无法上传到github的主要内容,如果未能解决你的问题,请参考以下文章

使用 GPU 连接到本地运行时 google colab 需要 tensorflow-gpu?

“位图太大,无法上传到纹理中”

Sklearn SGDClassifier 部分拟合

《机器学习》(西瓜书)摘要

判断模型是不是过拟合、欠拟合、数据问题?

在 R 中拟合正态分布