尽管数据集不是很大,我的拟合模型太大而无法上传到github
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了尽管数据集不是很大,我的拟合模型太大而无法上传到github相关的知识,希望对你有一定的参考价值。
我正在使用线性回归创建一个模型,并且在要使用的模型之外创建文件后,文件的大小大于400mb。 Github仅允许100mb的文件,所以我无法提交和推送使用Heroku所需的文件。
我很困惑,因为我的训练集的形状是(3759,10)所以有10个特征和3759个观测值。
from sklearn.pipeline import make_pipeline
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LinearRegression
import category_encoders as ce
#Create pipelines for different regressors
linear_regression = make_pipeline(
ce.OneHotEncoder(use_cat_names = True),
SimpleImputer(),
LinearRegression()
)
#Fit Models!
linear_regression.fit(X_train,y_train)
#Create file out of model
from joblib import dump
dump(linear_regression, 'linear_regression.joblib')
从模型中创建文件后,将其传输到另一个文件夹以用于应用程序。任何建议将不胜感激
答案
您是否有理由为此使用git? Git通常用于存储和共享源代码,而不是程序输出。如果要将其存储在其他应用程序使用的位置,则始终可以使该程序将转储写入数据库,并从该数据库加载应用程序。
另一答案
您可以使用AWS S3存储桶来存储模型,而不是使用Git。
查看此链接https://medium.com/@nrk25693/how-to-use-boto3-to-load-your-pickle-files-dcdf59cc0016
以上是关于尽管数据集不是很大,我的拟合模型太大而无法上传到github的主要内容,如果未能解决你的问题,请参考以下文章