将 IMDB 数据用于 sci-kit 回归模型包,该包在特征变量中具有文本值

Posted

技术标签:

【中文标题】将 IMDB 数据用于 sci-kit 回归模型包,该包在特征变量中具有文本值【英文标题】:Using IMDB data for the sci-kit regression models package which has text values in feature variables 【发布时间】:2017-03-19 10:31:25 【问题描述】:

我有一个包含 IMDB 电影评级数据的 csv 文件。该文件有 27 个特征和 1 个目标变量。我已附上SampleData。并且数据集也可以从KaggleData下载。 我了解到 sklearn 包 python 要求所有数据都是数字。那么如何使用这些数据进行回归分析呢? 现在我使用了下面的代码,但它说“某些导演名称”不能转换为浮点数。

import pandas as pd
from sklearn.linear_model import LinearRegression
df = pd.read_csv('D:\Machine Learning\Final\movie_metadata.csv')
feature_cols = [
                 "director_facebook_likes", 
                 "cast_total_facebook_likes",
                 "movie_facebook_likes",
                 "facenumber_in_poster",
                 "gross",
                 "num_critic_for_reviews",
                 "num_voted_users",
                 "num_user_for_reviews",
                 "duration",
                 "title_year",
                 "content_rating",
                 "budget",
                 "director_name"]
X = df[feature_cols]
y = df.imdb_score
lm = LinearRegression()
lm.fit(X, y)
print (lm.intercept_)
print (lm.coef_)

【问题讨论】:

【参考方案1】:

最简单的是 pd.get_dummies()。您也可能会遇到 one-hot-encoding。

【讨论】:

以上是关于将 IMDB 数据用于 sci-kit 回归模型包,该包在特征变量中具有文本值的主要内容,如果未能解决你的问题,请参考以下文章

如何将个人 PNG 数据集放入 Sci-Kit Learn 进行图像识别?

贝叶斯线性回归和多元线性回归构建工资预测模型|附代码数据

tensorflow 教程 文本分类 IMDB电影评论

R语言回归模型构建回归模型基本假设(正态性线性独立性方差齐性)回归模型诊断car包诊断回归模型特殊观察样本分析数据变换模型比较特征筛选交叉验证预测变量相对重要度

R包介绍系列-适用于回归模型可视化的visreg包

Pytorch文本分类(imdb数据集),含DataLoader数据加载,最优模型保存