如何将两列转换为用于计数矢量化的序列?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何将两列转换为用于计数矢量化的序列?相关的知识,希望对你有一定的参考价值。
我有一个带有两列和9372条记录的Pandas数据框。
第一列称为'twodig',它是一个整数。第二列称为“ descrp”,是一个varchar。
[删除停用词和特殊字符后,我只想在'descrp'列上使用CountVectorizer,但仍保留'twodig'。
import pandas
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
bowmatrix = vectorizer.fit_transform(df)
但是运行CountVectorizer,要求将数据帧转换为熊猫系列,然后使用CountVectorizer运行女巫。
corpus = pd.Series(df)
但是当我运行脚本时,产生的错误是:传递的项目数错误2,放置位置为9372
如何将具有多列的pandas数据框转换为一系列?
谢谢
答案
您只能通过以下方式从DataFrame中获取该列:df["descrp"]
,因此您的代码将是:
import pandas
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
bowmatrix = vectorizer.fit_transform(df["descrp"])
另一答案
您可以执行类似的操作,但在此之后的工作效果并不是最佳选择。
import pandas
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
df["bowmatrix"] = vectorizer.fit_transform(df["descrp"])
以上是关于如何将两列转换为用于计数矢量化的序列?的主要内容,如果未能解决你的问题,请参考以下文章
如何将下面的文本转换为序列文件,该文件又将转换为 mahout kmeans 的矢量?