如何将两列转换为用于计数矢量化的序列?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何将两列转换为用于计数矢量化的序列?相关的知识,希望对你有一定的参考价值。

我有一个带有两列和9372条记录的Pandas数据框。

第一列称为'twodig',它是一个整数。第二列称为“ descrp”,是一个varchar。

Panda Dataframe

[删除停用词和特殊字符后,我只想在'descrp'列上使用CountVectorizer,但仍保留'twodig'。

import pandas

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

bowmatrix = vectorizer.fit_transform(df)

但是运行CountVectorizer,要求将数据帧转换为熊猫系列,然后使用CountVectorizer运行女巫。

corpus = pd.Series(df)

但是当我运行脚本时,产生的错误是:传递的项目数错误2,放置位置为9372

如何将具有多列的pandas数据框转换为一系列?

谢谢

答案

您只能通过以下方式从DataFrame中获取该列:df["descrp"],因此您的代码将是:

import pandas

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

bowmatrix = vectorizer.fit_transform(df["descrp"])
另一答案

您可以执行类似的操作,但在此之后的工作效果并不是最佳选择。

import pandas 
from sklearn.feature_extraction.text import CountVectorizer 

vectorizer = CountVectorizer() 
df["bowmatrix"] = vectorizer.fit_transform(df["descrp"])

以上是关于如何将两列转换为用于计数矢量化的序列?的主要内容,如果未能解决你的问题,请参考以下文章

如何将下面的文本转换为序列文件,该文件又将转换为 mahout kmeans 的矢量?

将两列强制转换为 R 中的 1 列因子和 1 列对应值用于数据框

如何将两列数组转换为具有出现次数的矩阵?

如何将两列csv转换为第二列的向量?

Python:将两列数据框转换为一个插入列表[重复]

如何将矢量eps文件转换为pdf?