Scikit Learn 中的 CountVectorizer

Posted

技术标签:

【中文标题】Scikit Learn 中的 CountVectorizer【英文标题】:CountVectorizer in Scikit Learn 【发布时间】:2020-05-05 05:28:30 【问题描述】:

我不确定在创建 CountVectorizer 类的实例时,它们之间有什么区别 vectorizer = CountVectorizer(tokenizer=word_tokenize)vectorizer = CountVectorizer

请帮我说清楚。 感谢您的时间。

【问题讨论】:

【参考方案1】:

默认情况下,CountVectorizer 不会标记输入。标记化是对输入字符串的部分进行划分和可能分类的过程。换句话说,它将像'This is the input' 这样的长字符串变成了一个序列:

['This', 'is', 'the', 'input']

如果您使用可调用参数指定 tokenizer 参数 在CountVectorizer 中,它将使用此函数来标记输入(source)。

【讨论】:

感谢您的澄清

以上是关于Scikit Learn 中的 CountVectorizer的主要内容,如果未能解决你的问题,请参考以下文章

scikit-learn 中的随机森林解释

混淆矩阵中的 Scikit-learn 变化阈值

scikit-learn 中的 DBSCAN(仅使用指标)

scikit-learn 中的不平衡

GradientBoostingClassifier 与 scikit-learn 中的 BaseEstimator?

scikit-learn 中的测试集分区