Scikit Learn 中的 CountVectorizer

Posted 2023-03-12

技术标签:

【中文标题】Scikit Learn 中的 CountVectorizer【英文标题】：CountVectorizer in Scikit Learn 【发布时间】：2020-05-05 05:28:30 【问题描述】：

我不确定在创建 CountVectorizer 类的实例时，它们之间有什么区别 vectorizer = CountVectorizer(tokenizer=word_tokenize) 和 vectorizer = CountVectorizer

请帮我说清楚。感谢您的时间。

【问题讨论】：

【参考方案1】：

默认情况下，CountVectorizer 不会标记输入。标记化是对输入字符串的部分进行划分和可能分类的过程。换句话说，它将像'This is the input' 这样的长字符串变成了一个序列：

['This', 'is', 'the', 'input']

如果您使用可调用参数指定 tokenizer 参数在CountVectorizer 中，它将使用此函数来标记输入（source）。

【讨论】：

感谢您的澄清

以上是关于Scikit Learn 中的 CountVectorizer的主要内容，如果未能解决你的问题，请参考以下文章