Scikit Learn 中的 CountVectorizer
Posted
技术标签:
【中文标题】Scikit Learn 中的 CountVectorizer【英文标题】:CountVectorizer in Scikit Learn 【发布时间】:2020-05-05 05:28:30 【问题描述】:我不确定在创建 CountVectorizer 类的实例时,它们之间有什么区别
vectorizer = CountVectorizer(tokenizer=word_tokenize)
和 vectorizer = CountVectorizer
请帮我说清楚。 感谢您的时间。
【问题讨论】:
【参考方案1】:默认情况下,CountVectorizer
不会标记输入。标记化是对输入字符串的部分进行划分和可能分类的过程。换句话说,它将像'This is the input'
这样的长字符串变成了一个序列:
['This', 'is', 'the', 'input']
如果您使用可调用参数指定 tokenizer
参数
在CountVectorizer
中,它将使用此函数来标记输入(source)。
【讨论】:
感谢您的澄清以上是关于Scikit Learn 中的 CountVectorizer的主要内容,如果未能解决你的问题,请参考以下文章