CountVectorizer 是不是应该同时适用于训练集和测试集?

Posted

技术标签:

【中文标题】CountVectorizer 是不是应该同时适用于训练集和测试集?【英文标题】:Should CountVectorizer be fit on both the train and test sets?CountVectorizer 是否应该同时适用于训练集和测试集? 【发布时间】:2019-12-09 21:40:55 【问题描述】:

我在网上看到了各种文章,其中一些建议 CountVectorizer 应该适合训练集和测试集,还有一些建议它应该只适合训练集。 哪种方法通常更适合文本分类?

【问题讨论】:

【参考方案1】:

通常test_set 应保持不可见,因此CountVectorizer 应仅安装在train_set

【讨论】:

以上是关于CountVectorizer 是不是应该同时适用于训练集和测试集?的主要内容,如果未能解决你的问题,请参考以下文章

我可以同时在测试和训练数据上使用 CountVectorizer 还是需要将其拆分?

如何提前判断 CountVectorizer 是不是会抛出 ValueError: empty words?

使用 CountVectorizer 连接自定义特征

Spark CountVectorizer返回udt而不是向量[重复]

Sklearn CountVectorizer:将表情符号保留为单词

Spark Java API 之 CountVectorizer