CountVectorizer 是不是应该同时适用于训练集和测试集?
Posted
技术标签:
【中文标题】CountVectorizer 是不是应该同时适用于训练集和测试集?【英文标题】:Should CountVectorizer be fit on both the train and test sets?CountVectorizer 是否应该同时适用于训练集和测试集? 【发布时间】:2019-12-09 21:40:55 【问题描述】:我在网上看到了各种文章,其中一些建议 CountVectorizer 应该适合训练集和测试集,还有一些建议它应该只适合训练集。 哪种方法通常更适合文本分类?
【问题讨论】:
【参考方案1】:通常test_set
应保持不可见,因此CountVectorizer
应仅安装在train_set
上
【讨论】:
以上是关于CountVectorizer 是不是应该同时适用于训练集和测试集?的主要内容,如果未能解决你的问题,请参考以下文章
我可以同时在测试和训练数据上使用 CountVectorizer 还是需要将其拆分?
如何提前判断 CountVectorizer 是不是会抛出 ValueError: empty words?
Spark CountVectorizer返回udt而不是向量[重复]