TF-IDF +多元回归预测问题
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了TF-IDF +多元回归预测问题相关的知识,希望对你有一定的参考价值。
我在类似于Craigslist的门户网站上销售了大约10,000排车辆的数据集。列包括价格,里程,没有。以前的所有者,汽车出售的时间(以天为单位),最重要的是描述车辆的文本正文(例如“无事故,定期维修”)。
我想知道哪些关键字(如果包含在内)会导致汽车越早销售。但是我知道汽车出售的时间也取决于其他因素,特别是价格和里程。
在scikit-learn中运行TfidfVectorizer导致预测准确性非常差。不确定我是否应该尝试在回归模型中包括价格,里程等,因为它看起来很复杂。目前我正在考虑对数据的特定部分重复TF-IDF回归,这个数据足够巨大(也许丰田的价格在1万美元到2万美元之间)。
最后的手段是绘制两个直方图,一个是包含特定单词/短语的车辆清单,另一个是不包含特定单词/短语的直方图。这里的限制是我选择绘制的单词将基于我的主观意见。
是否有其他方法可以找出哪些关键字可能很重要?提前致谢。
正如你所提到的,你只能用文本正文来表达,这意味着文本对销售汽车的影响程度。
尽管该模型的预测准确性非常差,但您可以提前了解特征的重要性,以了解推动销售的单词是什么。
通过将ngram_range
参数设置为(1,2)
,在tfidf矢量化程序中包含短语这可能会为您提供一个很小的指示,说明哪些短语会影响汽车的销售。
如果还建议你将tfidf的norm
参数设置为None
,检查是否有影响。默认情况下,它适用于l2规范。
差异将来自您正在使用的分类模型。尝试更改模型也作为最后一个选项。
以上是关于TF-IDF +多元回归预测问题的主要内容,如果未能解决你的问题,请参考以下文章