TF-IDF +多元回归预测问题

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了TF-IDF +多元回归预测问题相关的知识,希望对你有一定的参考价值。

我在类似于Craigslist的门户网站上销售了大约10,000排车辆的数据集。列包括价格,里程,没有。以前的所有者,汽车出售的时间(以天为单位),最重要的是描述车辆的文本正文(例如“无事故,定期维修”)。

我想知道哪些关键字(如果包含在内)会导致汽车越早销售。但是我知道汽车出售的时间也取决于其他因素,特别是价格和里程。

在scikit-learn中运行TfidfVectorizer导致预测准确性非常差。不确定我是否应该尝试在回归模型中包括价格,里程等,因为它看起来很复杂。目前我正在考虑对数据的特定部分重复TF-IDF回归,这个数据足够巨大(也许丰田的价格在1万美元到2万美元之间)。

最后的手段是绘制两个直方图,一个是包含特定单词/短语的车辆清单,另一个是不包含特定单词/短语的直方图。这里的限制是我选择绘制的单词将基于我的主观意见。

是否有其他方法可以找出哪些关键字可能很重要?提前致谢。

答案

正如你所提到的,你只能用文本正文来表达,这意味着文本对销售汽车的影响程度。

尽管该模型的预测准确性非常差,但您可以提前了解特征的重要性,以了解推动销售的单词是什么。

通过将ngram_range参数设置为(1,2),在tfidf矢量化程序中包含短语这可能会为您提供一个很小的指示,说明哪些短语会影响汽车的销售。

如果还建议你将tfidf的norm参数设置为None,检查是否有影响。默认情况下,它适用于l2规范。

差异将来自您正在使用的分类模型。尝试更改模型也作为最后一个选项。

以上是关于TF-IDF +多元回归预测问题的主要内容,如果未能解决你的问题,请参考以下文章

求python支持向量机多元回归预测代码

TF-IDF原理以及sklearn实现和测试

Alink漫谈 : TF-IDF算法的实现

Alink漫谈 : TF-IDF算法的实现

贝叶斯线性回归和多元线性回归构建工资预测模型|附代码数据

unigrams & bigrams (tf-idf) 不如 unigrams (ff-idf) 准确?