支持向量机 - 预测文章的受欢迎程度 - 我做错了啥?
Posted
技术标签:
【中文标题】支持向量机 - 预测文章的受欢迎程度 - 我做错了啥?【英文标题】:Support Vector Machines - Predicting popularity of articles - What am I doing wrong?支持向量机 - 预测文章的受欢迎程度 - 我做错了什么? 【发布时间】:2016-07-09 20:07:16 【问题描述】:原始数据:
文章内容和标题。 10000 篇文章
特征:(我从数据中提取出来的)
标题字数
文章字数
Facebook 点赞数
发布时间:周末与否
首先让我说我对 ML 很陌生。
我正在尝试使用我必须使用 SVM 构建模型的数据。该模型将预测一篇文章是否可能受欢迎。我假设一篇文章的 FB 点赞数大于 2000 的文章很受欢迎。
我用训练数据创建了一个 5D 地图(4 个维度用于 4 个特征,1 个维度用于二进制流行度信息)。每篇文章及其特征在 5D 空间中都会有一个点。
我正在尝试将此 5D 地图与 SVM 一起使用,以便创建最佳边距。
然后我将使用这个边距来预测测试数据的流行度。
说到实施,我很困惑。
我做错了吗?我应该如何使用 SVM 来解决这个问题?
感谢任何帮助。谢谢!
【问题讨论】:
您使用什么语言/软件和内核来实现 SVM? @ode2k 希望使用线性多项式和高斯作为内核。目前语言是matlab 【参考方案1】:是什么让您认为您的功能足以预测某项内容是否受欢迎?关于您丢弃的所有信息(实际文档的内容),您丢失的信息(谁是出版物的来源,他们的网络是什么样的)从您的数据中不明显的问题(流行和谁在一起?不同的人群可能喜欢/不喜欢不同的东西)。
你需要
-
了解更多关于机器学习的一般信息。
了解特征工程,查找人们之前对基于文本的数据所做的一些工作(情感分析、主题建模、垃圾邮件过滤)。
学习使用您的数据构建和检验假设。虽然在这种情况下,很明显您可能会犯很多很多错误——但这主要是因为这是新手工作。一般来说,这些问题总是与问题和数据相关,因此提供一般信息和寻求建议通常无济于事。一旦你学习了更多的机器学习,你就需要考虑你的模型意味着什么——以及它们的性能意味着什么。从中你可以建立一个关于你的表现的假设,并尝试和测试它。根据结果,您更改模型或数据的某些内容并重复。
【讨论】:
非常感谢您的回答!我认为这些功能不是那么好。您的总体建议正是我想要做的。我正在尝试将这些功能与几种 ML 方法一起使用。然后观察每一个的准确性。然后,试着解释为什么我会得到我想到的结果。在这一点上,我并没有很好的预测。我只想在“介绍”级别“彻底”解决这个问题。我阅读了许多项目论文,但假设我知道它们,它们都跳过了重要的细节。我应该怎么做才能快速弄脏我的手? “我阅读了很多项目论文,但假设我知道它们,它们都跳过了重要的细节”那么你应该去寻找那些细节。快速和肮脏是错误的学习方式(恕我直言)。以上是关于支持向量机 - 预测文章的受欢迎程度 - 我做错了啥?的主要内容,如果未能解决你的问题,请参考以下文章