支持向量机 - 预测文章的受欢迎程度 - 我做错了啥？

Posted 2023-03-12

技术标签:

【中文标题】支持向量机 - 预测文章的受欢迎程度 - 我做错了啥？【英文标题】：Support Vector Machines - Predicting popularity of articles - What am I doing wrong?支持向量机 - 预测文章的受欢迎程度 - 我做错了什么？ 【发布时间】：2016-07-09 20:07:16 【问题描述】：

原始数据：

文章内容和标题。 10000 篇文章

特征：（我从数据中提取出来的）

标题字数

文章字数

Facebook 点赞数

发布时间：周末与否

首先让我说我对 ML 很陌生。

我正在尝试使用我必须使用 SVM 构建模型的数据。该模型将预测一篇文章是否可能受欢迎。我假设一篇文章的 FB 点赞数大于 2000 的文章很受欢迎。

我用训练数据创建了一个 5D 地图（4 个维度用于 4 个特征，1 个维度用于二进制流行度信息）。每篇文章及其特征在 5D 空间中都会有一个点。

我正在尝试将此 5D 地图与 SVM 一起使用，以便创建最佳边距。

然后我将使用这个边距来预测测试数据的流行度。

说到实施，我很困惑。

我做错了吗？我应该如何使用 SVM 来解决这个问题？

感谢任何帮助。谢谢！

【问题讨论】：

您使用什么语言/软件和内核来实现 SVM？ @ode2k 希望使用线性多项式和高斯作为内核。目前语言是matlab 【参考方案1】：

是什么让您认为您的功能足以预测某项内容是否受欢迎？关于您丢弃的所有信息（实际文档的内容），您丢失的信息（谁是出版物的来源，他们的网络是什么样的）从您的数据中不明显的问题（流行和谁在一起？不同的人群可能喜欢/不喜欢不同的东西）。

你需要

很多

【讨论】：

非常感谢您的回答！我认为这些功能不是那么好。您的总体建议正是我想要做的。我正在尝试将这些功能与几种 ML 方法一起使用。然后观察每一个的准确性。然后，试着解释为什么我会得到我想到的结果。在这一点上，我并没有很好的预测。我只想在“介绍”级别“彻底”解决这个问题。我阅读了许多项目论文，但假设我知道它们，它们都跳过了重要的细节。我应该怎么做才能快速弄脏我的手？ “我阅读了很多项目论文，但假设我知道它们，它们都跳过了重要的细节”那么你应该去寻找那些细节。快速和肮脏是错误的学习方式（恕我直言）。

以上是关于支持向量机 - 预测文章的受欢迎程度 - 我做错了啥？的主要内容，如果未能解决你的问题，请参考以下文章

SVM预测灰狼算法优化svm支持向量机预测matlab源码

机器学习：基于支持向量机（SVM）进行人脸识别预测

DANN:利用神经网络算法评估变异位点的有害程度

QTreeView 的 QAbstractItemModel：我做错了啥？