Python:预测来自用户的推文数量

Posted

技术标签:

【中文标题】Python:预测来自用户的推文数量【英文标题】:Python : Predict number of tweets from a user 【发布时间】:2017-09-03 19:39:37 【问题描述】:

我正在尝试根据推文的历史计数和移动平均值来预测用户将发布的推文数量。我是一名 python 开发人员,但在 ML 方面完全是菜鸟。以下是我从用户@POTUS 获得的数据集:

Date | Number of tweets

01-03-2017 : 3
02-03-2017 : 2
03-03-2017 : 7
06-03-2017 : 2
07-03-2017 : 6
08-03-2017 : 6
09-03-2017 : 5
10-03-2017 : 5
11-03-2017 : 6
13-03-2017 : 11
14-03-2017 : 5
15-03-2017 : 10
16-03-2017 : 6
17-03-2017 : 7
18-03-2017 : 3
19-03-2017 : 2
20-03-2017 : 6
21-03-2017 : 9
22-03-2017 : 1
23-03-2017 : 3
24-03-2017 : 4

我还使用https://github.com/linsomniac/python-movingaverage/blob/master/movingaverage.py 计算了 7 天和 3 天移动平均线

Moving Average, 3 days : 
[4.0, 3.67, 5.0, 4.67, 5.67, 5.33, 5.33, 7.33, 7.33, 8.67, 7.0, 7.67, 5.33, 4.0, 3.67, 5.67, 5.33, 4.33, 2.67, 4.0, 3.67, 4.33, 4.33, 6.0, 6.67, 5.67, 3.67, 2.33]

Moving Average, 7 days : 
[4.43, 4.71, 5.29, 5.86, 6.29, 6.86, 6.86, 7.14, 6.86, 6.29, 5.57, 6.14, 4.86, 4.43, 4.0, 4.29, 4.29, 4.29, 3.71, 4.57, 5.29, 5.0, 4.43, 4.71]

我知道这是一个回归问题,但不太确定如何进一步处理。我应该用什么方法来预测用户在接下来的几天里会发多少条推文?

【问题讨论】:

这是题外话,对 SO 来说太宽泛了。尝试研究机器学习算法以找到进行预测的方法。 和其他功能不仅仅是以前的推文计数......(否则你只能自动回归) 【参考方案1】:

您发布的数据格式为:

[日期格式] [数字格式]

要执行数值回归,格式为日期的信息必须格式为数字。这通常通过将信息转换为自特定日期以来的天数来完成。如果您将数据格式化为:

[自 2017 年 1 月 3 日起的天数] [推文数]

它更适合数值分析。我建议在重新格式化数据后,制作一个散点图,看看是否有某种可以用数学建模的可见趋势。如果您在数据中看不到某种如此简单的趋势,那么机器学习可能也找不到。

【讨论】:

以上是关于Python:预测来自用户的推文数量的主要内容,如果未能解决你的问题,请参考以下文章

处理大量推文以进行探索性数据分析,例如独特推文的数量和每个用户的推文计数直方图

Tweepy 没有返回给定数量的推文

计算每天的推文

twitter 示例 API 提供了多少百分比的推文?

仅使用 Twitter 流 API 显示来自单个用户的推文

使用 Twitter 流 API,是不是可以只显示来自特定用户的推文?