twitter 示例 API 提供了多少百分比的推文?

Posted

技术标签:

【中文标题】twitter 示例 API 提供了多少百分比的推文?【英文标题】:How many percent of the tweets does twitter sample API give? 【发布时间】:2012-10-24 18:24:01 【问题描述】:

有谁知道我们从twitter sample API 获得的推文数量与 Twitter 服务器收到的推文总数之间的比率是多少?我正在根据从示例 API 读取的数据进行一些分析,并想估计 Twitter 服务器处理的实际工作量。我观察到我们从 API 获得的推文数量会随着时间而变化。所以,我认为它类似于百分比样本。任何线索都非常感谢。

谢谢

【问题讨论】:

就 public_timeline 而言,它提供了前 1500 条推文。 嗨@BhanuKaushik,我想,也许我们在谈论不同的API。因为,twitter 示例 API 似乎并没有限制要抓取的推文数量。你可以让它存活一天,并且会产生大约 7~8 GB 的推文。 【参考方案1】:

样本流/statuses/sample 确实返回了大约 1% 的所有推文。 Twitter 通过在每秒 1,000 毫秒中仅提供 10 毫秒窗口内创建的推文来对推文进行采样。如果想了解更多详情,可以阅读我的博文:http://blog.falcondai.com/2013/06/666-and-how-twitter-samples-tweets-in.html

【讨论】:

【参考方案2】:

Twitter Spritzer(基本上是老式的 Streaming API)推出时,据说它约占所有推文的 1-2%。根据我对当前 Streaming API 的使用,如果它现在超过 1%,甚至可能更少,我会感到惊讶。根据文档,“Twitter streaming volume is not constant”,但他们忽略了 API 输出的量是否与实际推文的速率成正比。

【讨论】:

嗨@muffinista,非常感谢您的回复。我也怀疑它是否真的高达 1%,因为它每秒只有大约 30~80 条推文。 如果我根据位置边界框获取推文,缩小位置范围是否可以让我获得更多该位置的推文?【参考方案3】:

2015 年 2 月 2 日,Twitter announced 打算将流式 API 采样率重置为 1%(它无意中爬得更高):

公共 Streaming API 示例端点(又名 POST 状态/过滤器和 GET 状态/示例)旨在随时调整为公共推文量的大约 1%。

由于过去的一些配置不一致,有时通过 Streaming API 传递的推文量可能超过了这些参数。

此通知旨在表明,在接下来的几周内,我们将对公共 Streaming API 进行更改,以将推文量重新平衡到预期容量的 1%。

This plot 显示了重置对典型推文流的影响。

【讨论】:

【参考方案4】:

这是我在 https://brightplanet.com/2013/06/25/twitter-firehose-vs-twitter-api-whats-the-difference-and-why-should-you-care/。我希望你觉得这很有用。

研究估计,使用 Twitter 的 Streaming API 的用户可以 预计会收到 1% 到 40% 以上的推文 近乎实时。

网页底部有他们引用的研究的参考资料。

【讨论】:

以上是关于twitter 示例 API 提供了多少百分比的推文?的主要内容,如果未能解决你的问题,请参考以下文章

使用 Twitter 流 API,是不是可以只显示来自特定用户的推文?

仅使用 Twitter 流 API 显示来自单个用户的推文

如何使用 Twitter API 对推文进行分类

是否可以通过 twitter API 检索已删除的推文或已删除的帐户?

从 twitter 找出 Flume 下载的推文的位置

历史汇总 Twitter 数据