Twitter:如何提取包含符号 (!,%,$) 的推文?

Posted

技术标签:

【中文标题】Twitter:如何提取包含符号 (!,%,$) 的推文?【英文标题】:Twitter: How to extract tweets containing symbols (!,%,$)? 【发布时间】:2018-05-05 14:30:38 【问题描述】:

对于一个项目,我希望能够创建一个包含某些特定符号字符串的推文数据集。由于我还想尽可能回到过去,我尝试使用此处提到的 GetOldTweets 脚本 (https://github.com/Jefferson-Henrique/GetOldTweets-python):https://***.com/a/35077920/5858873。

问题是,它无法提取包含符号的推文作为输入。事实上,人们甚至无法直接在 Twitter 上搜索包含所需符号的任何推文。

为了更清楚地解释问题,请考虑以下示例案例。我想提取所有包含字符串 '!!!' 的推文在过去两年内。

最好的方法是什么(如果这可行的话)?

【问题讨论】:

一种方法是获取数据(推文)并为您的符号手动解析它们(这会很慢,但会完成工作)。另一个是查看 Twitter 的 API,看看它是否支持搜索功能。一个快速的谷歌产生this。 @MooingRawr 但是,在这种情况下,我必须先提取所有推文(这是不可能的)。另外,我认为 Twitter API 不允许搜索仅包含符号的推文。 如果你想成为官方的 it looks like it will cost you 如果 Twitter 不支持符号搜索而他们允许正常搜索,我会感到非常惊讶...... 我觉得这很重要,因为它将帮助未来的海报(这些都是相关的澄清!)。如果短语包含符号,您引用的内容有效,但不适用于包含完全由符号 组成的字符串。所以,例如,“可口可乐!”查询会产生结果,但不会产生“!!!”。 没问题。据我所知,Streaming API 的问题在于您只能访问最新的推文。 【参考方案1】:

您可以根据自己的需求创建自己的正则表达式,并且 然后点击推特数据以提取特定推文。

【讨论】:

你能多谈谈“点击推特数据”吗?您是在谈论他们的 API、某些特定的抓取工具等吗?另外,如果您能提供有关如何为您工作的屏幕截图,我将不胜感激。 是的,查看API描述链接marcobonzanini.com/2015/03/02/… 这似乎对我不起作用。你能运行搜索“!!!”的代码吗?如果这对您有用并发布屏幕截图?【参考方案2】:

我发现了这个有趣的资源:@​​987654321@

它基本上是说某些字符无法搜索,因为 Twitter 已阻止使用它们。

我认为你应该做的是搜索一定范围范围内的所有推文 ,然后在每条推文的正文消息上使用字符串方法find。然后,当您达到某个运行时间或找到特定数量的推文时,您将停止。

【讨论】:

如问题示例中所述,我想在 2 年的时间范围内找到包含所需字符串的所有推文。由于数量庞大,这使得提取所有推文变得不可行,即使有一种方法可以在这段时间内提取所有推文。 你想知道(if this even is doable)。而且我不认为它是,我提供了一些资源,以及另一种解决方案。【参考方案3】:

您可以使用各种条件(在字典中搜索单词、位置搜索、流行的 Twitter 帐户等)从 Twitter API 下载和存储数据。它肯定不会是全部数据,但您会拥有其中的一部分。

然后在本地搜索这些推文。

这些字符在 url 中也是有效的,所以在搜索之前去掉 url。

另外不要忘记检查存储您从 Twitter 获得的数据是否合法。

【讨论】:

问题是,我无法知道与我所需的字符串同时出现的所有或搜索词(甚至是最常见的词)。假设我下载了搜索词“apples”的所有推文,然后在这些推文中本地搜索“!!!”。当然,我会得到所有带有“apples”和“!!!”的推文,但是 twitter 上所有其他没有“apples”的推文呢?在这种情况下,部分解决方案不可行,因为我的搜索查询没有频繁项集。

以上是关于Twitter:如何提取包含符号 (!,%,$) 的推文?的主要内容,如果未能解决你的问题,请参考以下文章

C# 数据库提取值包含特殊符号例如反斜杠,逗号。如何去除这些特殊符号?

如何使用加特林提取带&符号的href?

Typescript - 从包含符号的文本中提取字符串[重复]

当 URL 包含百分比符号时如何停止错误 400? (阿帕奇)

twitter bootstrap问题:右对齐下拉标题中的插入符号

使用 Fabric 找不到符号导入 com.twitter.sdk.android.Twitter