是否可以过滤推文,因为它们正在被twint或getoldtweets3中的转发或喜欢的数量刮取?

Posted

技术标签:

【中文标题】是否可以过滤推文,因为它们正在被twint或getoldtweets3中的转发或喜欢的数量刮取?【英文标题】:Is it possible to filter tweets as they are being scraped by number of retweets or likes in twint or getoldtweets3? 【发布时间】:2020-12-26 03:08:54 【问题描述】:
import twint

c = twint.Config()
c.Hide_output = True
c.Search = "TSLA"
c.Lang = "en"
c.Since = "2019-10-01 00:00:00"
c.Until = "2019-10-10 00:00:00"
c.Store_csv = True
c.Output = "TSLA.csv"

twint.run.Search(c)

这段代码需要很长时间才能执行,并获得了 10,600 条推文,其中大部分没有任何价值。我只需要转发或喜欢大于阈值的推文。不幸的是,关于 twint 和 getoldtweets3 的文档非常简单。请问有人有这方面的经验吗?

【问题讨论】:

【参考方案1】:

试试这个代码

c.Lang = "en"
c.Search = "TSLA"
StartDate = "2019-10-01"
EndDate = "2019-10-10"
c.Since = StartDate
c.Until = EndDate
c.Filter_retweets = True 
c.Store_csv = True
c.min_likes = 5 

【讨论】:

以上是关于是否可以过滤推文,因为它们正在被twint或getoldtweets3中的转发或喜欢的数量刮取?的主要内容,如果未能解决你的问题,请参考以下文章

按位置过滤推文

如何使用 twint 库为整个国家/地区抓取 twitter

iOS和/或Twitter上的EXIF数据是否已被带有图片的推文剥离?

php安全篇值过滤用户输入的参数(转)

如何获取大量 GET 参数并根据它们干净地过滤查询?

实时检索推文并发送带有推文文本的电子邮件