如何使用Scrapy制作Twitter Crawler? [关闭]

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何使用Scrapy制作Twitter Crawler? [关闭]相关的知识,希望对你有一定的参考价值。

我曾尝试使用Scrapy从Pinterest这样的网站中抓取数据,这些网站不需要登录会话进行数据抓取,但是如何使用Scrapy来抓取和抓取Twitter,因为访问Twitter粉丝和我们需要首先登录的其他数据。

答案

登录Twitter并获取某人的关注页面使用Python库请求的示例:

import requests

url = "https://twitter.com/login"
payload = { 'session[username_or_email]': account, 
            'session[password]': password}
r = requests.post(url, data=payload)

最好添加浏览器的标头来请求查询,以便Twitter服务器将蜘蛛视为浏览器用户。

# You need to fill the area below after checking the header in your browser
header = {
        'Host': 'twitter.com',
        'User-Agent': ,
        'Accept': ,
        'Accept-Language': ,
        'Accept-Encoding': ,
        'X-Requested-With': ,
        "Cookie": ",
        'Connection': }
url = 'http://twitter.com/%s/followers'%(someone)
p = requests.get(url, headers=headers)

然后你得到页面,你可以通过其他东西解析页面,如BS4,刮或任何东西。

另一答案

到目前为止,我已经看到两个针对Twitter的Scrapy库:

  • scrapy-twitter - 使用Twitter API并从每条推文中获取更多数据
  • TweetScraper - 没有Twitter API,但它具有强大的查询语言

以上是关于如何使用Scrapy制作Twitter Crawler? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

Scrapy错误-no active project Unknown command: crawl

python爬虫scrapy入门6:Scrapy中runspider和crawl的区别

python爬虫scrapy入门6:Scrapy中runspider和crawl的区别

Scrapy process.crawl() 将数据导出到 json

scrapy框架之crawl问题解决

使用scrapy crawl name启动一个爬虫时出现的问题