如何使用 Python 检索给定用户的所有推文和属性?
Posted
技术标签:
【中文标题】如何使用 Python 检索给定用户的所有推文和属性?【英文标题】:How can I retrieve all Tweets and attributes for a given user using Python? 【发布时间】:2013-03-15 17:52:16 【问题描述】:我正在尝试从 Twitter 检索数据,使用 Tweepy 作为在命令行键入的用户名。我想提取相当多的关于状态和用户的数据,所以想出了以下内容:
请注意,我正在导入所有必需的模块,并且有 oauth + 密钥(只是未包含在此处)并且文件名正确,只是已更改:
# define user to get tweets for. accepts input from user
user = tweepy.api.get_user(input("Please enter the twitter username: "))
# Display basic details for twitter user name
print (" ")
print ("Basic information for", user.name)
print ("Screen Name:", user.screen_name)
print ("Name: ", user.name)
print ("Twitter Unique ID: ", user.id)
print ("Account created at: ", user.created_at)
timeline = api.user_timeline(screen_name=user, include_rts=True, count=100)
for tweet in timeline:
print ("ID:", tweet.id)
print ("User ID:", tweet.user.id)
print ("Text:", tweet.text)
print ("Created:", tweet.created_at)
print ("Geo:", tweet.geo)
print ("Contributors:", tweet.contributors)
print ("Coordinates:", tweet.coordinates)
print ("Favorited:", tweet.favorited)
print ("In reply to screen name:", tweet.in_reply_to_screen_name)
print ("In reply to status ID:", tweet.in_reply_to_status_id)
print ("In reply to status ID str:", tweet.in_reply_to_status_id_str)
print ("In reply to user ID:", tweet.in_reply_to_user_id)
print ("In reply to user ID str:", tweet.in_reply_to_user_id_str)
print ("Place:", tweet.place)
print ("Retweeted:", tweet.retweeted)
print ("Retweet count:", tweet.retweet_count)
print ("Source:", tweet.source)
print ("Truncated:", tweet.truncated)
我希望这最终能够遍历用户的所有推文(最多 3200 条限制)。不过,第一件事。到目前为止,虽然我有两个问题,但我收到以下关于转发的错误消息:
Please enter the twitter username: barackobamaTraceback (most recent call last):
File " usertimeline.py", line 64, in <module>
timeline = api.user_timeline(screen_name=user, count=100, page=1)
File "C:\Python32\lib\site-packages\tweepy-1.4-py3.2.egg\tweepy\binder.py", line 153, in _call
raise TweepError(error_msg)
tweepy.error.TweepError: Twitter error response: status code = 401
Traceback (most recent call last):
File "usertimeline.py", line 42, in <module>
user = tweepy.api.get_user(input("Please enter the twitter username: "))
File "C:\Python32\lib\site-packages\tweepy-1.4-py3.2.egg\tweepy\binder.py", line 153, in _call
raise TweepError(error_msg)
tweepy.error.TweepError: Twitter error response: status code = 404
将用户名作为变量传递似乎也是一个问题:
Traceback (most recent call last):
File " usertimleline.py", line 64, in <module>
timeline = api.user_timeline(screen_name=user, count=100, page=1)
File "C:\Python32\lib\site-packages\tweepy-1.4-py3.2.egg\tweepy\binder.py", line 153, in _call
raise TweepError(error_msg)
tweepy.error.TweepError: Twitter error response: status code = 401
我已经隔离了这两个错误,即它们没有一起工作。
请原谅我的无知,我对 Twitter API 不太感兴趣,但我学得很快。 Tweepy 文档确实很烂,我已经在网上进行了大量阅读,但似乎无法解决这个问题。如果我能对此进行排序,我将发布一些文档。
我知道如何在提取数据后将数据传输到 mysql 数据库中(它会这样做,而不是打印到屏幕上)并对其进行操作,以便我可以用它做一些事情,我只是把它拿出来的问题。有没有人有任何想法或者我应该考虑另一种方法?
非常感谢任何帮助。干杯
编辑:
遵循@Eric Olson 今天早上的建议;我做了以下。
1) 创建了一组全新的 Oauth 凭据进行测试。 2)将代码复制到新脚本如下:
认证
consumer_key = "(removed)"
consumer_secret = "(removed)"
access_key="88394805-(removed)"
access_secret="(removed)"
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_key, access_secret)
api=tweepy.API(auth)
# confirm account being used for OAuth
print ("API NAME IS: ", api.me().name)
api.update_status("Using Tweepy from the command line")
我第一次运行脚本时,它运行良好并更新我的状态并返回 API 名称,如下所示:
>>>
API NAME IS: Chris Howden
然后从那一刻开始,我得到了这个:
Traceback (most recent call last):
File "C:/Users/Chris/Dropbox/Uni_2012-3/6CC995 - Independent Studies/Scripts/get Api name and update status.py", line 19, in <module>
api.update_status("Using Tweepy frm the command line")
File "C:\Python32\lib\site-packages\tweepy-1.4-py3.2.egg\tweepy\binder.py", line 153, in _call
raise TweepError(error_msg)
tweepy.error.TweepError: Twitter error response: status code = 403
我能看到它这样做的唯一原因是它拒绝生成的访问令牌。我应该不需要更新访问令牌吗?
【问题讨论】:
【参考方案1】:如果您愿意尝试其他库,可以试试rauth。 a Twitter example 已经有了,但如果你觉得懒惰,只是想要一个工作示例,我将如何修改该演示脚本:
from rauth import OAuth1Service
# Get a real consumer key & secret from https://dev.twitter.com/apps/new
twitter = OAuth1Service(
name='twitter',
consumer_key='J8MoJG4bQ9gcmGh8H7XhMg',
consumer_secret='7WAscbSy65GmiVOvMU5EBYn5z80fhQkcFWSLMJJu4',
request_token_url='https://api.twitter.com/oauth/request_token',
access_token_url='https://api.twitter.com/oauth/access_token',
authorize_url='https://api.twitter.com/oauth/authorize',
base_url='https://api.twitter.com/1/')
request_token, request_token_secret = twitter.get_request_token()
authorize_url = twitter.get_authorize_url(request_token)
print 'Visit this URL in your browser: ' + authorize_url
pin = raw_input('Enter PIN from browser: ')
session = twitter.get_auth_session(request_token,
request_token_secret,
method='POST',
data='oauth_verifier': pin)
params = 'screen_name': 'github', # User to pull Tweets from
'include_rts': 1, # Include retweets
'count': 10 # 10 tweets
r = session.get('statuses/user_timeline.json', params=params)
for i, tweet in enumerate(r.json(), 1):
handle = tweet['user']['screen_name'].encode('utf-8')
text = tweet['text'].encode('utf-8')
print '0. @1 - 2'.format(i, handle, text)
您可以按原样运行此程序,但请务必更新凭据!这些仅用于演示目的。
完全披露,我是 rauth 的维护者。
【讨论】:
王牌,感谢您的努力。与此同时,我设法找到另一种方法来使用 tweepy 模块获得我想要的所有内容,但这有助于更好地理解 json。 完成后我会发布我发现的内容。【参考方案2】:您收到 401 响应,意思是“未经授权”。 (see HTTP status codes)
您的代码看起来不错。使用api.user_timeline(screen_name="some_screen_name")
对我来说在我身边的旧示例中有效。
我猜你要么需要授权应用,要么你的 OAuth 设置有问题。
也许你已经找到了,但这里是我开始的简短代码示例:https://github.com/nloadholtes/tweepy/blob/nloadholtes-examples/examples/oauth.py
【讨论】:
干杯。今天早上我做了更多的调查,并在原始帖子中添加了一些额外的发现......以上是关于如何使用 Python 检索给定用户的所有推文和属性?的主要内容,如果未能解决你的问题,请参考以下文章
如何使用Twitter搜索API获取具有给定主题标签的所有推文?