求真正有效的可以模拟登录新浪微博的java代码,后续可以用Jsoup进行抓取。急急!!登录成功马上给分!

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了求真正有效的可以模拟登录新浪微博的java代码,后续可以用Jsoup进行抓取。急急!!登录成功马上给分!相关的知识,希望对你有一定的参考价值。

求真正有效的可以模拟登录新浪微博的java代码,给分。 最好是基于Jsoup的登录代码。
网上找了很多都是不能运行, 哪位大神有真正可以实现登陆的代码,急求!

参考技术A package jsoupTest;

import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

import org.jsoup.Connection.Method;
import org.jsoup.Connection.Response;
import org.jsoup.Jsoup;

public class JsoupTest 
  public static void main(String[] args) throws IOException 
    Map<String, String> map = new HashMap<>();
    //map.put请根据自己的微博cookie得到

    Response res = Jsoup.connect("http://weibo.com/u/别人的主页id")
        .cookies(map).method(Method.GET).execute();
    String s = res.body();
    System.out.println(s);
    String[] ss = s.split("<script>FM.view");
    int i = 0;
    // pl_content_homeFeed
    // pl.content.homeFeed.index
    List<String> list = new ArrayList<>();
    for (String x : ss) 
// System.out.println(i++ + "======================================");
// System.out.println(x.substring(0,
// x.length() > 200 ? 200 : x.length()));
// System.out.println("===========================================");
      if (x.contains("\\"html\\":\\"")) 
        String value = getHtml(x);
        list.add(value);
        System.out.println(value);
      

    
    // content=ss[8].split("\\"html\\":\\"")[1].replaceAll("(\\\\\\\\t|\\\\\\\\n)",
    // "").replaceAll("\\\\\\\\\\"", "\\"").replaceAll("\\\\\\\\/", "/");
    // content=content.substring(0,
    // content.length()<=13?content.length():content.length()-13);
    // System.out.println(Native2AsciiUtils.ascii2Native(content));
  

  public static String getHtml(String s) 
    String content = s.split("\\"html\\":\\"")[1]
        .replaceAll("(\\\\\\\\t|\\\\\\\\n)", "").replaceAll("\\\\\\\\\\"", "\\"")
        .replaceAll("\\\\\\\\/", "/");
    content = content.substring(0,
        content.length() <= 13 ? content.length()
            : content.length() - 13);
    return Native2AsciiUtils.ascii2Native(content);
  

参考技术B package com.test.yy;

import org.openqa.selenium.firefox.FirefoxDriver;

public class Test1 
    
    public static void main(String[] args) throws InterruptedException 
        FirefoxDriver driver = new FirefoxDriver();
        driver.get("http://www.zhihu.com");
        driver.manage().window().maximize();
        Thread.sleep(2000);
        driver.quit();
    
    
    

如何通过python调用新浪微博的API

1.下载SDK

使用python调用API的话,首先要去下一个Python的SDK,sinaweibopy

连接地址在此: http://michaelliao.github.com/sinaweibopy/

可以使用pip很快的导入,github连接里的wiki也有入门的使用方法,很容易看懂。

2.理解新浪微博的授权机制

在调用API之前,首先要搞懂什么叫OAuth 2,即新浪微博的授权机制,

连接在此: http://open.weibo.com/wiki/%E6%8E%88%E6%9D%83%E6%9C%BA%E5%88%B6%E8%AF%B4%E6%98%8E

3.在新浪微博注册应用

每个人都可以通过新浪微博开发者平台注册自己的应用,我注册的是站内应用。注册后会为每个应用分配唯一的app key 和 app secret,这在上文提到的授权机制中需要用到,相当与每个应用的标示吧。

至此,我们可以尝试写代码调用新浪微博的API啦。

4.简单的调用API实例

参考了往上很多资料和文档,写了一个简单的调用过程。

# _*_ coding: utf-8 _*_
from weibo import APIClient
import webbrowser
APP_KEY = ”
APP_SECRET = ”
CALLBACK_URL = ”
#这个是设置回调地址,必须与那个”高级信息“里的一致
client = APIClient(app_key=APP_KEY, app_secret=APP_SECRET, redirect_uri=CALLBACK_URL)
url = client.get_authorize_url()
# TODO: redirect to url
#print url
webbrowser.open_new(url)
# 获取URL参数code:
code = ‘2fc0b2f5d2985db832fa01fee6bd9316‘
client = APIClient(app_key=APP_KEY, app_secret=APP_SECRET, redirect_uri=CALLBACK_URL)
r = client.request_access_token(code)
access_token = r.access_token # 新浪返回的token,类似abc123xyz456
expires_in = r.expires_in # token过期的UNIX时间:http://zh.wikipedia.org/wiki/UNIX%E6%97%B6%E9%97%B4
# TODO: 在此可保存access token
client.set_access_token(access_token, expires_in)

print client.friendships.friends.bilateral.ids.get(uid = 12345678)

通过以上的代码,我实现了调用相互关注API的调用,即查找与某个id的用户相互关注的人的列表。

其中,APP_KEY和APP_SECRET就是前文中分配给每个应用的信息,回调地址在每个应用的高级信息中可以看到,需要自己设置,不过随便设置一下就好

比较恶心的是code的获取,我一开始看sinaweibopy的文档的时候也没弄懂是什么意思,如上面的代码所示,url得到的是一个授权的网址,我们通过

webbrowser.open_new(url)
这行代码打开浏览器跳转到授权的界面,然后观察所在界面的网址,会显示大概如下一样的格式:

http://apps.weibo.com/sayarywei?code=505e3efcdad1f421d147db7276aabdbe

看到了吗?
问号后面有一个code=……的一个东西,把等号后面的字符串拷贝下来赋给code就可以了,但是每次运行程序是code不是一成不变的,也就是说每次都
要有这么一个手动获取的过程,我觉得很麻烦,以后自己再研究一下,实现自动获取code就好了。如果能有哪位大神告诉我,感激不尽~

好了,得到正确的code之后就可以完成授权认证,也就可以调用微博的API啦,至于如何在Python下调用,我拷贝一下sinaweibopy上的介绍:

首先查看新浪微博API文档,例如:

API:statuses/user_timeline

请求格式:GET

请求参数:

source:string,采用OAuth授权方式不需要此参数,其他授权方式为必填参数,数值为应用的AppKey?。

access_token:string,采用OAuth授权方式为必填参数,其他授权方式不需要此参数,OAuth授权后获得。

uid:int64,需要查询的用户ID。

screen_name:string,需要查询的用户昵称。

(其它可选参数略)

调用方法:将API的“/”变为“.”,根据请求格式是GET或POST,调用get ()或post()并传入关键字参数,但不包括source和access_token参数:

r = client.statuses.user_timeline.get(uid=123456)
for st in r.statuses:
print st.text

若为POST调用,则示例代码如下:

r = client.statuses.update.post(status=u\'测试OAuth 2.0发微博\')

若需要上传文件,传入file-like object参数,示例代码如下:

f = open(\'/Users/michael/test.png\', \'rb\')
r = client.statuses.upload.post(status=u\'测试OAuth 2.0带图片发微博\', pic=f)
f.close() # APIClient不会自动关闭文件,需要手动关闭

请注意:上传的文件必须是file-like object,不能是str,因为无法区分一个str是文件还是字段。可以通过StringIO把一个str包装成file-like object。
参考技术A

1.下载SDK

使用python调用API的话,首先要去下一个Python的SDK,sinaweibopy

连接地址在此: http://michaelliao.github.com/sinaweibopy/

可以使用pip很快的导入,github连接里的wiki也有入门的使用方法,很容易看懂。

2.理解新浪微博的授权机制

在调用API之前,首先要搞懂什么叫OAuth 2,即新浪微博的授权机制,

连接在此: http://open.weibo.com/wiki/%E6%8E%88%E6%9D%83%E6%9C%BA%E5%88%B6%E8%AF%B4%E6%98%8E

3.在新浪微博注册应用

每个人都可以通过新浪微博开发者平台注册自己的应用,我注册的是站内应用。注册后会为每个应用分配唯一的app key 和 app secret,这在上文提到的授权机制中需要用到,相当与每个应用的标示吧。

至此,我们可以尝试写代码调用新浪微博的API啦。

4.简单的调用API实例

参考了往上很多资料和文档,写了一个简单的调用过程。

# _*_ coding: utf-8 _*_
from weibo import APIClient
import webbrowser


APP_KEY = ''
APP_SECRET = ''
CALLBACK_URL = ''
#这个是设置回调地址,必须与那个”高级信息“里的一致
client = APIClient(app_key=APP_KEY, app_secret=APP_SECRET, redirect_uri=CALLBACK_URL)
url = client.get_authorize_url()
# TODO: redirect to url
#print url
webbrowser.open_new(url)
# 获取URL参数code:
code = '2fc0b2f5d2985db832fa01fee6bd9316'
client = APIClient(app_key=APP_KEY, app_secret=APP_SECRET, redirect_uri=CALLBACK_URL)
r = client.request_access_token(code)
access_token = r.access_token # 新浪返回的token,类似abc123xyz456
expires_in = r.expires_in # token过期的UNIX时间:http://zh.wikipedia.org/wiki/UNIX%E6%97%B6%E9%97%B4
# TODO: 在此可保存access token
client.set_access_token(access_token, expires_in)

print client.friendships.friends.bilateral.ids.get(uid = 12345678)

通过以上的代码,我实现了调用相互关注API的调用,即查找与某个id的用户相互关注的人的列表。

其中,APP_KEY和APP_SECRET就是前文中分配给每个应用的信息,回调地址在每个应用的高级信息中可以看到,需要自己设置,不过随便设置一下就好

比较恶心的是code的获取,我一开始看sinaweibopy的文档的时候也没弄懂是什么意思,如上面的代码所示,url得到的是一个授权的网址,我们通过

webbrowser.open_new(url)

这行代码打开浏览器跳转到授权的界面,然后观察所在界面的网址,会显示大概如下一样的格式:

http://apps.weibo.com/sayarywei?code=505e3efcdad1f421d147db7276aabdbe

看到了吗? 问号后面有一个code=……的一个东西,把等号后面的字符串拷贝下来赋给code就可以了,但是每次运行程序是code不是一成不变的,也就是说每次都要有这么一个手动获取的过程,我觉得很麻烦,以后自己再研究一下,实现自动获取code就好了。如果能有哪位大神告诉我,感激不尽~

好了,得到正确的code之后就可以完成授权认证,也就可以调用微博的API啦,至于如何在Python下调用,我拷贝一下sinaweibopy上的介绍:

首先查看新浪微博API文档,例如:

API:statuses/user_timeline

请求格式:GET

请求参数:

source:string,采用OAuth授权方式不需要此参数,其他授权方式为必填参数,数值为应用的AppKey?。

access_token:string,采用OAuth授权方式为必填参数,其他授权方式不需要此参数,OAuth授权后获得。

uid:int64,需要查询的用户ID。

screen_name:string,需要查询的用户昵称。

(其它可选参数略)

调用方法:将API的“/”变为“.”,根据请求格式是GET或POST,调用get ()或post()并传入关键字参数,但不包括source和access_token参数:

r = client.statuses.user_timeline.get(uid=123456)
for st in r.statuses:
    print st.text

若为POST调用,则示例代码如下:

r = client.statuses.update.post(status=u'测试OAuth 2.0发微博')

若需要上传文件,传入file-like object参数,示例代码如下:

f = open('/Users/michael/test.png', 'rb')
r = client.statuses.upload.post(status=u'测试OAuth 2.0带图片发微博', pic=f)
f.close() # APIClient不会自动关闭文件,需要手动关闭

请注意:上传的文件必须是file-like object,不能是str,因为无法区分一个str是文件还是字段。可以通过StringIO把一个str包装成file-like object

希望我的回答对你有帮助,望采纳。

以上是关于求真正有效的可以模拟登录新浪微博的java代码,后续可以用Jsoup进行抓取。急急!!登录成功马上给分!的主要内容,如果未能解决你的问题,请参考以下文章

python网络编程使用rsa加密算法模块模拟登录新浪微博

新浪微博怎么用用户名登陆手机版

ASP.NET MVC应用程序中支持用户使用腾讯QQ和微信以及新浪微博的第三方登录

获取新浪微博的Access_token

如何通过python调用新浪微博的API

新浪微博怎么用用户名登录