jsoup 发布和 cookie

Posted

技术标签:

【中文标题】jsoup 发布和 cookie【英文标题】:jsoup posting and cookie 【发布时间】:2011-09-19 22:49:15 【问题描述】:

我正在尝试使用 jsoup 登录一个站点然后抓取信息,我遇到了一个问题,我可以成功登录并从 index.php 创建一个文档,但我无法获取站点上的其他页面。我知道我需要在发布后设置一个 cookie,然后在我试图打开网站上的另一个页面时加载它。但是我该怎么做呢?以下代码让我登录并获取 index.php

Document doc = Jsoup.connect("http://www.example.com/login.php")
               .data("username", "myUsername", 
                     "password", "myPassword")
               .post();

我知道我可以使用 apache httpclient 来执行此操作,但我不想这样做。

【问题讨论】:

该代码是否适用于您从网站登录和抓取信息??因为在我的情况下它不起作用 你可以在这里看到我的代码***.com/questions/28110219/… 【参考方案1】:

当您登录该站点时,它可能正在设置一个授权会话 cookie,需要在后续请求中发送该 cookie 以维护会话。

你可以这样获取cookie:

Connection.Response res = Jsoup.connect("http://www.example.com/login.php")
    .data("username", "myUsername", "password", "myPassword")
    .method(Method.POST)
    .execute();

Document doc = res.parse();
String sessionId = res.cookie("SESSIONID"); // you will need to check what the right cookie name is

然后在下一个请求中发送它,例如:

Document doc2 = Jsoup.connect("http://www.example.com/otherPage")
    .cookie("SESSIONID", sessionId)
    .get();

【讨论】:

@Jonathan Hedley,因为你创建了 JSoup,它非常有帮助。请帮我解决这个问题***.com/questions/20908946/… 无论我做什么,都会在 iframe 末尾添加 &lt &gt 编码。谢谢 Swaraj 但是如何获取 HttpOnly cookie?【参考方案2】:
//This will get you the response.
Response res = Jsoup
    .connect("loginPageUrl")
    .data("loginField", "login@login.com", "passField", "pass1234")
    .method(Method.POST)
    .execute();

//This will get you cookies
Map<String, String> loginCookies = res.cookies();

//And this is the easiest way I've found to remain in session
Document doc = Jsoup.connect("urlYouNeedToBeLoggedInToAccess")
      .cookies(loginCookies)
      .get();

【讨论】:

它现在不工作了。我正在努力登录和废弃 Facebook 帐户。现在,facebook 引入了更多参数。 lsd:AVptuGRS email:*** pass:*** default_persistent:0 timezone:-120 lgnrnd:043627_eQnN lgnjs:1383914188 locale:en_US 检查此链接:***.com/questions/19851747/login-facebook-via-jsoup 嘿伙计,我按照你说的做了。但我没有得到“urlYouNeedToBeLoggedInToAccess”的网页。请回答我。 不适合我。 org.jsoup.HttpStatusException: HTTP error fetching URL. Status=400,【参考方案3】:

代码在哪里:

Document doc = Jsoup.connect("urlYouNeedToBeLoggedInToAccess").cookies().get(); 

我遇到了困难,直到我将其更改为:

Document doc = Jsoup.connect("urlYouNeedToBeLoggedInToAccess").cookies(cookies).get();

现在它可以完美运行了。

【讨论】:

【参考方案4】:

这是你可以尝试的……

import org.jsoup.Connection;


Connection.Response res = null;
    try 
        res = Jsoup
                .connect("http://www.example.com/login.php")
                .data("username", "your login id", "password", "your password")
                .method(Connection.Method.POST)
                .execute();
     catch (IOException e) 
        e.printStackTrace();
    

现在保存所有 cookie 并向您想要的其他页面发出请求。

//Store Cookies
cookies = res.cookies();

向另一个页面发出请求。

try 
    Document doc = Jsoup.connect("your-second-page-link").cookies(cookies).get();

catch(Exception e)
    e.printStackTrace();

询问是否需要进一步的帮助。

【讨论】:

【参考方案5】:
Connection.Response res = Jsoup.connect("http://www.example.com/login.php")
    .data("username", "myUsername")
    .data("password", "myPassword")
    .method(Connection.Method.POST)
    .execute();
//Connecting to the server with login details
Document doc = res.parse();
//This will give the redirected file
Map<String,String> cooki=res.cookies();
//This gives the cookies stored into cooki
Document docs= Jsoup.connect("http://www.example.com/otherPage")
    .cookies(cooki)
    .get();
//This gives the data of the required website

【讨论】:

欢迎来到 SO。请在发布答案之前阅读how-to-answer。这段代码是什么意思? 虽然此代码可能会回答问题,但提供有关此代码为何和/或如何回答问题的额外上下文可提高其长期价值。【参考方案6】:

为什么要重新连接? 如果有任何 cookie 可以避免 403 状态,我会这样做。

                Document doc = null;
                int statusCode = -1;
                String statusMessage = null;
                String strhtml = null;
        
                try 
    // connect one time.                
                    Connection con = Jsoup.connect(urlString);
    // get response.
                    Connection.Response res = con.execute();        
    // get cookies
                    Map<String, String> loginCookies = res.cookies();

    // print cookie content and status message
                    if (loginCookies != null) 
                        for (Map.Entry<String, String> entry : loginCookies.entrySet()) 
                            System.out.println(entry.getKey() + ":" + entry.getValue().toString() + "\n");
                        
                    
        
                    statusCode = res.statusCode();
                    statusMessage = res.statusMessage();
                    System.out.print("Status CODE\n" + statusCode + "\n\n");
                    System.out.print("Status Message\n" + statusMessage + "\n\n");
        
    // set login cookies to connection here
                    con.cookies(loginCookies).userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0");
        
    // now do whatever you want, get document for example
                    doc = con.get();
    // get HTML
                    strHTML = doc.head().html();

                 catch (org.jsoup.HttpStatusException hse) 
                    hse.printStackTrace();
                 catch (IOException ioe) 
                    ioe.printStackTrace();
                

【讨论】:

以上是关于jsoup 发布和 cookie的主要内容,如果未能解决你的问题,请参考以下文章

爬取微博的数据时别人用的是FM.view方法传递html标签那么jsoup怎么解析呢

Selenium用法详解cookies操作JAVA爬虫

jsoup问题,求大神解决

jsoup解析xml文档得不到link的值

无法用 Alamofire 和 swift 解析

HttpClient + Jsoup模拟登录教务处并获取课表