htmilunit-- 针对抓取js生成的数据

Posted 2020-09-23 啄木鸟伍迪

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了htmilunit-- 针对抓取js生成的数据相关的知识，希望对你有一定的参考价值。

public static String gethtml(String html){
        // 模拟一个浏览器
        @SuppressWarnings("resource")
       WebClient webClient = new WebClient();
        //webclient参数载体
        WebClientOptions clientOptions = webClient.getOptions();
        // 设置webClient的相关参数
        clientOptions.setjavascriptEnabled(true);
        clientOptions.setCssEnabled(false);
        webClient.setAjaxController(new NicelyResynchronizingAjaxController());
        clientOptions.setTimeout(35000);
        clientOptions.setThrowExceptionOnScriptError(false);
        // 模拟浏览器打开一个目标网址
        HtmlPage rootPage = null;
       try {
           rootPage = webClient.getPage(html);
       } catch (FailingHttpStatusCodeException e) {
           // TODO Auto-generated catch block
           e.printStackTrace();
       } catch (MalformedURLException e) {
           // TODO Auto-generated catch block
           e.printStackTrace();
       } catch (IOException e) {
           // TODO Auto-generated catch block
           e.printStackTrace();
       }
           //body html信息
        HtmlElement htmlElement = rootPage.getBody();
        String xmlContent = htmlElement.asXml();
        return xmlContent;
}

以上是关于htmilunit-- 针对抓取js生成的数据的主要内容，如果未能解决你的问题，请参考以下文章