htmilunit-- 针对抓取js生成的数据

Posted 啄木鸟伍迪

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了htmilunit-- 针对抓取js生成的数据相关的知识,希望对你有一定的参考价值。

public static String  gethtml(String html){
        // 模拟一个浏览器  
        @SuppressWarnings("resource")
        WebClient webClient = new WebClient();  
        //webclient参数载体  
        WebClientOptions clientOptions = webClient.getOptions();  
        // 设置webClient的相关参数  
        clientOptions.setjavascriptEnabled(true);  
        clientOptions.setCssEnabled(false);  
        webClient.setAjaxController(new NicelyResynchronizingAjaxController());  
        clientOptions.setTimeout(35000);  
        clientOptions.setThrowExceptionOnScriptError(false);  
        // 模拟浏览器打开一个目标网址  
        HtmlPage rootPage = null;
        try {
            rootPage = webClient.getPage(html);
        } catch (FailingHttpStatusCodeException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (MalformedURLException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }  
           //body html信息  
        HtmlElement htmlElement = rootPage.getBody();  
        String xmlContent = htmlElement.asXml();  
        return xmlContent;
}































以上是关于htmilunit-- 针对抓取js生成的数据的主要内容,如果未能解决你的问题,请参考以下文章

如何用python抓取js生成的数据

Java_爬虫,如何抓取Js动态生成数据的页面?

java爬虫怎么抓取js动态生成的内容

爬虫之抓取js生成的数据

抓取 javascript 生成的网页数据

如何用python爬取js动态生成内容的页面