抓取js动态生成数据

Posted 啄木鸟伍迪

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了抓取js动态生成数据相关的知识,希望对你有一定的参考价值。

  最近在抓数据,一般的网页数据抓取相对容易一些,今天在抓电视猫的节目单,发现有些数据时抓取不到的,Java端得到的html文件里面没有某一段代码,查了很多资料,发现说是js动态生成的数据,无法直接抓取,有一种解决方法是利用找到ajax请求地址和参数,重新抓取,该方法存在一个问题,就是当参数被加密过时,该方法就不好用了,所以,这里用了一个办法,就是利用HTMLunit来抓取(可以利用jsuop来处理HTML文件),jar包下载地址:http://download.csdn.net/detail/joy460154849/9822849(HTMLunit所用到的jar包全部导入后,稍微调整一下,因为有些有重复导入或者版本问题)代码如下:

public static String  getHtml(String url){
        // 模拟一个浏览器  
        @SuppressWarnings("resource")
        WebClient webClient = new WebClient();  
        //webclient参数载体  
        WebClientOptions clientOptions = webClient.getOptions();  
        // 设置webClient的相关参数  
        clientOptions.setjavascriptEnabled(true);  
        clientOptions.setCssEnabled(false);  
        webClient.setAjaxController(new NicelyResynchronizingAjaxController());  
        clientOptions.setTimeout(35000);  
        clientOptions.setThrowExceptionOnScriptError(false);  
        // 模拟浏览器打开一个目标网址  
        HtmlPage rootPage = null;
        try {
            rootPage = webClient.getPage(html);
        } catch (FailingHttpStatusCodeException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (MalformedURLException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }  
  
        //保存页面  
        //rootPage.save(new File("/home/share/Test/1"));  
          
        //body html信息  
        HtmlElement htmlElement = rootPage.getBody();  
        String xmlContent = htmlElement.asXml();  
        return xmlContent;
    }  

 

以上是关于抓取js动态生成数据的主要内容,如果未能解决你的问题,请参考以下文章

抓取网站时动态 JS 生成代码

Java_爬虫,如何抓取Js动态生成数据的页面?

如何用python爬取js动态生成内容的页面

爬虫之抓取js生成的数据

使用 C# 在 html 文档中抓取由 JavaScript 动态生成的数据

如何用python抓取js生成的数据