如何使用Java抓取网页上指定部分的内容

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何使用Java抓取网页上指定部分的内容相关的知识,希望对你有一定的参考价值。

参考技术A 1. 你可以选择用Java代码来找到整个网页的html代码,如下
(注意在处理网页方面的内容时,需要导入htmlparser包来支持)

import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.HtmlPage;
import org.htmlparser.Parser;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.util.NodeList;

public class htmlmover
public static void main(String[] args)
NodeList rt= getNodeList("http://forex.hexun.com/rmbhl/");
System.out.println(rt.toHtml());

public static NodeList getNodeList(String url)
Parser parser = null;
HtmlPage visitor = null;
try
parser = new Parser(url);
parser.setEncoding("GBK");
visitor = new HtmlPage(parser);
parser.visitAllNodesWith(visitor);
catch (ParserException e)
e.printStackTrace();

NodeList nodeList = visitor.getBody();
return nodeList;



以上代码,public static NodeList getNodeList(String url) 为主体
传入需要分析网页的 url(String类型),返回值是网页Html节点List(Nodelist类型)
这个方法我没有什么要说的,刚开始的时候没看懂(没接触过),后来用了几次也懂点皮毛了
注意: parser.setEncoding("GBK"); 可能你的工程编码格式是UTF-8,有错误的话需要改动

运行该程序

2.通过浏览器工具直接查看 IE是按F12 (刚开始没发现这个方法,于是傻乎乎地找上面的代码)

分析你所获得的html代码让人眼花缭乱,不要紧,找到自己需要趴取的内容,找到它上下文有特征的节点

<!--中行牌价 开始-->
<div id="sw01_con1">
<table width="655" border="0" cellspacing="0" cellpadding="0" class="hgtab">
<thead>
<tr>
<th width="85" align="center" class="th_l">交易币种</th>
<th width="80" align="center">交易单位</th>
<th width="130" align="center">现价(人民币)</th>
<th width="80" align="center">卖出价</th>
<th width="100" align="center">现汇买入价</th>
<th width="95" align="center">现钞买入价</th>
</tr>
</thead>
<tbody>
<tr align="center">
<td> 英镑</td>
<td>100</td>
<td>992.7</td>
<td>1001.24</td>
<td>993.26</td>
<td class="no">962.6</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 港币</td>
<td>100</td>
<td>81.54</td>
<td>82.13</td>
<td>81.81</td>
<td class="no">81.16</td>
</tr>
<tr align="center">
<td> 美元</td>
<td>100</td>
<td>635.49</td>
<td>639.35</td>
<td>636.8</td>
<td class="no">631.69</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 瑞士法郎</td>
<td>100</td>
<td>710.89</td>
<td>707.78</td>
<td>702.14</td>
<td class="no">680.46</td>
</tr>
<tr align="center">
<td> 新加坡元</td>
<td>100</td>
<td>492.45</td>
<td>490.17</td>
<td>486.27</td>
<td class="no">471.25</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 瑞典克朗</td>
<td>100</td>
<td>93.66</td>
<td>93.79</td>
<td>93.04</td>
<td class="no">90.17</td>
</tr>
<tr align="center">
<td> 丹麦克朗</td>
<td>100</td>
<td>116.43</td>
<td>115.59</td>
<td>114.67</td>
<td class="no">111.13</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 挪威克朗</td>
<td>100</td>
<td>110.01</td>
<td>109.6</td>
<td>108.73</td>
<td class="no">105.37</td>
</tr>
<!--2011-10-01 23:16:00-->
</tbody>
</table>
</div>
<!--中行牌价 结束-->

大家可以看到这是一段很有规律,书写非常规范的Html代码(这只是第一部分,中行牌价,可以想像,接下来还会有并列的 相似的3部分)

大家想截取这些节点中的数据
以下代码仍需导入htmlparser Java支持包
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

public class Currencyrate
public static void main(String[] args)
String url="http://forex.hexun.com/rmbhl/";
ArrayList<String> rt= getNodeList(url);
for (int i = 0; i < rt.size(); i++)
System.out.println(rt.get(i));



public static ArrayList<String> getNodeList(String url)
final ArrayList<String> result=new ArrayList<String>();
Parser parser = null;
NodeList nodeList=null;
try
parser = new Parser(url);
parser.setEncoding("GBK");

nodeList = parser.parse(
new NodeFilter()
@Override
public boolean accept(Node node)
Node need=node;
if(getStringsByRegex(node.getText()))
for(int i=0;i<6;i++)
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();

return true;

return false;


);
catch (ParserException e)
e.printStackTrace();

return result;


public static boolean getStringsByRegex(String txt)
String regex="td class=\"no\"";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(txt);
if (m.find())
return true;

return false;



废话不多说,
public static ArrayList<String> getNodeList(String url) 主要方法
parser.setEncoding("GBK"); 需要注意,代码编码格式

nodeList = parser.parse(
new NodeFilter()
@Override
public boolean accept(Node node)


);
nodelist是html节点的列表,现在使用NodeFilter ( 节点过滤器 )实例, 重载NodeFilter类中的accept()方法
在parser这个Parser类访问整个html页面的时候,每遇到一个html节点,就会访问这个
accept()方法,返回True的话就会将这个节点 放进nodelist中,否则就不会将这个节点放进去。这个就是NodeFilter功能。
代码段一获取整个html页面时候 parser.visitAllNodesWith(visitor); 就是获取所有节点

所以现在我们要趴取网页上的内容,只要告诉accept()这个方法,哪些节点要放进nodelist去,即 遇到哪些节点需要返回true。
于是
public boolean accept(Node node)
Node need=node;
if(getStringsByRegex(node.getText()))
for(int i=0;i<6;i++)
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();

return true;

return false;

Parser类在遇到节点,就把这个节点拿过去问accept(),于是accept()方法分析,如果满足getStringsByRegex(node.getText())就要了

接下来分析getStringsByRegex(),只剩下最后一步了,大家坚持啊!

String regex="td class=\"no\"";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(txt);
if (m.find())
return true;

return false;

大家可以发现我们索要的每一段都是
<tr align="center">
<td> 英镑</td>
<td>100</td>
<td>992.7</td>
<td>1001.24</td>
<td>993.26</td>
<td class="no">962.6</td>
</tr>
所以只要找到<td class="no">这个节点就行了,我们用正则表达式去比较
String regex="td class=\"no\""; 这个是比较标准(正则表达式 td class=”no” 其中两个引号需要作为转义字符来表示 成\“ )
变量txt是我们传过去的需要比较的节点的node.getText(),如果符合的话m.find就是true,于是getStringsByRegex()返回true,说明这个节点就是我们所需要的哪些节点,于是
for(int i=0;i<6;i++)
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();

每一段html,6个为一组,先是962.6,然后是993.26,1001.24,992.7,100,英镑分别被add进result这个ArrayList<String>中去,返回,这个ArrayList装的就是我们需要抓取的数据

大家可以把我们所获得的String数据数出来试试看,是不是我们需要的顺序,main()函数获得ArrayList<String>,就可以显示到我们所需要的Java widget上去了

为啥浏览器可以保存网页中js动态内容,用java编写的爬虫却无法抓取

爬虫最多只能抓取页面加载完毕时的内容,怎么可能慢慢等你网页后续动态显示出来的内容呢 参考技术A rhino: 本身只是java界用来处理js脚本的一个脚本引擎,跟浏览器这种大而全的东西还差的远,摘一段官方的说明:“Rhino 是一个完全使用Java语言编写的开源JavaScript实现。Rhino通常用于在Java程序中,为最终用户提供脚本化能力。”,这里主要反映了一个问题,看到没,人家也只是当一个脚本解释引擎,你传递进去它就执行,它不认识html这些文本,如果爬虫要解析页面上的js,需要你先对html上的js自己解析一遍,拿出来,放到rhino里面解释,解释完了以后又要保留这个Context,要知道js在浏览器上执行都是有Context的,在JDK8里面乌龟壳又引进了Nashorn这个新的引擎,最重要的是对一些新的js语法和规范提供了支持,但是跟真正的浏览器js引擎相比还是有点差别,想必你也没听说过哪家的前端还专门为rhino/Nashorn提供兼容的吧?

以上是关于如何使用Java抓取网页上指定部分的内容的主要内容,如果未能解决你的问题,请参考以下文章

如何利用java中url实现网页内容的抓取

如何通过Java代码实现对网页数据进行指定抓取

如何使用 Python 识别抓取网页中的完整句子

如何用Java抓取网页的具体内容

VB如何获取网页的内容

C# webBrowser1 获取提交后网页的内容