利用Jsoup获取具体标签属性值
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了利用Jsoup获取具体标签属性值相关的知识,希望对你有一定的参考价值。
例如
<head>
<title>weblogic10.3命令行的安装和配置 - 小菜鸟的天地
- 博客频道 - CSDN.NET</title>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta name="description" content="1.weblogic部署前准备把weblogic的bin放到/home/zhuying下1.1创建weblogic用户组groupadd oinstall;usermod -g oinstall zhuying;passwd zhuying根据提示输入密码,这是创建weblogic控制台登录所需的账号和密码1.2创建目录/home/zhuying/opt/b" />
我要获取name为“description”的标签的content的值。说明我已经取得doc元素,下一步怎么取出我要的东西
CrwalByJsoup cbj = new CrwalByJsoup();//CrwalByJsoup是一个Jsoup类
Document doc = cbj.requrstDocumnet(urlList.get(j));
doc.select("meta[name=description]"),get(0).attr("content")
大致是这么写的,你可以研究一下JSOUP的选择器,
chenying99/archive/2013/01/04/2844615,html" target="_blank">http://www.cnblogs.com/chenying99/archive/2013/01/04/2844615.html
要取得一个属性的值,可以使用Node.attr(String key) 方法
对于一个元素中的文本,可以使用Element.text()方法
对于要取得元素或属性中的HTML内容,可以使用Element.html(),或 Node.outerHtml()方法。
参考技术A doc.select("meta[name=description]").get(0).attr("content")大致是这么写的,你可以研究一下JSOUP的选择器
http://www.cnblogs.com/chenying99/archive/2013/01/04/2844615.html
jsoup获取网页属性
package com.open1111.jsoup;
import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Demo04 {
public static void main(String[] args) throws Exception{
CloseableHttpClient httpclient = HttpClients.createDefault(); // 创建httpclient实例
HttpGet httpget = new HttpGet("http://www.cnblogs.com/"); // 创建httpget实例
CloseableHttpResponse response = httpclient.execute(httpget); // 执行get请求
HttpEntity entity=response.getEntity(); // 获取返回实体
String content=EntityUtils.toString(entity, "utf-8");
response.close(); // 关闭流和释放系统资源
Document doc=Jsoup.parse(content); // 解析网页 得到文档对象
Elements linkElements=doc.select("#post_list .post_item .post_item_body h3 a"); //通过选择器查找所有博客链接DOM
for(Element e:linkElements){
System.out.println("博客标题:"+e.text());
System.out.println("博客地址:"+e.attr("href"));
System.out.println("target:"+e.attr("target"));
}
Element linkElement=doc.select("#friend_link").first();
System.out.println("纯文本:"+linkElement.text());
System.out.println("Html:"+linkElement.html());
}
}
以上是关于利用Jsoup获取具体标签属性值的主要内容,如果未能解决你的问题,请参考以下文章