利用Jsoup获取具体标签属性值

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了利用Jsoup获取具体标签属性值相关的知识,希望对你有一定的参考价值。

例如
<head>

<title>weblogic10.3命令行的安装和配置 - 小菜鸟的天地

- 博客频道 - CSDN.NET</title>

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

<meta name="description" content="1.weblogic部署前准备把weblogic的bin放到/home/zhuying下1.1创建weblogic用户组groupadd oinstall;usermod -g oinstall zhuying;passwd zhuying根据提示输入密码,这是创建weblogic控制台登录所需的账号和密码1.2创建目录/home/zhuying/opt/b" />

我要获取name为“description”的标签的content的值。说明我已经取得doc元素,下一步怎么取出我要的东西
CrwalByJsoup cbj = new CrwalByJsoup();//CrwalByJsoup是一个Jsoup类
Document doc = cbj.requrstDocumnet(urlList.get(j));

doc.select("meta[name=description]"),get(0).attr("content")

大致是这么写的,你可以研究一下JSOUP的选择器,

chenying99/archive/2013/01/04/2844615,html" target="_blank">http://www.cnblogs.com/chenying99/archive/2013/01/04/2844615.html

要取得一个属性的值,可以使用Node.attr(String key) 方法

对于一个元素中的文本,可以使用Element.text()方法

对于要取得元素或属性中的HTML内容,可以使用Element.html(),或 Node.outerHtml()方法。

参考技术A doc.select("meta[name=description]").get(0).attr("content")
大致是这么写的,你可以研究一下JSOUP的选择器
http://www.cnblogs.com/chenying99/archive/2013/01/04/2844615.html

jsoup获取网页属性

package com.open1111.jsoup;

import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Demo04 {

public static void main(String[] args) throws Exception{
CloseableHttpClient httpclient = HttpClients.createDefault(); // 创建httpclient实例
HttpGet httpget = new HttpGet("http://www.cnblogs.com/"); // 创建httpget实例

CloseableHttpResponse response = httpclient.execute(httpget); // 执行get请求
HttpEntity entity=response.getEntity(); // 获取返回实体
String content=EntityUtils.toString(entity, "utf-8");
response.close(); // 关闭流和释放系统资源

Document doc=Jsoup.parse(content); // 解析网页 得到文档对象

Elements linkElements=doc.select("#post_list .post_item .post_item_body h3 a"); //通过选择器查找所有博客链接DOM
for(Element e:linkElements){
System.out.println("博客标题:"+e.text());
System.out.println("博客地址:"+e.attr("href"));
System.out.println("target:"+e.attr("target"));
}

Element linkElement=doc.select("#friend_link").first();
System.out.println("纯文本:"+linkElement.text());
System.out.println("Html:"+linkElement.html());
}
}

以上是关于利用Jsoup获取具体标签属性值的主要内容,如果未能解决你的问题,请参考以下文章

jsoup怎么解析javascript动态改变html标签的属性值

jsoup解析td标签值

jquery怎样修改onclick属性值

如何利用Vue.js库绑定HTML标签内的class属性值

Jsoup-- Jsoup获取DOM元素属性值

css3 新属性