如何在 div 的丢失级别中获取 image.src 标签
Posted
技术标签:
【中文标题】如何在 div 的丢失级别中获取 image.src 标签【英文标题】:How to get image.src tag in losts level of div 【发布时间】:2021-07-11 02:18:25 【问题描述】:我将 Jsoup.connect(url).get() 称为 http 文档。我也确实调用了 doc.select("img[src]"),但它返回为空。现在我发现了问题。对于某些 div 标签不是静态的。它们是动态生成的。当一些ajax帖子完成时。 div标签token被写入body。以下div标签在“doc = Jsoup.connect(url).get()”之后的doc中不存在。
<div class="w clear con-page">
<div class="article_nav" >
<a href="index.html">Home</a> > <a href="list.html">car size rate </a>>
</div>
<div id="article_content" class="article article_content" style="min-height: 400px;">
<div class="article_title"> <p>ARTICLE:2021-04-09</div>
<div class="article_main" align="center">
<p ><img title="1617952699745078083.jpg" src="http://www.chinaisa.org.cn/gxportalFile/image/2021/04/09/1617952699745078083.jpg"></p>
</div>
</div>
</div>
我想通过 Jsoup 从 html 页面获取所有图像 src。现在我遇到了一个问题,即 doc.select("img") 什么都不返回。我猜img标签如下。 Jsoup 可以使用 xpath 来获取 img。有什么方法可以获取所有的img标签吗?
div(w clear con-page)
--div(article_content)
--div(article_main)
--p
--img
【问题讨论】:
【参考方案1】:它对我有用。
String html = "<div class=\"w clear con-page\">\r\n"
+ " <div class=\"article_nav\" >\r\n"
+ " <a href=\"index.html\">Home</a> > <a href=\"list.html\">car size rate </a>> \r\n"
+ " </div>\r\n"
+ " <div id=\"article_content\" class=\"article article_content\" style=\"min-height: 400px;\">\r\n"
+ " <div class=\"article_title\"> <p>ARTICLE:2021-04-09</div>\r\n"
+ " <div class=\"article_main\" align=\"center\">\r\n"
+ " <p ><img width=\"600\" title=\"1617952699745078083.jpg\" alt=\"1617952602(1).jpg\" src=\"http://www.chinaisa.org.cn/gxportalFile/image/2021/04/09/1617952699745078083.jpg\"></p>\r\n"
+ " </div>\r\n"
+ " </div>\r\n"
+ "</div>";
Document doc = Jsoup.parse(html);
Elements es = doc.select("img[src]");
for (Element e : es)
System.out.println(e.attr("src"));
输出:
http://www.chinaisa.org.cn/gxportalFile/image/2021/04/09/1617952699745078083.jpg
【讨论】:
谢谢,我将 Jsoup.connect(url).get() 称为 http url 文档。我也确实调用了 doc.select("img[src]"),但它返回为空。现在我发现了问题。对于某些 div 标签不是静态的。它是动态的。当一些ajax帖子完成时。 div 标签标记被写入正文。以上是关于如何在 div 的丢失级别中获取 image.src 标签的主要内容,如果未能解决你的问题,请参考以下文章