如何在 div 的丢失级别中获取 image.src 标签

Posted

技术标签:

【中文标题】如何在 div 的丢失级别中获取 image.src 标签【英文标题】:How to get image.src tag in losts level of div 【发布时间】:2021-07-11 02:18:25 【问题描述】:

我将 Jsoup.connect(url).get() 称为 http 文档。我也确实调用了 doc.select("img[src]"),但它返回为空。现在我发现了问题。对于某些 div 标签不是静态的。它们是动态生成的。当一些ajax帖子完成时。 div标签token被写入body。以下div标签在“doc = Jsoup.connect(url).get()”之后的doc中不存在。

<div class="w clear con-page">
    <div class="article_nav" >
        <a href="index.html">Home</a>&nbsp;&gt;&nbsp;<a href="list.html">car size rate </a>&gt;&nbsp; 
    </div>
    <div id="article_content" class="article article_content" style="min-height: 400px;">
        <div class="article_title"> <p>ARTICLE:2021-04-09</div>
        <div class="article_main" align="center">
            <p ><img  title="1617952699745078083.jpg"  src="http://www.chinaisa.org.cn/gxportalFile/image/2021/04/09/1617952699745078083.jpg"></p>
        </div>
    </div>
</div>

我想通过 Jsoup 从 html 页面获取所有图像 src。现在我遇到了一个问题,即 doc.select("img") 什么都不返回。我猜img标签如下。 Jsoup 可以使用 xpath 来获取 img。有什么方法可以获取所有的img标签吗?

div(w clear con-page)
--div(article_content)
  --div(article_main)
    --p
      --img

【问题讨论】:

【参考方案1】:

它对我有用。

    String html = "<div class=\"w clear con-page\">\r\n"
        + "    <div class=\"article_nav\" >\r\n"
        + "        <a href=\"index.html\">Home</a>&nbsp;&gt;&nbsp;<a href=\"list.html\">car size rate </a>&gt;&nbsp; \r\n"
        + "    </div>\r\n"
        + "    <div id=\"article_content\" class=\"article article_content\" style=\"min-height: 400px;\">\r\n"
        + "        <div class=\"article_title\"> <p>ARTICLE:2021-04-09</div>\r\n"
        + "        <div class=\"article_main\" align=\"center\">\r\n"
        + "            <p ><img width=\"600\" title=\"1617952699745078083.jpg\" alt=\"1617952602(1).jpg\" src=\"http://www.chinaisa.org.cn/gxportalFile/image/2021/04/09/1617952699745078083.jpg\"></p>\r\n"
        + "        </div>\r\n"
        + "    </div>\r\n"
        + "</div>";
    Document doc = Jsoup.parse(html);
    Elements es = doc.select("img[src]");
    for (Element e : es)
        System.out.println(e.attr("src"));

输出:

http://www.chinaisa.org.cn/gxportalFile/image/2021/04/09/1617952699745078083.jpg

【讨论】:

谢谢,我将 Jsoup.connect(url).get() 称为 http url 文档。我也确实调用了 doc.select("img[src]"),但它返回为空。现在我发现了问题。对于某些 div 标签不是静态的。它是动态的。当一些ajax帖子完成时。 div 标签标记被写入正文。

以上是关于如何在 div 的丢失级别中获取 image.src 标签的主要内容,如果未能解决你的问题,请参考以下文章

Css关注输入div出现[重复]

在不丢失纵横比的情况下将图像放入特定大小的盒子中?

如何使用 jquery 在不丢失样式和插件(select2)的情况下刷新 div

如何将嵌套 div 向上移动两个 div 级别以匹配父级?

可序列化隔离级别发生更新丢失?

如何在 pandas groupby 中获取行业损失率