提取body的属性,同时保留相对标签

Posted

技术标签:

【中文标题】提取body的属性,同时保留相对标签【英文标题】:Extracting body's attribute, by also keeping the relative tag 【发布时间】:2021-09-27 23:20:11 【问题描述】:

我正在尝试遍历 html 正文,以便找到所有 <h1> 标签:

Element body = docJSoup.body();
Elements mainCmp = body.select("h1");

所以,考虑到这个身体的片段:

<h1><span style='mso-bookmark:_Toc283737133'><span
style='mso-spacerun:yes'></span><span style='mso-spacerun:yes'></span><a
name="_Toc35343186"></a><a name="_Toc264704629"></a><span style='mso-bookmark:
_Toc35343186'>3<span style='mso-tab-count:1'></span>Aspetti metodologici</span></span></h1>

我会得到这个:

<span style="mso-bookmark:_Toc283737133"><span style="mso-spacerun:yes"></span><span style="mso-spacerun:yes"></span><a name="_Toc35343186"></a><a name="_Toc264704629"></a><span style="mso-bookmark:
_Toc35343186">3<span style="mso-tab-count:1"></span>Aspetti metodologici</span></span>

顺便说一句,我还想在结果中保留&lt;h1&gt; 标签。 &lt;h1&gt; 标签本身也可以有其他属性,所以我不能只是将"&lt;h1&gt;" 连接到结果字符串。 有没有办法使用 JSoup 方法保留它?

感谢您提供任何见解。

【问题讨论】:

使用 parent 属性可能会有所帮助 @NadirBaoun:谢谢,但康斯坦丁的回答是直截了当的解决方案。 【参考方案1】:

outerHtml() 将为您提供节点的标记,包括它自己的开始和结束标记。

【讨论】:

以上是关于提取body的属性,同时保留相对标签的主要内容,如果未能解决你的问题,请参考以下文章

定位及部分属性

子标签的margin 值可以是相对于它父标签吗?

对混合整数和字符串的 ArrayList 进行排序,同时保留字符串和整数的相对顺序

在css里使用background-image:url(图片地址)没有反应,但是在标签body里添

基本标签认识

基础标签认识