如果一个 xml 缺少标签，那么该如何用 java 将缺失的标签补齐？不然dom4j无法解析

Posted 2023-05-06

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如果一个 xml 缺少标签，那么该如何用 java 将缺失的标签补齐？不然dom4j无法解析相关的知识，希望对你有一定的参考价值。

例如 XML ：
<?xml version="1.0" encoding="GB2312"?>
<RESULT>
<VALUE>
<NO>A1234</NO>
<ADDR>四川省XX县XX镇XX路X段XX号</ADDR>
</VALUE>
<VALUE>
<NO>B1234
<ADDR>四川省XX市XX乡XX村XX组</ADDR>
</VALUE>
</RESULT>

该 xml 缺少一个 </NO>标签，这种标签补齐的方式该怎么做啊？
如果能把补齐标签的代码贴出来绝对另外加重分

用栈的思想：
以以上xml为例：
xml开始检查，检查（<?xml version="1.0" encoding="GB2312"?> 部分）。
1、标签开始时的验证操作（入栈操作）：
标签入栈检查（内容以<XXX开始）验证成功
<RESULT> （标签为<XXX>的）标签入栈，
（标签为<XXX/>的）标签不入栈。
继续扫描，
如果读到内容（非<>结构），略过内容，做2(标签结束时的验证操作)
如果读到标签的开始标志<XXX>，回到1（标签开始时的验证操作）.

2 标签结束时的验证操作（入栈操作）：
做出栈检查形式为 <XXX/> 且该标签的开始部分正好在栈中。出栈。
继续扫描：
如果读到标签的结束标志（<XXX/>结构），做2(标签结束时的验证操作)
如果读到标签的开始标志<XXX>，回到1（标签开始时的验证操作）.

<RESULT> 入栈

<VALUE> 读到非内容，继续入栈
<NO> 读到非内容，继续入栈
</NO> 读到内容，出栈检查，出栈，
<ADDR> 读到标签的开始标志入栈
</ADDR> 读到内容出栈，
</VALUE> 读到标签的结束标志出栈，
<VALUE> 如果读到标签的开始标志入栈
<NO> 读到标签的开始标志入栈
读到内容略过内容出栈出栈检查失败，

补齐标签，只需要在相应位置加上标签的结束标志即可。参考技术A 说个思路，首先你把xml读成一个字符串。
如果已知只可能缺少</No>，那么用indexOf先定位<NO>如index1，如果index!=-1, 接着定位接下来的</NO>如index2,再定位index1后面最近的<如index3，如果index2==-1 或者 index3<index2，那么肯定缺少</NO>，将位置记录下来放到list或者数组；
然后进入下一个循环，即从index1开始定位下一个<NO>
最后，从后往前遍历位置记录，插入</NO>
如果不仅仅是缺少</NO>,情况会复杂一些，那么你就将NO作为变量，拼接<NO>和</NO>, 这样应该能解决问题。参考技术B 不好做，除非你事先就确定了整个文档的结构，否则，程序也没法判断你这个</NO>放到B1234后面还是</ADDR>后面参考技术C 这怎以弄啊，要么你刚开始就把每一个value定一个id，然后通过找到第二个，把第二个元素全部重写一篇看行不

oracle 如何截取两个"-"之间的字符串，如果是正则表达式该如何用啊？

奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰

比如这样的一串字符，我如何截取出"西拉红"这3个字

这里-比较多如果只有2个-，是不是容易些？该如何呢？

select substr(列名,
regexp_instr(列名,'-',1),
(regexp_instr(列名,'-',1,2)-regexp_instr(列名,'-',1,2))
) from 表明

substr（列名,位置1，位置2）意思是截取列名，从位置1开始，截取位置2 为
例如 select substr('410000',1,2) 就是从第一位开始，截取两位，返回的就是41

regexp_instr(列名,'-',1,1)是返回列名第一个'-'的位置,第一个1表示开始位置，可以缺省，默认为从头开始，第二个1表示第一次出现的意思，可缺省
regexp_instr(列名,'-',1,2)是返回列名第二个'-'的位置,1表示开始位置，在这里不能缺省，因为2表示的是第二次出现的意思，如果缺省的话，意思就不对了参考技术A select substr('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰',INSTR('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰','西拉红'),3) from dual;

参考技术B SELECT REGEXP_SUBSTR('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰', '[^-]+', 1, LEVEL, 'i') AS STR
FROM DUAL
CONNECT BY LEVEL <=
LENGTH('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰') - LENGTH(REGEXP_REPLACE('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰', '-', ''))+1;追问

这样得到的结果是“奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰”

被-分割，成多行
我想要第六个-和第七个-之间的数据。如何取呢？

追答

如果你能固定下来位置那就好办了
select substr('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰',instr('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰','-',1,6)+1, instr('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰','-',1,7)-instr('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰','-',1,6)-1) from dual

instr(char,search,startpos,occurrence) 这个函数从char串的第startpos个字符开始查找字符串search第occurrence次出现的位置

参考技术C select regexp_substr('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰','[^-]+',1,7) from dual;
函数第4个参数变化（取西拉红是7），可以任意截取两个"-"之间的字符串。

以上是关于如果一个 xml 缺少标签，那么该如何用 java 将缺失的标签补齐？不然dom4j无法解析的主要内容，如果未能解决你的问题，请参考以下文章

oracle 如何截取两个"-"之间的字符串，如果是正则表达式该如何用啊？

如何用把Arraylist中的结果在jsp页面中用分页显示？java+jsp语言

如何用Python写一个贪吃蛇AI

会jQuery，该如何用AngularJS编程思想？

整数规划该如何用MATLAB求解？