如果一个 xml 缺少标签,那么该如何用 java 将缺失的标签补齐?不然dom4j无法解析

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如果一个 xml 缺少标签,那么该如何用 java 将缺失的标签补齐?不然dom4j无法解析相关的知识,希望对你有一定的参考价值。

例如 XML :
<?xml version="1.0" encoding="GB2312"?>
<RESULT>
<VALUE>
<NO>A1234</NO>
<ADDR>四川省XX县XX镇XX路X段XX号</ADDR>
</VALUE>
<VALUE>
<NO>B1234
<ADDR>四川省XX市XX乡XX村XX组</ADDR>
</VALUE>
</RESULT>

该 xml 缺少一个 </NO>标签,这种标签补齐的方式该怎么做啊?
如果能把补齐标签的代码贴出来 绝对另外 加 重分

用栈的思想:
以以上xml为例:
xml开始检查, 检查(<?xml version="1.0" encoding="GB2312"?> 部分)。
1、标签开始时的验证操作(入栈操作):
标签入栈检查(内容以<XXX开始) 验证成功
<RESULT> (标签为<XXX>的) 标签入栈 ,
(标签为<XXX/>的)标签不入栈。
继续扫描,
如果读到内容(非<>结构), 略过内容,做2(标签结束时的验证操作)
如果读到标签的开始标志<XXX>, 回到1(标签开始时的验证操作).

2 标签结束时的验证操作(入栈操作):
做出栈检查 形式为 <XXX/> 且该标签的开始部分正好在栈中。 出栈。
继续扫描:
如果读到标签的结束标志(<XXX/>结构), 做2(标签结束时的验证操作)
如果读到标签的开始标志<XXX>, 回到1(标签开始时的验证操作).

<RESULT> 入栈

<VALUE> 读到非内容, 继续入栈
<NO> 读到非内容, 继续入栈
</NO> 读到内容, 出栈检查, 出栈,
<ADDR> 读到标签的开始标志 入栈
</ADDR> 读到内容 出栈,
</VALUE> 读到标签的结束标志 出栈,
<VALUE> 如果读到标签的开始标志 入栈
<NO> 读到标签的开始标志 入栈
读到内容 略过内容出栈 出栈检查失败,

补齐标签, 只需要在相应位置加上标签的结束标志即可。
参考技术A 说个思路,首先你把xml读成一个字符串。
如果已知只可能缺少</No>,那么用indexOf先定位<NO>如index1,如果index!=-1, 接着定位接下来的</NO>如index2,再定位index1后面最近的<如index3, 如果index2==-1 或者 index3<index2,那么肯定缺少</NO>,将位置记录下来放到list或者数组;
然后进入下一个循环,即从index1开始 定位下一个<NO>
最后,从后往前遍历位置记录,插入</NO>
如果不仅仅是缺少</NO>,情况会复杂一些,那么你就将NO作为变量,拼接<NO>和</NO>, 这样应该能解决问题。
参考技术B 不好做,除非你事先就确定了整个文档的结构,否则,程序也没法判断你这个</NO>放到B1234后面还是</ADDR>后面 参考技术C 这怎以弄啊,要么你刚开始就把每一个value定一个id,然后通过找到第二个,把第二个元素全部重写一篇看行不

oracle 如何截取两个"-"之间的字符串,如果是正则表达式该如何用啊?

奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰

比如这样的一串字符,我如何截取出"西拉红"这3个字

这里-比较多 如果只有2个-,是不是容易些?该如何呢?

select substr(列名,
regexp_instr(列名,'-',1),
(regexp_instr(列名,'-',1,2)-regexp_instr(列名,'-',1,2))
) from 表明

substr(列名,位置1,位置2)意思是截取列名,从位置1开始,截取位置2 为
例如 select substr('410000',1,2) 就是从第一位开始,截取两位,返回的就是41

regexp_instr(列名,'-',1,1)是返回列名第一个'-'的位置,第一个1表示开始位置,可以缺省,默认为从头开始,第二个1表示第一次出现的意思,可缺省
regexp_instr(列名,'-',1,2)是返回列名第二个'-'的位置,1表示开始位置,在这里不能缺省,因为2表示的是第二次出现的意思,如果缺省的话,意思就不对了
参考技术A select substr('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰',INSTR('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰','西拉红'),3) from dual;

参考技术B SELECT REGEXP_SUBSTR('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰', '[^-]+', 1, LEVEL, 'i') AS STR
FROM DUAL
CONNECT BY LEVEL <=
LENGTH('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰') - LENGTH(REGEXP_REPLACE('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰', '-', ''))+1;追问

这样得到的结果是“奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰”

被-分割,成多行
我想要第六个-和第七个-之间的数据。如何取呢?

追答

如果你能固定下来位置那就好办了
select substr('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰',instr('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰','-',1,6)+1, instr('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰','-',1,7)-instr('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰','-',1,6)-1) from dual

instr(char,search,startpos,occurrence) 这个函数从char串的第startpos个字符开始查找字符串search第occurrence次出现的位置

参考技术C select regexp_substr('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰','[^-]+',1,7) from dual;
函数第4个参数变化(取西拉红是7),可以任意截取两个"-"之间的字符串。

以上是关于如果一个 xml 缺少标签,那么该如何用 java 将缺失的标签补齐?不然dom4j无法解析的主要内容,如果未能解决你的问题,请参考以下文章

oracle 如何截取两个"-"之间的字符串,如果是正则表达式该如何用啊?

如何用把Arraylist中的结果在jsp页面中用分页显示?java+jsp语言

如何用Python写一个贪吃蛇AI

如何用Python写一个贪吃蛇AI

会jQuery,该如何用AngularJS编程思想?

整数规划该如何用MATLAB求解?