如果一个 xml 缺少标签,那么该如何用 java 将缺失的标签补齐?不然dom4j无法解析
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如果一个 xml 缺少标签,那么该如何用 java 将缺失的标签补齐?不然dom4j无法解析相关的知识,希望对你有一定的参考价值。
例如 XML :
<?xml version="1.0" encoding="GB2312"?>
<RESULT>
<VALUE>
<NO>A1234</NO>
<ADDR>四川省XX县XX镇XX路X段XX号</ADDR>
</VALUE>
<VALUE>
<NO>B1234
<ADDR>四川省XX市XX乡XX村XX组</ADDR>
</VALUE>
</RESULT>
该 xml 缺少一个 </NO>标签,这种标签补齐的方式该怎么做啊?
如果能把补齐标签的代码贴出来 绝对另外 加 重分
以以上xml为例:
xml开始检查, 检查(<?xml version="1.0" encoding="GB2312"?> 部分)。
1、标签开始时的验证操作(入栈操作):
标签入栈检查(内容以<XXX开始) 验证成功
<RESULT> (标签为<XXX>的) 标签入栈 ,
(标签为<XXX/>的)标签不入栈。
继续扫描,
如果读到内容(非<>结构), 略过内容,做2(标签结束时的验证操作)
如果读到标签的开始标志<XXX>, 回到1(标签开始时的验证操作).
2 标签结束时的验证操作(入栈操作):
做出栈检查 形式为 <XXX/> 且该标签的开始部分正好在栈中。 出栈。
继续扫描:
如果读到标签的结束标志(<XXX/>结构), 做2(标签结束时的验证操作)
如果读到标签的开始标志<XXX>, 回到1(标签开始时的验证操作).
<RESULT> 入栈
<VALUE> 读到非内容, 继续入栈
<NO> 读到非内容, 继续入栈
</NO> 读到内容, 出栈检查, 出栈,
<ADDR> 读到标签的开始标志 入栈
</ADDR> 读到内容 出栈,
</VALUE> 读到标签的结束标志 出栈,
<VALUE> 如果读到标签的开始标志 入栈
<NO> 读到标签的开始标志 入栈
读到内容 略过内容出栈 出栈检查失败,
补齐标签, 只需要在相应位置加上标签的结束标志即可。 参考技术A 说个思路,首先你把xml读成一个字符串。
如果已知只可能缺少</No>,那么用indexOf先定位<NO>如index1,如果index!=-1, 接着定位接下来的</NO>如index2,再定位index1后面最近的<如index3, 如果index2==-1 或者 index3<index2,那么肯定缺少</NO>,将位置记录下来放到list或者数组;
然后进入下一个循环,即从index1开始 定位下一个<NO>
最后,从后往前遍历位置记录,插入</NO>
如果不仅仅是缺少</NO>,情况会复杂一些,那么你就将NO作为变量,拼接<NO>和</NO>, 这样应该能解决问题。 参考技术B 不好做,除非你事先就确定了整个文档的结构,否则,程序也没法判断你这个</NO>放到B1234后面还是</ADDR>后面 参考技术C 这怎以弄啊,要么你刚开始就把每一个value定一个id,然后通过找到第二个,把第二个元素全部重写一篇看行不
oracle 如何截取两个"-"之间的字符串,如果是正则表达式该如何用啊?
奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰
比如这样的一串字符,我如何截取出"西拉红"这3个字
这里-比较多 如果只有2个-,是不是容易些?该如何呢?
regexp_instr(列名,'-',1),
(regexp_instr(列名,'-',1,2)-regexp_instr(列名,'-',1,2))
) from 表明
substr(列名,位置1,位置2)意思是截取列名,从位置1开始,截取位置2 为
例如 select substr('410000',1,2) 就是从第一位开始,截取两位,返回的就是41
regexp_instr(列名,'-',1,1)是返回列名第一个'-'的位置,第一个1表示开始位置,可以缺省,默认为从头开始,第二个1表示第一次出现的意思,可缺省
regexp_instr(列名,'-',1,2)是返回列名第二个'-'的位置,1表示开始位置,在这里不能缺省,因为2表示的是第二次出现的意思,如果缺省的话,意思就不对了 参考技术A select substr('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰',INSTR('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰','西拉红'),3) from dual; 参考技术B SELECT REGEXP_SUBSTR('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰', '[^-]+', 1, LEVEL, 'i') AS STR
FROM DUAL
CONNECT BY LEVEL <=
LENGTH('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰') - LENGTH(REGEXP_REPLACE('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰', '-', ''))+1;追问
这样得到的结果是“奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰”
被-分割,成多行
我想要第六个-和第七个-之间的数据。如何取呢?
如果你能固定下来位置那就好办了
select substr('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰',instr('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰','-',1,6)+1, instr('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰','-',1,7)-instr('奥迪-A5-Coupe Qu-2.0T-7档自动-两门四驱-西拉红-深内饰','-',1,6)-1) from dual
instr(char,search,startpos,occurrence) 这个函数从char串的第startpos个字符开始查找字符串search第occurrence次出现的位置
函数第4个参数变化(取西拉红是7),可以任意截取两个"-"之间的字符串。
以上是关于如果一个 xml 缺少标签,那么该如何用 java 将缺失的标签补齐?不然dom4j无法解析的主要内容,如果未能解决你的问题,请参考以下文章
oracle 如何截取两个"-"之间的字符串,如果是正则表达式该如何用啊?