可以验证 HTML 文档是不是格式正确的 Java API [重复]
Posted
技术标签:
【中文标题】可以验证 HTML 文档是不是格式正确的 Java API [重复]【英文标题】:Java API that can verify whether a HTML document is well-formed or not [duplicate]可以验证 HTML 文档是否格式正确的 Java API [重复] 【发布时间】:2013-05-16 17:34:15 【问题描述】:Maven 存储库中是否有可以解析 html 文档并验证其格式是否正确的 java API?
更新:
我的程序中的代码如下所示:
url = "C:/Users/user1/Desktop/testHTML.html";
FileInputStream fi = new FileInputStream(url);
Tidy tidy = new Tidy();
//tidy.setQuiet(true);
tidy.parse(fi, null);
//tidy.parseDOM(fi, fo);
int tempWarnings = tidy.getParseWarnings();
int tempErrors = tidy.getParseErrors();`
我的 HTML 文件的内容是这样的:
<html>
<head>
<title>This is a sample doc</title>
</head>
<body>
<p> <b>this is a sample paragraph</b></p>
然而,即使 DOCTYPE 和缺失,Tidy 也不会给出任何警告或错误。
【问题讨论】:
***.com/questions/3152138/… 【参考方案1】:是的,JTidy 在Maven....
它是一些与 HTML 相关的活动的好库。
【讨论】:
我使用过 Jtidy,但我找不到只接受 HTML 文件作为输入并判断它是否格式正确的方法。虽然有一些方法可以尝试清理文件,但我不是在寻找。【参考方案2】:正如@rolfl 所说,您可以为此使用JTidy。 JTidy 文档有点糟糕(而且我以前从未使用过),所以我下载了它并尝试使用它。此测试运行并给您 3 个警告:
package com.sandbox;
import org.junit.Test;
import org.w3c.tidy.Tidy;
import java.io.StringReader;
import java.io.StringWriter;
import static org.junit.Assert.assertEquals;
public class SandboxTest
@Test
public void myTest()
Tidy tidy = new Tidy();
StringWriter writer = new StringWriter();
tidy.parse(new StringReader("invalid html"), writer);
assertEquals(0, tidy.getParseErrors());
assertEquals(0, tidy.getParseWarnings());
这个断言在最后一行失败,因为它返回 3 而不是 0。这就是你要找的吗?
我尝试使用您的输入并收到警告:
package com.sandbox;
import org.junit.Test;
import org.w3c.tidy.Tidy;
import java.io.StringReader;
import java.io.StringWriter;
import static org.junit.Assert.assertEquals;
public class SandboxTest
@Test
public void myTest()
Tidy tidy = new Tidy();
StringWriter writer = new StringWriter();
tidy.parse(new StringReader("<html>\n" +
"<head>\n" +
" <title>This is a sample doc</title>\n" +
"</head>\n" +
"<body>\n" +
" <p> <b>this is a sample paragraph</b></p>"), writer);
assertEquals(0, tidy.getParseErrors());
assertEquals(0, tidy.getParseWarnings());
输出:
line 1 column 1 - Warning: missing <!DOCTYPE> declaration
InputStream: Document content looks like HTML 2.0
1 warning, no errors were found!
java.lang.AssertionError:
Expected :0
Actual :1
<Click to see difference>
at org.junit.Assert.fail(Assert.java:93)
at org.junit.Assert.failNotEquals(Assert.java:647)
at org.junit.Assert.assertEquals(Assert.java:128)
at org.junit.Assert.assertEquals(Assert.java:472)
at org.junit.Assert.assertEquals(Assert.java:456)
at com.sandbox.SandboxTest.myTest(SandboxTest.java:25)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at org.junit.runners.model.FrameworkMethod$1.runReflectiveCall(FrameworkMethod.java:45)
at org.junit.internal.runners.model.ReflectiveCallable.run(ReflectiveCallable.java:15)
at org.junit.runners.model.FrameworkMethod.invokeExplosively(FrameworkMethod.java:42)
at org.junit.internal.runners.statements.InvokeMethod.evaluate(InvokeMethod.java:20)
at org.junit.runners.ParentRunner.runLeaf(ParentRunner.java:263)
at org.junit.runners.BlockJUnit4ClassRunner.runChild(BlockJUnit4ClassRunner.java:68)
at org.junit.runners.BlockJUnit4ClassRunner.runChild(BlockJUnit4ClassRunner.java:47)
at org.junit.runners.ParentRunner$3.run(ParentRunner.java:231)
at org.junit.runners.ParentRunner$1.schedule(ParentRunner.java:60)
at org.junit.runners.ParentRunner.runChildren(ParentRunner.java:229)
at org.junit.runners.ParentRunner.access$000(ParentRunner.java:50)
at org.junit.runners.ParentRunner$2.evaluate(ParentRunner.java:222)
at org.junit.runners.ParentRunner.run(ParentRunner.java:300)
at org.junit.runner.JUnitCore.run(JUnitCore.java:157)
at com.intellij.junit4.JUnit4IdeaTestRunner.startRunnerWithArgs(JUnit4IdeaTestRunner.java:77)
at com.intellij.rt.execution.junit.JUnitStarter.prepareStreamsAndStart(JUnitStarter.java:195)
at com.intellij.rt.execution.junit.JUnitStarter.main(JUnitStarter.java:63)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at com.intellij.rt.execution.application.AppMain.main(AppMain.java:120)
Process finished with exit code -1
【讨论】:
感谢您的建议。这就是我一直在寻找的。但我尝试了一些格式不正确的 HTML( 标签未关闭,没有 DOCTYPE 等),并且没有警告或错误。尽管( 内的),它正确地为其他一些事情抛出错误。是否需要设置一些参数以使 JTidy 更严格? @naren.katneni 默认情况下它抱怨line 1 column 1 - Warning: missing <!DOCTYPE> declaration
所以我不明白你是如何避免这种情况的。请向我们展示您的代码。
这里是代码String url = args[0]; url = "C:/Users/user1/Desktop/testHTML.html"; FileInputStream fi = new FileInputStream(url); Tidy tidy = new Tidy(); //tidy.setQuiet(true); tidy.parse(fi, null); //tidy.parseDOM(fi, fo); int tempWarnings = tidy.getParseWarnings(); int tempErrors = tidy.getParseErrors();
当我运行代码时,它显示:Tidy (vers 4th August 2000) Parsing "InputStream" InputStream: Document content looks like HTML 2.0 no warnings or errors were found I输入 html 文件中没有 DOCTYPE。
@naren.katneni 如果您编辑问题以添加此代码会更好。尤其重要的是testHTML.html
文件的内容。
我将代码添加到问题中。以上是关于可以验证 HTML 文档是不是格式正确的 Java API [重复]的主要内容,如果未能解决你的问题,请参考以下文章
如何验证 java swt text中输入的时间格式是不是正确
VBA验证文本框中是不是存在文本,然后检查日期是不是格式正确