从字符串中删除 HTML 标记
Posted
技术标签:
【中文标题】从字符串中删除 HTML 标记【英文标题】:Remove HTML tags from a String 【发布时间】:2010-09-19 10:13:12 【问题描述】:有没有从 Java 字符串中删除 html 的好方法?一个简单的正则表达式,如
replaceAll("\\<.*?>", "")
会起作用,但不会正确转换 &amp;
之类的内容,并且两个尖括号之间的非 HTML 将被删除(即,正则表达式中的 .*?
将消失)。
【问题讨论】:
将其与以下指南一起使用:compile 'org.jsoup:jsoup:1.9.2' ***.com/a/3149645/5733853 另见:***.com/a/21838532/363573 【参考方案1】:使用 HTML 解析器而不是正则表达式。 Jsoup 非常简单。
public static String html2text(String html)
return Jsoup.parse(html).text();
Jsoup 还 supports 针对可自定义的白名单删除 HTML 标签,如果您只想允许例如<b>
、<i>
和 <u>
。
另见:
RegEx match open tags except XHTML self-contained tags What are the pros and cons of the leading Java HTML parsers? XSS prevention in JSP/Servlet web application【讨论】:
Jsoup 不错,但我遇到了一些缺点。我用它来摆脱 XSS,所以基本上我希望输入纯文本,但是一些邪恶的人可能会尝试向我发送一些 HTML。使用 Jsoup,我可以删除所有 HTML,但不幸的是,它还将许多空格缩小为一个,并删除了链接中断(\n 个字符) @Ridcully:为此,您想改用Jsoup#clean()
。
使用 clean() 仍然会导致多余的空格和 \n 字符被删除。例如: Jsoup.clean("a \n b", Whitelist.none()) 返回 "a b"
@Zeroows:这在<p>Lorem ipsum 1 < 3 dolor sit amet</p>
上惨遭失败。再次,HTML is not a regular language。我完全无法理解为什么每个人都在尝试使用正则表达式来解析感兴趣的部分而不是使用真正的解析器。
使用Jsoup.clean(unsafeString, "", Whitelist.none(), new OutputSettings().prettyPrint(false));
保留换行符【参考方案2】:
如果您正在为 Android 写作,您可以这样做...
android.text.HtmlCompat.fromHtml(instruction, HtmlCompat.FROM_HTML_MODE_LEGACY).toString()
【讨论】:
很棒的提示。 :) 如果您在 TextView 中显示文本,您也可以删除 .toString() 以保留一些格式。 @Branky 我没有尝试过...接受的答案就像魅力一样 效果很好。所有 html 标记都从字符串中删除。 这很好,但是 标签被替换为一些奇怪的东西。我在有图像的地方得到了小方块 @BibaswannBandyopadhyay another answer helps 摆脱这些字符【参考方案3】:如果用户输入<b>hey!</b>
,是要显示<b>hey!</b>
还是hey!
?如果是第一个,请转义小于号,然后对 & 符号(以及可选的引号)进行 html 编码,这样就可以了。修改您的代码以实现第二个选项是:
replaceAll("\\<[^>]*>","")
但如果用户输入格式错误的内容,例如<bhey!</b>
,您会遇到问题。
您还可以查看JTidy,它将解析“脏”的 html 输入,并且应该为您提供删除标签、保留文本的方法。
尝试剥离 html 的问题在于浏览器的解析器非常宽松,比你能找到的任何库都宽松,所以即使你尽力剥离所有标签(使用上面的替换方法,一个 DOM 库,或 JTidy),您将仍然需要确保对任何剩余的 HTML 特殊字符进行编码以确保输出安全。
【讨论】:
如果 html 节点内容中有未转义的 符号,您也会遇到问题。 我的年龄 然后是你的年龄。我认为只有 100% 的方法是通过一些 XML DOM 接口(如 SAX 或类似接口)来使用 node.getText()。【参考方案4】:另一种方法是使用javax.swing.text.html.HTMLEditorKit来提取文本。
import java.io.*;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;
public class Html2Text extends HTMLEditorKit.ParserCallback
StringBuffer s;
public Html2Text()
public void parse(Reader in) throws IOException
s = new StringBuffer();
ParserDelegator delegator = new ParserDelegator();
// the third parameter is TRUE to ignore charset directive
delegator.parse(in, this, Boolean.TRUE);
public void handleText(char[] text, int pos)
s.append(text);
public String getText()
return s.toString();
public static void main(String[] args)
try
// the HTML to convert
FileReader in = new FileReader("java-new.html");
Html2Text parser = new Html2Text();
parser.parse(in);
in.close();
System.out.println(parser.getText());
catch (Exception e)
e.printStackTrace();
参考:Remove HTML tags from a file to extract only the TEXT
【讨论】:
“a c”的结果是“a b or b > c”,这似乎很不幸。 这对我来说效果最好。我需要保留换行符。我通过将这个简单的方法添加到解析器来做到这一点:@Override public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) if (t == HTML.Tag.P || t == HTML.Tag.BR) s.append('\n'); dfrankow:数学表达式 ac 应该用 html 写成这样: b 或 b > c 我喜欢它没有外部依赖。【参考方案5】:我认为过滤html标签最简单的方法是:
private static final Pattern REMOVE_TAGS = Pattern.compile("<.+?>");
public static String removeTags(String string)
if (string == null || string.length() == 0)
return string;
Matcher m = REMOVE_TAGS.matcher(string);
return m.replaceAll("");
【讨论】:
【参考方案6】:使用Jericho 也很简单,并且可以保留一些格式(例如换行符和链接)。
Source htmlSource = new Source(htmlText);
Segment htmlSeg = new Segment(htmlSource, 0, htmlSource.length());
Renderer htmlRend = new Renderer(htmlSeg);
System.out.println(htmlRend.toString());
【讨论】:
Jericho 能够将 解析为换行符。 Jsoup 和 HTMLEditorKit 无法做到这一点。 Jericho 非常有能力胜任这项工作,在自有项目中经常使用它。 杰里科的工作就像一个魅力。谢谢你的建议。注意:您不必创建整个字符串的段。 Source 扩展了 Segment,因此可以在 Renderer 构造函数中使用。 Jerico 现在似乎有点过时了(最后一个版本是 2015 年末的 3.4)。但是,如果它仍然运行良好,那么它仍然运行良好!【参考方案7】:简单地做 Jsoup.parse(html).text()
的公认答案有 2 个潜在问题(使用 JSoup 1.7.3):
&lt;script&gt;
转换为<script>
如果你用它来防御 XSS,这有点烦人。这是我使用 JSoup 和 Apache StringEscapeUtils 改进解决方案的最佳方法:
// breaks multi-level of escaping, preventing &lt;script&gt; to be rendered as <script>
String replace = input.replace("&", "");
// decode any encoded html, preventing <script> to be rendered as <script>
String html = StringEscapeUtils.unescapeHtml(replace);
// remove all html tags, but maintain line breaks
String clean = Jsoup.clean(html, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));
// decode html again to convert character entities back into text
return StringEscapeUtils.unescapeHtml(clean);
请注意,最后一步是因为我需要将输出用作纯文本。如果您只需要 HTML 输出,那么您应该可以将其删除。
这里有一堆测试用例(输入到输出):
"regular string", "regular string",
"<a href=\"link\">A link</a>", "A link",
"<script src=\"http://evil.url.com\"/>", "",
"<script>", "",
"&lt;script&gt;", "lt;scriptgt;", // best effort
"\" ' > < \n \\ é å à ü and & preserved", "\" ' > < \n \\ é å à ü and & preserved"
如果您找到改进的方法,请告诉我。
【讨论】:
这将失败,例如&#38;lt;script&#38;gt;alert('Evil script executed');&#38;lt;/script&#38;gt;
。 &#x26;
也是如此。 JSoup 不会转换 &lt;script&gt; into <script>
,它这样做是因为您在 JSoup 清理输入后调用 StringEscapeUtils.unescapeHtml
。【参考方案8】:
在 Android 上,试试这个:
String result = Html.fromHtml(html).toString();
【讨论】:
做到了!它从文本中删除了所有内联 html :) 对于普通代码,您总是使用代码 sn-ps。代码片段只能用于 HTML 或 javascript 或其他可以在浏览器中运行的代码。您不能在浏览器中运行 Java。以后使用普通代码块...这次我会为您编辑您的答案并修复格式等,但以后请不要再这样做了。这不是我第一次告诉你这件事...... @PaulCroarkin 这是 android sdk 中的库。 android.text.Html 太棒了。删除了所有 html 标签。 看起来很眼熟,就像我 2011 年的回答一样。【参考方案9】:HTML 转义真的很难做到正确——我绝对建议使用库代码来做到这一点,因为它比你想象的要微妙得多。查看 Apache 的 StringEscapeUtils 以获得一个非常好的库,用于在 Java 中处理此问题。
【讨论】:
这是我正在寻找的东西,但我想剥离 HTML 而不是转义它。 您是要剥离 html,还是要将其转换为纯文本?从带有 br 标记和 HTML 实体的长字符串中剥离 HTML 可能会导致难以辨认的混乱。 StringEscapeUtils.unescapeHtml 不剥离 html 关于用于取消转义但不回答问题的实用程序的良好信息。 令人困惑的答案。删除!= 取消转义【参考方案10】:这应该可以 -
使用这个
text.replaceAll('<.*?>' , " ") -> This will replace all the html tags with a space.
还有这个
text.replaceAll('&.*?;' , "")-> this will replace all the tags which starts with "&" and ends with ";" like , &, > etc.
【讨论】:
一般来说,答案如果包含对代码用途的解释会更有用。【参考方案11】:您可以简单地使用 Android 的默认 HTML 过滤器
public String htmlToStringFilter(String textToFilter)
return Html.fromHtml(textToFilter).toString();
上述方法将返回 HTML 过滤后的字符串供您输入。
【讨论】:
【参考方案12】:您可能希望在剥离 HTML 之前用换行符替换 <br/>
和 </p>
标记,以防止它像 Tim 建议的那样变得难以辨认。
我能想到删除 HTML 标记但在尖括号之间保留非 HTML 的唯一方法是检查 list of HTML tags。类似的东西......
replaceAll("\\<[\s]*tag[^>]*>","")
然后对特殊字符进行 HTML 解码,例如 &amp;
。结果不应被视为已清理。
【讨论】:
【参考方案13】:或者,可以使用HtmlCleaner:
private CharSequence removeHtmlFrom(String html)
return new HtmlCleaner().clean(html).getText();
【讨论】:
HtmlCleaner 运行良好,保持换行,并且有一个最新版本(2017 年 5 月的 2.21)。【参考方案14】:使用Html.fromHtml
HTML标签是
<a href=”…”> <b>, <big>, <blockquote>, <br>, <cite>, <dfn>
<div align=”…”>, <em>, <font size=”…” color=”…” face=”…”>
<h1>, <h2>, <h3>, <h4>, <h5>, <h6>
<i>, <p>, <small>
<strike>, <strong>, <sub>, <sup>, <tt>, <u>
根据 Android’s official Documentations,HTML 中的任何标记都将显示为通用替换 String,然后您的程序可以对其进行替换使用真正的字符串。
Html.formHtml
方法将 Html.TagHandler
和 Html.ImageGetter 作为参数以及要解析的文本。
示例
String Str_Html=" <p>This is about me text that the user can put into their profile</p> ";
然后
Your_TextView_Obj.setText(Html.fromHtml(Str_Html).toString());
输出
这是关于我的文本,用户可以将其放入他们的个人资料中
【讨论】:
没有额外的实用程序并且与 Android Docs 保持一致。 +1【参考方案15】:另一种方法是使用 com.google.gdata.util.common.html.HtmlToText 类 喜欢
MyWriter.toConsole(HtmlToText.htmlToPlainText(htmlResponse));
虽然这不是防弹代码,当我在***条目上运行它时,我也会获得样式信息。但是我相信对于小型/简单的工作,这将是有效的。
【讨论】:
【参考方案16】:对于我指出的测试用例,接受的答案对我不起作用:“a c”的结果是“a b or b > c”。
所以,我改用 TagSoup。这是一个适用于我的测试用例(以及其他几个)的镜头:
import java.io.IOException;
import java.io.StringReader;
import java.util.logging.Logger;
import org.ccil.cowan.tagsoup.Parser;
import org.xml.sax.Attributes;
import org.xml.sax.ContentHandler;
import org.xml.sax.InputSource;
import org.xml.sax.Locator;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;
/**
* Take HTML and give back the text part while dropping the HTML tags.
*
* There is some risk that using TagSoup means we'll permute non-HTML text.
* However, it seems to work the best so far in test cases.
*
* @author dan
* @see <a href="http://home.ccil.org/~cowan/XML/tagsoup/">TagSoup</a>
*/
public class Html2Text2 implements ContentHandler
private StringBuffer sb;
public Html2Text2()
public void parse(String str) throws IOException, SAXException
XMLReader reader = new Parser();
reader.setContentHandler(this);
sb = new StringBuffer();
reader.parse(new InputSource(new StringReader(str)));
public String getText()
return sb.toString();
@Override
public void characters(char[] ch, int start, int length)
throws SAXException
for (int idx = 0; idx < length; idx++)
sb.append(ch[idx+start]);
@Override
public void ignorableWhitespace(char[] ch, int start, int length)
throws SAXException
sb.append(ch);
// The methods below do not contribute to the text
@Override
public void endDocument() throws SAXException
@Override
public void endElement(String uri, String localName, String qName)
throws SAXException
@Override
public void endPrefixMapping(String prefix) throws SAXException
@Override
public void processingInstruction(String target, String data)
throws SAXException
@Override
public void setDocumentLocator(Locator locator)
@Override
public void skippedEntity(String name) throws SAXException
@Override
public void startDocument() throws SAXException
@Override
public void startElement(String uri, String localName, String qName,
Attributes atts) throws SAXException
@Override
public void startPrefixMapping(String prefix, String uri)
throws SAXException
【讨论】:
【参考方案17】:我知道这是旧的,但我只是在做一个需要我过滤 HTML 的项目,而且效果很好:
noHTMLString.replaceAll("\\&.*?\\;", "");
而不是这个:
html = html.replaceAll(" ","");
html = html.replaceAll("&"."");
【讨论】:
【参考方案18】:这里有一个稍微更充实的更新,以尝试处理一些中断和列表的格式。我使用 Amaya 的输出作为指导。
import java.io.IOException;
import java.io.Reader;
import java.io.StringReader;
import java.util.Stack;
import java.util.logging.Logger;
import javax.swing.text.MutableAttributeSet;
import javax.swing.text.html.HTML;
import javax.swing.text.html.HTMLEditorKit;
import javax.swing.text.html.parser.ParserDelegator;
public class HTML2Text extends HTMLEditorKit.ParserCallback
private static final Logger log = Logger
.getLogger(Logger.GLOBAL_LOGGER_NAME);
private StringBuffer stringBuffer;
private Stack<IndexType> indentStack;
public static class IndexType
public String type;
public int counter; // used for ordered lists
public IndexType(String type)
this.type = type;
counter = 0;
public HTML2Text()
stringBuffer = new StringBuffer();
indentStack = new Stack<IndexType>();
public static String convert(String html)
HTML2Text parser = new HTML2Text();
Reader in = new StringReader(html);
try
// the HTML to convert
parser.parse(in);
catch (Exception e)
log.severe(e.getMessage());
finally
try
in.close();
catch (IOException ioe)
// this should never happen
return parser.getText();
public void parse(Reader in) throws IOException
ParserDelegator delegator = new ParserDelegator();
// the third parameter is TRUE to ignore charset directive
delegator.parse(in, this, Boolean.TRUE);
public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos)
log.info("StartTag:" + t.toString());
if (t.toString().equals("p"))
if (stringBuffer.length() > 0
&& !stringBuffer.substring(stringBuffer.length() - 1)
.equals("\n"))
newLine();
newLine();
else if (t.toString().equals("ol"))
indentStack.push(new IndexType("ol"));
newLine();
else if (t.toString().equals("ul"))
indentStack.push(new IndexType("ul"));
newLine();
else if (t.toString().equals("li"))
IndexType parent = indentStack.peek();
if (parent.type.equals("ol"))
String numberString = "" + (++parent.counter) + ".";
stringBuffer.append(numberString);
for (int i = 0; i < (4 - numberString.length()); i++)
stringBuffer.append(" ");
else
stringBuffer.append("* ");
indentStack.push(new IndexType("li"));
else if (t.toString().equals("dl"))
newLine();
else if (t.toString().equals("dt"))
newLine();
else if (t.toString().equals("dd"))
indentStack.push(new IndexType("dd"));
newLine();
private void newLine()
stringBuffer.append("\n");
for (int i = 0; i < indentStack.size(); i++)
stringBuffer.append(" ");
public void handleEndTag(HTML.Tag t, int pos)
log.info("EndTag:" + t.toString());
if (t.toString().equals("p"))
newLine();
else if (t.toString().equals("ol"))
indentStack.pop();
;
newLine();
else if (t.toString().equals("ul"))
indentStack.pop();
;
newLine();
else if (t.toString().equals("li"))
indentStack.pop();
;
newLine();
else if (t.toString().equals("dd"))
indentStack.pop();
;
public void handleSimpleTag(HTML.Tag t, MutableAttributeSet a, int pos)
log.info("SimpleTag:" + t.toString());
if (t.toString().equals("br"))
newLine();
public void handleText(char[] text, int pos)
log.info("Text:" + new String(text));
stringBuffer.append(text);
public String getText()
return stringBuffer.toString();
public static void main(String args[])
String html = "<html><body><p>paragraph at start</p>hello<br />What is happening?<p>this is a<br />mutiline paragraph</p><ol> <li>This</li> <li>is</li> <li>an</li> <li>ordered</li> <li>list <p>with</p> <ul> <li>another</li> <li>list <dl> <dt>This</dt> <dt>is</dt> <dd>sdasd</dd> <dd>sdasda</dd> <dd>asda <p>aasdas</p> </dd> <dd>sdada</dd> <dt>fsdfsdfsd</dt> </dl> <dl> <dt>vbcvcvbcvb</dt> <dt>cvbcvbc</dt> <dd>vbcbcvbcvb</dd> <dt>cvbcv</dt> <dt></dt> </dl> <dl> <dt></dt> </dl></li> <li>cool</li> </ul> <p>stuff</p> </li> <li>cool</li></ol><p></p></body></html>";
System.out.println(convert(html));
【讨论】:
【参考方案19】:这里是另一种如何替换所有的变体(HTML 标签 | HTML 实体 | HTML 内容中的空白空间)
content.replaceAll("(<.*?>)|(&.*?;)|([ ]2,)", "");
其中内容是一个字符串。
【讨论】:
我稍微改进了一下:code .replaceAll("(<.>)|(&.*?;)", " ").replaceAll("\\s2 ,", " ") code 因为这些标签通常就在文本旁边。删除标签后,将所有 2 个或更多写入空间更改为 1 个。【参考方案20】:听起来您想从 HTML 转换为纯文本。 如果是这种情况,请查看 www.htmlparser.org。这是一个从 URL 中找到的 html 文件中去除所有标签的示例。 它利用了 org.htmlparser.beans.StringBean。
static public String getUrlContentsAsText(String url)
String content = "";
StringBean stringBean = new StringBean();
stringBean.setURL(url);
content = stringBean.getStrings();
return content;
【讨论】:
【参考方案21】:这是另一种方法:
public static String removeHTML(String input)
int i = 0;
String[] str = input.split("");
String s = "";
boolean inTag = false;
for (i = input.indexOf("<"); i < input.indexOf(">"); i++)
inTag = true;
if (!inTag)
for (i = 0; i < str.length; i++)
s = s + str[i];
return s;
【讨论】:
或者你可以直接说 if(input.indexOf(" 0 || input.indexOf(">") > 0) return "";否则返回输入;【参考方案22】:为此也可以使用Apache Tika。默认情况下,它会保留剥离 html 中的空格,这在某些情况下可能需要:
InputStream htmlInputStream = ..
HtmlParser htmlParser = new HtmlParser();
HtmlContentHandler htmlContentHandler = new HtmlContentHandler();
htmlParser.parse(htmlInputStream, htmlContentHandler, new Metadata())
System.out.println(htmlContentHandler.getBodyText().trim())
【讨论】:
请注意,不推荐使用 parse 方法以支持Parse.parse(InputStream, ContentHandler, Metadata, ParseContext)
。【参考方案23】:
使用 JSoup 保留换行信息的一种方法是在所有新行标记之前添加一些虚拟字符串,执行 JSoup 并将虚拟字符串替换为“\n”。
String html = "<p>Line one</p><p>Line two</p>Line three<br/>etc.";
String NEW_LINE_MARK = "NEWLINESTART1234567890NEWLINEEND";
for (String tag: new String[]"</p>","<br/>","</h1>","</h2>","</h3>","</h4>","</h5>","</h6>","</li>")
html = html.replace(tag, NEW_LINE_MARK+tag);
String text = Jsoup.parse(html).text();
text = text.replace(NEW_LINE_MARK + " ", "\n\n");
text = text.replace(NEW_LINE_MARK, "\n\n");
【讨论】:
【参考方案24】:classeString.replaceAll("\\<(/?[^\\>]+)\\>", "\\ ").replaceAll("\\s+", " ").trim()
【讨论】:
虽然这段代码 sn-p 可以解决问题,但including an explanation 确实有助于提高帖子的质量。请记住,您正在为将来的读者回答问题,而这些人可能不知道您的代码建议的原因。也请尽量不要用解释性的 cmets 挤满你的代码,这会降低代码和解释的可读性!【参考方案25】:在 javascript 上试试这个:
const strippedString = htmlString.replace(/(<([^>]+)>)/gi, "");
console.log(strippedString);
【讨论】:
【参考方案26】:我的 5 美分:
String[] temp = yourString.split("&");
String tmp = "";
if (temp.length > 1)
for (int i = 0; i < temp.length; i++)
tmp += temp[i] + "&";
yourString = tmp.substring(0, tmp.length() - 1);
【讨论】:
【参考方案27】:要获得格式化的纯 html 文本,您可以这样做:
String BR_ESCAPED = "<br/>";
Element el=Jsoup.parse(html).select("body");
el.select("br").append(BR_ESCAPED);
el.select("p").append(BR_ESCAPED+BR_ESCAPED);
el.select("h1").append(BR_ESCAPED+BR_ESCAPED);
el.select("h2").append(BR_ESCAPED+BR_ESCAPED);
el.select("h3").append(BR_ESCAPED+BR_ESCAPED);
el.select("h4").append(BR_ESCAPED+BR_ESCAPED);
el.select("h5").append(BR_ESCAPED+BR_ESCAPED);
String nodeValue=el.text();
nodeValue=nodeValue.replaceAll(BR_ESCAPED, "<br/>");
nodeValue=nodeValue.replaceAll("(\\s*<br[^>]*>)3,", "<br/><br/>");
要获得格式化的纯文本,将 更改为 \n 并将最后一行更改为:
nodeValue=nodeValue.replaceAll("(\\s*\n)3,", "<br/><br/>");
【讨论】:
【参考方案28】:我知道这个问题已经有一段时间了,但我找到了另一个解决方案,这对我有用:
Pattern REMOVE_TAGS = Pattern.compile("<.+?>");
Source source= new Source(htmlAsString);
Matcher m = REMOVE_TAGS.matcher(sourceStep.getTextExtractor().toString());
String clearedHtml= m.replaceAll("");
【讨论】:
【参考方案29】:值得注意的是,如果您尝试在 Service Stack 项目中完成此操作,它已经是一个内置的字符串扩展
using ServiceStack.Text;
// ...
"The <b>quick</b> brown <p> fox </p> jumps over the lazy dog".StripHtml();
【讨论】:
【参考方案30】:我经常发现我只需要去掉 cmets 和 script 元素。这对我来说已经可靠工作了 15 年,并且可以轻松扩展以处理 HTML 或 XML 中的任何元素名称:
// delete all comments
response = response.replaceAll("<!--[^>]*-->", "");
// delete all script elements
response = response.replaceAll("<(script|SCRIPT)[^+]*?>[^>]*?<(/script|SCRIPT)>", "");
【讨论】:
以上是关于从字符串中删除 HTML 标记的主要内容,如果未能解决你的问题,请参考以下文章