从字符串中删除 HTML 标记(R 编程)

Posted

技术标签:

【中文标题】从字符串中删除 HTML 标记(R 编程)【英文标题】:Remove HTML tags from string (R Programming) 【发布时间】:2011-04-15 12:15:53 【问题描述】:

有没有一种简单的方法可以从 R 中的字符串中删除 html 标记?

目前我正在从 XML 文档中提取调查数据,并且问题的标题中包含来自调查设计的 HTML,如下所示。

"Why did you give this performance question a low score?<br />"

有什么方法可以轻松删除&lt;br /&gt;

任何帮助将不胜感激。

【问题讨论】:

相关但不重复(最近的问答):Removing html tags from a string in R 【参考方案1】:

看看?gsub?regex。下面是一些删除&lt;br /&gt; 的简单代码,但它不适用于所有潜在的 HTML 标记。

> string <- "Why did you give this performance question a low score?<br />"
> gsub("<.*/>","",string)
[1] "Why did you give this performance question a low score?"

【讨论】:

谢谢你,它让我找到了 'gsub("","",string)' 只是为了标记它可能值得参考这个关于正则表达式主题的明智建议以解析 html..***.com/a/1732454/1156245

以上是关于从字符串中删除 HTML 标记(R 编程)的主要内容,如果未能解决你的问题,请参考以下文章

从 Python 字符串中删除不在允许列表中的 HTML 标记

从字符串中删除 HTML 标记并保留“:”(冒号)[重复]

如何从字符串中删除 HTML 标记

从字符串中删除 html 标记

JavaScript 从字符串中删除HTML标记

从 javascript 字符串中删除特定的 HTML 标记及其内容