不要自动放html、head和body标签,beautifulsoup

Posted

技术标签:

【中文标题】不要自动放html、head和body标签,beautifulsoup【英文标题】:Don't put html, head and body tags automatically, beautifulsoup 【发布时间】:2013-01-27 03:32:47 【问题描述】:

html5lib中使用beautifulsoup,它会自动放置html、head和body标签:

BeautifulSoup('<h1>FOO</h1>', 'html5lib') # => <html><head></head><body><h1>FOO</h1></body></html>

我可以设置任何选项,关闭此行为吗?

【问题讨论】:

你到底想做什么?如果您尝试将其解析为文档的片段(如 innerHTML 所做的那样),那么您需要不同的 API。 我创建了一个功能请求来更新文档。这个问题应该在移植文档中解释。功能请求:bugs.launchpad.net/beautifulsoup/+bug/1370364 移植文档:crummy.com/software/BeautifulSoup/bs4/doc/#porting-code-to-bs4 【参考方案1】:
In [35]: import bs4 as bs

In [36]: bs.BeautifulSoup('<h1>FOO</h1>', "html.parser")
Out[36]: <h1>FOO</h1>

这个parses the HTML with Python's builtin HTML parser。 引用文档:

与 html5lib 不同,此解析器不会尝试创建格式良好的 通过添加&lt;body&gt; 标记的HTML 文档。与 lxml 不同,它甚至没有 麻烦添加一个&lt;html&gt; 标签。


或者,您可以使用html5lib 解析器并选择&lt;body&gt; 之后的元素:

In [61]: soup = bs.BeautifulSoup('<h1>FOO</h1>', 'html5lib')

In [62]: soup.body.next
Out[62]: <h1>FOO</h1>

【讨论】:

请注意html.parser 是默认值。 @MartijnPieters:至少从 4.1.3 版开始,这似乎不是真的。如果未指定 features,则默认为 ['html', 'fast']。浏览代码,似乎bs 使用了bs.builder.builder_registry.builders_for_feature['html'] 中列出的第一个构建器,在我的例子中是bs4.builder._lxml.LXMLTreeBuilder。所以它似乎取决于你安装了什么。或者更准确地说,默认构建器是 bs.builder.builder_registry.lookup('html', 'fast') 返回的任何内容。 @unutbu: 是的,如果安装了 lxml 将被使用(在 HTML 模式下);文档对此并不完全坦率。 实际上现在已经证明它首先使用lxml。在Specifying the parser to use 下:“如果您不指定任何内容,您将获得已安装的最佳 HTML 解析器。Beautiful Soup 将 lxml 的解析器评为最佳,然后是 html5lib 的,然后是 Python 的内置解析器。” 请注意,如果正文中有多个元素,此响应实际上会被破坏。如果你有&lt;h1&gt;a&lt;/h1&gt;&lt;h1&gt;b&lt;/h1&gt;,它只会返回&lt;h1&gt;a&lt;/h1&gt;【参考方案2】:

让我们先创建一个汤样本:

soup=BeautifulSoup("<head></head><body><p>content</p></body>")

你可以通过指定soup.body.&lt;tag&gt;来获取html和body的child:

# python3: get body's first child
print(next(soup.body.children))

# if first child's tag is rss
print(soup.body.rss)

你也可以使用 unwrap() 来移除 body、head 和 html

soup.html.body.unwrap()
if soup.html.select('> head'):
    soup.html.head.unwrap()
soup.html.unwrap()

如果你加载 xml 文件,bs4.diagnose(data) 会告诉你使用lxml-xml,它不会用html+body 包裹你的汤

>>> BS('<foo>xxx</foo>', 'lxml-xml')
<foo>xxx</foo>

【讨论】:

soup.html.unwrap() 然后soup.body.unwrap() 为我工作!【参考方案3】:

BeautifulSoup 的这方面一直让我很恼火。

我是这样处理的:

# Parse the initial html-formatted string
soup = BeautifulSoup(html, 'lxml')

# Do stuff here

# Extract a string repr of the parse html object, without the <html> or <body> tags
html = "".join([str(x) for x in soup.body.children])

快速细分:

# Iterator object of all tags within the <body> tag (your html before parsing)
soup.body.children

# Turn each element into a string object, rather than a BS4.Tag object
# Note: inclusive of html tags
str(x)

# Get a List of all html nodes as string objects
[str(x) for x in soup.body.children]

# Join all the string objects together to recreate your original html
"".join()

我仍然不喜欢这个,但它可以完成工作。当我使用 BS4 过滤 HTML 文档中的某些元素和/或属性时,我总是会遇到这种情况,然后再对它们进行其他操作,我需要将整个对象作为字符串 repr 而不是 BS4 解析的对象返回。

希望下次我用 Google 搜索时,我会在这里找到答案。

【讨论】:

这很好用。 findChildren() 的另一个答案似乎直接在正文中丢弃文本,而不是在另一个标签中。 现在有一个未记录的函数decode_contents(),看我的回答below,它旨在阻止我之前也有过的烦恼。【参考方案4】:

您唯一的选择是不使用html5lib 来解析数据。

这是html5lib 库的一个功能,它修复 HTML 缺少的部分,例如添加回缺少的必需元素。

【讨论】:

【参考方案5】:

另一个解决方案:

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello <a href="http://google.com">Google</a></p><p>Hi!</p>', 'lxml')
# content handling example (just for example)
# replace Google with ***
for a in soup.findAll('a'):
  a['href'] = 'http://***.com/'
  a.string = '***'
print ''.join([unicode(i) for i in soup.html.body.findChildren(recursive=False)])

【讨论】:

【参考方案6】:
html=str(soup)
html=html.replace("<html><body>","")
html=html.replace("</body></html>","")

将删除 html/body 标记括号。更复杂的版本还会检查startsWith、endsWith ...

【讨论】:

【参考方案7】:

如果你想让它看起来更好,试试这个:

BeautifulSoup([你要分析的内容].prettify())

【讨论】:

【参考方案8】:

这是我的做法

a = BeautifulSoup()
a.append(a.new_tag('section'))
#this will give you <section></section>

【讨论】:

【参考方案9】:

从 v4.0.1 开始有一个方法decode_contents():

>>> BeautifulSoup('<h1>FOO</h1>', 'html5lib').decode_contents()
'<h1>FOO</h1>' 

此问题的解决方案中的更多详细信息: https://***.com/a/18602241/237105

【讨论】:

那需要先安装html5lib解析器库。

以上是关于不要自动放html、head和body标签,beautifulsoup的主要内容,如果未能解决你的问题,请参考以下文章

在html5 中把canvas标签写在<body>中 而jsp代码写在<head>中就会出错呢

基础标签

在 HTML </head> 和 <body> 标签之间放置代码或内容是不是合适

怎么用CSS定义body标签居中显示!要详细的CSS代码!写!急!

HTML标签

js如何清空页面所有内容