使用 BeautifulSoup 从 Web 服务器中抓取变量
Posted
技术标签:
【中文标题】使用 BeautifulSoup 从 Web 服务器中抓取变量【英文标题】:Scrape a variable from web server with BeautifulSoup 【发布时间】:2021-09-18 14:25:40 【问题描述】:我只想从每隔几秒更新一次的网络服务器中提取摄氏温度变量。到目前为止我的代码是:
from bs4 import BeautifulSoup
from urllib.request import urlopen
url = "http://192.168.251.184"
page = urlopen(url)
html = page.read().decode("utf-8")
soup = BeautifulSoup(html, "html.parser")
print(soup.get_text())
但这也会打印原始的 html 格式数据:
我尝试使用 find() 函数仅打印变量,即 19.44,但未成功。
此变量的页面来源的摘录是(第 3 行最后一行的目标变量是 19.44):
<!DOCTYPE HTML><html>
<head>
<meta name="viewport" content="width=device-width, initial-scale=1">
<link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.7.2/css/all.css" integrity="sha384-fnmOCqbTlWIlj8LyTjo7mOUStjsKC4pOpQbqyi7RrhN7udi9RwhKkMHpvLbHG9Sr" crossorigin="anonymous">
<style>
html
font-family: Arial;
display: inline-block;
margin: 0px auto;
text-align: center;
h2 font-size: 3.0rem;
p font-size: 3.0rem;
.units font-size: 1.2rem;
.ds-labels
font-size: 1.5rem;
vertical-align:middle;
padding-bottom: 15px;
</style>
</head>
<body>
<h2>ESP DS18B20 Server</h2>
<p>
<i class="fas fa-thermometer-half" style="color:#059e8a;"></i>
<span class="ds-labels">Temperature Celsius</span>
<span id="temperaturec">19.44</span>
<sup class="units">°C</sup>
</p>
你能帮我刮一下摄氏变量吗?
【问题讨论】:
你可以做soup.find("span","id":"temperaturec").text
,你可以在这里查看详细信息***.com/a/2136323/12446721
【参考方案1】:
由于温度在第二个跨度标签中,即<span id="temperaturec">19.44</span>
,我们将使用soup.find_all
访问此标签并使用.string
打印其中的内容
from bs4 import BeautifulSoup as bs
html_doc = """
<!DOCTYPE HTML><html>
<head>
<meta name="viewport" content="width=device-width, initial-scale=1">
<link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.7.2/css/all.css" integrity="sha384-fnmOCqbTlWIlj8LyTjo7mOUStjsKC4pOpQbqyi7RrhN7udi9RwhKkMHpvLbHG9Sr" crossorigin="anonymous">
<style>
html
font-family: Arial;
display: inline-block;
margin: 0px auto;
text-align: center;
h2 font-size: 3.0rem;
p font-size: 3.0rem;
.units font-size: 1.2rem;
.ds-labels
font-size: 1.5rem;
vertical-align:middle;
padding-bottom: 15px;
</style>
</head>
<body>
<h2>ESP DS18B20 Server</h2>
<p>
<i class="fas fa-thermometer-half" style="color:#059e8a;"></i>
<span class="ds-labels">Temperature Celsius</span>
<span id="temperaturec">19.44</span>
<sup class="units">°C</sup>
</p>
</div>"""
soup = bs(html_doc,'html.parser')
list_of_spans = soup.find_all('span')
print(list_of_spans[1].string)
【讨论】:
很高兴知道这篇文章缺少什么。【参考方案2】:float(soup.find("span", "id": "temperaturec").text)
【讨论】:
【参考方案3】:是的。您可以这样做:
celsius = soup.find("span", "id": "temperaturec").text
【讨论】:
以上是关于使用 BeautifulSoup 从 Web 服务器中抓取变量的主要内容,如果未能解决你的问题,请参考以下文章
如何使用Python中的BeautifulSoup从HTML链接解析嵌套表?
在 Python3 中使用 request_html 和 BeautifulSoup 使用 select/option 抓取 Web 数据