python爬虫爬取页面源码在本页面展示

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫爬取页面源码在本页面展示相关的知识,希望对你有一定的参考价值。

python爬虫在爬取网页内容时,需要将内容连同内容格式一同爬取过来,然后在自己的web页面中显示,自己的web页面为django框架
首先定义一个变量html,变量值为一段HTML代码
>>> print(html)
<div id=1> 
 &nbsp;&nbsp;my <br> 
 &nbsp; name <br>
 is &nbsp; JAY <br> 
 </div>
,我们现在要取div里面的内容,在自己的web页面中显示,空格和换行符等都以HTML代码的形式抓取。最终想要的数据为
&nbsp;&nbsp;my <br>
&nbsp; name <br>
is &nbsp; JAY <br>
 
(1)首先soup.string是不行的,因为div下面不止一个子标签
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(html, html.parser)
>>> soup.string
>>> 
可以看到返回值为空
(2)使用get_text()也是不行的,因为get_text()获取的字符串都是转义后的,我们要的是原生的HTML代码
>>> soup.get_text()
 \n \xa0\xa0my  \n \xa0 name \n is \xa0 JAY \n
不过get_text()在其他很多场合很实用,它可以获取标签下的所有子孙标签内的文本内容
同时可以指定参数
>>> soup.get_text(|)  #所有tag文本内容的分隔符
 \n \xa0\xa0my | \n \xa0 name |\n is \xa0 JAY |\n

>>> soup.get_text(|, strip=True)   #去掉文本内容前后的空白
my|name|is \xa0 JAY
或者使用soup.stripped_strings生成器,获取文本内容手动处理
(3)可以使用.contents
>>> content_soup = soup.div.contents
>>> content_soup
[ \n \xa0\xa0my , <br/>,  \n \xa0 name , <br/>, \n is \xa0 JAY , <br/>, \n]
>>> content_soup = [str(i) for i in content_soup]   #列表中的所有值改换为字符串类型
>>> content_text = ‘‘.join(content_soup)     #合并列表到一个字符串中
>>> content_text
 \n \xa0\xa0my <br/> \n \xa0 name <br/>\n is \xa0 JAY <br/>\n
>>> print(content_text)
 
   my <br/> 
   name <br/>
 is   JAY <br/>
至此,就可以直接将变量放到web页面中

以上是关于python爬虫爬取页面源码在本页面展示的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫_第二课

python怎么爬取数据

爬虫实例——利用BeautifulSoup库爬取页面信息

python --selenium+phantomjs爬取动态页面广告源码

Python 爬虫实例—— 爬取 动态页面

python爬虫怎么爬取webpack打包过页面的