bs4修改html文件和保存

Posted angelyan

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了bs4修改html文件和保存相关的知识,希望对你有一定的参考价值。

一、需求

将2个html文件保存到本地浏览器,例如:

A页面(我的博客主页)

技术图片

 

 

B页面(爬虫四大金刚)

技术图片

 

然后将A页面中的爬虫链接,链接的a标签中的href属性修改成本地B页面的地址,实现在本地浏览A页面跳转到B页面

二、代码

parent_page=r"C:\\Users\\ffm11\\Desktop\\Maple_feng - 博客园.html"
sub_page=r"C:\\Users\\ffm11\\Desktop\\爬虫四大金刚:requests,selenium,BeautifulSoup,Scrapy - Maple_feng - 博客园.html"

with open(parent_page, r,encoding="utf-8") as file:
    pcontent = file.read()

sp = BeautifulSoup(pcontent, lxml)
‘‘‘
<a class="postTitle2" href="https://www.cnblogs.com/angelyan/p/10496950.html">
[置顶]    爬虫四大金刚:requests,selenium,BeautifulSoup,Scrapy
</a>
‘‘‘
text=sp.find_all(a,class_=postTitle2)[0].get_text()
print(text)
new_tag = sp.new_tag("a")
new_tag.attrs = "href":sub_page,"class":"postTitle2"
new_tag.string  = text
# replace the paragraph using `replace_with` method

sp.find_all(a,class_=postTitle2)[0].replace_with(new_tag)
# open another file for writing
with open(parent_page, w,encoding="utf-8") as fp:
    # write the current soup content
    fp.write(sp.prettify())

 

以上是关于bs4修改html文件和保存的主要内容,如果未能解决你的问题,请参考以下文章

爬虫的两种解析方式 xpath和bs4

无法使用 JSoup 和 Java 保存修改后的 HTML 文件

如何在 Java 中修改 HTML 文件并保存更改

python bs4怎么抓豆瓣评论做词频表

Hosts文件修改后不能保存怎么办?

Linux下文件重命名创建删除修改及保存文件