python爬取百度贴吧文字内容

Posted 2022-03-21 N暖阳

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python爬取百度贴吧文字内容相关的知识，希望对你有一定的参考价值。

爬取百度贴吧文字内容

方法1:

点击查看代码

**导入urllib库**
from urllib import request
**导入re正则模块库**
import re
	#指定爬取页数
url = "https://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8"
try:
	#指定请求体浏览器UA
    headers = "User-Agent":
                   "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36"
    req = request.Request(url, headers=headers)
    resp = request.urlopen(req)
	#把内容进行解码
    content = resp.read().decode(\'utf-8\')
    print(content)
	#定义正则规则进行内容爬取
    pattern = re.compile(r\'<a rel="noopener".*?title=(.*?)\\s.*?>(.*?)</a>\')
    items = re.findall(pattern, content)
	#遍历输出内容
    for i in items:
        print(i[0] + "\\t" + i[1])
except request.URLError as e:
    if hasattr(e, \'code\'):
        print(e.code)
    if hasattr(e, \'reason\'):
        print(e.reason)

方法2(封装成方法形式):

点击查看代码

from urllib import request
import re


class TieBa:
    # 初始化方法
    def __init__(self):
        # 链接
        self.url = "https://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn="
        # 请求头
        self.headers = "User-Agent":
                            "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36"
        # 列表 ,存储解析后的结果
        self.stories = []

    # 下载页面
    def getPage(self, page_number):
        try:
            # 定义请求
            req = request.Request(self.url + str(page_number), headers=self.headers)
            # 下载页面
            resp = request.urlopen(req)
            # 解码
            content = resp.read().decode(\'utf-8\')
            # 返回结果
            return content
        except request.URLError as e:
            # 打印异常的响应码
            if hasattr(e, \'code\'):
                print(e.code)
            if hasattr(e, \'reason\'):
                print(e.reason)

    # 解析页面
    # global items

    def rexgPage(self, content):
        pattern = re.compile(r\'<a rel="noopener".*?title=(.*?)\\s.*?>(.*?)</ a>\')
        items = re.findall(pattern, content)
        for i in items:
            self.stories.append(i[0] + "\\t" + i[1])

    # 显示解析的内容
    def getContent(self):
        for i in self.stories:
            print(i)


	# 调用方法下载然后解析页面 - 显示解析的内容
s1 = TieBa()

print(s1.stories)
s1.rexgPage(s1.getPage(50))
s1.getContent()

以上是关于python爬取百度贴吧文字内容的主要内容，如果未能解决你的问题，请参考以下文章