python怎样保证requests抓取下的text的编码格式正确

Posted 2023-04-14

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python怎样保证requests抓取下的text的编码格式正确相关的知识，希望对你有一定的参考价值。

requests对象的get和post方法都会返回一个Response对象，这个对象里面存的是服务器返回的所有信息，包括响应头，响应状态码等。其中返回的网页部分会存在.content和.text两个对象中。两者区别在于，content中间存的是字节码，而text中存的是Beautifulsoup根据猜测的编码方式将content内容编码成字符串。直接输出content，会发现前面存在b\'这样的标志，这是字节字符串的标志，而text是\'，没有前面的b,对于纯ascii码，这两个可以说一模一样，对于其他的文字，需要正确编码才能正常显示。大部分情况建议使用.text，因为显示的是汉字，但有时会显示乱码，这时需要用.content.decode(\'utf-8\')，中文常用utf-8和GBK，GB2312等。这样可以手工选择文字编码方式。所以简而言之，.text是现成的字符串，.content还要编码，但是.text不是所有时候显示都正常，这是就需要用.content进行手动编码。不明白可追问。参考技术A r = requests.get(url,timeout = 30);
        r.raise_for_status();
        if r.encoding == 'ISO-8859-1':
            r.encoding = r.apparent_encoding;
        return r.text;

大概这样吧

本回答被提问者采纳

使用python抓取并分析数据—链家网(requests+BeautifulSoup)（转）

本篇文章是使用python抓取数据的第一篇，使用requests+BeautifulSoup的方法对页面进行抓取和数据提取。通过使用requests库对链家网二手房列表页进行抓取，通过BeautifulSoup对页面进行解析，并从中获取房源价格，面积，户型和关注度的数据。

准备工作

首先是开始抓取前准备工作，导入需要使用的库文件，这里主要使用的是requests和BeautifulSoup两个。Time库负责设置每次抓取的休息时间。这里并非全部，后续还会在过程中导入新的库。

技术分享

抓取列表页

开始抓取前先观察下目标页面或网站的结构，其中比较重要的是URL的结构。链家网的二手房列表页面共有100个，URL结构为http://bj.lianjia.com/ershoufang/pg9/，其中bj表示城市，/ershoufang/是频道名称，pg9是页面码。我们要抓取的是北京的二手房频道，所以前面的部分不会变，属于固定部分，后面的页面码需要在1-100间变化，属于可变部分。将URL分为两部分，前面的固定部分赋值给url，后面的可变部分使用for循环。

技术分享

此外，还需要在很http请求中设置一个头部信息，否则很容易被封。头部信息网上有很多现成的，也可以使用httpwatch等工具来查看。具体细节按照具体情况进行调整。

技术分享

使用for循环生成1-100的数字，转化格式后与前面的URL固定部分拼成要抓取的URL。这里我们设置每两个页面间隔0.5秒。抓取到的页面保存在html中。

技术分享

解析页面并提取信息

页面抓取完成后无法直接阅读和进行数据提取，还需要进行页面解析。我们使用BeautifulSoup对页面进行解析。变成我们在浏览器查看源代码中看到的样子。

技术分享

完成页面解析后就可以对页面中的关键信息进行提取了。下面我们分别对房源的总价，房源信息和关注度三部分进行提取。

把页面div标签中class=priceInfo的部分提取出来，并使用for循环将其中每个房源的总价数据存在tp中。

技术分享

提取房源信息和关注度的方法与提取房源价格的方法类似，下面是具体的代码，房源信息存储在hi中，关注度存储在fi中。

技术分享

创建数据表并清洗数据

导入pandas库将前面提取的房源总价，和关注度等信息进行汇总生成数据表。便于后面的分析。

技术分享

前面提取的都只是信息，还不能直接使用，在分析前要对这些信息进行数据提取和清洗等工作。如房源信息，在表中每个房源的小区名称，户型，面积，朝向等信息都在一个字段中，无法直接使用。需要先进行分列操作。这里的规则比较明显，每个信息间都是以竖线分割的，因此我们只需要以竖线进行分列即可。

技术分享

这是完成分列后的新数据表，房源的各种信息以及成为单独的字段。

技术分享

将分列后的新数据表在重新拼接回原有的数据表中，这样在后面的分析过程中可以与其他字段的信息配合使用。

技术分享

完成拼接后的数据表中既包含了原有字段，也包含了分列后的新增字段。

技术分享

使用相同的方法对房源关注度字段进行分列和拼接操作。这里的分列规则是斜杠。

技术分享

房源户型分布情况

前面我们经过对房源信息的分列获取了房源的朝向，户型等信息，这里我们对房源的户型情况进行汇总，看看北京在售二手房的户型分布情况。

首先按房源的户型对房源数量进行汇总，下面是具体的代码和结果。

技术分享

导入数值计算库mumpy对数据进行处理，并使用matplotlib绘制房源户型分布条形图。

技术分享

北京在售二手房中户型从1室0厅到7室3厅近20种分布广泛。在所有的户型中数量最多的是2室1厅，其次为3室1厅和3室2厅，以及2室2厅。较小的1室1厅数量也较多。较大的户型数量较少。另外，从在售户型的分布中我们也可以推测出售房人的一些情况。

技术分享

房源面积分布情况

在数据表中，房源面积通过分列以及单独提取出来，但数字与中文的格式并不能直接使用。我们还需要对房源面积字段进行二次分列处理，提取出面积的数值。方法与前面的分列方法类似，我们使用“平”作为分列规则对房源面积进行二次分列。并将分列后的结果拼接回原数据表中。

技术分享

分列后的数据在使用前还需要进行清洗，通常的操作包括去除空格和格式转换。下面我们先对房源面积的值去除两端的空格，然后更改数值的格式以方便后面的计算。

技术分享

清洗后的房源面积字段可以开始分析了。首先查看所有北京在售二手房的面积范围，下面是代码和结果。房源面积从18.85到332.63。

技术分享

有了房源面积的范围后，就可以对面积进行分组了，我们以50为区间将房源面积分为7组。并统计所有房源在这7组中的分布情况。

技术分享

使用房源面积分组字段对房源数量进行分组并绘制条形图。

技术分享

在所有房源中，数量最多的是50-100，其次为100-150。随着面积增加数量减少。小于50的小面积房源也有一定数量的房源。

房源关注度分布情况

房源关注度的情况与房源面积类似，第一次分列处理后得到的数据包含数字和中文，无法直接使用，需要再次通过分列处理提取关注度的数值，并对数值进行清洗和格式转换。下面是具体的代码。

技术分享

清洗完后查看所有房源关注度的区间，关注度从0到725。也就是说有些房子很热门，而有些房子没有人关注。这可能和房源上线和更新的情况有关，此外还要考虑房源的销售速度，热门房源可能很抢手，刚上线就成交了。因此我们对情况进行简化，暂时忽略掉这些复杂的情况。仅对关注度的分布情况进行统计。

技术分享

将关注度以100为区间分为8组，并按关注度区间进行汇总统计房源数量。查看在售房源的关注度分布情况。

技术分享

绘制房源关注度分布条形图。

技术分享

在3000个房源中，近2500个房源的关注度小于100，关注度大于400的房源则较少。这里需要再次说明的是关注度数据无法准确的表示房源的热门程度。热门房源可能由于出售速度快而关注度较少。因此关注度数据仅供参考。

技术分享

房源聚类分析

最后，我们对所有在售房源按总价，面积和关注度进行聚类分析。将在售房源按总价，面积和关注度的相似性分在不同的类别中。

技术分享

通过计算我们将在售房源分为三个类别，下面是每个类别的中心点坐标。

技术分享

根据三个类别在总价，面积和关注度三个点的中心坐标，我们将在售房源分为三个类别，第一个类别是总价低，面积低，关注度高的房源。第二个类别是总价居中，面积居中，关注度居中的类别。第三个类别是总价高，面积高，关注度低的类别。

从营销和用户体验的角度来看，在广告和列表页的默认排序中应该给予总价400万，面积80属性的房源更高的权重。这个类别的房源可以吸引最多的用户关注。

热心小伙伴提供代码示例：链接：http://pan.baidu.com/s/1skSlVUt 密码：igvv

End.

转载请注明来自36大数据（36dsj.com)

http://www.36dsj.com/archives/71046

以上是关于python怎样保证requests抓取下的text的编码格式正确的主要内容，如果未能解决你的问题，请参考以下文章

python3 怎样爬取动态加载的网页信息

使用python抓取并分析数据—链家网(requests+BeautifulSoup)（转）

python-requests 简单实现数据抓取

python requests抓取猫眼电影

Python 3.X 要使用urllib.request 来抓取网络资源。转