Python 爬虫+可视化,手把手教你使用 Python 爬取 JD 网站并且可视化展示
Posted 多鱼的夏天
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python 爬虫+可视化,手把手教你使用 Python 爬取 JD 网站并且可视化展示相关的知识,希望对你有一定的参考价值。
当你看到别人使用 Python 网络爬虫做出一些高大上的项目你是否也有那么一点点的心动?羡慕别人用几行简单的代码就能获取到自己想要的数据?羡慕别人用几行代码就能做出优美的可视化图案?如果你对爬虫可视化充满兴趣,那你一定不要错过本场 Chat。
本场 Chat 我将使用最新 Python 3.9 在中秋之际为大家抓取某东月饼并使用 openpyxl 存入 Excel,然后使用 Pandas 清洗处理最后使用 pyecharts 可视化展示。通过这样一个简单的案例你将学到以下内容:
- 最新 Python 3.9 环境安装配置
- 静态页面和动态页面时 Python 爬取数据方式
- 使用 Openpyxl 对 Excel 数据进行存储处理
- Pandas 对数据数据处理(清洗、筛选、过滤等)
- 使用 Jieba 分词并且使用 WordCloud 制作精美词云图和词频图
- 使用 pyecharts 对处理后的数据进行直方图、折线图、饼图和漏斗图等的简单了解和使用
- 使用 SnowNLP 模块对用户进行情感分析以确定用户对产品的满意度
接下来我们一起进入实战吧!
Python 3.9 环境搭建 for windows
1. 打开 Python 官网 ,选择最新版本 3.9 下载:
2. 下载完成,双击 exe 文件进行安装,一路选择 Next,等待安装完成即可。
3. 验证 Python 环境是否安装搭建:Win 下面打开 cmd 窗口(win 键+ R,输入 cmd 回车),在 cmd 窗口中输入 python 命令,回车后显示当前 python 版本即可,即可证明安装成功。
4. 第一个 Python 程序
我们在上面一步的基础上,来写我们使用的第一个 Python 程序,命令行中输入如下语法:
print("hello world!")
输入完后执行回车键,命令行就会输出 hello world!
,如下图:
这样我们第一个 Python 程序就完成了,是不是很简单?
静态页面和动态页面时 Python 爬取数据方式
首先我们先来简单了解一下什么是静态和动态网页。
静态网页:
- 数据非结构化:html 标签
- 处理方式可以为:正则表达式、xpath、BeautifulSoup
- 静态页面的数据都包含在响应中,可通过分析源代码获取对应节点
- 名称/值,一般会在响应的 URL 中,以
?
代表 URL 结束
例如我们熟知的豆瓣电影网站就是一个静态加载的页面:
动态页面:
- 数据结构化:json、xml 等
- 可直接转化为 Python 类型
- 动态页面数据存储在 json 中,可通过响应内容获得 json 数据
对于静态网页的爬虫不用多说大家也都知道,网页中所呈现的内容我们都可以在源码中找到。因为爬取静态网页非常的简单,只要用 requests 直接把 html 爬取下来然后用正则等方式匹配我们所要获取的内容就可以了。
相对于静态网页的简单,但是动态网页的就会相对而而言会复杂一下,它是网站在不重新加载的情况下,通过 Ajax 等技术动态更新网站中的局部数据。比如拉勾网的职位页面,在换页的过程中,url 是没有发生改变的,但是职位数据动态的更改了。
而我们今天要获取的 JD 数据就是一个动态网页加载的案例。
如何区分静态加载还是动态加载的网页呢?告诉你们一个很简单的方法:打开浏览器设置搜索 javascript,关闭它然后重新刷新网页。还可以正常加载出来内容就是静态网页,反之则为动态加载的网页。
以上是关于Python 爬虫+可视化,手把手教你使用 Python 爬取 JD 网站并且可视化展示的主要内容,如果未能解决你的问题,请参考以下文章
爬虫老司机手把手教你如何分析用户数据|Python 数据分析打怪升级之路 day05:数据规范化这样做才规范数据可视化十大图表
爬虫老司机手把手教你如何分析用户数据|Python 数据分析打怪升级之路 day05:数据规范化这样做才规范数据可视化十大图表
爬虫老司机手把手教你如何分析用户数据|Python 数据分析打怪升级之路 day05:数据规范化这样做才规范数据可视化十大图表
Python数据分析:手把手教你用Pandas生成可视化图表