Python 爬虫+可视化,手把手教你使用 Python 爬取 JD 网站并且可视化展示

Posted 多鱼的夏天

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python 爬虫+可视化,手把手教你使用 Python 爬取 JD 网站并且可视化展示相关的知识,希望对你有一定的参考价值。

当你看到别人使用 Python 网络爬虫做出一些高大上的项目你是否也有那么一点点的心动?羡慕别人用几行简单的代码就能获取到自己想要的数据?羡慕别人用几行代码就能做出优美的可视化图案?如果你对爬虫可视化充满兴趣,那你一定不要错过本场 Chat。

本场 Chat 我将使用最新 Python 3.9 在中秋之际为大家抓取某东月饼并使用 openpyxl 存入 Excel,然后使用 Pandas 清洗处理最后使用 pyecharts 可视化展示。通过这样一个简单的案例你将学到以下内容:

  1. 最新 Python 3.9 环境安装配置
  2. 静态页面和动态页面时 Python 爬取数据方式
  3. 使用 Openpyxl 对 Excel 数据进行存储处理
  4. Pandas 对数据数据处理(清洗、筛选、过滤等)
  5. 使用 Jieba 分词并且使用 WordCloud 制作精美词云图和词频图
  6. 使用 pyecharts 对处理后的数据进行直方图、折线图、饼图和漏斗图等的简单了解和使用
  7. 使用 SnowNLP 模块对用户进行情感分析以确定用户对产品的满意度

接下来我们一起进入实战吧!

Python 3.9 环境搭建 for windows

1. 打开 Python 官网 ,选择最新版本 3.9 下载:

https://www.python.org/downloads/

2. 下载完成,双击 exe 文件进行安装,一路选择 Next,等待安装完成即可。

3. 验证 Python 环境是否安装搭建:Win 下面打开 cmd 窗口(win 键+ R,输入 cmd 回车),在 cmd 窗口中输入 python 命令,回车后显示当前 python 版本即可,即可证明安装成功。

4. 第一个 Python 程序

我们在上面一步的基础上,来写我们使用的第一个 Python 程序,命令行中输入如下语法:

print("hello world!")

输入完后执行回车键,命令行就会输出 hello world!,如下图:

这样我们第一个 Python 程序就完成了,是不是很简单?

静态页面和动态页面时 Python 爬取数据方式

首先我们先来简单了解一下什么是静态和动态网页。

静态网页:

  • 数据非结构化:html 标签
  • 处理方式可以为:正则表达式、xpath、BeautifulSoup
  • 静态页面的数据都包含在响应中,可通过分析源代码获取对应节点
  • 名称/值,一般会在响应的 URL 中,以 ? 代表 URL 结束

例如我们熟知的豆瓣电影网站就是一个静态加载的页面:

动态页面:

  • 数据结构化:json、xml 等
  • 可直接转化为 Python 类型
  • 动态页面数据存储在 json 中,可通过响应内容获得 json 数据

对于静态网页的爬虫不用多说大家也都知道,网页中所呈现的内容我们都可以在源码中找到。因为爬取静态网页非常的简单,只要用 requests 直接把 html 爬取下来然后用正则等方式匹配我们所要获取的内容就可以了。

相对于静态网页的简单,但是动态网页的就会相对而而言会复杂一下,它是网站在不重新加载的情况下,通过 Ajax 等技术动态更新网站中的局部数据。比如拉勾网的职位页面,在换页的过程中,url 是没有发生改变的,但是职位数据动态的更改了。

而我们今天要获取的 JD 数据就是一个动态网页加载的案例。

如何区分静态加载还是动态加载的网页呢?告诉你们一个很简单的方法:打开浏览器设置搜索 javascript,关闭它然后重新刷新网页。还可以正常加载出来内容就是静态网页,反之则为动态加载的网页。

阅读全文点击这里

以上是关于Python 爬虫+可视化,手把手教你使用 Python 爬取 JD 网站并且可视化展示的主要内容,如果未能解决你的问题,请参考以下文章

爬虫老司机手把手教你如何分析用户数据|Python 数据分析打怪升级之路 day05:数据规范化这样做才规范数据可视化十大图表

爬虫老司机手把手教你如何分析用户数据|Python 数据分析打怪升级之路 day05:数据规范化这样做才规范数据可视化十大图表

爬虫老司机手把手教你如何分析用户数据|Python 数据分析打怪升级之路 day05:数据规范化这样做才规范数据可视化十大图表

Python数据分析:手把手教你用Pandas生成可视化图表

手把手教你利用Pyecharts库对IP代理数据进行数据可视化分析

# yyds干货盘点 # 手把手教你对抓取的文本进行分词词频统计词云可视化和情感分析