python爬取深交所各行业前三上市公司市值

Posted 2022-09-10 yeah17981

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python爬取深交所各行业前三上市公司市值相关的知识，希望对你有一定的参考价值。

嘿，周末ccpc网络预选赛，我就不复习，我就大晚上不睡觉刷手机，嘿你能怎么着。（在被队友打死前跑路）

实际上是刚刚写嗨了，肾上腺激素飙升，但是俺滴任务完成啦，想着刷会手机再睡，结果不小心把锁机点开了，导致我只能打开csdn，顺带更新一下今天罚坐十一小时（包含吃饭，拿快递，刷视频等等的时间）的结果。

督促我学爬虫的，不是热爱，不是机器人，而是专业课作业，是我实在不想一个个点开网页，点开，查找，比较数值。

话说回来，贵院真有你的，还开数据挖掘，还学爬虫，虽然第一节课是海龟博士手把手教如何安装python和pycharm。（顺带一提，老师高度赞许了csdn（否，原话是国内网站不熟悉，然后推荐了csdn））

哦不过和上述这门课没啥关系，只是小吐槽一下。深交所贴心的提供了各行业上市公司的信息，甚至还提供的下载，不巧的是刚好市值得点进网页查看。那没办法，只能一个个查，然后比较、统计。

桥豆麻袋，这显然不符合本人尿性，最起码写个sort数组排个序啊。但这也太逊了吧阿伟，刚好最近发奋图强在了解爬虫，这不是个现成的例子吗？

（由于我已经在床上了，网页也打不开，我只能凭记忆回忆一下，代码后面补，专业名词说错了多多包涵，我真不看股票的，并且小半年不用python了，具体实现可能会略微复杂）

首先观察网址，后面这一串数字一看，好家伙，这不上司公司的id吗，这波不直接在行业分类里把所有的公司id都爬下来，但鉴于我刚学，懒，所以我选择直接下载Excel文件，从里面提取

我们这时候提取出了公司名字和id，遍历id并把它与网址融合，然后发现网站结构打差不多，这波直接找到需要的元素，爬下来就行啦

然后有笨蛋对着html找了一个晚上，最后把下载下来的html和爬出来的html做对比，发现信息消失了！

好吧我以为的html是元素里的，实际上是index。那这波咋整？

很明显好吧，这肯定是动态元素啊，当然是去网络里找啊。

通过一个个查找我们找到了市值对应的key，把data爬下来，遍历到key的时候就输出，结束！

等等，我们是不是忘了还缺啥

哦对了，前三！

开个排序就好啦！

结束

刚好，平静了，该睡了。

以上是关于python爬取深交所各行业前三上市公司市值的主要内容，如果未能解决你的问题，请参考以下文章