python爬取深交所各行业前三上市公司市值
Posted yeah17981
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬取深交所各行业前三上市公司市值相关的知识,希望对你有一定的参考价值。
嘿,周末ccpc网络预选赛,我就不复习,我就大晚上不睡觉刷手机,嘿你能怎么着。(在被队友打死前跑路)
实际上是刚刚写嗨了,肾上腺激素飙升,但是俺滴任务完成啦,想着刷会手机再睡,结果不小心把锁机点开了,导致我只能打开csdn,顺带更新一下今天罚坐十一小时(包含吃饭,拿快递,刷视频等等的时间)的结果。
督促我学爬虫的,不是热爱,不是机器人,而是专业课作业,是我实在不想一个个点开网页,点开,查找,比较数值。
话说回来,贵院真有你的,还开数据挖掘,还学爬虫,虽然第一节课是海龟博士手把手教如何安装python和pycharm。(顺带一提,老师高度赞许了csdn(否,原话是国内网站不熟悉,然后推荐了csdn))
哦不过和上述这门课没啥关系,只是小吐槽一下。深交所贴心的提供了各行业上市公司的信息,甚至还提供的下载,不巧的是刚好市值得点进网页查看。那没办法,只能一个个查,然后比较、统计。
桥豆麻袋,这显然不符合本人尿性,最起码写个sort数组排个序啊。但这也太逊了吧阿伟,刚好最近发奋图强在了解爬虫,这不是个现成的例子吗?
(由于我已经在床上了,网页也打不开,我只能凭记忆回忆一下,代码后面补,专业名词说错了多多包涵,我真不看股票的,并且小半年不用python了,具体实现可能会略微复杂)
首先观察网址,后面这一串数字一看,好家伙,这不上司公司的id吗,这波不直接在行业分类里把所有的公司id都爬下来,但鉴于我刚学,懒,所以我选择直接下载Excel文件,从里面提取
我们这时候提取出了公司名字和id,遍历id并把它与网址融合,然后发现网站结构打差不多,这波直接找到需要的元素,爬下来就行啦
然后有笨蛋对着html找了一个晚上,最后把下载下来的html和爬出来的html做对比,发现信息消失了!
好吧我以为的html是元素里的,实际上是index。那这波咋整?
很明显好吧,这肯定是动态元素啊,当然是去网络里找啊。
通过一个个查找我们找到了市值对应的key,把data爬下来,遍历到key的时候就输出,结束!
等等,我们是不是忘了还缺啥
哦对了,前三!
开个排序就好啦!
结束
刚好,平静了,该睡了。
以上是关于python爬取深交所各行业前三上市公司市值的主要内容,如果未能解决你的问题,请参考以下文章