爬虫10-股票信息定向爬取
Posted rayshaw13
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫10-股票信息定向爬取相关的知识,希望对你有一定的参考价值。
股票信息定向爬取
功能描述:
目标 获取上交所和深交所所有股票的名称和交易信息
输出 保存在文件中
技术路线 requests bs4 re
候选爬取网站:
新浪股票 http://finance.sina.com.cn/stock/
百度股票 https://gupiao.baidu.com/stock/
网站选取:
原则 股票信息静态存在于html页面中,非js代码生成,没有robots协议限制
方法 浏览器F12,源代码查看等
不要纠结于某个网站,多找信息源尝试
(在视频里老师表示新浪股票的html文件里没有个股信息,现在其实是有的,在这里我先选用百度股票)
由于百度股票的页面里不包含所有股票,因此我们先从东方财富网中获得所有股票名称。
程序的结构设计:
1、从东方财富网获取股票列表
2、根据股票列表逐个到百度股票获取个股信息
3、将结果保存到文件
以上是关于爬虫10-股票信息定向爬取的主要内容,如果未能解决你的问题,请参考以下文章