如何使用 Python 抓取雪球网页

Posted 2023-05-17

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何使用 Python 抓取雪球网页相关的知识，希望对你有一定的参考价值。

#start coding
首先要知道自己在爬什么~楼主说找到HTML的代码云云，思路其实是错误的。因为我们想要的内容不在原始的html里面。但是肯定在浏览器和服务器之间的通信里，我们只要找到这部分数据就好。
#我用的是Firefox的FireBug
选择网络（Chrome中应该是Network），点击调仓历史记录
可以看到浏览器和服务器之间进行了一次通信。我们截获了一个网址。打开看看。可以看到浏览器和服务器之间进行了一次通信。我们截获了一个网址。打开看看。

看上去像是一堆乱码，但是细心的话就会发现……
也就是说我们要的数据都在这里了，所以只要先获取这个页面的内容然后在提取数据就好了~

#python3项目，python2中请使用urllib和urllib2
import urllib.request
url = '?cube_symbol=ZH010389&count=20&page=1'
req = urllib.request.Request(url,headers=headers)
html = urllib.request.urlopen(req).read().decode('utf-8')
print(html)

运行一下~
报错了~报错没关系，兵来将挡水来土掩~
403禁止访问…应该是headers的问题…什么是headers呢…403禁止访问…应该是headers的问题…什么是headers呢…
你现在用python去访问网页，网页得到的请求就是你是python程序，但是网页并不想让程序看到自己，因为他是给人看的，资源都被程序占了算什么，所以我们要让python伪装成浏览器。
依然是用Firebug查看headers信息。
然后我们完善代码在访问过程中添加headers~然后我们完善代码在访问过程中添加headers~

import urllib.request
headers = 'X-Requested-With': 'XMLHttpRequest',
'Referer': '',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0',
'Host': 'xueqiu.com',
#'Connection':'keep-alive',
#'Accept':'*/*',
'cookie':'s=iabht2os.1dgjn9z; xq_a_token=02a16c8dd2d87980d1b3ddced673bd6a74288bde; xq_r_token=024b1e233fea42dd2e0a74832bde2c914ed30e79; __utma=1.2130135756.1433017807.1433017807.1433017807.1;'
'__utmc=1; __utmz=1.1433017807.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); Hm_lvt_1db88642e346389874251b5a1eded6e3=1433017809; Hm_lpvt_1db88642e346389874251b5a1eded6e3=1433017809'

url = '?cube_symbol=ZH010389&count=20&page=1'
req = urllib.request.Request(url,headers=headers)
html = urllib.request.urlopen(req).read().decode('utf-8')
print(html)

这次得到想要的结果了~

我们回过头再去看headers会发现，其实有些我并没有写进去，你也可以自己尝试把headers中的某一行注释掉运行。但是每个站是不一样的，你把所有的都填上去是一定能运行成功的，但是可能其中某一些不是必需的。
比如我们这里只要有User-Agent（缺少报错403）和cookie（缺少报错400）。
好~我们现在拿到了想要的数据，但是看上去太复杂了，一点都不友好。现在我们来解析一下这个网页。其实这个网页是json格式的数据包。
然后我们来观察这个数据的解析。然后我们来观察这个数据的解析。
#你可以直接点击Firebug中的JSON来看，也可以复制到Notepad++中使用json viewer插件查看。
大概是这个样子的……大概是这个样子的……
有了json的构成结构我们就可以来解析它了…
我直接拿Python Shell调试，一会儿完善代码

没什么问题~一切看起来很完美的样子~这一步其实没什么难度，只要你能看懂上一步里我们分析的json数据的组成结构，然后一层一层地向下解析数据就可以了。
完善代码。

import urllib.request
import json
headers = #'X-Requested-With': 'XMLHttpRequest',
#'Referer': '',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0',
#'Host': 'xueqiu.com',
#'Connection':'keep-alive',
#'Accept':'*/*',
'cookie':'s=iabht2os.1dgjn9z; xq_a_token=02a16c8dd2d87980d1b3ddced673bd6a74288bde; xq_r_token=024b1e233fea42dd2e0a74832bde2c914ed30e79; __utma=1.2130135756.1433017807.1433017807.1433017807.1;'
'__utmc=1; __utmz=1.1433017807.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); Hm_lvt_1db88642e346389874251b5a1eded6e3=1433017809; Hm_lpvt_1db88642e346389874251b5a1eded6e3=1433017809'
url = '?cube_symbol=ZH010389&count=20&page=1'
req = urllib.request.Request(url,headers=headers)
html = urllib.request.urlopen(req).read().decode('utf-8')
#print(html)
data = json.loads(html)
print('股票名称',end=':')
print(data['list'][0]['rebalancing_histories'][0]['stock_name'],end=' 持仓变化')
print(data['list'][0]['rebalancing_histories'][0]['prev_weight'],end='-->')
print(data['list'][0]['rebalancing_histories'][0]['target_weight'])
print('股票名称',end=':')
print(data['list'][0]['rebalancing_histories'][1]['stock_name'],end=' 持仓变化')
print(data['list'][0]['rebalancing_histories'][1]['prev_weight'],end='-->')
print(data['list'][0]['rebalancing_histories'][1]['target_weight'])

运行程序~

好嘞！搞定收工！
当然也还不能收工……只是我不干了而已……
To-dos:

可以看到程序是面向过程的…重复代码很多，可以通过定义类或方法实现调用
大概……大概得写点注释……不过这么简单直接无脑面向过程的代码真的需要注释吗
如果是想在他持仓变化时收到提醒，需要爬虫定时爬取页面数据与之前数据进行比较
如果你更细心的话会发现最初的json网址的构成是这样的…cube_symbol='#此处可添加任意组合的号码例如ZH010389'&count=‘#此处数字是一次获取的交易变化数量,也就是说你一次性拿到了20次的交易,你点开之前交易记录的时候并不会重新请求数据而是读取了本地现有的数据此处数据可以任意修改哦~很神奇的试一试吧~20’&page=‘和前面联系起来,前面是一次性获取20条记录,这边便是页码,通过对page数的控制利用循环可以输出所有交易过程,当然,40一页和20两页的效果显然是一样的,看你怎么玩儿了~1’
如果你有耐心看完上面那一大段话的话想必你可以有更多的想法。让别人来指导我们的思路是好的，可是投资的机会稍瞬即逝，跟在别人后面是没有前途的，我们要学习。大数据的时代为什么不试试爬更多人的更多投资记录呢？比如在雪球首页爬取首页推荐的组合，然后自动爬取这些组合所做的所有操作~这样你是不是就有了很厚的一本交易目录，结合过去的股市数据（这些能不能想办法自动获取呢？），你可以自己尝试分析别人作出投资决定的原因（是不是可以把数据自动写入一个excel？提示：xlwt3）…最终指导自己的投资。大数据学习，想想都炫酷。可惜我不炒股…

大概就酱紫~希望有帮助~
写这么多是因为我自己在学爬虫…一周了…看到实践的机会就来试一下…所以是边调BUG边写答案~
大概就写这么多吧…后面的To-dos哪天我突然感兴趣了会试着写一下或者过来补充的…
看到这个答案的…前辈还希望多多指教；看到这个答案的新手…欢迎交流：P 参考技术A 可以咨询专业人员

python 如何抓取动态页面内容？

我找过用webkit pyQt spynner 和 ghost的，具体怎么操作？
我想封装成一个输入url然后得到最后html的功能

输入url，得到html，我早就写了函数了

自己搜：

getUrlRespHtml

就可以找到对应的python函数：

#------------------------------------------------------------------------------
def getUrlResponse(url, postDict=, headerDict=, timeout=0, useGzip=False, postDataDelimiter="&") :
    """Get response from url, support optional postDict,headerDict,timeout,useGzip

    Note:
    1. if postDict not null, url request auto become to POST instead of default GET
    2  if you want to auto handle cookies, should call initAutoHandleCookies() before use this function.
       then following urllib2.Request will auto handle cookies
    """

    # makesure url is string, not unicode, otherwise urllib2.urlopen will error
    url = str(url);

    if (postDict) :
        if(postDataDelimiter=="&"):
            postData = urllib.urlencode(postDict);
        else:
            postData = "";
            for eachKey in postDict.keys() :
                postData += str(eachKey) + "="  + str(postDict[eachKey]) + postDataDelimiter;
        postData = postData.strip();
        logging.info("postData=%s", postData);
        req = urllib2.Request(url, postData);
        logging.info("req=%s", req);
        req.add_header('Content-Type', "application/x-www-form-urlencoded");
    else :
        req = urllib2.Request(url);

    defHeaderDict =
        'User-Agent'    : gConst['UserAgent'],
        'Cache-Control' : 'no-cache',
        'Accept'        : '*/*',
        'Connection'    : 'Keep-Alive',
    ;

    # add default headers firstly
    for eachDefHd in defHeaderDict.keys() :
        #print "add default header: %s=%s"%(eachDefHd,defHeaderDict[eachDefHd]);
        req.add_header(eachDefHd, defHeaderDict[eachDefHd]);

    if(useGzip) :
        #print "use gzip for",url;
        req.add_header('Accept-Encoding', 'gzip, deflate');

    # add customized header later -> allow overwrite default header
    if(headerDict) :
        #print "added header:",headerDict;
        for key in headerDict.keys() :
            req.add_header(key, headerDict[key]);

    if(timeout > 0) :
        # set timeout value if necessary
        resp = urllib2.urlopen(req, timeout=timeout);
    else :
        resp = urllib2.urlopen(req);

    #update cookies into local file
    if(gVal['cookieUseFile']):
        gVal['cj'].save();
        logging.info("gVal['cj']=%s", gVal['cj']);

    return resp;

#------------------------------------------------------------------------------
# get response html==body from url
#def getUrlRespHtml(url, postDict=, headerDict=, timeout=0, useGzip=False) :
def getUrlRespHtml(url, postDict=, headerDict=, timeout=0, useGzip=True, postDataDelimiter="&") :
    resp = getUrlResponse(url, postDict, headerDict, timeout, useGzip, postDataDelimiter);
    respHtml = resp.read();

    #here, maybe, even if not send Accept-Encoding: gzip, deflate
    #but still response gzip or deflate, so directly do undecompress
    #if(useGzip) :

    #print "---before unzip, len(respHtml)=",len(respHtml);
    respInfo = resp.info();

    # Server: nginx/1.0.8
    # Date: Sun, 08 Apr 2012 12:30:35 GMT
    # Content-Type: text/html
    # Transfer-Encoding: chunked
    # Connection: close
    # Vary: Accept-Encoding
    # ...
    # Content-Encoding: gzip

    # sometime, the request use gzip,deflate, but actually returned is un-gzip html
    # -> response info not include above "Content-Encoding: gzip"
    # eg: http://blog.sina.com.cn/s/comment_730793bf010144j7_3.html
    # -> so here only decode when it is indeed is gziped data

    #Content-Encoding: deflate
    if("Content-Encoding" in respInfo):
        if("gzip" == respInfo['Content-Encoding']):
            respHtml = zlib.decompress(respHtml, 16+zlib.MAX_WBITS);
        elif("deflate" == respInfo['Content-Encoding']):
            respHtml = zlib.decompress(respHtml, -zlib.MAX_WBITS);

    return respHtml;

及示例代码：

url = "http://www.crifan.com";
respHtml = getUrlRespHtml(url);

完全库函数，自己搜：

crifanLib.py

关于抓取动态页面，详见：

Python专题教程：抓取网站，模拟登陆，抓取动态网页

（自己搜标题即可找到）

追问

这个基本能有，但是我对前台不是很了解。有些url 还是会返回没有执行的js，是因为他js的触发时机的问题吗？

追答

“有些url 还是会返回没有执行的js”
访问某个url，只会返回对应的内容，比如
xxx.js返回是js的源码。
如果想要“执行后的js”，那是需要你自己去模拟的。

参考技术A 下面开始说一下本文抓取动态页面数据的相关工具和库：
1. python 2.7
2. pyqt

3. spynner （在安装过程中，其他的一些依赖库也会自动上网下载安装）
4. BeautifulSoup
5. ide工具是pycharm（当然这个只是个人喜好，也可以使用其他的ide工具）

以上几个工具都可以百度找到，python现在出了3.x版本的，但是由于众多第三方库或架构都没有兼容，并且后续要使用到的爬虫框架scrapy也是没有支持3.x版本，因此还是建议使用2.7版本吧。
spynner和BeautifulSoup下载后，都可以cd到解压出来的目录，然后使用python setup.py install来完成安装，需要注意的是spynner依赖pyqt，所以一定要安装pyqt，否则无法使用spynner。

下面使用一个具体是例子来说明一下spynner和BeautifulSoup的使用，我们就以爬取京东页面上的一些产品数据来说明如何爬取动态页面数据（当然，如果我们过于频繁的爬京东，估计还是有可能被京东将我们ip拉黑的）。参考技术B 1.先了解网页抓取的逻辑过程

可参考：

【整理】关于抓取网页，分析网页内容，模拟登陆网站的逻辑/流程和注意事项

2.再利用工具分析出需要的内容是如何产生的

【总结】浏览器中的开发人员工具（IE9的F12和Chrome的Ctrl+Shift+I）-网页分析的利器

用你所说的Firefox的firebug也可以，但是我用过了，觉得还是没有IE9的F12好用。

3.都分析出来了，找到具体哪个url产生的你所需要的数据了

然后才是用python实现对应的代码。参考技术C 以前我做过一个。使用pyqt中的webkit，其中有一个功能，可以将html读出来。不记得哪个了。你查一下pyqt库中webkit部分就可以找到。接口不是很多。可能需要等一下。加载一个网页后，检查内容是否完成了，再保存。印象中有几个完成标志，有些可能并不可靠。

以前似乎把它做成了多进程的一个爬行器。的确可以抓到一些动态页面。

webkit内部的一些事情，比如鼠标，键盘事件也有专门的接口。可以发过去，相当于点击，登陆也可以实现。

效率比直接爬行当然要低很多。不过还行。支持js, 支持cookie，支持缓存。

好象还可以轻松就把子链接取出来。参考技术D 很早之前，学习Python web编程的时候，就涉及一个Python的urllib。可以用urllib.urlopen("url").read()可以轻松读取页面上面的静态信息。但是，随着时代的发展，也来越多的网页中更多的使用javascript、jQuery、PHP等语言动态生成页面信息。

以上是关于如何使用 Python 抓取雪球网页的主要内容，如果未能解决你的问题，请参考以下文章

如何使用Java抓取网页上指定部分的内容

如何使用 Python 识别抓取网页中的完整句子

请教网页里的特定数据怎么抓取？

使用 Python 进行网页抓取

Python网页抓取 - 当页面通过JS加载内容时如何获取资源？