爬虫Task01

Posted 2021-02-27 dreamer-jie

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫Task01相关的知识，希望对你有一定的参考价值。

requests.get

import requests
url = ‘https://www.python.org/dev/peps/pep-0020/‘
res = requests.get(url)
text = res.text
text

api

所谓的采集网络数据，并不一定必须从网页中抓取数据，而api（Application Programming Iterface）的用处就在这里：API为开发者提供了方便友好的接口，不同的开发者用不同的语言都能获取相同的数据。目前API一般会以XML（Extensible Markup Language，可拓展标记语言）或者JSON（javascript Object Notation）格式来返回服务器响应，其中JSON数据格式越来越受到人们的欢迎，我们后面的课程也会详细介绍JSON格式。

import requests

def getUrl(*address):
    ak = ‘ARmmTpkvjEEwVDPgO4w8cddONQnQWY6w‘  ## 填入你的api key
    if len(address) < 1:
        return None
    else:
        for add in address:   
            url = ‘http://api.map.baidu.com/geocoding/v3/?address={0}&output=json&ak={1}‘.format(add,ak)  
            yield url
            

def getPosition(url):
    ‘‘‘返回经纬度信息‘‘‘
    res = requests.get(url)
    #print(res.text)
    json_data = eval(res.text)
    
    if json_data[‘status‘] == 0:
        lat = json_data[‘result‘][‘location‘][‘lat‘] #纬度
        lng = json_data[‘result‘][‘location‘][‘lng‘] #经度
    else:
        print("Error output!")
        return json_data[‘status‘]
    return lat,lng

if __name__ == "__main__":
    address = [‘北京市清华大学‘,‘北京市北京大学‘,‘保定市华北电力大学‘,‘上海市复旦大学‘,‘武汉市武汉大学‘]
    for add in address:
        add_url = list(getUrl(add))[0]
        print(‘url:‘, add_url)
        try:
            lat,lng = getPosition(add_url)
            print("{0}|经度:{1}|纬度:{2}.".format(add,lng,lat))
        except Error as e:
            print(e)

关于AJAX

AJAX技术与其说是一种“技术”，不如说是一种“方案”。如上文所述，在网页中使用JavaScript 加载页面中数据的过程，都可以看作AJAX技术。AJAX技术改变了过去用户浏览网站时一个请求对应一个页面的模式，允许浏览器通过异步请求来获取数据，从而使得一个页面能够呈现并容纳更多的内容，同时也就意味着更多的功能。只要用户使用的是主流的浏览器，同时允许浏览器执行JavaScript，用户就能够享受网页中的AJAX内容。

AJAX技术在逐渐流行的同时，也面临着一些批评和意见。由于JavaScript本身是作为客户端脚本语言在浏览器的基础上执行的，因此，浏览器兼容性成为不可忽视的问题。另外，由于JavaScript在某种程度上实现了业务逻辑的分离（此前的业务逻辑统一由服务器端实现），因此在代码维护上也存在一些效率问题。但总体而言，AJAX技术已经成为现代网站技术中的中流砥柱，受到了广泛的欢迎。AJAX目前的使用场景十分广泛，很多时候普通用户甚至察觉不到网页正在使用AJAX技术。以知乎的首页信息流为例，与用户的主要交互方式就是用户通过下拉页面（具体操作可通过鼠标滚轮、拖动滚动条等实现）查看更多动态，而在一部分动态（对于知乎而言包括被关注用户的点赞和回答等）展示完毕后，就会显示一段加载动画并呈现后续的动态内容。此处的页面动画其实只是“障眼法”，在这个过程中，JavasScript脚本已向服务器请求发送相关数据，并最终加载到页面之中。这时页面显然没有进行全部刷新，而是只“新”刷新了一部分，通过这种异步加载的方式完成了对新内容的获取和呈现，这个过程就是典型的AJAX应用。

比较尴尬的是，爬虫一般不能执行包括“加载新内容”或者“跳到下一页”等功能在内的各类写在网页中的JavaScript代码。如本节开头所述，爬虫会获取网站的原始html页面，由于它没有像浏览器一样的执行JavaScript脚本的能力，因此也就不会为网页运行JavaScript。最终，爬虫爬取到的结果就会和浏览器里显示的结果有所差异，很多时候便不能直接获得想要的关键信息。为解决这个尴尬处境，基于Python编写的爬虫程序可以做出两种改进，一种是通过分析AJAX内容（需要开发者手动观察和实验），观察其请求目标、请求内容和请求的参数等信息，最终编写程序来模拟这样的JavaScript 请求，从而获取信息（这个过程也可以叫作“逆向工程”）。另外一种方式则比较取巧，那就是直接模拟出浏览器环境，使得程序得以通过浏览器模拟工具“移花接木”，最终通过浏览器渲染后的页面来获得信息。这两种方式的选择与JavaScript在网页中的具体使用方

以上是关于爬虫Task01的主要内容，如果未能解决你的问题，请参考以下文章

Swift新async/await并发中利用Task防止指定代码片段执行的数据竞争(Data Race)问题

scrapy主动退出爬虫的代码片段(python3)

Django 搭建博客网站-task01：基础知识

datawhale爬虫task04

毕设扫描器参数Fuzz第二篇：动态爬虫的创建启动和协程池