数据抓取必须学会的三种技术

Posted 真诚的程序员

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据抓取必须学会的三种技术相关的知识,希望对你有一定的参考价值。

我们正处于一个大数据的时代,在这样的一个以数据为王的时代,第一步就是如何获取数据。大概的流程是这样的:通过Http客户端获取html页面,通过html页面解析工具解析html页面,获取感兴趣的数据元素,最后将解析后的数据写入数据库。Python为这几个过程都提供了很方便的库供我们调用,使得数据获取简单快捷。

HTTP客户端

Requests,这里是它的主页
这样一条语句就能获取到html页面了

html = requests.get(url, headers=headers).text 

HTML页面解析器

Beautiful Soup,这里是它的主页
这样一条语句就解析好html页面了

soup = BeautifulSoup(html,"html.parser")

mysql数据库客户端

PyMySQL,这里是它的主页,都不需要Mysql的驱动库,直接安装使用。

    con = pymysql.connect(host='localhost',
                             user='root',
                             password='root',
                             db='test',
                             charset='utf8mb4',
                             cursorclass=pymysql.cursors.DictCursor)
    try:
        with con.cursor() as cursor:
            sql = "insert into tbl_movie (title, director, director_factor, actors, actors_factor, year, country, types, rating) values(%s,%s,%s,%s,%s,%s,%s,%s,%s)"
            cursor.execute(sql, (title, director,director_factor,actors,actors_factor,year,country,types,rating))
        con.commit()

    finally:
        con.close()

以上是关于数据抓取必须学会的三种技术的主要内容,如果未能解决你的问题,请参考以下文章

python抓取网页数据的三种方法

SpringBoot静态获取 bean的三种方式,你学会了吗?

安卓手机抓取崩溃日志的三种方式

picturebox加载图片的三种方法与网站验证码的抓取

C++中定义比较函数的三种方法

从网站抓取数据的3种最佳方法