另类爬取表格数据
Posted xingnie
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了另类爬取表格数据相关的知识,希望对你有一定的参考价值。
import pandas as pd df = pd.read_html("http://www.air-level.com/air/beijing/", encoding=‘utf-8‘,header=0)[0] results = df.T.to_dict().values() print(results)
代码很简单但是实现的内容可不简单,第一行导入pandas包,
第二行的read_html核心功能实现是调用requests然后解析table标签里的每个td的数据
最后生成一个list对象里面是dataframe对象。所以通过小标0获取它的第一个dataframe数据,既然是dateframe我们就可以使用dataframe的方法了,
第三行首先做了个转秩操作,然后转为映射类型打印出来了。上面的代码为了演示其效果,下面我们对结果做一个存储操作
df = pd.read_html("http://www.air-level.com/air/beijing/", encoding=‘utf-8‘,header=0)[0] df.to_csv("tq.csv",index=False)
成功的获取了网页表格的数据。
需要注意的是read_html只能解析静态页面。
以上是关于另类爬取表格数据的主要内容,如果未能解决你的问题,请参考以下文章