Python爬虫随笔

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫随笔相关的知识,希望对你有一定的参考价值。

1.利用urllib库爬取python123.io网站的html代码

1 import urllib.request
2 response=urllib.request.urlopen("http://python123.io/")
3 print(response.read().decode("utf-8"))

 

 

2.网络数据采集的一个常用功能就是获取 HTML 表格并写入 CSV 文件。维基百科的文本编 辑器对比词条(https://en.wikipedia.org/wiki/Comparison_of_text_editors)中用了许多复杂 的 HTML 表格,用到了颜色、链接、排序,以及其他在写入 CSV 文件之前需要忽略的 HTML 元素。用 BeautifulSoup 和 get_text() 函数,你可以用十几行代码完成这件事:

import csv
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://en.wikipedia.org/wiki/Comparison_of_text_editors")
bsObj = BeautifulSoup(html)
# 主对比表格是当前页面上的第一个表格
table = bsObj.findAll("table",{"class":"wikitable"})[0]
rows = table.findAll("tr")
csvFile = open("C:/Users/Administrator/Desktop/test2.csv", \'wt\', newline="", encoding=\'utf-8\')
writer = csv.writer(csvFile)
try:
     for row in rows:
         csvRow = []
         for cell in row.findAll([\'td\', \'th\']):
             csvRow.append(cell.get_text())
             writer.writerow(csvRow)
finally:

    csvFile.close()

  

 

 

 

 

 

 

以上是关于Python爬虫随笔的主要内容,如果未能解决你的问题,请参考以下文章

scrapy主动退出爬虫的代码片段(python3)

python爬虫随笔—启动爬虫与xpath

python爬虫随笔-scrapy框架——scrapy框架的安装和结构介绍

python网络爬虫学习随笔

随笔写一个简单的爬虫

[记录][python]python爬虫,下载某图片网站的所有图集