编写爬虫的几个注意点
Posted exploer
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了编写爬虫的几个注意点相关的知识,希望对你有一定的参考价值。
写入文件时:
一: 由于windows系统默认打开编码格式为gbk, 此时需将打开方式设置为 utf-8
1 with open(‘text2.txt‘, ‘w+‘, encoding=‘utf-8‘) as f: # 改变默认编码格式 2 for j, k in zip(movie_list, director_list[1:]): # 多变量循环方法 3 f.write(j + ‘[‘ + k + ‘]‘ + ‘\\n‘) 4 f.close()
解析文件时:
http://jsonlint.com测试json文件是否符合规范
正则表达式: <--点击了解
BeautifulSoup官方文档(支持中文)<--点击了解
BeautifulSoup中文详解<--点击了解
关于mysql数据库:
mysql安装配置全教程 : 未解决...
windows下mysql无法正确显示中文时: <--点击了解
向mysql写入json格式文件出错时 <--点击了解
抓取网页时模拟真实用户的行为: 间隔随机时间
以上是关于编写爬虫的几个注意点的主要内容,如果未能解决你的问题,请参考以下文章