回顾爬虫的时候的一些小TIPS

Posted Lawliet_Y

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了回顾爬虫的时候的一些小TIPS相关的知识,希望对你有一定的参考价值。

1

json.dumps的时候默认会用ascii

所以在写入文件的时候会需要用到的指令变为json.dumps(a,ensuer_ascii=False),这样将禁止转换为ascii

然后再写入的时候用f.write(b.encode())

2

xpath做解析的时候发请求头会产生问题,因为很多网站会根据不同的浏览器返回不同的DOM结构

所以很多的时候可以用一个相对老的版本的IE的user-agent

3

xpath   / . / .. // * @ [] | [] N/A ()
jsonpath $ @ .OR[] N/A .. * N/A [] [,] ?() () N/A

4

xpath helper :ctrl+shift+x

xpath善用//div[contains(@id , ‘woshiqianbanbu_‘)]/ 模糊查询方式

以上是关于回顾爬虫的时候的一些小TIPS的主要内容,如果未能解决你的问题,请参考以下文章

[转] 小tips: 使用 等空格实现最小成本中文对齐 ---张鑫旭

小tips:对setTimeout延迟的研究

Android应用程序性能优化Tips

小tips: 使用 等空格实现最小成本中文对齐

git 的一些小 tips

[原创][SW]一些实用软件的小tips(长期更新)