Python+Google Hacking+百度搜索引擎进行信息搜集

Posted 2020-11-26 str1ve

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python+Google Hacking+百度搜索引擎进行信息搜集相关的知识，希望对你有一定的参考价值。

记录一下在用python爬取百度链接中遇到的坑：

技术图片

1.获取百度搜索页面中的域名URL

技术图片

BeautifulSoup获取a标签中href属性后，链接为百度url，利用request直接访问默认会直接进行跳转，无法获取所需域名

此时需要将requests的allow_redirects属性设置为False，禁止进行跳转，requests默认会进行跳转

技术图片

再使用.headers[‘Location‘]获取最后链接:final_url = baidu_url.headers[‘Location‘]

2.百度中的链接返回不统一

获取到实际域名链接后，发现还有一些奇怪的东西

技术图片

访问后发现非site搜集域名技术图片

突然想到，很有可能是百度的广告

技术图片

那就需要筛选出包含baidu.php?的链接去剔除掉

a="1"

b="123"

if a in b:来进行筛选

3.百度安全验证

当在百度搜索链接中加入pn页码参数时，便会出现百度安全验证

技术图片

4.链接根域名的去重问题

以上是关于Python+Google Hacking+百度搜索引擎进行信息搜集的主要内容，如果未能解决你的问题，请参考以下文章