爬虫查看站点的个数和解析网站使用的技术栈和找到网站的所有者

Posted 2022-11-15 eat-too-much

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫查看站点的个数和解析网站使用的技术栈和找到网站的所有者相关的知识，希望对你有一定的参考价值。

简介

网站的个数可以作为自己要爬取时间的估算。
技术栈可以知道自己要爬取的难度。

网站的个数

www.baidu.com 然后输入 site:www.cnblogs.com 就可以知道博客园大概有多少个页面了。 1000万个左右。

识别网站所采用技术栈

pip install builtwith

import builtwith
builtwith.parse('http://www.cnblogs.com')
'advertising-networks': ['DoubleClick for Publishers (DFP)'], 'javascript-frameworks': ['Vue.js', 'jQuery']
// 得知 采用的是vue 和 jquery。

找到网站的所有者

pip install python-whois

import whois
print(whois.whois('www.changeworld.shop'))

  "domain_name": "CHANGEWORLD.SHOP",
  "registrar": "Bizcn.com,Inc",
  "whois_server": null,
  "referral_url": null,
  "updated_date": "2019-04-24 04:22:03",
  "creation_date": "2019-04-15 14:23:58",
  "expiration_date": "2020-04-15 23:59:59",
  "name_servers": [
    "NS1.BDYDNS.CN",
    "NS2.BDYDNS.CN"
  ],
  "status": "clientTransferProhibited https://icann.org/epp#clientTransferProhibited",
  "emails": null,
  "dnssec": "unsigned",
  "name": null,
  "org": null,
  "address": null,
  "city": null,
  "state": "Zhejiang",
  "zipcode": null,
  "country": "CN"

可以看出大致的信息。

以上是关于爬虫查看站点的个数和解析网站使用的技术栈和找到网站的所有者的主要内容，如果未能解决你的问题，请参考以下文章

爬虫 查看站点的个数和解析网站使用的技术栈和找到网站的所有者

简介

网站的个数

识别网站所采用技术栈

找到网站的所有者

爬虫查看站点的个数和解析网站使用的技术栈和找到网站的所有者