python 从HTML页面查找对外部脚本和样式表的引用,并打印这些文件的下载说明。

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python 从HTML页面查找对外部脚本和样式表的引用,并打印这些文件的下载说明。相关的知识,希望对你有一定的参考价值。

import sys
import argparse
from HTMLParser import HTMLParser

file_list = []


class AssetFinder(HTMLParser):

    def handle_starttag(self, tag, attrs):
        if tag == 'script':
            for attr in attrs:
                if attr[0] == 'src':
                    file_list.append(attr[1])
            if tag == 'link':
                for attr in attrs:
                    if attr[0] == 'href':
                        file_list.append(attr[1])

    def handle_endtag(self, tag):
        pass
    
    def handle_data(self, data):
        pass

if __name__ == "__main__":
    arg_parser = argparse.ArgumentParser()
    arg_parser.add_argument('-i', '--input', required=True)
    args = arg_parser.parse_args()
    
    f = open(args.input, 'r')
    html = f.read()

    parser = AssetFinder()
    parser.feed(html)
    for f in file_list:
        print "curl -lsO", f

以上是关于python 从HTML页面查找对外部脚本和样式表的引用,并打印这些文件的下载说明。的主要内容,如果未能解决你的问题,请参考以下文章

前端性能提升

为啥在html中调用外部css样式表没有效果

从输入URL到页面呈现经历了哪些?DOM文档加载的步骤?

是否在 HTML 之前加载外部样式表?

深入理解脚本化CSS系列第五篇——动态样式

[Python] 网络爬虫