将网站源下载到文件夹的脚本

Posted

技术标签:

【中文标题】将网站源下载到文件夹的脚本【英文标题】:Script to download website source to a folder 【发布时间】:2015-06-01 16:36:20 【问题描述】:

我正在尝试学习简单的自动化。我已经设置了一个 Ubuntu 服务器,我想将其配置为从特定 URL 下载 html 源代码,并每 1 分钟附加到服务器上指定文件夹中的文件。

URL 只是基本的 html,没有任何 CSS。

我想使用 python,但我承认可以使用任何语言。什么是美好而简单的一天?

【问题讨论】:

您希望每次都将内容附加到同一个文件还是新文件? 最好是同一个文件。 【参考方案1】:

杰夫的答案一次性使用。 你可以这样做来重复运行它-

import time
import requests

while True:
    with open('filename.extension', 'a') as fp:
        newHtml = requests.get('url').text
        fp.write(newHtml)
    time.sleep(60)

您可以根据需要将其作为后台进程运行。

$ python3 script_name.py &

【讨论】:

【参考方案2】:

只需点安装请求库。

$ pip install requests

然后,获取 HTML 非常容易(将其放入名为 get_html.py 的文件中,或任何您喜欢的名称):

import requests

req = requests.get('http://docs.python-requests.org/en/latest/user/quickstart/')

print(req.text)

将 HTML 保存到目录有多种选择。例如,您可以通过如下调用将上述脚本的输出重定向到文件:

 python get_html.py > file.html

希望对你有帮助

【讨论】:

我会推荐使用 pip3 和 python3。请注意 - 当您命名文件时,请确保不要将其命名为类似于现有模块的名称。一个简单的错字可能会导致严重的错误。例如:命名文件“random.py”或“requests.py”。 “request.py”有效,但要小心。

以上是关于将网站源下载到文件夹的脚本的主要内容,如果未能解决你的问题,请参考以下文章

如何编写Powershell脚本以提取.iso文件并通过创建文件夹将其复制到文件夹中

ubuntu更换下载源

docker笔记 配置镜像

将源目录复制到两个目标目录的 Bash 脚本,如果成功,则验证并删除源

使用python将文件下载到虚拟服务器[重复]

每次将文件下载到特定文件夹时触发 python 脚本