在 Google Colab 中安装 dryscrape(用于网页抓取的 python 库)

Posted

技术标签:

【中文标题】在 Google Colab 中安装 dryscrape(用于网页抓取的 python 库)【英文标题】:Installing dryscrape (python library for web scraping) in Google Colab 【发布时间】:2021-07-12 13:03:03 【问题描述】:

我正在尝试安装dryscrape,当我写!pip install dryscrape 在 google colab 中,我得到以下输出:

收集干刮 正在下载https://files.pythonhosted.org/packages/b5/75/c45f796ec5bc7f98c38b9ae425390ef5f4a76153c8b5af946adb97e7e622/dryscrape-1.0.tar.gz 收集 webkit_server>=1.0 正在下载https://files.pythonhosted.org/packages/29/f2/f4f454cccde75e95359e91fa58f14497350dc97e58534f9003c77eca3dff/webkit-server-1.0.tar.gz (41kB) |████████████████████████████████| 51kB 2.5MB/秒 已满足要求:/usr/local/lib/python3.7/dist-packages 中的 lxml(来自 dryscrape)(4.2.6) 收集 xvfbwrapper 正在下载https://files.pythonhosted.org/packages/57/b6/4920eabda9b49630dea58745e79f9919aba6408d460afe758bf6e9b21a04/xvfbwrapper-0.2.9.tar.gz 为收集的包构建***:dryscrape、webkit-server、xvfbwrapper 用于干刮的构建轮 (setup.py) ... 完成 为干刮创建***:filename=dryscrape-1.0-cp37-none-any.whl size=5440 sha256=8e8469df960b731a8cb688d85b0cd4abcdd0aa4bcf5805d817af8e91b57091c1 存放在目录:/root/.cache/pip/wheels/d5/7e/24/0b5b37166c524082a6fb722bc14c6f885ebb7fcfc7e1563f3e webkit-server (setup.py) 的构建轮...错误 错误:webkit-server 构建***失败 为 webkit-server 运行 setup.py clean xvfbwrapper (setup.py) 的构建轮 ... 完成 为 xvfbwrapper 创建***:filename=xvfbwrapper-0.2.9-cp37-none-any.whl size=5009 sha256=0df17305d7fbff2973dddb1560c1e232f19fcc2a73be1dca2ed2a00d1a2c50f5 存放在目录:/root/.cache/pip/wheels/10/f2/61/cacfaf84b352c223761ea8d19616e3b5ac5c27364da72863f0 成功搭建dryscrape xvfbwrapper 无法构建 webkit-server 安装收集的包:webkit-server、xvfbwrapper、dryscrape 为 webkit-server 运行 setup.py install ... 错误 错误:命令出错,退出状态为 1:/usr/bin/python3 -u -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'/tmp/pip-install-irrofp8e/webkit-server/setup.py'"'"'; 文件='"'"'/tmp/pip-install-irrofp8e/webkit-server/setup.py'"'"';f=getattr(tokenize, '"'"'open'" '"', open)(file);code=f.read().replace('"'"'\r\n'"'"', '"'"'\n' "'"');f.close();exec(compile(code, file, '"'"'exec'"'"'))' install --record /tmp/pip- record-ufv_nemh/install-record.txt --single-version-externally-managed --compile 检查日志以获取完整的命令输出。

我尝试从 github 存储库安装,当我写 !pip install -r requirements.txt 时得到相同的输出,我使用的是官方文档。

【问题讨论】:

这是抓取而不是抓取。 【参考方案1】:

看到日志错误是关于 webkit-server 库并在 webkit-server 的 GitHub 问题中看到库来到拉取请求,这帮助我安装 webkit-server 然后安装 dryscrape 按照以下命令将其安装在您的 Colab 中。

命令 1: !pip install git+https://github.com/niklasb/webkit-server.git@refs/pull/35/head

命令 2: !pip install dryscrape

这将成功安装dryscrape

输出:

如果您有任何问题,请告诉我:)

【讨论】:

以上是关于在 Google Colab 中安装 dryscrape(用于网页抓取的 python 库)的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Google Colab GPU 中安装 CUDA

在 google colab 中安装驱动器

在 Google Colab 中安装 dryscrape(用于网页抓取的 python 库)

如何在Google Colab中安装Web3

我无法在 Google Colab 中安装我的另一个驱动器

在google colab或kaggle notebook环境中安装pywin32包