如何在 Python 中使用 *** 进行网络抓取?

Posted

技术标签:

【中文标题】如何在 Python 中使用 *** 进行网络抓取?【英文标题】:How to webscrape with *** in Python? 【发布时间】:2020-04-18 01:59:55 【问题描述】:

我编写了一个 Python 程序,它使用 Beautifulsoup 对 IMDB 进行网络抓取,以创建一个 mysql 数据库,其中包含不同类别中所有评分最高的电影的表格。到目前为止,一切都很好。我的问题是我是从挪威做的,而且很多电影片名都被翻译成挪威语。例如,在从挪威 IP 地址打开的 IMDB 顶部列表中,“The Shawshank Redemption”被翻译为“Frihetens Regn”。我想要所有英文标题。是否有一些免费的 ***,您可以从 Python 激活并与 Beautifulsoup 一起使用?或者有人对此有其他解决方案吗?

【问题讨论】:

这可能有助于pypi.org/project/openpyn 【参考方案1】:

我同意使用代理比使用 *** 效果更好。

但是,如果您想要结果,请不要使用免费代理。如果这是你可以投资的东西,那就找一个体面的付费提供商,否则很可能不会有什么好处,因为你会经常被屏蔽。

【讨论】:

同上不使用免费代理。有太多的贪婪者滥用它们,它们很快就会被堵塞。我看过声称展示如何在 python 中使用 tor 的教程,但无法让它们为我的项目工作。现在有几种服务可以检测 tor、代理,甚至是 *** 并拒绝访问。这是一场军备竞赛。【参考方案2】:

您有几个选项,*** 和代理。

首先,是的,您可以使用 ***。然而,大多数 *** 需要整个主机连接才能通过 *** 建立隧道。那里有一些不错的 *** 服务,但有时你会得到你所支付的。我会谨慎使用免费 ***,因为有些人会出售您的网络,而另一些人会出售您的数据。

其次,这可能是最简单的选择。使用代理。您可以通过免费的匿名代理告诉您的爬虫代理流量。您可以从 Google 找到这些免费代理的列表。或者您可以查看ProxyBroker,它会为您找到免费代理。这只需要通过美国 IP 地址而不是整个主机连接来代理爬虫流量。

【讨论】:

proxybroker 的免费代理成功率较低(低于 5%),付费 *** 的成功率会更高吗?使用免费代理意味着我必须在 VPS 上投入越来越多。我正在寻找三个中最优化的:(VPS1 + 免费代理)、(VPS2+付费 ***)、(***3 +付费代理)

以上是关于如何在 Python 中使用 *** 进行网络抓取?的主要内容,如果未能解决你的问题,请参考以下文章

使用 Python 进行网页抓取

TypeError:在使用 Python 进行网络抓取时,只能将 str(而不是“列表”)连接到 str 错误

在使用 python 进行网络抓取时,是不是有任何直接的方法可以从输出中删除 \xa0 [重复]

如何在网络抓取时继续循环

如何利用Python网络爬虫抓取微信朋友圈的动态(上)

““ AttributeError”,使用python进行网络抓取