使用 Node.js 进行网页抓取

Posted 2023-03-07

技术标签:

【中文标题】使用 Node.js 进行网页抓取【英文标题】：Web Scraping Using Node.js 【发布时间】：2017-06-23 03:18:00 【问题描述】：

我观看并测试了教程和示例以帮助我了解抓取代码的工作原理，我也看过 Node.js 和 php 教程，但遗憾的是，这些教程都没有解释如何将此代码实际连接到 <input>tag在 html 中，因此当用户粘贴链接时，它会抓取并显示数据。就像这个人在这里解释的那样......但他实际上并没有展示如何将它与 html 联系起来......需要一个很大的帮助！

https://www.youtube.com/watch?v=Wo5eMclb-G4 跳到 1:05 看看我真正需要学习的内容。

非常感谢:)

【问题讨论】：

digitalocean.com/community/tutorials/… 好吧，酷！但我真正想知道的是......如何链接该代码......与 【参考方案1】：

方法如下：第 1 步

创建一个基于 node.js 和 express 的应用程序（网站），最好使用 EJS 基础（EJS 不是必需的，但它使一切变得更容易）。在 index.ejs 文件上创建一个表单域并将一个输入域放置在表单域内。然后您可以使用“req.body”获取输入值的值

第二步

基于“puppeteer”创建您的网络爬虫将您的网络爬虫代码和输入表单代码放在同一条快速路线中。当您使用“puppeteer”创建网络爬虫时，您会看到需要定义的 url 变量。您可以将变量值设置为“req.body”值并完成。如有任何澄清，请随时发表评论。

【讨论】：

以上是关于使用 Node.js 进行网页抓取的主要内容，如果未能解决你的问题，请参考以下文章

从现场比分网站抓取网页

react-native ios中的网页抓取？