使用 Node.js 进行网页抓取

Posted

技术标签:

【中文标题】使用 Node.js 进行网页抓取【英文标题】:Web Scraping Using Node.js 【发布时间】:2017-06-23 03:18:00 【问题描述】:

我观看并测试了教程和示例以帮助我了解抓取代码的工作原理,我也看过 Node.js 和 php 教程,但遗憾的是,这些教程都没有解释如何将此代码实际连接到 <input>tag在 html 中,因此当用户粘贴链接时,它会抓取并显示数据。 就像这个人在这里解释的那样......但他实际上并没有展示如何将它与 html 联系起来......需要一个很大的帮助!

https://www.youtube.com/watch?v=Wo5eMclb-G4 跳到 1:05 看看我真正需要学习的内容。

非常感谢:)

【问题讨论】:

digitalocean.com/community/tutorials/… 好吧,酷!但我真正想知道的是......如何链接该代码......与 【参考方案1】:

方法如下: 第 1 步

    创建一个基于 node.js 和 express 的应用程序(网站),最好使用 EJS 基础(EJS 不是必需的,但它使一切变得更容易)。 在 index.ejs 文件上创建一个表单域并将一个输入域放置在表单域内。 然后您可以使用“req.body”获取输入值的值

第二步

    基于“puppeteer”创建您的网络爬虫 将您的网络爬虫代码和输入表单代码放在同一条快速路线中。 当您使用“puppeteer”创建网络爬虫时,您会看到需要定义的 url 变量。您可以将变量值设置为“req.body”值并完成。 如有任何澄清,请随时发表评论。

【讨论】:

以上是关于使用 Node.js 进行网页抓取的主要内容,如果未能解决你的问题,请参考以下文章

从现场比分网站抓取网页

react-native ios中的网页抓取?

用 Node.js 轻松开发网页爬虫

请教网页里的特定数据怎么抓取?

使用PHP的cURL库进行网页抓取

Node.js/Python爬取网上漫画