使用 Node.js 进行网页抓取
Posted
技术标签:
【中文标题】使用 Node.js 进行网页抓取【英文标题】:Web Scraping Using Node.js 【发布时间】:2017-06-23 03:18:00 【问题描述】:我观看并测试了教程和示例以帮助我了解抓取代码的工作原理,我也看过 Node.js 和 php 教程,但遗憾的是,这些教程都没有解释如何将此代码实际连接到 <input>
tag在 html 中,因此当用户粘贴链接时,它会抓取并显示数据。
就像这个人在这里解释的那样......但他实际上并没有展示如何将它与 html 联系起来......需要一个很大的帮助!
https://www.youtube.com/watch?v=Wo5eMclb-G4 跳到 1:05 看看我真正需要学习的内容。
非常感谢:)
【问题讨论】:
digitalocean.com/community/tutorials/… 好吧,酷!但我真正想知道的是......如何链接该代码......与 【参考方案1】:方法如下: 第 1 步
-
创建一个基于 node.js 和 express 的应用程序(网站),最好使用 EJS 基础(EJS 不是必需的,但它使一切变得更容易)。
在 index.ejs 文件上创建一个表单域并将一个输入域放置在表单域内。
然后您可以使用“req.body”获取输入值的值
第二步
-
基于“puppeteer”创建您的网络爬虫
将您的网络爬虫代码和输入表单代码放在同一条快速路线中。
当您使用“puppeteer”创建网络爬虫时,您会看到需要定义的 url 变量。您可以将变量值设置为“req.body”值并完成。
如有任何澄清,请随时发表评论。
【讨论】:
以上是关于使用 Node.js 进行网页抓取的主要内容,如果未能解决你的问题,请参考以下文章