如何在Node.js应用程序中使用Javascript来获取外部网页信息/ webscraping？

Posted 2021-05-05

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何在Node.js应用程序中使用Javascript来获取外部网页信息/ webscraping？相关的知识，希望对你有一定的参考价值。

我正在使用Twit API for Node.js，并将我的代码托管在Heroku上，这是它当前运行的地方。我跟随Daniel Shiffman的教程：http://shiffman.net/a2z/twitter-bots/和http://shiffman.net/a2z/bot-heroku/

我希望我的机器人去https://en.wikipedia.org/wiki/Special:Random并“获得”头衔。然后我会将标题发布为推文。经过一番研究，似乎我想做一些叫做webscraping的事情。假设维基页面的标题位于title的html文件中的head标记中。有谁知道我如何访问网址，并获得我需要的信息？我不知道从哪里开始。 stackoverflow上的搜索结果让我得到了关于使用jquery和yahoo api的过时答案。 javascript中的解决方案会有所帮助，因此我知道它与heroku兼容

答案

您可以使用来自Google的Puppeteer来查看

Github

Article

以上是关于如何在Node.js应用程序中使用Javascript来获取外部网页信息/ webscraping？的主要内容，如果未能解决你的问题，请参考以下文章

Deno 并不是下一代 Node.js

如何在 Cappuccino 中使用 Node.js？

西塔 js。如何与 Node JS 一起使用

如何在共享主机中托管 Node.Js 应用程序 [关闭]

如何在原生 JavaScript 和 node.js 中使用长轮询？

如何在 Angular 应用程序中使用 Node.js“Net”类（或其他 TCP 后端）