解析具有可读性的新闻 URL
Posted
技术标签:
【中文标题】解析具有可读性的新闻 URL【英文标题】:Parsing News Urls with Readability 【发布时间】:2019-07-03 05:26:49 【问题描述】:我正在尝试自动从新闻网址中提取数据,例如 https://zapier.com 或 https://ifttt.com。
主要目标是将漂亮版本的新闻网址文本放入谷歌电子表格。尝试使用“importXML”之类的功能失败,因为我需要分析具有不同结构的 url。
我正在考虑使用 readability.js https://code.google.com/archive/p/arc90labs-readability/downloads 之类的东西将 html 转换为漂亮的文本,因为 zapier 允许 javascript 或 python 中的代码片段。
问题在于,在 zapier 中,您不能使用这些编程语言不标准的模块(例如 beautifulsoup)来抓取网址。
有没有机会我可以将 url 传递给 readability.js 的代码 https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/arc90labs-readability/readability.js 或调用 api 到 https://mercury.postlight.com/web-parser/ 返回漂亮的文本?
【问题讨论】:
【参考方案1】:David 来自 Zapier 平台团队。是的,这完全有可能!
今天最简单的事情是向 Mercury Parser 发出 POST 请求,它将返回有关文章的信息。这将工作几个月(直到他们的 API shuts off)。他们已经开源了他们的代码,所以如果你喜欢他们(我也喜欢!),你可以将他们的库包装在一次性的CLI app 中,Zapier 将为你运行他们的代码。老实说,我可能很快就会为自己使用这个,如果你愿意的话,你可以使用它!准备好后,我会更新此答案。
【讨论】:
@xavadid,只是检查一下您是否为 Mercury Parser 构建了 CLI 应用程序? 嘿!好问题。我最终遇到了一些意想不到的问题(即他们的代码太大)并且无法发布 CLI 应用程序。相反,我会研究 runkit,它可以让您免费托管和端点并使用 npm 模块。以上是关于解析具有可读性的新闻 URL的主要内容,如果未能解决你的问题,请参考以下文章
使用 React 路由器参数和 Firebase RTD 创建人类可读的 URL