使用 Watson Discovery 访问可公开访问的 URL

Posted

技术标签:

【中文标题】使用 Watson Discovery 访问可公开访问的 URL【英文标题】:using watson discovery to access publically accessible URL 【发布时间】:2017-08-14 00:07:41 【问题描述】:

我们正在使用 watson 发现服务来寻找与旅行相关的问题的答案。不幸的是,这里使用的文档不是静态的,而是网络上与旅行相关的论坛。因此,我们需要 Discovery 访问这些 URL 以注释各种组件(实体、关系、情绪等),然后我们可以基于相同的查询来找到具有答案的正确链接。但是我看到发现只支持文件作为文档集而不是 URL。我记得炼金术 API 和新服务 NLU 都支持 URL。发现有什么方法可以访问 URL 吗?我们为我们的解决方案选择了发现服务,因为它具有查询支持,这在 NLU 或 Alchemy 中似乎不存在。

【问题讨论】:

恐怕你做不到,因为 Watson Discovery 就是在索引文档的存储库中执行查询。但是,您可以设置一个爬虫来从网络上的论坛中提取信息,这样您就可以对其进行查询 - 请参阅console.bluemix.net/docs/services/discovery/… 【参考方案1】:

为了访问公共 URL,您需要创建某种网络爬虫,将网站转换为数据爬虫可以访问的正确格式。

更多详情:https://www.ibm.com/watson/developercloud/doc/discovery/data-crawler-seeds.html

【讨论】:

谢谢。这似乎是唯一的方法。不幸的是,Watson Discovery 中提到的数据爬虫不支持窗口平台。我也许可以使用 wget for windows 来镜像站点,但这不会有任何价值,因为爬虫不支持上传到 Watson 发现。我希望我们很快就会支持window。

以上是关于使用 Watson Discovery 访问可公开访问的 URL的主要内容,如果未能解决你的问题,请参考以下文章

如何在 IBM Watson Discovery 的新闻集合中为 publication_date 指定日期范围?

国外物联网平台初探:IBM Watson IoT

没有 ibm 云功能的 ibm watson webhook

从 adobe 操作脚本 3 访问 Watson API

尝试通过 Axios (React Native) 访问 IBM Watson Assistant 消息时出现错误 500

使用“with open”和“project-lib”访问 Watson Studio 笔记本(.log 文件)中的资产