我是不是必须将 Azure Blob 存储中的 PDF 文件存储到 OCR 并为其编制索引?

Posted

技术标签:

【中文标题】我是不是必须将 Azure Blob 存储中的 PDF 文件存储到 OCR 并为其编制索引?【英文标题】:Do I have to store PDF files in Azure Blob Storage to OCR and index them?我是否必须将 Azure Blob 存储中的 PDF 文件存储到 OCR 并为其编制索引? 【发布时间】:2020-01-23 22:11:41 【问题描述】:

我正在测试 Azure 搜索以索引我的网站以进行搜索。

我已经创建了一个索引,我可以从网站页面获取信息并将它们推送到索引中。

我的问题是关于索引 PDF 文件中的内容,包括文本以及使用认知服务从 PDF 文件中的图像中提取文本。

在与索引 PDF 文件相关的教程中,似乎假定 PDF 文件位于可由搜索索引器(如 Azure Blob 存储)访问的位置。因此,我似乎必须获取我网站中已经存在的所有 PDF 文件并将它们存储在 Azure Blob 存储中(以某种方式将其原始 URL 保存在某处),以便我可以索引它们并使用数据源提取内容- 索引器 - 索引。

我正在寻找的功能是您访问我的网站,搜索可能在 PDF 文件文本或图像中的文本,作为搜索结果,您将获得 PDF 文件的原始 URL(不是 Azure存储地址)。

是否可以使用 Azure REST API 直接从我的网站(包括认知服务)索引 PDF 文件的内容?还是我必须先将这些文件放在 Azure Blob 存储中,如果我这样做了,我将如何保留/保存 URL,以便在索引器运行并提取内容时,我可以将原始文件 URL 添加到索引中?

【问题讨论】:

【参考方案1】:

目前,Azure 搜索支持以下平台作为数据源:

Blob 存储 表存储 Azure Cosmos DB Azure SQL 数据库和 Azure VM 上的 SQL Server

所以如果你想为你的 pdf 建立索引,你应该将它们存储在 Azure 存储中,以便 Azure 搜索可以准确地搜索内容并为它们建立索引。

如果您想将原始文件 URL 包含到您的索引中,您可以为您的 pdf blob 添加一个user-defined metadata,即“originalUrl”:

这样它就会被 Azure 搜索索引:

希望对您有所帮助。

【讨论】:

谢谢,我试试 欢迎@favosys,如果我的建议有帮助请标记我的答案,谢谢! 我能够以编程方式上传文件并将用户定义的元数据添加到每个文件!再次感谢。 欢迎您,祝您有美好的一天!

以上是关于我是不是必须将 Azure Blob 存储中的 PDF 文件存储到 OCR 并为其编制索引?的主要内容,如果未能解决你的问题,请参考以下文章

将 Blob 的上传大小限制到 Azure Blob 存储

为啥 Azure 数据工厂使用 AppendFile 而不是 PutBlob 将文件写入 Blob 存储容器?

使用java中的azure函数将文件从浏览器上传到azure blob存储

JavaScript Azure Blob 存储移动 blob

我需要将 SQL Azure 中的媒体内容(视频或图像)存储上传到 Azure BLOB 容器

将最新的文件夹从 azure blob 存储加载到 azure 数据工厂