我是不是必须将 Azure Blob 存储中的 PDF 文件存储到 OCR 并为其编制索引?
Posted
技术标签:
【中文标题】我是不是必须将 Azure Blob 存储中的 PDF 文件存储到 OCR 并为其编制索引?【英文标题】:Do I have to store PDF files in Azure Blob Storage to OCR and index them?我是否必须将 Azure Blob 存储中的 PDF 文件存储到 OCR 并为其编制索引? 【发布时间】:2020-01-23 22:11:41 【问题描述】:我正在测试 Azure 搜索以索引我的网站以进行搜索。
我已经创建了一个索引,我可以从网站页面获取信息并将它们推送到索引中。
我的问题是关于索引 PDF 文件中的内容,包括文本以及使用认知服务从 PDF 文件中的图像中提取文本。
在与索引 PDF 文件相关的教程中,似乎假定 PDF 文件位于可由搜索索引器(如 Azure Blob 存储)访问的位置。因此,我似乎必须获取我网站中已经存在的所有 PDF 文件并将它们存储在 Azure Blob 存储中(以某种方式将其原始 URL 保存在某处),以便我可以索引它们并使用数据源提取内容- 索引器 - 索引。
我正在寻找的功能是您访问我的网站,搜索可能在 PDF 文件文本或图像中的文本,作为搜索结果,您将获得 PDF 文件的原始 URL(不是 Azure存储地址)。
是否可以使用 Azure REST API 直接从我的网站(包括认知服务)索引 PDF 文件的内容?还是我必须先将这些文件放在 Azure Blob 存储中,如果我这样做了,我将如何保留/保存 URL,以便在索引器运行并提取内容时,我可以将原始文件 URL 添加到索引中?
【问题讨论】:
【参考方案1】:目前,Azure 搜索支持以下平台作为数据源:
Blob 存储 表存储 Azure Cosmos DB Azure SQL 数据库和 Azure VM 上的 SQL Server所以如果你想为你的 pdf 建立索引,你应该将它们存储在 Azure 存储中,以便 Azure 搜索可以准确地搜索内容并为它们建立索引。
如果您想将原始文件 URL 包含到您的索引中,您可以为您的 pdf blob 添加一个user-defined metadata,即“originalUrl”:
这样它就会被 Azure 搜索索引:
希望对您有所帮助。
【讨论】:
谢谢,我试试 欢迎@favosys,如果我的建议有帮助请标记我的答案,谢谢! 我能够以编程方式上传文件并将用户定义的元数据添加到每个文件!再次感谢。 欢迎您,祝您有美好的一天!以上是关于我是不是必须将 Azure Blob 存储中的 PDF 文件存储到 OCR 并为其编制索引?的主要内容,如果未能解决你的问题,请参考以下文章
为啥 Azure 数据工厂使用 AppendFile 而不是 PutBlob 将文件写入 Blob 存储容器?
使用java中的azure函数将文件从浏览器上传到azure blob存储
JavaScript Azure Blob 存储移动 blob