从 pdf azure 认知搜索中提取段落或句子

Posted

技术标签:

【中文标题】从 pdf azure 认知搜索中提取段落或句子【英文标题】:Extract paragraph or sentence from pdf azure cognitive search 【发布时间】:2022-01-03 20:39:46 【问题描述】:

我有一个存储 PDF 文件的 blob 容器,并且我正在使用 Azure 认知搜索来搜索 pdf 上的单词或内容。当搜索存在于容器中的一个 pdf 中的单词或句子时,Azure 认知搜索将返回 pdf 中存在的全部内容。

有没有一种方法可以从 pdf 中只提取出现单词或句子的句子或段落? 有没有办法突出显示在 pdf 中出现的任何地方传递的输入? 我是否针对以上两点使用了正确的服务?

【问题讨论】:

【参考方案1】:

是的,有一个功能正是您正在寻找的,请参阅highlight 您只需要突出显示内容字段

POST /indexes/hotels-sample-index/docs/search?api-version=2020-06-30 
      
      "search": "sandy beaches",  
      "highlight": "Content"
    

【讨论】:

以上是关于从 pdf azure 认知搜索中提取段落或句子的主要内容,如果未能解决你的问题,请参考以下文章

从 azure 认知语音中提取结果 id 和会话 id

Azure 认知搜索 - 在搜索结果中检索搜索分数

从pdf中提取数据到表格中[关闭]

从 asp.net mvc 网站到 azure 认知搜索的连接问题

2020新书揭开Azure人工智能 ,为你的商业实现正确的AI功能,196页pdf

文本分类