包含语音到文本数据的 JSON 文件的高级布尔搜索?
Posted
技术标签:
【中文标题】包含语音到文本数据的 JSON 文件的高级布尔搜索?【英文标题】:Advanced boolean search of JSON files containing speech-to-text data? 【发布时间】:2015-03-16 20:53:00 【问题描述】:我有数百个视频和音频文件的自动机器转录本。我有五种格式的每一份成绩单:JSON、XML、SRT、VTT、TXT。 (单击here 查看示例文件。)JSON 和 XML 文件包含最全面的数据,包括扬声器 ID、置信度和时间码。
我正在寻找一种方法来挖掘或搜索这些数据以查找单词和短语。我需要能够提交布尔搜索查询,然后单击结果并在文本结果的时间码处播放视频/音频文件。唯一必需的布尔运算符是 NOT、AND、OR(就像在线搜索引擎一样)。示例搜索:("baseball bat" AND park) OR football
我正在考虑一个相当简单的界面。
基本选项:
搜索框 最小置信度滑块高级选项的想法:
演讲者:“Bob,Joe,Bill”(也就是说,演讲者必须是其中之一) AND 搜索中单词之间允许的最长时间:X.X 秒 精确词组搜索中单词之间允许的最长时间:X.X 秒 精确词组搜索中的单词必须具有相同的说话者:开/关 AND 之间的单词必须具有相同的扬声器:ON/OFF OR 之间的单词必须具有相同的扬声器:ON/OFF AND 之间的单词必须按时间顺序排列:ON/OFF 忽略标点符号:开/关简单地说,我需要像特工 Ransack 这样的带有时间码的东西,如果可能的话,还需要一些杂项选项。 我知道这是一个非常具体和复杂的要求。 :) 你能给我关于这个想法的任何线索吗?我不想重新发明***。哪个软件/命令行程序/引擎最接近能够做到这一切?也许我可以从那里适应它。
谢谢!
【问题讨论】:
这是错误的地方来问像你这样的问题。见***.com/help/on-topic。 【参考方案1】:您可以在 Solr/Lucene http://lucene.apache.org/solr 之上实现这样的系统,但是,您需要获得更多经验才能实现所需的功能。
有关语音存档和索引的开源实现,您可以查看Matterhorn
您可以在presentation 中找到有关马特宏峰语音索引的详细信息
但是,这不是实现此类功能的唯一方法,您还可以继续使用您选择的语言和简单的工具。 Ruby/php 或 Node.js 也可以在这里使用。
【讨论】:
以上是关于包含语音到文本数据的 JSON 文件的高级布尔搜索?的主要内容,如果未能解决你的问题,请参考以下文章
BigQuery 加载作业在 JSON 中的布尔数据类型字段上失败
熊猫 |将带有类似列表/数组的字段的 json 文件读取到布尔列