多媒体作业,自己定义一个多媒体搜索引擎,并写出方案,留下来,做个纪念
爬虫
(1) 通过网络爬虫大量地下载网页(可以考虑使用诸如Apache Nutch等开源网络爬虫)
(2) 通过正则表达式等方式对网页内容进行去噪,过滤垃圾内容,如根据常见的视频格式.avi .rmvb .flv等设计正则表达式,获取视频链接
(3) 根据视频链接下载视频(可以通过多线程等加快下载速度)、
镜头和关键帧的提取
1.对网上下载的海量视频进行粗略分类,通过模板匹配和颜色直方图方法进行渐变镜头的分析,通过双重比较法(二阈值法进行)进行渐变镜头提取。
2.选取镜头的中间帧作为关键帧
关键镜头的提取分析
从网上下载相关学科的知识点图谱。比如机器学习中的各种知识点-svm,高斯核函数等等作为关键场景提取的特征。
(1) 文本上、字母上:视频本身标题有相关文本标注,可以作为初略确定,大部分网络公开课会有相关字母,对字幕区域进行文字识别。将字幕信息变为文本信息,文本信息中出现svm、高斯核函数类似知识点,该镜头极有可能为关键镜头
(2) 语音上,提取公开课语音,进行降噪处理,利用现有的语音识工具,将语音信息转为文本信息,找是否有相关词汇。
(3) 视频上,公开课程一般是课堂和截屏等形式,截屏和黑板板书时也会出现相关关键词,用图片识别的技术找到关键区域,然后进行图片文字识别
搜索引擎索引
词袋模型和倒排索引
更新
权重,大网站多去,小网站少去
去重
视频本省标注,其中文本进行去重
检索模型、视频排序推荐
(1)布尔模型,查询关键词求集合运算
(2)排序推荐、权重推荐。比如搜svm
1)在网络爬去过程中,如网易公开课中视频,可以获得视频的点击量,还有如豆瓣知乎推荐打分。学习人数多,豆瓣打分高,权重高。
2)对视频片段进行分析,词汇出现次数多,说明讲解详细,得分高,
3)对多媒体质量进行评估,质量高的得分高
4)老师人气,相关领域大牛,如机器学习,李菲菲 吴恩达的得分高
给各项得分按重要程度给不同权重
个性化推荐
推广
盈利