科大讯飞联合优质企业、知名高校、融投资机构等53家合作伙伴，围绕十大新兴产业开启算法、应用、编程赛、虚拟形象选拔、辩论赛、创意集市创意赛等108个赛道方向，覆盖了智能语音、视觉、自然语言、图文识别等人工智能热门技术，涵盖了元宇宙、农业养殖、遗址文化、生物与环保、医疗健康、地理遥感、企业数字化、智能家居、电商销售等多领域。

参赛官网：2022 iFLYTEK A.I.开发者大赛-讯飞开放平台

目前，AI算法赛已经开启，包含：计算机视觉、语音、自然语言处理和数据挖掘4个方向。

1、计算机视觉方向

计算机视觉方向包含：基于深度学习的小样本视频手势识别、稀疏角度CT投影重建挑战赛、X光安检图像检测挑战赛3.0、LED灯的色彩和均匀性检测挑战赛、智能硬件语音控制的时频图分类挑战赛2.0、高分辨率遥感影像松林变色立木提取挑战赛、LED生产封装瑕疵识别挑战赛和基于小样本的异常检测任务挑战赛8个赛题。

1.1、基于深度学习的小样本视频手势识别

赛事背景

随着计算资源的升级和深度学习技术的发展，计算机视觉中视频任务逐渐受到关注，行为识别就是其中重要的一个方向，它为丰富的人机交互体验奠定基础。手势交互作为重要的交互方式，也逐渐走进人们生活。当然与其它视频行为识别相似，准确的手势识别往往需要大量数据进行支撑，带来了采集、存储和计算一系列负载问题，如何使用少量的样本训练出一个性能较好的模型成为解决问题的关键。本届“基于深度学习的小样本视频手势识别”竞赛是一场极具挑战性的视频行为识别任务，期待参赛者能在竞赛中相互切磋，共同进步。

赛事任务

给定少量标注的训练集手势视频片段，实现测试集中未标注手势视频片段的准确分类。

奖金：60,000

1.2、稀疏角度CT投影重建挑战赛

赛事背景

为了研究基于稀疏角度的CT重建方案，本次大赛提供了口腔CT的投影图数据作为训练样本，其中包含了不同性别、不同年龄段的人员所拍摄的真实CT投影图。

参赛者需要根据密集角度投影图训练构建模型，将稀疏角度投影图再插帧重建回密集角度。

赛事任务

美亚提供训练以及测试样本，通过算法构建模型，完成稀疏角度投影重建。

奖金：10,000

1.3、X光安检图像检测挑战赛3.0

赛事背景

X光安检是目前在城市轨交、铁路、机场、物流业广泛使用的物检手段。使用人工智能技术，辅助一线安检员进行X光安检判图，可以有效降低因为安检员经验、能力或工作状态造成的错漏检问题。在实际场景中，因待检测物品的多样性、成像角度、重叠遮挡等问题，X光安检图像检测算法研究存在一定挑战。

赛事任务

本赛事的任务是：基于科大讯飞提供的真实X光安检图像集构建检测模型，对X光安检图像中的指定类别的物品进行检测。

奖金：60,000

1.4、LED灯的色彩和均匀性检测挑战赛

赛事背景

工业自动化质检成为了当下主流与趋势，在整个质检中视觉质检又是重中之重。使用AI的先进视觉技术应用在工业质检领域。

赛事任务

根据提供的数据集，来预测测试集的数据是否为良品(颜色，缺损和是否成像均匀)。

奖金：10,000

1.5、智能硬件语音控制的时频图分类挑战赛2.0

赛事背景

2014年11月，亚马逊推出了一款全新概念的智能音箱Echo，通过语音指令交互控制硬件设备。截止2016年4月，Echo的累计销量已经突破300万台。2017年12月累计数千万台。亚马逊Echo音箱的推出标志着以语音交互为实用化的落地方案。

以智能音箱为代表的声控智能硬件在我国已经得到了商业化的大规模推广。2020年我国占有全球智能音箱销售量的51%，位居全球第一，而同期美国的份额从44%下降到了24%。

赛事任务

赛题提供具有24句语音交互指令的语音时频谱数据集(spectrogram dataset)，选手需要完成搭建网络模型，基于密集多层网络、卷积网络和循环网络等基本结构的组合，进行有效预测。

奖金：10,000

1.6、高分辨率遥感影像松林变色立木提取挑战赛

赛事背景

松材线虫病是全球森林生态系统中最具危险性和毁灭性的病害之一，松树感染后可在数月内枯萎死亡,目前还没有有效可行的防治办法，被称为松树的“癌症”。我国首次发现松材线虫病后的三十多年，松材线虫病呈扩散蔓延趋势，不仅极大破坏了自然景观及生态环境，而且严重威胁我国的松林资源，造成了巨大的经济损失。松树感染后的主要症状是整个树冠针叶失去光泽，然后变成灰绿色，并逐渐变黄、橙、红褐色，直至死亡。为有效遏制松材线虫病快速扩延的势头，国家不断强化防控措施，对由松材线虫病引起的松林变色立木进行天空地协同监测。本赛道旨在充分利用人工智能等先进技术，结合“吉林一号”卫星遥感数据，从高分辨率卫星遥感影像中对变色立木信息进行有效识别提取。

赛事任务

为实用高效的对卫星遥感影像中的变色立木信息进行提取，本次大赛以“吉林一号”分辨率卫星遥感影像作为数据集，参赛选手需基于提供的样本构建提取模型，预测未知影像中变色立木信息。

奖金：10,000

1.7、LED生产封装瑕疵识别挑战赛

赛事背景

基于人工智能的机器视觉技术，在推动企业实现智能制造，提高良品率及产品竞争力上具有重要价值。

LED瑕疵识别是其生产封装过程中质量控制的重要环节。目前，通过多角度光源技术，可以对20*30mm左右大小的LED灯珠进行成像，并且良次品以及不同瑕疵间具有一定的区分性。如何设计有效算法利用多角度光图像进行LED瑕疵识别，成为落地应用过程中需要突破的关键问题。

本赛题由科大讯飞华南研究院联合宁波九纵智能科技有限公司共同提出。

赛事任务

赛事提供了LED生产封装的数据作为训练样本，参赛选手需基于提供的样本构建模型，识别不同的LED封装瑕疵类型。

奖金：10,000

1.8、基于小样本的异常检测任务挑战赛

赛事背景

尽管深度学习在计算机视觉的诸多领域取得了巨大进步，但是这些方法都需要大量的数据作为支持，但是在某些任务上，正常状态的数据较易获取，但异常状态数据的获取往往是十分困难的，如何使用大量的正常样本、少量的异常样本训练出一个性能较好的异常检测模型成为这一问题的关键，而纹理学习、异常检测网络是为了解决这一类问题的尝试。

赛事任务

本次大赛提供了构建算法所需要的数据，参赛选手需基于提供的样本构建模型，在最终的测试样本上取得良好的表现。大赛分为初赛和复赛两个阶段。

奖金：10,000

2、语音方向

语音方向包含：酒瓶瓶体裂纹敲击检测挑战赛、基于多模态信息的音视频语音唤醒挑战赛、基于多模态信息的音视频语音识别挑战赛、音视频语音增强挑战赛和低复杂度家庭环境音挑战赛5个赛题。

2.1、酒瓶瓶体裂纹敲击检测挑战赛

赛事背景

酒瓶作为白酒的载体，如果瓶体存在裂纹，那么在运输或消费过程中就容易发生破裂，从而导致损失及投诉。

某白酒企业使用非透明的玻璃酒瓶，难以通过视觉检查是否存在裂纹。为解决这一问题，酒企在灌装流水线上设计了一道检测工序，由检测人员根据敲击瓶体发出的声音判断是否存在破损。

在该工艺环节，使用一个机械的敲击设备，利用光学传感器监测酒瓶，当酒瓶经过时，机械设备会使用一个类似扳机的机构敲击瓶体中轴位置，发出敲击声，质检员通过敲击的声音判断瓶体是否存在裂痕。

赛事任务

算法实现

基于训练集的数据进行分析，设计算法并建模。

对测试集的数据进行处理，标记样本类型及在音频中的位置，并进行统计。

解决方案设计

以在生产线的真实场景中的落地为最终目标，通过算法的引入，能够将检测环节的操作完全实现自动化贯穿，使“敲击→音频采集→算法检测→缺陷品剔除”的检测环节脱离对检测员的依赖。

因此，以实际应用为最终目的，算法需要围绕应用落地设计具体的实施方案，需要覆盖但不限于以下内容：

a)构建初始的算法模型。

b)基线效果的调校。

c)运行过程中的周期性迭代。

奖金：10,000

2.2、基于多模态信息的音视频语音唤醒挑战赛

赛事背景

讯飞AI语音唤醒技术基于深耕多年的人工智能和大数据技术，通过智能设备的麦克风阵列对输入的语音信号进行分析和处理，实现对智能设备的唤醒，赋予设备自动感知的能力，可以解放用户的双手，带给用户更加便利、更加舒适和更加智能的人机体验。

尽管语音唤醒技术已经取得很大的进步，但复杂声学环境（例如远场、混响和背景噪声）应用场景下的单语音系统仍具有挑战性，尤其对于智能家居和会议场景，有时已经严重影响到用户对产品的使用质量。通过引入面部和嘴唇运动等视觉线索来补充目标说话人的声学信息已经被证明是有效的，尤其是在嘈杂的环境中。如何通过引入视频模态到音频唤醒并进行有效融合，以降低错误唤醒和错误拒绝唤醒的比率，提高用户的产品使用质量，为唤醒领域亟待突破的关键问题。

赛事任务

音视频唤醒词识别: 在给定的测试的音频和视频中识别预定义的唤醒词，本质上是一个二分类任务，预定义的唤醒词为“小T小T”，已给定的数据包含音频及其对应的视频，分为包含唤醒词的正例与不包含唤醒词的负例，选手需要使用给定的训练数据，搭建网络，将训练好的模型在测试集上进行测试，给出判决测试样例是否包含唤醒词。

奖金：60,000

2.3、基于多模态信息的音视频语音识别挑战赛

赛事背景

随着Siri、Alexa 和 Cortana等语音应用的出现，语音识别系统已经被广泛用于会议、车载等实际生活环境中，极大地便利了人们的生活。但在复杂声场环境（例如，家庭和会议），背景噪音、混响、远场、语音重叠等干扰因素严重的影响了单音频语音识别系统的识别性能。例如，在CHiME-6餐厅挑战赛中，最出色的单模态语音识别系统词错误率高达40%。受此启发，MISP2021 挑战通过引入额外的模态信息（如视频或文本），来进一步提升语音识别系统在声场下的识别性能和鲁棒性。

赛事任务

本次比赛提供在家庭电视房间环境中录制的多模态数据集MISP2021。选手需要利用训练集中的近/中/远场音频，中/远场视屏训练多模态的AVSR系统，最终通过测试集远场音频和远场视频验证识别对应文本测试系统性能。

奖金：60,000

2.4、音视频语音增强挑战赛

赛事背景

语音增强是为了提高在嘈杂环境中录制音频时的语音质量和清晰度。应用包括电话交谈、视频会议、电视报道等。语音增强也可用于助听器、语音识别和说话人识别。由于语音的视觉方面基本上不受声学环境的影响，因此，目标说话人的视觉信息，如嘴唇运动和面部表情，也可以被用于语音增强系统作为辅助信息。有效地融合声音和视觉信息来增强音频的多模态语音增强方法越来越受到关注。

赛事任务

本次大赛音频和视频数据作为训练样本，参赛选手需基于提供的样本构建模型，对带噪语音进行去噪。

奖金：60,000

2.5、低复杂度家庭环境音挑战赛

赛事背景

声音作为一种重要的信息载体，由于其易收集、不受角度和光线的限制等优点，常被用于辅助环境感知和信息决策，故语音控制普遍应用于智能家居系统。智能设备接收并处理环境中的声音信号，通过声音事件识别技术可以侦测判断出环境中的物体与发生的事件，例如婴儿哭泣声、枪声和敲门声等，并能迅速地感知到环境中的变化，例如脚步声由远及近等，系统据此启动相关的智能设备。因此，声音事件识别技术已被用于安防监控、音频内容检索等智能感知等领域中，为新型的人机交互方式和智能机器听觉系统提供了帮助。

但针对应用侧存在两大主要挑战：1. 数据层面：因环境复杂，含有较多杂音；2. 设备层面：智能家居硬件设备计算力及存储有限。

赛事任务

声音识别事件需强大的数据作为支撑，本次大赛提供了品冠科技云平台音频数据作为训练样本，包括6类音频数据：看电视的声音、燃气报警的声音、炒菜的声音、流水的声音、拉窗帘的声音和小孩哭泣的声音，它们的标签分别为1、2、3、4、5、6。音频文件名含有声音类型，参赛者可以据此对文件进行分类。出于数据安全保证的考虑，所有数据均为脱敏处理后的数据。参赛选手需基于提供的样本构建低复杂度量化模型，通过输入音频数据预测声音对应的事件（预测声音的类型）。

奖金：10,000

3、自然语言处理方向

自然语言处理方向包含：应用类型识别挑战赛、汽车领域多语种迁移学习挑战赛、RPA流程动作生成挑战赛和领域迁移机器翻译挑战赛2.0 4个赛题。

3.1、应用类型识别挑战赛

赛事背景

讯飞开放平台针对不同行业、不同场景提供相应的AI能力和解决方案，赋能开发者的产品和应用，帮助开发者通过AI解决相关实际问题，实现让产品能听会说、能看会认、能理解会思考。

应用类型的识别是分析开发者使用场景和行业使用场景的关键步骤，随着应用数量的不断增多，如何快速精准的识别应用类型成为亟待突破的关键性问题。

赛事任务

应用类型的识别需要强大的数据作为支撑，本次大赛提供了讯飞开放平台海量的应用名称和应用描述数据作为训练样本，参赛选手需要基于提供的样本构建模型，预测应用的相关类别。

奖金：10,000

3.2、汽车领域多语种迁移学习挑战赛

赛事背景

国内车企为提升产品竞争力、更好走向海外市场，提出了海外市场智能交互的需求。但世界各国在“数据安全”上有着严格法律约束，要做好海外智能化交互，本土企业面临的最大挑战是数据缺少。本赛题要求选手通过NLP相关人工智能算法来实现汽车领域多语种迁移学习。

赛事任务

本次迁移学习任务中，讯飞智能汽车BU将提供较多的车内人机交互中文语料，以及少量的中英、中日、中阿平行语料作为训练集，参赛选手通过提供的数据构建模型，进行意图分类及关键信息抽取任务，最终使用英语、日语、阿拉伯语进行测试评判。

奖金：77,500

3.3、RPA流程动作生成挑战赛

赛事背景

RPA（Robotic Process Automation，即机器人流程自动化），是以预先设定的程序及流程与现有用户系统进行交互，在计算机系统上自动化执行既定任务的自动化技术。从目前的技术实现来看，现有的RPA流程需要通过配置低代码工具提供的原子能力，录制键盘、鼠标操作来生成对应的流程。基于当前的实现，在原子能力配置上存在学习成本，在记录键鼠操作过程流程较繁琐，且智能化不足。本次动作流程生成任务，旨在降低键盘鼠标操作配置，期望直接从自然语言端到端生成对应的执行动作。该赛题需要综合自然语言理解和动作序列生成，是首个同类任务，具有新颖性和挑战性。

赛事任务

给定一段自然语言作为输入指令，能够生成相应的生成动作流程指令（即为完成输入指令时，系统需要执行的动作流程集）。流程动作只允许基于基本动作集生成，且是按照实际执行的先后顺序组合而成。本次赛题选定的任务限定在日常办公的Word文档使用场景。

奖金：10,000

3.4、领域迁移机器翻译挑战赛2.0

赛事背景

目前神经机器翻译技术已经取得了很大的突破，在新闻、口语等具有丰富数据资源的领域机器翻译质量不断提高，但对于医药、航天等专业领域由于数据资源获取困难等原因，机器翻译效果还不够理想。如何利用富资源领域的丰富数据，将知识迁移到低资源领域以实现翻译效果的提升是一个亟待解决的研究问题。

赛事任务

领域迁移机器翻译挑战赛V2.0选择领域跨度更大的医药领域进行领域迁移机器翻译，难度升级。本次大赛除提供双语、单语数据外，额外提供医药领域双语词条，参赛队伍需要基于提供的训练数据样本进行中到英机器翻译模型的构建与训练，并基于测试集提供最终的翻译结果。

奖金：10,000

4、数据挖掘方向

数据挖掘包含：电动汽车永磁同步电机温度预测挑战赛、基于柔性负荷任务的需量优化策略挑战赛、数字化车间智能排产调度挑战赛和智能家居使用场景识别挑战赛4个赛题。

4.1、电动汽车永磁同步电机温度预测挑战赛

赛事背景

随着汽车行业的不断发展以及人们的环保意识逐步增强，新能源汽车在人们的出行计划中占有的比例越来越大。国内电动车品牌，诸如理想、蔚来、小鹏等品牌，也如雨后春笋般涌现出来。

作为电动汽车和混合动力汽车的主要驱动核心，永磁同步电动机常常面临着运行温度过高的问题，该问题会导致永磁体退磁以及线路损伤等危险，从而造成新能源汽车的驱动能力下降甚至失去驱动力的情况。

为了保障永磁同步电动机能够在复杂的工作条件下安全、稳定的运转，各大新能源汽车品牌非常关注永磁同步电动机温度预测问题的研究，希望及时获得电机的实时温度，从而采取相应的降温方法来保障永磁同步电动机的安全，降低电机的维护成本。

赛事任务

本次比赛任务是根据从永磁同步电机收集的多个历史传感器数据，预测接下来12个单位的温度（pm），其中单位间隔是为 20 Hz（每 5 秒一行）。

奖金：2,300

4.2、基于柔性负荷任务的需量优化策略挑战赛

赛事背景

随着我国经济结构调整的深入，造成的部分企业需要适应新形势优化调整生产结构，短期内出现了企业开工不足，基本电费支出占比提高现象。为支持企业转型，减少停产和企业电费支出，降低实体经济运行成本，国家发展和改革委员会办公厅2016年发布《国家发展改革委办公厅关于完善两部制电价用户基本电价执行方式的通知》（发改办价格【2016】1583号）文。需量优化方案可以为企业带来电费节省，减少不必要的电费支出，为企业带来最大化收益。

赛事任务

目前在企业生产环境中有生产系统、光伏系统、柔性负荷系统A、柔性负荷系统B，其中生产系统和光伏系统为不可调节系统，柔性负荷系统A和B可以通过调整时间和负荷来降低需量和企业电费。现在任务是在满足柔性负荷系统A和B周期内任务目标的前提下，通过合理安排柔性负荷系统A和B的工作时间和负荷来实现经济性最优。

奖金：60,000

4.3、数字化车间智能排产调度挑战赛

赛事背景

随着社会的发展和生产力的提高，大规模的车间生产已经成为制造业的主流，因此对企业的生产效率要求也越来越高。一般而言，排产调度是指在有限的时间内，合理分配产品制造资源（机器资源、材料资源等）并确定排产加工的顺序，以完成特定的排产任务并实现预先设定的优化目标。企业排产调度策略中一个小环节的改进也可能在大批量的生产中带来巨大的效益。因此，更高效的智能排产调度成为制造业企业亟待突破的关键问题。

赛事任务

本次大赛提供了产品生产数量及工艺路线，每个工艺加工时间及对应设备等数据作为样本，参赛选手需基于提供的样本构建模型，合理安排产品加工使用的机器编号及加工开始时间和结束时间。

奖金：10,000