语音和噪声相关数据集(持续更新)
Posted 凌逆战
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了语音和噪声相关数据集(持续更新)相关的知识,希望对你有一定的参考价值。
博客地址:博客园(转载请注明出处)
博客作者:凌逆战
语音数据集
TIMIT
官方提供的下载地址:TIMIT Acoustic-Phonetic Continuous Speech Corpus - Linguistic Data Consortium
免费下载地址:https://goo.gl/l0sPwz(420M)
TIMIT 共包含 6300 个句子,10 个句子由来自美国 8 个主要方言区的 630 位说话人。
Timit原始数据虽然是以wav结尾的但是格式却不是wav,而是sphere格式,用python中的sphfile库把他转换成wav:
from sphfile import SPHFile
import glob
import os
if __name__ == "__main__":
path = 'D:/pycharm_proj/corpus/data/lisa/data/timit/raw/TIMIT/TRAIN/*/*/*.WAV'
sph_files = glob.glob(path)
print(len(sph_files),"train utterences")
for i in sph_files:
sph = SPHFile(i)
sph.write_wav(filename=i.replace(".WAV","_.wav"))
os.remove(i)
path = 'D:/pycharm_proj/corpus/data/lisa/data/timit/raw/TIMIT/TEST/*/*/*.WAV'
sph_files_test = glob.glob(path)
print(len(sph_files_test),"test utterences")
for i in sph_files_test:
sph = SPHFile(i)
sph.write_wav(filename=i.replace(".WAV","_.wav"))
os.remove(i)
print("Completed")
VCTK
下载地址:传送门(10.94Gb)
CSTR VCTK 语料库包括 110 位具有各种口音的英语使用者的语音数据。每个发言者读出大约 400 个句子,所有语音数据都是使用相同的录音设置录制的:全向麦克风 (DPA 4035)和一个小振膜电容麦克风,具有非常宽的带宽(Sennheiser MKH 800),96kHz 采样频率,24 位,在爱丁堡大学的半消声室中。所有录音都转换为 16 位,下采样到 48 kHz,并手动设置终点。
AISHELL-ASR0009-OS1 开源中文语音数据库
下载地址:传送门(14.51Gb)
时长178小时,录音文本涉及智能家居、无人驾驶、工业生产等11个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16-bit);android系统手机(16kHz,16-bit);ios系统手机(16kHz,16-bit)。高保真麦克风录制的音频降采样为16kHz。400名来自中国不同口音区域的发言人参与录制。
AISHELL-2 中文语音数据库
时长为1000小时,其中718小时来自AISHELL-ASR0009,282小时来自AISHELL-ASR0010。录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16bit);Android系统手机(16kHz,16bit);iOS系统手机(16kHz,16bit)。AISHELL-2采用iOS系统手机录制的语音数据。1991名来自中国不同口音区域的发言人参与录制。
AISHELL-3 高保真中文语音数据库
时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)。218名来自中国不同口音区域的发言人参与录制。
AISHELL-WakeUp-1 中英文唤醒词语音数据库
AISHELL-DMASH 中文普通话麦克风阵列家居场景语音数据库
AISHELL-4 多通道中文会议语音数据库
Mozilla Common Voice
下载地址:Common Voice
时长:1965小时(目前为止)
最早2017年发布,持续更新,该基金会表示,通过 Common Voice 网站和移动应用,他们正在积极开展 70 种语言的数据收集工作。
Mozilla 宣称其拥有可供使用的最大的人类语音数据集,当前数据集有包括 29 种不同的语言,其中包括汉语,从 4万多名贡献者那里收集了近 2454 小时(其中1965小时已验证)的录音语音数据。并且做出了开放的承诺:向初创公司、研究人员以及对语音技术感兴趣的任何人公开我们收集到的高质量语音数据。
Tatoeba
下载地址:传送门
项目始于2006年tatoeba是一个用于语言学习的句子、翻译和口语音频的大型数据库。收集面向外语学习者的例句的网站,用户无须注册便可以搜索任何单词的例句。如果例句含有对应的真人发音,也可以点击收听。注册用户可以添加、翻译、接管、改进、讨论句子。还可以在留言板上和其他注册用户讨论。在留言板上,所有的语言都是平等的,注册用户可以使用自己喜欢的语言与其他用户交流。
噪声数据集
noise-92
下载地址:传送门(250M)
音频参数:19980Hz;单通道,16位深
以mat格式存储,可以通过下面的脚本转换到wav格式,所有噪声的持续时间为 235 秒,19.98 KHz 的采样率、具有 16 位的模数转换器 (A/D)、抗混叠滤波器和无预加重级获得。包含15种噪声类型:White Noise、Pink Noise、Speech Babble、Factory Floor Noise 1、Factory Floor Noise 2、Cockpit Noise 1 (Buccaneer Jet Traveling at 190 knots)、Cockpit Noise 2 (Buccaneer Jet Traveling at 450 knots)、Cockpit Noise 3 (F-16)、Engine Room Noise (Destroyer)、Operations Room Background Noise (Destroyer)、Military Vehicle Noise (Leopard)、Military Vehicle Noise (M109)、Machine Gun Noise、Vehicle Interior Noise (Volvo 340)、HF Channel Noise
将mat格式的音频转成wav
mat_file=dir('./*.mat');
sr=19980;
for n=1:length(mat_file)
disp(mat_file(n).name);
load(mat_file(n).name);
name = eval(mat_file(n).name(1:end-4));
% 为了避免写入被截断,需要归一化到(-1,1)
% 方法1
% max_val = max(name);
% min_val = min(name);
% name = ((name-min_val)./(max_val-min_val) - 0.5 ) *2;
% 方法2
name = rescale(name, -1, 1);
audiowrite(strrep(mat_file(n).name,'mat','wav'),name,sr);
end
NOIZEUS数据集
下载地址:NOIZEUS:用于评估语音增强算法的嘈杂语音语料库(噪声和纯净语音对)
包含30个IEEE 句子(由三名男性和三名女性发言者产生),被不同 SNR 下的八种不同的真实世界噪声破坏。噪音包括郊区火车噪音、杂音、汽车、展览厅、餐厅、街道、机场和火车站噪音。
DEMAND
下载地址:传送门(7.4Gb)
音频参数:48 kHz 和 16 kHz 采样率在一个目录中以 16 个单通道 WAV 文件的形式提供
16 通道环境噪声记录数据库
麦克风阵列是几个麦克风的(通常规则的)排列,允许使用许多有趣的信号处理技术。例如,来自彼此相距很近的麦克风的音频信号的相关性可以用于确定声源相对于阵列的空间位置,或基于声音到达阵列的方向隔离或增强信号。
通常,考虑声学背景噪声的麦克风阵列实验使用受控环境或模拟环境。这种人工设置在噪声源方面通常是稀疏的。其他已经存在的真实世界噪声数据库(例如AURORA-2语料库、CHiME背景噪声数据或NOISEX-92数据库)往往只提供非常有限的环境多样性,最多只能提供2个通道。
这里介绍的DEMAND(多元环境多通道声学噪声数据库)提供了一组录音,允许在各种设置下使用真实环境的噪声测试算法。这个版本提供了15个录音。所有录音都使用16通道阵列,麦克风之间的最小距离为5厘米,最大距离为21.8厘米。
PNL 100 Nonspeech Sounds
下载地址:传送门(~10M)
音频格式:20kHz采样率,单声道,16位深
这些非语音、环境声音可以用作评估语音分离系统等的非语音噪声
Crowd 人群噪音:N1-N17 Machine 机器噪音:N18-N29 Alarms 警报和警报器:N30-N43 Traffic 交通和汽车噪音: N44-N46 Animal 动物声音:N47-N55 water 水声:N56-N69 Wind 风:N70-N78 Bell 铃:N79-N82 Cough 咳嗽:N83-N85 clap hands 拍手:N86 Snoring 打鼾:N87 Click 点击:N88 lol 笑:N88-N90 Yawn 打哈欠:N91-N92 cry 哭:N93 Shower 淋浴:N94 Brush your teeth 刷牙:N95 Footsteps 脚步声:N96-N97 Door Movement 门移动:N98 Telephone dialing 电话拨号:N99-N100
rnnoise_ontributions
RNNoise提供的捐赠数据集,大部分是一些办公室噪声,下载地址:传送门(6.41G)。
ESC-50:环境声音分类数据集
下载地址:https://github.com/karolpiczak/ESC-50(~600MB)
国内镜像:工作台 - Heywhale.com
音频参数:44.1kHz;单通道,16位深
ESC-50数据集是从Freesound.org中剪辑得到的2000份环境音频的标记集合,适用于环境声音分类。该数据集由5秒长的录音组成,组织成5大类,每个大类有10小类(每个小·类有40个示例),
- 动物:狗、公鸡、猪、奶牛、青蛙、猫、母鸡、昆虫(飞行)、羊、乌鸦
- 自然声音和水声:雨、海浪、噼啪作响的火、蟋蟀、鸟鸣、水滴、风、倒水、冲水马桶、雷雨
- 人类的非语音声音:婴儿啼哭、打喷嚏、鼓掌、呼吸、咳嗽、脚步声、笑、刷牙、打鼾、喝酒,啜饮
- 室内/家庭声音:敲门声、鼠标点击、键盘打字、门,木头吱吱作响、开罐头、洗衣机、吸尘器、时钟闹钟、时钟滴答声、玻璃破碎
- 外部/城市噪声:直升机、电锯、警笛、汽车喇叭、引擎、火车、教堂的钟声、飞机、烟花、手锯
# -*- coding:utf-8 -*-
# Author:凌逆战 | Never.Ling
# Date: 2022/8/8
"""
对ESC-50数据集,根据噪声类别分类
"""
import os
import librosa
import pandas as pd
import soundfile
csv_path = "./esc50.csv"
dataset_path = "G:/dataset/noise_dataset/ESC-50"
class_basepath = "G:/dataset/noise_dataset/ESC-50/class"
sr = 16000
trainData = pd.read_csv(csv_path)
for filename, category in zip(trainData["filename"], trainData["category"]):
noise_path = os.path.join(dataset_path, "audio", filename)
class_path = os.path.join(class_basepath, category)
if not os.path.exists(class_path):
os.makedirs(class_path)
new_path = os.path.join(class_path, "ESC50_" + filename)
print("new_path", new_path)
y = librosa.load(noise_path, sr, mono=True)[0]
soundfile.write(new_path, data=y, samplerate=sr)
分类脚本
ESC环境噪音分类数据集
下载地址:传送门(26.8GB)
音频参数:44.1kHz,单通道,5 秒长剪辑
ESC 数据集是一组以统一格式提供的短期环境记录。所有剪辑都从通过项目项目获得的公共Freesound.org中提取。
数据集由三部分组成:
- ESC-50:一组有 2000 个环境记录(50 个类,每类 40 个剪辑),
- ESC-10:一组有 400 个环境记录(每类 10 个类,40 个剪辑)(这是 ESC-50 的子集 - 创建初始化,作为概念验证/简单录制的标准化选择),
- ESC-US:一个未标记的数据集,包含 25 万个环境记录(5 秒长的剪辑),适合无监督的预培训。
婴儿啼哭数据集
https://github.com/giulbia/baby_cry_detection(310M)
https://github.com/gveres/donateacry-corpus(48.2M)
科大讯飞婴儿啼哭声识别挑战赛(810M)
- 链接:百度网盘 请输入提取码
- 提取码:wh47
MS-SNSD
下载地址:传送门
音频格式:16kHz,单声道,16位深
冷气机、机场公告、Babble、复印机、咀嚼、邻居、关门、打字、吸尘器
QUT-NOISE
下载地址:传送门(7.70Gb)
音频格式:采样率48kHz;双声道;16位深
音频参数:街道、咖啡厅、汽车、家庭、混响、
freesound-datasets
下载地址:传送门
STARSS22:Sony-TAu Realistic Spatial Soundscapes 2022
下载地址:传送门
VOICe Dataset
下载地址:传送门(3.23GB)
音频格式:44.1kHz;单声道;32位(浮点)位深
用于开发和评估通用声音事件检测域适应方法的新数据集!
婴儿哭声 玻璃破碎 枪声
VOICe 由三种不同声音事件的 1449 种不同混合组成:
-
1242 个混合了三种不同类别的声学场景(“车辆”、“户外”和“室内”)的背景噪声,在 2 个 SNR 值(-3,-9 dB)下混合,即 207 个混合 x 3 个声学场景 x 2 个信噪比 = 1242
-
207 种没有任何背景噪音的混合物。
In-Vehicle Noise Dataset
下载地址:传送门(~2.47GB)
音频参数:44.1 kHz,16 位,2通道
这个开源数据集包含来自多个来源的 5.08 小时车内噪声,其中包含 7 条噪声。噪声源可能包括
轮胎噪声 发动机噪声 收音机 人声
Vehicle Interior Sound Dataset
下载地址:传送门VISC Dataset SON(1.2GB)
音频参数:44.1kHz;双声道;16位深
使用的数据集是从 YouTube 的不同车辆类型的驾驶视点 (PoV) 收集的。这些只是车内声音。没有司机,也没有人声。5980个声音被记录了8个类。这些车辆在露天的柏油路上行驶。我们不喜欢在雨天在未铺砌的道路上收集车内声音。
这些数据的文件格式是 wav。使用声音的长度在 3-5 秒的范围内,频率为 48 kHz。选择的车辆类型是公共汽车、小巴、皮卡、跑车、吉普车、卡车、跨界车和轿车(汽车)。收集的车辆内部声音 (VIS) 数据集的属性总结在表中。
Bus(公交车):850个样本 Minibus(面包车):850个样本 Pickup(小卡车):850个样本 Sports Car(跑车):850个样本 Jeep(吉普车):850个样本 Truck(卡车):850个样本 Crossover(转线路):850个样本 Car (C级 – 4K):850个样本 total:5980
MAVD交通数据集
下载地址:传送门(~1.3G)
音频参数:44.1kHz,单声道,32位浮点
MAVD:城市环境中声音事件检测的数据集,该版本主要关注马路边收集交通噪声,因此得名MAVD-traffic,除了音频记录,它还包括同步视频文件。声音事件注释遵循一个交通声音本体,该本体是一组两种分类的组合:车辆类型(如汽车、公共汽车)和车辆组件(如发动机、刹车),以及一组与之相关的动作(如空转、加速)。
Dataset-AOB:城市声音事件分类
下载地址:Dataset-AOB: urban sounds events classification | Zenodo(~2G)
音频参数:采样率:22KHz - 44KHz,< 4 秒
数据集 Dataset-AOB 是使用卷积神经网络为硕士论文收集和手动编辑的城市声音事件分类的音频数据集:
警报器 儿童玩耍 狗吠 引擎 脚步声 玻璃破碎 枪声 地铁列车 下雨和尖叫声
CHiME-Home
任务描述:DCASE 2016 Domestic audio tagging
下载地址:传送门(3.9GB)
音频格式:音频数据以两个采样率(48kHz 和 16kHz)的 4 秒块提供,其中 48kHz 数据为立体声,16kHz 数据为单声道。16kHz 录音是通过对 48kHz 录音的右手通道进行下采样获得的。
声学环境中的主要声源是两个成人和两个儿童、电视和电子产品、厨房用具、人类活动产生的脚步声和敲击声,以及来自屋外的声音[Christensen2010]。音频数据以两个采样率(48kHz 和 16kHz)的 4 秒块提供,其中 48kHz 数据为立体声,16kHz 数据为单声道。16kHz 录音是通过对 48kHz 录音的右手通道进行下采样获得的。每个音频文件对应一个块。
所有可用的音频数据都可用于系统开发,但将使用以 16kHz 采样的单声道音频数据进行评估,目的是接近商用硬件的典型录音能力。
UrbanSound
下载地址:传送门(17.9 GB)
音频格式:44.1kHz;双声道;16位深
该数据集包含 1302 条带标签的录音。每个录音都标有 10 个类别的声音事件的开始和结束时间。每个录音可能包含多个声音事件,但对于每个文件,仅标记来自单个类的事件。这些类来自城市声音分类。
空调设备 air_conditioner 汽车喇叭 car_horn 小孩玩耍 children_playing 狗吠 dog_bark 钻孔 drilling 发动机 enginge_idling 枪射击 gun_shot 手提 jackhammer 汽笛,警报器 siren 街头音乐 street_music
UrbanSound8K
下载地址:传送门(6.60GB)
音频格式:44.1kHz;双声道;16位深
该数据集包含来自 10 个类别的城市声音的 8732 个标记声音摘录 (<=4s)。这些类来自城市声音分类。
空调设备 air_conditioner 汽车喇叭 car_horn 小孩玩耍 children_playing 狗吠 dog_bark 钻孔 drilling 发动机 enginge_idling 枪射击 gun_shot 手提 jackhammer 汽笛,警报器 siren 街头音乐 street_music
Isolated urban sound database
下载地址:传送门(2.3G)
音频格式:44.1kHz;双声道;16位深
数据集包含两个文件夹:
- 事件:包括 231 个被视为突出的简短声音样本,持续时间为 1 到 20 秒,分为 21 个声音类别(铃声、哨声、汽车喇叭、过往汽车、锤子、吠狗、警笛、脚步声、金属噪音、声音……)
- 背景:包括 162 个持续时间较长的声音(~1mn30),其声学特性不会随时间变化。此类别包括鸣叫的鸟鸣、人群噪音、下雨、在校园里玩耍的孩子、持续的交通噪音......
Acoustic Event Dataset
下载地址:传送门(1.2GB)
acoustic guitar:原声吉他 airplane:飞机 applause:掌声 bird:鸟 car:车 cat:猫 child:小孩 church bell:教堂钟声 crowd:人群 dog_barking:狗吠 engine:发送机 fireworks:烟火 footstep:脚步 glass_breaking:玻璃破碎 hammer:敲击 helicopter:直升机 knock:敲,击;碰撞 laughter:笑 mouse click:鼠标点击 ocean surf:海浪 rustle:沙沙声 scream:尖叫 speech:演说,发言,谈话 squeak:吱吱叫,嘎吱作响 tone:声调,音调 violin:小提琴 water tap:水龙头 whistle:口哨声
BBC音效
下载地址:BBC Rewind - Sound Effects
可能需要爬虫才能把数据下载下来
飞机、动物、掌声、气氛、钟声、鸟类、时钟、喜剧、人群、日常生活、破坏、电子产品、活动、火、脚步声、工业、机器、医疗、军事、自然、运动、玩具、交通、
NAR 数据集
下载地址:传送门(35MB)
在 多个真实的家庭环境中录制
厨房:吃东西、窒息、餐具、装满杯子、打开水龙头、打开/关闭抽屉、移动椅子、打开微波炉、关闭微波炉、微波炉、冰箱、烤面包机
办公室:关门、开门、钥匙、敲门、撕纸、拉链、(另一个)拉链
非语言:拍手、拍手、拍舌
语音:1,2,3,4,5,6,7,8,9,10, Hello, Left, Right, Turn, Move, Stop, Nao, Yes, No, What
asr-noises
下载地址:传送门(4.7GB)
这个数据集下载不来了,不知道咋回事
DCASE
dataset、mobile dataset、openset 的区别:
使用四个同时捕获音频的设备进行录音。
主要录音设备包括Soundman OKM II Klassik/studio A3、驻极体双耳麦克风和使用 48kHz 采样率和 24 位分辨率的Zoom F8录音机。麦克风经过专门设计,看起来像耳机,戴在耳朵里。因此,录制的音频与到达佩戴设备的人的人类听觉系统的声音非常相似。该设备进一步称为设备 A。
其他设备是常见的客户设备:设备 B 是三星 Galaxy S7,设备 C 是 iPhone SE,设备 D 是 GoPro Hero5 Session。所有同时录制的内容都是时间同步的。
TAU Urban Acoustic Scenes 2019 开发数据集:仅包含使用设备 A 录制的材料,包含 40 小时的音频,在课程之间保持平衡。数据来自12个城市中的10个。TAU Urban Acoustic Scenes 2019 评估数据集包含来自所有 12 个城市的数据。
TAU Urban Acoustic Scenes 2019 移动开发数据集:包含使用设备 A、B 和 C 录制的材料。它由使用设备 A 录制的 TAU Urban Acoustic Scenes 2019 数据和使用设备 B 和 C 录制的一些并行音频组成。来自设备的数据A 被重新采样并平均到单个通道中,以与设备 B 和 C 记录的数据的属性保持一致。数据集总共包含 46 小时的音频(40h + 3h + 3h)。TAU Urban Acoustic Scenes 2019 移动评估数据集还包含来自设备 D 的数据。
TAU Urban Acoustic Scenes 2019 开放集开发数据集:仅包含使用设备 A 记录的材料,由 TAU Urban Acoustic Scenes 2019 和开放分类问题的其他音频示例组成。“开放”数据由TUT Acoustic Scenes 2017 数据集的“海滩”和“办公室”类以及 2019 年记录的其他材料组成。数据集总共包含 46 小时的音频(40 小时 + 6 小时)。TAU Urban Acoustic Scenes 2019 开放集评估数据集包含来自 10 个已知类别和其他未知类别的数据。
TUT Sound events 2016
下载地址:
- Development dataset(1.0GB)
- Evaluation dataset(471.2MB)
音频参数:44.1kHz,双声道,24位深
包含来自两个声学场景的 22 段录音:
家庭(室内),10 个录音,共 36:16 住宅区(室外),12个录音,共42:00
TUT Acoustic scenes 2016
下载地址:
- Development dataset (8.0 GB)
- Evaluation dataset (2.7 GB)
音频参数:44.1kHz,双声道,24位深
由来自 15 个声学场景的 30 秒音频片段组成,每个声学场景有 78 个片段,总共 39 分钟的音频。
Bus 公共汽车-在城市乘坐公共汽车(车辆) Cafe / Restaurant 咖啡厅/餐厅 - 小咖啡厅/餐厅(室内) Car 汽车 - 在城市中驾驶或作为乘客旅行(车辆) City center 市中心(室外) Forest path 林间小径(室外) Grocery store 杂货店 - 中型杂货店(室内) Home 家(室内) Lakeside beach 湖滨海滩(室外) Library 图书馆(室内) Metro station 地铁站(室内) Office 办公室 - 多人,典型工作日(室内) Residential area 住宅区(室外) Train 火车里面(旅行,车辆) Tram 有轨电车(旅行,车辆) Urban park 城市公园(室外)
smart cars 2017 test4
任务描述:DCASE 2017 Large-scale weakly supervised sound event detection for smart cars
Development: Training (Psswd Training file: DCASE_2017_training_set)
Development: Testing (Psswd Testing file: DCASE_2017_testing_set)
Evaluation dataset (863 MB) password "DCASE_2017_evaluation_set"
音频参数:44.1kHz,单声道,16位深
鸣笛: - 火车喇叭 (441) - 气喇叭、卡车喇叭 (407) - 汽车防盗器 (273) - 倒车提示音 (337) - 救护车(警笛) (624) - 警车(警笛) (2,399) - 消防车、消防车(警笛) (2,399) - 民防警报器 (1,506) - 尖叫 (744) 车辆声音: - 自行车 (2,020) - 滑板 (1,617) - 汽车 (25,744) - 路过的汽车 (3,724) - 公共汽车 (3,745) - 卡车 (7,090) - 摩托车 (3,291) - 火车 (2,301)
TUT Rare sound events 2017
下载地址:开发数据集 (17.5 GB) | 评估数据集 (7.4 GB)
音频参数:44.1kHz,单声道,16位深
包含用于创建稀有声音事件(婴儿哭声、枪声、玻璃破碎等)与背景音频的混合的源文件,以及一组易于生成的mixtures 和用于生成它们的配方。
数据集的“source”部分由两个子集组成:
-
来自 15 个不同声学场景的背景录音
- Bus 公共汽车-在城市乘坐公共汽车(车辆vehicle) - Cafe / Restaurant 咖啡厅/餐厅 - 小咖啡厅/餐厅(室内indoor) - Car 汽车 - 在城市中驾驶或作为乘客旅行(车辆vehicle) - City center 市中心(室外outdoor) - Forest path 林间小径(室外outdoor) - Grocery store 杂货店 - 中型杂货店(室内indoor) - Home 家(室内) - Lakeside beach 湖滨海滩(室外outdoor) - Library 图书馆(室内indoor) - Metro station 地铁站(室内indoor) - Office 办公室 - 多人,典型工作日(室内indoor) - Residential area住宅区(室外outdoor) - Train 火车(旅行,车辆) - Tram 有轨电车(旅行,车辆) - Urban park 城市公园(室外outdoor)
-
来自三类目标罕见声音事件的录音,并附有它们的时间发生的注释,
-
一组提供交叉验证设置的元文件:背景和目标事件记录列表分为训练和测试子集(分别称为“devtrain”和“devtest”,表示它们作为开发数据集提供,而不是评估数据集单独发布)。
mixture set 由两个子集(训练和测试)组成,每个子集包含约 1500 个混合(每个子集中每个目标类约 500 个,其中一半的混合不包含任何目标类事件)。
TUT Acoustic Scenes 2017
下载地址:
音频参数:44.1kHz,双声道,24位深
TUT Acoustic Scenes 2017,开发数据集由来自 15 个声学场景的 10 秒音频片段组成:
- Bus 公共汽车-在城市乘坐公共汽车(车辆vehicle) - Cafe / Restaurant 咖啡厅/餐厅 - 小咖啡厅/餐厅(室内indoor) - Car 汽车 - 在城市中驾驶或作为乘客旅行(车辆vehicle) - City center 市中心(室外outdoor) - Forest path 林间小径(室外outdoor) - Grocery store 杂货店 - 中型杂货店(室内indoor) - Home 家(室内) - Lakeside beach 湖滨海滩(室外outdoor) - Library 图书馆(室内indoor) - Metro station 地铁站(室内indoor) - Office 办公室 - 多人,典型工作日(室内indoor) - Residential area住宅区(室外outdoor) - Train 火车(旅行,车辆) - Tram 有轨电车(旅行,车辆) - Urban park 城市公园(室外outdoor)
TUT Sound events 2017
下载地址:
- Development dataset (1.3 GB)
- Evaluation dataset (388.2 MB)
音频参数:44.1kHz,双声道,24位深
这些录音是在不同的街道上拍摄的。对于每个录制位置,都会捕获 3-5 分钟长的录音。用于录音的设备包括双耳Soundman OKM II Klassik/studio A3驻极体入耳式麦克风和使用 44.1 kHz 采样率和 24 位分辨率的Roland Edirol R-09波形记录器。
街道,包含了(刹车吱吱作响、车、孩子们、大型车辆、说话的人、行走的人)
没有纯净噪声,只有噪声起止点。
TUT Urban Acoustic Scenes 2018
下载地址:
- Development dataset (21.4 GB)
- Evaluation dataset (8.9 GB)
- Leaderboard dataset (3.0 GB)
音频参数:48kHz,双声道,24位深
TUT Urban Acoustic Scenes 2018,排行榜数据集由来自 10 个声学场景的 10 秒音频片段组成:
机场 - airport 室内购物中心-shopping_mall 地铁站 - metro_station 步行街 - street_pedestrian 公共广场 - public_square 街道交通 - street_traffic 乘坐有轨电车 - tram 公交车上- bus 乘地铁旅行 - metro 城市公园- park
TAU Urban Acoustic Scenes 2019
下载地址:
- Development dataset (35.6 GB)
- Evaluation dataset (17.9 GB)
- Leaderboard dataset (3.0 GB)
音频参数:48kHz,双声道,24位深
包含来自 10 个声学场景的 10 秒音频片段,每个声学场景有 1440 个片段(240 分钟的音频)。该数据集总共包含 40 小时的音频。
- 机场 -airport - 室内购物中心 - shopping_mall - 地铁站 - metro_station - 步行街 - street_pedestrian - 公共广场 - public_square - 街道交通 - street_traffic - 乘坐有轨电车 - tram - 公交车上- bus - 乘地铁旅行 - metro - 城市公园- park
TAU Urban Acoustic Scenes 2020 Mobile
下载地址:
- Development dataset (27.4 GB)
- Evaluation dataset (13.1 GB)
音频参数:48kHz,双声道,24位深
TUT城市声学场景2020移动开发数据集由10个声学场景中的10秒音频片段组成
机场 - airport 室内购物中心-shopping_mall 地铁站 - metro_station 步行街 - street_pedestrian 公共广场 - public_square 街道交通 - street_traffic 乘坐有轨电车 - tram 公交车上 - bus 乘地铁旅行 - metro 城市公园- park
TAU Urban Acoustic Scenes 2020 3Class
下载地址:
- Development dataset (35.5 GB)
- Evaluation dataset (20.9 GB)
音频参数:48kHz,双声道,24位深
TAU Urban Acoustic Scenes 2020 3Class 数据集由来自 10 个声学场景的 10 秒音频片段组成,分为以下三大类 :
- 室内场景——*室内*: 机场:airport 室内商场:indoor shopping mall 地铁站:metro station - 户外场景-*户外*: 步行街:pedestrian street 公共广场:public square 中等交通街道:street with medium level of traffic 城市公园:urban park - 交通相关场景-*交通*: 乘坐公共汽车:travelling by a bus 乘坐电车:travelling by a tram 乘坐地铁:travelling by an underground metro
TAU Urban Audio-Visual Scenes 2021
下载地址:
- Development dataset (107.7 GB)
- Evaluation dataset (61.2 GB)
音频参数:
机场 - airport 室内购物中心-shopping_mall 地铁站 - metro_station 步行街 - street_pedestrian 公共广场 - public_square 街道交通 - street_traffic 乘坐有轨电车 -tram 公交上 -bus 乘地铁旅行 -metro 城市公园-park
TAU Urban Acoustic Scenes 2021 Mobile
下载地址:Evaluation dataset (8.8 GB)
音频参数:44.1kHz;单声道;24位深
机场 - airport 室内购物中心-shopping_mall 地铁站 - metro_station 步行街 - street_pedestrian 公共广场 - public_square 街道交通 - street_traffic 乘坐有轨电车 -tram 公交车上 -bus 乘地铁旅行 -metro 城市公园-park
TAU Urban Acoustic Scenes 2022 Mobile
下载地址:
- Development dataset (27.5 GB)
- Evaluation dataset (13.2 GB)
音频参数:44.1kHz;单声道;24位深
机场 - airport 室内购物中心 - shopping_mall 地铁站 - metro_station 步行街 - street_pedestrian 公共广场 - public_square 街道交通 - street_traffic 乘坐有轨电车 - tram 公交车上- bus 地铁 - metro 城市公园- park
综合数据集
综合数据集是 既有语音又有噪声的数据集
MUSAN
地址:传送门(11G)
音乐、语音和噪音的语料库
FSDnoisy18k
下载地址:传送门 (9.5 GB)
FSDnoisy18k 是一个音频数据集,旨在促进对声音事件分类中标签噪声的调查。它包含 20 个声音类别的 42.5 小时音频,包括少量手动标记的数据和大量真实世界的嘈杂数据。
DS_10283_2791
干净和嘈杂的并行语音数据库。该数据库旨在训练和测试以 48kHz 运行的语音增强方法。更详细的描述可以在与数据库相关的论文中找到。对于 28 个说话人数据集,详细信息可参见:C. Valentini-Botinhao、X. Wang、S. Takaki 和 J. Yamagishi,“使用深度循环神经网络的噪声鲁棒文本到语音合成系统的语音增强” “,在过程中。Interspeech 2016。对于 56 位说话者数据集:C. Valentini-Botinhao、X. Wang、S. Takaki 和 J. Yamagishi,“研究基于 RNN 的语音增强方法以实现抗噪文本到语音”,In Proc. SSW 2016. 用于创建嘈杂语音的一些噪音来自需求数据库,可在此处获得:http://parole.loria.fr/DEMAND/。语音数据库来自 CSTR VCTK 语料库,可在此处获取:https://doi.org/10.7488/ds/1994。用于创建此数据集的语音和 babble 噪声文件可在此处获得:http://homepages.inf.ed.ac.uk/cvbotinh/se/noises/。
CSTR NAM TIMIT Plus
下载地址:传送门(1.342G)
综合数据集就是啥也有
DNS-Challenge:https://github.com/microsoft/DNS-Challenge/tree/master/datasets
Noisy speech database for training speech enhancement algorithms and TTS models
OpenSLR:openslr.org
- 12:LibriSpeech ASR 语料库
- 17:A corpus of music, speech, and noise
- 18:THCHS-30清华大学发布的免费中文语音语料库
- 28:OpenSLR 房间脉冲响应和噪声数据库
- 38:冲浪科技的免费中文普通话语料库,包含855个说话者的话语,102600个话语;
- 60:LibriTTS语料库,自LibriSpeech语料库原始资料的大规模英语语音语料库
- 62:aidatatang_200zh,北京数据堂科技有限公司的中文普通话语音语料库,包含来自600位说话者的200小时语音数据。每个句子的转录准确率大于 98%
- 68:MAGICDATA 汉语普通话朗读语料库,魔数据科技有限公司的语料库,包含 755 小时的脚本阅读语音数据,来自中国大陆的 1080 位母语为普通话的人。句子转录准确率高于98%。
参考
【知乎】语音数据集整理
【github】open-speech-corpora
语音增强基于GUI维纳滤波之语音增强matlab 源码
一、简介
本章提出了一种语音增强算法,该算法以基于先验信噪比估计的维纳滤波法为基础。通过计算无声段的统计平均得到初始噪声功率谱,并平滑处理初始噪声功率谱和带噪语音功率谱,更新了噪声功率谱;最后,考虑了某频率点处噪声急剧增大的情况,做了相关验证,该算法能有效地抑制变化范围不大或是稳定的噪声,但是对实际中的变化范围很广的噪声效果不是很好。
1、语音增强概述
1.1 语音增强的相关概念
嵌在语音系统中,语音信号不可避免的会受到周围噪声的干扰,从而影响语音的质量与可懂度。
语音增强:其实就是带噪语音中提取尽可能纯净的语音,改善语音质量和可懂度,提高噪声环境下语音通信系统的性能。
噪声都随机产生的,不可能完全消除。语音增强的目标是:减弱噪声、消除背景噪声、改进语音质量、使听着乐于接受,提高语音可懂度。
1.2 语音增强的相关算法
由于噪声来源众多,特性各不相同。语音增强处理系统的应用场合千差万别。
因此,不存在一种可以通用于各种噪声环境的语音增强算法。针对不同的环境,采取不同的语音增强算法。
语音增强算法按处理方式可以分为:基于语音周期性的增强算法,基于全极点模型的增强算法,基于短时谱估计的增强算法,基于信号子空间的增强算法和
基于HMM的增强算法。
从目前的发展来看,基于短时谱估计的方法是最有效的方法。具体包括谱减法、维纳滤波、最小均方误差短时谱幅度估计法(MMSE-STSA)和最小均方误差对数谱幅度估计法(MMSE-LSA)。本文主要讨论使用维纳滤波器实现语音的增强处理。
2 基于先验信噪比估计的维纳滤波语音增强理论
先验信噪比是语音增强算法中非常重要的参数。 通过Ephraim和 Malah提出的“直接判决”估计来计算先验信噪比的方法是最有效的和最容易计算的。
二、源代码
function varargout = adsp_project(varargin)
% ADSP_PROJECT MATLAB code for adsp_project.fig
% ADSP_PROJECT, by itself, creates a new ADSP_PROJECT or raises the existing
% singleton*.
%
% H = ADSP_PROJECT returns the handle to a new ADSP_PROJECT or the handle to
% the existing singleton*.
%
% ADSP_PROJECT('CALLBACK',hObject,eventData,handles,...) calls the local
% function named CALLBACK in ADSP_PROJECT.M with the given input arguments.
%
% ADSP_PROJECT('Property','Value',...) creates a new ADSP_PROJECT or raises the
% existing singleton*. Starting from the left, property value pairs are
% applied to the GUI before adsp_project_OpeningFcn gets called. An
% unrecognized property name or invalid value makes property application
% stop. All inputs are passed to adsp_project_OpeningFcn via varargin.
%
% *See GUI Options on GUIDE's Tools menu. Choose "GUI allows only one
% instance to run (singleton)".
%
% See also: GUIDE, GUIDATA, GUIHANDLES
% Edit the above text to modify the response to help adsp_project
% Last Modified by GUIDE v2.5 15-Dec-2014 18:26:21
% Begin initialization code - DO NOT EDIT
gui_Singleton = 1;
gui_State = struct('gui_Name', mfilename, ...
'gui_Singleton', gui_Singleton, ...
'gui_OpeningFcn', @adsp_project_OpeningFcn, ...
'gui_OutputFcn', @adsp_project_OutputFcn, ...
'gui_LayoutFcn', [] , ...
'gui_Callback', []);
if nargin && ischar(varargin{1})
gui_State.gui_Callback = str2func(varargin{1});
end
if nargout
[varargout{1:nargout}] = gui_mainfcn(gui_State, varargin{:});
else
gui_mainfcn(gui_State, varargin{:});
end
% End initialization code - DO NOT EDIT
% --- Executes just before adsp_project is made visible.
function adsp_project_OpeningFcn(hObject, eventdata, handles, varargin)
% This function has no output args, see OutputFcn.
% hObject handle to figure
% eventdata reserved - to be defined in a future version of MATLAB
% handles structure with handles and user data (see GUIDATA)
% varargin command line arguments to adsp_project (see VARARGIN)
% Choose default command line output for adsp_project
handles.output = hObject;
% Update handles structure
guidata(hObject, handles);
% UIWAIT makes adsp_project wait for user response (see UIRESUME)
% uiwait(handles.figure1);
% --- Outputs from this function are returned to the command line.
function varargout = adsp_project_OutputFcn(hObject, eventdata, handles)
% varargout cell array for returning output args (see VARARGOUT);
% hObject handle to figure
% eventdata reserved - to be defined in a future version of MATLAB
% handles structure with handles and user data (see GUIDATA)
% Get default command line output from handles structure
varargout{1} = handles.output;
% --- Executes on button press in pushbutton1.
function pushbutton1_Callback(hObject, eventdata, handles)
global xk;
global fs;
global noise_type;
noise_type=1;
[FileName,PathName] = uigetfile('*.wav','Select the voice-file');
[x,fs]=wavread(FileName);
ls=length(x);
xk=x(1:ls);
set(handles.text_fs,'string',num2str(fs));
set(handles.text_ls,'string',num2str(ls));
axes(handles.axes_freq);
%xaxis1=linspace(0,0.5,250);
plot(abs(fft(xk))); %xk 音频的句柄 用来做按键响应函数
axis([0,14000,0,300]) ;
axes(handles.axes_wave);
%xaxis1=linspace(0,0.5,250);
h_xk=plot(xk); %xk 音频的句柄 用来做按键响应函数
axis([0,30000,-1.5,1.5]) ;
set(h_xk,'ButtonDownFcn',@axes_waveCallback);
%grid on;
%set(gca,'xtick',(0:0.02:0.5),'ytick',[0:100:500]);
%axis([0.25 0.45 0 500]);
% hObject handle to pushbutton1 (see GCBO)
% eventdata reserved - to be defined in a future version of MATLAB
% handles structure with handles and user data (see GUIDATA)
% --- Executes on button press in pushbutton2.
function pushbutton2_Callback(hObject, eventdata, handles)
global xk;
global SNR;
global fs;
global xs;
global noise_type;
noise_type=1;%高斯噪声
SNR_slider=get(handles.slider_SNR,'value');
SNR_slider=floor(SNR_slider);
SNR=num2str(SNR_slider);
set(handles.text_snr,'string',SNR);
xs=awgn(xk,SNR_slider,0);%加入高斯白噪声,信噪比30
axes(handles.axes_freq);
plot(abs(fft(xs))); %xk 音频的句柄 用来做按键响应函数
axis([0,14000,0,300]) ;
axes(handles.axes_noise);
h_xs=plot(xs);
axis([0,30000,-1.5,1.5]) ;
set(h_xs,'ButtonDownFcn',@axes_noiseCallback);
% hObject handle to pushbutton2 (see GCBO)
% eventdata reserved - to be defined in a future version of MATLAB
% handles structure with handles and user data (see GUIDATA)
% --- Executes on button press in pushbutton3.
% hObject handle to pushbutton3 (see GCBO)
% eventdata reserved - to be defined in a future version of MATLAB
% handles structure with handles and user data (see GUIDATA)
% --- Executes on selection change in popupmenu1.
function popupmenu1_Callback(hObject, eventdata, handles)
% hObject handle to popupmenu1 (see GCBO)
% eventdata reserved - to be defined in a future version of MATLAB
% handles structure with handles and user data (see GUIDATA)
% Hints: contents = cellstr(get(hObject,'String')) returns popupmenu1 contents as cell array
% contents{get(hObject,'Value')} returns selected item from popupmenu1
% --- Executes during object creation, after setting all properties.
function popupmenu1_CreateFcn(hObject, eventdata, handles)
% hObject handle to popupmenu1 (see GCBO)
% eventdata reserved - to be defined in a future version of MATLAB
% handles empty - handles not created until after all CreateFcns called
% Hint: popupmenu controls usually have a white background on Windows.
% See ISPC and COMPUTER.
if ispc && isequal(get(hObject,'BackgroundColor'), get(0,'defaultUicontrolBackgroundColor'))
set(hObject,'BackgroundColor','white');
end
% --- Executes on key press with focus on pushbutton1 and none of its controls.
function pushbutton1_KeyPressFcn(hObject, eventdata, handles)
% hObject handle to pushbutton1 (see GCBO)
% eventdata structure with the following fields (see UICONTROL)
% Key: name of the key that was pressed, in lower case
% Character: character interpretation of the key(s) that was pressed
% Modifier: name(s) of the modifier key(s) (i.e., control, shift) pressed
% handles structure with handles and user data (see GUIDATA)
% --- If Enable == 'on', executes on mouse press in 5 pixel border.
% --- Otherwise, executes on mouse press in 5 pixel border or over pushbutton1.
function pushbutton1_ButtonDownFcn(hObject, eventdata, handles)
% hObject handle to pushbutton1 (see GCBO)
% eventdata reserved - to be defined in a future version of MATLAB
% handles structure with handles and user data (see GUIDATA)
% --- Executes on slider movement.
function slider2_Callback(hObject, eventdata, handles)
% hObject handle to slider2 (see GCBO)
% eventdata reserved - to be defined in a future version of MATLAB
% handles structure with handles and user data (see GUIDATA)
% Hints: get(hObject,'Value') returns position of slider
% get(hObject,'Min') and get(hObject,'Max') to determine range of slider
% --- Executes during object creation, after setting all properties.
function slider2_CreateFcn(hObject, eventdata, handles)
% hObject handle to slider2 (see GCBO)
% eventdata reserved - to be defined in a future version of MATLAB
% handles empty - handles not created until after all CreateFcns called
% Hint: slider controls usually have a light gray background.
if isequal(get(hObject,'BackgroundColor'), get(0,'defaultUicontrolBackgroundColor'))
set(hObject,'BackgroundColor',[.9 .9 .9]);
end
三、运行结果
四、备注
完整代码或者仿真咨询添加QQ1575304183
以上是关于语音和噪声相关数据集(持续更新)的主要内容,如果未能解决你的问题,请参考以下文章
语音识别基于LMS算法消除嘈杂的鸟类语音信号中的噪声后识别其对应的鸟类物种(Matlab代码实现)
语音识别基于matlab GUI动态时间规整算法(RTW)语音识别系统含Matlab源码 341期