AI知道

AI数据小姐姐

收藏 | 举报 2021-11-07 16:12 关注：976 回答：1

哪里可以找到语音数据集？

已解决

悬赏分：0 - 解决时间 2021-12-26 22:36

求那种有背景噪声，每段1-2秒的英文语音数据集。

匿名

支持(0) | 反对(2) | 举报 2021-11-17 12:41

【多种语言】
1.Mozilla Common Voice
1）基本信息
时长：1965小时（暂时）
最早2017年发布，持续更新，该基金会表示，通过 Common Voice 网站和移动应用，他们正在积极开展 70 种语言的数据收集工作。
Mozilla 宣称其拥有可供使用的最大的人类语音数据集，当前数据集有包括 29 种不同的语言,其中包括汉语，从 4万多名贡献者那里收集了近 2454 小时（其中1965小时已验证）的录音语音数据。并且做出了开放的承诺：向初创公司、研究人员以及对语音技术感兴趣的任何人公开我们收集到的高质量语音数据。
2）数据集特点
Common Voice数据集不仅在其大小和许可模型（https://github.com/JRMeyer/open-speech-corpora）方面是独一无二的，而且在其多样性上也是独一无二的。它代表了一个由语音贡献者组成的全球社区。贡献者可以选择提供诸如他们的年龄、性别和口音等统计元数据，这样他们的语音片段就会被标记上在训练语音引擎中有用的信息。这是一种不同于其他可公开获取的数据集的方法，这些数据集要么是手工制作的多样性数据集(即男性和女性数量相等)，要么是语料库与“已发现”的数据集一样的多样性数据集(例如，TED演讲中的TEDLIUM语料库是男性和女性的3倍)。
3）链接
下载地址：https://voice.mozilla.org/data
参考：https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/88266146

2.翻译和口语音频的大型数据库Tatoeba

1）基本信息
项目始于2006年
tatoeba是一个用于语言学习的句子、翻译和口语音频的大型数据库。，收集面向外语学习者的例句的网站，用户无须注册便可以搜索任何单词的例句。如果例句含有对应的真人发音，也可以点击收听。注册用户可以添加、翻译、接管、改进、讨论句子。还可以在留言板上和其他注册用户讨论。在留言板上，所有的语言都是平等的，注册用户可以使用自己喜欢的语言与其他用户交流。
3）链接
下载地址：
https://tatoeba.org/eng/downloads

【英语】
3.VOiCES Dataset
1）基本信息
发布时间：2018年
时长：总共15小时（3903个音频文件）
参与人数：300人
这个数据集是在复杂的环境设置（声音）语料库掩盖的声音呈现在声学挑战性条件下的音频记录。录音发生在不同大小的真实房间中，捕捉每个房间的不同背景和混响轮廓。各种类型的干扰器噪声（电视，音乐，或潺潺声）同时播放干净的讲话。在房间内精心布置的12个麦克风在远处录制音频，每个麦克风产生120小时的音频。为了模仿谈话中的人类行为，前景扬声器使用电动平台，在记录期间旋转一系列角度。
三百个不同的扬声器从LibriSpeech的“干净”的数据子集被选择作为源音频，确保50-50女性男性分组。在准备即将到来的数据挑战时，语音语料库的第一次发布将只包括200个发言者。剩下的100个发言者将被保留用于模型验证；一旦数据挑战赛被关闭，完整的语料库（300个发言者）将被释放。除了完整的数据集之外，我们还提供了一个DEV集合和一个迷你DEV集合。两者都保持了语音语料库的数据结构，但都包含了一小部分数据。DEV集包括四个随机选择的扬声器（50-50个女性男性分组）的音频文件，用于ROM-1中记录的数据。这包括所有12个麦克风的数据。迷你开发套件仅包括一个扬声器、一个房间（1号房间）和录音棚话筒。
2）语料库特点
本语料库的目的是促进声学研究，包括但不限于：
    说话人识别，语音识别，说话人检测。
    事件和背景分类，语音/非语音。
    源分离和定位，降噪，一般增强，声学质量度量
其中音频包含：
    男女声阅读的英语。
    模拟的头部运动：使用电动旋转平台上的扬声器来模拟前景旋转。
    杂散噪声包含大量的电视、音乐、噪音。
    包括大、中、小多个房间的各种混响。
语料库包含源音频、重传音频、正字法转录和说话人标签，有转录和模拟记录的真实世界的噪音。该语料库的最终目标是通过提供对复杂声学数据的访问来推进声学研究。语料库将以开源的形式发布，免费供商业、学术和政府使用。
3）链接
下载地址：
https://voices18.github.io/downloads/
文献：
https://arxiv.org/abs/1804.05053
See more：
https://voices18.github.io/reading/

4. LibriSpeech
1）基本信息
发布时间：2015年
大小：60GB
时长：1000小时
采样：16Hz
LibriSpeech该数据集为包含文本和语音的有声读物数据集，由Vassil Panayotov编写的大约1000小时的16kHz读取英语演讲的语料库。数据来源于LibriVox项目的阅读有声读物，并经过细致的细分和一致。经过切割和整理成每条10秒左右的、经过文本标注的音频文件，非常适合入门使用。
2）数据集特点
推荐应用方向：自然语音理解和分析挖掘
3）链接
（内含镜像）地址：http://www.openslr.org/12/

5.2000 HUB5 English：
1）基本信息
发布时间：2002年
该数据集由NIST（国家标准与技术研究院）2000年发起的HUB5评估中使用的40个英语电话对话的成绩单组成，其仅包含英语的语音数据集。HUB5评估系列集中在电话上的会话语音，将会话语音转录成文本的特定任务。其目标是探索会话语音识别的新领域，开发融合这些思想的先进技术，并测量新技术的性能。
此版本包含评估中用到的40个源语音数据文件的.txt格式的脚本，即20个未发布的电话交谈，是招募的志愿者根据机器人操作员的每日主题进行对话，和20个来自CALLHOME美国英语演讲中的母语交流者之间的对话。
2）数据集特点
推荐应用方向：音乐、人声、车辆、乐器、室内等自然和人物声音识别
3）链接
地址：https://catalog.ldc.upenn.edu/LDC2002T43

6.VoxForge：
1）基本信息
带口音的清晰英语语音数据集。适用于提升不同口音或语调鲁棒性的案例。VoxForge创建的初衷是为免费和开源的语音识别引擎收集标注录音（在Linux／Unix，Windows以及Mac平台上）
2）特点
    以GPL协议开放所有提交的录音文件，并且制作声学模型。以供开源语音识别引擎使用，如CMUSphinx，ISIP，Julias（github）和HTK（注意：HTK有分发限制）。
推荐应用方向：语音识别
3）链接
下载地址：
http://www.voxforge.org/home/downloads

7.人类语音的大规模视听数据集（VoxCeleb）
1）基本信息
VoxCeleb是一个大型人声识别数据集。它包含来自 YouTube 视频的 1251 位名人的约 10 万段语音。数据基本上是性别平衡的（男性占 55％）。这些名人有不同的口音、职业和年龄。开发集和测试集之间没有重叠。
该数据集有2个子集：VoxCeleb1和VoxCeleb2
7.1 VoxCeleb1
VoxCeleb1包含超过10万个针对1,251个名人的话语，这些话语是从上传到YouTube的视频短片中提取的。
发音人数：1251
视频数量：21245
音频数量：145265
下载地址：
http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html

7.2 VoxCeleb2

说话人深度识别数据集 VoxCeleb2包含超过100万个6,112个名人的话语，从上传到YouTube的视频中提取，VoxCeleb2已经与VoxCeleb1或SITW数据集没有重叠的说话人身份。
发音人数量：训练集：5994，测试集：118
视频数量：训练集：145569，测试集：4911
音频数量：训练集：1092009，测试集：36237
内容时长：2000小时以上
发布时间：2018年
下载地址：
http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox2.html

2）数据集特点
1、音频全部采自YouTube，是从网上视频切除出对应的音轨，再再根据说话人进行切分；
2、属于完全真实的英文语音；
3、数据集是文本无关的；
4、说话人范围广泛，具有多样的种族，口音，职业和年龄；
5、每句平均时长8.2s，最大时长145s，最短时长4s，短语音较多；
6、每人平均持有句子116句，最大持有250句，最小持有45句；
7、数据集男女性别较均衡，男性有690人（55%），女性有561人；
8、采样率16kHz，16bit，单声道，PCM-WAV音频格式；
9、语音带有一定真实噪声，非人造白噪声，噪声出现时间点无规律，人声有大有小；
10、噪声包括：环境突发噪声、背景人声、笑声、回声、室内噪音、录音设备噪音；
11、视频场景包括：明星红地毯、名人讲台演讲、真人节目访谈、大型体育场解说；
12、音频无静音段，但不是VAD的效果，而是截取了一个人的完整无静音音频片段；
13、数据集自身以划分了开发集Dev和测试集Test，可直接用于Speaker Verification(V)
参考：https://www.zhihu.com/question/265820133/answer/356203615

8.TIMIT：英语语音识别数据集
1）基本信息
发布时间：1993年
采样：16kHz 16bit
参与人数：630人
TIMIT（英语：The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus），是由德州仪器、麻省理工学院和坦福研究院SRI International合作构建的声学－音素连续语音语料库。TIMIT数据集的语音采样频率为16kHz，一共包含6300个句子，由来自美国八个主要方言地区的630个人每人说出给定的10个句子，所有的句子都在音素级别（phone level）上进行了手动分割，标记。TIMIT语料库包括时间对齐的正字法，语音和单词转录以及每个话语的16位，16kHz语音波形文件。
在给定的10个句子，包括：
    2个方言句子(SA, dialect sentences)，对于每个人这2个方言句子都是相同的；
    5个音素紧凑句子(SX, phonetically compact sentences)，这5个是从MIT所给的450
个因素分布平衡的句子中选出，目的是为了尽可能的包含所有的音素对。
    3个音素发散句子(SI, phonetically diverse sentences)，这3个是由TI从已有的
Brown 语料库(the Brown Coupus)和剧作家对话集(the Playwrights Dialog)中随机选择的，目的是为了增加句子类型和音素文本的多样性，使之尽可能的包括所有的音位变体(allophonic contexts)。
TIMIT官方文档建议按照7:3的比例将数据集划分为训练集(70%)和测试集(30%) ，TIMIT的原始录音是基于61个音素的，如下所示：
由于在实际中61个音素考虑的情况太多，因而在训练时有些研究者整合为48个音素，当评估模型时，李开复在他的成名作(Lee & Hon, 1989)所提出的将61个音素合并为39个音素方法被广为使用。
2）特点
推荐应用方向：语音识别
70%的说话人是男性；大多数说话者是成年白人。
TIMIT语料库多年来已经成为语音识别社区的一个标准数据库，在今天仍被广为使用。其原因主要有两个方面：
1数据集中的每一个句子都在音素级别上进行了手动标记，同时提供了说话人的编号，性别，方言种类等多种信息；
2数据集相对来说比较小，可以在较短的时间内完成整个实验；同时又足以展现系统的性能

————————————————
版权声明：本文为CSDN博主「W_Ria」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/wr1997/article/details/102021319

Select Language

AI社区

今日排行

本月搜索

Dataset Category

AI知道

哪里可以找到语音数据集？

我的问答

最新问题