公开数据集
数据结构 ? 12.6G
Data Structure ?
* 以上分析是由系统提取分析形成的结果,具体实际数据为准。
README.md
VoxForge 创建的初衷是为免费和开源的语音识别引擎收集标注录音(在 Linux/Unix,Windows 以及 Mac 平台上)。
我们以GPL 协议开放所有提交的录音文件,并制作声学模型,以供开源语音识别引擎使用,如CMUSphinx,ISIP,Julias(github)和HTK(注意:HTK 有分发限制)。
为什么需要免费的 GPL 协议的录音? 开源语音识别(或语音转写)引擎使用的声学模型是**闭源**的。使用者没有接触用于制作这些声学模型的音频和标注文件(即语料库)的权限。 造成这一现象的原因是,真正能够用于制作语音识别引擎声学模型的语料库没有免费的。开源项目需要购买有限版权的语料库,也就是说不允许他们分发语料数据,但是可以分发用这些数据制作的声学模型。
如何贡献 点击“用你的计算机提交录音”图标,学习如何用你的计算机录制你的声音并提交至 VoxForge。
下载脚本(python 爬取):
import urllib
import urllib2
import os
import re
os.chdir('D:\voxforge speech files\')#改变当前路径
#refiles=open('speech_files_path.txt','w+')#存储所有下载连接
mainpath='http://www.repository.voxforge1.org/downloads/SpeechCorpus/Trunk/Audio/Main/16kHz_16bit/'
def gettgz(url):
page=urllib.urlopen(url)
html=page.read()
reg=r'href=".*.tgz"'
tgzre=re.compile(reg)
tgzlist=re.findall(tgzre,html) #找到所有.tgz文件
for i in tgzlist:
filename=i.replace('href="','')
filename=filename.replace('"','')
print '正在下载:'+filename #提示正在下载的文件
downfile=i.replace('href="',mainpath)
downfile=downfile.replace('"','') #得到每个文件的完整连接
req = urllib2.Request(downfile) #下载文件
ur = urllib2.urlopen(req).read()
open(filename,'wb').write(ur) #把下载的文件以tgz格式存储在D盘
refiles.write(downfile+'
')
html=gettgz(mainpath)
#refiles.close()
或者使用 kaldi 的脚本:
https://github.com/kaldi-asr/kaldi/blob/master/egs/voxforge/s5/getdata.sh
×
帕依提提提温馨提示
该数据集正在整理中,为您准备了其他渠道,请您使用
注:部分数据正在处理中,未能直接提供下载,还请大家理解和支持。
暂无相关内容。
暂无相关内容。
- 分享你的想法
去分享你的想法~~
全部内容
欢迎交流分享
开始分享您的观点和意见,和大家一起交流分享.
数据使用声明:
- 1、该数据来自于互联网数据采集或服务商的提供,本平台为用户提供数据集的展示与浏览。
- 2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
- 3、数据集基本信息来自数据原地址或数据提供方提供的信息,如数据集描述中有描述差异,请以数据原地址或服务商原地址为准。
- 1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。
- 1、如您需要转载本站数据,请保留原数据地址及相关版权声明。
- 1、如本站中的部分数据涉及侵权展示,请及时联系本站,我们会安排进行数据下线。