Primewords 中文普通话语料库,包含100小时的语音数据
This free Chinese Mandarin speech corpus set is released by Shanghai Primewords Information Technology Co., Ltd.The corp...Music Analysis Audio
9G
1380
primewords
免费 ST 中文普通话语料库
Thiscorpuswererecordedinsilencein-doorenvironmentusingcellphone.Ithas855speakers.Eachspeakerhas120utterances.Allutteranc...Music Analysis Audio
8.2G
915
surfing.ai
8.2G
552
openslr
THUCTC 中文文本分类数据集
THUCTC(THU Chinese Text Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自...OCR/Text Detection Classification
1.1G
2596
清华大学自然语言处理与社会人文计算实验室
THCHS30 中文语音数据集
THCHS30是一个开放的中文语音数据库,由清华大学语音与语言技术中心(CSLT)发布。原始记录是2002年由王冬在清华大学计算机科学...Music Analysis Audio
6.4G
1068
清华大学语音与语言技术中心
自然图像中文本定位的合成数据集,包含80万张图像
这是一个综合生成的数据集,其中单词实例被放置在自然场景图像中,同时考虑到了场景布局。该数据集由80万张图像组成,其中有大约...Image Search Classification
73.5G
1223
robot
6.9M
1107
robot
腾讯AI Lab开源大规模高质量中文词向量数据
腾讯AI Lab此次公开的中文词向量数据包含800多万中文词汇,其中每个词对应一个200维的向量。相比现有的中文词向量数据,腾讯AI L...NLP,MNIST Classification
39.4G
579
robot
中文繁体字分词数据集 UD-Chinese-GSD
Universal Dependencies 是一个旨在为多种语言开发跨语言一致的树库注释的项目,其目标是促进多语言解析器的开发、跨语言学习和...MNIST Classification
400.17M
620
robot
354K
566
robot
大型室外中文字符OCR标注数据集,包含3850个独特字符的约100 万个汉字
In this paper, we introduce a very large Chinese text dataset in the wild. While optical character recognition (OCR) in...Action/Event Detection Classification
36.23G
342
清华大学-腾讯联合实验室
香港中文大学人脸素描数据集CUFS
香港中文大学人脸素描数据库(CUFS)是用于研究人脸素描合成和人脸素描识别。它包括香港中文大学(CUHK)学生数据库中的188张脸...Face Classification
55.71M
950
robot
香港中文大学人脸素描数据集CUFSF
CUHK Face Sketch FERET Database (CUFSF) is for research on face sketchsynthesis and face sketch recognition. It includes...Face 2D Box
84.3M
1467
The CUHK Multimedia Lab