Select Language

AI社区

公开数据集

WikiText 英语词库 包含1亿个词汇的英文词库数据 WikiText英语词库数据(TheWikiTextLongTermDependencyLanguageModelingDataset)WikiText长期依赖语言建模数据集是一个包含1亿...NLP Text
373.28M 1096
JRC Names 实体专有名词库 JRC-Names是一个高度多语言的命名实体资源,用于个人和组织名称(称为“实体”)。它包含大量名称列表及其多种拼写变体(单个人...NLP Text
762.56M 1468
PubMed医学数据集: 包含提取的 3984 个医学句子 该数据集包含从 PubMed 摘要中提取的 3984 个医学句子,并标注了不同医学术语之间的关系。该数据集主要关注“治疗”和“病因”关...NLP Classification
9.4M 1055
THUCTC 中文文本分类数据集 THUCTC(THU Chinese Text Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自...OCR/Text Detection Classification
1.1G 2650
英文单词识别图像数据集 Text Recognition 是一个文字识别图像数据,包含 900万张 图像,图像中有 9万 多个英文单词,可用于进行光学字符识别任务(Optic...Image Search Classification
9.41G 605
处理单词和物体时的fMRI图像数据 OpenfMRI数据库(Poldrack等人,2013年;Poldrack和Gorgolewski,2015年)是一个使用MRI和EEG技术收集的人脑成像数据库。它从201...Image Search Classification
3.14G 697
UJI笔字符(第2版)数据集 F. Prat(*), M. J. Castro(+), D. Llorens(*), A. Marzal(*), and J. M. Vilar(*)* Departamento de Lenguajes y Sistemas Infor...Computer Classification
2.03M 739
FastText 一个用于学习词嵌入和文本分类的库 fastText is a library for learning of word embeddings and text classification created by Facebook's AI Research (FAI...NLP,Computer Science Classification
6.6G 649
谷歌Word2Vec模型,包括 300 万个单词和短语的词汇表的单词向量 It’s 1.5GB! It includes word vectors for a vocabulary of 3 million words and phrases that they trained on roughly 100 b...Computer Science,Programming Classification
3.64G 363
Hubber模型,各行业文本数据 Hubber模型,各行业文本数据...NLP,MNIST Classification
473.41M 384
英语词频,⅓ 百万网络上最常见的英语单词 This dataset contains the counts of the 333,333 most commonly-used single words on the English language web, as derived...Languages Classification
4.73M 600
fastText 预训练词向量数据集 fastText Pre-trained word vectors English...Others Classification
8.49G 487
预训练的 word2vec 模型,英语维基百科数据 # DatasetThis dataset was created by RabidBear# ContentsIt contains the following files:...Others Classification
3.2G 427