自然语言_公开数据集帕依提提-人工智能高质量数据集开放平台

人民日报词性标注语料数据（199801）人民日报语料，分词和词性标注POS的语料(Chinese corpus for Word segmentation and par of speech)资源为1998年人民日报1-6月份...OCR/Text Detection Classification

3.37M 1208

robot

心灵鸡汤文本数据集来自github的一个毒鸡汤文本数据集，该数据是网站 http://www.nows.fun/ 的站点数据。数据量：1232条。文件格式为sql...OCR/Text Detection Classification

125K 1337

robot

20万英语笑话文本数据集发布时间： 2016年这个数据库中有大约208000个笑话。文件目前数据集包含来自三个来源的笑话。---------------------------------...OCR/Text Detection Classification

24.57M 1037

robot

手语数字图片数据集手语（也称为手语）是使用手动交流传达含义的语言。这可以包括同时采用手势，运动，手指，手臂或身体的方向以及面部表情来传达讲...OCR/Text Detection Classification

16.4M 1018

robot

美国手语中字母的图像数据集数据集是来自美国手语的字母图像的集合，分为29个文件夹，代表各个类别。训练数据集包含87,000张200x200像素的图像。有29个...NLP,Image Search Classification

1.03G 1250

robot

处理单词和物体时的fMRI图像数据 OpenfMRI数据库（Poldrack等人，2013年；Poldrack和Gorgolewski，2015年）是一个使用MRI和EEG技术收集的人脑成像数据库。它从201...Image Search Classification

3.14G 929

robot

腾讯AI Lab开源大规模高质量中文词向量数据腾讯AI Lab此次公开的中文词向量数据包含800多万中文词汇，其中每个词对应一个200维的向量。相比现有的中文词向量数据，腾讯AI L...NLP,MNIST Classification

39.4G 826

robot

Euler图学习开源数据集本数据集根据2018年10月23日多类目下采样得到的用户点击行为数据，构建得到图数据。注：列分割符为”||”节点编号：图数据包括两...MNIST Classification

243.41M 610

robot

TED平行语料库 TED平行语料库是多语言平行语料库，包括多语言并行语料库和单语语料库。从TED会议www.ted.com 提取109种世界语言。多语言的平行...MNIST Classification

872.9M 1135

robot

SMS垃圾邮件收集数据集，标记为垃圾邮件或合法短信的集合 SMS Spam Corpus v.0.1是一组SMS短信标签消息，已收集用于SMS Spam研究。它包含两个英文短信息集合，包含1084和1319条消息，标记...MNIST Classification

503K 1375

robot

Twitter情感分析训练语料库推特情感分析数据集包含1,578,627条分类推文，每一行都被标记为1代表积极情感，0代表消极情感。我建议使用1/10的语料库来测试你...MNIST Classification

53.8M 1005

robot

谷歌AI自然语言对话数据集CCPE MNIST Classification

5M 769

robot

谷歌AI自然语言对话数据集Taskmaster-1 MNIST Classification

80M 817

robot

多领域情感数据集（2.0版）多域情感数据集包含来自Amazon.com的许多产品类型（域）的产品评论。某些域（书籍和DVD）具有数十万条评论。其他（乐器）只有几...MNIST Classification

1.53G 822

robot

斯坦福大学Sentiment140情感分析数据集 Sentiment140数据集是斯坦福大学的一个课堂项目产生的一个用于情感分析的数据集，数据抓取自twitter；这个流行的数据集能让你完...MNIST Classification

77.6M 1205

robot

CodeSearchNet挑战赛代码数据集 MNIST Classification

20G 841

robot

中文繁体字分词数据集 UD-Chinese-GSD Universal Dependencies 是一个旨在为多种语言开发跨语言一致的树库注释的项目，其目标是促进多语言解析器的开发、跨语言学习和...MNIST Classification

400.17M 828

robot

清华大学开放中文词库（THUOCL） MNIST Classification

2.6M 870

robot

百度实体标注数据集一个大规模的中文短文本语料库，用于实体识别和链接任务。BEL包含100K注释的短文本，以及对应于百度知识库中的实体的提及和链接...NLP,MNIST Classification

381.4M 681

robot

微软表格数据集TableBank TableBank 是一个新的基于图像的表格检测和识别数据集，利用互联网上 Word 和 Latex 文档的新颖弱监督构建，包含 417K 高质量标...MNIST Classification

23.1G 959

robot

Select Language

AI社区

今日排行

本月搜索

Dataset Category

公开数据集