处理_公开数据集帕依提提-人工智能数据集开放平台

MIMIC III 数据集 MIMIC III 数据集...Diseases Text

66.62M 598

MIKI

人工智能语料库-Ubuntu对话语料库包含2600万次对话数据建立对话系统（人类可以与虚拟代理进行自然对话）是自然语言处理中的一项艰巨任务，也是许多正在进行的研究的重点。一些挑战包括...NLP Text

2.7G 3163

Rachael Tatman

Visual Question Answering V2.0 一个针对图像内容进行自然语言问答的数据集 Visual Question Answering (VQA) 是一个针对图像内容进行自然语言问答数据集，其中有关图像的自然语言问题和答案需要对图像内容...NLP Text

30.7G 997

VQA

IAM 50个最常见的作家手写数据集 IAM手写数据集是几位作者的手写文章的集合。通常，他们使用该数据根据作家的写作风格对作家进行分类。解决此类问题的传统方法是...NLP Text

186.97M 1336

TejasReddy

40万个手写姓名图像数据集该数据集包括通过慈善项目收集的超过40万个手写姓名，以支持世界各地的弱势儿童。字符识别利用图像处理技术将扫描文档上的字符转...NLP 2D Box

1.26G 1087

landlord

WikiText 英语词库包含1亿个词汇的英文词库数据 WikiText英语词库数据（TheWikiTextLongTermDependencyLanguageModelingDataset）WikiText长期依赖语言建模数据集是一个包含1亿...NLP Text

373.28M 1162

Stephen Merity

JRC Names 实体专有名词库 JRC-Names是一个高度多语言的命名实体资源，用于个人和组织名称（称为“实体”）。它包含大量名称列表及其多种拼写变体（单个人...NLP Text

762.56M 1566

欧盟科学中心

Twitter-dataset 数据集 ICWSM 2010论文中的数据可从以下链接获得。我们的数据集已匿名化，以保护用户自己的隐私。我们只发布有关Twitter链接结构的信息...NLP Text

311.27M 1540

ICWSM

reddit 250万个帖子数据美国 reddit 新闻网站最受欢迎的 2500 名发布者每家媒体 1000 个发布内容及评论数据集，来自订阅者的前2,500个子评价，从2013年8...NLP Text

437.79M 1464

reddit

Multi-Domain Sentiment Dataset--多域情感数据集多域情感数据集包含从Amazon.com获取的许多产品类型（域）的产品评论。一些域名（书籍和DVD）有成千上万的评论。其他（乐器）只...NLP Text

1.53M 1172

Mark Dredze

WMT 2011 News Crawl 机器翻译数据 WMT2011NewsCrawldata 是一个自然语言翻译数据，从 Europarlcorpus 语料中提取得到，包括：French-English、Spanish-English、Ge...NLP Text

25.01G 859

Europarl

人民日报词性标注语料数据（199801）人民日报语料，分词和词性标注POS的语料(Chinese corpus for Word segmentation and par of speech)资源为1998年人民日报1-6月份...NLP Text

2.81M 1091

人民日报

250万Reddit帖子数据这是来自订阅者的前2500个子目录中的前1000个帖子的历史数据集，该数据是在2013年8月15日至20日之间从reddit中提取的。这是reddi...NLP Text

452.85M 786

Reddit

新闻类别数据集，包含20万条新闻标题该数据集包含从HuffPost获得的2012年至2018年的大约20万条新闻标题。在该数据集上训练的模型可用于识别未跟踪新闻文章的标签或识...NLP Text

25.44M 1278

Rishabh Misra

爱尔兰时报新闻数据集该新闻数据集由爱尔兰境内的《爱尔兰时报》发布的148万个头条新闻组成。创建于160年前；该机构可以长期观察欧洲发生的事情。内容...NLP Text

48.93M 831

爱尔兰时报

处理单词和物体时的fMRI图像数据处理单词和物体时的fMRI图像数据，是OpenfMRI项目中名称为 ‘fMRI Word and object processing’ 的数据，编号为 ds000107 。 Op...NLP Text

3.42G 818

OpenfMRI

PubMed医学数据集：包含提取的 3984 个医学句子该数据集包含从 PubMed 摘要中提取的 3984 个医学句子，并标注了不同医学术语之间的关系。该数据集主要关注“治疗”和“病因”关...NLP Classification

9.4M 1102

appen

THUCTC 中文文本分类数据集 THUCTC(THU Chinese Text Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包，能够自动高效地实现用户自...OCR/Text Detection Classification

1.1G 2697

清华大学自然语言处理与社会人文计算实验室

Twitter 社交数据集 This dataset consists of 'circles' (or 'lists') from Twitter. Twitter data was crawled from public sourc...NLP Classification

31.4M 1374

Stanford University

Google+ 社交圈子数据集 This dataset consists of 'circles' from Google+. Google+ data was collected from users who had manually shared t...NLP Classification

773M 927

Stanford University

Select Language

AI社区

今日排行

本月搜索

Dataset Category

公开数据集