自然_公开数据集帕依提提-人工智能高质量数据集开放平台

僧伽罗语数字词汇(2.0版)，字母A到M Digital Glossary of Sinhala Prakrit (version 2.0), letters A to M...NLP Classification

9.88M 849

Bianchini, Francesco,Gazzard, Katherine

squad数据集 SQuAD（The Stanford Question Answering Dataset）是一组阅读数据集，该数据集基于群众在维基百科中提出的问题，其中每个问题的...Action/Event Detection Text

34M 943

斯坦福大学

MIMIC III 数据集 MIMIC III 数据集...Diseases Text

66.62M 741

MIKI

英特尔映像分类图片数据世界各地自然风光的图像数据英特尔映像分类图片数据，多类图像场景分类。这是世界各地自然风光的图像数据。内容此数据包含大约25,000张大小为150x150的...Arts and Entertainment Classification

346.3M 808

NET

人工智能语料库-Ubuntu对话语料库包含2600万次对话数据建立对话系统（人类可以与虚拟代理进行自然对话）是自然语言处理中的一项艰巨任务，也是许多正在进行的研究的重点。一些挑战包括...NLP Text

2.7G 3398

Rachael Tatman

Visual Question Answering V2.0 一个针对图像内容进行自然语言问答的数据集 Visual Question Answering (VQA) 是一个针对图像内容进行自然语言问答数据集，其中有关图像的自然语言问题和答案需要对图像内容...NLP Text

30.7G 1138

VQA

IAM 50个最常见的作家手写数据集 IAM手写数据集是几位作者的手写文章的集合。通常，他们使用该数据根据作家的写作风格对作家进行分类。解决此类问题的传统方法是...NLP Text

186.97M 1497

TejasReddy

40万个手写姓名图像数据集该数据集包括通过慈善项目收集的超过40万个手写姓名，以支持世界各地的弱势儿童。字符识别利用图像处理技术将扫描文档上的字符转...NLP 2D Box

1.26G 1234

landlord

WikiText 英语词库包含1亿个词汇的英文词库数据 WikiText英语词库数据（TheWikiTextLongTermDependencyLanguageModelingDataset）WikiText长期依赖语言建模数据集是一个包含1亿...NLP Text

373.28M 1323

Stephen Merity

JRC Names 实体专有名词库 JRC-Names是一个高度多语言的命名实体资源，用于个人和组织名称（称为“实体”）。它包含大量名称列表及其多种拼写变体（单个人...NLP Text

762.56M 1802

欧盟科学中心

Twitter-dataset 数据集 ICWSM 2010论文中的数据可从以下链接获得。我们的数据集已匿名化，以保护用户自己的隐私。我们只发布有关Twitter链接结构的信息...NLP Text

311.27M 1734

ICWSM

reddit 250万个帖子数据美国 reddit 新闻网站最受欢迎的 2500 名发布者每家媒体 1000 个发布内容及评论数据集，来自订阅者的前2,500个子评价，从2013年8...NLP Text

437.79M 1647

reddit

Multi-Domain Sentiment Dataset--多域情感数据集多域情感数据集包含从Amazon.com获取的许多产品类型（域）的产品评论。一些域名（书籍和DVD）有成千上万的评论。其他（乐器）只...NLP Text

1.53M 1348

Mark Dredze

WMT 2011 News Crawl 机器翻译数据 WMT2011NewsCrawldata 是一个自然语言翻译数据，从 Europarlcorpus 语料中提取得到，包括：French-English、Spanish-English、Ge...NLP Text

25.01G 1010

Europarl

人民日报词性标注语料数据（199801）人民日报语料，分词和词性标注POS的语料(Chinese corpus for Word segmentation and par of speech)资源为1998年人民日报1-6月份...NLP Text

2.81M 1228

人民日报

250万Reddit帖子数据这是来自订阅者的前2500个子目录中的前1000个帖子的历史数据集，该数据是在2013年8月15日至20日之间从reddit中提取的。这是reddi...NLP Text

452.85M 891

Reddit

新闻类别数据集，包含20万条新闻标题该数据集包含从HuffPost获得的2012年至2018年的大约20万条新闻标题。在该数据集上训练的模型可用于识别未跟踪新闻文章的标签或识...NLP Text

25.44M 1496

Rishabh Misra

爱尔兰时报新闻数据集该新闻数据集由爱尔兰境内的《爱尔兰时报》发布的148万个头条新闻组成。创建于160年前；该机构可以长期观察欧洲发生的事情。内容...NLP Text

48.93M 918

爱尔兰时报

PubMed医学数据集：包含提取的 3984 个医学句子该数据集包含从 PubMed 摘要中提取的 3984 个医学句子，并标注了不同医学术语之间的关系。该数据集主要关注“治疗”和“病因”关...NLP Classification

9.4M 1237

appen

THUCTC 中文文本分类数据集 THUCTC(THU Chinese Text Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包，能够自动高效地实现用户自...OCR/Text Detection Classification

1.1G 2856

清华大学自然语言处理与社会人文计算实验室

Select Language

AI社区

今日排行

本月搜索

Dataset Category

公开数据集