人工智能语料库-Ubuntu对话语料库 包含2600万次对话数据
建立对话系统(人类可以与虚拟代理进行自然对话)是自然语言处理中的一项艰巨任务,也是许多正在进行的研究的重点。一些挑战包括...NLP Text
2.7G
3292
Rachael Tatman
Visual Question Answering V2.0 一个针对图像内容进行自然语言问答的数据集
Visual Question Answering (VQA) 是一个针对图像内容进行自然语言问答数据集,其中有关图像的自然语言问题和答案需要对图像内容...NLP Text
30.7G
1076
VQA
186.97M
1417
TejasReddy
1.26G
1167
landlord
WikiText 英语词库 包含1亿个词汇的英文词库数据
WikiText英语词库数据(TheWikiTextLongTermDependencyLanguageModelingDataset)WikiText长期依赖语言建模数据集是一个包含1亿...NLP Text
373.28M
1266
Stephen Merity
762.56M
1683
欧盟科学中心
311.27M
1638
ICWSM
reddit 250万个帖子数据
美国 reddit 新闻网站最受欢迎的 2500 名发布者每家媒体 1000 个发布内容及评论数据集,来自订阅者的前2,500个子评价,从2013年8...NLP Text
437.79M
1552
reddit
Multi-Domain Sentiment Dataset--多域情感数据集
多域情感数据集包含从Amazon.com获取的许多产品类型(域)的产品评论。一些域名(书籍和DVD)有成千上万的评论。其他(乐器)只...NLP Text
1.53M
1273
Mark Dredze
WMT 2011 News Crawl 机器翻译数据
WMT2011NewsCrawldata 是一个自然语言翻译数据,从 Europarlcorpus 语料中提取得到,包括:French-English、Spanish-English、Ge...NLP Text
25.01G
945
Europarl
人民日报词性标注语料数据(199801)
人民日报语料,分词和词性标注POS的语料(Chinese corpus for Word segmentation and par of speech)资源为1998年人民日报1-6月份...NLP Text
2.81M
1170
人民日报
250万Reddit帖子数据
这是来自订阅者的前2500个子目录中的前1000个帖子的历史数据集,该数据是在2013年8月15日至20日之间从reddit中提取的。这是reddi...NLP Text
452.85M
846
Reddit
25.44M
1376
Rishabh Misra
48.93M
881
爱尔兰时报
PubMed医学数据集: 包含提取的 3984 个医学句子
该数据集包含从 PubMed 摘要中提取的 3984 个医学句子,并标注了不同医学术语之间的关系。该数据集主要关注“治疗”和“病因”关...NLP Classification
9.4M
1175
appen
THUCTC 中文文本分类数据集
THUCTC(THU Chinese Text Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自...OCR/Text Detection Classification
1.1G
2775
清华大学自然语言处理与社会人文计算实验室
Twitter 社交数据集
This dataset consists of 'circles' (or 'lists') from Twitter. Twitter data was crawled from public sourc...NLP Classification
31.4M
1495
Stanford University
Google+ 社交圈子数据集
This dataset consists of 'circles' from Google+. Google+ data was collected from users who had manually shared t...NLP Classification
773M
999
Stanford University
Facebook圈子数据集
This dataset consists of 'circles' (or 'friends lists') from Facebook. Facebook data was collected from...NLP Classification
1M
1567
Stanford University
Europarl用于统计机器翻译的并行语料库(21种欧洲语言的版本)
For a detailed description of this corpus, please read:Europarl: A Parallel Corpus for Statistical Machine Translation,...NLP Classification
1.46G
963
University of Edinburgh