Select Language

AI社区

公开数据集

相关搜索
您是不是在找?
今日排行
本周排行
本月排行
MIMIC III 数据集 MIMIC III 数据集...Diseases Text
66.62M 535
人工智能语料库-Ubuntu对话语料库 包含2600万次对话数据 建立对话系统(人类可以与虚拟代理进行自然对话)是自然语言处理中的一项艰巨任务,也是许多正在进行的研究的重点。一些挑战包括...NLP Text
2.7G 3080
Visual Question Answering V2.0 一个针对图像内容进行自然语言问答的数据集 Visual Question Answering (VQA) 是一个针对图像内容进行自然语言问答数据集,其中有关图像的自然语言问题和答案需要对图像内容...NLP Text
30.7G 945
IAM 50个最常见的作家手写数据集 IAM手写数据集是几位作者的手写文章的集合。通常,他们使用该数据根据作家的写作风格对作家进行分类。解决此类问题的传统方法是...NLP Text
186.97M 1283
40万个手写姓名图像数据集 该数据集包括通过慈善项目收集的超过40万个手写姓名,以支持世界各地的弱势儿童。字符识别利用图像处理技术将扫描文档上的字符转...NLP 2D Box
1.26G 1035
WikiText 英语词库 包含1亿个词汇的英文词库数据 WikiText英语词库数据(TheWikiTextLongTermDependencyLanguageModelingDataset)WikiText长期依赖语言建模数据集是一个包含1亿...NLP Text
373.28M 1096
JRC Names 实体专有名词库 JRC-Names是一个高度多语言的命名实体资源,用于个人和组织名称(称为“实体”)。它包含大量名称列表及其多种拼写变体(单个人...NLP Text
762.56M 1468
Twitter-dataset 数据集 ICWSM 2010论文中的数据可从以下链接获得。我们的数据集已匿名化,以保护用户自己的隐私。我们只发布有关Twitter链接结构的信息...NLP Text
311.27M 1456
reddit 250万个帖子数据 美国 reddit 新闻网站最受欢迎的 2500 名发布者每家媒体 1000 个发布内容及评论数据集,来自订阅者的前2,500个子评价,从2013年8...NLP Text
437.79M 1385
Multi-Domain Sentiment Dataset--多域情感数据集 多域情感数据集包含从Amazon.com获取的许多产品类型(域)的产品评论。一些域名(书籍和DVD)有成千上万的评论。其他(乐器)只...NLP Text
1.53M 1111
WMT 2011 News Crawl 机器翻译数据 WMT2011NewsCrawldata 是一个自然语言翻译数据,从 Europarlcorpus 语料中提取得到,包括:French-English、Spanish-English、Ge...NLP Text
25.01G 816
人民日报词性标注语料数据(199801) 人民日报语料,分词和词性标注POS的语料(Chinese corpus for Word segmentation and par of speech)资源为1998年人民日报1-6月份...NLP Text
2.81M 1053
250万Reddit帖子数据 这是来自订阅者的前2500个子目录中的前1000个帖子的历史数据集,该数据是在2013年8月15日至20日之间从reddit中提取的。这是reddi...NLP Text
452.85M 741
新闻类别数据集,包含20万条新闻标题 该数据集包含从HuffPost获得的2012年至2018年的大约20万条新闻标题。在该数据集上训练的模型可用于识别未跟踪新闻文章的标签或识...NLP Text
25.44M 1199
爱尔兰时报新闻数据集 该新闻数据集由爱尔兰境内的《爱尔兰时报》发布的148万个头条新闻组成。创建于160年前;该机构可以长期观察欧洲发生的事情。内容...NLP Text
48.93M 790
处理单词和物体时的fMRI图像数据 处理单词和物体时的fMRI图像数据,是OpenfMRI项目中名称为 ‘fMRI Word and object processing’ 的数据,编号为 ds000107 。 Op...NLP Text
3.42G 788
PubMed医学数据集: 包含提取的 3984 个医学句子 该数据集包含从 PubMed 摘要中提取的 3984 个医学句子,并标注了不同医学术语之间的关系。该数据集主要关注“治疗”和“病因”关...NLP Classification
9.4M 1055
THUCTC 中文文本分类数据集 THUCTC(THU Chinese Text Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自...OCR/Text Detection Classification
1.1G 2650
Twitter 社交数据集 This dataset consists of 'circles' (or 'lists') from Twitter. Twitter data was crawled from public sourc...NLP Classification
31.4M 1286
Google+ 社交圈子数据集 This dataset consists of 'circles' from Google+. Google+ data was collected from users who had manually shared t...NLP Classification
773M 863