Select Language

AI社区

公开数据集

相关搜索
您是不是在找?
今日排行
本周排行
本月排行
WikiLinks 一个大型跨文档指代消解英料数据 Wikilinks 是一个大型跨文档指代消解英语语料数据,从 Wikipedia 网站中的 300 万个实体中提取 4000 万的指代关系。从自由文本中...NLP,Languages Text
1.7G 731
Stanford Sentiment Treebank 英文义词表数据 StanfordSentimentTreebank 是一个由斯坦福大学标注的语义词汇数据,人工标注了9645个英语句子的语义树结构。...NLP Text
12.56M 912
人工智能料库-欧洲议会议事平行料库,包括21种欧洲 Europarl平行语料库摘自欧洲议会的议事程序。它包括21种欧洲语言的版本:罗马语(法语,意大利语,西班牙语,葡萄牙语,罗马尼亚...NLP Classification,Text
3.75G 1024
Visual Genome 图像及图像内容义信息的数据集 Visual Genome是一个数据集,一个知识库,一个将结构化图像概念连接到语言的持续努力。VisualGenome数据集是Stanford大学维护的...CNN 2D Box
14.94G 803
IAM 50个最常见的作家手写数据集 IAM手写数据集是几位作者的手写文章的集合。通常,他们使用该数据根据作家的写作风格对作家进行分类。解决此类问题的传统方法是...NLP Text
186.97M 1220
40万个手写姓名图像数据集 该数据集包括通过慈善项目收集的超过40万个手写姓名,以支持世界各地的弱势儿童。字符识别利用图像处理技术将扫描文档上的字符转...NLP 2D Box
1.26G 975
WikiText 英词库 包含1亿个词汇的英文词库数据 WikiText英语词库数据(TheWikiTextLongTermDependencyLanguageModelingDataset)WikiText长期依赖语言建模数据集是一个包含1亿...NLP Text
373.28M 1040
JRC Names 实体专有名词库 JRC-Names是一个高度多语言的命名实体资源,用于个人和组织名称(称为“实体”)。它包含大量名称列表及其多种拼写变体(单个人...NLP Text
762.56M 1350
Twitter-dataset 数据集 ICWSM 2010论文中的数据可从以下链接获得。我们的数据集已匿名化,以保护用户自己的隐私。我们只发布有关Twitter链接结构的信息...NLP Text
311.27M 1379
reddit 250万个帖子数据 美国 reddit 新闻网站最受欢迎的 2500 名发布者每家媒体 1000 个发布内容及评论数据集,来自订阅者的前2,500个子评价,从2013年8...NLP Text
437.79M 1304
Multi-Domain Sentiment Dataset--多域情感数据集 多域情感数据集包含从Amazon.com获取的许多产品类型(域)的产品评论。一些域名(书籍和DVD)有成千上万的评论。其他(乐器)只...NLP Text
1.53M 1049
WMT 2011 News Crawl 机器翻译数据 WMT2011NewsCrawldata 是一个自然语言翻译数据,从 Europarlcorpus 语料中提取得到,包括:French-English、Spanish-English、Ge...NLP Text
25.01G 761
人民日报词性标注料数据(199801) 人民日报语料,分词和词性标注POS的语料(Chinese corpus for Word segmentation and par of speech)资源为1998年人民日报1-6月份...NLP Text
2.81M 994
250万Reddit帖子数据 这是来自订阅者的前2500个子目录中的前1000个帖子的历史数据集,该数据是在2013年8月15日至20日之间从reddit中提取的。这是reddi...NLP Text
452.85M 688
新闻类别数据集,包含20万条新闻标题 该数据集包含从HuffPost获得的2012年至2018年的大约20万条新闻标题。在该数据集上训练的模型可用于识别未跟踪新闻文章的标签或识...NLP Text
25.44M 1089
爱尔兰时报新闻数据集 该新闻数据集由爱尔兰境内的《爱尔兰时报》发布的148万个头条新闻组成。创建于160年前;该机构可以长期观察欧洲发生的事情。内容...NLP Text
48.93M 740
LibriSpeech ASR corpus 音数据 LibriSpeech ASR corpus 是一个语音数据,包括 1000小时 的英文发音和对应文字。标识符:SLR12摘要:大规模(1000小时)阅读英语...NLP Audio
8.14G 1141
Google Audioset 音频数据集 AudioSet 包含了 632 类的音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段(片段来自 YouTube 视频)。音频本体...NLP Audio
2.41G 1580
TIMIT音识别数据 TIMIT语音读取语料库旨在为声学语音研究以及自动语音识别系统的开发和评估提供语音数据。TIMIT包含由八种主要美国英语方言组成的...NLP Audio
419.81M 860
THUYG-20 维吾尔音数据 摘要:免费的维吾尔语言数据库由CSLT @清华大学和新疆大学发布类别:演讲许可证:Apache License v.2.0介绍THUGY20是由语音和语...NLP Audio
6.12G 1323