相关搜索
您是不是在找?
今日排行
本周排行
本月排行
WikiLinks 一个大型跨文档指代消解英语语料数据
Wikilinks 是一个大型跨文档指代消解英语语料数据,从 Wikipedia 网站中的 300 万个实体中提取 4000 万的指代关系。从自由文本中...NLP,Languages Text
1.7G
777
马萨诸塞大学
Stanford Sentiment Treebank 英文语义词表数据
StanfordSentimentTreebank 是一个由斯坦福大学标注的语义词汇数据,人工标注了9645个英语句子的语义树结构。...NLP Text
12.56M
989
Stanford University
人工智能语料库-欧洲议会议事平行语料库,包括21种欧洲语言
Europarl平行语料库摘自欧洲议会的议事程序。它包括21种欧洲语言的版本:罗马语(法语,意大利语,西班牙语,葡萄牙语,罗马尼亚...NLP Classification,Text
3.75G
1120
Philipp Koehn
Visual Genome 图像及图像内容语义信息的数据集
Visual Genome是一个数据集,一个知识库,一个将结构化图像概念连接到语言的持续努力。VisualGenome数据集是Stanford大学维护的...CNN 2D Box
14.94G
864
Stanford University
186.97M
1282
TejasReddy
1.26G
1034
landlord
WikiText 英语词库 包含1亿个词汇的英文词库数据
WikiText英语词库数据(TheWikiTextLongTermDependencyLanguageModelingDataset)WikiText长期依赖语言建模数据集是一个包含1亿...NLP Text
373.28M
1094
Stephen Merity
762.56M
1463
欧盟科学中心
311.27M
1454
ICWSM
reddit 250万个帖子数据
美国 reddit 新闻网站最受欢迎的 2500 名发布者每家媒体 1000 个发布内容及评论数据集,来自订阅者的前2,500个子评价,从2013年8...NLP Text
437.79M
1382
reddit
Multi-Domain Sentiment Dataset--多域情感数据集
多域情感数据集包含从Amazon.com获取的许多产品类型(域)的产品评论。一些域名(书籍和DVD)有成千上万的评论。其他(乐器)只...NLP Text
1.53M
1110
Mark Dredze
WMT 2011 News Crawl 机器翻译数据
WMT2011NewsCrawldata 是一个自然语言翻译数据,从 Europarlcorpus 语料中提取得到,包括:French-English、Spanish-English、Ge...NLP Text
25.01G
814
Europarl
人民日报词性标注语料数据(199801)
人民日报语料,分词和词性标注POS的语料(Chinese corpus for Word segmentation and par of speech)资源为1998年人民日报1-6月份...NLP Text
2.81M
1051
人民日报
250万Reddit帖子数据
这是来自订阅者的前2500个子目录中的前1000个帖子的历史数据集,该数据是在2013年8月15日至20日之间从reddit中提取的。这是reddi...NLP Text
452.85M
741
Reddit
25.44M
1195
Rishabh Misra
48.93M
790
爱尔兰时报
LibriSpeech ASR corpus 语音数据
LibriSpeech ASR corpus 是一个语音数据,包括 1000小时 的英文发音和对应文字。标识符:SLR12摘要:大规模(1000小时)阅读英语...NLP Audio
8.14G
1228
Vassil Panayotov
Google Audioset 音频数据集
AudioSet 包含了 632 类的音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段(片段来自 YouTube 视频)。音频本体...NLP Audio
2.41G
1637
Google
419.81M
927
宾夕法尼亚大学
THUYG-20 维吾尔语语音数据
摘要:免费的维吾尔语言数据库由CSLT @清华大学和新疆大学发布类别:演讲许可证:Apache License v.2.0介绍THUGY20是由语音和语...NLP Audio
6.12G
1443
清华大学