GitHub NLP分析的标题和描述 超过800万个GitHub发布了标题和描述
Over 8 million GitHub issue titles and descriptions from 2017. Prepared from instructions at How To Create Data Products...NLP,Software Classification
2.85G
676
David Shinn
街景房屋编号(SVHN)数据集,可用于对象识别算法的真实图像数据集
SVHN是一个用于开发机器学习和对象识别算法的真实图像数据集,对数据预处理和格式化的要求最低。它可以被视为与MNIST在风格上相...NLP,OCR/Text Detection,Business,Image Search 2D Box
3.91G
1875
iapr-tc11
街景文本(SVT)数据集,来自谷歌街景的图像数据
The Street View Text (SVT) dataset was harvested from Google Street View. Image text in this data exhibits high variabil...NLP,Energy 2D Box,Classification
112.7M
1417
Kai Wang
355M
834
Prof. Jin Hyung Kim Seonghun Lee
MSRA文本检测500数据库(MSRA-TD500)
MSRA文本检测500数据库(MSRA-TD500),作为评估文本检测算法的基准,目的是跟踪自然图像中文本检测领域的最新进展,尤其是检测...NLP 2D Box
96.05M
1329
Cong Yao
自然场景图像的合成文本,包含80万张图像和大约800万个合成单词实例
这是一个综合生成的数据集,其中word实例被放置在自然场景图像中,同时考虑场景布局。该数据集由80万张图像和大约800万个合成单...NLP,Animal 2D Box
37.9G
617
Ankush Gupta, Andrea Vedaldi and Andrew Zisserman
IIIT 5K word数据集,包含广告牌、招牌、门牌号、门牌、电影海报等查询词
The IIIT 5K-word dataset is harvested from Google image search. Query words like billboards, signboard, house numbers, h...NLP Classification
101M
661
Anand Mishra
186.97M
1291
TejasReddy
1.26G
1047
landlord
311.27M
1470
ICWSM
reddit 250万个帖子数据
美国 reddit 新闻网站最受欢迎的 2500 名发布者每家媒体 1000 个发布内容及评论数据集,来自订阅者的前2,500个子评价,从2013年8...NLP Text
437.79M
1398
reddit
Multi-Domain Sentiment Dataset--多域情感数据集
多域情感数据集包含从Amazon.com获取的许多产品类型(域)的产品评论。一些域名(书籍和DVD)有成千上万的评论。其他(乐器)只...NLP Text
1.53M
1122
Mark Dredze
WMT 2011 News Crawl 机器翻译数据
WMT2011NewsCrawldata 是一个自然语言翻译数据,从 Europarlcorpus 语料中提取得到,包括:French-English、Spanish-English、Ge...NLP Text
25.01G
823
Europarl
250万Reddit帖子数据
这是来自订阅者的前2500个子目录中的前1000个帖子的历史数据集,该数据是在2013年8月15日至20日之间从reddit中提取的。这是reddi...NLP Text
452.85M
749
Reddit
25.44M
1212
Rishabh Misra
48.93M
798
爱尔兰时报
Twitter 社交数据集
This dataset consists of 'circles' (or 'lists') from Twitter. Twitter data was crawled from public sourc...NLP Classification
31.4M
1300
Stanford University
Google+ 社交圈子数据集
This dataset consists of 'circles' from Google+. Google+ data was collected from users who had manually shared t...NLP Classification
773M
874
Stanford University