5.25M
839
Fudan University
GitHub NLP分析的标题和描述 超过800万个GitHub发布了标题和描述
Over 8 million GitHub issue titles and descriptions from 2017. Prepared from instructions at How To Create Data Products...NLP,Software Classification
2.85G
671
David Shinn
手写验证
XAI-AND数据集是一个公开的笔迹验证数据集,由15518个“AND”图像片段提取自CEDAR Letter Dataset[12],由1567位作家撰写。每个...OCR/Text Detection Image Caption
31.23M
447
Mihir Chauhan and Mohammad Abuzar Shaikh and Sargur N. Srihari
苏州科技大学超话情感分析 1000条数据
苏州科技大学超话情感分析内容情感得分分析结果#随手拍#苏农苏农0.436778733消极有话快说0.687524065积极马上第14周了,书本费不...NLP Text
0.09M
487
xiaotian
百科类问答json版,含有150万个预先过滤过的、高质量问题和答案
本数据集含有150万个预先过滤过的、高质量的百科类问题和答案。数据集总共有492个类别,其中频率达到或超过10次的类别有434个。...NLP Text
1.5G
1143
Thomas-yanxin
街景房屋编号(SVHN)数据集,可用于对象识别算法的真实图像数据集
SVHN是一个用于开发机器学习和对象识别算法的真实图像数据集,对数据预处理和格式化的要求最低。它可以被视为与MNIST在风格上相...NLP,OCR/Text Detection,Business,Image Search 2D Box
3.91G
1866
iapr-tc11
NEOCR:自然环境OCR数据集,包含659幅真实世界的图像
NEOCR数据集包含659幅真实世界的图像,带有5238个带注释的边界框(文本字段)。这些图像是由多人独立于数据集拍摄的,因此数据集...NLP,Arts and Entertainment 2D Box,Classification
1.31G
822
Robert Nagy
街景文本(SVT)数据集,来自谷歌街景的图像数据
The Street View Text (SVT) dataset was harvested from Google Street View. Image text in this data exhibits high variabil...NLP,Energy 2D Box,Classification
112.7M
1406
Kai Wang
355M
826
Prof. Jin Hyung Kim Seonghun Lee
MSRA文本检测500数据库(MSRA-TD500)
MSRA文本检测500数据库(MSRA-TD500),作为评估文本检测算法的基准,目的是跟踪自然图像中文本检测领域的最新进展,尤其是检测...NLP 2D Box
96.05M
1324
Cong Yao
自然场景图像的合成文本,包含80万张图像和大约800万个合成单词实例
这是一个综合生成的数据集,其中word实例被放置在自然场景图像中,同时考虑场景布局。该数据集由80万张图像和大约800万个合成单...NLP,Animal 2D Box
37.9G
611
Ankush Gupta, Andrea Vedaldi and Andrew Zisserman
IIIT 5K word数据集,包含广告牌、招牌、门牌号、门牌、电影海报等查询词
The IIIT 5K-word dataset is harvested from Google image search. Query words like billboards, signboard, house numbers, h...NLP Classification
101M
652
Anand Mishra
文字袋数据集 可用于了解路透社的哪些文章是关于“企业收购”的
Data Set Information:The original data were formatted by Thorsten Joachims in the “bag-of-words” representation. There...NLP Classification
1.21M
813
University of California, Irvine
9.83M
633
Bianchini, Francesco,Gazzard, Katherine
僧伽罗语数字词汇(2.0版),字母A到M
Digital Glossary of Sinhala Prakrit (version 2.0), letters A to M...NLP Classification
9.88M
703
Bianchini, Francesco,Gazzard, Katherine
squad数据集
SQuAD(The Stanford Question Answering Dataset)是一组阅读数据集,该数据集基于群众在维基百科中提出的问题,其中每个问题的...Action/Event Detection Text
34M
775
斯坦福大学