355M
773
Prof. Jin Hyung Kim Seonghun Lee
LAION-5B:大规模图文数据集
一、LAION-5B概述LAION-5B由58.5亿个图像文本组合组成,通过CLIP过滤的图像分类模型,其中23亿是图像-英文文本对,22亿是图像,...NLP,Image Search,Image Data Classification
80T
1605
laion
心灵鸡汤文本数据集
来自github的一个毒鸡汤文本数据集,该数据是网站 http://www.nows.fun/ 的站点数据。数据量:1232条。文件格式为sql...OCR/Text Detection Classification
125K
1000
robot
20万英语笑话文本数据集
发布时间: 2016年这个数据库中有大约208000个笑话。文件目前数据集包含来自三个来源的笑话。---------------------------------...OCR/Text Detection Classification
24.57M
682
robot
常识问答文本数据集(CommonsenseQA)
CommonsenseQA 是一个新的多项选择问答数据集,需要不同类型的常识知识来预测正确答案。它包含 12,102 个问题,其中一个正确答案...MNIST Classification
1.04M
1237
Tel-Aviv University
ArT场景文本数据集 包括10166幅图像
ArT数据集将包括10166幅图像。它被分为一个包含5603张图像的训练集和一个包含4563张图片的测试集。 ArT是Total Text[4]、SCUT-CT...OCR/Text Detection,Action/Event Detection,Image Data Classification
5.59G
1091
robot
KDC-4007文本数据集(体育、宗教、艺术、经济、教育、社会、风格和健康)
Data Set Information:该数据集最重要的特点是其使用简单且有良好的文档记录,可广泛用于有关库尔德索拉尼新闻和文章的各种文本...Computer Classification
853K
530
University of California, Irvine
亚洲宗教圣经文本数据集研究
这个数据集中的大部分神圣文本都是从古腾堡计划收集的。我们在此提供原始文本以及预处理的文档术语矩阵(DTM)。Attribute Infor...Social Classification
629K
622
University of California, Irvine
Machado de Assis的116部小说和其他文本数据
este repositório estão contidas 116 obras de ficção e outros textos de Machado de Assis nos formatos pdf e txt nas c...NLP,Business,Literature,Art,Brazil Classification
40.38M
596
Luiz Amaral
文本中的情感,句子中表达主要情感的文本数据
I was looking for a well labeled dataset to perform a multiclass classification. I wanted to do something more than just...NLP,Earth and Nature,Text Data,Multiclass Classification Classification
2.15M
262
Ishant
带有语言标签的文本数据。它可以用于语言检测。
Language Detection Dataset Text data with language labels. It can be used for language detection....NLP,Classification,Computer Science,Multiclass Classification,Languages Classification
31.7M
521
Ishant
用于NLP的文本数据集
This is a bundle of three text data sets to be used for NLP research.Dialog system technology challenge 7 (DSTC7)UbuntuA...NLP,Earth and Nature,Education Classification
6.49G
608
Florian Peters