Select Language

AI社区

公开数据集

SMS垃圾邮件收集数据集,标记为垃圾邮件或合法短信的集合 SMS Spam Corpus v.0.1是一组SMS短信标签消息,已收集用于SMS Spam研究。它包含两个英文短信息集合,包含1084和1319条消息,标记...MNIST Classification
503K 1108
TED平行语料库 TED平行语料库是多语言平行语料库,包括多语言并行语料库和单语语料库。从TED会议www.ted.com 提取109种世界语言。 多语言的平行...MNIST Classification
872.9M 880
Euler图学习开源数据集 本数据集根据2018年10月23日多类目下采样得到的用户点击行为数据,构建得到图数据。注:列分割符为”||”节点编号:图数据包括两...MNIST Classification
243.41M 504
腾讯AI Lab开源大规模高质量中文词向量数据 腾讯AI Lab此次公开的中文词向量数据包含800多万中文词汇,其中每个词对应一个200维的向量。相比现有的中文词向量数据,腾讯AI L...NLP,MNIST Classification
39.4G 615
KDC-4007文本数据集(体育、宗教、艺术、经济、教育、社会、风格和健康) Data Set Information:该数据集最重要的特点是其使用简单且有良好的文档记录,可广泛用于有关库尔德索拉尼新闻和文章的各种文本...Computer Classification
853K 569
26个大写字母识别数据集 Data Set Information:The objective is to identify each of a large number of black-and-white rectangular pixel displays a...NLP Classification
366K 846
荷兰实用地图集合中提取的手写数字(`0'--`9')的特征数据集 Data Set Information:该数据集包含从荷兰实用地图集合中提取的手写数字(`0'--`9')的特征。每类200个图案(总共2000个...Computer Classification
4.93M 989
NYSK数据集,用于文本挖掘任务中的主题提取、情绪分析 Data Set Information:Documents are first obtained via a Web search using AMIEI: an integrated platform for delivering en...NLP,Social Clustering
17.5M 546
54个不同的文档分类数据集 Data Set Information:The 5473 examples comes from 54 distinct documents. Each observation concerns one block. All attrib...Computer Classification
103K 579
手写数字数据集的笔式识别 Data Set Information:我们从44位作者那里收集了250个样本,创建了一个数字数据库。由30位作者编写的样本用于培训、交叉验证和作...NLP Classification
1.58M 708
路透社21578文本分类收集数据集 David D. LewisATT Labs - Research lewis '@' research.att.comdocuments came from Reuters newswire in 1987.Data Se...Agriculture Classification
7.8M 2628
句子分类数据集 America Chambers, ahollowa '@' ics.uci.edu, University of California, IrvineData Set Information:Please see the...N/A Classification
2.9M 666
TTC-3600:土耳其文本分类数据集的基准数据集 Assist.Prof.Dr. Deniz KILIN??, Faculty of Technology, Celal Bayar University, Turkeydrdenizkilinc'@'gmail.comDat...Computer Classification
2.5M 824
curationCorpus 策展语料库 策展语料库汇集了 40,000 篇专业撰写的新闻文章摘要,并附有文章本身的链接。这个存储库提供了一个抓取工具来访问它们。如果您对...NLP Text
123.13M 445
电子邮件垃圾邮件 ContextSome emails from [Spam Assassin][1] to create models that can differentiate between spam and ham (non - spam) ema...NLP,Classification,Software,Email and Messaging Classification
12.08M 263
ACL论文选集,论文数据来自ACL选集 The Accepted paper's data from ACL Anthology. An abstract of a paper is extracted from arXiv if it exists.The data i...NLP,Education,Literature Classification
1.14M 252
普莱诺斯总督 埃里总统2018年 NLP,Brazil Classification
16.5M 497
数以千计的关于爱情的问题,该数据集包含来自QA服务的爱情类问题和答案 ContextRUSSIAN LANGUAGEThis dataset collected from real answers to questions of the mail.ru service: https://otvet.mail....NLP,Education,Text Data,Languages Classification
176.23M 262
圣诞节的食谱 Religion and Belief Systems,NLP,Cooking and Recipes,Holidays and Cultural Events Classification
2.51M 526
实体提取从Pitchfork评论 Business,Arts and Entertainment,Music,Retail and Shopping,NLP,Popular Culture Classification
14.49M 597