Select Language

AI社区

公开数据集

相关搜索
您是不是在找?
今日排行
本周排行
本月排行
纯文本维基百,每个文件都包含维基百文章的集合 Wikipedia dumps contain a tremendous amount of markup. WikiMedia Text is a hybrid of markdown and HTML, making it very d...NLP,Computer Science,Text Data,Text Mining Classification
23.71G 266
研论文主题建模 Business,Earth and Nature,Education,NLP,Psychology Classification
21.96M 248
亚马逊数据学书评 Business,NLP,Ratings and Reviews Classification
11.05M 229
波斯维基百数据集,波斯语(波斯语)维基百语料库 Persian(Farsi) Wikipedia Dataset | دیتاست ویکی پدیا فارسی شامل تمامی مقالات فارسی...NLP,Deep Learning,Text Data,Data Analytics Classification
804.48M 276
来自维基百的800万个德语句子 Internet,NLP,Text Data Classification
1099.53M 223
自然学出版物 Earth and Nature,NLP Classification
313.91M 482
印地语英语TED演讲,维基百文章等。 Earth and Nature,NLP,Languages Classification
137.73M 265
Word2vec在维基百上训练数据(单字母+双字母),以捕捉unigram和bigram 这是一个单词嵌入模型,创建于维基百科+各种来源的评论。与从基于短语的方法(不考虑相邻词的短语/双词上下文)创建双词不同,这...NLP,Computer Science,Software,Programming,Neural Networks Classification
8.62G 330
231.77M 535
巴西的技新闻,数据集包含巴西媒体发布的大约 2720条新闻 This dataset was provided by Miti Inteligência, a company specialized in monitoring news and social media established i...NLP,News,Text Data,Text Mining,Science and Technology Classification
44.47M 284
维基百Word2Vec,Apache Spark word2vec由200K维基百页面培训 I used Apache Spark to extract more than 6 million phrases from 200,000 English Wikipedia pages. Here is the process of...NLP,Business,Earth and Nature,Text Mining Classification
132.74M 354
维基百的句子,英语维基百转储中收集了780万个句子 The wikipedia dump is a giant XML file and contains loads of not-so-useful content. I needed some english text for some...NLP,Text Mining Classification
891.28M 337
法国2019年全国大辩论的公开数据 Deux catégories de réponses comprenant quatre différents fichiers CSV:Quatre csv contenant les réponses de personnes...NLP,Text Data,Economics Classification
1.49G 650
维基百的电影情节 Arts and Entertainment,Movies and TV Shows,NLP,Text Data,Recommender Systems Classification
77.43M 602
学流行评论删除 Business,NLP,Text Data,Binary Classification,Bigquery Classification
74.17M 245
Medium Articles 包含标记为AI、机器学习、数据学或人工智能的帖子,以及用户信息 Medium taps into the brains of the world’s most insightful writers, thinkers, and storytellers to bring you the smartes...NLP,Text Data,Literature Classification
1.8G 314
SEERA软件成本估算数据集 SEERA(苏丹软件工程)成本估算数据集:是技术和经济受限环境的数据集。这是从苏丹42个组织收集120个软件开发项目数据的结果。SE...Software Classification
2.51M 500