相关搜索
您是不是在找?
今日排行
本周排行
本月排行
纯文本维基百科,每个文件都包含维基百科文章的集合
Wikipedia dumps contain a tremendous amount of markup. WikiMedia Text is a hybrid of markdown and HTML, making it very d...NLP,Computer Science,Text Data,Text Mining Classification
23.71G
266
DavidShapiro
科研论文主题建模
Business,Earth and Nature,Education,NLP,Psychology Classification
21.96M
248
Abishek Sudarshan
波斯维基百科数据集,波斯语(波斯语)维基百科语料库
Persian(Farsi) Wikipedia Dataset | دیتاست ویکی پدیا فارسی شامل تمامی مقالات فارسی...NLP,Deep Learning,Text Data,Data Analytics Classification
804.48M
276
Milad Farzalizadeh
Word2vec在维基百科上训练数据(单字母+双字母),以捕捉unigram和bigram
这是一个单词嵌入模型,创建于维基百科+各种来源的评论。与从基于短语的方法(不考虑相邻词的短语/双词上下文)创建双词不同,这...NLP,Computer Science,Software,Programming,Neural Networks Classification
8.62G
330
aintnosunshine
巴西的科技新闻,数据集包含巴西媒体发布的大约 2720条新闻
This dataset was provided by Miti Inteligência, a company specialized in monitoring news and social media established i...NLP,News,Text Data,Text Mining,Science and Technology Classification
44.47M
284
Miti Inteligência
维基百科Word2Vec,Apache Spark word2vec由200K维基百科页面培训
I used Apache Spark to extract more than 6 million phrases from 200,000 English Wikipedia pages. Here is the process of...NLP,Business,Earth and Nature,Text Mining Classification
132.74M
354
Maziyar
维基百科的句子,英语维基百科转储中收集了780万个句子
The wikipedia dump is a giant XML file and contains loads of not-so-useful content. I needed some english text for some...NLP,Text Mining Classification
891.28M
337
Mike Ortman
法国2019年全国大辩论的公开数据
Deux catégories de réponses comprenant quatre différents fichiers CSV:Quatre csv contenant les réponses de personnes...NLP,Text Data,Economics Classification
1.49G
650
William Jacques
维基百科的电影情节
Arts and Entertainment,Movies and TV Shows,NLP,Text Data,Recommender Systems Classification
77.43M
602
JustinR
Medium Articles 包含标记为AI、机器学习、数据科学或人工智能的帖子,以及用户信息
Medium taps into the brains of the world’s most insightful writers, thinkers, and storytellers to bring you the smartes...NLP,Text Data,Literature Classification
1.8G
314
AiswaryaRamachandran
SEERA软件成本估算数据集
SEERA(苏丹软件工程)成本估算数据集:是技术和经济受限环境的数据集。这是从苏丹42个组织收集120个软件开发项目数据的结果。SE...Software Classification
2.51M
500
Mustafa, Emtinan I.,Osman, Rasha,