公开数据集

reddit 250万个帖子数据

437.79M

1695 浏览

1 喜欢

2 次下载

0 条讨论

NLP Text

美国 reddit 新闻网站最受欢迎的 2500 名发布者每家媒体 1000 个发布内容及评论数据集，来自订阅者的前2,500个子评价，从2013年8......

数据介绍
文件预览
相关论文
Code
分享讨论(0)
使用声明

启动Notebook开发

数据结构 ? 437.79M

* 以上分析是由系统提取分析形成的结果，具体实际数据为准。

README.md

美国 reddit 新闻网站最受欢迎的 2500 名发布者每家媒体 1000 个发布内容及评论数据集，来自订阅者的前2,500个子评价，从2013年8月15日至20日期间从reddit提取。

这是什么？

这是来自reddit的热门帖子的数据集。它包含来自前2,500个子评价的前1,000个历史帖子，总共有250万个帖子。顶级子订单由订户数确定，位于清单文件中。

这些数据是在2013年8月15日至20日期间提取的。

每个文件都是一个CSV，其相关的subreddit作为其文件名。每个CSV文件都包含一个标题行。

这有什么用？

这是一个简单的例子：这是Serendipity上最受投票的域名的细分。（是的，作为饼图。）

使用TF-IDF找到subreddit的重要术语。做语义分析等。

暂无相关内容。

分享你的想法

去分享你的想法~~

全部内容

欢迎交流分享

开始分享您的观点和意见，和大家一起交流分享.

数据使用声明：

一、数据来源与展示说明：

1、该数据来自于互联网数据采集或服务商的提供，本平台为用户提供数据集的展示与浏览。
2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
3、数据集基本信息来自数据原地址或数据提供方提供的信息，如数据集描述中有描述差异，请以数据原地址或服务商原地址为准。

二、所有权说明：

1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。

三、数据转载说明：

1、如您需要转载本站数据，请保留原数据地址及相关版权声明。

四、侵权与处理说明：

1、如本站中的部分数据涉及侵权展示，请及时联系本站，我们会安排进行数据下线。

所需积分：

10 去赚积分？

1695浏览
2下载
1点赞
收藏
分享

Select Language

AI社区

今日排行

本月搜索

Dataset Category