公开数据集
数据结构 ? 1.92G
Data Structure ?
* 以上分析是由系统提取分析形成的结果,具体实际数据为准。
README.md
MyAnimeList数据集包含30万用户,1.4万个动漫元数据,以及来自MyAnimeList.net的8千万评分。
这个数据集包含了关于动漫和观看动漫的御宅族的信息。
这个数据集的目的是成为互联网御宅族的代表性样本,用于人口统计分析和这个群体的趋势。它包含了关于用户(性别、地点、出生日期等),关于动漫(播出日期、类型、制作人...)和动漫列表的信息。MyAnimeList中的用户可以将动漫添加到他们的列表中,并将其标记为计划观看、已完成、正在观看、放弃......,他们还可以通过1-10分进行评分。注意:这里收集的所有信息都是公开的,不需要在任何地方注册就可以访问这些数据。
Content
该数据集包含3个文件。
1、AnimeList.csv包含动漫列表,包括标题、标题同义词、类型、工作室、许可人、制作人、持续时间、评级、分数、播出日期、集数、来源(漫画、轻小说等)以及其他许多关于单个动漫的重要数据,提供了关于动漫重要方面的时间趋势的充分信息。csv中的排名是浮动格式,但它只包含整数值。这是由于NaN值和它们在pandas中的表示。
2、UserList.csv包含了观看动漫的用户的信息,即用户名、注册日期(join_date)、最后一次在线日期、出生日期、性别、地点,以及他们的动漫列表中的很多聚合值。
3、UserAnimeList.csv包含所有用户的动漫列表。每条记录都有用户名、动漫ID、分数、状态和这个记录最后更新的时间戳。
整个数据集包含
1、302 675个独特的用户其中
2、302 573人有一些人口统计学数据
3、80 076 112条动漫列表的记录
4、46 358 322人有评分
5、14 478部独特的动画片
数据集的过滤版本包含在文件animefiltered.csv、animelistsfiltered.csv 和users_filtered.csv 中。它由填写了出生日期、地点和性别的用户组成。所以它包含的动漫列表数据要少得多。但是,当忽略一些缺失数据的用户时,所有重要的特征,如评级平均值和变化,或动漫列表中的类型都没有改变,所以即使使用过滤数据,我们也应该得到相同的信息。
过滤后的数据集包含:
1、116 133 个具有人口统计数据的唯一用户动漫列表中的
2、35 802 010 条记录其中
3、20 726 794 有评分
4、14 474部独特的动漫
还有一个经过过滤的数据集的清洁版本,由animecleaned.csv、animelistscleaned.csv和users_cleaned.csv文件组成。这个清理过的版本已经将所有在动画中拥有大得离谱的集数的用户剔除,显然这些用户并没有那么多的集数,观看过的集数大于个别动画的集数的用户被固定下来,看过的集数和观看时间也相应地被重新计算。对于一些用户来说,最后一次在线是1900年,只是一些奇怪的数值,所以他们的最后一次活动是根据他们最后的动画列表更新时间戳推断出来的。
许多用户错误地填写了重新观看的剧集数量。对于那些被观看的集数多于该动画的集数的动画,被观看的集数已经被改写为该动画的集数。观看时间和已观看的剧集数也相应地得到了修正。太年轻和太老的用户显然也被截断了。
有6个用户看过的剧集最多,疑似有很多剧集,在这里也被截断了。
这些用户太少了,无法影响任何统计。有##背景的动画
该数据集包含有关观看它的动漫和宅男的信息。已经有类似的数据集 https://www.kaggle.com/CooperUnion/anime-recommendations-database 但它小了几个数量级,并且缺少很多信息。该数据集旨在成为互联网 otaku 社区的代表性样本,用于该群体内部的人口统计分析和趋势。
它包含有关用户(性别、位置、出生日期等)、动漫(播出日期、流派、制作人……)和动漫列表的信息。MyAnimeList 中的用户可以将动漫添加到他们的列表中,并将其标记为计划观看、已完成、正在观看、已放弃……,他们还可以按 1-10 分对其进行评分。
注意:此处收集的所有信息都是公开可用的,无需在任何地方注册即可访问数据。
Acknowledgements
This dataset has been crawled from MyAnimeList.net with https://github.com/racinmat/myanimelist-crawler. This repo is based on https://github.com/Dibakarroy1997/myanimelist-data-set-creator but is fully prepared for long-term data scraping.
It uses https://github.com/TimboKZ/kuristina web-server and https://github.com/pushrbx/python3-mal library for scraping itself.
The Thumbnail image is from https://www.pinterest.com/pin/717198309380413746/
Many previous analyses have been made, each of them exploiting different
aspects of the otaku community. Here are some of them. Lots of them
used much smaller dataset, using this data should lead to more precise
outputs.
Acknowledgments:
These data can be used without additional permissions or fees. If you
use these data in a publication, presentation, or other research product
please use the following citation:
Matěj Račinský, “MyAnimeList Dataset.” Kaggle, 2018, doi: 10.34740/KAGGLE/DSV/45582.
Inspiration
This dataset may be used either for recommendation system or for
analysis on otaku culture, to see time trends of individual genres, to
see tendencies and customs of user ratings, to find similarities or
differences between individual user groups…
I already performed one analysis, which is available here: https://github.com/racinmat/mal-analysis
帕依提提提温馨提示
该数据集正在整理中,为您准备了其他渠道,请您使用
- 分享你的想法
全部内容
数据使用声明:
- 1、该数据来自于互联网数据采集或服务商的提供,本平台为用户提供数据集的展示与浏览。
- 2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
- 3、数据集基本信息来自数据原地址或数据提供方提供的信息,如数据集描述中有描述差异,请以数据原地址或服务商原地址为准。
- 1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。
- 1、如您需要转载本站数据,请保留原数据地址及相关版权声明。
- 1、如本站中的部分数据涉及侵权展示,请及时联系本站,我们会安排进行数据下线。