公开数据集
数据结构 ? 295M
Data Structure ?
* 以上分析是由系统提取分析形成的结果,具体实际数据为准。
README.md
##数据集此数据集包含来自[Dota 2][1]的聊天信息-Valve视频游戏,最流行的电子竞技学科之一。该数据集用于训练[罗夫兰机器人][2]。它包含了近100万场公开配对赛的聊天记录(当玩家被游戏服务器随机挑选出来时,技能水平大致相同)。#注意事项和免责声明**重要信息,请阅读。**此数据集对于工作而言完全不安全。在《Dota 2》中,玩家以一种非常特殊的方式相互交流。例如,您可能会发现许多缩写和特定于游戏的术语。对于Dota 2玩家来说,通常会将游戏中的失败归咎于队友和对手。不幸的是,许多信息可能包含粗鲁的侮辱、对其他玩家家人的侮辱、种族主义的表达和其他可怕的事情。我们按“原样”提供信息,没有任何过滤和审查,我们不对数据中的冒犯性内容负责。我们的目标是让研究人员有机会深入到真实的对话中来探索玩家社区。我们想提请大家注意大多数Dota 2玩家的显著毒性问题,我们认为玩家的这种行为是不健康的数据集1的使用。请参阅关于如何[学习Roplan机器人][4]以反映典型玩家的聊天行为的粗略解释。您可以在此数据集上应用自己的语言模型,并创建其他聊天机器人,或者只是比较学习性能。2、通过对电子竞技观众聊天的分析,查看[这篇arXiv论文][3]。您可以对游戏参与者的聊天进行类似的分析。[1]: https://en.wikipedia.org/wiki/Dota_2 [2]: https://roflan.gosu.ai [3]: https://arxiv.org/pdf/1801.02862.pdf [4]: https://www.reddit.com/r/DotA2/comments/7xs8q6/how_we_trained_dota_2_chat_simulator_why_he_is_so/
帕依提提提温馨提示
该数据集正在整理中,为您准备了其他渠道,请您使用
- 分享你的想法
全部内容
数据使用声明:
- 1、该数据来自于互联网数据采集或服务商的提供,本平台为用户提供数据集的展示与浏览。
- 2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
- 3、数据集基本信息来自数据原地址或数据提供方提供的信息,如数据集描述中有描述差异,请以数据原地址或服务商原地址为准。
- 1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。
- 1、如您需要转载本站数据,请保留原数据地址及相关版权声明。
- 1、如本站中的部分数据涉及侵权展示,请及时联系本站,我们会安排进行数据下线。