Select Language

AI社区

公开数据集

多模态仇恨言语,150000条带有文本和图像的推特,用于仇恨检测

多模态仇恨言语,150000条带有文本和图像的推特,用于仇恨检测

6.55G
560 浏览
0 喜欢
2 次下载
0 条讨论
NLP,Online Communities,Image Data,Multiclass Classification,Social Networks Classification

现有的仇恨语音数据集仅包含文本数据。我们创建了一个新的手动注释的多模态仇恨语音数据集,该数据集由150000条推文组成,每条推......

数据结构 ? 6.55G

    Data Structure ?

    * 以上分析是由系统提取分析形成的结果,具体实际数据为准。

    README.md

    现有的仇恨语音数据集仅包含文本数据。我们创建了一个新的手动注释的多模态仇恨语音数据集,该数据集由150000条推文组成,每条推文都包含文本和图像。我们称数据集为MMHS150K。

    推特收集

    我们使用推特API收集了2018年9月至2019年2月的实时推文,选择了包含仇恨言论推文中更常见的51个仇恨语术语中的任何一个的推文。我们过滤掉了转发、包含少于三个单词的推文和包含色情相关术语的推文。从选择中,我们保留了包含图像的图像并下载了它们。Twitter根据其政策应用仇恨言论过滤器和其他类型的内容控制,尽管监管是基于用户的报告。因此,当我们从实时发布中收集推文时,我们得到的内容还没有通过任何过滤。

    批注

    我们使用众包平台Amazon Mechanical Turk对收集的推文进行注释。在那里,我们给了员工仇恨言论的定义,并展示了一些例子,以使任务更清晰。然后,我们展示推文文本和图片,并要求他们将其分为6类:没有对任何社区的攻击、种族主义、性别歧视、同性恋、基于宗教的攻击或对其他社区的攻击。15万条推文中的每一条都由3名不同的员工标记,以缓解员工之间的差异。从AMT获得的原始注释可与数据集一起下载。

    我们从注释者那里收到了很多宝贵的反馈。他们中的大多数人都正确地理解了这项任务,但由于它的主观性,他们感到担忧。这确实是一项主观任务,高度依赖于注释者的信念和敏感性。然而,我们希望攻击越强,注释越清晰,这是我们更感兴趣检测的出版物。下面是每个类中标记的推文的百分比,以及最常见关键词的讨厌和不讨厌推文的比例。

    ×

    帕依提提提温馨提示

    该数据集正在整理中,为您准备了其他渠道,请您使用

    注:部分数据正在处理中,未能直接提供下载,还请大家理解和支持。
    暂无相关内容。
    暂无相关内容。
    • 分享你的想法
    去分享你的想法~~

    全部内容

      欢迎交流分享
      开始分享您的观点和意见,和大家一起交流分享.
    所需积分:45 去赚积分?
    • 560浏览
    • 2下载
    • 0点赞
    • 收藏
    • 分享