Select Language

AI社区

公开数据集

万篇德国新闻文章数据集,10kGNAD基于一百万篇文章语料库

万篇德国新闻文章数据集,10kGNAD基于一百万篇文章语料库

51.81M
253 浏览
0 喜欢
0 次下载
0 条讨论
NLP,Classification,Computer Science,Programming,News,Social Science Classification

10kGNAD数据集旨在作为第一个德国主题分类数据集解决部分问题。它由一家奥地利在线报纸的10273篇德语新闻文章组成,分为9个主题......

数据结构 ? 51.81M

    Data Structure ?

    * 以上分析是由系统提取分析形成的结果,具体实际数据为准。

    README.md

    10kGNAD数据集旨在作为第一个德国主题分类数据集解决部分问题。

    它由一家奥地利在线报纸的10273篇德语新闻文章组成,分为9个主题。

    这些文章是一百万篇文章语料库中至今未使用的部分。


    在一百万篇文章语料库中,每篇文章都有一个主题路径。例如,新闻室/Wirtschaft/Wirtshaftpolitik/Finanzmaerkte/Griechenlandkrise。

    10kGNAD使用主题路径的第二部分,这里是Wirtschaft,作为类标签。

    因此,数据集可用于多类分类。


    我在论文中创建并使用了这个数据集来训练和评估四个德语文本分类器。

    通过发布数据集,我希望支持德语工具和模型的进步。

    此外,该数据集可以用作德国主题分类的基准数据集。


    数字和统计


    与大多数真实世界数据集一样,10kGNAD的类分布并不平衡。

    最大的类Web包含1678篇,而小类Kultur仅包含539篇文章。

    然而,来自Web类的文章平均单词最少,而来自文化类的文章单词次之。

    分为列车和测试

    我建议将10%的文章分层进行测试,其余的文章进行培训。

    要将数据集用作基准数据集,请使用项目根目录中的train.csv和test.csv文件。


    ×

    帕依提提提温馨提示

    该数据集正在整理中,为您准备了其他渠道,请您使用

    注:部分数据正在处理中,未能直接提供下载,还请大家理解和支持。
    暂无相关内容。
    暂无相关内容。
    • 分享你的想法
    去分享你的想法~~

    全部内容

      欢迎交流分享
      开始分享您的观点和意见,和大家一起交流分享.
    所需积分:18 去赚积分?
    • 253浏览
    • 0下载
    • 0点赞
    • 收藏
    • 分享