Select Language

AI社区

公开数据集

WikiText长期依赖性语言建模数据集

WikiText长期依赖性语言建模数据集

1.11G
202 浏览
0 喜欢
0 次下载
0 条讨论
NLP,Deep Learning,Text Data Classification

WikiText语言建模数据集是从维基百科上一组经过验证的好文章和特色文章中提取的超过1亿个令牌的集合。与宾夕法尼亚树库(PTB)的......

数据结构 ? 1.11G

    Data Structure ?

    * 以上分析是由系统提取分析形成的结果,具体实际数据为准。

    README.md

    WikiText语言建模数据集是从维基百科上一组经过验证的好文章和特色文章中提取的超过1亿个令牌的集合。

    与宾夕法尼亚树库(PTB)的预处理版本相比,WikiText-2大了2倍多,WikiText-103大了110倍多。WikiText数据集还具有更大的词汇表,并保留了原始的大小写、标点符号和数字,所有这些都在PTB中删除了。由于该数据集由完整的文章组成,因此非常适合于可以利用长期依赖关系的模型。

    Published results: WikiText-103

    Validation and testing perplexities for WikiText-103. Lower is better.

    PublicationModelParametersValidationTesting
    Grave et al. 2016LSTM--48.7
    Grave et al. 2016Neural cache model (size = 100)--44.8
    Grave et al. 2016Neural cache model (size = 2000)--40.8

    Published results: WikiText-2

    Validation and testing perplexities for WikiText-2. Lower is better.

    PublicationModelParametersValidationTesting
    Merity et al. 2016Zoneout + Variational LSTM20M108.7100.9
    Grave et al. 2016LSTM--99.3
    Merity et al. 2016Variational LSTM (code from Gal 2015)20M101.796.3
    Grave et al. 2016Neural cache model (size = 100)--81.6
    Merity et al. 2016Pointer LSTM (window = 100)21M84.880.8
    Grave et al. 2016Neural cache model (size = 2000)--68.9

    Dataset statistics

    In comparison to the Mikolov processed version of the Penn Treebank (PTB), the WikiText datasets are larger. WikiText-2 aims to be of a similar size to the PTB while WikiText-103 contains all articles extracted from Wikipedia. The WikiText datasets also retain numbers (as opposed to replacing them with N), case (as opposed to all text being lowercased), and punctuation (as opposed to stripping them out).


    Penn TreebankWikiText-2WikiText-103

    TrainValidTestTrainValidTestTrainValidTest
    Articles---600606028,4756060
    Tokens887,52170,39078,6692,088,628217,646245,569103,227,021217,646245,569
    Vocab10,00033,278267,735
    OoV4.8%2.6%0.4%

    Citation credit

    Stephen Merity, Caiming Xiong, James Bradbury, and Richard Socher. 2016. Pointer Sentinel Mixture Models

    Contact information

    If you have questions about the dataset or want to report new results, contact Stephen Merity.


    ×

    帕依提提提温馨提示

    该数据集正在整理中,为您准备了其他渠道,请您使用

    注:部分数据正在处理中,未能直接提供下载,还请大家理解和支持。
    暂无相关内容。
    暂无相关内容。
    • 分享你的想法
    去分享你的想法~~

    全部内容

      欢迎交流分享
      开始分享您的观点和意见,和大家一起交流分享.
    所需积分:25 去赚积分?
    • 202浏览
    • 0下载
    • 0点赞
    • 收藏
    • 分享