Select Language

AI社区

公开数据集

UD-Chinese-GSD

UD-Chinese-GSD

400.69M
392 浏览
0 喜欢
0 次下载
0 条讨论
Others Text

数据结构 ? 400.69M

    Data Structure ?

    * 以上分析是由系统提取分析形成的结果,具体实际数据为准。

    README.md

    Traditional Chinese Universal Dependencies Treebank annotated and converted by Google.

    Tokenization and Word Segmentation

    • This corpus contains 4997 sentences and 123291 tokens.
    • This corpus contains 122962 tokens (100%) that are not followed by a space.
    • This corpus does not contain words with spaces.
    • This corpus contains 41 types of words that contain both letters and punctuation. Examples: #A, DC-10, km/h, #B, #C, #D, #E, #F, #G, -an, A-AVG, AK-47, Arzacq-Arraziguet, Beaune-Sud, Berne-Belp, CI-7957, CRH380B-002, F-15A, F-16A, Frito-Lay, It's, Kink.com, MD-11, Micro-USM, NX-01, Navy's, O., P-700, Pre-rendering, S-IVB, TVS-5, Tu-16, Uhler-Phillips, al-Banna, f(x), g(x), t.163.com, t.qq.com, t.sina.com.cn, t.sohu.com, t.xxxx.com

    Click Here to learn more.

    ×

    帕依提提提温馨提示

    该数据集正在整理中,为您准备了其他渠道,请您使用

    注:部分数据正在处理中,未能直接提供下载,还请大家理解和支持。
    暂无相关内容。
    暂无相关内容。
    • 分享你的想法
    去分享你的想法~~

    全部内容

      欢迎交流分享
      开始分享您的观点和意见,和大家一起交流分享.
    所需积分:0 去赚积分?
    • 392浏览
    • 0下载
    • 0点赞
    • 收藏
    • 分享