Select Language

AI社区

公开数据集

KcBERT训练前语料库(韩国新闻评论)

KcBERT训练前语料库(韩国新闻评论)

11899.2M
261 浏览
0 喜欢
0 次下载
0 条讨论
Computer Science,Education,News,NLP,Text Data Classification

数据结构 ? 11899.2M

    Data Structure ?

    * 以上分析是由系统提取分析形成的结果,具体实际数据为准。

    README.md

    # KcBERT Pre-Training Corpus (Korean News Comments) ## KcBERT? Github KcBERT Repo: [https://github.com/Beomi/KcBERT](https://github.com/Beomi/KcBERT) KcBERT is Korean Comments BERT pretrained on this Corpus set. (You can use it via Huggingface's Transformers library!) ## What's this? This Kaggle Dataset contains **CLEANED** dataset preprocessed with the code below. python import re import emoji from soynlp.normalizer import repeat_normalize emojis = ''.join(emoji.UNICODE_EMOJI.keys()) pattern = re.compile(f'[^ .,?!/@$%~%·~()\x00-\x7F?-?{emojis}]+') url_pattern = re.compile( r'https?:\/\/(www\.)?[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{1,6}\b([-a-zA-Z0-9()@:%_\+.~#?&//=]*)') def clean(x): x = pattern.sub(' ', x) x = url_pattern.sub('', x) x = x.strip() x = repeat_normalize(x, num_repeats=2) return x ## How to use? You can use this dataset the way you want to :) Feel free to use!
    ×

    帕依提提提温馨提示

    该数据集正在整理中,为您准备了其他渠道,请您使用

    注:部分数据正在处理中,未能直接提供下载,还请大家理解和支持。
    暂无相关内容。
    暂无相关内容。
    • 分享你的想法
    去分享你的想法~~

    全部内容

      欢迎交流分享
      开始分享您的观点和意见,和大家一起交流分享.
    所需积分:0 去赚积分?
    • 261浏览
    • 0下载
    • 0点赞
    • 收藏
    • 分享