Select Language

AI社区

公开数据集

curationCorpus 策展语料库

curationCorpus 策展语料库

123.13M
432 浏览
0 喜欢
10 次下载
0 条讨论
NLP Text

策展语料库汇集了 40,000 篇专业撰写的新闻文章摘要,并附有文章本身的链接。这个存储库提供了一个抓取工具来访问它们。如果您对......

数据结构 ? 123.13M

    Data Structure ?

    * 以上分析是由系统提取分析形成的结果,具体实际数据为准。

    README.md

    策展语料库汇集了 40,000 篇专业撰写的新闻文章摘要,并附有文章本身的链接。这个存储库提供了一个抓取工具来访问它们。如果您对商业用途或访问更广泛的 Curation 数据目录感兴趣,包括超过 150,000 个专业编写的摘要和可扩展的按需内容抽象 API(由人类或 AI 驱动),请访问触碰。有关我们希望此版本如何帮助 NLP 社区的想法,请参阅我们介绍数据集的帖子。

    Instruction

    • Clone this repository (or just copy the code from scraper.py)

    • Download the urls, headlines, and summaries from here

    • Run web_scraper.py. Give as command line arguments the path to the csv file without article text, the path to a new csv file which will have article text, and a batch size to determine how many urls it will scrape at a time. Larger batch sizes will make it run faster but it may drop more articles due to timeouts. I recommend ~50 on a 2015 Macbook Pro.

    git clone https://github.com/CurationCorp/curation-corpus.git
    cd curation-corpus
    wget https://curation-datasets.s3-eu-west-1.amazonaws.com/curation-corpus-base.csv
    python web_scraper.py curation-corpus-base.csv curation-corpus-base-with-articles.csv 50

    Some urls will return messy results due to content changing over time, paywalls, etc. We've tried to remove the worst offenders from this release. There is probably still scope though for improving the scraper though.

    Citation

    @misc{curationcorpusbase:2020,
      title={Curation Corpus base},
      author={Curation},
      year={2020}
    }


    ×

    帕依提提提温馨提示

    该数据集正在整理中,为您准备了其他渠道,请您使用

    注:部分数据正在处理中,未能直接提供下载,还请大家理解和支持。
    暂无相关内容。
    暂无相关内容。
    • 分享你的想法
    去分享你的想法~~

    全部内容

      欢迎交流分享
      开始分享您的观点和意见,和大家一起交流分享.
    所需积分:10 去赚积分?
    • 432浏览
    • 10下载
    • 0点赞
    • 收藏
    • 分享