公开数据集

curationCorpus 策展语料库

123.13M

533 浏览

0 喜欢

10 次下载

0 条讨论

NLP Text

策展语料库汇集了 40,000 篇专业撰写的新闻文章摘要，并附有文章本身的链接。这个存储库提供了一个抓取工具来访问它们。如果您对......

数据介绍
文件预览
相关论文
Code
分享讨论(0)
使用声明

启动Notebook开发

数据结构 ? 123.13M

* 以上分析是由系统提取分析形成的结果，具体实际数据为准。

README.md

策展语料库汇集了 40,000 篇专业撰写的新闻文章摘要，并附有文章本身的链接。这个存储库提供了一个抓取工具来访问它们。如果您对商业用途或访问更广泛的 Curation 数据目录感兴趣，包括超过 150,000 个专业编写的摘要和可扩展的按需内容抽象 API（由人类或 AI 驱动），请访问触碰。有关我们希望此版本如何帮助 NLP 社区的想法，请参阅我们介绍数据集的帖子。

Instruction

Clone this repository (or just copy the code from scraper.py)
Download the urls, headlines, and summaries from here
Run web_scraper.py. Give as command line arguments the path to the csv file without article text, the path to a new csv file which will have article text, and a batch size to determine how many urls it will scrape at a time. Larger batch sizes will make it run faster but it may drop more articles due to timeouts. I recommend ~50 on a 2015 Macbook Pro.

git clone https://github.com/CurationCorp/curation-corpus.git
cd curation-corpus
wget https://curation-datasets.s3-eu-west-1.amazonaws.com/curation-corpus-base.csv
python web_scraper.py curation-corpus-base.csv curation-corpus-base-with-articles.csv 50

Some urls will return messy results due to content changing over time, paywalls, etc. We've tried to remove the worst offenders from this release. There is probably still scope though for improving the scraper though.

Citation

@misc{curationcorpusbase:2020,
  title={Curation Corpus base},
  author={Curation},
  year={2020}
}

暂无相关内容。

分享你的想法

去分享你的想法~~

全部内容

欢迎交流分享

开始分享您的观点和意见，和大家一起交流分享.

数据使用声明：

一、数据来源与展示说明：

1、该数据来自于互联网数据采集或服务商的提供，本平台为用户提供数据集的展示与浏览。
2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
3、数据集基本信息来自数据原地址或数据提供方提供的信息，如数据集描述中有描述差异，请以数据原地址或服务商原地址为准。

二、所有权说明：

1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。

三、数据转载说明：

1、如您需要转载本站数据，请保留原数据地址及相关版权声明。

四、侵权与处理说明：

1、如本站中的部分数据涉及侵权展示，请及时联系本站，我们会安排进行数据下线。

所需积分：

10 去赚积分？

533浏览
10下载
0点赞
收藏
分享

Select Language

AI社区

今日排行

本月搜索

Dataset Category