公开数据集

KDC-4007文本数据集（体育、宗教、艺术、经济、教育、社会、风格和健康）

853K

730 浏览

0 喜欢

2 次下载

0 条讨论

Computer Classification

Data Set Information:该数据集最重要的特点是其使用简单且有良好的文档记录，可广泛用于有关库尔德索拉尼新闻和文章的各种文本......

数据介绍
文件预览
相关论文
Code
分享讨论(0)
使用声明

启动Notebook开发

数据结构 ? 853K

* 以上分析是由系统提取分析形成的结果，具体实际数据为准。

README.md

Data Set Information:

该数据集最重要的特点是其使用简单且有良好的文档记录，可广泛用于有关库尔德索拉尼新闻和文章的各种文本分析研究。

这些文件包括八个类别，即体育、宗教、艺术、经济、教育、社会、风格和健康。每个文档由500个文本文档组成，其中语料库的总大小为4007个文本文件。

数据集和文档可以自由访问，以便获得可重复的实验评估结果。

Attribute Information:

There is four collection:
- ST-Ds datasets, just stop words elimination is performed by using Kurdish preprocessing-step approach.
- The pre-ds dataset, Kurdish preprocessing-step approach is used.
- The Pre+TW-Ds dataset, TF?—IDF term weighting on the Pre-Ds dataset is performed.
- Orig-Ds datasets, no process is used which is the original dataset.

Relevant Papers:

[1] Arazo M. Mustafa and Tarik A. Rashid,a€? Kurdish Stemmer Pre-processing Steps for Improving Information Retrievala€?, Journal of Information Science, First published date: january-01-2017, 10.1177/0165551516683617.
[2] Tarik A. Rashid, Arazo M. Mustafa and Ari M. Saeed, 2017.'A Robust Categorization System for Kurdish Sorani Text documents'. Information Technology Journal, 16: 27-34.
[3] Tarik A. Rashid, Arazu M. Mustafa, Ari M. Saeed Automatic Kurdish Text Classification Using KDC 4007 Dataset, accepted in Springer book, Series Title: Lecture Notes on Data Engineering and Communications Technologies: Book title: Advances in Internetworking, Data & Web Technologies, Indexing: The books of this series are submitted to ISI Proceedings, EI, Scopus, metaPress, Springerlink, 2017.

Citation Request:

If you have no special citation requests, please leave this field blank.

Arazo M. Mustafa, (arazo.2007 '@' yahoo.com),
School of Computer Science University of Sulaimania, Kurdistan, Iraq

暂无相关内容。

分享你的想法

去分享你的想法~~

全部内容

欢迎交流分享

开始分享您的观点和意见，和大家一起交流分享.

数据使用声明：

一、数据来源与展示说明：

1、该数据来自于互联网数据采集或服务商的提供，本平台为用户提供数据集的展示与浏览。
2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
3、数据集基本信息来自数据原地址或数据提供方提供的信息，如数据集描述中有描述差异，请以数据原地址或服务商原地址为准。

二、所有权说明：

1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。

三、数据转载说明：

1、如您需要转载本站数据，请保留原数据地址及相关版权声明。

四、侵权与处理说明：

1、如本站中的部分数据涉及侵权展示，请及时联系本站，我们会安排进行数据下线。

所需积分：

15 去赚积分？

730浏览
2下载
0点赞
收藏
分享

Select Language

AI社区

今日排行

本月搜索

Dataset Category