公开数据集
数据结构 ? 853K
Data Structure ?
* 以上分析是由系统提取分析形成的结果,具体实际数据为准。
README.md
这个数据集最重要的特点是使用简单,并且有很好的记录,可以广泛用于有关库尔德索拉尼新闻和文章的各种文本分析研究。
这些文件包括八个类别,即体育、宗教、艺术、经济、教育、社会、风格和健康。每个类别由500个文本文件组成,语料库的总规模为4,007个文本文件。
该数据集和文件已经可以免费使用,以便有可重复的结果用于实验评估。
Attribute Information:
有四个集合。
- ST-Ds数据集,使用库尔德语预处理步骤的方法来消除停止词。
- pre-ds数据集,使用库尔德语预处理步骤的方法。
- Pre+TW-Ds数据集,对Pre-Ds数据集进行了TF-IDF术语加权处理。
- Orig-Ds数据集,没有使用任何过程,这是原始数据集。
Relevant Papers:
[1] Arazo M. Mustafa and Tarik A. Rashid,“ Kurdish
Stemmer Pre-processing Steps for Improving Information Retrievalâ€,
Journal of Information Science, First published date: january-01-2017,
10.1177/0165551516683617.
[2] Tarik A. Rashid, Arazo M. Mustafa and Ari M. Saeed, 2017.'A
Robust Categorization System for Kurdish Sorani Text documents'.
Information Technology Journal, 16: 27-34.
[3] Tarik A. Rashid, Arazu M. Mustafa, Ari M. Saeed Automatic
Kurdish Text Classification Using KDC 4007 Dataset, accepted in Springer
book, Series Title: Lecture Notes on Data Engineering and
Communications Technologies: Book title: Advances in Internetworking,
Data & Web Technologies, Indexing: The books of this series are
submitted to ISI Proceedings, EI, Scopus, metaPress, Springerlink, 2017.
Citation Request:
If you have no special citation requests, please leave this field blank.
帕依提提提温馨提示
该数据集正在整理中,为您准备了其他渠道,请您使用
- 分享你的想法
全部内容
数据使用声明:
- 1、该数据来自于互联网数据采集或服务商的提供,本平台为用户提供数据集的展示与浏览。
- 2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
- 3、数据集基本信息来自数据原地址或数据提供方提供的信息,如数据集描述中有描述差异,请以数据原地址或服务商原地址为准。
- 1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。
- 1、如您需要转载本站数据,请保留原数据地址及相关版权声明。
- 1、如本站中的部分数据涉及侵权展示,请及时联系本站,我们会安排进行数据下线。