公开数据集
数据结构 ? 0.03M
Data Structure ?
* 以上分析是由系统提取分析形成的结果,具体实际数据为准。
README.md
Context
Stop words are words which are filtered out prior to, or after, processing of natural language data […] these are some of the most common, short function words, such as the, is, at, which, and on.
I want to consolidate the stop words for Indian Languages across Kaggle in a single database
Content
We have the common stop words for 5 Indian Languages for now:
Bengali
Gujarati
Hindi
Marathi
Odia
Urdu
Please share if you know sources for more. Looking to expand the list. Thank you!!
Acknowledgements
Bengali : https://www.kaggle.com/rtatman/stopword-lists-for-19-languages
Gujarati : https://www.kaggle.com/rtatman/stopword-lists-for-19-languages
Hindi : https://www.kaggle.com/ruchi798/hindi-stopwords
Marathi : https://www.kaggle.com/heeraldedhia/stop-words-in-28-languages
Odia: https://www.kaggle.com/biswabhusanpradhan/stopwords-odia
Urdu : https://www.kaggle.com/rtatman/urdu-stopwords-list
Please share if you know sources for more. Looking to expand the list. Thank you!!
Inspiration
Creating an India specific database
×
帕依提提提温馨提示
该数据集正在整理中,为您准备了其他渠道,请您使用
注:部分数据正在处理中,未能直接提供下载,还请大家理解和支持。
暂无相关内容。
暂无相关内容。
- 分享你的想法
去分享你的想法~~
全部内容
欢迎交流分享
开始分享您的观点和意见,和大家一起交流分享.
数据使用声明:
- 1、该数据来自于互联网数据采集或服务商的提供,本平台为用户提供数据集的展示与浏览。
- 2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
- 3、数据集基本信息来自数据原地址或数据提供方提供的信息,如数据集描述中有描述差异,请以数据原地址或服务商原地址为准。
- 1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。
- 1、如您需要转载本站数据,请保留原数据地址及相关版权声明。
- 1、如本站中的部分数据涉及侵权展示,请及时联系本站,我们会安排进行数据下线。