公开数据集帕依提提-人工智能高质量数据集开放平台

戴姆勒人行道预测基准数据集（ECCV'14）本页介绍了戴姆勒的人行道预测基准数据集JFP Kooij，N。Schneider，F。Flohr和DM Gavrila。基于上下文的行人路径预测。程序欧洲...Environment,Vehicle,Environment Audio

2.45M 832

Daimler

WikiText 英语词库包含1亿个词汇的英文词库数据 WikiText英语词库数据（TheWikiTextLongTermDependencyLanguageModelingDataset）WikiText长期依赖语言建模数据集是一个包含1亿...NLP Text

373.28M 1328

Stephen Merity

JRC Names 实体专有名词库 JRC-Names是一个高度多语言的命名实体资源，用于个人和组织名称（称为“实体”）。它包含大量名称列表及其多种拼写变体（单个人...NLP Text

762.56M 1821

欧盟科学中心

Twitter-dataset 数据集 ICWSM 2010论文中的数据可从以下链接获得。我们的数据集已匿名化，以保护用户自己的隐私。我们只发布有关Twitter链接结构的信息...NLP Text

311.27M 1762

ICWSM

reddit 250万个帖子数据美国 reddit 新闻网站最受欢迎的 2500 名发布者每家媒体 1000 个发布内容及评论数据集，来自订阅者的前2,500个子评价，从2013年8...NLP Text

437.79M 1667

reddit

Multi-Domain Sentiment Dataset--多域情感数据集多域情感数据集包含从Amazon.com获取的许多产品类型（域）的产品评论。一些域名（书籍和DVD）有成千上万的评论。其他（乐器）只...NLP Text

1.53M 1363

Mark Dredze

WMT 2011 News Crawl 机器翻译数据 WMT2011NewsCrawldata 是一个自然语言翻译数据，从 Europarlcorpus 语料中提取得到，包括：French-English、Spanish-English、Ge...NLP Text

25.01G 1023

Europarl

人民日报词性标注语料数据（199801）人民日报语料，分词和词性标注POS的语料(Chinese corpus for Word segmentation and par of speech)资源为1998年人民日报1-6月份...NLP Text

2.81M 1230

人民日报

250万Reddit帖子数据这是来自订阅者的前2500个子目录中的前1000个帖子的历史数据集，该数据是在2013年8月15日至20日之间从reddit中提取的。这是reddi...NLP Text

452.85M 901

Reddit

新闻类别数据集，包含20万条新闻标题该数据集包含从HuffPost获得的2012年至2018年的大约20万条新闻标题。在该数据集上训练的模型可用于识别未跟踪新闻文章的标签或识...NLP Text

25.44M 1524

Rishabh Misra

爱尔兰时报新闻数据集该新闻数据集由爱尔兰境内的《爱尔兰时报》发布的148万个头条新闻组成。创建于160年前；该机构可以长期观察欧洲发生的事情。内容...NLP Text

48.93M 924

爱尔兰时报

LibriSpeech ASR corpus 语音数据 LibriSpeech ASR corpus 是一个语音数据，包括 1000小时的英文发音和对应文字。标识符：SLR12摘要：大规模（1000小时）阅读英语...NLP Audio

8.14G 1495

Vassil Panayotov

Google Audioset 音频数据集 AudioSet 包含了 632 类的音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段（片段来自 YouTube 视频）。音频本体...NLP Audio

2.41G 1895

Google

TIMIT语音识别数据 TIMIT语音读取语料库旨在为声学语音研究以及自动语音识别系统的开发和评估提供语音数据。TIMIT包含由八种主要美国英语方言组成的...NLP Audio

419.81M 1143

宾夕法尼亚大学

THUYG-20 维吾尔语语音数据摘要：免费的维吾尔语言数据库由CSLT @清华大学和新疆大学发布类别：演讲许可证：Apache License v.2.0介绍THUGY20是由语音和语...NLP Audio

6.12G 1852

清华大学

ALFFA 非洲语音数据收集撒哈拉以南非洲语言资源进行自动语音识别：Wolof案例研究。Elodie Gauthier，Laurent Besacier，Sylvie Voisin，Michael Mel...NLP Audio

3.81G 883

ALFFA

THCHS-30 汉语语音识别数据 THCHS-30标识符：SLR18摘要：CSLT @清华大学发布免费汉语语音语料库类别：演讲许可证：Apache License v.2.0THCHS30是由清华大学...NLP Audio

13.4G 1670

Tsinghua University

Sinhala TTS 语音识别数据僧伽罗语TTS标识符：SLR30摘要：僧伽罗语多音箱TTS语料库类别：演讲许可：署名 - ShareAlike 4.0国际（CC BY-SA 4.0）关于此资源...CNN Audio

247.96M 1171

Google

呼吸声音数据集，用于检测呼吸系统疾病呼吸声音数据库，使用录音来检测呼吸系统疾病。呼吸音是呼吸健康和呼吸系统疾病的重要指标。人呼吸时发出的声音与空气流动，肺组...Medical Audio

3.69G 1669

voltamax

心跳声音数据集该数据集最初是针对机器学习挑战来对心跳声音进行分类的。数据是从两个来源收集的：（A）通过iStethoscope Pro iPhone应用程序从...Medical Audio

110M 887

Ed King

Select Language

AI社区

今日排行

本月搜索

Dataset Category

公开数据集