公开数据集
数据结构 ? 3.75G
Data Structure ?
* 以上分析是由系统提取分析形成的结果,具体实际数据为准。
README.md
Europarl平行语料库摘自欧洲议会的议事程序。它包括21种欧洲语言的版本:罗马语(法语,意大利语,西班牙语,葡萄牙语,罗马尼亚语),日耳曼语(英语,荷兰语,德语,丹麦语,瑞典语),斯拉维克(保加利亚语,捷克语,波兰语,斯洛伐克语,斯洛文尼亚语),芬尼-乌格里克语(芬兰文,匈牙利文,爱沙尼亚文),波罗的海文(拉脱维亚文,立陶宛文)和希腊文。
语料库的大小
删除XML后单语言数据的大小。
语言 | 句子 | 话 |
---|---|---|
保加利亚语 | 411,636 | -- |
捷克文 | 668,595 | 13,195,311 |
丹麦文 | 2,323,099 | 47,761,381 |
德语 | 2,176,537 | 47,236,849 |
希腊语 | 1,517,141 | -- |
英语 | 2,218,201 | 53,974,751 |
西班牙文 | 2,123,835 | 54,806,927 |
爱沙尼亚语 | 692,210 | 11,358,009 |
芬兰 | 2,119,515 | 33,708,706 |
法文 | 2,190,579 | 54,202,850 |
匈牙利 | 658,824 | 12,606,986 |
义大利文 | 2,081,669 | 50,259,169 |
立陶宛语 | 678,665 | 11,512,131 |
拉脱维亚语 | 666,026 | 12,085,228 |
荷兰人 | 2,333,816 | 53,487,257 |
抛光 | 387,490 | 7,087,016 |
葡萄牙语 | 2,121,889 | 52,300,149 |
罗马尼亚语 | 402,904 | 9,663,544 |
斯洛伐克文 | 674,359 | 13,116,301 |
斯洛文尼亚 | 634,488 | 12,665,974 |
瑞典 | 2,241,386 | 45,665,947 |
句子对齐和删除XML后并行语料库的大小。
平行语料库(L1-L2) | 句子 | L1字 | 英语单词 |
---|---|---|---|
保加利亚英语 | 406,934 | -- | 9,886,291 |
捷克英语 | 646605 | 12,999,455 | 15,625,264 |
丹麦语-英语 | 1,968,800 | 44,654,417 | 48,574,988 |
德语-英语 | 1,920,209 | 44,548,491 | 47,818,827 |
希腊语-英语 | 1,235,976 | -- | 31,929,703 |
西班牙语-英语 | 1,965,734 | 51,575,748 | 49,093,806 |
爱沙尼亚语-英语 | 651,746 | 11,214,221 | 15,685,733 |
芬兰语-英语 | 1,924,942 | 32,266,343 | 47,460,063 |
法语-英语 | 2,007,723 | 51,388,643 | 50,196,035 |
匈牙利英语 | 624,934 | 12,420,276 | 15,096,358 |
意大利语-英语 | 1,909,115 | 47,402,927 | 49,666,692 |
立陶宛语-英语 | 635,146 | 11,294,690 | 15,341,983 |
拉脱维亚语-英语 | 637,599 | 11,928,716 | 15,411,980 |
荷兰语-英语 | 1,997,775 | 50,602,994 | 49,469,373 |
波兰语-英语 | 632,565 | 12,815,544 | 15,268,824 |
葡萄牙语-英语 | 1,960,407 | 49,147,826 | 49,216,896 |
罗马尼亚英语 | 399,375 | 9,628,010 | 9,710,331 |
斯洛伐克英语 | 640,715 | 12,942,434 | 15,442,233 |
斯洛文尼亚语-英语 | 623,490 | 12,525,644 | 15,021,497 |
瑞典语-英语 | 1,862,234 | 41,508,712 | 45,703,795 |
Known Bugs
Some special HTML entities and noisy characters are not removed from the data.
Some recent Greek data has only parts of transcripts in the files.
Terms of Use
We are not aware of any copyright restrictions of the material. If you use this data in your research, please contactpkoehn@inf.ed.ac.uk. Please let us know if you find problems with the data or if you want the data for other language pairs. We recommend using the last quarter of 2000 for testing (2000-10 until 2000-12) for consistency in reporting research results on this data.
Acknowledgments
The work was in part supported by the EuroMatrixPlus project funded by the European Commission (7th framework Programme).
帕依提提提温馨提示
该数据集正在整理中,为您准备了其他渠道,请您使用
- 分享你的想法
全部内容
数据使用声明:
- 1、该数据来自于互联网数据采集或服务商的提供,本平台为用户提供数据集的展示与浏览。
- 2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
- 3、数据集基本信息来自数据原地址或数据提供方提供的信息,如数据集描述中有描述差异,请以数据原地址或服务商原地址为准。
- 1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。
- 1、如您需要转载本站数据,请保留原数据地址及相关版权声明。
- 1、如本站中的部分数据涉及侵权展示,请及时联系本站,我们会安排进行数据下线。