Select Language

AI社区

人工智能数据集交易平台

105,941张12种语言自然场景OCR数据【数据堂】

105,941张12种语言自然场景OCR数据【数据堂】

175 浏览
0 喜欢
0 条评论
105,941张 图像 可用于多国语言OCR任务

数据规模105,941张,包括亚洲语系: 日语9,997张、韩语10,231张、印尼语7,591张、马来语5,650张、越南语8,822张、泰语9,645张;......

README.md

  • 数据规模

  • 105,941张,包括亚洲语系: 日语9,997张、韩语10,231张、印尼语7,591张、马来语5,650张、越南语8,822张、泰语9,645张;欧洲语系:法语10,015张、德语7,213张、意大利语8,824张、葡萄牙语7,754张、俄语10,376张、西班牙语9,823张

  • 采集环境

  • 包括商店牌匾、站牌、海报、车票、路标、漫画、井盖画、提示语、警示语、包装说明、菜单、建筑物标志等

  • 采集多样性

  • 包括12种语言、多种自然场景、多种拍摄角度(仰视、俯视、平视)

  • 采集设备

  • 手机、相机

  • 数据格式

  • 图像格式为.jpg, 标注格式为.json

  • 标注内容

  • 行级四边形标注、行级内容转写

  • 准确率

  • 四边形框顶点偏差不超过五个像素为正确检测,检测框精度不低于97%;文本转写精度不低于97%



0相关评论
数据堂(北京)科技股份有限公司 数据堂(北京)科技股份有限公司