Select Language

AI社区

人工智能数据集交易平台

104,320张韩语和印地语自然场景OCR数据【数据堂】

104,320张韩语和印地语自然场景OCR数据【数据堂】

408 浏览
0 喜欢
0 条评论
104,320张 图像 可用韩语和印地语自然场景下的OCR任务

数据规模韩语76,861张,555,913个框;印地语27,459张,200,453个框采集环境包括商品包装、海报、车票、提示语、菜单、建筑物标志......

README.md

  • 数据规模

  • 韩语76,861张,555,913个框;印地语27,459张,200,453个框

  • 采集环境

  • 包括商品包装、海报、车票、提示语、菜单、建筑物标志等

  • 采集多样性

  • 多种自然场景、多种拍摄角度、不同光照条件

  • 采集设备

  • 手机

  • 数据格式

  • 图像格式为.jpg,标注文档格式为.json

  • 标注框形状分布

  • 韩语315,822个四边形框、240,091个多边形框;印地语780个四边形框、199,671个多边形框、2个矩形框

  • 标注内容

  • 行级多边形框 (或四边形框、矩形框)标注、行级内容转写、文本属性(语言种类);列级多边形框 (或四边形框、矩形框)标注、列级内容转写、文本属性(语言种类)

    • 准确率

    • 标注框顶点偏差不超过五个像素为正确检测,检测框精度不低于95%;文本转写精度不低于95%



    0相关评论
    数据堂(北京)科技股份有限公司 数据堂(北京)科技股份有限公司