Select Language

AI社区

人工智能数据集交易平台

57,645张竖排文字场景OCR数据【数据堂】

57,645张竖排文字场景OCR数据【数据堂】

154 浏览
0 喜欢
0 条评论
57,645张 图像 可用于多种竖排文字场景OCR任务

数据规模57,645张,528,553个框采集环境包括街景、牌匾、广告牌、海报、装饰、艺术字、杂志封面等采集多样性多种场景、多种字体......

README.md

  • 数据规模

  • 57,645张,528,553个框

  • 采集环境

  • 包括街景、牌匾、广告牌、海报、装饰、艺术字、杂志封面等

  • 采集多样性

  • 多种场景、多种字体

  • 语言分布

  • 中文、英文(少量)

  • 标注框方向分布

  • 324,399个竖排框,204,154个非竖排框

  • 标注框形状分布

  • 34,936个矩形框、220,716个多边形框、272,901个平行四边形框

  • 数据格式

  • 图像格式为.jpg,标注文档格式为.json

  • 标注内容

  • 列级矩形框(多边形框、平行四边形框)标注、列级内容转写;非竖排矩形框(多边形框、平行四边形框)标注、非竖排内容转写

  • 准确率

  • 标注框顶点偏差不超过三个像素为正确检测,检测框精度不低于97%;文本转写精度不低于97%



0相关评论
数据堂(北京)科技股份有限公司 数据堂(北京)科技股份有限公司