Select Language

AI社区

人工智能数据集交易平台

20,000张自然场景OCR描述数据【数据堂】

20,000张自然场景OCR描述数据【数据堂】

137 浏览
0 喜欢
0 条评论
20,000张 文本 可用于自然语言理解等任务

采集环境包括商店牌匾、站牌、海报、路标、提示语等多种场景语种分布亚洲语系:韩语、印尼语、马来语、越南语、泰语、中文、日语......

README.md

  • 采集环境

  • 包括商店牌匾、站牌、海报、路标、提示语等多种场景

  • 语种分布

  • 亚洲语系:韩语、印尼语、马来语、越南语、泰语、中文、日语 欧洲语系:法语、德语、意大利语、葡萄牙语、俄语、西班牙语、英语

    • 数据规模

    • 20,000张图像,20,000段描述

    • 采集设备

    • 手机、相机

    • 存储格式

    • 图片格式为.jpg,文本格式为.txt

    • 语言

    • 英语

    • 文本长度

    • 原则上为30~60个单词,通常包含3-5句话

    • 主要描述内容

    • 文字排列方式、文字内容、颜色、场景


    0相关评论
    数据堂(北京)科技股份有限公司 数据堂(北京)科技股份有限公司