中文图片相关数据集 ################## OCR === SCUT-EPT -------- * 手写体 SCUT-HCCDoc_Dataset_Release --------------------------- * GitHub: https://github.com/HCIILAB/SCUT-HCCDoc_Dataset_Release * 通过网盘分享的文件:SCUT-HCCDoc_Dataset_Release_v2.zip 链接: https://pan.baidu.com/s/1EpCJlB5oTIYM-EsnRXP4rQ?pwd=mcw5 提取码: mcw5 * SCUT-HCCDoc can be roughly divided into five subsets: * 手写体 HCCDoc-WT: images of traditional Chinese characters; HCCDoc-WS: images of simplified Chinese characters without a formatted background; HCCDoc-WSF: images of simplified Chinese characters with the formatted background; HCCDoc-SN: images of student notes; HCCDoc-EP: images of examination papers. .. figure:: https://img.zhaoweiguo.com/uPic/2025/05/h5BEM2.png Chinese-Text-Recognition ------------------------ * GitHub: https://github.com/FudanVI/benchmarking-chinese-text-recognition .. figure:: https://img.zhaoweiguo.com/uPic/2025/05/sGl5TQ.png The image demonstrates the four datasets used in our benchmark including Scene, Web, Document, and Handwriting datasets * Scene Dataset - 从五个公开的中文场景文本数据集中采集了图像样本(通过裁剪图像中的文本行),总共获取了 636,455 个文本样本。这些样本被随机打乱后按 8:1:1 的比例划分为训练集、验证集和测试集。 - 1.RCTW(Reading Chinese Text in the Wild) + 来源:自然场景图像(街景、广告牌等) + 原始数据量:12,263 张图像 + 使用方式: + 从训练集中裁剪出 44,420 条文本行 + 未使用其官方测试集(因为不提供标签) - 2.ReCTS(Recognizing Chinese Text in Street View) * 来源:街景图像,主要是商铺招牌和路标 * 原始图像数:25,000 张 * 使用方式: * 从训练集裁剪出 **107,657 条文本样本** * 仅使用训练集,未用测试集 - 3.LSVT(Large-scale Street View Text) * 来源:中英文混合的街景图像数据集 * 数据组成: * 50,000 张图像提供完整标注(多边形框+文本内容) * 400,000 张图像(一张图片仅标注一个文本实例) * 使用方式: * 只采用完整标注部分 * 裁剪出 **243,063 条文本行图像** - 4.ArT(Arbitrary-Shaped Text Dataset) * 来源:自然场景中的多形状文本图像 * 特点: * 包含弯曲文本、旋转文本等复杂布局 * 使用方式: * 从训练集中裁剪出 **49,951** 条文本图像 - 5.CTW(Chinese Text in the Wild) * 来源:多样化的街景图像 * 特点: * 覆盖平面、凸起、低光照等复杂场景 * 提供字符级框、文本标签,以及额外属性(如背景复杂度、字符外观等) * 使用方式: * 从训练集和测试集中裁剪出 **191,364 条文本行图像** * Web Dataset * **来源**:MTWI 数据集(Multi-Type Web Images) * 包含来自淘宝网站的 **20,000 张中英文网页文本图像** * 覆盖 **17 个不同的商品类目** * 图像中的文本具有丰富的排版和设计风格 * **处理方式**: * 从训练集中裁剪出 **140,589** 条文本图像 * 然后手动按 **8:1:1** 的比例划分训练集、测试集和验证集 * Document Dataset * **来源**:Text Render 公开合成引擎(用于合成文档风格的文本图像) * 文本内容来源于多个真实语料库: * Wikipedia * 电影字幕 * Amazon 评论 * 百度百科(baike) * 合成时随机设定文本长度(1\~15个字符之间) * **数据量**: * 总共合成了 **500,000** 张文档风格文本图像 * 然后手动按 **8:1:1** 的比例划分训练集、测试集和验证集 * Handwriting Dataset * **来源**:SCUT-HCCDoc(华南理工大学发布的中文手写文档数据集) * 图像通过在自然环境下用相机采集 * 文本内容为真实中文手写体 * **处理方式**: * 原始提供: * 训练集:93,254 条手写文本行 * 测试集:23,389 条文本行 * 为了更科学的验证效果,作者进一步将原始训练集手动划分为: * 训练集:74,603 * 验证集:18,651 * 测试集仍沿用原始数据:23,389