汉字文本平面ocr数据集有哪些?-科压科技

一、汉字文本平面ocr数据集有哪些?

扫一扫识别文字、拍照翻译、拍照搜题、车牌自动识别……这些随处可见的功能，给我们的工作和生活带来了极大的便利，其背后都离不开OCR技术的支持。

随着深度学习技术的发展，智能OCR算法与应用也越来越丰富，对相关数据的需求也增加。

许多小伙伴反馈中文OCR数据集不好找，今天我们贴心地帮大家整理了8个常用的中文OCR数据集资源，记得收藏。

No.1

MSRA-TD500 (MSRA Text Detection 500 Database)

MSRA-TD500由华中科技大学于 2012 年在 CVPR 发布，是一个用于测试和评估多方向、多语言文字检测算法的自然图像数据集，包含500幅拍摄于室内（办公室和商场）和室外（街道）场景的自然图像。室内的图像主要包括标识、门牌和标牌等，室外的图像主要是路牌和广告牌等。图像的分辨率较高，介于1294*864和1920*1280之间。

该数据集由两部分构成：训练集、测试集。训练集中一共有300幅图像，通过随机抽样的形式从原始数据集中抽取出来。余下的200幅图像构成测试集。

数据集中的所有图像都经过完整标注。数据集的基本单元是文本行而非单词。

MSRA-TD500数据集样例（图源：参考资料[1]）

MSRA-TD500数据集中的典型图像以及文字的标准矩形框每一个矩形框对应一个文本行。红色的矩形框表示其中的文字被标记为“困难”。在MSRA-TD500数据集中，难以检测的文字（一般由低分辨率、模糊和遮挡等因素造成）会被标记为“困难”。

No.2

Chinses Text in the Wild(CTW)

下载链接：https://ctwdataset.github.io/

由清华大学与腾讯共同推出的一个大型中文自然文本数据集（Chinese Text in the Wild，CTW）。该数据集包含 32,285 张图像和 1,018,402 个中文字符。

每张图像尺寸为2048*2048，数据集大小为31GB。CTW以（8:1:1）的比例将数据集分为：

训练集（25887张图像，812872个中文字符）；
测试集（3269张图像，103519个中文字符）；
验证集（3129张图像，103519个中文字符）；

这些图像源于腾讯街景，从中国的几十个不同城市中捕捉得到。数据多样、复杂，它包含了平面文本、凸出文本、城市街景文本、乡镇街景文本、弱照明条件下的文本、远距离文本、部分显示文本等。

CTW数据集样例示意（图源：参考资料[2]）

对于每张图像，数据集中都标注了所有中文字符。对每个中文字符，数据集都标注了其真实字符、边界框和 6 个属性以指出其是否被遮挡、有复杂的背景、被扭曲、3D 凸出、艺术化，和手写体等。

No.3

Reading Chinses Text in the Wild(RCTW-17)

下载链接：https://rctw.vlrlab.net/dataset.html

ICDAR（国际文档分析和识别大会）在2017年发起了一项专注于中文检测和识别比赛项目（RCTW），RCTW-17为竞赛数据集，它由12263张包含中文的自然场景图片组成，其中大部分是直接由摄像头或手机拍摄，少部分为生成图像，并且每张图像至少包含一行中文。图像尺寸不规则，数据集大小为11.4GB。

数据的标注均通过标注工具手工标注完成，通过绘制四边形来标注一个文本行，而不是以单词为单位进行标注，每个文本行的内容以UTF-8字符串进行标注。在数据集中存在字体、布局和语言等多样性。

数据集划分为两部分：训练集和验证集。训练集包含8034张图片，测试集包含4229张图片。

RCTW-17数据集样例示意（图源：参考资料[3]）

No.4

ICPR MWI 2018挑战赛

下载链接：https://tianchi.aliyun.com/competition/entrance/231685/information

ICPR MWI 大赛提供的包含2000张图像的官方数据集，主要由合成图像，产品描述，网络广告构成。该数据集数据量充分，中英文混合，涵盖数十种字体，字体大小不一，多种版式，背景复杂。数据集大小为2GB。其中训练集10000张，测试集10000张。

ICPR MWI 2018数据集标注样例，红框代表标注的文本框（图源：参考资料[4]）

No.5

ShopSign

下载链接：https://github.com/chongshengzhang/shopsign

该数据由河南大学科研团队发布的，是一个大规模中英文自然场景文本数据集，其包含25770张街景中文招牌图像，196010条文本行。

ShopSign中的图像是在不同的场景（市中心到偏远地区）中使用50多种不同的手机拍摄。相比于CTW，其包含了4000张夜间图像，同时也包含了2516对图像来对一个sign获取水平和多视角的图片。其包含多种分辨率，包括3024*4032、1920*1080、2180*720等。

CMT主要包含了几个主要发达城市，而ShopSign包含的地理范围广（北京、上海、厦门、新疆、蒙古、牡丹江、葫芦岛和河南省的一些城市和小城镇），包括许多街景车辆无法到达的郊区或小城镇。CMT使用了固定的拍摄角度，而ShopSign使用了多种角度进行拍摄。[5]

ShopSign数据集中广告牌样例示意（图源：参考资料[5]）

ShopSign数据集中广告牌分类示意（图源：参考资料[5]）

注释包括了每个文本行的四边形边界框的坐标（顺序：左上、右上、右下、左下）以及相对应的文本行的相应文本。ShopSign仅仅处理广告牌上的文本。

No.6

ICDAR2019-LSVT

下载链接：https://github.com/chongshengzhang/shopsign

ICDAR 2019-LSVT（Large-scale Street View Text with Partial Labeling，弱标注大规模街景文字识别）国际学术竞赛公开的大规模弱标注场景文字数据集。

数据集采自中国街景，并由街景图片中的文字行区域（例如店铺标牌、地标等等）截取出来而形成。是首个提出弱标注数据的场景文字数据集，其中包括5万张精标注街景图像、40万张弱标注街景图像，总计45万张。

所有图像都经过一些预处理，将文字区域利用仿射变化，等比映射为一张高为48像素的图片。

LSVT数据集精标注示意（图源：参考资料[6]）

LSVT数据集弱标注示意（图源：参考资料[6]）

No.7

TotalText

下载链接：https://opendatalab.com/TotalText

Total-Text是最大弯曲文本数据集之一-ArT（任意形状文本数据集）训练集中的一部分。该数据集共1555张图像，11459文本行，包含水平文本，倾斜文本，弯曲文本。文件大小441MB。大部分为英文文本，少量中文文本。其中训练集有1255张图像，测试集有300张图像。

TotalText数据集样例示意（图源：OpenDataLab）

No.8

Caffe-ocr中文合成数据

下载链接：https://github.com/senlinuc/caffe_ocr

共360万张图片，图像分辨率为280*32，文件大小约为8.6GB。数据利用中文语料库（新闻+文言文），通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成，字典中包含汉字、标点、英文、数字共5990个字符（语料字频统计，全角半角合并）。

每个样本固定10个字符，字符随机截取自语料库中的句子。按9:1分成训练集、验证集，测试集约6万张。

Caffe-ocr数据集样例示意（图源：参考资料[7]）

参考资料

[1]http://www.iapr-tc11.org/dataset/MSRA-TD500/Detecting_Texts_of_Arbitrary_Orientations_in_Natural_Images.pdf

[2]https://ctwdataset.github.io/

[3]https://arxiv.org/pdf/1708.09585v2.pdf

[4]https://tianchi.aliyun.com/competition/entrance/231685/information

[5]https://arxiv.org/pdf/1903.10412v1.pdf

[6]https://rrc.cvc.uab.es/?ch=16

[7]https://github.com/senlinuc/caffe_ocr

更多数据集上架动态、更全面的数据集内容解读、最牛大佬在线答疑、最活跃的同行圈子……欢迎添加微信opendatalab_yunying加入OpenDataLab官方交流群。

二、ocr接口？

通用的识别接口，支持多种图片格式；

支持中英文字符混合识别；

支持 Base64 以及网络地址传参；

基于机器学习不断提高的识别率；

全接口支持 HTTPS（TLS v1.0 / v1.1 / v1.2 / v1.3）；

全面兼容 Apple ATS；

全国多节点 CDN 部署；

接口极速响应，多台服务器构建 API 接口负载均衡。

三、ocr技术？

OCR技术：光学字符识别

OCR （Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本。

四、什么是OCR？汉王ocr文字识别ocr是什么意思？

OCR （Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程

五、ocr2600好还是ocr2800？

捷安特OCR5300可以说和美利达R93是同一级别性价比巨高的入门车，论捷安特2800和2600的配置比5300低，价格当然也低，但这配置低的也就少几百块真心不值。

六、OCR识别原理？

ocr 识别原理为:电子设备依赖光学字符识别技术,检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字。

进行 ocr 识别时,首先要经过预处理过程,该过程主要包括灰度化,二值化,噪声去除,倾斜矫正等。然后旋转图像识别收据,最后经过二值化处理即可识别成功。

七、什么需要ocr？

OCR技术其实说白了就是一种识别技术，比如说将图片上的文字经过识别扫面的方式转化成TXT文档或者是word格式，也可以将音频转化成文字的一种技术。

具体的话，它包含的有什么语音识别，截图识别，银行卡识别，车票识别，营业执照识别，驾驶证识别等等这些功能吧。

八、ocr功能详解？

ocr软件的功能是什么？

OCR是光学字符识别的缩写，OCR技术简单来说就是将文字信息转换为图像信息，然后再利用文字识别技术将图像信息转化为可以使用的输入技术。

OCR的功能：

1、OCR识别技术不仅具有可以自动判断、拆分、识别和还原各种通用型印刷体表格，还在表格理解上做出了令人满意的实用结果。

2、OCR能够自动分析文稿的版面布局，自动分栏、并判断出标题、横栏、图像、表格等相应属性，并判定识别顺序，能将识别结果还原成与扫描文稿的版面布局一致的新文本。

3、OCR还可以支持表格自动录入技术，可自动识别特定表格的印刷或打印汉字、字母、数字，可识别手写体汉字、手写体字母、数字及多种手写符号，并按表格格式输出。提高了表格录入效率，可节省大量人力。

九、什么是ocr？

OCR是英文optical character recognition的首字母缩写，中文意思：光学字符识别。或者我们管它叫做：文字识别。文字识别是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。通俗理解，举个例子：就是把图片\PDF里的文字信息进行抓取，转换成Word、TXT等可以编辑的文字文本。

十、ocr引擎功能？

OCR引擎是一种光学字符识别技术，用于将图片或扫描文档中的文本转换为可编辑的电子文本。其功能包括文字提取、文字识别和文本转换。

通过自动检测和分析文本的特征，OCR引擎能够快速而准确地将文档中的文字提取出来，并进行字符识别和文字重建，最终生成可编辑的文本文件。OCR引擎广泛应用于数字化文档处理、文本识别和数据提取领域，帮助人们方便地处理和管理大量文档，节省时间和工作量。