你随手写，它即时认——AI报告解读（二）

浏览：时间：2019-12-25

这次的主题是计算机文字识别（OCR）。它其实并没有出现在人工智能相关的产业研究院、投资机构、媒体等AI报告中，因为它的应用已经延续了40多年，早已不再是热点，但是它是现在很多AI应用的基础功能之一。

定义

计算机视觉技术最早的应用，是计算机文字识别（OCR）。OCR的意思是“光学字符识别”——对图像中的印刷体或手写文字进行识别，转化成电子文档。

纸质、电子化文字资料在使用上各有优势：纸质资料方便查看和标记，电子化资料便于存档和检索。OCR使得纸质资料能够快速、方便地录入到计算机中，保持纸质、电子化资料的一致性。

应用

OCR的诞生，最早是为了将现世留存的文字资料，比如书籍、报刊、文件、档案、单据等资料输入计算机，进行数字化管理，方便检索和查询。针对的是印刷体文字资料的识别。

英文的印刷体文字识别，已经成熟应用40多年。中文的印刷体文字识别，在1989年也已经进入实用，现在手机APP就可以实现印刷资料的拍照转录。

现在OCR的应用范围已经超出纸质资料录入，拓展了新的应用场景，比如：

车牌识别道闸——自动识别车辆的号牌，匹配车辆的月卡、进场时间信息，确定放行或收费。
名片识别——拍照识别名片的关键信息，自动填写通讯录。
文本提取——从照片、街景、监控图像中提取LOGO、招牌、街道标志、车牌等文本信息。
拍照搜索——这是一类应用，包含拍照搜索，根据图中的商标、文字搜索相关内容；拍照搜题目，根据图文从题库中搜索答案；拍照翻译，将图片中的外文翻译成母语……

近二十多年，OCR技术开发的重心是手写体识别。

16278989061817c55ca1c8155369c

手写识别案例

手写识别的用途很广泛，例如：

手写输入法。
手写档案、单据的录入。比如传统的手写人事档案、履历等，想要跨地域调取查阅，往往需要耗费当事人好几天的时间。医疗机构保存的历史病历档案，如果能转换为文字数据，对于现代医疗科技是一个非常大的数据源。手写的快递运单、申请单据等，手写识别会解放大量的转录工作量。
学习和办公需要。个人手写的读书笔记、会议纪要、日常记录、思维导图等，转换成电子文档，方便搜索和分享。

目前，手写输入法、有固定格式的单据，识别效果已经比较好，尤其是手写输入法，很潦草的字都有不错的识别率。

技术简介

OCR分三种：

印刷体识别，印刷字体的识别
联机手写识别，在电子写字板等输入设备上手写文字的识别
脱机手写识别，在纸张上手写文字的识别

印刷体OCR，基本实现过程大概如下：

022

印刷体OCR的基本过程

印刷体OCR在实用中，预处理和切分是对识别效果影响最大的环节。

现在的印刷体OCR，使用了专业的深度学习算法，解决印刷质量、复杂背景、文字畸变、小间距、低分辨率、光线、拍照角度、表面折痕污损等条件下的预处理、切分问题，简化了对操作者的要求。

现在印刷体的OCR还追求高还原度扫描录入。支持表格的识别；版面结构的理解和恢复；缩进、段落等文字格式的自动处理；图文混排、多语种混排的自适应识别和恢复等。使得OCR自动录入的电子文档，可以高度还原纸质文档的板式和内容。

有些特殊的OCR任务还要解决特定的问题，例如从街景照片中提取街道标志和车牌。主要的难点是在预处理阶段，识别路牌和车牌所在图像区域的轮廓。这很多也是用专业的深度学习算法实现的。

联机手写OCR和印刷体OCR区别比较大。不需要前面的预处理、版面处理、切分环节。

识别环节，输入的信息除了文字的图像，还包括笔迹的顺序和方向、速度和停顿等。
至于后处理，因为联机手写OCR一般用做输入法，使用过程中，用户可以在多个识别结果中选择一个，如果发现识别错误，通常会直接重写，因此对后处理的要求也不高。

联机手写OCR目前的识别率也比较高，连笔、倾斜、潦草、书写不规范、笔顺错误、形似字都有比较高的识别率。

脱机手写OCR和印刷体OCR的处理过程是一样的。但是每个人的手写体差异太大，脱机手写OCR在切分和识别环节的难度也更大一些。

早年的脱机手写OCR对书写的规范性要求比较高，只有整齐的正楷字才有比较好的识别率。近年来使用深度学习算法，脱机手写OCR的识别效果好很多。小HUI实测的情况看，基本上人眼能够正常辨认的儿童、成人手写字体，即使有连笔、缺笔、倾斜等问题，识别率都能在90%以上。人眼不能确认，但能够通过上下文辨认的内容，识别情况就不理想了。

病历档案录入是脱机手写OCR的主要目标场景之一，目前的识别率还非常低。

市面上还有一些产品，用联机手写OCR的技术，实现类似离线OCR的应用场景：

将写字板做成文件板夹的形式，使用时将纸张夹在板夹上，用户在纸张上书写的同时，写字板在后台完成识别工作。这对于习惯书写纸质档案，但又需要保留数据的用户——比如医生——也是一个不错的解决方案。

机会

经过30来年的发展，OCR的应用早已不限于纸质文字资料的数字化，自然环境中的印刷体识别“OCR in the wild”有非常广泛的用途：

在安防摄像头拍摄的监控视频中，识别车牌，实现车辆的自动标记，和轨迹绘制。
自动驾驶中，识别拍摄的路况等图像中的文字，实现高精地图+路牌识别的导航。
在生产线上识别产品上的文字或代码，进行质量检测。
……

图片来源：AI研习社

在教育用途中，机器人 +印刷体识别，创造的绘本阅读机器人，帮助家长培养孩子的早期阅读习惯。

在办公用途中，联机手写OCR和语音识别甚至机器翻译结合，能够很好的满足会议实录的需求。

AI+医疗，也是OCR的重要落地方向，但是病历的数字化，除了需要推进人工智能技术的落地，还要结合医疗术语规范化本身的推进。

小结

文字识别是计算机视觉最早的应用之一，现在OCR已经从印刷体文字的识别，发展到了手写输入和手写识别，应用范围也已经从印刷品的扫描录入，拓展到安防、自动驾驶、制造业、医疗等领域。未来，OCR应该还会在更多领域，满足扫描录入、人机交互等方面的需求。

就技术而言，中文OCR做的比较专业的，国内有文通和汉王，台湾有丹青和蒙恬，国外是ABBYY和IRIS。离线手写OCR目前汉王的识别率最高。

上一篇: 我想买辆车，不用我开的那种！（应用篇）——AI报告解读（三）

下一篇: 2019中国人工智能产业报告（一）