你随手写,它即时认——AI报告解读(二)

浏览: 时间:2019-12-25

这次的主题是计算机文字识别(OCR)。它其实并没有出现在人工智能相关的产业研究院、投资机构、媒体等AI报告中,因为它的应用已经延续了40多年,早已不再是热点,但是它是现在很多AI应用的基础功能之一。


定义

计算机视觉技术最早的应用,是计算机文字识别(OCR)。OCR的意思是“光学字符识别”——对图像中的印刷体或手写文字进行识别,转化成电子文档。

纸质、电子化文字资料在使用上各有优势:纸质资料方便查看和标记,电子化资料便于存档和检索。OCR使得纸质资料能够快速、方便地录入到计算机中,保持纸质、电子化资料的一致性。

 

应用

OCR的诞生,最早是为了将现世留存的文字资料,比如书籍、报刊、文件、档案、单据等资料输入计算机,进行数字化管理,方便检索和查询。针对的是印刷体文字资料的识别。

英文的印刷体文字识别,已经成熟应用40多年。中文的印刷体文字识别,在1989年也已经进入实用,现在手机APP就可以实现印刷资料的拍照转录。

现在OCR的应用范围已经超出纸质资料录入,拓展了新的应用场景,比如:

  • 车牌识别道闸——自动识别车辆的号牌,匹配车辆的月卡、进场时间信息,确定放行或收费。

  • 名片识别——拍照识别名片的关键信息,自动填写通讯录。

  • 文本提取——从照片、街景、监控图像中提取LOGO、招牌、街道标志、车牌等文本信息。

  • 拍照搜索——这是一类应用,包含拍照搜索,根据图中的商标、文字搜索相关内容;拍照搜题目,根据图文从题库中搜索答案;拍照翻译,将图片中的外文翻译成母语……

 

近二十多年,OCR技术开发的重心是手写体识别。

    16278989061817c55ca1c8155369c

图片

手写识别案例


手写识别的用途很广泛,例如:

  • 手写输入法

  • 手写档案、单据的录入。比如传统的手写人事档案、履历等,想要跨地域调取查阅,往往需要耗费当事人好几天的时间。医疗机构保存的历史病历档案,如果能转换为文字数据,对于现代医疗科技是一个非常大的数据源。手写的快递运单、申请单据等,手写识别会解放大量的转录工作量。

  • 学习和办公需要。个人手写的读书笔记、会议纪要、日常记录、思维导图等,转换成电子文档,方便搜索和分享。

目前,手写输入法、有固定格式的单据,识别效果已经比较好,尤其是手写输入法,很潦草的字都有不错的识别率。

 

技术简介

OCR分三种:

  • 印刷体识别,印刷字体的识别

  • 联机手写识别,在电子写字板等输入设备上手写文字的识别

  • 脱机手写识别,在纸张上手写文字的识别

 

印刷体OCR,基本实现过程大概如下:

022


印刷体OCR的基本过程

 

印刷体OCR在实用中,预处理和切分是对识别效果影响最大的环节。

现在的印刷体OCR,使用了专业的深度学习算法,解决印刷质量、复杂背景、文字畸变、小间距、低分辨率、光线、拍照角度、表面折痕污损等条件下的预处理、切分问题,简化了对操作者的要求。

现在印刷体的OCR还追求高还原度扫描录入。支持表格的识别;版面结构的理解和恢复;缩进、段落等文字格式的自动处理;图文混排、多语种混排的自适应识别和恢复等。使得OCR自动录入的电子文档,可以高度还原纸质文档的板式和内容。

有些特殊的OCR任务还要解决特定的问题,例如从街景照片中提取街道标志和车牌。主要的难点是在预处理阶段,识别路牌和车牌所在图像区域的轮廓。这很多也是用专业的深度学习算法实现的。

 

联机手写OCR和印刷体OCR区别比较大。不需要前面的预处理、版面处理、切分环节。

  • 识别环节,输入的信息除了文字的图像,还包括笔迹的顺序和方向、速度和停顿等。

  • 至于后处理,因为联机手写OCR一般用做输入法,使用过程中,用户可以在多个识别结果中选择一个,如果发现识别错误,通常会直接重写,因此对后处理的要求也不高。

联机手写OCR目前的识别率也比较高,连笔、倾斜、潦草、书写不规范、笔顺错误、形似字都有比较高的识别率。

 

脱机手写OCR和印刷体OCR的处理过程是一样的。但是每个人的手写体差异太大,脱机手写OCR在切分和识别环节的难度也更大一些。

早年的脱机手写OCR对书写的规范性要求比较高,只有整齐的正楷字才有比较好的识别率。近年来使用深度学习算法,脱机手写OCR的识别效果好很多。小HUI实测的情况看,基本上人眼能够正常辨认的儿童、成人手写字体,即使有连笔、缺笔、倾斜等问题,识别率都能在90%以上。人眼不能确认,但能够通过上下文辨认的内容,识别情况就不理想了。

病历档案录入是脱机手写OCR的主要目标场景之一,目前的识别率还非常低。

 

市面上还有一些产品,用联机手写OCR的技术,实现类似离线OCR的应用场景:

将写字板做成文件板夹的形式,使用时将纸张夹在板夹上,用户在纸张上书写的同时,写字板在后台完成识别工作。这对于习惯书写纸质档案,但又需要保留数据的用户——比如医生——也是一个不错的解决方案。

 

机会

经过30来年的发展,OCR的应用早已不限于纸质文字资料的数字化,自然环境中的印刷体识别“OCR in the wild”有非常广泛的用途:

  • 在安防摄像头拍摄的监控视频中,识别车牌,实现车辆的自动标记,和轨迹绘制。

  • 自动驾驶中,识别拍摄的路况等图像中的文字,实现高精地图+路牌识别的导航。

  • 在生产线上识别产品上的文字或代码,进行质量检测。

  • ……

图片

图片来源:AI研习社


教育用途中,机器人 +印刷体识别,创造的绘本阅读机器人,帮助家长培养孩子的早期阅读习惯。

在办公用途中,联机手写OCR和语音识别甚至机器翻译结合,能够很好的满足会议实录的需求。

 

AI+医疗,也是OCR的重要落地方向,但是病历的数字化,除了需要推进人工智能技术的落地,还要结合医疗术语规范化本身的推进。

 

小结

文字识别是计算机视觉最早的应用之一,现在OCR已经从印刷体文字的识别,发展到了手写输入和手写识别,应用范围也已经从印刷品的扫描录入,拓展到安防、自动驾驶、制造业、医疗等领域。未来,OCR应该还会在更多领域,满足扫描录入、人机交互等方面的需求。

 

就技术而言,中文OCR做的比较专业的,国内有文通和汉王,台湾有丹青和蒙恬,国外是ABBYYIRIS。离线手写OCR目前汉王的识别率最高。