光学字符识别

目录

  1. 1 光学字符识别
  2. 2 类型
  1. 3 技术
  2. 预处理
  1. 文字识别

光学字符识别

光学字符识别或光学字符读取器(OCR)是将打字,手写或印刷的文本的图像电子或机械转换为机器编码的文本,无论是来自扫描的文档,文档的照片还是场景照片(例如,风景照片的标志和广告牌上的文字)或叠加在图像上的字幕文字(例如电视广播)。

广泛用作从打印纸质数据记录中输入数据的一种形式–是护照文件、发票、银行对帐单、计算机收据、名片、邮件、静态数据的打印输出,还是任何合适的文档–这是一种数字化打印件的常用方法文本,以便可以对其进行电子编辑、搜索、更紧凑地存储,在线显示以及在机器过程中使用,例如认知计算、机器翻译、(提取的)文本到语音、关键数据和文本挖掘。OCR是模式识别,人工智能和计算机视觉领域的研究领域。

光学字符识别

早期版本需要使用每个字符的图像进行训练,并且一次只能使用一种字体。如今,能够为大多数字体提供高度识别精度的高级系统已普遍使用,并且支持各种数字图像文件格式输入。一些系统能够再现与原始页面非常接近的格式化输出,包括图像,列和其他非文本组件。

类型

  • 光学字符识别(OCR)–一次针对打字的文本,一个字形或一个字符。
  • 光学单词识别–以打字文本为目标,一次只能输入一个单词(对于使用空格作为单词分隔符的语言)。(通常称为“ OCR”。)
  • 智能字符识别(ICR)–一次也针对一个字形或字符的手写印刷稿或草书文本,通常涉及机器学习。
  • 智能单词识别(IWR)–还针对手写印刷稿或草书文本,一次只包含一个单词。这对于在草书中未分隔字形的语言特别有用。

OCR通常是一个“脱机”过程,用于分析静态文档。有基于云的服务,可提供在线OCR API服务。笔迹运动分析可以用作笔迹识别的输入。该技术不仅可以使用字形和单词的形状,还可以捕获运动,例如绘制段的顺序,方向以及放下和抬起笔的方式。这些附加信息可以使端到端过程更加准确。该技术也被称为“在线字符识别”、“动态字符识别”、“实时字符识别”和“智能字符识别”。

技术

预处理

OCR软件通常会对图像进行“预处理”,以提高成功识别的机会。技术包括:

  • 去歪斜  -如果扫描文档时没有正确对齐,则可能需要以顺时针或逆时针方向倾斜几度使文字完全水平或垂直的线。
  • 去斑  –去除正负点,平滑边缘
  • 二值化–将图像从彩色或灰度转换为黑白(由于有两种颜色,因此称为“ 二进制图像 ”)。二值化任务是将文本(或任何其他所需的图像成分)与背景分离的简单方法。二值化任务本身是必要的,因为大多数商业识别算法仅对二进制图像起作用,因为事实证明这样做更简单。另外,二值化步骤的有效性在很大程度上影响字符识别阶段的质量,并且在选择给定输入图像类型的二值化时要做出谨慎的决定。因为用于获得二进制结果的二值化方法的质量取决于输入图像的类型(扫描文档、场景文本图像、历史退化文档等)。
  • 去除线–清理非字形框和线
  • 布局分析或“分区” –将列、段落、标题等标识为不同的块。在多列布局和表格中尤其重要。
  • 线和单词检测–建立单词和字符形状的基准,必要时将单词分开。
  • 脚本识别–在多语言文档中,脚本可能会在单词级别发生变化,因此,在调用正确的OCR来处理特定脚本之前,必须对脚本进行识别。
  • 字符隔离或“分段” –对于每个字符的OCR,由于图像伪影而连接的多个字符必须分开;必须将由于伪影而分成多个部分的单个字符连接起来。
  • 标准化宽高比和比例

通过基于垂直网格线最不经常与黑色区域相交的位置将图像对齐到均匀网格,可以相对简单地完成固定间距字体的分割。对于比例字体,需要使用更复杂的技术,因为字母之间的空白有时可能大于单词之间的空白,并且竖线可以相交多个字符。

文字识别

核心OCR算法有两种基本类型,它们可以产生候选字符的排序列表。

矩阵匹配包括将图像与存储的字形逐像素进行比较;它也被称为“图案匹配”、“ 图案识别 ”或“ 图像相关性 ”。这取决于将输入字形与图像的其余部分正确隔离,并且取决于存储的字形具有相似的字体和相同的比例。此技术最适合打字文本,当遇到新字体时效果不佳。这是早期基于物理光电管的OCR实施的技术,而不是直接实施的技术。

特征提取将字形分解为“特征”,例如直线、闭环、直线方向和直线相交。提取功能降低了表示的维数,并使识别过程在计算上高效。将这些特征与字符的抽象矢量状表示形式进行比较,这可能会简化为一个或多个字形原型。计算机视觉中特征检测的一般技术适用于这种类型的OCR,这在“智能” 手写识别以及实际上大多数现代OCR软件中很常见。最近邻分类器,例如k最近邻算法用于比较图像特征与存储的字形特征并选择最接近的匹配。

诸如Cuneiform和Tesseract之类的软件使用两遍方法进行字符识别。第二遍称为“自适应识别”,它使用在xxx遍上以高可信度识别的字母形状来更好地识别第二遍上的其余字母。这对于字体变形(例如模糊或褪色)的异常字体或低质量扫描很有用。

诸如OCRopus或Tesseract之类的现代OCR软件使用经过训练的神经网络来识别整个文本行,而不是专注于单个字符。

OCR结果可以以标准化的ALTO格式存储,这是美国国会图书馆维护的专用XML模式。其他常见格式包括hOCR和PAGE XML。


光学字符识别

相关推荐

伪钞检测笔

目录 1 伪钞检测笔 2 背景 3 误报伪钞检测笔伪钞检测笔是用于施加一个笔碘基油墨纸币以试图确定它们的真实性。 背景伪钞检测笔用于检测伪造的 瑞士法郎,欧元和美国钞票等。通常,真正的钞票印在基于棉纤维的纸上,并且不包含与碘反应的淀粉。当使用钢笔标记真实钞票时,标记为淡黄色或无色。这种笔最有效地抵制在标准打印机或复印机纸上打印的伪造钞票。1960年以前... (继续浏览)

手写识别

目录 1 什么是手写识别 2 离线识别 ▪ 传统技术 ▪ 字符提取 ▪ 字符识别 ▪ 特征提取 ▪ 现代技术 3 在线识别 4 研究什么是手写识别手写识别(HWR),也称为手写文本识别(HTR),是计算机从纸质文档,照片,触摸屏和其他设备等来源接收和解释可理解的手写输入的能力。可以通过光学扫描(光学字符识别)或智能单词识别从一张纸上“离线”感知书写文字的图像... (继续浏览)

触控笔

目录 1 什么是触控笔 2 古代手写笔 3 用于艺术 ▪ 智能手机和计算 4 科学仪器什么是触控笔是一种书写用具或用于标记或成形,例如,在一些其他形式的一个小工具陶器。它也可以是计算机附件,用于在使用触摸屏时辅助导航或提供更高的精度。它通常是指细长的细长杆,类似于现代的圆珠笔。许多手写笔都弯曲得很弯曲,可以更轻松地固定。另一种广泛使用的书写工具是盲人用户使用... (继续浏览)

太空笔

目录 1 什么是太空笔 2 已有的书写工具 ▪ 基于石墨的技术 ▪ 非石墨技术 3 专用于空间书写的书写工具什么是太空笔在外太空书写的工具有几种,包括不同类型的铅笔和钢笔。其中一些是传统书写工具的未修改版本;已经专门发明了其他方法来解决在空间条件下书写的问题。 一个普通的城市传说指出,面对圆珠笔不会在零重力下书写的事实,美国宇航局花了很多钱开发了一种可... (继续浏览)

宋慧容人物简介_百科头条

宋慧容,1976年11月27日出生,1999年开始从事电视、电影摄影工作。国家一级摄影师,资深3D摄影指导。当时的中国影视行业还处于BETA CAM SP和DVCPRO占主流的“早期标清年代”。出于对影视的执着热爱,多年来他坚持着“精品至上”的工作原则,对于自己所参与拍摄的作品谨慎有加,“有内涵、有价值、有深度”是他挑选作品的基本前提。也正因为在选... (继续浏览)

氮化硼纳米管

目录 1 什么是氮化硼 2 氮化硼纳米管什么是氮化硼氮化硼是热和耐化学性耐火材料的化合物硼和氮与化学式 BN。它存在于各种结晶形式是等电子的类似结构的碳点阵。在BN多晶型物中,对应于石墨的六边形形式最稳定,最柔软,因此被用作化妆品的润滑剂和添加剂。类似于钻石的立方(闪锌矿结构)称为c-BN;它比钻石柔软,但其热和化学稳定性优越。稀有的纤锌矿 BN变质类似于隆... (继续浏览)

氧化石墨烯纸

目录 1 氧化石墨烯纸 2 准备 3 属性氧化石墨烯纸氧化石墨纸或氧化石墨纸是由氧化石墨制成的 材料。氧化石墨纸的微米级厚膜也被称为氧化石墨膜(在1960年代)或(最近)称为氧化石墨膜。通常通过缓慢蒸发氧化石墨烯溶液或通过过滤方法获得膜。 由于二维石墨烯骨架的固有强度及其分布载荷的交织层结构,该材料具有出色的刚度和强度。 准备起始材料是水分散... (继续浏览)

石墨烯纳米带

目录 1 石墨烯纳米带 2 生产 ▪ 纳米切开术 ▪ 外延 ▪ 化学气相沉积 ▪ 多步纳米带合成 3 分析 4 应用 ▪ 聚合纳米复合材料 ▪ 生物成像造影剂石墨烯纳米带石墨烯纳米带(GNR)是宽度小于50 nm 的石墨烯带。Mitsutaka Fujita和合著者介绍了石墨烯带作为理论模型,以研究石墨烯的边缘和纳米级尺寸效应。 生产纳米切开术可以通过... (继续浏览)

约翰逊热电换能器

目录 1 约翰逊热电换能器 ▪ 作用机理 2 应用约翰逊热电换能器约翰逊热电换能器是一种类型的固态热机,它使用电化学 氧化和还原氢的近似于两小区,热循环埃里克森循环。正在研究它作为常规光伏电池的可行替代品。朗尼·约翰逊(Lonnie Johnson)发明了该技术,并声称该转换器的能量转换效率高达60%,而最佳光伏电池的转换效率仅为30%。但是,根据与卡诺循环... (继续浏览)

加热器芯

目录 1 什么是加热器芯 2 工作原理 3 控制 4 空调 5 发动机冷却功能 6 风冷发动机什么是加热器芯加热器芯是一个散热器在加热的客舱中使用样装置的车辆。来自车辆发动机的热冷却剂通过铁心的绕管,冷却剂与车厢空气之间是热交换器。附着在芯管上的散热片用于增加表面积,以将热量传递给空气,这些空气被风扇迫使通过它们,从而加热乘客舱。 工作原理所述内燃机在... (继续浏览)

发动机冷却

目录 1 什么是发动机冷却 2 空气冷却 3 液体冷却什么是发动机冷却使用空气或液体从内燃机中去除废热。对于小型或特殊用途的发动机,使用大气中的空气进行冷却可以使系统轻便且相对简单。 船只可以直接使用周围环境中的水来冷却引擎。用于飞机和地面车辆的水冷发动机,废热被从水闭环由通过发动机泵送至周围大气转移散热器。 水比空气具有更高的热容量,因此可以更快地将... (继续浏览)

数字音频工作站

目录 1 数字音频工作站 2 集成数字音频工作站 3 软件数字音频工作站 4 常用功能 5 插件数字音频工作站数字音频工作站(DAW)是电子设备或应用软件用于记录,编辑和产生的音频文件。数字音频工作站具有多种配置,从便携式计算机上的单个软件程序到集成的独立单元,一直到由中央计算机控制的众多组件的高度复杂的配置。无论配置如何,现代的DAW都有一个中央界面,允许... (继续浏览)

数模转换器

目录 1 数模转换器 ▪ 概述 ▪ 应用 ▪ 音频 ▪ 视频 ▪ 机械 ▪ 通讯 2 类型 3 功绩数模转换器在电子产品中,数模转换器(DAC)是一种将数字信号转换为模拟信号的系统。一模数转换器(ADC)执行相反的功能。 有几种数模转换器架构 ; 数模转换器是否适合特定应用取决于品质因数,包括:分辨率、xxx采样频率等。数模转换可能会使信号降级,因此应... (继续浏览)

视频编解码器

目录 1 视频编解码器 2 应用 3 视频编解码器设计 4 常用的视频编解码器 5 编解码器包视频编解码器视频编解码器是一个电子电路或软件即压缩或解压缩的数字视频。它将未压缩的视频转换为压缩格式,反之亦然。在视频压缩的上下文中,“ 编解码器 ”是“编码器”和“解码器”的串联,通常仅压缩的设备称为编码器,而仅解压缩的设备是解码器。 压缩的数据格式通常符合... (继续浏览)

音频编解码器

目录 1 音频编解码器音频编解码器音频编解码器是对音频进行编码或解码的编解码器(能够对数字数据流进行编码或解码的设备或计算机程序)。在软件中,音频编解码器是一种计算机程序,可实现一种算法,该算法根据给定的音频文件或流媒体音频编码格式对数字音频数据进行压缩和解压缩。该算法的目的是用最少的位数表示高保真音频信号,同时保持质量。 这样可以有效地减少存储空间和... (继续浏览)

模数转换器

目录 1 模数转换器 2 应用 ▪ 音乐录制 ▪ 数字信号处理 ▪ 科学仪器 ▪ 旋转编码器模数转换器模数转换器(ADC)是一种系统,其将一个模拟信号,例如声音拾取由一个麦克风或光进入数码相机,进一个数字信号。ADC还可以提供隔离的测量,例如将输入的模拟电压或电流转换为表示电压或电流的大小的数字的电子设备。通常,数字输出是二进制补码与输入成比例的二进制数,但... (继续浏览)

音频工程师

目录 1 音频工程师 2 研究与开发 3 教育 4 从业者 ▪ 教育和培训 5 设备音频工程师音频工程师(也称为声音工程师或录音师)有助于产生一个记录或现场演出,平衡和使用调整声源均衡和音频效果、混合、再现和增强的声音。音频工程师从事“ ...录音的技术方面的工作- 麦克风的放置,前置放大器的旋钮,电平的设置。任何项目的物理录音都由工程师...螺母和螺栓完成... (继续浏览)

广告态度

目录 1 广告态度 ▪ 概述 2 施工 3 四个替代规范 ▪ 模型1.情感转移假设(ATH) ▪ 模型2:双重调解假设(DMH) ▪ 模型3.相互调解假设(RMH) ▪ 模型4.独立影响假设(IIH)广告态度对广告的态度被定义为“ 在特定的曝光机会期间以有利或不利的方式对特定的广告刺激做出反应的倾向 ”。在Mitchell和Olsen(1981)和Shimp... (继续浏览)

态度定位

目录 1 态度定位 2 处理 3 参与人员 4 研究的地点和时间 5 优势态度定位态度定位是一种市场细分,它将客观的研究结果(通常来自调查或焦点小组)叠加到其他目标细分标准中。态度研究通常会收集定性方法,以更好地了解消费者的感受和想法。研究人员以报价和轶事等形式收集数据,试图直接确定如何更好地将自己定位于他们希望定位的消费者。 处理在进行态度研究时会创... (继续浏览)

智识细分

目录 1 智识细分 2 背景 3 细分标准智识细分智识细分是一种使用生命周期阶段,收入和职业变量对感兴趣的人群进行细分的方法。这种细分系统背后的逻辑是,随着人们度过生活,他们的志向和行为方式(包括商品和服务的消费)也会发生变化。 背景Sagacity细分是由一家在1980年代初期以研究服务为公司的公司开发的。目的是从细分变量(例如家庭、职业和收入)中获... (继续浏览)