什么是 OCR（光学字符识别）？| IBM

什么是 OCR？

光学字符识别 (OCR) 是一种使用自动数据提取将文本图像快速转换为机器可读格式的技术。

OCR 有时称为文本识别。OCR 程序从扫描的文档、相机图像和纯图像 PDF 中提取和重新利用数据。OCR 软件将图像上的字母单列出来，将其组合成单词，再将单词组合成句子，从而实现对原始内容的访问和编辑。它还消除了多余的手动数据输入所浪费的精力。

OCR 系统使用硬件和软件的组合将物理打印文档转换为机器可读文本。硬件（例如光学扫描仪或专用电路板）可以复制或读取文本，然后软件通常进行高级处理。

OCR 软件可以利用人工智能 (AI) 实现更先进的智能字符识别 (ICR) 方法，识别语言或手写内容。组织经常通过 OCR 流程将打印的法律或历史文档转换为 PDF 文档，以便用户可以进行文档编辑、排版和搜索，就像使用文字处理器创建文档一样。

如何选择合适的 AI 基础模型

了解如何在准备数据集和使用 AI 模型时选择正确的方法，以及如何使用模型选择框架来平衡性能成本、风险和部署需求。

OCR 的历史

1974 年，Ray Kurzweil 创立了 Kurzweil Computer Products, Inc.，其全字体 OCR 产品可以识别几乎任何字体打印的文本。他认为这项技术的最佳应用是为视力障碍者提供机器学习 (ML) 设备，因此他创建了一种阅读机，可以以文本转语音格式大声朗读文本。1980 年，Kurzweil 将自己的公司卖给了 Xerox，后者有意进一步实现纸质文本转计算机文本的商业化。

OCR 技术在 20 世纪 90 年代初期随着历史报纸的数字化而开始流行。从那时起，这项技术经历了几次改进。如今，产品可以提供近乎完美的 OCR 准确性。先进的方法可以实现复杂的文档处理工作流的自动化。

在 OCR 技术出现之前，以数字方式进行文档排版的唯一选择是手动重新输入文本。多余的输入不仅耗时，而且还不可避免地存在不准确和打字错误。如今，OCR 服务已广泛向公众提供。例如，Google Cloud Vision OCR 可用于扫描和存储智能手机上的文档。

OCR 如何运作？

OCR 软件使用扫描仪将物理形式的文档重新处理为可编辑的数字文本。OCR 软件可以作为独立程序、OCR 应用程序编程接口或基于 Web 的服务运行。

图像采集：复制所有文档页面，然后复制 OCR 引擎，将数字文档转换为双色或黑白版本。分析扫描后的图像或位图的明暗部分。然后，程序将深色部分识别为需要识别的字符，而明亮的区域被识别为背景。

预处理：清理数字图像以去除外来像素。这种预处理可以包括纠正扫描期间图像对齐不当的情况、删除作为打印图像一部分的图形规则和方框以及确定是否包含脚本文本。

文本识别：对深色部分进行处理以查找字母、数字或符号。这一阶段通常需要一次定位一个字符、单词或文本块。然后使用两种算法之一来识别字符，即模式识别或特征识别。

模式识别（或模式匹配）：OCR 程序之前已接受过训练，通过与扫描文档或图像文件中的模板进行比较来识别字符的各种字体和格式的文本示例。形状、比例和字体的每种独特组合都称为字形。要使其起作用，字符必须使用 OCR 程序已经过训练的字体。考虑到全球的字体数量和使用不同字符的语言，例如阿拉伯语、、中文、英语、法语、德语、希腊语、日语、韩语或西班牙语，就字体和语言的每种组合进行培训将造成巨大的系统消耗。
特征识别（检测或提取）：当 OCR 程序分析未经过训练的字体时，将使用此功能。OCR 应用有关特定字母或数字特征的规则来识别扫描文档中的字符。特征包括字符中的角度线、直线交点、环形或曲线的数量。例如，大写字母“A”存储为两条对角线，中间有一条水平线相交。识别字符后，它会被转换为美国信息交换标准码 (ASCII) 代码，计算机系统使用该代码来处理进一步的操作。

布局识别：更完整的 OCR 程序还会分析文档图像的结构。它将页面划分为多个元素，如文本块、表格或图像。行被分成单词，然后再分成字符。找出字符后，程序会将其与一组模式图像进行比较。处理完所有可能的匹配后，程序会返回识别出的文本。

后期处理：将收集到的信息存储为可编辑的数字文件或 PDF 文件。一些系统同时保留输入图像和 OCR 后的版本，以便于进行比较和实现更完整的文档管理。

OCR 的类型

有 4 种类型的 OCR 程序，并且正变得越来越精妙复杂：

简单 OCR：分析是逐个字符的模式匹配，将扫描的字符与存储的字形进行比较。由于潜在的字体和语言组合非常多，可分析的文档类型有限。

光学标记识别 (OMR)：用于识别复选框和其他标记，例如调查中的气泡或表单上的签名，以及徽标、符号和水印。所有这些都可以通过与存储的图像匹配来识别，就像简单的 OCR 一样。

智能字符识别 (ICR)：如前所述，ICR 引入了 AI 的力量。利用 ML 或深度学习，OCR 程序可以像人类一样，过持续的练习和培训学会阅读。神经网络反复检查文本，寻找独特的属性：曲线、交叉点、直线和环形的位置。

智能单词识别：这是先前 ICR 识别技术的自然演进，但现在 AI 经过训练可识别单张图像中的单词，最终能够加快识别速度。

OCR 的益处

采用 OCR 技术的益处包括：

通过减少或消除冗余的手动输入来削减成本。

通过输入预印文档或书面表格来简化工作流程，并使用可搜索的数字数据加快研究速度。
实现文档路由、内容处理和文本挖掘准备工作的自动化。
节省存储更多纸质记录的成本。
集中和保护数据集，防止火灾、非法闯入和银行保险库文档丢失。
方便视障员工和客户获取数据。
为员工提供最新、最准确的信息，从而改善服务。

OCR 用例

OCR 最著名的用例是将打印的纸质文档转换为机器可读的文本文档。扫描的纸质文档经过 OCR 处理后，可以使用文字处理器（如 Microsoft Word 或 Google Docs）编辑文档的文本。多个用例可以加速许多行业的工作负载，包括教育、金融、医疗保健、物流和运输、处理和检索贷款文档、患者记录、保险表格、标签、发票和收据。

OCR 通常作为一项隐藏技术，为我们日常生活中的许多知名系统和服务提供支持。OCR 技术重要但鲜为人知的用例包括数据输入自动化、协助盲人和视障人士以及为搜索引擎索引文档，例如护照、牌照、发票、银行对账单、支票处理和转录、名片和自动车牌识别。

OCR 通过将纸质和扫描图像文档转换为机器可读、可搜索的 PDF 文件，来优化大数据建模。处理和检索有价值的信息，首先需要在尚不存在文本层的文档中应用 OCR。

通过 OCR 文本识别，扫描的文档可以集成到大数据系统中，然后能够从银行对账单、合同和其他重要打印文件中读取客户数据。组织无需让员工检查无数图像文档并手动输入到自动化大数据处理工作流程中，而是可以在数据挖掘的输入阶段使用 OCR 自动执行该流程。OCR 软件可以提取图片中看到的文本、保存文本文件，并支持多种格式，包括 jpg、jpeg、png、bmp、tiff 和 pdf。

OCR 的最新进展

OCR 在 1974 年的第一个业务系统之后取得了重大进展，并且进步仍在继续。卓越的 OCR 程序可以在非理想条件下从文档中提取关键洞察，例如字体不规则、分辨率不足、移动拍摄光线不佳以及各种颜色和背景。

通过结合计算机视觉和自然语言处理、改进的信息表示和模型优化，企业现在可以享受最先进的文档理解。改进可以包括分析复杂文档中的布局和阅读顺序，理解视觉对象并将其表示为图表和图解。现在，一些 OCR 程序由生成式 AI 驱动，以帮助更快地构建文档数据。“旧”技术继续学习新技巧。