Datacap 功能概述

IBM® Datacap 获取文档，从中抽取有用信息，并将其提供给下游的其他业务流程。它的优势在于能够以高度自动化、灵活性和准确性完成这些任务。

在较高的级别上，Datacap 功能可以分为三个方面：

从多个来源获得文档
处理文档以抽取有用信息
将内容和数据交付给后端系统

这些功能集成到一个任务流中，该任务流控制文档获取到交付的处理过程。只要处理可以自动执行，就使用后台任务。前台任务是在需要人员交互时使用的，例如解决抽取数据中的错误和歧义。

Datacap 主要处理以下功能：

从扫描仪、多功能打印机或移动设备（如智能手机和平板电脑）获取纸质文档
从文件系统、传真或电子邮件服务器导入电子文档或现有图像
清理图像并准备文档，以使用图像处理功能（如倾斜校正、移除线条、污点和边框）改进数据抽取
根据类型对文档进行分类和分离，以确定需要抽取的数据
使用识别技术抽取数据：
- 针对机器打印字符的光学字符识别 (OCR)
- 手写体的智能字符识别 (ICR)，通常是分离的印刷体字母，但也可以是支票上的草书或其他识别良好的上下文中的草书
- 光学标记识别 (OMR)，用于识别复选框和其他标记，如调查中的气泡或表单上的签名
- 条形码读取，包括以下类型：
  - 一维条形码，如商店中用于价格参考的条形码
  - 二维条形码，用于编码较大的数据集，如名称、地址或装运信息
检查抽取信息的准确性，并根据业务规则更正错误。
Datacap 还可以根据部分识别的数据自动查找数据库中的信息。当对数据准确性的置信度低于预定级别时，它可以触发人工操作员的验证和确认。
自动学习人工操作员的经验和文档处理，以逐渐提高准确性
将图像文档和抽取的数据导出到 FileNet® Content Manager 或其他 ECM 存储库，数据库或业务应用程序
将捕获过程中从扫描到导出的任务流（包括异常处理）组织到工作流程中
通过使用识别来自动识别每个文档上的索引值并自动执行文档识别过程，简化了索引条目的手工数据输入操作
使用功能安全性控制对系统和任务的访问
监视捕获操作的进度并实时修复问题
报告捕获操作并提供有关系统性能的统计信息
支持灵活的部署方案
提供包含数百个基于脚本和基于代码的 (.NET) 操作的库