图像识别是机器学习 (ML) 的一种应用,使软件和设备能够识别数字图像或视频中的物体、地点、人物、文字和动作。
机器学习使用算法,根据人类工程师手动提取的特征对图像进行分类。工程师对图像进行预处理,并根据他们试图通过图像识别解决的特定目标或问题进行分析。
也许是识别人脸、检测物体或对纹理进行分类。在每种情况下,工程师都会使用他们的领域知识来预处理图像并训练算法。
工程师通过对图像进行归一化来准备用于分析的图像,这意味着将像素值缩放到标准范围,通常在 0-1 或 -1-1 之间,这样,数据更加一致,也更易于机器学习模型处理。
预处理还包括调整图像大小、将其转换为灰度以降低计算复杂度或使用高斯滤波技术去除噪声。图像识别中的“噪声”是指任何不需要的或随机的像素变化,例如有斑点、有纹理、模糊或扭曲的图像。
接下来,工程师必须选择能够提供最有意义信息的特征。检测形状时这可能是边缘;如果结果是按色调区分对象,则可能是颜色强度。由于机器学习模型依赖于手动提取的特征,因此数据注释会标记基本信息。
通过注释图像中感兴趣的对象,这些模型可以更轻松地对特定对象进行识别和分类,例如“猫”或“狗”。精确注释的数据使得机器学习算法能够准确地学习每个类别的视觉特征。
工程师提取这些特征并将其格式化为数值向量,使机器学习模型更容易处理和比较图像。工程师将每张图像转换为固定长度的特征向量,即总结其重要性的数字列表。
相比之下,深度学习模型可以直接从图像中学习。深度学习是机器学习的一个子集,利用分层神经网络来完成复杂的图像预处理和识别任务,但代价是对计算和数据的要求更高。
卷积神经网络 (CNN) 是具有卷积层的深度学习架构,可分析和学习图像数据的结构化本质。
接下来,卷积层在图像上应用小过滤器或内核,以检测局部模式,例如边缘或纹理。卷积减少了手动特征提取的需要,因为网络可以直接从数据中学习模式。
每次卷积后,激活函数都会在模型中引入非线性,使网络能够通过堆叠多个层来学习复杂的模式、形状和对象。
池化层对图像进行下采样以减小其大小,同时保留重要特征,以确保模型在处理图像中的轻微旋转或偏移等变化时具有计算效率。
网络提取特征后,将数据展平为一维向量,并通过全连接层传递。这些层整合了早期阶段学习到的模式,以识别复杂的关系并改进分类过程。
最后,数据到达输出层,该层会整合提取的特征并生成最终预测。将预测结果与标注的训练数据集进行比较,计算误差并调整网络权重,以提高准确性。
例如,为了训练模型识别猫的图像,工程师可能会使用监督学习,用“猫”或“非猫”等标签标记数千张图像,以便模型可以学习关键特征,如毛皮纹理、胡须和耳朵形状。
或者,在无监督学习中,该模型使用未标记的数据来独立发现模式。在没有预定义类别的情况下,该模型通过根据共同特征(例如,相似的形状或纹理)对图像进行聚类来识别关系。
当标记数据不可用时,此方法对于欺诈检测、质量控制和模式分析等任务非常有用。在无监督学习中,该模型将根据共有模式独立地对图像进行聚类,将所有猫图像分组,而无需明确知道它们是猫。
第三种方法,即自监督学习,它结合了无监督学习的各个方面,从未标记的数据开始,但从数据的固有结构中生成伪标签,使模型能够在没有传统标签的情况下学习有意义的表示,从而使其对于标记数据集有限的任务非常有用。
通过自监督学习,该模型可以分析图像的各个部分,例如重建部分模糊的猫脸,以识别图案和特征。最终,经过训练的模型,无论是使用机器学习还是深度学习,都能准确识别和分类未曾见过的新的猫图像,将它们与其他动物或物体区分开来。
虽然图像识别科技已经取得了进步,但仍然面临着准确性和可靠性方面的挑战。工程师通过结合改进的模型架构、多样化的训练数据集和预处理技术来缓解这些问题。
监督学习使用标记数据,每个图像都标记有正确的类别,以通过清晰的示例指导算法。例如,使用标有“猫”和“非猫”的数据集训练系统识别猫。然后,该模型会根据这些标记示例中的视觉模式学习进行区分。
在无监督学习中,该算法使用未标记的数据,独立发现模式。这类似于给孩子一盒玩具,让他们根据相似性进行分类;无监督算法在不知道明确类别的情况下,会根据共同的特征(例如,胡须、皮毛、四足和尾部)对图像进行聚类。
照明的变化(例如阴影、亮度变化或弱光环境)可能会影响图像识别系统的性能。亮点可能会掩盖细节,而阴影可能会遮挡关键特征,导致模型误解物体的形状或颜色。
高级方法,例如自适应直方图均衡化或结合不同光照条件的训练数据,有助于模型在不同的光照场景下表现得更好。
图像识别模型的性能取决于其训练数据的多元性和质量。在主要具有高分辨率、理想化图像的数据集上训练的模型在遇到低质量或现实世界的变化时可能会遇到困难。
为了缓解这种情况,工程师们策划了代表现实世界条件的多种数据集。迁移学习等技术可支持模型使用来自大型稳健数据集的预训练知识,即使在数据有限的情况下也可提高性能。
图像中物体的大小受其与摄像机距离的影响,可能会影响模型准确识别它的能力。小物体可能没有足够的细节来识别,而过近的物体可能会显得失真或太大,使模型无法正确分类。
工程师通过在包含大小和距离不同的物体的数据集上训练模型来处理这个问题。还可采用多尺度图像处理技术和特征金字塔,以帮助确保模型可以处理各种尺寸的物体。
物体检测通过识别物体并精确定位其在图像中的位置来扩展图像识别。这种技术允许系统回答诸如“图片中的猫在哪里?”之类的问题。或者“场景中有多少只猫?”物体检测可以识别对象及其在图框内的位置、大小和方向,从而提供更多的背景信息。
例如,对象检测允许计算机指定“有一只猫坐在图片左侧角落的沙发上”,而不是识别图片中的“一只猫”,从而提供对场景和对象之间关系的空间理解。
图像识别任务的复杂程度也可能有所不同。图像分类是根据图像的内容为整个图像分配单个标签,回答“此图像中有什么?”的问题。
例如,在猫和狗的标记数据集上训练的模型可以通过识别它们的独特特征来学习区分两者。当呈现一张新图像时,模型会分析这些特征来预测它是一只猫还是一只狗。
模型使用边界框来勾勒这些单个对象的轮廓,将它们与背景分开,并标记每个对象的起点和终点。这种精度对于自动驾驶等应用很关键,在此等应用中,准确检测车辆、行人和路标等对象对于安全至关重要。
图像识别正在迅速发展,为众多行业和用例中更复杂的应用铺平了道路。以下是图像识别的一些主要现实应用:
许多智能手机都配备了面部识别技术,用户只需看屏幕就可以解锁设备。图像识别的这种应用已经很普遍,系统可以识别个人面部特征来验证身份。
面部识别还广泛用于安全和监控,以从视频源中识别个人。这项科技可帮助执法机构在公共区域追踪嫌疑人,而公司则将其用于楼宇安全以控制出入。
社交媒体平台使用图像识别来建议照片中的标签,分辨和识别朋友和家人的面孔。社交媒体还使用 AR 过滤器检测面部标志,以与面部动作一致的方式定位虚拟元素,例如眼镜或动物耳朵。
此外,这些平台还使用图像识别来审核内容,过滤不适当的图像,维护平台安全并增强用户体验。
基于移动设备中的当前增强现实 (AR) 应用程序,配备图像识别软件的智能眼镜可以为用户提供周围环境的增强视图,叠加有关物体和位置的实时信息。
AR 技术可以为用户所见的任何事物提供上下文数据,从识别地标到检索存储中的产品详细信息。
家用电器中的图像识别可实现智能冰箱中的库存跟踪、吸尘机器人中的障碍物检测以及安全摄像头中的人或物体识别等功能。
它还支持洗衣机中的面料类型检测、智能烤箱中的食品识别以及智能镜子或婴儿监视器中的面部分析等功能。
送货机器人依靠图像识别来导航环境、检测障碍物并确定送货地点,从而实现准确、高效的自主送货。
相比之下,仓库和工业环境中的机器人使用相同的技术来扫描和检索物品、执行质量检查、组装零件和分类材料。
医学图像分析可协助医疗保健专业人员分析 X 射线、MRI 和 CT 扫描结果。此类系统可检测到人眼可能遗漏的异常情况,例如肺肿瘤、脑卒中或肿瘤的早期迹象,从而更及时地做出诊断。
Merative(前身为 IBM® Watson Health),应用图像识别来分析复杂的图像数据,支持放射科医生识别关键性的发现。
随着人工智能驱动的诊断的发展,医学图像识别正在不断进步,因此图像识别系统可以协助更准确地检测早期疾病。
该技术已经增强了如肿瘤检测等领域,借助训练有素的“第二双眼”为专家提供高级诊断支持,特别是在细节至关重要的领域。
OCR 技术通过扫描文档、书籍和收据将印刷文本数字化。应用程序使用 OCR 识别打印文本并将其转换为用户可以编辑或搜索的数字格式。OCR 是图像识别的一个关键用例,它为各行业的广泛数字化铺平了道路。
银行和金融机构使用图像识别自动验证检查、身份证件和其他文件,减少欺诈并简化客户接待流程。该技术可以扫描文档图像以获取关键细节,对其进行验证并标记任何异常以供审核。