在计算机视觉中,放射影像用于肺炎诊断是一个常见的应用案例。放射科医生必须仔细解读胸部 X 光片,而这一过程由于肺炎症状的细微特征及其与其他肺部疾病的相似性,往往容易出错且耗时较长。2计算机视觉系统可以提供帮助。
计算机视觉任务有多种模型和方法,但以下假设示例说明了一种常见的工作流:
选择合适的机器学习模型对于优化效率和性能至关重要。卷积神经网络 (CNN) 仍然是图像处理任务的主要深度学习模型,而循环神经网络 (RNN) 则特别适合处理视频帧等序列数据。
然而,人工智能的进步正在推动向 Transformer 模型的转变。例如,视觉转换器 (ViT) 将基于 Transformer 的语言模型的元素应用于计算机视觉。ViT 将图像处理成图块并将它们视为序列,类似于语言转换器中的词元。然后,视觉转换器在这些图像块上实现自注意力机制,以创建输入图像的基于 Transformer 的表示。在图像分类等计算机视觉任务上,ViT 通常可匹配或超过 CNN 的性能。3
一旦选择了模型,就会进行模型训练。训练阶段包括在特定于计算机视觉任务的训练数据上运行模型,将性能与真实值进行比较,并优化参数以随时间提升性能。
CNN 由三种类型的层组成:卷积层、池化层和全连接层。卷积层是进行特征提取的地方。特征提取涉及从原始图像数据中识别并捕获关键的视觉属性,例如颜色、边缘、形状和纹理。对于患有肺炎的 X 光影像,需要提取的特征包括:不对称的肺轮廓、表示炎症或液体存在的亮区(与暗的充满空气的区域相对)、模糊或不透明的肺区域,以及粗糙或斑驳的纹理。4特征提取使算法能够识别视觉数据中的重要关系和模式。
X 射线图像被视为像素值矩阵。另一个权重矩阵(控制给定输入特征对模型输出影响程度的参数),称为滤波器或卷积核,会应用到 X 光影像的某一区域,并计算输入像素值之间的点积。滤波器在图像上移动或“卷积”以提取特征,整个过程称为卷积。一系列点积运算的最终输出称为激活图或特征图。每个滤波器都会被调节以响应特定的模式,例如边缘、形状或纹理,从而使卷积神经网络 (CNN) 能够同时学习多个视觉特征。
特征图会被输入到池化层,以进一步减小图的尺寸并压缩其维度。另一个滤波器会遍历整个输入,在特征图的一组单元格内取最大值或平均值。这样可以保留最关键的特征,使模型能够将注意力集中在这些特征上。
在图像上移动以提取特征、降低维度并生成分类的过程称为前向传播。在前向传播之后,模型会应用损失函数来计算其误差,即预测分类与真实分类之间的差异。
为了最小化损失函数,会使用反向传播。反向传播是一次向后传递的过程,用于计算损失函数相对于每个权重的梯度。然后,应用梯度下降技术来更新模型权重并优化模型。
最后,全连接层根据前几层及其不同滤波器提取的特征执行分类任务。随后,CNN 生成输出,即每个类别的概率(在此情况下为正常与肺炎)。对于胸部 X 光影像分类任务,该输出将指示影像为正常,或者如果概率超过预设阈值,则判定影像为肺炎阳性。
计算机视觉算法可以针对各种任务进行训练,其中一些任务包括:
图像识别是计算机视觉中最广泛的形式。它包括对数字图像中的人物、地点、物体及其他实体的识别,并作为图像分类、对象检测和图像分割等任务的基础。
图像分类是计算机视觉的核心任务之一,用于将图像归类到预定义的组或类别中。它会为图像或图像中的对象预测最合适的标签。前面所示的利用胸部 X 光进行肺炎诊断的场景,就是图像分类的一个例子。
对象检测旨在查明对象在数字图像中的位置。它融合了两种学习技术:对象定位和图像分类。
对象定位通过在图像中特定对象周围绘制边界框来识别其位置。然后,图像分类会区分对象所属的类别。例如,在道路交通录像中,计算机视觉应用可以利用对象检测不仅对车辆进行分类,还能确定它们在道路上的位置。
用于对象检测的常见 CNN 架构包括 R-CNN(基于区域的卷积神经网络)和 YOLO(只看一次)。R-CNN 实现了两阶段检测,首先确定包含对象的区域,然后将这些区域输入到独立的网络中进行分类和更精确的定位。同时,YOLO 通过在单一网络传递中融合定位和分类来进行单阶段检测,使其足够快速以实现实时对象检测。
视频的对象检测通常采用基于 Transformer 的模型和循环神经网络 (RNN),尤其是长短期记忆结构。
图像分割是对象检测的一种更精确、像素级的版本。它将数字图像划分为称为图像分割的离散像素组,然后根据类别或实例对像素进行标记。
虽然对象检测可以对图像中的多个元素进行分类并大致估算每个元素的宽度和高度,但图像分割则能够识别精确的边界或形状。这使得图像分割在描绘边界框重叠的紧密对象时非常有价值。
图像分割可以进一步细分为三种任务类型:
例如,在城市街道的图像中,语义分割可能会将一辆停在另一辆汽车前面的汽车视为一个长汽车片段,而实例分割则会分离并确定每辆车的形状。
对象跟踪会在视频或图像序列中追踪对象的移动轨迹。它在每一帧中定位并区分对象,并在移动过程中保持对象的连续性。
场景理解比对象识别更进一步,能够捕捉更高级的视觉信息。在识别图像中的对象后,深度学习模型会预测它们之间的关系,例如动作、事件和交互。
图神经网络 (GNN) 可用于表示图像中对象之间的空间关系。在交通视频示例中,计算机视觉系统可以推断出出租车在汽车前方行驶、汽车停在出租车左侧,或汽车正在右转。
视觉语言模型 (VLM) 也可以帮助理解场景。将大语言模型 (LLM) 与视觉转换器配对,可以识别和分类图像中的对象,并提供上下文描述,例如对象相对于其他视觉元素的位置。
面部识别将图像识别技术应用于面部特征。它捕捉面部的几何特征,并识别关键模式,例如眼睛间距、额头到下巴的距离、鼻子的轮廓以及嘴唇的形状。
面部识别可以实时识别个体,也可以识别照片或视频中的人物。一个常见的例子是通过面部识别进行生物识别认证以解锁智能手机。
姿态估计用于测量不同身体部位的空间位置,以识别手势并跟踪身体动作。例如,姿态估计可以帮助标记玩家在虚拟现实游戏中手臂和手的姿态方向。一个更贴近现实的例子是 NASA 的计算机视觉软件,它为国际空间站上的机械臂操作员提供实时姿态估计,以便精确抓取目标。5
光学字符识别 (OCR),也称为文本识别,它从图像、扫描的文档和其他来源提取文本并将其转换为机器可读的格式。因此,它有助于实现手写文本和纸质记录数字化的自动化。
OCR(光学字符识别)工作流程包括以下步骤:
CNN 和基于 Transformer 的模型能够进行更智能的字符识别,提取字符中的曲线、线条交点、环形结构以及角线数量等特征。这些算法还能智能识别单词,区分单词而不是字符,以加快处理速度。
图像生成使用生成式 AI 模型来生成图像。以下是一些常用于图像生成的生成式模型:
VLM 还能够根据给定的文本描述生成图像。
视觉检查可自动识别缺陷。通过对象检测,计算机视觉系统检查图像或视频以发现错误和缺陷。图像分割也可以用于更精确地定位缺陷。
利用计算机视觉的视觉检测设备可以帮助企业更快速、更安全地进行检查,并提高一致性和准确性,无论是检查出桥梁难以触及部位的腐蚀,还是发现组装电子产品中的故障连接器。
作为一个成熟的 AI 领域,计算机视觉经历了多次进步,催生出一系列广泛的用例。以下是计算机视觉的一些实际应用:
摄像头、无人机和卫星拍摄农作物及农田的高分辨率图像。然后,计算机视觉技术分析这些图像,以帮助评估植物健康状况,并定位害虫和杂草,从而实现更有针对性的除草剂使用。
在汽车行业,无人驾驶汽车通过结合相机、激光雷达、雷达和传感器来构建其环境的三维模型。然后,他们应用对象检测、图像分割和场景理解来进行安全导航,避开行人和其他车辆等障碍物,并精确检测车道、交通信号灯和交通标志等道路特征。
医学成像是计算机视觉的一个关键应用领域。例如,对象检测功能可自动执行图像分析,定位和识别 X 光、CT、MRI 和超声波扫描中的潜在疾病标志。此外,实例分割可以划分器官、组织和肿瘤的具体边界,有助于更准确的诊断,从而为治疗方案和患者护理的决策提供更可靠的信息。
计算机视觉系统有助于库存管理,通过扫描物品来确定库存数量。它们还可以助力质量控制,实时识别缺陷。与依靠人工视觉的检查员相比,这些系统分析产品图像,能够更快速、更准确地识别缺陷或不一致之处。
例如,亚马逊的 Just Walk Out 技术在小型零售和餐饮门店中使用计算机视觉来追踪顾客选购的商品,并实现自动结账体验。顾客可以拿着他们的商品离开,而无需在支付柜台排队。6
在线商店还可以将增强现实与面部识别和姿态估计相结合,用于虚拟试穿体验,让顾客在购买前预览服装、眼镜或化妆品在自己身上的效果。
与自动驾驶汽车一样,机器人使用摄像头、激光雷达和传感器来绘制周围环境的地图。然后,它们应用计算机视觉算法来完成任务,例如协助外科医生进行复杂手术、在仓库中导航以运输货物、挑选仅成熟的农产品,以及在装配线上放置物品。
对象检测技术能协助航天器在着陆过程中定位并规避危险物,而探测车也可借助同种能力在复杂地形中自主导航。7图像分类技术可用于对小行星、流星乃至太空碎片进行归类,对象追踪技术则能持续监测这些天体的运行轨迹。
许多工具可用于构建计算机视觉应用程序,并有助于简化开发过程。一些常用的工具包括:
Keras 是一种深度学习应用程序接口 (API),可在 PyTorch 和 TensorFlow 等其他人工智能框架之上运行。它为各种计算机视觉任务提供了数十个教程和示例,包括图像和视频分类、图像分割、对象检测和 OCR。
Scikit-image 是一个基于 Python 的开源图像处理算法库。它支持预处理、特征提取、对象检测与图像分割等多种任务。它的简单易用性使它成为初学者的理想选择。
TensorFlow 是 Google 开发的开源机器学习平台。尽管 TensorFlow 服务于更通用的深度学习应用,但它也提供了计算机视觉专用数据集、预处理工具,以及用于图像与视频分类、图像分割和对象检测的函数。
torchvision 库是 PyTorch 生态系统的一部分。包含常用的图像变换、数据集及其他实用功能。该软件包还提供了图像和视频分类、对象检测以及语义和实例分割的模型。
计算机视觉是 AI 最早的学科之一。几十年来,计算机科学研究人员一直在开发让机器理解视觉数据的方法。
实验始于 20 世纪 50 年代至 60 年代,当时神经生理学家向猫展示一系列图像,同时记录神经活动。他们发现,动物首先对线条做出反应,从而得出结论,图像处理是从简单的形状开始的,比如边。8
大约在同一时期,首台计算机图像扫描技术问世,使计算机具备了数字化采集图像的能力。9当计算机实现了将二维图像转化为三维形态的能力时,又一个里程碑就此达成。10
1982年,神经科学家 David Marr 提出视觉系统以层级结构运作,并开创了使机器能够检测角点、曲线、边及类似基础形状的算法。11同一时期,计算机科学家 Kunihiko Fukushima 开发出能识别模式的结构单元网络,将其命名为“认知机”,该网络在神经网络中包含了卷积层结构。12
到 2000 年,研究的重点已经转向图像分类和对象识别。13 2009 年,ImageNet 数据集被引入,包含数百万张用于训练计算机视觉的标记图像。14 2012 年,多伦多大学的一个团队创建了 AlexNet CNN,它在 ImageNet 数据集上进行训练,显著降低了图像识别的错误率,为当今的计算机视觉模型铺平了道路。15
1.The three R’s of computer vision: Recognition, reconstruction and reorganization, Pattern Recognition Letters, 8 February 2016
2. Efficient pneumonia detection using Vision Transformers on chest X-rays, Scientific Reports, 30 January 2024
3. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, arXiv, 3 June 2021
4. NGBoost Classifier Using Deep Features for Pneumonia Chest X-Ray Classification, Applied Sciences, 8 September 2025
5. Computer Vision Lends Precision to Robotic Grappling, NASA Technology Transfer Program, Accessed 11 September 2025
6. Amazon Just Walk Out, AWS, Accessed 11 September 2025
7. The Computer Vision Laboratory, NASA JPL Robotics, Accessed 11 September 2025
8. From Cats to the Cortex: Unravelling the Hierarchical Processing System of Vision and Brain Plasticity, Cureus, 2 September 2024
9. Your Engineering Heritage: Scanners and Computer Image Processing, IEEE-USA InSight, 8 February 2016
10. A Simple World: The Blocks World, Foundations of Computer Vision, 2024
11. Marr’s Computational Theory of Vision, Foundations of Computer Vision, 2024
12. Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position, Biological Cybernetics, 1980
13. Computer Vision, Foundations of Computer Vision, 2024
14. ImageNet: A large-scale hierarchical image database, IEEE Conference on Computer Vision and Pattern Recognition, 2009
15. CHM Releases AlexNet Source Code, Computer History Museum, 20 March 2025