¿Qué es la visión artificial?

Autores

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué es la visión artificial?

La visión artificial es un subcampo de la inteligencia artificial (IA) que equipa a las máquinas con la capacidad de procesar, analizar e interpretar entradas visuales, como imágenes y videos. Utiliza machine learning para ayudar a las computadoras y otros sistemas a obtener información significativa a partir de datos visuales.

La visión artificial se puede describir como la interacción entre tres procesos amplios, cada uno de los cuales trabaja en conjunto y se informa mutuamente: reconocimiento, reconstrucción y reorganización. El reconocimiento de imágenes se trata de identificar acciones, objetos, personas, lugares y escribir en imágenes o videos digitales. La reconstrucción deriva las características tridimensionales de esas entidades, mientras que la reorganización infiere las relaciones entre las entidades.1

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Cómo funciona la visión artificial

Las imágenes radiológicas en el diagnóstico de neumonía son un caso de uso común en la visión artificial. Los radiólogos tienen que interpretar cuidadosamente las radiografías de tórax, un proceso que puede ser propenso a errores y llevar mucho tiempo debido a la sutileza de los síntomas de la neumonía y sus similitudes con otras afecciones pulmonares.2 Un sistema de visión artificial puede ayudar.

Existen múltiples tipos de modelos y enfoques para las tareas de visión artificial, pero el siguiente ejemplo hipotético ilustra un flujo de trabajo común:

  1. Recopilación de datos
  2. Preprocesamiento
  3. Selección de modelo
  4. Entrenamiento de modelos

Recopilación de datos

El primer paso es recopilar los datos visuales necesarios. Los hospitales generan enormes volúmenes de radiografías de tórax, que pueden utilizar para entrenar un algoritmo de visión artificial. Dado que el objetivo es que el algoritmo clasifique si una imagen de radiografía representa neumonía o no, los hospitales deberán compilar un conjunto de datos de radiografías de tórax y etiquetar o anotar correctamente cada exploración como normal o que signifique neumonía.

Para otros casos de uso, las imágenes y los videos pueden provenir de fuentes como cámaras y sensores. Los conjuntos de datos como COCO, ImageNet y Open Images proporcionan grandes colecciones de imágenes anotadas.

Preprocesamiento

Un modelo de IA es tan bueno como los datos utilizados para entrenarlo, lo que hace que los datos de alta calidad sean cruciales para la visión artificial. El preprocesamiento puede ayudar a mejorar la calidad de los datos a través de la limpieza de datos y mejoras, como ajustar el brillo o el contraste para dar nitidez a las imágenes, así como cambiar el tamaño y suavizar.

Los conjuntos de datos también deben ser lo suficientemente grandes y diversos para que los algoritmos de visión artificial produzcan resultados precisos. La generación de datos sintéticos y el aumento de datos pueden ayudar a ampliar el tamaño y la diversidad de los conjuntos de datos. Por ejemplo, los hospitales pueden utilizar transformaciones geométricas, como rotar las imágenes de radiografías de tórax hacia la izquierda o hacia la derecha o invertir las imágenes para aumentar sus datos.

Selección de modelo

Seleccionar el modelo de machine learning adecuado es crucial para optimizar la eficiencia y el rendimiento. Las redes neuronales convolucionales (CNN) siguen siendo el principal modelo de aprendizaje profundo para las tareas de procesamiento de imágenes, mientras que las redes neuronales recurrentes (RNN) son especialmente adecuadas para procesar datos secuenciales, como fotogramas de video.

Sin embargo, los avances en IA están impulsando un cambio hacia modelos transformadores. Por ejemplo, un transformador de visión (ViT) aplica elementos de un modelo de lenguaje basado en transformadores a la visión artificial. Los ViT procesan una imagen en parches y los tratan como secuencias, de forma similar a los tokens en un transformador de lenguaje. Luego, el transformador de visión implementa un mecanismo de autoatención en estos parches para crear una representación basada en transformadores de la imagen de entrada. Los ViT a menudo igualan o superan el rendimiento de las CNN en tareas de visión artificial, como la clasificación de imágenes.3

Entrenamiento de modelos

Una vez que se ha elegido un modelo, sigue el entrenamiento del modelo. La etapa de entrenamiento implica ejecutar el modelo en datos de entrenamiento específicos para una tarea de visión artificial, medir el rendimiento frente a la verdad fundamental y optimizar los parámetros para mejorar el rendimiento a lo largo del tiempo.

Las CNN constan de tres tipos de capas: una capa convolucional, una capa de agrupación y una capa totalmente conectada. La capa convolucional es donde ocurre la extracción de características. La extracción de características implica determinar y capturar atributos visuales clave a partir de datos de imágenes sin procesar, como colores, bordes, formas y texturas. En el caso de las imágenes de radiografías con neumonía, las características que se extraerán incluyen contornos pulmonares asimétricos, regiones brillantes que indican inflamación o la presencia de líquido (a diferencia de regiones oscuras llenas de aire), áreas pulmonares nubladas u opacas y texturas irregulares.4 La extracción de características permite a los algoritmos distinguir relaciones y patrones significativos en los datos visuales.

Una imagen de radiografía se trata como una matriz de valores de píxeles. Otra matriz de ponderaciones (parámetros que controlan cuánta influencia tiene una característica de entrada determinada en la salida del modelo) conocida como filtro o kernel se aplica a un área de la imagen de radiografía, con un producto de punto calculado entre los valores de píxeles de entrada. El filtro se mueve, o "convoluciona", a través de la imagen para extraer características, y todo el proceso se conoce como convolución. El resultado final de la serie de productos de puntos se denomina mapa de activación o mapa de características. Cada filtro está ajustado para responder a patrones específicos, como bordes, formas o texturas, lo que permite a la CNN aprender múltiples características visuales simultáneamente.

 El mapa de características se introduce en una capa de agrupación para reducir aún más el tamaño del mapa y comprimir sus dimensiones. Otro filtro recorre toda la entrada, tomando los valores máximos o promedio dentro de un grupo de celdas en el mapa de características. Esto conserva las características más esenciales, lo que permite que el modelo centre su atención en ellas.

 El acto de moverse a través de una imagen para extraer características, reducir dimensiones y producir una clasificación se conoce como pase hacia adelante. Después de este pase hacia adelante, el modelo aplica una función de pérdida para calcular su error o la diferencia entre su clasificación prevista y la clasificación real.

Para minimizar la función de pérdida, se emplea la retropropagación. La retropropagación es un pase hacia atrás para calcular el gradiente de la función de pérdida con respecto a cada ponderación. Luego, se implementa la técnica de descenso del gradiente para actualizar las ponderaciones del modelo y optimizarlo.

Finalmente, la capa totalmente conectada realiza la tarea de clasificación en función de las características extraídas a través de las capas anteriores y sus diferentes filtros. Luego, la CNN genera sus resultados, que son probabilidades para cada clase (en este caso, normal frente a neumonía). Para la tarea de clasificación de imágenes de radiografías de tórax, esta salida indicará una exploración normal o, si la probabilidad supera un umbral predeterminado, una exploración positiva para neumonía.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Tareas de visión artificial

Los algoritmos de visión artificial se pueden entrenar en una amplia gama de tareas, algunas de las cuales incluyen:

  • Reconocimiento de imágenes
  • Clasificación de imágenes
  • Detección de objetos
  • Segmentación de imágenes
  • Seguimiento de objetos
  • Comprensión de la escena
  • Reconocimiento facial
  • Estimación de poses
  • Reconocimiento óptico de caracteres
  • Generación de imágenes
  • Inspección visual

Reconocimiento de imágenes

El reconocimiento de imágenes es la forma más amplia de visión artificial. Abarca la identificación de personas, lugares, objetos y otras entidades en imágenes digitales y sirve como base para tareas como la clasificación de imágenes, la detección de objetos y la segmentación de imágenes.

Clasificación de imágenes

La clasificación de imágenes es una tarea central de visión artificial que clasifica las imágenes en grupos o clases predefinidos. Predice la etiqueta más adecuada para una imagen u objetos dentro de una imagen. El escenario ilustrado anteriormente del diagnóstico de neumonía mediante radiografías de tórax es un ejemplo de clasificación de imágenes.

Detección de objetos

La detección de objetos tiene como objetivo identificar dónde están los objetos en las imágenes digitales. Combina dos técnicas de aprendizaje: localización de objetos y clasificación de imágenes.

La localización de objetos identifica la ubicación de objetos específicos en una imagen dibujando cuadros delimitadores a su alrededor. Luego, la clasificación de imágenes distingue la categoría a la que pertenecen los objetos. En las imágenes del tráfico rodado, por ejemplo, las aplicaciones de visión artificial pueden utilizar la detección de objetos no solo para clasificar los vehículos, sino también para localizarlos en la carretera.

Software de detección de objetos que se utiliza en el tráfico

Las arquitecturas de redes neuronales comunes para la detección incluyen R-CNN (red neuronal convolucional basada en regiones) y YOLO (solo se mira una vez). R-CNN implementa la detección en dos etapas determinando primero las regiones que contienen objetos y luego ejecutando esas regiones a través de redes separadas para su clasificación y localización más exacta. Mientras tanto, YOLO realiza la detección en una sola etapa combinando la localización y la clasificación en un solo paso de red, lo que lo hace lo suficientemente rápido para la detección de objetos en tiempo real.

La detección de objetos para videos generalmente aplica modelos basados en transformadores y RNN, particularmente la arquitectura de memoria a largo plazo.

Segmentación de imágenes

La segmentación de imágenes es una versión más precisa, a nivel de píxeles, de la detección de objetos. Divide una imagen digital en grupos discretos de píxeles conocidos como segmentos de imagen, luego etiqueta los píxeles según su clase o instancia.

Si bien la detección de objetos puede clasificar varios elementos dentro de una imagen y aproximar el ancho y la altura de cada elemento, la segmentación de imágenes discierne los límites exactos. Esto hace que la segmentación de imágenes sea valiosa para delinear objetos muy agrupados con cuadros delimitadores superpuestos.

La segmentación de imágenes se puede subdividir en tres tipos de tareas:

  • La segmentación semántica es el tipo más simple, asignando una clase semántica, la categoría específica a la que podría pertenecer un píxel determinado, a cada píxel.
  • La segmentación de instancias predice los límites exactos en cuanto a píxeles de cada instancia de objeto individual en una imagen.
  • La segmentación panóptica combina la segmentación semántica y de instancias determinando la clasificación semántica de todos los píxeles y diferenciando cada instancia de objeto en una imagen.

Por ejemplo, en una imagen de la calle de una ciudad, la segmentación semántica podría tratar a los automóviles estacionados uno frente al otro como un segmento largo de automóviles, mientras que la segmentación de instancias separa y determina la forma de cada auto.

Un gráfico que compara imágenes de origen con segmentación semántica, de instancias y panóptica.

Seguimiento de objetos

El seguimiento de objetos sigue y rastrea un objeto a medida que se mueve a través de una secuencia de fotogramas de video o imagen. Localiza y distingue el objeto en cada fotograma y preserva la continuidad del objeto durante el recorrido.

Comprensión de la escena

La comprensión de la escena va un paso más allá del reconocimiento de objetos, capturando un mayor nivel de información visual. Al identificar objetos en una imagen, los modelos de aprendizaje profundo predicen conexiones entre ellos, como acciones, eventos e interacciones.

Las redes neuronales gráficas (GNN) se pueden utilizar para representar las relaciones espaciales entre objetos en una imagen. En el ejemplo de las imágenes de tráfico, los sistemas de visión artificial pueden inferir que un taxi se mueve frente a un automóvil, un automóvil está estacionado a la izquierda de un taxi o un automóvil gira a la derecha.

Los modelos de lenguaje de visión (VLM) también pueden ayudar con la comprensión de la escena. Este emparejamiento de modelos de lenguaje grandes (LLM) con transformadores de visión puede reconocer y clasificar objetos dentro de una imagen y proporcionar descripciones contextuales, como la posición de un objeto en relación con otros elementos visuales.

Reconocimiento facial

El reconocimiento facial aplica el reconocimiento de imágenes a las características faciales. Captura la geometría de un rostro y detecta patrones clave como la distancia entre los ojos, la distancia desde la frente hasta el mentón, el contorno de la nariz y la forma de los labios.

El reconocimiento facial puede identificar a las personas en tiempo real o en fotografías o videos. Un ejemplo popular es la autenticación biométrica a través del reconocimiento facial para desbloquear teléfonos inteligentes.

 

Autenticación facial biométrica

Estimación de poses

La estimación de pose mide la posición espacial de diferentes partes del cuerpo para reconocer gestos y rastrear movimientos corporales. Por ejemplo, la estimación de poses puede ayudar a marcar la orientación de los brazos y las manos de un jugador durante un juego de realidad virtual. Un ejemplo más real es el software de visión artificial de la NASA que proporciona a los operadores de brazos robóticos a bordo de la Estación Espacial Internacional una estimación de pose en tiempo real para un agarre preciso de los objetivos.5

Reconocimiento óptico de caracteres

El reconocimiento óptico de caracteres (OCR), también conocido como reconocimiento de texto, extrae y convierte texto de imágenes, documentos escaneados y otras fuentes en un formato legible por máquina. Como tal, ayuda a automatizar la digitalización de textos escritos a mano y registros en papel.

El flujo de trabajo de OCR sigue estos pasos:

  1. La adquisición de imágenes convierte la imagen o el documento digital en una versión en blanco y negro, con áreas claras marcadas como fondo y áreas oscuras marcadas como caracteres para el reconocimiento.
  2. El preprocesamiento elimina los pixeles extraños y puede incluir la desviación para corregir la imagen que se alinea incorrectamente durante el escaneo.
  3. El reconocimiento de texto encuentra letras alfabéticas, dígitos numéricos o símbolos, apuntando a un carácter a la vez. A continuación, identifica los caracteres mediante el reconocimiento de patrones, haciendo coincidir la fuente, la escala y la forma de un carácter con una plantilla.

Las CNN y los modelos basados en transformadores son capaces de reconocer caracteres de forma más inteligente, extrayendo características como curvas, intersecciones de líneas, bucles y el número de líneas en ángulo de un carácter. Estos algoritmos también son capaces de reconocimiento inteligente de palabras, distinguiendo palabras en lugar de caracteres para un procesamiento más rápido.

Generación de imágenes

La generación de imágenes emplea modelos de IA generativa para producir imágenes. Estos son algunos modelos generativos comunes utilizados para la generación de imágenes:

  • Los modelos de difusión están entrenados para crear imágenes novedosas aprendiendo a eliminar el ruido o reconstruir muestras en sus datos de entrenamiento que se difundieron gradualmente con ruido aleatorio y se mezclaron más allá del reconocimiento.
  • Las redes generativas adversarias (GAN) constan de dos neural networks: un generador que crea imágenes y un discriminador que actúa como adversario, discriminando entre imágenes artificiales y reales. Ambas redes se entrenan de forma iterativa, y la retroalimentación del discriminador mejora la salida del generador hasta que el discriminador ya no es capaz de distinguir los datos artificiales de los reales.
  • Los autocodificadores variacionales (VAE) son modelos de aprendizaje profundo que generan variaciones de los datos con los que se entrenan. Un codificador comprime las imágenes de entrada en un espacio de menor dimensión, capturando la información significativa contenida en las imágenes. Luego, un decodificador reconstruye nuevas imágenes a partir de esta representación comprimida.

Los VLM también son capaces de generar imágenes dada una descripción de texto.

Inspección visual

La inspección visual automatiza la identificación de defectos. A través de la detección de objetos, los sistemas de visión artificial inspeccionan imágenes o videos para detectar fallas. La segmentación de imágenes también se puede implementar para localizar defectos con mayor precisión.

Las máquinas de inspección visual impulsadas por visión artificial pueden ayudar a las empresas a realizar inspecciones más rápidas y seguras con mayor coherencia y precisión, ya sea señalando la corrosión en áreas de puentes de difícil acceso o encontrando conectores defectuosos en productos electrónicos ensamblados.

Aplicaciones de visión artificial

Como campo maduro de la IA, la visión artificial ha pasado por muchos avances, lo que ha dado lugar a una amplia gama de casos de uso. Estas son algunas aplicaciones del mundo real de la visión artificial:

Agricultura

Cámaras, drones y satélites capturan imágenes de alta resolución de cultivos y áreas agrícolas. Luego, las tecnologías de visión artificial analizan estas imágenes para ayudar a evaluar la salud de las plantas e identificar plagas y malezas para una aplicación más específica de herbicidas.

Vehículos autónomos

En la industria automotriz, los automóviles autónomos componen un modelo 3D de su entorno utilizando una combinación de cámaras, lidar, radar y sensores. Luego, aplican la detección de objetos, la segmentación de imágenes y la comprensión de la escena para una navegación segura, evitando obstáculos como peatones y otros vehículos y detectando con precisión características de la carretera como carriles, semáforos y señales de tráfico.

Atención médica

Las imágenes médicas son un área clave de aplicación para la visión artificial. Por ejemplo, la detección de objetos puede automatizar el análisis de imágenes, localizar e identificar posibles marcadores de enfermedades en radiografías y tomografías computarizadas, resonancias magnéticas y ecografías. Además, la segmentación de instancias puede delinear los límites específicos de órganos, tejidos y tumores, lo que ayuda a un diagnóstico más preciso que puede informar mejor la toma de decisiones para tratamientos y atención al paciente.

Manufactura

Los sistemas de visión artificial ayudan con la gestión de inventario, escaneando artículos para determinar los niveles de existencias. También pueden impulsar el control de calidad, reconociendo defectos en tiempo real. Estos sistemas analizan las imágenes de los productos y pueden señalar fallas o incongruencias de forma rápida y precisa en comparación con los inspectores que utilizan su propia visión humana.

Venta minorista y comercio electrónico

La tecnología Just Walk Out de Amazon, por ejemplo, utiliza la visión artificial en pequeñas tiendas de venta minorista y de servicios de alimentos para rastrear las selecciones de los clientes y automatizar la experiencia de pago. Los clientes pueden simplemente tomar sus artículos e irse sin hacer fila en los mostradores de pago.6

Las tiendas en línea también pueden utilizar la realidad aumentada junto con el reconocimiento facial y la estimación de poses para sus experiencias de prueba virtual de artículos, lo que permite a los clientes visualizar cómo se verán en ellos la ropa, las gafas o el maquillaje antes de comprarlos.

Robótica

Al igual que los vehículos autónomos, los robots utilizan cámaras, lidar y sensores para mapear su entorno. Luego aplican algoritmos de visión artificial para completar sus tareas, como ayudar a los cirujanos con procedimientos complejos, navegar a través de almacenes para transportar mercancías, recoger solo productos maduros y colocar objetos en líneas de ensamblaje.

Exploración espacial

La detección de objetos puede ayudar a las naves espaciales a localizar y evitar peligros durante el aterrizaje, mientras que los rovers pueden implementar la misma capacidad para navegar por el terreno.7 La clasificación de imágenes se puede emplear para categorizar asteroides, meteoros e incluso desechos espaciales, mientras que el seguimiento de objetos monitorea las trayectorias de estos objetos astronómicos.

Herramientas de visión artificial

Existen muchas herramientas para crear aplicaciones de visión artificial, lo que ayuda a agilizar el proceso de desarrollo. Algunas herramientas populares incluyen:

  • keras
  • OpenCV
  • Scikit-image
  • TensorFlow
  • Torchvision

Keras

Keras es una interfaz de programación de aplicaciones (API) de aprendizaje profundo que puede ejecutarse sobre otros marcos de IA como PyTorch y TensorFlow. Proporciona docenas de tutoriales y ejemplos para diversas tareas de visión artificial, incluida la clasificación de imágenes y videos, la segmentación de imágenes, la detección de objetos y el OCR.

OpenCV

OpenCV es una de las bibliotecas de visión artificial más empleadas. Esta biblioteca de código abierto alberga más de 2500 algoritmos de visión artificial y contiene módulos para procesamiento de imágenes, detección de objetos, análisis de video y más. Está escrita en C++, pero también tiene contenedores para lenguajes de programación como Java y Python.

Scikit-image

Scikit-image es una colección de código abierto de algoritmos para el procesamiento de imágenes en Python. Admite preprocesamiento, extracción de características, detección de objetos y segmentación de imágenes, entre otras tareas. Su simplicidad lo hace accesible para principiantes.

TensorFlow

TensorFlow es una plataforma de machine learning de código abierto de Google. Si bien sirve para aplicaciones de aprendizaje profundo de uso más general, TensorFlow también proporciona conjuntos de datos específicos de visión artificial, herramientas para el preprocesamiento y funciones para la clasificación de imágenes y videos, la segmentación de imágenes y la detección de objetos.

Torchvision

La biblioteca torchvision forma parte del ecosistema PyTorch. Abarca transformaciones de imágenes comunes, conjuntos de datos y otras funciones de utilidad. El paquete también ofrece modelos para la clasificación de imágenes y videos, detección de objetos y segmentación semántica y de instancias.

Una breve historia de la visión artificial

La visión artificial es una de las primeras disciplinas de la IA. Durante décadas, los investigadores informáticos han estado desarrollando formas para que las máquinas comprendan los datos visuales.

La experimentación comenzó en las décadas de 1950 y 1960 cuando los neurofisiólogos mostraron a los gatos una serie de imágenes mientras registraban la actividad neuronal. Descubrieron que los animales respondían primero a las líneas, y concluyeron que el procesamiento de imágenes comienza con formas simples, como bordes rectos.8

Aproximadamente al mismo tiempo, se desarrolló la primera tecnología de escaneo de imágenes por computadora, equipando a las computadoras con la capacidad de digitalizar y adquirir imágenes.9 Se alcanzó otro hito cuando las computadoras desarrollaron la capacidad de transformar imágenes bidimensionales en formas tridimensionales.10

En 1982, el neurocientífico David Marr estableció que la visión funciona de forma jerárquica e introdujo algoritmos para que las máquinas detecten esquinas, curvas, bordes y formas básicas similares.11 Durante la misma década, el científico informático Kunihiko Fukushima desarrolló una red de células que podían reconocer patrones y la denominó “neocognitron”, que incluía capas convolucionales en redes neuronales.12

Para el año 2000, el enfoque del estudio estaba en la clasificación de imágenes y el reconocimiento de objetos.13 En 2009, se introdujo el conjunto de datos ImageNet, que contiene millones de imágenes etiquetadas para entrenar algoritmos de visión artificial.14 En 2012, un equipo de la Universidad de Toronto creó AlexNet CNN, que se entrenó con el conjunto de datos de ImageNet y redujo significativamente la tasa de error para el reconocimiento de imágenes, allanando el camino para los modelos de visión artificial actuales.15

Soluciones relacionadas
IBM Maximo Visual Inspection

Libere el poder de la visión artificial sin código para la automatización de inspecciones visuales.

Explore Maximo Visual Inspection
Consultoría y servicios de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

Explore los servicios de inteligencia artificial
Soluciones de inteligencia artificial

Ponga a trabajar la IA en su negocio con la experiencia en IA líder del sector y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Dé el siguiente paso

IBM Maximo Visual Inspection pone el poder de las capacidades de IA de visión artificial en manos de sus equipos de inspección y control de calidad. Libere el poder de la visión artificial sin código para la automatización de la inspección visual.

Explore Maximo Visual Inspection Haga un recorrido del producto
Notas de pie de página

1. The three R’s of computer vision: Recognition, reconstruction and reorganization, Pattern Recognition Letters, 8 February 2016
2. Efficient pneumonia detection using Vision Transformers on chest X-rays, Scientific Reports, 30 de enero de 2024
3. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, arXiv, 3 de junio de 2021
4. NGBoost Classifier Using Deep Features for Pneumonia Chest X-Ray Classification, Applied Sciences, 8 de septiembre de 2025
5. Computer Vision Lends Precision to Robotic Grappling, NASA Technology Transfer Program, consultado el 11 de septiembre de 2025
6. Amazon Just Walk Out, AWS, consultado el 11 de septiembre de 2025
7. The Computer Vision Laboratory, NASA JPL Robotics, consultado el 11 de septiembre de 2025
8. From Cats to the Cortex: Unravelling the Hierarchical Processing System of Vision and Brain Plasticity, Cureus, 2 de septiembre de 2024
9. Your Engineering Heritage: Scanners and Computer Image Processing, IEEE-USA InSight, 8 de febrero de 2016 10.
 A Simple World: The Blocks World, Foundations of Computer Vision, 2024
11. Marr’s Computational Theory of Vision, Foundations of Computer Vision, 2024
12. Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position, Biological Cybernetics, 1980
13. Computer Vision, Foundations of Computer Vision, 2024
14. ImageNet: A large-scale hierarchical image database, IEEE Conference on Computer Vision and Pattern Recognition, 2009
15. CHM Releases AlexNet Source Code, Computer History Museum, 20 de marzo de 2025