El sesgo de datos se produce cuando los sesgos presentes en los conjuntos de datos de entrenamiento y ajuste de los modelos de inteligencia artificial (IA) afectan negativamente al comportamiento del modelo.
Los modelos de IA son programas que han sido entrenados en conjuntos de datos para reconocer ciertos patrones o tomar ciertas decisiones. Aplican diferentes algoritmos a las entradas de datos relevantes para lograr las tareas o resultados para los que han sido programados.
Entrenar un modelo de IA con datos sesgados, como sesgos históricos o de representación, podría dar lugar a resultados sesgados o distorsionados que podrían representar injustamente o discriminar de otro modo a determinados grupos o individuos. Estos impactos erosionan la confianza en la IA y en las organizaciones que la utilizan. También pueden dar lugar a sanciones legales y reglamentarias para las empresas.
El sesgo de datos es una consideración importante para los sectores de alto riesgo, como la atención médica, los recursos humanos y las finanzas, que utilizan cada vez más la IA para ayudar a informar la toma de decisiones. Las organizaciones pueden mitigar el sesgo de los datos comprendiendo los diferentes tipos de sesgo de los datos y cómo se producen, e identificando, reduciendo y gestionando estos sesgos a lo largo del ciclo de vida de la IA.
El sesgo de datos puede dar lugar a sistemas de IA injustos, inexactos y poco fiables, lo que tiene graves consecuencias para las personas, las empresas y la sociedad. Algunos riesgos de sesgo de datos incluyen:
El sesgo de los datos en los sistemas de IA puede perpetuar los prejuicios sociales existentes, dando lugar a un trato injusto basado en características como el sexo, la edad, la raza o el origen étnico. Los grupos marginados pueden estar infrarrepresentados o excluidos de los datos, lo que da lugar a decisiones que no atienden a las necesidades de la población real.
Por ejemplo, un algoritmo de contratación entrenado principalmente con datos de una mano de obra masculina homogénea podría favorecer a los candidatos masculinos y perjudicar a las candidatas cualificadas, perpetuando la desigualdad de género en el lugar de trabajo.
Los modelos de IA entrenados con datos sesgados pueden producir resultados incorrectos, lo que puede hacer que las organizaciones tomen malas decisiones o propongan soluciones ineficaces. Por ejemplo, las empresas que utilizan análisis predictivos sesgados podrían malinterpretar las tendencias del mercado, lo que daría lugar a lanzamientos de productos deficientes o a una mala asignación de recursos.
El sesgo de los datos puede poner a las organizaciones en riesgo de escrutinio regulatorio, incumplimiento legal y multas sustanciales. Por ejemplo, según la Ley de IA de la UE, incumplir las prácticas prohibidas de IA puede acarrear multas de hasta 35 000 000 euros o el 7 % de la facturación anual mundial, lo que sea mayor.
Las organizaciones que infringen las leyes locales y regionales también pueden ver mermada su reputación y la confianza de sus clientes. Pensemos en una empresa de venta minorista declarada culpable de discriminación por utilizar un modelo con IA que cobraba precios más altos a ciertos grupos demográficos. Esta situación podría provocar una crisis de relaciones públicas que perjudicara la imagen de marca de la empresa y la lealtad de los clientes.
El sesgo de datos puede erosionar la confianza en los sistemas de IA. Los casos graves o repetidos de decisiones sesgadas o inexactas impulsadas por la IA podrían incitar a individuos y comunidades a cuestionar la integridad de la organización que implementa la IA. La gente también podría volverse cada vez más escéptica sobre la confiabilidad y la imparcialidad de la IA en general, lo que conduciría a una renuencia más amplia a adoptar la tecnología.
Los sistemas de IA que utilizan resultados sesgados como datos de entrada para la toma de decisiones crean un bucle de feedback que también puede reforzar el sesgo con el tiempo. Este ciclo, en el que el algoritmo aprende y perpetúa continuamente los mismos patrones sesgados, conduce a resultados cada vez más sesgados.
Por ejemplo, la discriminación histórica, como la denegación de servicios financieros a las personas en función de su raza, puede reflejarse en los datos de entrenamiento para un modelo de IA encargado de la toma de decisiones sobre préstamos bancarios. A medida que un sistema de IA procesa aplicaciones utilizando estos datos, podría penalizar injustamente a las personas que comparten características socioeconómicas con las víctimas de las líneas rojas en años anteriores. Los datos de esos rechazos de préstamos más recientes podrían servir de base para la futura toma de decisiones en materia de IA, lo que llevaría a un ciclo en el que los miembros de grupos infrarrepresentados seguirían recibiendo menos oportunidades de crédito.
El sesgo de los datos, el sesgo de la IA y el sesgo algorítmico pueden dar lugar a resultados distorsionados y potencialmente perjudiciales, pero existen sutiles diferencias entre estos términos.
El sesgo de la IA, también llamado sesgo de machine learning, es un término general para los diferentes tipos de sesgo asociados a los sistemas de inteligencia artificial. Se refiere a la aparición de resultados sesgados debido a sesgos humanos que sesgan los datos de entrenamiento originales o el algoritmo de IA.
El sesgo algorítmico es un subconjunto del sesgo de IA que se produce cuando errores sistémicos en algoritmos de machine learning producen resultados injustos o discriminatorios. El sesgo algorítmico no está causado por el algoritmo en sí, sino por la forma en que los desarrolladores recopilan y codifican los datos de entrenamiento.
El sesgo de los datos también se engloba en el sesgo de la IA y puede ser una de las causas del sesgo algorítmico. El sesgo de datos se refiere específicamente a la naturaleza sesgada o poco representativa de los datos utilizados para entrenar un modelo de IA.
Comprender y abordar los diferentes tipos de sesgos puede ayudar a crear sistemas de IA precisos y de IA fiable. Algunos tipos comunes de sesgo de datos incluyen:
Cuando las personas procesan información y emiten juicios, se ven inevitablemente influidas por sus experiencias y preferencias. Como resultado, la gente puede incorporar estos sesgos a los sistemas de IA a través de la selección de datos o de cómo se ponderan los datos. El sesgo cognitivo podría conducir a errores sistemáticos, como favorecer los conjuntos de datos recogidos de estadounidenses en lugar de realizar un muestreo de una serie de poblaciones de todo el mundo.
El sesgo de automatización se produce cuando los usuarios confían demasiado en las tecnologías de automatización, lo que lleva a la aceptación acrítica de sus resultados, lo que puede perpetuar y amplificar los sesgos de datos existentes. Por ejemplo, en el sector sanitario, un médico puede depender en gran medida de una herramienta de diagnóstico de IA para sugerir planes de tratamiento a los pacientes. Al no verificar los resultados de la herramienta con su propia experiencia clínica, el médico podría diagnosticar erróneamente a un paciente si la decisión de la herramienta se deriva de datos sesgados.
El sesgo de confirmación se produce cuando los datos se incluyen de forma selectiva para confirmar creencias o hipótesis preexistentes. Por ejemplo, el sesgo de confirmación se produce en la vigilancia policial predictiva cuando las fuerzas del orden centran la recopilación de datos en barrios con índices de delincuencia históricamente elevados. El resultado es una vigilancia excesiva de estos barrios, debido a la inclusión selectiva de datos que apoyan las suposiciones existentes sobre la zona.
Sesgo de exclusión se produce cuando se omiten datos importantes de los conjuntos de datos. En las predicciones económicas, la exclusión sistemática de los datos de las zonas de renta baja da lugar a conjuntos de datos poco representativos de la población, lo que conduce a previsiones económicas sesgadas a favor de las zonas más ricas.
El sesgo histórico, también conocido como sesgo temporal, se produce cuando los datos reflejan desigualdades históricas o sesgos que existieron durante la recopilación de datos, a diferencia del contexto actual. Ejemplos de sesgo de datos en esta categoría son los sistemas de contratación de IA entrenados con datos históricos de empleo. En estos conjuntos de datos, las personas de color podrían estar infrarrepresentadas en los puestos de alto nivel, y el modelo podría perpetuar la desigualdad.
El sesgo implícito se produce cuando las suposiciones de las personas basadas en experiencias personales, en lugar de en datos más generales, se introducen en la construcción o las pruebas de ML. Por ejemplo, un sistema de IA entrenado para evaluar a los solicitantes de empleo podría dar prioridad a los currículos con lenguaje masculino, reflejando el sesgo inconsciente del desarrollador, aunque el género no sea un factor explícito en el modelo.
El sesgo de medición puede producirse cuando la precisión o la calidad de los datos difieren entre los grupos o cuando las variables clave del estudio se miden o clasifican de forma incorrecta. Por ejemplo, un modelo de admisión a la universidad que utiliza un alto promedio de notas como principal factor de aceptación no tiene en cuenta que las notas más altas pueden ser más fáciles de conseguir en determinadas universidades que en otras. Un estudiante con una nota media más baja pero una carga lectiva más exigente en un centro puede ser un candidato más capaz que otro con una nota media más alta pero una carga lectiva menos exigente en otro. Dado su énfasis en las medias, es posible que el modelo no tenga en cuenta esta posibilidad en sus procesos de toma de decisiones.
El sesgo de notificación se produce cuando la frecuencia de los acontecimientos o los resultados del conjunto de datos no es representativa de la frecuencia real. Este sesgo suele producirse cuando los humanos participan en la selección de datos, ya que es más probable que las personas documenten pruebas que parezcan importantes o memorables.
Por ejemplo, se entrena un modelo de análisis de sentimientos para predecir si los productos de un gran sitio web de comercio electrónico se valoran positiva o negativamente. La mayoría de las reseñas de productos similares en el conjunto de datos de entrenamiento reflejan opiniones extremas, porque es menos probable que la gente deje una reseña si no ha respondido a ella de forma contundente, lo que hace que las predicciones del modelo sean menos precisas.
El sesgo de selección ocurre cuando el conjunto de datos utilizado para el entrenamiento no es lo suficientemente representativo, no es lo suficientemente grande o está demasiado incompleto para entrenar suficientemente el sistema. Por ejemplo, entrenar un coche autónomo con datos de conducción diurna no es representativo de la gama completa de escenarios de conducción que el vehículo podría encontrar en el mundo real.
El sesgo de muestreo es un tipo de sesgo de selección que se produce cuando los datos de la muestra se recogen de forma que es más probable que se incluya cierta información que otra, sin una aleatorización adecuada. Por ejemplo, si un sistema médico de IA diseñado para predecir el riesgo de cardiopatías se entrenara únicamente con datos de pacientes varones de mediana edad, podría proporcionar predicciones inexactas. Este sistema afectaría especialmente a las mujeres y a las personas de otros grupos de edad.
La mitigación del sesgo dentro de la IA comienza con el gobierno de la IA. El gobierno de la IA se refiere a las directrices que trabajan para garantizar que las herramientas y los sistemas de IA sean y sigan siendo seguros y éticos. Las prácticas responsables de IA, que hacen hincapié en la transparencia, la rendición de cuentas y las consideraciones éticas, pueden guiar a las organizaciones en la navegación por las complejidades de la mitigación del sesgo.
Para mitigar el sesgo de datos, las organizaciones deben implementar estrategias y prácticas sólidas destinadas a identificar, reducir y gestionar el sesgo a lo largo de la recopilación y el análisis de datos, como:
Una amplia representación en las fuentes de datos ayuda a reducir los sesgos. El proceso de recopilación de datos debe abarcar una amplia gama de aspectos demográficos, contextos y condiciones que estén todos adecuadamente representados. Por ejemplo, si los datos recogidos para las herramientas de reconocimiento facial incluyen predominantemente imágenes de individuos blancos, el modelo podría no reconocer o diferenciar con precisión los rostros negros.
Las auditorías de sesgos permiten a las organizaciones evaluar periódicamente sus datos y algoritmos en busca de posibles sesgos, revisando los resultados y examinando las fuentes de datos en busca de indicadores de trato injusto entre distintos grupos demográficos. La monitorización continua del rendimiento en varios grupos demográficos ayuda a detectar y abordar las discrepancias en los resultados, contribuyendo a garantizar que cualquier sesgo presente se identifique y elimine a tiempo.
Documentar los métodos de recopilación de datos y la forma en que los algoritmos toman decisiones mejora la transparencia, especialmente en lo que respecta a la forma en que se identifican y abordan los posibles sesgos. Las políticas de datos abiertos pueden facilitar la revisión y la crítica externas, fomentando la responsabilidad en la recopilación y el análisis de datos, algo esencial para fomentar la confianza en los sistemas de IA.
El uso de herramientas y marcos de equidad algorítmica puede ayudar a detectar y mitigar el sesgo en los modelos de machine learning. IA Fairness 360, un código abierto desarrollado por IBM, proporciona varias métricas para detectar sesgos en conjuntos de datos y modelos de machine learning, junto con algoritmos para mitigar el sesgo y promover la equidad. La implementación de métodos estadísticos para evaluar la imparcialidad de las predicciones en diferentes grupos demográficos puede mejorar aún más la objetividad.
Fomentar la diversidad en los equipos de ciencia de datos y análisis introduce varias perspectivas y puede reducir el riesgo de sesgo. Los equipos diversos tienen más probabilidades de reconocer y abordar posibles sesgos en conjuntos de datos y algoritmos porque se basan en una gama más amplia de experiencias y puntos de vista. Por ejemplo, un equipo que incluya miembros de diferentes orígenes raciales, de género y socioeconómicos puede identificar mejor las áreas en las que los datos podrían tergiversar o pasar por alto a ciertos grupos de personas.
Los datos sintéticos son datos generados artificialmente mediante simulación informática o algoritmos para sustituir a los puntos de datos recopilados de sucesos del mundo real. Los científicos de datos suelen considerar que los datos sintéticos son una alternativa beneficiosa cuando los datos no están fácilmente disponibles y porque ofrecen una mayor protección de datos. Los datos sintéticos mitigan el sesgo al permitir la creación intencionada de conjuntos de datos equilibrados que incluyen grupos y escenarios infrarrepresentados para ayudar a garantizar unos resultados más equitativos de los modelos.
Gobierne modelos de IA generativa desde cualquier lugar e impleméntelos en la nube o en las instalaciones con IBM watsonx.governance.
Vea cómo el gobierno de la IA puede ayudar a aumentar la confianza de sus empleados en la misma, acelerar la adopción y la innovación y mejorar la confianza de los clientes.
Prepárese para la Ley de IA de la UE y establezca un enfoque de gobierno de la IA responsable con la ayuda de IBM Consulting.