Las características o variables de datos son los atributos de un conjunto de datos que los modelos de machine learning utilizan para tomar decisiones y predicciones. Por ejemplo, para un modelo de visión artificial creado para identificar especies de plantas, las características de los datos pueden incluir la forma y el color de las hojas.
La ingeniería de características es el proceso transformador mediante el cual un científico de datos extrae nueva información de los datos de entrada y la prepara para el machine learning. Una buena ingeniería y selección de características puede determinar la diferencia entre un rendimiento de modelo aceptable y de alta calidad.
La ingeniería automatizada de características automatiza el proceso de explorar el espacio de características, llenando los valores faltantes y seleccionando las características que se van a emplear. Desarrollar manualmente una sola característica puede llevar horas, y la cantidad de funciones necesarias para obtener un puntaje de precisión mínimo (y mucho menos una línea base de precisión a nivel de producción) puede llegar a cientos. La ingeniería de características automatizada reduce esta fase de días a minutos.
Además de los beneficios de eficiencia, la eficiencia de las características automatizadas también aumenta la explicabilidad de la AI—importante para industrias estrictamente reguladas, como la atención médica o las finanzas. Una mayor claridad de las características hace que los modelos sean más convincentes y procesables al descubrir nuevos KPI organizacionales.