El supuesto de colector establece que el espacio de entrada de dimensiones superiores comprende múltiples colectores dimensionales inferiores en los que se encuentran todos los puntos de datos, y que los puntos de datos en el mismo colector comparten la misma etiqueta.
Como ejemplo intuitivo, consideremos un trozo de papel arrugado que forma una bola. La ubicación de cualquier punto en la superficie esférica solo se puede asignar con coordenadas tridimensionales x,y,z. Pero si esa bola arrugada ahora se aplana nuevamente en una hoja de papel, esos mismos puntos ahora se pueden mapear con coordenadas bidimensionales x,y. Esto se denomina reducción de dimensionalidad, y se puede lograr matemáticamente utilizando métodos, como los autocodificadores o las convoluciones.
En el aprendizaje automático, las dimensiones corresponden no a las dimensiones físicas conocidas, sino a cada atributo o característica de los datos. Por ejemplo, en aprendizaje automático, una pequeña imagen RGB que mide 32x32 píxeles tiene 3072 dimensiones: 1024 píxeles, cada uno de los cuales tiene tres valores (para rojo, verde y azul). Comparar puntos de datos con tantas dimensiones es un desafío, tanto por la complejidad y los recursos computacionales requeridos como porque la mayor parte de ese espacio de alta dimensión no contiene información significativa para la tarea en cuestión.
El supuesto de colector sostiene que cuando un modelo aprende la función de reducción de dimensionalidad adecuada para descartar información irrelevante, los puntos de datos dispares convergen a una representación más significativa para la cual los otros supuestos del SSL son más confiables.