t-SNE-Knoten
t-SNE© (t-Distributed Stochastic Neighbor Embedding) ist ein Tool zum Visualisieren von hochdimensionalen Daten. Es wandelt Affinitäten von Datenpunkten in Wahrscheinlichkeiten um. Die Affinitäten im Originalraum werden durch gemeinsame gaußsche Verteilungen dargestellt und die Affinitäten im eingebetteten Raum durch studentsche t-Verteilungen. Daher kann t-SNE die lokale Struktur gut berücksichtigen und hat im Vergleich zu den zurzeit gängigen Verfahren noch weitere Vorteile:1
- Sichtbarmachen der Struktur mit verschiedenen Skalen in einer einzigen Karte
- Sichtbarmachen von Daten, die in mehreren unterschiedlichen Mannigfaltigkeiten oder Clustern liegen
- Geringere Tendenz, Punkte in der Mitte zu sammeln
Der t-SNE-Knoten in SPSS Modeler ist in Python implementiert und erfordert die Python-Bibliothek scikit-learn©. Details zu t-SNE und der Bibliothek scikit-learn finden Sie unter:
Die Registerkarte Python in der Knotenpalette enthält diesen Knoten sowie weitere Python-Knoten. Der t-SNE-Knoten ist auch auf der Registerkarte Diagramme verfügbar.
1 Referenzen:
van der Maaten, L.J.P.; Hinton, G. "Visualizing High-Dimensional Data using t-SNE." Journal of Machine Learning Research. 9:2579-2605, 2008.
van der Maaten, L.J.P. "t-Distributed Stochastic Neighbor Embedding."
van der Maaten, L.J.P. "Accelerating t-SNE using Tree-Based Algorithms." Journal of Machine Learning Research. 15(Okt):3221-3245, 2014.