Węzeł t-SNE

Stochastyczna metoda porządkowania sąsiadów w oparciu o rozkład t (t-SNE — t-Distributed Stochastic Neighbor Embedding©) to narzędzie do wizualizacji danych wysokowymiarowych. Przekształca ono powinowactwa punktów danych w prawdopodobieństwa. Powinowactwa w przestrzeni pierwotnej są reprezentowane przez gaussowskie prawdopodobieństwa łączne, a powinowactwa w przestrzeni włączanej są reprezentowane przez rozkłady t Studenta. Dzięki temu algorytm t-SNE jest szczególnie czuły na struktury lokalne i ma kilka innych przewag nad wcześniej stosowanymi technikami: ¹

Ujawnianie struktur w wielu skalach na jednej mapie
Ujawnianie danych leżących w wielu różnych rozgałęzieniach lub grupach
Ograniczenie tendencji do skupiania punktów w środku

Węzeł t-SNE w programie SPSS Modeler został zaimplementowany w języku Python i wymaga biblioteki Python scikit-learn©. Aby uzyskać szczegółowe informacje o algorytmie t-SNE i bibliotece scikit-learn, patrz:

Karta Python na palecie węzłów zawiera ten i inne węzły Python. Węzeł t-SNE jest także dostępny na karcie Wykresy.

¹ Piśmiennictwo:

van der Maaten, L.J.P.; Hinton, G. „Visualizing High-Dimensional Data using t-SNE”. Journal of Machine Learning Research. 9:2579-2605, 2008.

van der Maaten, L.J.P. „t-Distributed Stochastic Neighbor Embedding”.

van der Maaten, L.J.P. „Accelerating t-SNE using Tree-Based Algorithms”. Journal of Machine Learning Research. 15(Oct):3221-3245, 2014.