Raccolta ottimale
La procedura Raccolta ottimale discretizza una o più variabili di scala (di seguito denominate variabili di input di raccolta) distribuendo i valori di ciascuna variabile nei bin. La formazione dei bin è ottimale rispetto a una variabile guida categoriale che "supervisiona" il processo di raccolta. I bin possono quindi essere utilizzati al posto dei valori dei dati originali per ulteriori analisi.
Esempi. Ridurre il numero di valori distinti che una variabile assume ha una serie di utilizzi, tra cui:
- Requisiti di dati di altre procedure. Le variabili discretizzate possono essere considerate categoriali per l'utilizzo in procedure che richiedono variabili categoriali. Ad esempio, la procedura Tabelle di contingenza richiede che tutte le variabili siano categoriali.
- Privacy dei dati. La creazione di report sui valori raccolti invece che sui valori effettivi può aiutare a salvaguardare la privacy delle origini dati. La procedura Raccolta ottimale può guidare la scelta dei bin.
- Velocizza le prestazioni. Alcune procedure sono più efficienti quando si lavora con un numero ridotto di valori distinti. Ad esempio, la velocità della regressione logistica multinomiale può essere migliorata utilizzando variabili discretizzate.
- Rilevamento della separazione completa o quasi completa dei dati.
Discretizzazione ottimale e visiva. Le finestre di dialogo Raccolta visiva offrono diversi metodi automatici per la creazione di bin senza l'utilizzo di una variabile guida. Queste regole "non supervisionate" sono utili per la produzione di statistiche descrittive, ad esempio le tabelle delle frequenze, ma la discretizzazione ottimale è superiore quando l'obiettivo finale è produrre un modello predittivo.
Output. La procedura produce tabelle di punti di divisione per i bin e statistiche descrittive per ciascuna variabile di input di raccolta. Inoltre, è possibile salvare nuove variabili nel dataset attivo contenente i valori raccolti delle variabili di input di raccolta e salvare le regole di raccolta come sintassi di comando da utilizzare nella discretizzazione di nuovi dati.
Considerazioni sui dati di raccolta ottimali
Dai dati. Questa procedura prevede che le variabili di input di raccolta siano variabili numeriche di scala. La variabile guida deve essere categoriale e può essere stringa o numerica.
Per ottenere una discretizzazione ottimale
- Dai menu, scegliere:
- Selezionare una o più variabili di input di raccolta.
- Selezionare una variabile guida.
Le variabili contenenti i valori dei dati raccolti non vengono generate per impostazione predefinita. Utilizzare la scheda Salva per salvare queste variabili.
Questa procedura incolla la sintassi del comando OPTIMAL BINNING .