Walidacja krzyżowa

Ten panel jest aktywowany tylko wówczas, gdy cel ma przewidzieć zmienną przewidywaną. Opcje dostępne na tym panelu kontrolują, czy podczas obliczania najbliższych sąsiadów stosowana jest walidacja krzyżowa.

Walidacja krzyżowa dzieli próbę na kilka podprób (krotności). Następnie generowane są modele najbliższego sąsiedztwa, wyłączając kolejno dane z każdej podpróby. Pierwszy model jest oparty na wszystkich obserwacjach z wyjątkiem tych w pierwszej krotności próby; drugi model jest oparty na wszystkich obserwacjach z wyjątkiem drugiej krotności próby itd. Dla każdego modelu szacowany jest błąd z zastosowaniem modelu na podpróbie wyłączonej podczas generowania modelu. „Najlepsza” liczba obserwacji najbliższego sąsiedztwa to ta, która powoduje najniższy błąd we wszystkich krotnościach.

Krotności walidacji krzyżowej. V-krotność walidacji krzyżowej jest używana do określenia „najlepszej” liczby obserwacji najbliższego sąsiedztwa. Nie jest dostępna w połączeniu z wyborem funkcji z powodów wydajności.

  • Losowo przydziel obserwacje do krotności. Określ liczbę krotności, które powinny być użyte do walidacji krzyżowej. Procedura losowo przypisuje obserwacje do krotności, ponumerowanych od 1 do V, liczby krotności.
  • Ustaw wartość początkową generatora liczb losowych. W przypadku szacowania dokładności modelu w oparciu o losową wartość procentową opcja ta pozwala na zduplikowanie tych samych wyników w innej sesji. Określenie wartości początkowej używanej przez generator liczb pseudolosowych zapewni, że podczas każdego wykonywania węzła przypisywane będą te same rekordy. Wprowadź żądaną wartość startową generatora. Jeśli nie wybrano tej opcji, przy każdej próbie wykonania węzła wygenerowana zostanie inna próba.
  • Użyj zmiennej przypisującej obserwacje do grup. Określ zmienną numeryczną, która przydziela każdą obserwację w aktywnym zbiorze danych do krotności. Zmienna musi być numeryczna i przyjmować wartości od 1 do V. Jeżeli brakuje jakiejkolwiek wartości z tego przedziału, spowoduje to błąd, podobnie jak wszelkie zmienne dzielące w przypadku stosowania modeli rozdzielonych.