隨機森林節點建置選項

使用「建置選項」標籤可以指定「隨機森林」節點的建置選項,包括基本選項進階選項。如需這些選項的相關資訊,請參閱https://scikit-learn.org/stable/modules/ensemble.html#forest

基本

要建置的樹狀結構數。選取森林中的樹狀結構數。

指定深度上限。如果未選取,則會展開節點,直到所有葉節點都是純節點,或直到所有葉節點包含的樣本數都少於 min_samples_split

深度上限。樹狀結構的深度上限。

葉節點大小下限。葉節點中需要的樣本數下限。

用於分割的功能數。 尋找最佳分割時要考量的功能數:
  • 如果是 auto,則分類器為 max_features=sqrt(n_features),迴歸為 max_features=n_features
  • 如果是 sqrt,則為 max_features=sqrt(n_features)
  • 如果是 log2,則為 max_features=log2(n_features)

進階

建置樹狀結構時使用重複取樣樣本。如果已選取,則建置樹狀結構時會使用重複取樣樣本。

使用 out-of-bag 樣本估計一般化精確度。如果已選取,會使用 out-of-bag 樣本來估計一般化精確度。

使用極其隨機化的樹狀結構。如果已選取,會使用極其隨機化的樹狀結構而非一般隨機森林。在極其隨機化的樹狀結構中,隨機性會在分割計算過程中更進一步。就像在隨機森林中一樣,會使用候選功能的隨機子集,但不會尋找最具區別性的臨界值,而是針對每一個候選功能隨機繪製臨界值,且會選取這些隨機產生的臨界值中的最佳臨界值作為分割規則。這樣通常會讓模型變異數減少一點,而代價是偏移略有增加。1

複製結果。 如果已選取,則會抄寫模型建置程序來達到相同的評分結果。

隨機種子。 您可以按一下產生來產生亂數產生器所使用的種子。

超參數最佳化(基於 Rbfopt)。選取此選項可基於 Rbfopt 啟用「超參數最佳化」,這會自動探索最佳參數組合,以便模型在樣本上達到預期或更低的誤差率。如需 Rbfopt 的相關詳細資料,請參閱 http://rbfopt.readthedocs.io/en/latest/rbfopt_settings.html

目標。 您要達到的目標函數值(樣本上的模型誤差率)(即不明最佳效果的值)。設為可接受的值,例如,0.01

最大疊代數。用來試驗模型的最大疊代數。預設值為 1000

最大評估數。在精確模式中用於嘗試模型的最大函數評估數。預設值為 300

下表顯示了 SPSS® Modeler「隨機森林」節點對話框中的設定與 Python「隨機森林」程式庫參數之間的關係。
表 1. 對映至 Python 程式庫參數的節點內容
SPSS Modeler 設定 Script 名稱(內容名稱) 隨機森林參數
目標 target
預測 inputs
要建置的樹狀結構數 n_estimators n_estimators
指定深度上限 specify_max_depth specify_max_depth
深度上限 max_depth max_depth
葉節點大小下限 min_samples_leaf min_samples_leaf
用於分割的功能數 max_features max_features
建置樹狀結構時使用重複取樣樣本 bootstrap bootstrap
使用 out-of-bag 樣本估計一般化精確度 oob_score oob_score
使用極其隨機化的樹狀結構 extreme
抄寫結果 use_random_seed
隨機種子 random_seed random_seed
超參數最佳化(基於 Rbfopt) enable_hpo
目標(針對 HPO) target_objval
最大疊代數(針對 HPO) max_iterations
最大評估數(針對 HPO) max_evaluations

1L. Breiman, "Random Forests," Machine Learning, 45(1), 5-32, 2001.