Clementine12理论基础(全) 南京廖华

Clementine12理论基础(全) 联系客服

发布时间 : 2024/6/3 20:00:24 星期一文章Clementine12理论基础(全)更新完毕开始阅读4453ac95ad51f01dc281f187

二、 Quick Unbiased Efficient Statistical Tree （QUEST決策樹

模型）

? 決策樹(Decision Tree)模型

決策樹(Decision Tree)模型，也稱規則推理模型，其為通過對訓練樣本的學習，建立分類規則；依據分類規則，實現對新樣本的分類。

屬於有指導(監督)式的學習方法，包含有兩類變數：目標變數(輸出變數)以及屬性變數(輸入變數)。

決策樹模型與一般統計分類模型的主要區別有二：

(a) 決策樹的分類是基於邏輯的，一般統計分類模型是基於非邏輯的。 (b) 基於邏輯是指通過對屬性變數值的布林比較來實現分類判斷。決策樹模型的特點優勢：

(a) 推理過程容易理解，決策推理過程可以表示成if、then的形式。 (b) 推理過程完全依據屬性變數的取值特點。

性，減少變數數目提供參考。決策樹模型的主要演算法包含下列四種：

(a) C&RT (b) C5.0

? QUEST（Quick Unbiased Efficient Statistical Tree）演算法

它是 Loh和Shih1997年提出的建立決策樹的一種二元分類方法。QUEST演算法也主要涉及分支變數和分割值的確定問題，但它將分支變數選擇和分割點選擇以不同的策略進行處理。而它的運算過程比C＆R更簡單有效。

執行QUEST有下列幾項要求：

(a) 屬性變數（輸入變數）分類型變數、數值型變數；

(b) 目標變數（輸出變數）必須是二值分類型變數(如果是多值的轉化成二值的),建立二叉樹；

QUEST的分類規則，假設目標變數為連續型變數，則使用統計上的ANOVA-F檢定；假設目標變數為類別型變數，則使用統計上的卡方檢定。分支準則為選擇p-value最小且小於顯著性水準?的屬性變數作為當前的最佳分支變數。若最小的p-value尚未小於顯著性水準?，在ANOVA-F檢定中，意味著在?水準下目標變數不同分類下屬性變數的平均值不存在顯著。此時，應利用Levene’F檢驗其方差。選擇方差齊性最不顯著的變數可作為當前的分支變數。否則，該樹節點無法再分支。

當目標變數為連續型變數時，如果目標變數有兩個以上的分類水準，則應首先將其合併為兩個分類（目標變數的預先處理）。首先，分別計算目標變數不同分類下當前分支變數的平均值；如果各平均值沒有顯著差異，則將權重最大（該組包含的樣本個數最多）組所對應的屬性變數值作為一組，其餘為另一組。如果各平均值存在顯著差異，則利用2-Means分類將樣本分成2類（初始類中心為兩個極均值），從而使將目標變數值合併成兩類（多分類問題轉換為二分類問題）。

當目標變數為類別型變數時，先將類別分支變數轉化為定矩變數，?。首先，將該分支變數轉換為啞變數組，依據目標變數建立若干個判別函數，並取第一個典型判別函數（特徵根最大）；其次，計算各樣本在第一個判別函數座標上的值，作為?值；最後再依據前述連續行分支變數的方法處理。

三、 CHAID

什麼是CHAID?

CHAID全名為卡方自動互動檢視法，該方法在資料分析時，常會遇到變數之間不僅具有相關關係，而且具有交互影響關係，當兩個或是兩個以上變數間存在交互影響現象時，某一變數數值之改變所引起之反應，將受其他變數數值大小

之影響。

CHAID會防止資料被過度套用並讓決策樹停止繼續分割，依據的衡量標準是計算節點中類別的P值大小，以此決定決策樹是否繼續分割，所以不需要作樹剪枝。 CHAID的流程

? 針對每一變數計算其所有可能把原樣本區隔為二的區隔方式，以找出一個最

佳區隔方式。

? 比較各預測變數在”最佳分割方式”下的組間變異，然後找出一個組間變異最

大的變數，即為最佳的預測變數。

? 用最佳預測變數的最佳分割方式把原始資料區隔成兩組。

? 將分割後兩組樣本的每一組是唯一原始樣本，根據上述步驟，進行分割工作。 ? 重複上述步驟，直到找到最佳分割為止

四、 Decision List

Decision List是一種限制形態的邏輯表示法。決策串列由一系列測試所組成，其中每一項都是文字的聯結。

Word文档下载：Clementine12理论基础(全).doc

搜索更多:Clementine12理论基础(全)