Clementine12理论基础(全) 联系客服

发布时间 : 星期一 文章Clementine12理论基础(全)更新完毕开始阅读4453ac95ad51f01dc281f187

二、 Quick Unbiased Efficient Statistical Tree (QUEST決策樹

模型)

? 決策樹(Decision Tree)模型

決策樹(Decision Tree)模型,也稱規則推理模型,其為通過對訓練樣本的學習,建立分類規則;依據分類規則,實現對新樣本的分類。

屬於有指導(監督)式的學習方法,包含有兩類變數:目標變數(輸出變數)以及屬性變數(輸入變數)。

決策樹模型與一般統計分類模型的主要區別有二:

(a) 決策樹的分類是基於邏輯的,一般統計分類模型是基於非邏輯的。 (b) 基於邏輯是指通過對屬性變數值的布林比較來實現分類判斷。 決策樹模型的特點優勢:

(a) 推理過程容易理解,決策推理過程可以表示成if、then的形式。 (b) 推理過程完全依據屬性變數的取值特點。

(c) 可自動忽略對目標變數沒有貢獻的屬性變數,也為判斷屬性變數的重要

性,減少變數數目提供參考。 決策樹模型的主要演算法包含下列四種:

(a) C&RT (b) C5.0

(c) CHAID (d) QUEST

? QUEST(Quick Unbiased Efficient Statistical Tree)演算法

它是 Loh和Shih1997年提出的建立決策樹的一種二元分類方法。QUEST演算法也主要涉及分支變數和分割值的確定問題,但它將分支變數選擇和分割點選擇以不同的策略進行處理。而它的運算過程比C&R更簡單有效。

執行QUEST有下列幾項要求:

(a) 屬性變數(輸入變數)分類型變數、數值型變數;

(b) 目標變數(輸出變數)必須是二值分類型變數(如果是多值的轉化成二值的),建立二叉樹;

(c) 模型中涉及到的順序變數必須存儲為數值型; (d) 該模型中不可以應用權數變數 。

QUEST的分類規則,假設目標變數為連續型變數,則使用統計上的ANOVA-F檢定;假設目標變數為類別型變數,則使用統計上的卡方檢定。分支準則為選擇p-value最小且小於顯著性水準?的屬性變數作為當前的最佳分支變數。若最小的p-value尚未小於顯著性水準?,在ANOVA-F檢定中,意味著在?水準下目標變數不同分類下屬性變數的平均值不存在顯著。此時,應利用Levene’F檢驗其方差。選擇方差齊性最不顯著的變數可作為當前的分支變數。否則,該樹節點無法再分支。

當目標變數為連續型變數時,如果目標變數有兩個以上的分類水準,則應首先將其合併為兩個分類(目標變數的預先處理)。首先,分別計算目標變數不同分類下當前分支變數的平均值;如果各平均值沒有顯著差異,則將權重最大(該組包含的樣本個數最多)組所對應的屬性變數值作為一組,其餘為另一組。如果各平均值存在顯著差異,則利用2-Means分類將樣本分成2類(初始類中心為兩個極均值),從而使將目標變數值合併成兩類(多分類問題轉換為二分類問題)。

當目標變數為類別型變數時,先將類別分支變數轉化為定矩變數,?。首先,將該分支變數轉換為啞變數組,依據目標變數建立若干個判別函數,並取第一個典型判別函數(特徵根最大);其次,計算各樣本在第一個判別函數座標上的值,作為?值;最後再依據前述連續行分支變數的方法處理。

三、 CHAID

什麼是CHAID?

CHAID全名為卡方自動互動檢視法,該方法在資料分析時,常會遇到變數之間不僅具有相關關係,而且具有交互影響關係,當兩個或是兩個以上變數間存在交互影響現象時,某一變數數值之改變所引起之反應,將受其他變數數值大小

之影響。

CHAID會防止資料被過度套用並讓決策樹停止繼續分割,依據的衡量標準是計算節點中類別的P值大小,以此決定決策樹是否繼續分割,所以不需要作樹剪枝。 CHAID的流程

? 針對每一變數計算其所有可能把原樣本區隔為二的區隔方式,以找出一個最

佳區隔方式。

? 比較各預測變數在”最佳分割方式”下的組間變異,然後找出一個組間變異最

大的變數,即為最佳的預測變數。

? 用最佳預測變數的最佳分割方式把原始資料區隔成兩組。

? 將分割後兩組樣本的每一組是唯一原始樣本,根據上述步驟,進行分割工作。 ? 重複上述步驟,直到找到最佳分割為止

四、 Decision List

Decision List是一種限制形態的邏輯表示法。決策串列由一系列測試所組成,其中每一項都是文字的聯結。