Clementine12理论基础(全) 联系客服

发布时间 : 星期三 文章Clementine12理论基础(全)更新完毕开始阅读4453ac95ad51f01dc281f187

壹、 Automated

一、 Binary Classifier(二元分類)

二元分類就是針對二元因變數例如:預測心臟病患是否再次發作;預測考生是否考上大學;預測顧客是否為公司潛在顧客;預測員工是/否為未來可能離職;預測一個企業是否有財務危機等。

應用於二元分類的方法有以下四種:

1. 神經網路:類比人腦處理資訊的原理,將輸入變數不斷進行分解與組合從而最終與目標變數(二元變數)產生關係。

2. 決策樹:自上而下的建立樹形的分類從而對目標變數嘗試最優的分割。每個節點根據二叉或者多叉的不同又可以分為幾種方法。

3. 羅吉斯回歸:根據輸入變數和目標變數樣本資料建立起回歸模型來達到預測目標變數的目的。

4. 決策表:根據樣本值建立決策的邏輯運算式,同時也可以根據直觀的認識修改邏輯運算式中的參數。

Clementine可透過五種不同的方法來選擇好的模型:

1. Overall accuracy:利用模型進行準確預測出的記錄數占全部記錄的百分比。

2. Area under the ROC curve:ROC曲線下方的面積。 3. Profit:總收益 4. Lift:提升度

5. Number of variables:所用變數個數

二、 Numeric Predictor (數值預測)

當我們在配適模型時,可將變數分為目標變數(應變數)以及預測變數(自變數),而根據目標變數與預測變數的資料類型不同,能適用的模型種類也就隨之而改變。舉例來說,針對目標變數而言,可將其分為數值型態以及二元類型的資料,其中線性迴歸分析(Linear Regression Analysis)就只能適用於目標變數為數值類型的資料,相反地,羅吉斯迴歸(Logistic Regression Analysis)則是用來處理目標變數為二元類型的資料。

假設資料中有一個目標變數、k個預測變數,而配適模型如下:

y??0??1x1??2x2??????kxk

那麼只要是目標變數(y)為數值型態的資料,就可以使用Clementine 12.0所提供的Numeric Predictor Node去比較所有適用的模型中各方面的表現能力

為何。因此Numeric Predictor Node即是針對目標變數為數值類型的資料,來估計與比較不同的模型下所建立出來的模型其預測能力如何。

Clementine 12.0在目標變數為數值類型所支援的模型有:Neural Net、Classification and Regression (C&R) Tree、CHAID 、Linear regression、generalized linear model以及Support Vector Machine (SVM)。

三、 Time Series(時間序列)

時間序列是指隨時間順序出現之一連串觀測值數列,日常生活中所熟悉的數值資料絕大部份皆為隨時間連續觀察所得有順序的觀測值數列集合。如失業率,股價,工廠生產線每日產能,季度GNP,及每月某廠牌之化妝品銷售量..等。

時間序列分析的目的為對數列未來趨勢作預測(Forecasting)透析數列的各種趨勢,如主要趨勢成份(Trend Components)、季節變化成份(Seasonal Components)。對理論性模式與數據進行適合度檢定,以討論模式是否能正確地表示所觀測之現象,如一些常見的經濟模式。

時間序列分析的假設前提數列為平穩型(stationary),或者是透過某些的方

法使其平穩,最常用的方法是對資料差分(differencing),實務分析時經常以數列走勢圖形及一些統計檢定量對數列的基本性質做初步的判斷。

時間序列模型

yt??0xt??1xt?1??2xt?2?.....??jxt?j?...

?

其中 稱為記憶函數(memory function),而 所代表的意義即為xt?j對yt的影響程度。 ?

?0,?1,...,?j,...?jxtyt?當一個系統輸入 後, 的產生是以記憶函數 作為權數建立如上式之關係。

平穩型時間序列基本模型有以下三種

Udny Yule 發展了一套對平穩型數列非常有用的模型 I.

自我迴歸模型 (Autoregressive Model, AR)

Zt?c?at??1zt?1?...??pzt?p ? 一階自我迴歸模型,AR(1)

Zt??zt?1?at

就像是一條迴歸線 Zt-1 是自變數,Zt 是應變數 。