第四講判別分析2017秋季_第1頁(yè)
第四講判別分析2017秋季_第2頁(yè)
第四講判別分析2017秋季_第3頁(yè)
第四講判別分析2017秋季_第4頁(yè)
第四講判別分析2017秋季_第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2023/1/161§6.1判別分析的概念§6.2Fisher線性判別§6.3距離判別§6.4Bayes判別

§6.5逐步判別

§6.6判別分析幾點(diǎn)說(shuō)明

第六章判別分析及R使用

提出的問(wèn)題分組判別變量信用評(píng)級(jí)風(fēng)險(xiǎn)等級(jí):高、低年齡、收入、貸款額、工作延續(xù)時(shí)間新產(chǎn)品的成功前景經(jīng)濟(jì)收益:盈利、虧損產(chǎn)品新穎度、市場(chǎng)信息、價(jià)格和技術(shù)選民分析共和黨、民主黨納稅、就業(yè)、醫(yī)療、裁軍等觀點(diǎn)挑選銷售人員業(yè)績(jī):好、壞教育、年齡、性格和身體特征§6.1判別分析的概念

Fisher判別法

距離判別法

Bayes判別法逐步判別法

……訓(xùn)練樣本訓(xùn)練集檢測(cè)樣本檢測(cè)集判別準(zhǔn)則判別效率學(xué)習(xí)檢測(cè)評(píng)價(jià)§6.2

Fisher線性判別法Fisher判別的基本思想將

m組n維的數(shù)據(jù)投影到某一個(gè)方向,使得投影后的組與組之間盡可能地分開。平面上兩類數(shù)據(jù)訓(xùn)練樣本的散點(diǎn)圖(兩組數(shù)據(jù)樣本在平面上存在一個(gè)合理的分界線L)x1x2L:c1x1+c2x2-c=0令:F(x1,x2)=c1x1+c2x2F(x1,x2):判別函數(shù)

c:判別值G1G2只有兩組的判別分析Discriminantanalysis已知:數(shù)據(jù)屬性有n個(gè),每個(gè)數(shù)據(jù)點(diǎn)為n維向量X:已知總體數(shù)據(jù)分為兩類:G1和G2

,總體G1有p個(gè)樣本點(diǎn),總體G2有q個(gè)樣本點(diǎn)。屬性(分量)12…n總體G1(i=1,…,p)1X1(1)x11(1)x12(1)…x1n(1)……………iXi(1)xi1(1)xi2(1)…xin(1)……………pXp(1)xp1(1)xp2(1)…xpn(1)總體G2(i=1,…,q)1X1(2)x11(2)x12(2)…x1n(2)……………iXi(2)xi1(2)xi2(2)…xin(2)……………qXq(2)xq1(2)xq2(2)…xqn(2)目標(biāo):求解在n維空間中總體G1和總體G2的最優(yōu)分界平面。定義線性判別函數(shù)為:其中Ci

(i=1,2,…,n)為常數(shù)(待定系數(shù))。若判別值為C

,對(duì)于任何未知數(shù)據(jù)點(diǎn)X(x1,x2,…,xn),代入判別函數(shù),依據(jù)F(x1,x2,…,xn)與C值的比較,可以判別點(diǎn)X屬于哪一類。1、確定待定系數(shù)Ci

(i=1,2,…,n)2、確定判別值C將類G1的p個(gè)點(diǎn)、類G2的q個(gè)點(diǎn)分別代入判別函數(shù):確定待定系數(shù)Ci令:A與G1和G2兩類點(diǎn)的幾何中心的距離相關(guān)。顯然,判別函數(shù)F(x1,x2,…,xn)應(yīng)該使A值越大越好。令:B與G1和G2兩類點(diǎn)的相對(duì)于各自幾何中心的離差相關(guān)。顯然,判別函數(shù)F(x1,x2,…,xn)應(yīng)該使B值越小越好。構(gòu)造函數(shù)I:選擇合適的待定系數(shù)Ci

(i=1,2,…,n),使得函數(shù)I(C1,C2,…,Cn)達(dá)到極大值。確定判別值C判別函數(shù)已知,不妨寫成:定理6.1:線性組合對(duì)所有可能的線性系數(shù)向量,使得目標(biāo)函數(shù)I達(dá)到最大(同書上P136)把兩類均值代入判別函數(shù)對(duì)G1、G2的(p+q)個(gè)點(diǎn)的判別函數(shù)值取總體的平均值:顯然,值是兩類點(diǎn)的判別函數(shù)值的加權(quán)平均,處于兩類判別函數(shù)平均值之間,也等價(jià)于兩類點(diǎn)的總體幾何中心的判別函數(shù)值。因此,將判別值C取為值:Fisher線性判別的應(yīng)用舉例x1x2樣本序號(hào)x1x2類別157124323782486253616251766189629542計(jì)算判別值:建立判別標(biāo)準(zhǔn)Discriminantanalysis例題6-1:2023/1/1621

目錄上頁(yè)下頁(yè)返回結(jié)束距離判別準(zhǔn)則:根據(jù)已知分類數(shù)據(jù),分別計(jì)算各類重心,對(duì)任給一次觀測(cè),若它與第i類重心距離最近,就認(rèn)為它來(lái)自第i類§6.3距離判別法設(shè)有兩個(gè)總體時(shí):(1)(2)線性判別二次判別馬氏距離

例1:在某市場(chǎng)抽取20種牌子的電視機(jī)中,5種暢銷,8種平銷,另外7種滯銷。按電視質(zhì)量評(píng)分Q、功能評(píng)分C和銷售價(jià)格P三項(xiàng)指標(biāo)衡量,銷售狀態(tài):1為暢銷,2為平銷,3為滯銷。據(jù)此建立判別函數(shù),并根據(jù)判別準(zhǔn)則進(jìn)行回判。思路:1分別計(jì)算各類中心

2每個(gè)點(diǎn)到各類中心的距離3判斷所屬類別

GQCP18.342919.57681853917.475018.86.555297.5582767529.28822876727.699027.28.58626.475327.35483622036.443936.854835.232935.83.53235.5434364.536(1)距離判別(等方差)>D=discrim.dist(cbind(Q,C,P),as.factor(G),var.equal=T)GD.1D.2D.3newG111.44536197.5375845.604014711212.26642803.8155728.039233481310.21805573.8471883.331682611414.21873734.9982266.773639461510.13875772.7727245.253125401621.20523214.1632697.9609768217211.51190445.0381597.063152392823.99712792.1602778.044317662921.91142800.1750653.3682683721028.50804341.6221537.9625378721128.82629081.6519346.9882428621227.68531995.4284756.7390380021321.71001951.6217081.35.84490487.5272691.5488366631533.45948452.7905510.2342536231632.59446451.3340760.5878743031737.05186695.3297900.3855494031834.62233493.8882820.0168555631935.61015153.9851090.5439903132033.93240033.2916920.798150673

辦公室新來(lái)了一個(gè)雇員小王,小王是好人還是壞人大家都在猜測(cè)。按人們主觀意識(shí),一個(gè)人是好人或壞人的概率均為0.5。壞人總是要做壞事,好人總是做好事,偶爾也會(huì)做一件壞事,一般好人做好事的概率為0.9,壞人做好事的概率為0.2,一天,小王做了一件好事,小王是好人的概率有多大,你現(xiàn)在把小王判為何種人。一、標(biāo)準(zhǔn)的Bayes判別§6.4貝葉斯判別法若有k個(gè)總體,樣本來(lái)自第k個(gè)總體的后驗(yàn)概率:當(dāng)?shù)趈個(gè)后驗(yàn)概率最大時(shí),就判定x來(lái)自第j個(gè)總體二、考慮錯(cuò)判損失的Bayes判別分析關(guān)鍵的問(wèn)題是尋找D1,D2,┅,Dk分劃,這個(gè)分劃應(yīng)該使平均錯(cuò)判率最小。

實(shí)際當(dāng)中計(jì)算損失函數(shù)不容易,則通常假定損失相同,于是就等價(jià)于尋找最大后驗(yàn)概率:實(shí)踐當(dāng)中并不是直接計(jì)算后驗(yàn)概率,而是計(jì)算一個(gè)簡(jiǎn)單判別函數(shù)即那個(gè)判別函數(shù)值大,就歸那一類。

例1:在某市場(chǎng)抽取20種牌子的電視機(jī)中,5種暢銷,8種平銷,另外7種滯銷。按電視質(zhì)量評(píng)分Q、功能評(píng)分C和銷售價(jià)格P三項(xiàng)指標(biāo)衡量,銷售狀態(tài):1為暢銷,2為平銷,3為滯銷。據(jù)此建立判別函數(shù),并根據(jù)判別準(zhǔn)則進(jìn)行回判。GQCP18.342919.57681853917.475018.86.555297.5582767529.28822876727.699027.28.58626.475327.35483622036.443936.854835.232935.83.53235.5434364.536(3)貝葉斯判別先驗(yàn)概率相等,取q1=q2=q3,此時(shí)判別函數(shù)等價(jià)于Fisher線性判別函數(shù)。先驗(yàn)概率不相等,假定q1=5/20,q2=8/20,q3=7/20>(ld2=lda(G~Q+C+P,prior=c(5,8,7)/20))Call:lda(G~Q+C+P,prior=c(5,8,7)/20)Priorprobabilitiesofgroups:1230.250.400.35Groupmeans:QCP18.4000005.90000048.20027.7125007.25000069.87535.9571433.71428634.000Coefficientsoflineardiscriminants:LD1LD2Q-0.811733960.88406311C-0.630905490.20134565P0.01579385-0.08775636Proportionoftrace:LD1LD20.74030.2597>Z2=predict(ld2)>cbind(G,Z2$x,Z2$class)GLD1LD211-0.14099842.582951755121-2.39183560.825366275131-0.37044521.641514840141-0.97148350.548448277151-1.71348911.246681993162

-2.45935981.3615711741720.3789617-2.200431689282-2.5581070-0.467096091292-1.1900285-0.4129720272102-1.7638874-2.3823023242112-1.1869165-2.4855749402122-0.1123680-0.59888392221320.33991320.23286339731432.84565610.93672257331531.55923460.02566821631630.7457802-0.20916815931733.0062824-0.35898953431832.25117080.00885206731932.2108260-0.33120676832031.52109390.0359848853>table(G,Z2$class)newGG123150021613007樣本原來(lái)屬于的類和后判別的類的表格§6.5

變量選擇和逐步判別變量的選擇是判別分析中的一個(gè)重要的問(wèn)題,變量選擇是否恰當(dāng),是判別分析效果有列的關(guān)鍵。如果在某個(gè)判別問(wèn)題中,將起最重要的變量忽略了,相應(yīng)的判別函數(shù)的效果一定不好。而另一方面,如果判別變量個(gè)數(shù)太多,計(jì)算量必然大,回影響估計(jì)的精度。特別當(dāng)引入了一些判別能力不強(qiáng)的變量時(shí),還會(huì)嚴(yán)重地影響判別的效果。

中小企業(yè)的破產(chǎn)模型為了研究中小企業(yè)的破產(chǎn)模型,首先選定了X1總負(fù)債率(現(xiàn)金收益/總負(fù)債),X2收益性指標(biāo)(純收入/總財(cái)產(chǎn)),X3短期支付能力(流動(dòng)資產(chǎn)/流動(dòng)負(fù)債)和X4生產(chǎn)效率性指標(biāo)(流動(dòng)資產(chǎn)/純銷售額)4個(gè)經(jīng)濟(jì)指標(biāo),對(duì)17個(gè)破產(chǎn)企業(yè)為“1”和21個(gè)正常運(yùn)行企業(yè)“2”進(jìn)行了調(diào)查,得資料如下。如果這些指標(biāo)是用來(lái)做判別分析和聚類分析的變量,他們之間沒有顯著性差異是不恰當(dāng)?shù)?,所以檢驗(yàn)所選擇的指標(biāo)在不同類型企業(yè)之間是否有顯著的差異。

x1,x2,x3,x4均為判別變量四個(gè)變量都參與判別分析:x1,x3為判別變量?jī)蓚€(gè)變量參與判別分析:

DependentVariable:x1(對(duì)X1進(jìn)行的檢驗(yàn))

SumofSourceDFSquaresMeanSquareFValuePr>F

Model10.874667910.8746679116.900.0002

Error361.863008400.05175023

CorrectedTotal372.73767632

X1在類間有顯著性差異。

DependentVariable:x2(對(duì)X2進(jìn)行的檢驗(yàn))

SumofSourceDFSquaresMeanSquareFValuePr>F

Model10.083120770.083120771.950.1710

Error361.533700280.04260279

CorrectedTotal371.61682105X2在類間沒有顯著性差異。DependentVariable:x3(對(duì)X3進(jìn)行的檢驗(yàn))

SumofSourceDFSquaresMeanSquareFValuePr>F

Model116.4695844316.4695844321.45<.0001

Error3627.640805040.76780014

CorrectedTotal3744.11038947X3在類間有顯著性差異。

DependentVariable:x4(對(duì)X4進(jìn)行的檢驗(yàn))

SumofSourceDFSquaresMeanSquareFValuePr>F

Model10.001126940.001126940.030.8643

Error361.369780950.03804947

CorrectedTotal371.37090789X4在類間沒有顯著性差異。逐步判別法采用有進(jìn)有出的算法,即每一步都進(jìn)行檢驗(yàn)。首先,將判別能力最強(qiáng)的變量引進(jìn)判別函數(shù),而對(duì)較早進(jìn)入判別函數(shù)的變量,隨著其他變量的進(jìn)入,其顯著性可能發(fā)生變化,如果其判別能力不強(qiáng)了,則刪除。向前選入開始時(shí)模型中沒有變量。每一步,Wilks的統(tǒng)計(jì)量最小者,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論