判別分析明明_第1頁
判別分析明明_第2頁
判別分析明明_第3頁
判別分析明明_第4頁
判別分析明明_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組判別分析判別分析 discriminant 報告人:解明明報告人:解明明指導教師指導教師:謝邦昌謝邦昌日期:日期:2007年年11月月統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組主要內容主要內容判別分析介紹判別分析介紹fisher判別判別bayes判別判別逐步判別逐步判別案例分析案例分析統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組判別分析介紹判別分析介紹 判別分析是指對分類因變量的建模,依據(jù)是因變量與一個或多個解釋變量的關系。 主要目的是識別一

2、個個體所屬的類別。統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組模型的假設模型的假設 判別分析模型有如下的假設: l如果假設滿足,尤其是在樣本量比較小的情況下,clementine能給出更好的結果。 解釋變量間不存在多重共線性。解釋變量間不存在多重共線性。 對于一個解釋變量其均值和方差不相關。對于一個解釋變量其均值和方差不相關。 在不同組間兩個變量的相關系數(shù)是不變的。在不同組間兩個變量的相關系數(shù)是不變的。 每一個解釋變量的值服從正態(tài)分布。每一個解釋變量的值服從正態(tài)分布。統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組fisher

3、判別-4-20246-4-3-2-10123fisher判別的思想是投影,將k組p維數(shù)投影到某一個方向,使得他們的投影組與組之間盡可能的分開。統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組bayes判別bayes判別的統(tǒng)計思想是:假定對研究的對象已有一定的認識,常用先驗概率分布來描述這種認識,然后我們取得一個樣本,用樣本來修正已有的知識(先驗概率分布),得到后驗概率分布,各種統(tǒng)計推斷都通過后驗概率分布來進行。將這種思想用于判別分析,就得到貝頁斯判別。統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組案例分析 假設有一個電信供應商已

4、經(jīng)根據(jù)客戶業(yè)假設有一個電信供應商已經(jīng)根據(jù)客戶業(yè)務的使用情況將他們分為了四個組別。務的使用情況將他們分為了四個組別。如果人口統(tǒng)計學數(shù)據(jù)可以用來預測客戶如果人口統(tǒng)計學數(shù)據(jù)可以用來預測客戶的組別的話,我們就可以為潛在的客戶的組別的話,我們就可以為潛在的客戶定制用戶化的服務。定制用戶化的服務。統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組 這四個組別分別為這四個組別分別為:統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組 雙擊來源選項板(雙擊來源選項板(sourcessources)中的)中的spssspss節(jié)節(jié)點,數(shù)據(jù)流區(qū)域即可出現(xiàn)點

5、,數(shù)據(jù)流區(qū)域即可出現(xiàn)spssspss節(jié)點節(jié)點。統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組 數(shù)據(jù)流區(qū)域(數(shù)據(jù)流區(qū)域(stream canvasstream canvas)中雙擊)中雙擊spssspss節(jié)點,在節(jié)點,在import file import file 中選擇我們中選擇我們所要分析的數(shù)據(jù)。所要分析的數(shù)據(jù)。統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組 在收藏夾(favorites)選項板或字段操作選項板(field ops)中雙擊類型(type)節(jié)點,來檢查是否所有的變量的類型都被正確的定義。統(tǒng)計分析、數(shù)據(jù)挖掘與商

6、業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組 由于由于custcatcustcat是我們要預測的變量,在方是我們要預測的變量,在方向(向(directiondirection)里我們選為輸出()里我們選為輸出(outout)統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組 由于本案例關注的是人口統(tǒng)計學變量,所以我們增加一個過濾(filter)節(jié)點,單擊annotations將其重命名。統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組 根據(jù)分析目的,我們只選擇region, age, marital, address,

7、 income, ed, employ, retire, gender, reside和 custcat這幾個變量。統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組 從模型選項(modeling)加入判別分析(dicriminant)的節(jié)點。并在annotations中改名為“判別分析”。統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組 在判別分析中點模型鍵(model),并在方法(method)中選逐步判別(stepwise)。統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組 在專家(expert

8、)鍵中,選擇expert,單擊輸出(output),選擇如左圖所示的選項。統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組 選擇執(zhí)行(選擇執(zhí)行(executeexecute)后,在右上角點)后,在右上角點models,models,雙擊雙擊custatcustat,在數(shù)據(jù)流區(qū)域變出,在數(shù)據(jù)流區(qū)域變出現(xiàn)改節(jié)點,雙擊改節(jié)點便可以查看結果?,F(xiàn)改節(jié)點,雙擊改節(jié)點便可以查看結果。統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組 這張表格展示了逐步判別中每次進入分析的變量,可見最后模型只選擇了3個變量。統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組

9、統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組 逐步判別可以自動幫我們選擇變量。但逐步判別可以自動幫我們選擇變量。但是如果我們對于數(shù)據(jù)有一定的經(jīng)驗知道是如果我們對于數(shù)據(jù)有一定的經(jīng)驗知道哪些變量是重要的,選擇逐步判別就是哪些變量是重要的,選擇逐步判別就是很不明智的,因為這樣選出來的變量可很不明智的,因為這樣選出來的變量可能除了統(tǒng)計意義外,沒有任何的實際意能除了統(tǒng)計意義外,沒有任何的實際意義。義。統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組由右邊第一張表可見前兩個線性判別函數(shù)可以解釋大部分的變異第二張表是四個組標準化后均值的位置。統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組 右表為標右表為標準化的典準化的典型判別函型判別函數(shù)的系數(shù)。數(shù)的系數(shù)。統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組 右圖是右圖是輸出的輸出的領域圖。領域圖。它給出它給出了預測了預測變量和變量和組別間組別間的關系。的關系。統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能應用研究小組統(tǒng)計分析、數(shù)據(jù)挖掘與商業(yè)智能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論