版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
主
分
量
分
析9.1導言9.2協(xié)差陣法主分量分析9.3相關陣法主分量分析9.4采用Solutions菜單操作進行主分量分析上機報告上機目的
掌握主分量分析(PrincipalComponentAnalysis)的原理及SAS實現(xiàn)方法,學會用主分量處理并解釋多變量問題,注意樣本的強共線性特點。熟悉SAS的程序結(jié)構(gòu),理解過程、過程選項、語句、語句選項等概念。學以致用能解決實際問題。
上機內(nèi)容
①創(chuàng)建適合主分量分析的SAS數(shù)據(jù)表;②采用princomp過程進行基于協(xié)差陣或相關陣的主分量分析;③采用Solutionns菜單的系列操作進行基于協(xié)差陣或相關陣的主分量分析。
9.1導
言主分量分析的數(shù)學模型如下所示:其中
其中,F(xiàn)為p個主分量構(gòu)成的向量,X為p個原變量構(gòu)成的向量,V為原變量X的協(xié)差陣,R為原變量X的相關陣,
為主分量Fi的方差(協(xié)差陣或相關陣的特征根),U為協(xié)差陣或相關陣的特征向量陣,
為原變量Xi的方差。
主分量分析又稱主成分分析,它以較少數(shù)目的主分量替代過多的原變量去研究問題,特別適合多變量、被動觀測、共線性強的樣本。
獲得數(shù)據(jù)可描述為這樣一種過程:抽取N個樣品(試驗單元),選定若干個描述樣品性狀的數(shù)值型變量,分別測定N個樣品上這些選定變量的值。試驗樣本包括標識樣品的標簽變量(字符型)和描述樣品性狀的屬性變量(數(shù)值型)兩類數(shù)據(jù)。
主分量由屬性變量的線性組合構(gòu)成,常稱為潛在因子。為易于解釋問題,僅選取解釋能力足夠強(一般要求大于85%)的少數(shù)幾個主分量用于問題的分析。
主分量分析以屬性變量的協(xié)差陣或相關陣的特征向量作“權(quán)”將原變量構(gòu)建成主分量,以特征向量的分量比較說明主分量的因子結(jié)構(gòu),以特征根與特征根總和之比表征主分量解釋樣品屬性變異的能力,以樣品的主分量值(得分)排序評價樣品的特性。
按照特征向量陣的來源可分為協(xié)差陣主分量分析和相關陣主分量分析兩種方法。
9.2協(xié)差陣法主分量分析
【例9-1】某果樹所為比較18個葡萄品種(Variety)的枝條抗凍性,用重復抽樣檢測了各個品種在4℃(Z4)、-10℃(F10)、-15℃(F15)、-20℃(F20)、-25℃(F25)、
-30℃(F30)和-40℃(F40)上的電導指數(shù)(電導率
?100),結(jié)果如表9-1所示。試通過主分量分析比較葡萄品種的抗凍性,并選出綜合抗凍性較高的品種。
(1)將表9-1中所示電導指數(shù)樣本創(chuàng)建為SAS數(shù)據(jù)表sasuser.zhitiao備用。
(2)根據(jù)專業(yè)知識,電導指數(shù)愈大枝條抗凍性愈弱,反之抗凍性愈強。由于7個屬性變量均為電導指數(shù),不存在變量單位不同導致的不可比性,故用協(xié)差陣計算主分量。
(3)采用princomp過程進行主分量分析。過程選項data指定sasuser.zhitiao為分析對象。過程選項COV(COVARIANCE的簡寫)指定用協(xié)差陣計算主分量,缺省用相關陣。過程選項out指定輸出主分量得分表prin01table。過程選項standard指定標準化主分量得分。語句var指定構(gòu)成主分量的原始變量。SAS程序如下:
procprincompdata=sasuser.zhitiaoCOVout=prin01table
standard;
varZ4F10F15F20F25F30F40;
run;quit;
(4)程序輸出的主要結(jié)果整理后如表9-2~表9-6所示,其中Prin1、Prin2分別為第1主分量和第2主分量,是程序自動命名的,依次類推。
(5)?-15℃到?-25℃之間電導指數(shù)較大,4℃和?-30℃以下時較小,說明葡萄枝條抗凍性在?-15℃到?-25℃之間時差異較大,其余情況下較小,如表9-2所示。
(6)第1主分量Prin1和第2主分量Prin2的累積貢獻率(CumulativeProportion)達0.8314,其解釋原變量變異的能力達83.14%,接近85%(常用閾值),故主要以第1和第2主分量為尺度比較各個品種的抗凍性特點,其余可視作誤差,如表9-4所示。
(7)如表9-5所示,第1主分量的權(quán)(特征向量)在F15、F20、F25上較大且為正數(shù),其余為絕對值較小的正數(shù)(F10和F30)和負數(shù)(Z4和F40),-15℃到-25℃之間的電導指數(shù)愈大則第1主分量愈大,4℃和?-40℃時的電導率愈大則第1主分量愈小,故第1主分量可解釋為“低溫抗凍性”因子,其值愈小則低溫抗凍性愈強,第1主分量的計算公式如下:
Prin1?=?-?0.0086?
?Z4?+?0.2971?
?F10?+?0.5376?
?F15?+?0.6166?
?F20
?+?0.4591?
?F25?+?0.1582?
?F30?-?0.0811?
?F40
第2主分量的權(quán)(特征向量)在Z4、F10上較大且為正數(shù),其余為絕對值較小的正數(shù)(F30和F40)和負數(shù)(F15和F25),4℃和?-10℃時的電導指數(shù)愈大則第2主分量愈大,-15℃到
-25℃之間的電導指數(shù)愈大則第2主分量愈小,故第2主分量可解釋為“常溫抗凍性”因子,其值愈小則常溫抗凍性愈強,
第2主分量的計算公式如下:
Prin2?=?0.6029?
?Z4?+?0.6041?
?F10?-
0.2484?
?F15?+?0.0328?
?F20?-?0.1608?
?F25?
+?0.2565?
?F30?+?0.3423?
?F40
(8)將表9-6中的各個品種(Variety)按第1主分量的值(得分)排序,得到低溫抗凍性的品種分布。結(jié)果表明,具有較強低溫抗凍性的葡萄品種依次為RU140、貝達、1103P、5BB和SO4,具有較弱低溫抗凍性的葡萄品種依次為品麗珠、紅地球、早黑寶和巨峰。
(9)將表9-6中的各個品種(Variety)按第2主分量的值(得分)排序,得到常溫抗凍性的品種分布。結(jié)果表明,具有較強常溫抗凍性的葡萄品種依次為RU140、巨峰和早黑寶,具有較弱常溫抗凍性的葡萄品種依次為西拉和赤霞珠。
綜上,RU140在各個溫度段均具有較強的抗凍性,適于種植的區(qū)域較廣。貝達、1103P、5BB和SO4具有較強的低溫抗凍性,巨峰和早黑寶具有較強的常溫抗凍性。
9.3相關陣法主分量分析
【例9-2】為考察美國的治安狀況,在美國50個州中分別統(tǒng)計了謀殺(Murder)、搶劫(Robbery)、強奸(Rape)、暴力襲擊(Assault)、入室行竊(Burglary)、偷盜(Larceny)、盜車(Auto)等7類主要刑事案件的犯罪率(10-5),結(jié)果如表9-7所示。試通過主分量分析研究各洲的治安狀況、犯罪結(jié)構(gòu)和犯罪傾向,并按主分量對各州排序。
(1)將表9-7中除Prin1外的8列數(shù)據(jù)創(chuàng)建為SAS數(shù)據(jù)表sasuser.crime。
(2)采用princomp過程編寫主分量分析程序。主分量計算法缺省則進行相關陣主分量分析。sort過程的選項out=crime01指定輸出按第1主分量排序的數(shù)據(jù)表。sort過程的選項out=crime02指定輸出按第2主分量排序的數(shù)據(jù)表。幾個out選項創(chuàng)建的數(shù)據(jù)表均包括sasuser.crime的數(shù)據(jù)和7個主分量的得分。兩個gplot過程繪制的散點圖分別展示第2與第1主分量、第3與第1主分量間的關系。SAS程序如下:
procprincompdata=sasuser.crimeout=crime00;
varMurderRobberyRapeAssaultBurglaryLarcenyAuto;
run;
procsortdata=crime00out=crime01;
byPrin1;
run;
procsortdata=crime00out=crime02;
byPrin2;
run;
goptionsreset=allftext=swisshtext=2.15;
symbolv=starcv=blueh=2.15;
procgplotdata=crime00;
plotPrin2*Prin1/noframe;
run;
procgplotdata=crime00;
plotPrin3*Prin1/noframe;
run;quit;
(3)程序輸出的主要結(jié)果整理后如表9-8~表9-12所示。其中Prin1、Prin2分別為第1主分量和第2主分量,以此類推。(4)
50個州在謀殺、搶劫等重罪上的犯罪率差異較小,在入室行竊、盜竊等輕罪上的差異較大,其余犯罪率的差異居中,如表9-9所示。
(5)第1主分量Prin1的比率(貢獻率)達0.5879,解釋原變量變異的能力為58.79%,相比其余6個主分量解釋能力最強,所占近三分之二的比例。前3個主分量的累積比率達0.8685,解釋原變異的信息量超過85%,故用前3個主分量研究各州的犯罪狀況,且以第1主分量為主。其余主分量可視作觀測誤差。如表9-10所示。
(6)第1主分量的權(quán)(第1特征向量)均為正數(shù),且各權(quán)差異較小,故第1主分量可解釋為“總犯罪率”或“治安狀況”因子,其信息量占58.79%。如表9-11所示。
(7)第2主分量的權(quán)(第2特征向量)中絕對值較大的負權(quán)為-0.629174(Murder)和-0.343528(Assault),絕對值較大的正權(quán)為0.502421(Auto)和0.402319(Larceny),前者屬暴力犯罪,后者屬錢財犯罪,第2主分量的值依賴于錢財犯罪與暴力犯罪的比例,錢財犯罪率相比暴力犯罪率愈大,則主分量值愈大,反之愈小,故第2主分量可解釋為“犯罪結(jié)構(gòu)”或“犯罪傾向”因子,其信息量占17.70%。如表9-11所示。
(8)第3主分量的權(quán)(第3特征向量)中0.495861(Rape)、-0.539231(Larceny)和0.568384(Auto)的絕對值較大,其次是-0.244198(Robbery)和-0.209895(Burglary),強奸和盜車犯罪率愈大主分量值愈大,偷盜、入室行竊、搶劫犯罪率愈大主分量值愈小,故第3主分量可解釋為“輕罪形態(tài)”因子,其信息量占10.37%,如表9-11所示。
(9)從表9-7可看出,第1主分量值較小的三個州是NORTHDAKOTA、SOUTHDAKOTA和WESTVIRGINIA,說明這3個州的總犯罪率較低即治安狀況良好。第1主分量值較大的3個州是NEVADA、CALIFORNIA和NEWYORK,說明這3個州的總犯罪率較高即治安狀況較差。
(10)從表9-12可看出,第2主分量值較小的三個州是MISSISSIPPI、SOUTHCAROLINA和ALABAMA,說明這3個州暴力犯罪率較錢財犯罪率高,傾向于暴力犯罪。第2主分量值較大的3個州是HAWAII、RHODEISLAND和MASSACHUSETTS,說明這三個州錢財犯罪率較暴力犯罪率高,傾向于錢財犯罪。
(11)從圖9-1和圖9-2可看出,三個主分量幾乎沒有相關性,說明它們可各自獨立解釋或分析問題。
可利用第1、第2及第3主分量綜合研究各州的治安狀況、犯罪傾向和輕罪形態(tài),并結(jié)合社會的政治、文化及經(jīng)濟狀況的背景環(huán)境剖析犯罪原因。圖9-1第2主分量與第1主分量的關系圖9-2第3主分量與第1主分量的關系9.4采用Solutions菜單操作進行主分量分析
主分量分析亦可通過菜單和按鈕操作實現(xiàn)。主要操作步驟如下:
(1)選定菜單欄上的Solutions菜單,點擊【Solutions】→【Analysis】→【Analyst】菜單項,則出現(xiàn)尚未導入待分析SAS數(shù)據(jù)表的Analyst窗口,如圖9-3所示。圖9-3尚未導入SAS數(shù)據(jù)表的Analyst窗口
(2)點擊工具條上的“Open”按鈕,則出現(xiàn)打開窗口,如圖9-4所示。搜索SAS數(shù)據(jù)表crime.sas7bdat(SAS數(shù)據(jù)表在操作系統(tǒng)中顯示的存盤名)并點擊選定,則文件名框顯示選定的結(jié)果,核查無誤后點擊“打開”按鈕,則被選定的SAS數(shù)據(jù)表crime出現(xiàn)在Analyst窗口中,如圖9-5所示。圖9-4搜索文件的打開窗口圖9-5已導入SAS數(shù)據(jù)表crime的Analyst窗口
(3)選定Analyst窗口的菜單欄Statistics,點擊【Statistics】→【Multivariate】→【PrincipalComponents】菜單項,則出現(xiàn)PrincipalComponents:crime窗口。在該窗口的Remove按鈕的子窗口中選定描述樣品屬性的數(shù)值變量并點擊“Variables”按鈕,則這些
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 互聯(lián)網(wǎng)產(chǎn)品創(chuàng)新大賽方案
- 建筑行業(yè)審計項目實施方案
- 2024至2030年中國水泵件數(shù)據(jù)監(jiān)測研究報告
- 2024至2030年中國彩色花珠數(shù)據(jù)監(jiān)測研究報告
- 2024至2030年中國化纖商標行業(yè)投資前景及策略咨詢研究報告
- 2024至2030年中國低噪聲離心式通風機數(shù)據(jù)監(jiān)測研究報告
- 2024至2030年中國不銹鋼衛(wèi)生快裝三通行業(yè)投資前景及策略咨詢研究報告
- 2024年臺歷圈項目可行性研究報告
- (總結(jié))衛(wèi)生院醫(yī)聯(lián)體工作總結(jié)
- 車間安全培訓試題附完整答案(易錯題)
- 小學數(shù)學命題設計案例解析共60頁文檔課件
- 塑料袋的警告語(歐洲)
- 【圖文】計算機之父――圖靈
- UG軟件概述(課堂PPT)
- 制作新春燈籠
- 2016雕塑工程計價定額(共10頁)
- 液壓油缸項目建設用地申請報告(范文參考)
- 實驗室人員比對試驗結(jié)果小結(jié)與分析
- 七年級上冊歷史時間軸
- 個人壽險業(yè)務人員基本管理辦法(試行2012A版)
- 口風琴結(jié)題報告-復件(1)
評論
0/150
提交評論