多元統(tǒng)計分析方法概述_第1頁
多元統(tǒng)計分析方法概述_第2頁
多元統(tǒng)計分析方法概述_第3頁
多元統(tǒng)計分析方法概述_第4頁
多元統(tǒng)計分析方法概述_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、多元統(tǒng)計分析方法概述目 錄引言第四頁多元線性回歸方法原理簡介第四頁多元線性回歸案例敘述分析第四頁多元線性回歸分析方法在社會的應(yīng)用第八頁聚類分析方法原理簡介第八頁聚類分析案例敘述分析第八頁聚類分析方法在社會的應(yīng)用第十頁主成份分析方法原理簡介第十頁主成份分析案例敘述分析第十一頁主成份分析方法在社會的應(yīng)用第十四頁因子分析方法原理簡述第十四頁因子分析案例敘述分析第十四頁因子分析方法在社會的應(yīng)用第十七頁偏最小二乘回歸分析方法原理簡介第十八頁偏最小二乘回歸分析案例敘述分析第十九頁偏最小二乘回歸分析方法在社會的應(yīng)用第二十一頁總結(jié)第二十一頁參考文獻(xiàn)第二十二頁謝辭第二十三頁摘 要本文主要概述了多元統(tǒng)計分析的各個

2、方法,然后在后面介紹了多元統(tǒng)計分析方法在社會生活等方面的實際案例以及分析。并由案例分析找出各個統(tǒng)計分析方法的對應(yīng)使用領(lǐng)域。關(guān) 鍵 詞多元統(tǒng)計分方法 回歸分析 聚類分析 因子分析 主成份分析 偏最小二乘回歸分析 因素 股市 模型 財務(wù) SummaryThe Chemometrics includes chemical experimental design and optimization (such as orthogonal design, simplex method and variance analysis), chemical pattern recognition (such as

3、 clusters, PCA, k-nearest neighbour analysis, SIMCA and ANN), multi-variance calibration (such as MLR, CLS, PCR and PLS) and spectrum analysis (Such as ITTFA, EFA and FSWEFA), signal processing (such as filtering, smoothing, derivation and convolution).keywordmultivariate statistical analysis method

4、 regression analysis cluster analysis factor analysis principal component analysis linear least squares estimate complication equity market model finance一、 引言多元統(tǒng)計分析的基本方法。多元統(tǒng)計分析是數(shù)理統(tǒng)計學(xué)30 多年來迅速發(fā)展起來的一個分支隨著計算機的普及,各種統(tǒng)計軟件不斷推出,多元統(tǒng)計分析方法已廣泛應(yīng)用到教育管理的各個領(lǐng)域。多元統(tǒng)計分析是運用數(shù)理統(tǒng)計的方法來研究多變量問題的理論和方法,它是一元統(tǒng)計學(xué)的推廣在許多教育問題中,教育現(xiàn)象涉及到

5、的變量不是一個,而是多個變量,且這些變量間又存在一定的聯(lián)系,需要處理多個變量的觀測數(shù)據(jù),如果用一元統(tǒng)計方法就要對多方面分別進(jìn)行分析,而一次分析一個方面,同時忽視了各方面之間存在的相關(guān)性,這樣會丟失很多信息,分析的結(jié)果不能客觀全面地反映情況。多元統(tǒng)計分析方法主要包括線性回歸分析方法、判別分析方法、聚類分析方法、主成份分析方法、因子分析方法、對應(yīng)分析方法、典型相關(guān)分析方法以及片最小二乘回歸分析方法等。在這里我們主要針對了最常用的回歸分析方法、聚類分析方法、主成份分析方法、因子分析方法以及偏最小二乘回歸分析方法結(jié)合實際案例進(jìn)行分析總結(jié)。最終總結(jié)出各個方法所使用的領(lǐng)域。二、 多元線性回歸分析方法(一)

6、 多元線性回歸分析方法原理簡介根據(jù)相關(guān)性的大小把變量分組,使得同組內(nèi)的變量之間的相關(guān)性較高,但不同組的變量相關(guān)性較低各個因子間互不相關(guān),所有變量都可以表示成公因子的線性組合。因子分析的目的就是減少變量的數(shù)目,用少數(shù)因子代替所有變量去分析整個問題。(二) 多元線性回歸案例敘述分析公路客貨運輸量多元線性回歸預(yù)測方法探討1.背景 公路客、貨運輸量的定量預(yù)測,近幾年來在我國公路運輸領(lǐng)域大面積廣泛地開展起來,并有效的促進(jìn)了公路運輸經(jīng)營決策的科學(xué)化和現(xiàn)代化。 關(guān)于公路客、貨運輸量的定量預(yù)測方法很多,本文主要介紹多元線性回歸方法在公路客貨運輸量預(yù)測中的具體操作。根據(jù)筆者先后參加的部、省、市的科研課題的實踐,

7、證明了多元線性回歸方法是對公路客、貨運輸量預(yù)測的一種置信度較高的有效方法。 2.多元線性回歸預(yù)測 線性回歸分析法是以相關(guān)性原理為基礎(chǔ)的相關(guān)性原理是預(yù)測學(xué)中的基本原理之一。由于公路客、貨運輸量受社會經(jīng)濟有關(guān)因素的綜合影響。所以,多元線性回歸預(yù)測首先是建立公路客、貨運輸量與其有關(guān)影響因素之間線性關(guān)系的數(shù)學(xué)模型。然后通過對各影響因素未來值的預(yù)測推算出公路客貨運輸量的預(yù)測值。 3.公路客、貨運輸量多元線性回歸預(yù)測方法的實施步驟: 影響因素的確定 影響公路客貨運輸量的因素很多,主要包括以下一些因素: (1)客運量影響因素 人口增長量褲保有量、國民生產(chǎn)總值、國民收入工農(nóng)業(yè)總產(chǎn)值,基本建設(shè)投資額城鄉(xiāng)居民儲蓄

8、額鐵路和水運客運量等。 (2)貨運量影響因素人口貨車保有量(包括拖拉機),國民生產(chǎn)總值,國民收入、工農(nóng)業(yè)總產(chǎn)值,基本建設(shè)投資額,主要工農(nóng)業(yè)產(chǎn)品產(chǎn)量,社會商品購買力,社會商品零售總額鐵路和水運貨運量等。上述影響因素僅是對一般而言,在針對具體研究對象時會有所增減。因此,在建立模型時只須列入重要的影響因素,對于非重要因素可不列入模型中。若疏漏了某些重要的影響因素,則會造成預(yù)測結(jié)果的失真。另外,影響因素太少會造成模型的敏感性太強反之,若將非重要影響因素列入模型,則會增加計算工作量,使模型的建立復(fù)雜化并增大隨機誤差。 影響因素的選擇是建立預(yù)測模型首要的關(guān)鍵環(huán)節(jié),可采取定性和定量相結(jié)合的方法進(jìn)行影響因素的

9、確定可以通過專家調(diào)查法,其目的是為了充分發(fā)揮專家的聰明才智和經(jīng)驗。具體做法就是通過對長期從事該地區(qū)公路運輸企業(yè)和運輸管理部門的領(lǐng)導(dǎo)干部、專家、工作人員和行家進(jìn)行調(diào)查??赏ㄟ^組織召開座談會也可以通過采訪,填寫調(diào)查表等方法進(jìn)行,從中選出主要影響因素為了避免影響因素確定的隨意性,提高回歸模型的精度和減少預(yù)測工作量,可通過查閱有關(guān)統(tǒng)計資料后,再對各影響因素進(jìn)行相關(guān)度(或關(guān)聯(lián)度)和共線性分析,從而再次篩選出最主要的影響因素所謂相關(guān)度分析就是將各影響因素的時間序列與公路客貨運量的時間序列做相關(guān)分杯事先確定個相關(guān)系數(shù),對相關(guān)系數(shù)小于的影響因素進(jìn)行淘汰關(guān)聯(lián)度是灰色系統(tǒng)理論中反映事物發(fā)展變化過程中各因素之間的關(guān)

10、聯(lián)程度,可通過建空公路客、貨運量與各影響影響因素之間關(guān)聯(lián)系數(shù)矩陣,按一定的標(biāo)準(zhǔn)系數(shù)舍去關(guān)聯(lián)度小的影響因素所謂共線性是指某些影響因素之問存在著線性關(guān)系或接近于線性關(guān)系由于公路運輸經(jīng)濟自身的特點,影響公路客,貨運輸量的諸多因素之問總是存在著一定的相關(guān)性,持別是與國民經(jīng)濟有關(guān)的一些價值型指標(biāo)。 4.建立經(jīng)驗線性回歸方程利用最小二乘法原理尋求使誤差平方和達(dá)到撮小的經(jīng)驗線性回歸方程: y預(yù)測的客、貨運量 g各主要影響因數(shù) 5.數(shù)據(jù)整理 對收集的歷年客、貨運輸量和各主要影響因素的統(tǒng)計資料進(jìn)行審核和加工整理是為了保證預(yù)測工作的質(zhì)量。 資料整理主要包括下列內(nèi)容: (1)資料的補缺和推算。 (2)對不可靠資料加

11、以核實調(diào)整對查明原因的異常值加以修正。(3)對時間序列中不可比的資料加以調(diào)整和規(guī)范化;對按當(dāng)年價格計算的價值指標(biāo)應(yīng)折算成按統(tǒng)。 6.多元線性回歸模型的參數(shù)估計 在經(jīng)驗線性回歸模型中,是要估計的參數(shù),可通過數(shù)理統(tǒng)計理論建立模型來確定。在實際預(yù)測中,可利用多元線性回歸復(fù)相關(guān)分析的計算機程序來實現(xiàn)對模型參數(shù)的估計值進(jìn)行檢驗。 此項工作的目的在于判定估計值是否滿意、可靠。一般檢驗工作須從以下幾方面來進(jìn)行。 (1)經(jīng)濟意義檢驗 (2)統(tǒng)計檢驗 (3)擬合度檢驗 (4)回歸方程的顯著性檢驗 (5)參數(shù)估計值的標(biāo)準(zhǔn)差檢驗 應(yīng)當(dāng)強調(diào)指出統(tǒng)計檢驗相對于經(jīng)濟意義檢驗來說是第二位的。如果經(jīng)濟意義檢驗不合理,那么即使

12、統(tǒng)計檢驗可以達(dá)到很高的置信度,也應(yīng)當(dāng)拋棄這種估計結(jié)果,因為用這樣的結(jié)果來進(jìn)行經(jīng)濟預(yù)測是沒有意義的。 7.最優(yōu)回歸方程的確定 經(jīng)過上述的經(jīng)濟意義和統(tǒng)計檢驗后,挑選出的線性回歸方程往往是好幾個、為了從中優(yōu)選出用于進(jìn)行實際預(yù)測的方程,我們可以采用定性和定量相結(jié)合的辦法。 從數(shù)理統(tǒng)計的原理來講,應(yīng)挑選方程的剩余均方和SE較小為好但作為經(jīng)濟預(yù)刪還必須盡量考慮到方程中的影響因素更切合實際和其未來值更易把握的原則來綜合考慮。當(dāng)然、有時也可以從中挑選出好幾個較優(yōu)的回歸方程通過預(yù)測后,分別作為不同的高、中、低方案以供決策人員選擇。 8.模型的實際預(yù)測檢驗 在獲得模型參數(shù)估計值后,又經(jīng)過了上述一系列檢驗而選出的最

13、優(yōu)(或較優(yōu))回歸方程,還必須對模型的預(yù)測能力加以檢驗。不難理解、最優(yōu)回歸方程對于樣本期間來說是正確的,但是對用于實際預(yù)測是否合適呢?為此,還必須研究參數(shù)估計值的穩(wěn)定性及相對于樣本容量變化時的靈敏度,也必須研究確定估計出來的模型是否可以用于樣本觀察值以外的范國,其具休做法是: (1)采用把增大樣本容量以后模型估計的結(jié)果與原來的估計結(jié)果進(jìn)行比較,并檢驗其差異的顯著性。 (2)把估計出來的模型用于樣本以外某一時間的實際預(yù)測,并將這個預(yù)測值與實際的觀察值作一比較,然后檢驗其差異的顯著性。 9.模型的應(yīng)用 公路客、貨運輸量多元線性回歸預(yù)測模型的研究目的主要有以下幾個方面。 (1)進(jìn)行結(jié)構(gòu)分析,研究影響該

14、地區(qū)的公路客、貨運輸量的主耍因素和各影響因素影響程度的大小,進(jìn)一步探討該地區(qū)公路運輸經(jīng)濟理論。 (2)預(yù)測該地區(qū)今后年份的公路客、貨運輸量的變化,以便為公路運輸市場、公路運輸政策及公路運輔建設(shè)項目投資作出正確決策提供理論依據(jù)。另外,還可以通過公路客貨運輸量與公路交通量作相關(guān)分析來對公路的飽和度發(fā)展趨勢進(jìn)行預(yù)測。從而為公路的新建、擴建項目的投資提供決策分析。 (3)模擬各種經(jīng)濟政策下的經(jīng)濟效果,以便對有關(guān)政策進(jìn)行評價。 四、經(jīng)調(diào)查分析,影響某地區(qū)旅客運輸量的因素為。 x1國民收入 x2工農(nóng)業(yè)總產(chǎn)值 x3社會總產(chǎn)值 x4人口 x5客車保有量 x6城鄉(xiāng)居民儲蓄存款 經(jīng)計算得下列相關(guān)系數(shù)表: x1x2

15、x3x4x5x6 Y0.94390.92 87O.90 430.99140.96700.7021 Z 0.97 3 60.96l 4O.932 6O.8645O.93210.6678 Y客運盈 Z旅客周轉(zhuǎn)量 若令 = 0.85,則可以舍去x6這個影響因索,也就是認(rèn)為“城鄉(xiāng)居民儲蓄存款”不能作為響旅客運輸量的主要因素。 2.經(jīng)調(diào)查分析、影響某地區(qū)旅客運輸量的因素為: x1國民收入 x2工農(nóng)業(yè)總產(chǎn)值 x3社會總產(chǎn)值 x4人口 x5客車保有量 x6國民生產(chǎn)總值 x7公路通車?yán)锍?經(jīng)計算得客運量和旅客周轉(zhuǎn)量的經(jīng)驗線性回歸方程如下: Y = 0 + 1x1 + 2x2 + 5x5R2=0.9997 R2

16、=0.9962 Z = 0 + 4x4 + 5x5 + 7x7R2=0.9983 R2 = 0.9990 Y客運盈 Z旅客周轉(zhuǎn)量 各自變量問的相關(guān)系數(shù)表如下: 由上述計算可知,四個方程中均未出現(xiàn)rij R2的情況因此可以認(rèn)為各自方程中的影響因素之間不存在嚴(yán)重共線性問題。 3.經(jīng)調(diào)查分析,影響某地區(qū)貨運周轉(zhuǎn)量的因素為: x1國民收入 x2工農(nóng)業(yè)總產(chǎn)值 x3基建投資額 x4原煤產(chǎn)量 x5鋼鐵、化肥、水泥、糧食總產(chǎn)量 x6國民總產(chǎn)值 x7社會商品零售總額 x8相鄰地、市工農(nóng)業(yè)總產(chǎn)值的平均值 Y = a0 + a4x4 + a6x6 + a7x7(1) 其中:R2=0.9875F=206.33SE=1

17、673.24 t4=-2.8321t6=3.1407t7=2.7431 Y = b0 + b2x2 + b4x4(2) 其中:R2=0.9764F=164.59SE=1044.27 (三)多元線性回歸分析方法在社會的應(yīng)用由上述案例分析可知多元線性回歸分析方法在通過線性約束等條件將一個事物進(jìn)行多元的分析處理,最終能篩選出影響這個事物發(fā)展的因素。這樣就能通過多元線性回歸分析將一個事物進(jìn)行資源最優(yōu)化配置,在交通、航運的等領(lǐng)域都比較實用。三、 聚類分析方法(一) 聚類分析方法原理簡介聚類分析是研究事物分類的一種方法,是將一批樣本或變量按照它們在性質(zhì)上的親疏程度加以分類。實質(zhì)是按照距離的遠(yuǎn)近將數(shù)據(jù)分為若

18、干個類別,以使得類別內(nèi)數(shù)據(jù)的差異盡可能小,類別間的“差異”盡可能大。聚類分析中包括:層次聚類法,費層次聚類法,智能聚類法等多種詳細(xì)的方法。(二) 聚類分析案例敘述分析1.問題的提出隨著我國市場經(jīng)濟建設(shè)的高速發(fā)展,人們的金融意識和投資意識日益增強,而作為市場經(jīng)濟的組成部分股票市場,正逐步走向成熟與規(guī)范,越來越多的投資者把眼光投向了股票,歷史已經(jīng)證明股票是一種不僅在過去已提供了投資者可觀的長期利益,并且在將來也將提供良好機遇的投資媒體。然而,股價漲跌無常,股市變幻莫測,投資者要想在股市投資中贏取豐厚的投資回報,成為一個成功的投資者,就得認(rèn)真研究上市公司的歷史、業(yè)績和發(fā)展前景,詳細(xì)分析上市公司的財務(wù)

19、狀況,樹立以基本分析為主,技術(shù)分析為輔的投資理念,找出真正具有投資價值的股票,進(jìn)行長期投資。股票投資的基本分析分為宏觀分析、中觀分析、微觀分析三大部分,宏觀分析指對國家的國民經(jīng)濟以及政治、文化的分析,微觀分析指公司分析,而中觀分析主要指行業(yè)分析和地區(qū)分析等,板塊分析主要歸屬于中觀分析,兼有微觀分析。中國股市從無到有,發(fā)展至今已頗具規(guī)模,前些年,在中國股市發(fā)展的初生階段,由于市場規(guī)模小,上市公司數(shù)量不多,加上股民的投資思維和操作方法不太成熟,因此,投機性特強,這時用不上多少板塊分析。但是,隨著股市發(fā)展、投資手法和證券監(jiān)管方法的成熟,以及上市公司數(shù)量的不斷增多,如果再和以往一樣,面對上千種股票胡亂

20、抓一氣,碰運氣,甚至受各種股評和謠言所左右,則很難走向理性化,進(jìn)而難以最終取得投資成功。因此,在成熟股市中,一個股民若想成功,必須學(xué)會板塊分析,習(xí)慣理性操作,樹立板塊投資理念。2.聚類分析在股市板塊分析中的應(yīng)用系統(tǒng)聚類分析的基本思想是首先將每個樣本當(dāng)作一類,然后根據(jù)樣本之間的相似程度并類,并計算新類與其它類之間的距離,再選擇相近者并類,每合并一次減少一類,繼續(xù)這一過程,直到所有樣本都并成一類為止。在聚類過程中,我們選用歐氏距離來度量類與類之間的相似程度,聚類方法采用類平均法。我們以高科技板塊中的31個上市公司為研究對象,分析中選取了這31個上市公司1997年的每股收益、每股凈資產(chǎn)、股東權(quán)益率、

21、凈資產(chǎn)收益率、凈利潤率等五個反映上市公司綜合盈利能力的指標(biāo),數(shù)據(jù)取自4(略)。應(yīng)用SAS軟件中的系統(tǒng)聚類過程CLUSTER對31個樣本進(jìn)行聚類,得到表1所示的聚類過程。表1中NCL為聚類數(shù);Clusters Joined為每次聚成一個新類的2個樣品(標(biāo)有OB)或舊類(標(biāo)有CL);FREQ為新類中所含有的樣品數(shù);SPRSQ為半偏R2,它表示每一次合并對信息的損失程度,看這一列的數(shù)值可知:從4類合并成3類時信息損失(為0.1042)最多,此統(tǒng)計量表明聚成4類較合適;CCC在NCL=4時達(dá)到唯一的峰值-2.49,它支持分4類;PSF為偽F統(tǒng)計量,PSF出現(xiàn)峰值時所對應(yīng)的分類數(shù)較合適,從這一列的數(shù)值可

22、知PSF在NCL=17、NCL=12、NCL=9和NCL=4時4次達(dá)到峰值,但在NCL=4時峰更陡些;PST2為t2統(tǒng)計量,PST2出現(xiàn)峰值的前一行所對應(yīng)的分類數(shù)較合適,從這一列的數(shù)值可知NCL=3時出現(xiàn)峰值9.8,它也支持分4類。綜合這四個統(tǒng)計量可知:將31個樣本分成4類較合適。根據(jù)表1,作出圖1所示的聚類譜系圖。當(dāng)我們?nèi)》诸愰y值為1.0時,31個樣本被分成了各類包含的樣本如下:第一類:OB18(天津磁卡),OB29(燕化高新);第二類:OB22(深科技),OB15(實達(dá)電腦),OB10(清華同方),OB12(東大阿派),OB14(長城電腦),OB31(風(fēng)華高科),OB17(東方通信);第三

23、類:OB1(華光科技),OB26(佛山照明),OB4(國脈通信),OB8(工大高新),OB11(振華科技),OB21(彩虹股份);第四類:OB2(冰箱壓縮),OB19(同濟科技),OB20(華東電腦),OB9(長安信息),OB23(中科健),OB16(湘計算機),OB30(倍特高新),OB6(南華西),OB28(深圳華強),OB7(廈門信達(dá)),OB25(華意壓縮),OB27(粵TCL),OB3(復(fù)華實業(yè)),OB5(南洋實業(yè)),OB13(中國高新),OB24(深華源)。第一、二類公司在經(jīng)營規(guī)模、經(jīng)營實力、技術(shù)水平等方面具有一定優(yōu)勢,竟?fàn)幠芰?,?jīng)營業(yè)績優(yōu)良,綜合財務(wù)狀況良好,屬高科技板塊的績優(yōu)龍

24、頭股,頗具發(fā)展?jié)摿烷L期投資價值,是高科技板塊中投資者的首選投資對象。其中第一類的天津磁卡、燕化高新1997年凈利潤率分別為45.86%和44.32%,凈利潤增長率分別是93.6%和96.95%,其獲利能力遠(yuǎn)遠(yuǎn)大于其它公司。第四類公司業(yè)績一般,投資者應(yīng)謹(jǐn)慎介入,可多加觀望。(二) 聚類分析方法在社會的應(yīng)用由上述案例可以看出聚類分析能綜合多項財務(wù)指標(biāo)來反映上市公司的盈利能力和水平,所得聚類結(jié)果與公司的實際財務(wù)狀況和經(jīng)營狀況相吻合。我們還可以對所選出的各個板塊的龍頭潛力股再進(jìn)行聚類分析,找出最具實力的板塊龍頭股。因此聚類分析方法適用于分析社會上的一些公司的盈利能力和水平,在經(jīng)濟類比較突出。四、 主

25、成份分析方法(一) 主成份分析方法原理簡介主成分分析是將多指標(biāo)化為少數(shù)幾個綜合指標(biāo)的一種統(tǒng)計方法主成分分析是從原始變量中導(dǎo)出少數(shù)幾個主分量,使他們盡可能多地保留原始變量的信息,且彼此互不相關(guān)主成分分析的應(yīng)用目的是數(shù)據(jù)的壓縮、數(shù)據(jù)的解釋,它常被用來尋找判斷某種事物或現(xiàn)象的綜合指標(biāo),并且給綜合指標(biāo)所包含的信息以適當(dāng)?shù)慕忉專瑥亩由羁痰亟沂臼挛锏膬?nèi)在規(guī)律。(二) 主成份分析案例敘述分析1. 中學(xué)生身體四項指標(biāo)的主成分分析在某中學(xué)隨機抽取某年級30名學(xué)生,測量起身高(X1),體重(X2),胸圍(X3)和坐高(X4),數(shù)據(jù)如下表。試對這30名中學(xué)生身體四項指標(biāo)數(shù)據(jù)做主成分分析。X1X2X3X4X1X2

26、X3X41148 41727816152 357379213934717617149478279316049778618145357077414936677919160477487515945808620156447885614231667621151427382715343768322147387378815043777923157396880915142778024147306575101393168742515748808811140296474261513674801216147788427144366876131584978832814130677614140336777291393

27、2687315137316673301483870782. 對數(shù)據(jù)的相關(guān)陣作主成分分析,有 pr.stud summary(pr.stud,loadings=TRUE)Importance of components: Comp.1 Comp.2 Comp.3 Comp.4Standard deviation 1. 0. 0. 0.Proportion of Variance 0. 0. 0. 0.Cumulative Proportion 0. 0. 0. 1.Loadings: Comp.1 Comp.2 Comp.3 Comp.4X1 -0.497 0.543 -0.450 0.506X

28、2 -0.515 -0.210 -0.462 -0.691X3 -0.481 -0.725 0.175 0.461X4 -0.507 0.368 0.744 -0.232 其中Standard deviation為主成分的標(biāo)準(zhǔn)差,即方差的開方,也就是相應(yīng)的特征值的開方。Proportion of Variane表示方差的貢獻(xiàn)率,而Cumulative Proportion表示方差的累計貢獻(xiàn)率。Loadings=FALSE或缺省就不列出loadings。 3. 分析:從主成分分析結(jié)果可看出前兩個主成分的累計貢獻(xiàn)率高達(dá)96%,選擇兩個主成分。第一個主成分對應(yīng)系數(shù)的符號都相同,其值在0.5左右,反映

29、了中學(xué)生身材的魁梧程度,身材高大的學(xué)生,他的四個部分的尺寸都比較大,因此第一主成分的值就較小。 而身材矮小的同學(xué)他的四部分都比較小,第一主成分的值較大。 第一主成分為大小因子。 第二主成分是高度和圍度之差,比較大表明該學(xué)生細(xì)高,比較小為“矮胖”,稱第二因子為形體因子。看一下各樣本的主成份值畫第一個主成分的散點圖,可看出10, 11,15,29值較大,說明學(xué)生比較瘦小,而3,5,25值較小,說明學(xué)生比較高大. predict(pr.stud)-scoreplot(1:30, score,1)plot(1:30, score,2)從這個圖很容易看出,那些學(xué)生屬于高大魁梧型,比如25號學(xué)生,3、5號

30、學(xué)生,那些學(xué)生屬于高瘦型比如23、19、4等等。(三) 主成份分析方法在社會的應(yīng)用根據(jù)主成分分析的定義及性質(zhì),我們已大體上能看出主成分分析的一些應(yīng)用。概括起來說,主成分分析主要有以下幾方面的應(yīng)用。1主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(mp),而低維的Y空間代替 高維的x空間所損失的信息很少。即:使只有一個主成分Yl(即 m1)時,這個Yl仍是使用全部X變量(p個)得到的。例如要計算Yl的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的系數(shù)全部近似于零的話,就可以把這個Xi刪除,這也是一種刪除多余變量的方法。2.有時可通過因子負(fù)荷aij的

31、結(jié)構(gòu),弄清X變量間的某些關(guān)系。3.多維數(shù)據(jù)的一種圖形表示方法。我們知道當(dāng)維數(shù)大于3時便不能畫出幾何圖形,多元統(tǒng)計研究的問題大都多于3個變量。要把研究的問題用圖形表示出來是不可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩個主成分或其中某兩個主成分,根據(jù)主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位。4.由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。5.用主成分分析篩選回歸變量?;貧w變量的選擇有著重的實際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制和預(yù)報,好從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合。用主成分分

32、析篩選變量,可以用較少的計算量來選擇量,獲得選擇最佳變量子集合的效果。五、因子分析方法(一)因子分析方法原理簡述因子分析在某種程度上可以被看成是主成分分析的推廣和發(fā)展,它對問題的研究更加深入,研究相關(guān)陣或協(xié)方差陣的內(nèi)部依賴關(guān)系,它將多個變量綜合為少數(shù)幾個因子,以再現(xiàn)原始變量與因子之間的相關(guān)關(guān)系,也是多元統(tǒng)計分析中降維的一種方法。因子分析是通過研究多個變量間相關(guān)系數(shù)矩陣的內(nèi)部依賴關(guān)系,找出能綜合所有變量的少數(shù)幾個隨機變量,這幾個隨機變量是不可測量的,通常稱為因子。然它們在性質(zhì)上的親疏程度加以分類. 實質(zhì)是按照距離的遠(yuǎn)近將數(shù)據(jù)分為若干個類別,以使得類別內(nèi)數(shù)據(jù)的差異盡可能小,類別間的“差異”盡可能大

33、。(二)因子分析案例敘述分析眾所周知,建立套利定價模型的關(guān)鍵在于因素的篩選,計算量很大。而因子分析能將為數(shù)眾多的原始指標(biāo)變量經(jīng)過分析綜合為少數(shù)幾個公共因子變量,從而大大減少計算的復(fù)雜度。本文利用因子分析的方法對11個因素進(jìn)行篩選,確定四個能夠很好地反映所有因素包含的信息但又互不相關(guān)的公共因子變量,并建立套利定價模型,實證檢驗說明,通過該方法進(jìn)行因素篩選建立的套利定價模型具有較好的定價效果。1.問題的提出1976年,Stephen Ross提出了著名的資產(chǎn)定價模型套利定價理論(Arbitrage Pricing Theory,APT)。該理論假設(shè)任何風(fēng)險證券的收益率受K個因素的影響,由一個K因素

34、線性模型給出:ri=ai+kk=1bikfk+i,i=1,2,n(1)其中:E(i)=E(fk)=E(ij)=E(ifk)=0;E(2i)=s2iS2;ri為第i種風(fēng)險證券的收益率;ai表示所有影響風(fēng)險證券收益率的因素都為零時風(fēng)險證券i的平均收益率;fk表示第k個因素的值;bik表示風(fēng)險證券i對第k個因素的敏感性;i為隨機擾動項。當(dāng)不存在漸進(jìn)套利機會時,由K因素線性模型可以得到如下的近似定價模型套利定價模型(APT):E(ri)=ai0+Kk=1bikk(2)其中,k稱為風(fēng)險證券i對第k個因素的風(fēng)險溢價。如果將誤差記為viai-0-Kk=1bikk,則當(dāng)不存在漸進(jìn)套利機會時,有l(wèi)imn1nni

35、=1v2i=0.建立套利定價模型的關(guān)鍵在于因素的篩選。然而,一種風(fēng)險證券的收益率受多方面因素的影響,同時我們也不知道究竟需要多少個因素來構(gòu)造APT.假設(shè)有n個因素對證券的收益率有影響,則可能nm=1Cmn種因素的組合。要從如此眾多的因素組合中篩選出最優(yōu)的因素組合,其計算量可想而知。一般來說,因子的辨識和確定有兩種基本的方法:統(tǒng)計方法和推理方法。統(tǒng)計方法涉及從一個全面的資產(chǎn)收益集(通常遠(yuǎn)超過用來估計和檢驗的樣本資產(chǎn)收益)來確定因子,采用這些收益的樣本數(shù)據(jù)來構(gòu)造表示因子的資產(chǎn)組合,如Connor和Korajczyk(1988)、Lehmann和Modest(1988),前者使用因子分析方法,后者利

36、用主元分析方法。推理方法是基于捕捉經(jīng)濟的系統(tǒng)風(fēng)險原則來辨識因子的,例如Fama和French(1988,1996)使用公司特征來構(gòu)建因子資產(chǎn)組合。在這類研究中,在將股票分組后,對每一組股票首先采用因子分析方法來估計影響股票收益率的因子數(shù)目,并估計每只股票的因子載荷;然后,利用股票收益率數(shù)據(jù)和已估計出的因子載荷做橫截面回歸,估計因子的風(fēng)險溢價,進(jìn)而檢驗多因子模型的適用性。此外,由于APT認(rèn)為股票收益率的風(fēng)險可以分為可分散風(fēng)險和不可分散風(fēng)險,其中可分散風(fēng)險部分的均值為零,在大樣本中可忽略不計,而不可分散風(fēng)險部分由K個共同因子決定,并通過K個因子系數(shù)反映股票收益率與每個非零風(fēng)險溢價之間的關(guān)系。但是,

37、現(xiàn)實中可能某一變量本身與不可分散風(fēng)險不相關(guān)(即不應(yīng)當(dāng)作為因子出現(xiàn)),但在APT模型中卻被不恰當(dāng)定價,成為一個共同因子。雖然由實際數(shù)據(jù)生成的因子模型通過了顯著性檢驗,但卻無法肯定這些因子就是不可分散風(fēng)險的溢價,也無法排除可分散風(fēng)險成為共同因子的可能。鑒于此,我們有必要對APT進(jìn)行“自方差”檢驗這里用“自方差”只是一種強調(diào)性說法,其實質(zhì)就是該項資產(chǎn)收益率的方差從長期來看,證券收益率的自方差與收益率均值之間總是保持很高的相關(guān)性,而自方差又是每一種證券所特有的,屬于可分散風(fēng)險。如果APT有效,那么單個證券的自方差就不應(yīng)當(dāng)對期望收益率起作用,因為APT認(rèn)為只有不可分散的風(fēng)險才對定價起作用,才可以成為定價

38、因子。“自方差”檢驗就是要證明單個股票收益率的自方差是否為共同因子,可否用于定價,要接受還是否定APT.鑒于此,他們也利用“自方差”檢驗來對多因子模型做了補充研究。到目前為止,我國在套利定價理論因素確定方面的研究并不多,主要是利用多元線性回歸構(gòu)造套利定價模型,這一方法的計算量大,其包含的因素要么過多要么不全面,而且因素之間的關(guān)聯(lián)程度較高。而因子分析是一種常用的統(tǒng)計降維技術(shù),能夠利用原始指標(biāo)變量中某些指標(biāo)之間的相關(guān)性對多變量的面板數(shù)據(jù)進(jìn)行最佳綜合和簡化,將為數(shù)眾多的指標(biāo)綜合為少數(shù)幾個公共因子,以較少的幾個公共因子變量反映原始指標(biāo)變量的大部分信息,從而大大降低了分析問題的難度。2.用因子分析法確定

39、APT中的因素組合在已有的研究中,一般認(rèn)為APT中至少包含有三類不同的因素:反映總體經(jīng)濟活動的指標(biāo)、通貨膨脹率以及某些類型的利率因素。鑒于此,本文將國民生產(chǎn)總值、工業(yè)生產(chǎn)總值、第二產(chǎn)業(yè)生產(chǎn)總值、第三產(chǎn)業(yè)生產(chǎn)總值、全國居民消費水平、通貨膨脹率、全社會固定資產(chǎn)投資增長速度、社會消費品零售總額、貨幣供應(yīng)總量、年凈出口貿(mào)易總額、利率期限結(jié)構(gòu)等11個因素作為原始指標(biāo)變量,利用我國1980年到200=3年統(tǒng)計年鑒中的數(shù)據(jù)進(jìn)行因子分析。(1)對原始指標(biāo)變量進(jìn)行相關(guān)性分析因子分析從眾多的原始指標(biāo)變量中構(gòu)造出少數(shù)幾個具有代表意義的公共因子變量,它要求原始指標(biāo)變量之間要具有比較強的相關(guān)性,否則就無法從中綜合出能反

40、映某些變量共同特性的少數(shù)公共因子變量來,原始指標(biāo)變量就不適于進(jìn)行因子分析。因此,在因子分析之前需要對原始指標(biāo)變量進(jìn)行相關(guān)性分析。本文采用的是KMO(Kaiser-Meyer-Olkin)檢驗和Bartlett球度檢驗。統(tǒng)計量KMO的值為0.771,大于0.6,根據(jù)統(tǒng)計學(xué)家Kaiser給出的標(biāo)準(zhǔn),原始指標(biāo)變量適合做因子分析;Bartlett球度檢驗給出的自由度為55的卡方近似值為780.924,相伴概率為0.000,小于顯著水平0.05,適合進(jìn)行因子分析。由KMO檢驗和Bartlett球度檢驗結(jié)果可知,原始指標(biāo)變量適合做因子分析。與此同時,本文還對11個原始指標(biāo)變量進(jìn)行了反映像相關(guān)矩陣檢驗,在反

41、映像相關(guān)矩陣中,所有偏相關(guān)系數(shù)的絕對值均小于0.05,說明所有的原始指標(biāo)變量都適于進(jìn)行因子分析。(2)構(gòu)造公共因子變量構(gòu)造公共因子變量是因子分析的一個核心問題。因子分析中確定公共因子變量的方法很多,本文采取的是主元分析法。確定保留公共因子變量的數(shù)目根據(jù)公共因子變量與其特征值的散點圖(圖1)可以看出,前面4個公共因子變量的特征值變化非常明顯,從8.744到0.126,而從第5個公共因子變量開始,特征值的變化趨于平穩(wěn)。這說明提取前4個公共因子變量對原始指標(biāo)變量的信息描述有顯著作用。為了能夠得到更精確的APT,本文確定保留4個公共因子變量。.因子分析效果因子分析的最終解解釋了每個原始指標(biāo)變量99.5

42、以上的方差,每個原始指標(biāo)變量的共同度幾乎都在98以上,與1非常接近,也就是說,原始指標(biāo)變量所攜帶的信息不能被公共因子變量解釋的部分不到2。這說明提取出的公共因子變量基本上已經(jīng)反映了原始指標(biāo)變量所有的信息,只有極少數(shù)信息丟失??梢?,因子分析的效果非常好。.因子提取和因子旋轉(zhuǎn)的結(jié)果(表略)根據(jù)公共因子變量與其特征值的散點圖的判斷,本文提取了四個公共因子變量對原始指標(biāo)變量總體進(jìn)行描述。這4個公共因子變量的方差貢獻(xiàn)(特征值)分別為8.744、1.348、0.729和0.126.由11個公共因子變量構(gòu)成的初始解中,前四個公共因子變量解釋了原始指標(biāo)變量總方差的99.522,尤其是第一個公共因子變量,解釋了

43、11個原始指標(biāo)變量總方差的79.490。在進(jìn)行因子旋轉(zhuǎn)以后,這四個公共因子變量的特征值分別為8.444、1.231、1.102和0.171,分別可以解釋原始指標(biāo)變量的76.192、11.194、10.014和1.552,共解釋了11個原始指標(biāo)變量總方差的99.522??梢?,提取的四個公共因子變量反映了原始指標(biāo)變量的幾乎所有信息,能夠代替11個原始指標(biāo)變量構(gòu)造多因素線性模型。由上面的分析可知,第一個公共因子變量主要反映一個國家總體經(jīng)濟水平,第二個公共因子變量主要反映通貨膨脹率,第三個公共因子變量反映了全社會固定資產(chǎn)投資增長速度,第四個公共因子變量反映了利率期限結(jié)構(gòu)。由此可以看出,風(fēng)險證券的預(yù)期收

44、益率主要與國家的總體經(jīng)濟水平有關(guān),同時還與國內(nèi)的通貨膨脹率、全社會固定資產(chǎn)投資增長速度、利率期限結(jié)構(gòu)這三個因素有關(guān)。統(tǒng)計分析表明,這四個公共因子變量都是均值為0,方差為1的隨機變量,同時兩兩之間完全不相關(guān)。因此很適合作為APT的因素。3.APT的實證檢驗經(jīng)由以上分析,確定了國家總體經(jīng)濟水平、通貨膨脹率、全社會固定資產(chǎn)投資增長速度和利率期限結(jié)構(gòu)四個公共因子變量,并通過公共因子得分由11個原始指標(biāo)變量1980-2003年的年數(shù)據(jù)計算出了這四個公共因子變量相應(yīng)的值。為了構(gòu)造套利定價模型,本文首先根據(jù)式(1),選取了廣電電子、愛使股份、華源制藥、方正科技等十只股票1995年到2005年的年收益率分別作

45、為被解釋變量,以四個公共因子變量相應(yīng)的1995年到2005年的數(shù)據(jù)為解釋變量進(jìn)行了多元線性回歸,得到每只股票的ai、bi1、bi2、bi3和bi4;然后根據(jù)式(2),以ai為被解釋變量,bik(k=1,2,3,4)為解釋變量再次進(jìn)行多元線性回歸,得到套利定價模型:ai=0.189-1.0511+0.020672-0.02333-0.2384(3)在式(3)中,我們注意到:一方面,風(fēng)險證券i只是對通貨膨脹率的敏感性為正數(shù),即風(fēng)險證券i對通貨膨脹率的風(fēng)險溢價越大,該證券的期望收益率也就越大;另一方面,風(fēng)險證券i對國家總體經(jīng)濟水平、全社會固定資產(chǎn)投資增長速度和利率期限結(jié)構(gòu)的敏感性均為負(fù)數(shù),即風(fēng)險證券

46、i對通貨膨脹率等的風(fēng)險溢價越大,該證券的期望收益率也就越小。為了檢驗本文得到的套利定價模型的效果,本文另外選取ST興業(yè)、豫園商城、金杯汽車、深達(dá)聲、ST億安等10只股票,利用式(3)對其進(jìn)行定價,以模型預(yù)測值和實際平均收益率的差異作為評價模型的標(biāo)準(zhǔn)。由于APT只是一個近似的定價模型,應(yīng)用于個別股票可能存在較大誤差,所以常用來對投資組合進(jìn)行定價。因此本文構(gòu)造以上十只股票的簡單等權(quán)組合,用y=1nni=1(ri預(yù)測-ri實際)2度量誤差,計算結(jié)果為y=0.129.實證檢驗表明,本文得到的套利定價模型(3)具有較好的定價效果,但仍存在12.9的定價誤差。本文認(rèn)為可能是由于如下原因造成的:我國對宏觀經(jīng)

47、濟指標(biāo)的統(tǒng)計起步較晚,很多宏觀經(jīng)濟指標(biāo)的數(shù)據(jù)不齊全,統(tǒng)計標(biāo)準(zhǔn)也不太一致,而且2000年以前的宏觀經(jīng)濟指標(biāo)基本上只有年數(shù)據(jù),由此造成可供利用的樣本數(shù)據(jù)太少。與此同時,由于宏觀經(jīng)濟指標(biāo)采用年數(shù)據(jù),為了與之對應(yīng),股票的收益率也只能采用年數(shù)據(jù),但我國股票市場只有12年左右的歷史,這進(jìn)一步造成樣本容量最多只可能為12.在構(gòu)建APT時,為了盡可能地擴大樣本容量,本文只選取了有10年左右歷史的股票,造成股票數(shù)目較少,類別比較單一。因此在回歸分析中可能導(dǎo)致回歸方程的顯著性和擬合優(yōu)度不高(本文在利用回歸分析得到APT的過程中,確實發(fā)現(xiàn)有一些回歸方程的顯著性和擬合優(yōu)度不高),最終導(dǎo)致預(yù)測結(jié)果存在較大誤差。本文相信

48、,如果有更好的樣本數(shù)據(jù),我們能夠進(jìn)一步減小APT的定價誤差。(三)因子分析方法在社會的應(yīng)用通過引入因子分析法,對國民生產(chǎn)總值、全國居民消費水平、全社會固定資產(chǎn)投資總額、通貨膨脹率、利率期限結(jié)構(gòu)等11個因素進(jìn)行了綜合和簡化,提取了4個具有明確經(jīng)濟意義的公共因子,分別反映了國家總體經(jīng)濟水平、通貨膨脹率、全社會固定資產(chǎn)投資增長速度和利率狀況。有關(guān)的統(tǒng)計分析說明因子分析法提取的這四個公共因子變量效果非常好。本文利用這四個公共因子變量構(gòu)建了套利定價模型,并對模型進(jìn)行了實證檢驗。實證檢驗表明,本文通過因子分析法進(jìn)行因素篩選得到的套利定價模型具有較好的定價效果。因此因子分析方法在股市等經(jīng)濟領(lǐng)域能很好的應(yīng)用。

49、六、偏最小二乘回歸分析方法 (一)偏最小二乘回歸分析方法原理簡介偏最小二乘判別分析(Partial least squares dis-crimination analysis,PLSDA)是一種穩(wěn)健的判別分析統(tǒng)計方法,特別適合于解釋變量數(shù)多且存在著多重共線性,樣本觀測數(shù)少,且干擾噪聲大的情況,而這種情況在基因微陣列表達(dá)譜數(shù)據(jù)是極為常見的。偏最小二乘判別分析首先將樣本類別用啞變量作處理,采用克羅內(nèi)克兒符號,即:然后,運用偏最小二乘回歸建立解釋變量與反應(yīng)變量(啞變量)之間的關(guān)系模型。最后,通過比較模型的反應(yīng)變量預(yù)測值大小,來確定各樣本的類別,即若某個啞變量分量的預(yù)測值最大,則判定該樣本屬于該啞變

50、量所對應(yīng)的類別。見圖1。首先,從基因?qū)W說角度來說,某類疾病較為特異的特征通常與部分基因的表達(dá)水平的變化有關(guān),而不是全部基因;其次,若籠統(tǒng)地用全部基因表達(dá)水平來進(jìn)行分類,則將會因解釋變量空間的維度過高導(dǎo)致計算時間和內(nèi)存容量要求急劇增加,使得計算難以進(jìn)行;最后,受到引入模型中的眾多解釋變量(基因)噪聲干擾累積效應(yīng)的影響,也將會使得模型判別效果下降,影響分類的預(yù)測精度和擬合精度。因此,在偏最小二乘判別分析中,一個較為常用的解釋變量篩選統(tǒng)計指標(biāo)是Wold于1994提出的變量投影重要度(Variable Impor-tance for the Projection,VIP),它按照解釋變量的影響強度來進(jìn)

51、行變量篩選,是衡量解釋變量對反應(yīng)變量(類別)解釋能力的統(tǒng)計量。變量投影重要度(VIP)定義式如下:式中,whj是第h個主成分的權(quán)重向量的第歹個分量;Rd(Y;th)是Y與第h個主成分之間的決定系數(shù);Rd(Y;t1,tm )是Y與第1至m個主成分的決定系數(shù)之和。本文將采用統(tǒng)計軟件SAS的PLS過程及編制相關(guān)宏完成急性白血病識別模型的構(gòu)建。(二)偏最小二乘回歸分析案例敘述分析1999年Golub等人的研究表明,利用基因微陣列技術(shù),構(gòu)造基于基因表達(dá)譜的腫瘤分型預(yù)測模型,可以為腫瘤的診斷提供一種更為客觀和準(zhǔn)確的方法。因而,本文采用了Golub等收集的急性白血病基因表達(dá)譜數(shù)據(jù)集作為實驗樣本集,該數(shù)據(jù)集共

52、含72例樣本,每個樣本均含7 129個基因的表達(dá)數(shù)據(jù)。通過常規(guī)臨床診斷和組織學(xué)檢查,該數(shù)據(jù)集中有47例樣本被診斷為急性淋巴性白血病(ALL),25例樣本被診斷為急性髓性細(xì)胞白血病(AMI )。由于樣本量較小,變量較多,變量數(shù)遠(yuǎn)遠(yuǎn)多于樣本量,為了獲得較為可靠的白血病分型錯誤率估計,更好地評價所建模型的擬合與預(yù)測效果,并同Golub等人的研究進(jìn)行對照比較,因此,本研究采用了如下四個步驟進(jìn)行樣本分類錯誤率的估計。1.樣本劃分:為了使本研究與Golub等人的研究具有可比性,仍然采用與Golub等研究完全一致的樣本劃分,整個數(shù)據(jù)集劃分為訓(xùn)練樣本集與獨立測試樣本集,其中訓(xùn)練樣本集含急性淋巴性白血病(ALL

53、)病例27例,急性髓性細(xì)胞白血病(AML)11例,測試樣本集中含20例AI L14例AML。2.擬合精度評價:利用訓(xùn)練樣本集建立白血病分型識別模型,采用Jackknife法評價通過偏最小二乘判別分析(PLSDA)所建立的識別模型在訓(xùn)練樣本集上的擬合效果,即每次保留一個不同的樣本作為測試用,其余樣本用作訓(xùn)練樣本集,考察識別模型分類正確與誤判的情況;并且,分析運用VIP指標(biāo)篩選基因前后所建識別模型的實際擬合效果。3.預(yù)測精度評價:在進(jìn)行擬合精度評價的同時,采用與擬合精度評價相類似的步驟,利用獨立測試樣本集考察通過偏最小二乘判別分析(PLSDA)所建立的識別模型預(yù)測白血病分型正確與誤判情況,以評價其

54、實際預(yù)測精度。4.方法對照比較:對通過PLSDA所建模型和Golub等人所建模型的擬合精度和預(yù)測精度予以對比分析,評價它們對白血病分型的實際效果。在未作基因篩選的原始數(shù)據(jù)和經(jīng)過基因篩選的相關(guān)數(shù)據(jù)集上,使用偏最小二乘判別分析(PLSDA)分析該數(shù)據(jù)集,建立急性白血病識別模型,并分別進(jìn)行上述步驟,對其判別效果予以評價。其中,基因篩選采用VIP得分,提取前50個影響強度最大的基因。由表2可見,未經(jīng)基因篩選的偏最小二乘判別分析在訓(xùn)練集的正確分類率約為95,而在測試集上的正確率則約為91 ;經(jīng)過基因篩選的偏最小二乘判別分析無論在訓(xùn)練集上,還是測試集上,其正確率均為100。由此可見,經(jīng)過基因篩選的偏最小二乘判別分析,無論擬合精度,還是預(yù)測精度均優(yōu)于未經(jīng)篩選的偏最小二乘判別分析。針對腫瘤的基因表達(dá)微陣列數(shù)據(jù)特點,Golub等首先采用了一種類似于t統(tǒng)計量的信噪比形式作為基因?qū)δ[瘤的辨識性度量指標(biāo),用以分別檢測每個基因

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論