數(shù)據(jù)挖掘概述P_第1頁(yè)
數(shù)據(jù)挖掘概述P_第2頁(yè)
數(shù)據(jù)挖掘概述P_第3頁(yè)
數(shù)據(jù)挖掘概述P_第4頁(yè)
數(shù)據(jù)挖掘概述P_第5頁(yè)
已閱讀5頁(yè),還剩58頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

講授:吳雄華第一章數(shù)據(jù)挖掘概述電話mail:wuxionghua2003@163.com一、引例網(wǎng)站這種推薦并非漫無(wú)邊際,而是有一定技術(shù)依據(jù)的,這種技術(shù)就是數(shù)據(jù)挖掘技術(shù)(DM)。網(wǎng)站怎么知道讀者可能會(huì)對(duì)這些物品干興趣?這是因?yàn)榫W(wǎng)站采用了新的技術(shù)來(lái)了解顧客的潛在需求,比如:網(wǎng)站從顧客的購(gòu)買清單中發(fā)現(xiàn)你買的書(shū)與張三買過(guò)的書(shū)有幾本是相同的,但是還有些書(shū)張三已經(jīng)買了,而你卻還沒(méi)買,網(wǎng)站會(huì)據(jù)此認(rèn)為你們的閱讀偏好相近,從而你會(huì)對(duì)那些書(shū)也干興趣。例1。如果你在當(dāng)當(dāng)?shù)馁?gòu)書(shū)網(wǎng)站并購(gòu)買過(guò)書(shū)籍或音像制品,以后再瀏覽該網(wǎng)站時(shí)經(jīng)??吹筋愃频奶崾荆骸皻g迎你,下面是我們給您推薦的新書(shū)和VCD?!比缓缶涂梢栽诰W(wǎng)頁(yè)的某個(gè)位置看到幾本新書(shū)或VCD的名字及其相關(guān)鏈接。從這個(gè)銷售數(shù)據(jù)中可以得出什么結(jié)論?某超市Post機(jī)上記錄如下的銷售數(shù)據(jù):例2。啤酒與尿布的故事顧客購(gòu)買商品1面包,黃油,尿布,啤酒2咖啡,糖,小甜餅,鮭魚(yú),啤酒3面包,黃油,咖啡,尿布,啤酒,雞蛋4面包,黃油,鮭魚(yú),雞5雞蛋,面包,黃油6鮭魚(yú),尿布,啤酒7面包,茶,糖雞蛋8咖啡,糖,雞,雞蛋9面包,尿布,啤酒,鹽10茶,雞蛋,小甜餅,尿布,啤酒從數(shù)據(jù)挖掘的角度就是得到了如下的很強(qiáng)的關(guān)聯(lián)規(guī)則:簡(jiǎn)單分析發(fā)現(xiàn),有6個(gè)顧客買了啤酒,而其中5個(gè)人買了尿布,或說(shuō),5個(gè)買了尿布的顧客都買了啤酒。規(guī)則1:“買啤酒”“買尿布”。置信度為5/6規(guī)則2:“買尿布”“買啤酒”。置信度為5/5結(jié)論:“買尿布的顧客很可能會(huì)買啤酒”。原因?對(duì)決策者的啟示:商品的擺放設(shè)計(jì)和銷售策略。二、數(shù)據(jù)挖掘的定義三、數(shù)據(jù)挖掘技術(shù)產(chǎn)生的動(dòng)力

數(shù)據(jù)挖掘的定義有多種不同的定義方式,現(xiàn)在為大家廣泛采用的是如下定義:數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中挖掘出隱含的、未知的、用戶可能感興趣的和對(duì)決策有潛在價(jià)值的知識(shí)和規(guī)則。簡(jiǎn)單的說(shuō),數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)有用的信息。1.數(shù)據(jù)爆炸問(wèn)題。例3、美國(guó)未來(lái)學(xué)家阿爾溫~托夫勒在1980年的著作在《第三次浪潮》中認(rèn)為,未來(lái)的信息量將以指數(shù)級(jí)的速度增長(zhǎng)?,F(xiàn)在已成事實(shí)。例5.JohnRoth在聯(lián)合國(guó)世界電信論壇上又提出了一個(gè)關(guān)于網(wǎng)絡(luò)科技的一個(gè)觀點(diǎn):互聯(lián)網(wǎng)寬帶每9個(gè)月會(huì)增加一倍的容量,但成本降低一半,比芯片的變革速度還快。----“光纖定律”。例4.1965年,Intel公司聯(lián)合創(chuàng)始人GordonMorore在準(zhǔn)備一個(gè)演講時(shí)發(fā)現(xiàn)了一個(gè)具有歷史意義的現(xiàn)象:芯片的容量每18~24個(gè)月增加一倍。他據(jù)此推斷,按此趨勢(shì)發(fā)展下去,在較短時(shí)間內(nèi)計(jì)算能力將呈指數(shù)增長(zhǎng)。----“摩爾定律”。。還有很多案例都可以印證,現(xiàn)在的社會(huì)是一個(gè)信息爆炸的社會(huì)。是在信息的潮流中隨波逐流還是“到中流擊水,浪遏飛舟”?數(shù)據(jù)挖掘技術(shù)的另一個(gè)產(chǎn)生動(dòng)力2.數(shù)據(jù)過(guò)量而知識(shí)貧乏現(xiàn)代人了解古代的主要方式主要是通過(guò)前人留下的記錄,但是這些記錄往往是零碎的、不完全的。例如?想象一下,如果后人希望了解現(xiàn)在人們的生活狀況,他們面臨的已不再是信息缺失,而是需要從浩如煙海的資料中有選擇性的收集他們認(rèn)為有用的信息,若沒(méi)有一定技術(shù)支持,其難度恐怕可以用“浪里淘金”或“大海撈針”來(lái)形容。四、數(shù)據(jù)挖掘的支撐技術(shù)數(shù)據(jù)挖掘融合了統(tǒng)計(jì)、人工智能及數(shù)據(jù)庫(kù)等多種學(xué)科的理論、方法和技術(shù)如統(tǒng)計(jì)學(xué):除了實(shí)驗(yàn)設(shè)計(jì)與數(shù)據(jù)挖掘的關(guān)系不大,其他幾乎所有方法都可以用于數(shù)據(jù)挖掘,如估計(jì)、假設(shè)檢驗(yàn)、回歸分析、主成分分析、時(shí)間序列分析、馬爾科夫鏈等。五、數(shù)據(jù)挖掘的主要任務(wù)1、預(yù)測(cè):分類和回歸2、關(guān)聯(lián)分析:如研究顧客的行為模式3、聚類分析:例如對(duì)于新聞可以根據(jù)他們的主題分組。4、異常檢測(cè):識(shí)別其特征顯著不同于其他數(shù)據(jù)的觀測(cè)值(異常點(diǎn))。主要應(yīng)用包括檢測(cè)欺詐、網(wǎng)絡(luò)攻擊、疾病的不尋常模式等。例6。信用卡欺詐檢測(cè)信用卡公司記錄每個(gè)持卡人所做的交易,同時(shí)也記錄信用限度、年齡、年薪和地址等個(gè)人信息。由于與合法交易相比,欺詐行為的數(shù)目相對(duì)較少,因此異常檢測(cè)技術(shù)可以用來(lái)構(gòu)造合法交易的輪廓。當(dāng)一個(gè)新的交易到達(dá)時(shí)就與之比較。如果該交易的特性與所構(gòu)造的輪廓很不相同,就把交易標(biāo)記為可能是欺詐。第二章數(shù)據(jù)一、理解數(shù)據(jù)例1。有人給你如下數(shù)據(jù),每行包含一個(gè)病人的信息,用前4個(gè)字段預(yù)測(cè)后一個(gè)字段。01223233.5010.702012116.52210.7027165240427.6你做了相關(guān)的工作后再與數(shù)據(jù)提供者交流,字段1只是一個(gè)標(biāo)號(hào)不代表任何實(shí)際意義,而字段4中0表示缺失值,在錄入數(shù)據(jù)時(shí)偏偏所有的10都變成了0.?!二、數(shù)據(jù)屬性及其類型屬性(Attitude)是對(duì)象的性質(zhì)或特性。屬性類型描述例子分類的(定性的)標(biāo)稱屬性值只是不同的名字,只提供足夠的信息區(qū)分對(duì)象(=,!=)郵編、ID號(hào)、顏色、性別序數(shù)屬性值只是確定對(duì)象的序(<或>)礦石硬度等級(jí)、成績(jī)(A、B、C)數(shù)值的(定量的)區(qū)間屬性值之間的差是有意義的(+或-)日期、溫度比率屬性值之間的差或比都有意義。絕對(duì)溫度、年齡、銷售量等三、數(shù)據(jù)集的類型1、記錄數(shù)據(jù)。如TidRufundMaritalStatusTaxableIncomeDefaultedBorrower1YesSingle125KNo2NoMarried100KNo3Yesdevorce189KYes三、數(shù)據(jù)集的類型2、事務(wù)數(shù)據(jù)(購(gòu)物籃數(shù)據(jù)),如顧客購(gòu)買商品1面包,黃油,尿布,啤酒2咖啡,糖,小甜餅,鮭魚(yú),啤酒3面包,黃油,咖啡,尿布,啤酒,雞蛋4面包,黃油,鮭魚(yú),雞5雞蛋,面包,黃油6鮭魚(yú),尿布,啤酒7面包,茶,糖雞蛋8咖啡,糖,雞,雞蛋9面包,尿布,啤酒,鹽10茶,雞蛋,小甜餅,尿布,啤酒三、數(shù)據(jù)集的類型3、矩陣數(shù)據(jù)。如距離矩陣,協(xié)方差矩陣,相關(guān)系數(shù)矩陣等。4、文檔—詞數(shù)據(jù)。如teamcoachplayballscoregamewinlostfauldoc1305601804Doc2078930156doc30100010405、時(shí)間序列數(shù)據(jù)6、其他四、數(shù)據(jù)對(duì)象之間的相異度和相似度1、簡(jiǎn)單屬性的相似度和相異度假設(shè)數(shù)據(jù)對(duì)象只有一個(gè)屬性,則通常其相似度和相異度可按如下定義。1.1標(biāo)稱屬性的相異度和相似度d=0,如果x=y1,如果xy相異度相似度:s=1-d例如,如果只考慮顧客的性別屬性,如果都是“男”,則他們的相似度為1,相異度為0.1、簡(jiǎn)單屬性的相似度和相異度1.2序數(shù)屬性的相異度和相似度d=|x-y|/(n-1),相異度相似度:s=1-d例如,考慮學(xué)生的成績(jī),共分為A、B、C、D四個(gè)等級(jí),則n=4,相異度為2/3.其中n為屬性取值的總個(gè)數(shù)。1、簡(jiǎn)單屬性的相似度和相異度1.3區(qū)間或比率屬性的相異度和相似度d=|x-y|相異度較常用的相似度有:s=1/(1+d),例如,考慮如下的身高數(shù)據(jù)S=1-(d-min_d)/(max_d-min_d)學(xué)生S1S2S3S4S5S6S7身高156178166170185168180可以計(jì)算學(xué)生身高的相異度矩陣如下:學(xué)生S1S2S3S4S5S6S7身高156178166170185168180S1S2S3S4S5S6S7S10221014291224S201287102S30419214S4015210S50175S6012S70二元屬性:屬性的值只接受兩個(gè)值:如真/假,男/女、是/否等,通常用0/1表示。則S2與S6之間的相異度為10,而相似度為1/11,有min_d=2,max_d=29,因此,也可以定義相似度為1-(10-2)/(29-2)=19/27。2.數(shù)據(jù)對(duì)象之間的相似度—相似性度量的例子2.1。二元數(shù)據(jù)的相似性度量?jī)蓚€(gè)僅包含二元屬性的對(duì)象之間的相似性度量也稱為相似系數(shù)。設(shè)x和y是兩個(gè)對(duì)象,都由n個(gè)二元屬性組成。定義如下四個(gè)量f00=x取0且y取0的屬性個(gè)數(shù)f01=x取0且y取1的屬性個(gè)數(shù)f10=x取1且y取0的屬性個(gè)數(shù)f11=x取1且y取1的屬性個(gè)數(shù)2.1.1一種常用的相似系數(shù)是簡(jiǎn)單匹配系數(shù)(SimpleMatchingCoeffient,SMC),定義如下SMC=f00+f11f00+f11+f10+f01對(duì)于類似顧客是否購(gòu)買某商品這樣的非對(duì)稱二元數(shù)據(jù),這個(gè)相似系數(shù)則難以體現(xiàn)顧客相同的購(gòu)買行為。Why?2.1.2Jaccard

相似系數(shù)。Jaccard(Jaccard

Coeffient,JC)相似系數(shù)定義如下J=f11f11+f10+f01例1.設(shè)二元數(shù)據(jù)對(duì)象x和y如下,計(jì)算其SMC和J。x=(1000101001)y=(1010110011)解:f00=3f01=3f10=1f11=3因此,SMC=6/10,J=3/7例2.設(shè)兩個(gè)顧客x和y購(gòu)買的商品如下,計(jì)算它們的相似系數(shù)SMC和J。商品面包啤酒牛奶茶糖雞蛋鹽大米洋蔥大蒜派x10100010010y10100010010商品純凈水可樂(lè)水餃口香糖牙膏毛巾洗面奶洗發(fā)水面粉味精派瓜子x10010100000y010100000002.1.3余弦相似度通常類似于文檔—詞這樣的數(shù)據(jù),度量其相似性不能依賴共享0的個(gè)數(shù),如果統(tǒng)計(jì)0-0匹配,則大多數(shù)文檔都非常相似,因此同樣要忽略0-0匹配。這類數(shù)據(jù)最常用的相似度之一就是余弦相似度,定義如下Cos(x,y)=xy/(||x||||y||)2.1.4廣義Jaccard系數(shù)廣義Jaccard系數(shù)也可以用于文檔數(shù)據(jù),并在二元屬性情況下歸約為Jaccard系數(shù),其定義如下:例3.兩個(gè)文檔向量x和y如下,分別計(jì)算其余弦相似度cos(x,y)和EJx=(3205000200)EJ=xy/(||x||2+||y||2-xy)y=(1003106001)2.1.4相關(guān)性兩個(gè)具有二元變量或連續(xù)的數(shù)據(jù)之間對(duì)象之間的相關(guān)性是對(duì)象之間線性聯(lián)系的度量,一般可以用Pearson相關(guān)系數(shù)(Pearson,scorrelation)來(lái)描述。其定義如下:其中第三章數(shù)據(jù)挖掘中的統(tǒng)計(jì)方法一、數(shù)據(jù)探索1.1匯總統(tǒng)計(jì)1.1.1頻率與眾數(shù)給定一個(gè)在{v1,v2,....,vk}取值的分類屬性x和m個(gè)對(duì)象的集合,值vi的頻率定義為f(vi)=具有屬性值vi的對(duì)象數(shù)/m眾數(shù):具有最高頻率的分類屬性例1.某所大學(xué)中各年級(jí)的學(xué)生人數(shù)如下表:則年級(jí)屬性的眾數(shù)為“一年級(jí)”。對(duì)于連續(xù)屬性,按照目前的定義,眾數(shù)通常沒(méi)有用(為什么?),但在某些情況下,眾數(shù)可能提供關(guān)于值的性質(zhì)或關(guān)于出現(xiàn)遺漏值的重要信息。年級(jí)人數(shù)頻率一年級(jí)2000.33二年級(jí)1600.27三年級(jí)1300.22四年級(jí)1100.18例如,以毫米為單位,20個(gè)人的身高通常不會(huì)重復(fù),但如果以分米為單位,則某些人很可能具有相同的身高。此外,如果使用一個(gè)唯一的值表示遺漏值,該值通常用眾數(shù)。1.1.2百分位數(shù)百分位數(shù)的定義:設(shè)有容量為n的樣本觀察值想x1,x2,x3,...,xn,樣本的p分位數(shù)(0<p<1)是指滿足如下性質(zhì)的xp

:A:至少有np個(gè)觀察值小于或等于xp。B:至多有n(1-p)個(gè)觀察值大于或等于xp。樣本的p分位數(shù)xp可以按如下方法求得:將觀察值按自小到大的順序排列成:x(1)≤x(2)

≤...≤x(n);即:xp=1。:若np不是整數(shù),則只有一個(gè)數(shù)據(jù)滿足定義的兩點(diǎn)要求,這一數(shù)據(jù)位于大于np的最小整數(shù)處,即[np]+1處;2。:若np是整數(shù),則位于np和np+1位置的數(shù)據(jù)均符合要求,此時(shí)取這兩個(gè)數(shù)的平均值作為xp;x([np]+1)當(dāng)np不是整數(shù)(x(np)+x(np+1))/2當(dāng)np是整數(shù)與分位數(shù)有關(guān)常用術(shù)語(yǔ)一、極差:x(n)-

x(1);median(x)=二、中位數(shù):p=0.5,此時(shí)xp稱為中位數(shù),記為median(x)其計(jì)算如下:x([n/2]+1)當(dāng)n為奇數(shù)(x(n/2)+x(n/2+1))/2當(dāng)n整為偶數(shù)三、第一四分位數(shù)Q1:p=0.25;第三四分位數(shù)Q3:p=0.75;四分位數(shù)極差I(lǐng)QR=Q3-Q1;例1.下表是中國(guó)各?。ㄊ校﹪?guó)有單位的人均報(bào)酬,單位:元/年。分別計(jì)算p=0.25,0.5,0.75時(shí)的分位數(shù)及樣本均值。地區(qū)上海浙江浙江北京西藏人均年收入5031147587475874582344813地區(qū)廣東天津江蘇青海福建人均年收入3605334509327382868127423地區(qū)山東山東寧夏重慶遼寧人均年收入2698626986261572506024281地區(qū)四川湖南湖南內(nèi)蒙古廣西人均年收入2404522956229562271122614地區(qū)云南山西河南甘肅安徽人均年收入2227522107220442196821960地區(qū)貴州湖北吉林陜西新疆人均年收入2160821591215022134521213地區(qū)河北江西海南黑龍江

人均年收入20754192981872018392

解:n=34,n*0.75=8.5,Q3=32738(江蘇),同理,median=22956(湖北或湖南),Q1=21608(貴州),Q3-Q1=11130,樣本均值為27501.59箱線圖如下:Q318392黑龍江Q1MinMax21608貴州32738江蘇50311上海M箱線圖的說(shuō)明:若中位數(shù)位于箱子中間,則數(shù)據(jù)分布較為對(duì)稱;若Min離M的距離較Max離M的距離大,在表示數(shù)據(jù)分布向左傾斜;反之向右。二、估計(jì)2.1點(diǎn)估計(jì)2.1.1矩估計(jì)與極大似然估計(jì)另外一種常用的估計(jì)方法為折疊刀估計(jì),它通過(guò)從一組觀測(cè)值中忽略一個(gè)值來(lái)實(shí)現(xiàn)對(duì)參數(shù)的估計(jì)。假設(shè)一個(gè)具有n個(gè)值的集合x(chóng)={x1,x2,...,xn},對(duì)均值的單次估計(jì)為:2.1.2折疊刀估計(jì)θ(i)=(x1+...+xi-1+xi+1+...xn)/(n-1)對(duì)這些單次估計(jì)求平均值θ=(θ(1)+...θ(n))/n作為總統(tǒng)的均值估計(jì)。例:設(shè)總體的分布率如下:現(xiàn)有樣本的10個(gè)觀察值:3,3,2,2,1,2,1,2,3,3,分別用矩估計(jì)發(fā)、極大似然估計(jì)法和折疊刀估計(jì)法估計(jì)θ。解:矩估計(jì)法X123Pkθ22θ(1-θ)(1-θ)2E(X)=3-2θ,又樣本均值為2.2,因此θ得矩估計(jì)值為0.4極大似然估計(jì):L(θ)=。。。。,θ的極大似然估計(jì)值也是0.4數(shù)據(jù):3,3,2,2,1,2,1,2,3,3折疊刀估計(jì)法計(jì)算θ(1)=(3+2+2+1+2+1+2+3+3)/9=θ(2)=θ(9)=θ(10)=19/9;因此對(duì)總體均值的估計(jì)為:((19/9+20/9)*4+21/9*2)/10=19.8/9;θ(3)=(3+3+2+1+2+1+2+3+3)/9=θ(4)=θ(6)=θ(8)=20/9;θ(5)=(3+3+2+2+2+1+2+3+3)/9=θ(7)=θ(6)=21/9;又E(X)=3-2θ,令3-2θ=19.8/9;

解得θ=0.4估計(jì)的一個(gè)指導(dǎo)思想是奧卡姆剃刀原則(Ockham’sRazor):越簡(jiǎn)單的模型能產(chǎn)生越好的結(jié)果。三、主成分分析3.1主成分分析概述在處理多元樣本數(shù)據(jù)時(shí),經(jīng)常遇到觀察數(shù)據(jù)多,維數(shù)很高的問(wèn)題。如果有每個(gè)觀察對(duì)象有p個(gè)屬性,選取n個(gè)對(duì)象進(jìn)行觀察,則達(dá)到n×p個(gè)數(shù)據(jù)。如何從這些數(shù)據(jù)中提取主要規(guī)律,從而分析樣本或總體的主要性質(zhì)?例如,要分析若干個(gè)地區(qū)的經(jīng)濟(jì)發(fā)展?fàn)顩r,對(duì)每個(gè)地區(qū)都要統(tǒng)計(jì)很多指標(biāo),但如果只根據(jù)這些統(tǒng)計(jì)數(shù)據(jù)對(duì)不同地區(qū)進(jìn)行評(píng)價(jià)、比較或排序,則因指標(biāo)太多、主次不明顯很難做到公正客觀。另外,這些指標(biāo)有點(diǎn)是主要的,有點(diǎn)是有的是次要的,甚至某些指標(biāo)間還有一定的相關(guān)性。能否用較少的幾項(xiàng)指標(biāo)來(lái)代替原來(lái)較多的指標(biāo),使得這較少的幾項(xiàng)指標(biāo)仍能反映原來(lái)較多的指標(biāo)反映的信息?主成分分析就是把一種原來(lái)多個(gè)指標(biāo)變量轉(zhuǎn)化為少數(shù)幾個(gè)相互獨(dú)立指標(biāo)變量的統(tǒng)計(jì)方法,它不是去分析比較各指標(biāo)的重要性,將那些不重要的指標(biāo)簡(jiǎn)單去掉,而是通過(guò)全面分析各項(xiàng)指標(biāo)所攜帶的信息,從中提取一下潛在的綜合性指標(biāo)(稱為主成分)。三、主成分分析3.2主成分分析的數(shù)學(xué)模型及其求解步驟設(shè)每個(gè)數(shù)據(jù)對(duì)象的有p個(gè)屬性(指標(biāo))觀察了n次,得到觀察數(shù)據(jù)矩陣為用數(shù)據(jù)矩陣X的p個(gè)指標(biāo)作線性組合(即綜合變量)為:系數(shù)aij的確定方法:對(duì)數(shù)據(jù)集X進(jìn)行標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化后的數(shù)據(jù)仍記為X,然后求出X的樣本協(xié)方差陣S和相關(guān)系數(shù)陣R,進(jìn)而求出R的特征值與及其對(duì)應(yīng)的特征向量。特征值按從大到小順序排列對(duì)應(yīng)的標(biāo)準(zhǔn)化特征向量為則第i個(gè)綜合變量的組合系數(shù)(a1i,a2i,…,api)即為第i個(gè)特征值對(duì)應(yīng)的標(biāo)準(zhǔn)化特征向量。即第一個(gè)綜合變量為:第i個(gè)綜合變量為:可以Zi與Zj是正交的,因此主成分分析去除了指標(biāo)之間的線性相關(guān)性。主成分分析的目的之一就是為了簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu),因而在實(shí)際應(yīng)用中一般絕不用p個(gè)主成分,而選用m個(gè)主成分(m<p)。m取多大,這是一個(gè)和實(shí)際的問(wèn)題,為此引入貢獻(xiàn)率的概念。定義3.1:稱為主成分Zi的貢獻(xiàn)率。m的確定:通常累積貢獻(xiàn)率達(dá)到70%以上時(shí)即可。為m個(gè)主成分Z1,Z2,…,Zm的累積貢獻(xiàn)率。主成分分析的幾何意義。Z1Z2三、主成分分析3.3主成分分析實(shí)例附表1是2008年中國(guó)內(nèi)地各地區(qū)按登記注冊(cè)類型分城鎮(zhèn)單位就業(yè)人員平均勞動(dòng)報(bào)酬(數(shù)據(jù)來(lái)源:中國(guó)統(tǒng)計(jì)年鑒2008),對(duì)其進(jìn)行主成分分析。

地區(qū)國(guó)有單位x1城鎮(zhèn)集體單位x2股份合作單位x3聯(lián)營(yíng)單位x4有限責(zé)任公司x5股份有限公司x6其他x7港、澳、臺(tái)商投資單位x8河北2075412304157433630919803181151182019160山西2210713987127101486023621189921268310591遼寧2428112117145921521821803289971210321866吉林2150211087106561193016774252061241214691北京4582348328202351621831124354806135732892上海5031127949238783900938783553185251829679江蘇3273818496173071680923372293721814821356浙江4758725242240533512922487305042643722717安徽2196015109150201415424566244151427015514江西1929812404145371517717610210411255411637山東2698615502168723375818306209111498118471河南2204415674175811337019728217711748820133湖北2159112869145321239316674158821076215296廣東3605316347205862810530694442132357320770主成分分析步驟:1.對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化:設(shè)標(biāo)準(zhǔn)后的數(shù)據(jù)仍記為X。2.求觀察數(shù)據(jù)的相關(guān)系數(shù)矩陣。數(shù)據(jù)標(biāo)準(zhǔn)化后,樣本的相關(guān)系數(shù)矩陣即為:3.計(jì)算樣本相關(guān)陣的特征值和特征向量,并按特征值從小到大排列。4.計(jì)算累積貢獻(xiàn)率,確定綜合變量個(gè)數(shù)。標(biāo)準(zhǔn)化后的數(shù)據(jù)為如下,設(shè)為X。-0.2723-0.61285-0.32362-0.724231.430795-0.53864-0.89136-0.61372-0.075-0.44045-0.23018-0.44328-1.091290.23062-0.656020.059896-0.81125-0.55905-1.45232-0.48661-0.16252-0.63169-0.61494-0.48387-0.62119-0.225110.10271-0.595790.359937-0.3811-0.24901-0.73546-1.611171.465707-0.94108-1.01349-0.2436-0.57622-0.793310.0089940.5079743.0165980.813342-0.23476-0.52391.2361260.6949332.5245212.1321672.914370.6476620.9633991.7354111.8312151.6934832.4368122.5071381.9645571.6157351.3840980.1007050.0110030.072244-0.81171-0.46640.0208610.136967-0.212830.277963-0.079680.5628780.6906671.7797041.9680871.31599-0.117880.2403750.3122870.496719-0.28435-0.23476-0.33024-0.50661-0.59068-0.724710.208042-0.31586-0.45851-0.66103-0.51493-0.31761-0.60277-0.62886-0.46865-0.62518-0.88244-0.62407-0.56722-1.28419-1.07672-0.07833-0.29064-0.03786-0.815041.182603-0.77333-0.63595-0.41347-0.18575-0.45061-0.23215-0.273320.141596-0.79867-0.80098-0.5504-0.55739-0.254650.081388-0.43712-0.24624-0.55592-0.63013-0.46725-0.89604-1.02917-1.09535-0.68075-0.69607-0.297770.203884-0.205510.902182-0.100780.6326121.1687161.4926940.1308480.1837740.141896按公式求出相關(guān)系數(shù)矩陣R如下:10.79410.89770.57740.5440.77710.81060.8540.82710.71610.794110.6380.24530.17790.64280.52460.93690.82720.91180.89770.63810.38960.670.69310.72240.70940.75950.48940.57740.24530.389610.35990.35960.51120.37950.22910.26230.5440.17790.670.359910.3990.44580.30850.40370.12440.77710.64280.69310.35960.39910.90410.81540.70940.70740.81060.52460.72240.51120.44580.904110.74230.71420.62040.8540.93690.70940.37950.30850.81540.742310.87220.93340.82710.82720.75950.22910.40370.70940.71420.872210.83750.71610.91180.48940.26230.12440.70740.62040.93340.83751求R的特征值和特征向量,特征值從小到大排列,并計(jì)算相應(yīng)的貢獻(xiàn)率,如下表:特征值貢獻(xiàn)率累積貢獻(xiàn)率5.19050.6488130.6488131.19220.1490250.7978380.76840.096050.8938880.43080.053850.9477380.22710.0283880.9761250.13430.0167880.9929130.03830.0047880.99770.01830.0022880.999988從上表可以看出,主成分的個(gè)數(shù)取2—3個(gè)較好。這里取3個(gè)。他們對(duì)于的單位特征向量為:0.3728-0.2601-0.30430.2175-0.44010.79280.236-0.6399-0.42040.39380.06570.04180.393-0.08210.15670.40790.25910.05370.39230.2063-0.24840.35810.45660.1056第一主成分為:Z1=0.3728*x1+0.2175*x2+0.236*x3+0.3938*x4+…+0.3581*x8同樣方法可以得到另外兩個(gè)主成分。根據(jù)實(shí)際情況,可以對(duì)相應(yīng)的主成分命名。如上,原數(shù)據(jù)要考慮8個(gè)因素,通過(guò)提取主成分后只需要考慮3個(gè)因素,設(shè)原數(shù)據(jù)集(未標(biāo)準(zhǔn)化前)為X,三個(gè)最大特征值對(duì)應(yīng)的特征向量構(gòu)成的矩陣為:主成分分析的應(yīng)用:1)降維做矩陣乘法X*V,即可把原8維數(shù)據(jù)降為3維數(shù)據(jù)。如本例,變換后的數(shù)據(jù)為地區(qū)綜合變量Z1綜合變量Z2綜合變量Z3河北55100-42471502山西45930-86292329遼寧54100-1782996吉林44640-2085716北京101310-1075711556上海114870-2568-2423江蘇62860-74391115浙江82530-14686-2119安徽51360-67062827江西43900-6874484山東58920-6980617河南51740-6182929湖北41890-7814449廣東79700-4616-1969當(dāng)?shù)谝恢鞒煞值南禂?shù)(最大特征值對(duì)應(yīng)的特征向量)全部同號(hào)是,可按第一主成分對(duì)數(shù)據(jù)進(jìn)行排序。如本例,所給省市的勞動(dòng)報(bào)酬由高到低依次為主成分分析的應(yīng)用:1)排序地區(qū)上海北京浙江廣東江蘇山東河北Z11148701013108253079700628605892055100遼寧河南安徽山西吉林江西湖北54100517405136045930446404390041890敬請(qǐng)各位同學(xué)提出寶貴意見(jiàn)非常

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論