《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財(cái)會(huì))》課件 第4、5章 商品零售購物籃分析及應(yīng)用、主成分分析及應(yīng)用_第1頁
《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財(cái)會(huì))》課件 第4、5章 商品零售購物籃分析及應(yīng)用、主成分分析及應(yīng)用_第2頁
《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財(cái)會(huì))》課件 第4、5章 商品零售購物籃分析及應(yīng)用、主成分分析及應(yīng)用_第3頁
《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財(cái)會(huì))》課件 第4、5章 商品零售購物籃分析及應(yīng)用、主成分分析及應(yīng)用_第4頁
《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財(cái)會(huì))》課件 第4、5章 商品零售購物籃分析及應(yīng)用、主成分分析及應(yīng)用_第5頁
已閱讀5頁,還剩77頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第4章商品零售購物籃分析及應(yīng)用CONTENTS目錄4.1背景與挖掘目標(biāo)4.2了解關(guān)聯(lián)規(guī)則4.3分析過程與方法014.1背景與挖掘目標(biāo)關(guān)聯(lián)分析關(guān)聯(lián)分析是數(shù)據(jù)挖掘中一種簡單而實(shí)用的技術(shù)通過深入分析數(shù)據(jù)集,尋找事物間的關(guān)聯(lián)性,挖掘頻繁出現(xiàn)的組合,并描述組合內(nèi)對象同時(shí)出現(xiàn)的模式和規(guī)律在商品推薦領(lǐng)域廣泛使用,在醫(yī)療、保險(xiǎn)、電信和證券等行業(yè)同樣大有可為“購物籃分析”是關(guān)聯(lián)規(guī)則應(yīng)用最常見的一個(gè)場景:通過對顧客的購買記錄數(shù)據(jù)庫進(jìn)行分析,發(fā)掘商品與商品之間的關(guān)聯(lián)關(guān)系,找出顧客的購買行為特征和購買習(xí)慣的內(nèi)在共性4.1背景與挖掘目標(biāo)本章目標(biāo)基于金融產(chǎn)品的銷售數(shù)據(jù),利用關(guān)聯(lián)規(guī)則中的Apriori算法發(fā)現(xiàn)不同金融產(chǎn)品的關(guān)聯(lián)關(guān)系,將關(guān)系較強(qiáng)的產(chǎn)品組合銷售構(gòu)建金融產(chǎn)品的Apriori關(guān)聯(lián)規(guī)則模型分析產(chǎn)品之間的關(guān)聯(lián)性根據(jù)模型結(jié)果給出銷售建議4.1背景與挖掘目標(biāo)024.2了解關(guān)聯(lián)規(guī)則024.2.1基本概念

4.2.1基本概念數(shù)據(jù)集實(shí)例:TID項(xiàng)集1{面包,牛奶}2{面包,尿布,啤酒,咖啡}3{牛奶,尿布,啤酒,可樂}4{牛奶,面包,尿布,啤酒}5{牛奶,面包,尿布,可樂}4.2.1基本概念1)

關(guān)聯(lián)規(guī)則(AssociationRules):關(guān)聯(lián)規(guī)則是形如A→B蘊(yùn)含的表達(dá)式,其中A和B是不相交的項(xiàng)集,A稱為規(guī)則的前件(antecedent),而B稱為規(guī)則的后件(consequent),如{牛奶,尿布}→{啤酒},{牛奶,尿布}為規(guī)則的前件,{啤酒}為規(guī)則的后件。2)

項(xiàng)集(Itemset):包含0個(gè)或多個(gè)項(xiàng)的集合,如在表中{牛奶}構(gòu)成一個(gè)一項(xiàng)集,{牛奶,尿布,啤酒}構(gòu)成一個(gè)三項(xiàng)集。4.2.1基本概念

4.2.1基本概念5)頻繁項(xiàng):在多個(gè)事務(wù)中頻繁出現(xiàn)的項(xiàng)就是頻繁項(xiàng)。6)頻繁項(xiàng)集(FrequentItemset):假設(shè)有一系列的事務(wù),將這些事務(wù)中同時(shí)出現(xiàn)的頻繁項(xiàng)組成一個(gè)子集,且子集滿足最小支持度閾值(MinimumSupport),這個(gè)集合稱為頻繁項(xiàng)集。假設(shè)最小支持度為0.2,則由于項(xiàng)集{牛奶,尿布,啤酒}的支持度為0.4大于0.2,因此項(xiàng)集{牛奶,尿布,啤酒}為頻繁項(xiàng)集。4.2.1基本概念

4.2.1基本概念

4.2.1基本概念9)關(guān)聯(lián)規(guī)則的強(qiáng)度:(1)支持度,確定項(xiàng)集的頻繁程度,表示項(xiàng)集的重要程度;(2)置信度,確定B在包含A的事務(wù)中出現(xiàn)的頻繁程度,表示關(guān)系的可信程度;(3)提升度,在含有A的條件下同時(shí)含有B的可能性,與沒有這個(gè)條件下項(xiàng)集中含有的B的可能性之比。規(guī)則的提升度的意義在于度量項(xiàng)集{A}和項(xiàng)集{B}的獨(dú)立性,即Lift(A->B)=1,{A}、{B}相互獨(dú)立。1)若該值=1,說明事務(wù)A與事務(wù)B是獨(dú)立的。2)若該值<1,說明事務(wù)A與事務(wù)B是互斥的。3)若該值>1,說明事務(wù)A與事務(wù)B是強(qiáng)項(xiàng)關(guān)聯(lián)。一般在數(shù)據(jù)挖掘中當(dāng)提升度大于3時(shí),我們才承認(rèn)數(shù)據(jù)挖掘的關(guān)聯(lián)是有價(jià)值的。4.2.1基本概念024.2.2實(shí)現(xiàn)方法1.Apriori算法(1)Apriori算法原理如果一個(gè)項(xiàng)集是頻繁的,則它的所有子集也一定是頻繁的;反之,如果一個(gè)項(xiàng)集是非頻繁的,則它的所有超集也一定是非頻繁的?;贏priori原理,一旦發(fā)現(xiàn)某項(xiàng)集是非頻繁的,即可將整個(gè)包含該超集的子集剪枝。這種基于支持度度量修剪指數(shù)搜索空間的策略稱為基于支持度的剪枝。4.2.2實(shí)現(xiàn)方法1.Apriori算法(1)Apriori算法原理若D為非頻繁項(xiàng)集,則顏色加深部分就是被剪枝的超集,也就是非頻繁項(xiàng)集。4.2.2實(shí)現(xiàn)方法(2)Apriori算法具體步驟掃描數(shù)據(jù)庫,生成候選項(xiàng)集和頻繁項(xiàng)集;從2項(xiàng)集開始循環(huán),由頻繁(k-1)項(xiàng)集生成頻繁k項(xiàng)集:頻繁(k-1)項(xiàng)集兩兩組合,判定是否可以連接,若能則連接生成k項(xiàng)集;對k項(xiàng)集中的每個(gè)項(xiàng)集檢測其子集是否頻繁,舍棄掉不是頻繁項(xiàng)集的子集;掃描數(shù)據(jù)庫,計(jì)算前一步中過濾后的k項(xiàng)集的支持度,舍棄掉支持度小于閾值的項(xiàng)集,生成頻繁k項(xiàng)集。若當(dāng)前k項(xiàng)集中只有一個(gè)項(xiàng)集時(shí),循環(huán)結(jié)束4.2.2實(shí)現(xiàn)方法(3)Apriori算法優(yōu)缺點(diǎn)優(yōu)點(diǎn):Apriori算法是關(guān)聯(lián)規(guī)則最常用也是最經(jīng)典的分析頻繁項(xiàng)集的算法,算法已大大壓縮了頻繁項(xiàng)集的大小,并可以取得良好性能。缺點(diǎn):Apriori算法每次計(jì)算支持度與置信度都需要重新掃描所有數(shù)據(jù)。其次,算法有的多次掃描事務(wù)數(shù)據(jù)的缺陷,在每一步產(chǎn)生候選集時(shí)循環(huán)產(chǎn)生的項(xiàng)集過多,沒有排除不應(yīng)該參與組合的元素。適用場景:Apriori算法除了適用在商品零售購物籃分析外,近年來也廣泛應(yīng)用在金融行業(yè)中,可以成功預(yù)測銀行客戶的需求;還應(yīng)用于網(wǎng)絡(luò)安全領(lǐng)域,檢測出用戶行為的安全模式進(jìn)而鎖定攻擊者。此外,Apriori算法還可應(yīng)用于高校管理、移動(dòng)通訊、中醫(yī)證型等領(lǐng)域。4.2.2實(shí)現(xiàn)方法2.FP-Growth算法(1)FP-Growth算法原理算法的基本思路:把數(shù)據(jù)集中的事務(wù)映射到一棵FP-tree上面,再根據(jù)這棵樹找出頻繁項(xiàng)集。FP-Growth算法被用于挖掘頻繁項(xiàng)集,將數(shù)據(jù)集存儲(chǔ)為FP樹的數(shù)據(jù)結(jié)構(gòu),以更高效地發(fā)現(xiàn)頻繁項(xiàng)集或頻繁項(xiàng)對。相比于Apriori算法對每個(gè)潛在的頻繁項(xiàng)集都掃描數(shù)據(jù)集,判定是否滿足支持度,F(xiàn)P-Growth算法只需要對數(shù)據(jù)庫進(jìn)行兩次遍歷,就可以高效發(fā)現(xiàn)頻繁項(xiàng)集,因此,它在大數(shù)據(jù)集上的速度要優(yōu)于Apriori算法。4.2.2實(shí)現(xiàn)方法(2)FP-Growth算法步驟FP-Growth算法的步驟,大體上可以分成兩步:第一步,F(xiàn)P-tree的構(gòu)建;第二步,在FP-Tree上挖掘頻繁項(xiàng)集。掃描第一遍數(shù)據(jù)庫,找出頻繁項(xiàng);將記錄按照頻繁項(xiàng)集的支持度由大到小順序重新排列;掃描第二遍數(shù)據(jù)庫,產(chǎn)生FP-tree;從FP-tree挖掘得到頻繁項(xiàng)集。4.2.2實(shí)現(xiàn)方法024.2.3評(píng)價(jià)方法

4.2.3評(píng)價(jià)方法1)客觀標(biāo)準(zhǔn)(1)提升度與興趣因子進(jìn)行度量興趣因子的局限性:當(dāng)規(guī)則的置信度與規(guī)則后件支持度數(shù)值大小相近時(shí),因?yàn)楸嚷实男问窖谏w了分子、分母本身的數(shù)值大小,提升度就不足以說明問題。尤其是當(dāng)后件的支持度本身很小時(shí),如果再除以后件的支持度,相當(dāng)于乘了一個(gè)很大的數(shù),會(huì)讓興趣因子很模糊。4.2.3評(píng)價(jià)方法1)客觀標(biāo)準(zhǔn)(2)相關(guān)分析進(jìn)行度量相關(guān)分析是一種基于統(tǒng)計(jì)學(xué)的技術(shù),對于連續(xù)型變量,相關(guān)度可以采用皮爾森相關(guān)系數(shù)表示。相關(guān)度的值從-1(完全負(fù)相關(guān))到+1(完全正相關(guān)),如果變量是相互獨(dú)立的,那么相關(guān)度為0。如果變量是正相關(guān),相關(guān)度大于0,同理,如果變量負(fù)相關(guān),相關(guān)度小于0。相關(guān)分析進(jìn)行度量的局限性:相關(guān)分析中把事務(wù)記錄中項(xiàng)的出現(xiàn)與不出現(xiàn)視為同等重要,因此相關(guān)分析更適合于分析對稱的二元變量。4.2.3評(píng)價(jià)方法

4.2.3評(píng)價(jià)方法2)主觀標(biāo)準(zhǔn)常見的將主觀信息加入到模式發(fā)現(xiàn)任務(wù)的方法有以下幾種:(1)可視化方法:將數(shù)據(jù)中蘊(yùn)含的信息通過數(shù)據(jù)可視化方法進(jìn)行呈現(xiàn),需要友好的環(huán)境,以及用戶的參與,允許領(lǐng)域?qū)<医忉尯蜋z驗(yàn)發(fā)現(xiàn)的模式,只有符合觀察到的信息的模式才被認(rèn)為是有趣的。(2)基于模板的方法:該方法通過限制提取的模式類型,只有滿足指定模板的模式被認(rèn)為是有趣的提供給用戶,而不報(bào)告所有提取的所有模式。(3)主觀興趣度量:該方法基于領(lǐng)域信息定義一些主觀度量,例如:企業(yè)的利潤,概念的分層等;利用主觀度量來過濾顯而易見和沒有實(shí)際價(jià)值的模式。4.2.3評(píng)價(jià)方法034.3分析過程與方法金融產(chǎn)品關(guān)聯(lián)規(guī)則挖掘的總體流程4.3分析過程與方法034.3.1數(shù)據(jù)探索分析4.3.1數(shù)據(jù)探索分析探索數(shù)據(jù)特征是了解數(shù)據(jù)的第一步。分析產(chǎn)品銷售情況和結(jié)構(gòu),是為了更好地實(shí)現(xiàn)企業(yè)的經(jīng)營目標(biāo),也是產(chǎn)品管理中不可或缺的一部數(shù)據(jù)特征data.info()#查看數(shù)據(jù)屬性4.3.1數(shù)據(jù)探索分析數(shù)據(jù)特征data.head()#查看前5行數(shù)據(jù)用戶編號(hào)購買產(chǎn)品0華小智2號(hào)產(chǎn)品,華小智4號(hào)產(chǎn)品,華小智5號(hào)產(chǎn)品,華小智6號(hào)產(chǎn)品1華大智1號(hào)產(chǎn)品,華大智2號(hào)產(chǎn)品,華大智5號(hào)產(chǎn)品,華大智6號(hào)產(chǎn)品2華小智9號(hào)產(chǎn)品,華小智10號(hào)產(chǎn)品,華小智12號(hào)產(chǎn)品3華大智1號(hào)產(chǎn)品,華大智5號(hào)產(chǎn)品4華大智5號(hào)產(chǎn)品,華大智6號(hào)產(chǎn)品4.3.1數(shù)據(jù)探索分析2.銷售情況分析觀察金融產(chǎn)品組合的銷售情況,對所有用戶購買的金融產(chǎn)品組合進(jìn)行統(tǒng)計(jì)4.3.1數(shù)據(jù)探索分析2.銷售情況分析把用戶購買的產(chǎn)品組合進(jìn)行拆分,統(tǒng)計(jì)金融產(chǎn)品的類別、銷售總數(shù)量和每一種產(chǎn)品的銷售數(shù)量034.3.2數(shù)據(jù)預(yù)處理4.3.2數(shù)據(jù)預(yù)處理通過對數(shù)據(jù)探索分析發(fā)現(xiàn)數(shù)據(jù)完整,并不存在缺失值。建模之前需要轉(zhuǎn)變數(shù)據(jù)的格式,才能使用Apriori函數(shù)進(jìn)行關(guān)聯(lián)分析。對數(shù)據(jù)進(jìn)行轉(zhuǎn)換,將其變?yōu)殡p重列表結(jié)構(gòu)#轉(zhuǎn)換為雙重列表結(jié)構(gòu)products=data['購買產(chǎn)品'].tolist()034.3.3模型構(gòu)建4.3.3模型構(gòu)建1.金融產(chǎn)品關(guān)聯(lián)規(guī)則模型構(gòu)建4.3.3模型構(gòu)建2.通過apyori庫分析關(guān)聯(lián)關(guān)系調(diào)用apyori庫中的apriori()函數(shù)進(jìn)行關(guān)聯(lián)關(guān)系分析4.3.3模型構(gòu)建3.通過mlxtend庫分析關(guān)聯(lián)關(guān)系調(diào)用mlxtend庫中的apriori()函數(shù)進(jìn)行關(guān)聯(lián)關(guān)系分析034.3.4結(jié)果分析4.3.4結(jié)果分析fromto支持度置信度lift(華中智2號(hào)產(chǎn)品)(華中智1號(hào)產(chǎn)品)0.0540000.5078374.340487(華中智3號(hào)產(chǎn)品)(華中智1號(hào)產(chǎn)品)0.0643330.5467424.67301(華中智1號(hào)產(chǎn)品)(華中智3號(hào)產(chǎn)品)0.0643330.5498584.67301(華中智4號(hào)產(chǎn)品)(華中智1號(hào)產(chǎn)品)0.0553330.5015114.286415(華中智6號(hào)產(chǎn)品)(華中智1號(hào)產(chǎn)品)0.0586670.5072054.335082(華中智1號(hào)產(chǎn)品)(華中智6號(hào)產(chǎn)品)0.0586670.5014254.335082(華中智2號(hào)產(chǎn)品)(華中智3號(hào)產(chǎn)品)0.0573330.5391854.582308(華中智2號(hào)產(chǎn)品)(華中智6號(hào)產(chǎn)品)0.0540000.5078374.390522(華中智4號(hào)產(chǎn)品)(華中智3號(hào)產(chǎn)品)0.0563330.5105744.339156(華中智5號(hào)產(chǎn)品)(華中智3號(hào)產(chǎn)品)0.0570000.5059174.299579(華中智3號(hào)產(chǎn)品)(華中智6號(hào)產(chǎn)品)0.0606670.5155814.45747(華中智6號(hào)產(chǎn)品)(華中智3號(hào)產(chǎn)品)0.0606670.5244964.45747(華大智1號(hào)產(chǎn)品)(華大智6號(hào)產(chǎn)品)0.0663330.5574234.4475244.3.4結(jié)果分析第一行from華中智2號(hào)產(chǎn)品to華中智1號(hào)產(chǎn)品,支持度約為5.4%,置信度約為50.78%。說明同時(shí)購買華中智2號(hào)產(chǎn)品、華中智1號(hào)產(chǎn)品這2種產(chǎn)品的概率達(dá)50.78%,而這種情況發(fā)生的可能性約為5.4%;提升度為4.34,說明購買華中智2號(hào)產(chǎn)品能夠促進(jìn)華中智1號(hào)產(chǎn)品的購買。顧客會(huì)同時(shí)購買多種金融產(chǎn)品,以降低風(fēng)險(xiǎn),提高投資的安全性可以考慮捆綁銷售,或者適當(dāng)調(diào)整產(chǎn)品結(jié)構(gòu),推出組合型金融產(chǎn)品以滿足顧客需求,提升顧客的購買體驗(yàn)感謝觀看第5章主成分分析及應(yīng)用CONTENTS目錄5.1主成分分析法概概述5.2主成分分析法代數(shù)模型5.3主成分分析法的步騾和方法2.4主成分分析法的操作流程5.5主成分分析舉例5.6用Python實(shí)現(xiàn)主成分分析015.1主成分分析法概概述1.主成分分析法(principalcomponentsanalysis,簡寫“PCA”)也稱主分量分析,是考察多個(gè)變量之間相關(guān)性的一種多元統(tǒng)計(jì)方法。主成分分析旨在利用降維的思想,在盡量保證數(shù)據(jù)信息丟失最小的情況下,把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)。也就是根據(jù)多個(gè)變量之間的相關(guān)關(guān)系和某種線性組合進(jìn)行轉(zhuǎn)化,得到少數(shù)幾個(gè)綜合變量,這幾個(gè)綜合變量保留較多信息,并且之間是不相關(guān)的,轉(zhuǎn)換后的這組變量稱為主成分。5.1.1主成分分析法概念2.在統(tǒng)計(jì)學(xué)中,主成分分析是一種簡化數(shù)據(jù)集的技術(shù)。它是一個(gè)線性變換。這個(gè)變換把數(shù)據(jù)變換到一個(gè)新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個(gè)坐標(biāo)(稱為第一主成分)上,第二大方差在第二個(gè)坐標(biāo)(第二主成分)上,依次類推。主成分分析經(jīng)常用減少數(shù)據(jù)集的維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集的對方差貢獻(xiàn)最大的特征。5.1.2主成分分析法降維的主要體現(xiàn)

能用來降低算法計(jì)算開銷、去除噪聲,以及使結(jié)果易于展示與理解等;

主成分分析就是找出數(shù)據(jù)里最主要的方面,用數(shù)據(jù)里最主要的方面來代原始數(shù)據(jù);

主成分分析主要應(yīng)用領(lǐng)域包括數(shù)據(jù)壓縮、簡化數(shù)據(jù)、數(shù)據(jù)可視化等。主成分分析(Principalcomponentsanalysis,PCA)是最重要的降維方法之一,在數(shù)據(jù)壓縮、消除冗余和數(shù)據(jù)噪音消除等方面有廣泛的應(yīng)用,其主要體現(xiàn)在:在實(shí)證問題研究中,為了全面、系統(tǒng)地分析問題,我們必須考慮眾多影響因素。這些涉及的因素一般稱為指標(biāo),在多元統(tǒng)計(jì)分析中也稱為變量。

因?yàn)槊總€(gè)變量都在不同程度上反映了所研究問題的某些信息,并且指標(biāo)之間彼此有一定的相關(guān)性,因而所得的統(tǒng)計(jì)數(shù)據(jù)反映的信息在一定程度上有重疊。在用統(tǒng)計(jì)方法研究多變量問題時(shí),變量太多會(huì)增加計(jì)算量和增加分析問題的復(fù)雜性,人們希望在進(jìn)行定量分析的過程中,涉及的變量較少,得到的信息量較多。主成分分析正是適應(yīng)這一要求產(chǎn)生的,是解決這類題的理想工具。5.1.3主成分分析的基本思想

在科普效果評(píng)估的過程中也存在著這樣的問題??破招Ч呛茈y具體量化的。在實(shí)際評(píng)估工作中,我們常常會(huì)選用幾個(gè)有代表性的綜合指標(biāo),采用打分的方法來進(jìn)行評(píng)估,故綜合指標(biāo)的選取是個(gè)重點(diǎn)和難點(diǎn)。如上所述,主成分分析法正是解決這一問題的理想工具。因?yàn)樵u(píng)估所涉及的眾多變量之間既然有一定的相關(guān)性,就必然存在著起支配作用的因素。根據(jù)這一點(diǎn),通過對原始變量相關(guān)矩陣內(nèi)部結(jié)構(gòu)的關(guān)系研究,找出影響科普效果某一要素的幾個(gè)綜合指標(biāo),使綜合指標(biāo)為原來變量的線性擬合。

主成分分析法是一種降維的統(tǒng)計(jì)方法,它借助于一個(gè)正交變換,將其分量相關(guān)的原隨機(jī)向量轉(zhuǎn)化成其分量不相關(guān)的新隨機(jī)向量,這在代數(shù)上表現(xiàn)為將原隨機(jī)向量的協(xié)方差陣變換成對角形陣,在幾何上表現(xiàn)為將原坐標(biāo)系變換成新的正交坐標(biāo)系,使之指向樣本點(diǎn)散布最開的p個(gè)正交方向,然后對多維變量系統(tǒng)進(jìn)行降維處理,使之能以一個(gè)較高的精度轉(zhuǎn)換成低維變量系統(tǒng),再通過構(gòu)造適當(dāng)?shù)膬r(jià)值函數(shù),進(jìn)一步把低維系統(tǒng)轉(zhuǎn)化成一維系統(tǒng)。

主成分分析的原理是設(shè)法將原來變量重新組合成一組新的相互無關(guān)的幾個(gè)綜合變量,同時(shí)根據(jù)實(shí)際需要從中可以取出幾個(gè)較少的總和變量盡可能多地反映原來變量的信息的統(tǒng)計(jì)方法叫做主成分分析或稱主分量分析,也是數(shù)學(xué)上處理降維的一種方法。5.1.4主成分分析法的基本原理

主成分分析是設(shè)法將原來眾多具有一定相關(guān)性(比如p個(gè)指標(biāo)),重新組合成一組新的互相無關(guān)的綜合指標(biāo)來代替原來的指標(biāo)。通常數(shù)學(xué)上的處理就是將原來p個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)。最經(jīng)典的做法就是用F1(選取的第一個(gè)線性組合,即第一個(gè)綜合指標(biāo))的方差來表達(dá),即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來p個(gè)指標(biāo)的信息,再考慮選取F2即選第二個(gè)線性組合,為了有效地反映原來信息,F(xiàn)1已有的信息就不需要再出現(xiàn)再F2中,用數(shù)學(xué)語言表達(dá)就是要求

,則稱F2為第二主成分,依此類推可以構(gòu)造出第三、第四,……,第p個(gè)主成分。概括起來說,主成分分析主要由以下幾個(gè)方面的作用:5.1.5主成分分析的主要作用

多維數(shù)據(jù)的一種圖形表示方法。我們知道當(dāng)維數(shù)大于3時(shí)便不能畫出幾何圖形,多元統(tǒng)計(jì)研究的問題大都多于3個(gè)變量。要把研究的問題用圖形表示出來是不可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩個(gè)主成分或其中某兩個(gè)主成分,根據(jù)主成分的得分,畫出n個(gè)樣品在二維平面上的分布情況,由圖形可直觀地看出各樣品在主分量中的地位,進(jìn)而還可以對樣本進(jìn)行分類處理,可以由圖形發(fā)現(xiàn)遠(yuǎn)離大多數(shù)樣本點(diǎn)的離群點(diǎn)。

由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來自變量X做回歸分析。

用主成分分析篩選回歸變量?;貧w變量的選擇有著重的實(shí)際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制和預(yù)報(bào),好從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合。用主成分分析篩選變量,可以用較少的計(jì)算量來選擇量,獲得選擇最佳變量子集合的效果。

主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X成份分析空間(m<p),而低維的Y空間代替高維的X空間所損失的信息很少。即:使只有一個(gè)主成分Yl(即m=1)時(shí),這個(gè)Yl仍是使用全部X變量(p個(gè))得到的。例如要計(jì)算Yl的均值也得使用全部X的均值。在所選的前m個(gè)主成分中,如果某個(gè)Xi的系數(shù)全部近似于零的話,就可以把這個(gè)Xi刪除,這也是一種刪除多余變量的方法。?

有時(shí)可通過因子負(fù)荷

的結(jié)論,弄清X變量間的某些關(guān)系。(1)綜合打分。比如員工績效的評(píng)估和排名、城市發(fā)展綜合指標(biāo)等。這類情況只要求得出一個(gè)綜合打分,

因此使用主成分分析比較適合。相對于單項(xiàng)成績簡單加總的方法,主成分分析會(huì)使得評(píng)分更聚焦于單一維度,即更關(guān)注這些原始變量的共同部分,去除不相關(guān)的部分。不過,當(dāng)主成分分析不支持取一個(gè)主成分時(shí),就不能使用該方法了。

(2)對數(shù)據(jù)進(jìn)行描述。描述產(chǎn)品情況,比如著名的波士頓矩陣、子公司的業(yè)務(wù)發(fā)展?fàn)顩r、區(qū)域投資潛力等,這類情況需要將多個(gè)變量壓縮到少數(shù)幾個(gè)主成分進(jìn)行描述,能壓縮到兩個(gè)主成分是最理想的。這類分析一般只進(jìn)行主成分分析是不充分的,進(jìn)行因子分析會(huì)更好。5.1.6主成分分析的主要應(yīng)用領(lǐng)域(3)為聚類或回歸等分析提供變量壓縮。消除數(shù)據(jù)分析中的共線性問題。消除共線性常用的有三種方法,分別是:①在同類變量中保留一個(gè)最有代表性的變量,即變量聚類;②保留主成分或因子;③從業(yè)務(wù)理解上進(jìn)行變量修改。主成分分析是以上3種方法的基礎(chǔ)。(4)去除數(shù)據(jù)中的噪音。比如圖像識(shí)別。025.2主成分分析法代數(shù)模型假設(shè)用p個(gè)變量來描述研究對象,分別用

來表示,這p個(gè)變量構(gòu)成的p維隨機(jī)向量為

。設(shè)隨機(jī)向量X的均值為μ,協(xié)方差矩陣為Σ。假設(shè)X是以n

個(gè)標(biāo)量隨機(jī)變量組成的列向量,并且

是其第k個(gè)元素的期望值,即

,

協(xié)方差矩陣然后被定義為:5.2.1主成分分析法代數(shù)模型對X進(jìn)行線性變化,考慮原始變量的線性組合:主成分是不相關(guān)的線性組合

,并且Z1是

的線性組合中方差最大者,Z2是與Z1不相關(guān)的線性組合中方差最大者,…,Zp是與

都不相關(guān)的線性組合中方差最大者。035.3主成分分析法的步驟與方法5.3.1主成分分析法基本步驟

第一步:設(shè)估計(jì)樣本數(shù)為n,選取的財(cái)務(wù)指標(biāo)數(shù)為p,則由估計(jì)樣本的原始數(shù)據(jù)可得矩陣

,其中,

表示第i家上市公司的第j項(xiàng)財(cái)務(wù)指標(biāo)數(shù)據(jù)。

第二步:為了消除各項(xiàng)財(cái)務(wù)指標(biāo)之間在量綱化和數(shù)量級(jí)上的差別,對指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,得到標(biāo)準(zhǔn)化矩陣(系統(tǒng)自動(dòng)生成)。

第三步:根據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)矩陣建立協(xié)方差矩陣R,是反映標(biāo)準(zhǔn)化后的數(shù)據(jù)之間相關(guān)關(guān)系密切程度的統(tǒng)計(jì)指標(biāo),若值越大,說明有必要對數(shù)據(jù)進(jìn)行主成分分析。其中,

為原始變量Xi與Xj的相關(guān)系數(shù)。R為實(shí)對稱矩陣(即

),只需計(jì)算其上三角元素或下三角元素即可,其計(jì)算公式為:5.3.1主成分分析法基本步驟

第四步:根據(jù)協(xié)方差矩陣R求出特征值、主成分貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率,確定主成分個(gè)數(shù)。解特征方程

,求出特征值

。因?yàn)镽是正定矩陣,所以其特征值λi都為正數(shù),將其按大小順序排列,即

。特征值是各主成分的方差,它的大小反映了各個(gè)主成分的影響力。主成分Zi的貢獻(xiàn)率

,累計(jì)貢獻(xiàn)率為

。根據(jù)選取主成分個(gè)數(shù)的原則,特征值要求大于1且累計(jì)貢獻(xiàn)率達(dá)80%-95%的特征值

所對應(yīng)的1,2,….m(m≤p),其中整數(shù)m即為主成分的個(gè)數(shù)。

第五步:建立初始因子載荷矩陣,解釋主成分。因子載荷量是主成分Zi與原始指標(biāo)Xi的相關(guān)系數(shù)

,揭示了主成分與各財(cái)務(wù)比率之間的相關(guān)程度,利用它可較好地解釋主成分的經(jīng)濟(jì)意義。

第六步:計(jì)算企業(yè)財(cái)務(wù)綜合評(píng)分函數(shù)Fm,計(jì)算出上市公司的綜合值,并進(jìn)行降序排列:5.3.2主成分分析法分析②總體主成分的計(jì)算:設(shè)

的協(xié)方差矩陣,

的特征值及相應(yīng)的正交單位化特征向量分別為

則X的第ⅰ個(gè)主成分為

此時(shí):③總體主成分性質(zhì)

(1)主成分的協(xié)方差矩陣及總方差

為主成分向量,則

,其中

,

由此得主成分的總方差為:5.3.2主成分分析法分析即主成分分析是把p個(gè)原始變量

的總方差分解成

p個(gè)互不相關(guān)變量

的方差之和,即

第k個(gè)主成分的貢獻(xiàn)率:

;前m個(gè)主成分累計(jì)貢獻(xiàn)率:它表明前m個(gè)主成分

綜合提供

中信息的能力。5.3.2主成分分析法分析④標(biāo)準(zhǔn)化變量的主成分

在實(shí)際問題中,不同的變量往往有不同的量綱,由于不同的量綱會(huì)引起各變量取值的分散程度差異較大,這時(shí)總體方差則主要受方差較大的變量的控制。為了消除由于量綱的不同可能帶來的影響,常采用變量標(biāo)準(zhǔn)化的方法,即令5.3.2主成分分析法分析5.3.2主成分分析法分析(2)樣本主成分:前面討論的是總體主成分,但在實(shí)際問題中,一般∑(或P)是未知的,需要通過樣本來估計(jì)。設(shè)

分別以S和R作為∑和P的估計(jì),然后按總體主成分分析的方法作樣本主成分分析。045.4主成分分析法的操作流程5.4.1主成分分析法的操作流程5.4.1主成分分析法的操作流程055.5主成分分析舉例5.5.1主成分分析舉例某市為了全面分析機(jī)械類個(gè)企業(yè)的經(jīng)濟(jì)效益,選擇了8個(gè)不同的利潤指標(biāo),14企業(yè)關(guān)于這8個(gè)指標(biāo)的統(tǒng)計(jì)數(shù)據(jù)如下表所示,試進(jìn)行主成分分析。(其中,xi1:凈產(chǎn)值利潤率(%);xi2:固定資產(chǎn)利潤率(%);xi3:總產(chǎn)值利潤率(%);xi4:銷售收入利潤率(%);xi5:產(chǎn)品成本利潤率(%);xi6:物耗利潤率(%);xi7:人均利潤率(千元/人);xi8:流動(dòng)資金利潤率(%))

解:樣本均值向量為:5.5.1主成分分析舉例樣本協(xié)方差矩陣為:5.5.1主成分分析舉例由于S中主對角線元素差異較大,因此我們樣本相關(guān)矩陣R出發(fā)進(jìn)行主成分分析。樣本相關(guān)矩陣R為:5.5.1主成分分析舉例矩陣R的特征值及相應(yīng)的特征向量見表5-2:特征值特征向量6.13660.321130.295160.389120.384720.379550.370870.319960.355461.0421-0.4151-0.597660.229740.278690.316320.37151-0.27814-0.156840.43595-0.451230.10303-0.0398950.053874-0.0372920.0751860.77059-0.424780.22037-0.668170.36336-0.22596-0.110810.148740.069353-0.134950.559490.15191-0.0382170.624350.12273-0.0369090.159280.21062-0.43006-0.581050.0088274-0.101670.13584-0.158110.86226-0.25204-0.34506-0.13934-0.0265570.00296240.1596-0.061134-0.539660.0466060.7609-0.278090.06203-0.131260.00122380.19295-0.031987-0.641760.11002-0.253970.68791-0.006045-0.0054031表5-2:矩陣R的特征值及相應(yīng)的特征向量5.5.1主成分分析舉例特征值貢獻(xiàn)率(%)累計(jì)貢獻(xiàn)率(%)6.13660.767080.767081.04210.130270.897340.435950.0544940.951840.220370.0275470.979380.151910.0189880.998370.00882740.00110340.999480.00296240.00037030.999850.00122380.000152971表5-3:R的特征值及貢獻(xiàn)率前3個(gè)標(biāo)準(zhǔn)化樣本主成分類及貢獻(xiàn)率已達(dá)到95.184%,故只需取前三個(gè)主成分即可。5.5.1主成分分析舉例前3個(gè)標(biāo)準(zhǔn)化樣本主成分中各標(biāo)準(zhǔn)化變量

前的系數(shù)即為對應(yīng)特征向量,由此得到3個(gè)標(biāo)準(zhǔn)化樣本主成分為:注意到,y1近似是8個(gè)標(biāo)準(zhǔn)化變量

的等權(quán)重之和,是反映各企業(yè)總效應(yīng)大小的綜合指標(biāo),y1的值越大,則企業(yè)的效益越好。由于y1的貢獻(xiàn)率高達(dá)76.708%,故若用y1的得分值對各企業(yè)進(jìn)行排序,能從整體上反映企業(yè)之間的效應(yīng)差別。將S中

的值及

中各

的值及企業(yè)關(guān)于

的觀測值代入y1的表達(dá)式中,可求得各企業(yè)y1的得分及其按其得分由大到小的排序結(jié)果。065.6用Python實(shí)現(xiàn)主成分分析5.6.1PCA的函數(shù)參數(shù)scikit-learn庫中提供PCA函數(shù)可創(chuàng)建PCA模型,其收錄的PCA函數(shù)語法格式如下:sklearn.decomposition.PCA(n_components=None,copy=True,whiten=False,svd_solver=’auto’,tol=0.0,iterated_power=’auto’,random_state=None)總結(jié):PCA函數(shù)返回值是一個(gè)PCA對象,主要包括以下屬性。

components_,返回具有最大方差的成分。explained_variance_,降維后的各主成分的方差值。explained_variance_ratio_,返回值n個(gè)特征各自的方差百分比,比例越大越重要。n_components_,返回所保留的特征個(gè)數(shù)n。mean_,返回值的平均值。5.6.2在PCA中采用的方法

在PCA中采用的方法如表5-5所示:常用方法格式解釋說明fit()fit(X,

y=None)scikit-learn中通用的方法,fit(X)

表示用數(shù)據(jù)X來訓(xùn)練PCA模型fit

_transform()fit_

transform(X)用數(shù)據(jù)X來訓(xùn)練PCA模型,同時(shí)返回降維后的數(shù)據(jù)get_covariance()get

covariance()計(jì)算并生成模型的協(xié)方差get_params()get_params(deep=True)獲取當(dāng)前模型的參數(shù)get_precision()get_precision()計(jì)算當(dāng)前模型的精度矩陣inverse_transform()inverse_transform(X)將降維后的數(shù)據(jù)轉(zhuǎn)換成原始數(shù)據(jù)score()score(X,

y=None)返回所有樣本的平均對數(shù)似然數(shù)score_samples()score_samples(X)返回每個(gè)樣本的對數(shù)似然數(shù)set_params()set_params(*

*params)設(shè)置模型的參數(shù)transform()transform(X)將數(shù)據(jù)X轉(zhuǎn)換成降維后的數(shù)據(jù)表5-5PCA中的常用方法5.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論