數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch07】空間降維技術(shù)_第1頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch07】空間降維技術(shù)_第2頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch07】空間降維技術(shù)_第3頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch07】空間降維技術(shù)_第4頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch07】空間降維技術(shù)_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第七章空間降維技術(shù)數(shù)據(jù)分析與數(shù)據(jù)挖掘01主成分分析主成分分析描述主成分分析(PrincipalComponentsAnalysis,PCA)是一種空間降維的統(tǒng)計(jì)方法。通過正交變換將一組可能存在相關(guān)性的變量(屬性)映射為一組線性不相關(guān)的變量(屬性),轉(zhuǎn)換后的這組變量(屬性)稱為主成分。主成分分析描述PCA將原始數(shù)據(jù)向量映射到新的正交空間,并且新正交空間中選擇最有利于描述向量信息的特征軸。圖7.2(a)用投影空間描述了圖7.1(a)中的12個(gè)向量信息。圖7.2(b)展示了將圖7.2(a)的2維描述壓縮為1維描述,其中,X的信息描述能力比Y要更強(qiáng)。主成分分析分為基于協(xié)方差矩陣計(jì)算和基于相關(guān)系數(shù)矩陣計(jì)算兩種方式,而后者是前者的特例。基于協(xié)方差矩陣的主成分分析基于相關(guān)系數(shù)矩陣的主成分分析由第4章式(4.43)可知,相關(guān)系數(shù)的計(jì)算是在兩個(gè)屬性變量協(xié)方差的基礎(chǔ)上再除以這兩個(gè)屬性變量的標(biāo)準(zhǔn)差,換個(gè)角度,就相當(dāng)于對(duì)原始數(shù)據(jù)矩陣X的每個(gè)列計(jì)算標(biāo)準(zhǔn)分(Z-Score)。基于相關(guān)系數(shù)矩陣的PCA與7.1.2節(jié)的協(xié)方差方法計(jì)算PCA存在兩處不同:①將計(jì)算協(xié)方差矩陣CM改為相關(guān)系數(shù)矩陣RM;②計(jì)算新樣本評(píng)分時(shí)也需對(duì)式(7.8)除以標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化。因子分析法的基本思想是將原始數(shù)據(jù)進(jìn)行分類,將相關(guān)性較高,即聯(lián)系比較緊密的變量分在同一類,使不同類變量之間的相關(guān)性較低。主成分分析與因子分析的聯(lián)系主成分分析的作用主成分分析是進(jìn)行空間的線性投影,在投影空間中的向量各取值為原始屬性變量的線性組合。主成分分析在數(shù)據(jù)分析與數(shù)據(jù)挖掘中的主要作用包括:(1)形成新的正交屬性變量,將對(duì)象映射到新的正交空間。PCA后在投影空間中各個(gè)屬性變量是正交的,各屬性變量之間不再關(guān)聯(lián)。(2)可通過設(shè)定閾值等方法,只保留投影空間的貢獻(xiàn)較大的屬性變量,實(shí)現(xiàn)降維。一種方式是計(jì)算投影空間中各屬性變量的貢獻(xiàn)值及相應(yīng)的累積概率,設(shè)定保留原始信息量的閾值;另一種方式是預(yù)先設(shè)定保留的主成分?jǐn)?shù)量。(3)可適當(dāng)去除噪聲。如果原始數(shù)據(jù)中存在噪聲,則通過少量降維方法可以適當(dāng)克服噪聲,但如果過度降維,則又可能會(huì)因?yàn)閬G失有用信息而降低了模型性能。(4)可通過降維到1維、2維或3維,分別在直線、平面或立體空間中近似地描述原始數(shù)據(jù)點(diǎn),有利于直觀地觀察原始數(shù)據(jù)的分布情況。例如,可以將式(7.13)計(jì)算出的score繪制在平面上,來分析原始數(shù)據(jù)上樣本的分布情況、聚集情況等,如圖7.3(a)所示。(5)應(yīng)用主成分分析法可構(gòu)造回歸模型。該方法是把各主成分作為新自變量代替原來的自變量x做回歸分析。主成分分析的作用(6)用主成分分析篩選回歸變量?;貧w變量的選擇有著重要的實(shí)際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制和預(yù)報(bào),以便從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合。(7)主成分分析的結(jié)果可用于分類、聚類等問題的研究,實(shí)現(xiàn)特征的抽取和降維功能;可以將樣本在投影后的屬性變量值視作數(shù)據(jù)集,用于分類模型或聚類模型。主成分分析的作用02因子分析案例研究20%30%40%50%本案例以某知識(shí)付費(fèi)平臺(tái)網(wǎng)(簡(jiǎn)稱KATA網(wǎng))為研究對(duì)象,利用統(tǒng)計(jì)分析建模的相關(guān)方法構(gòu)建模型。

探索知識(shí)付費(fèi)平臺(tái)上答主的參與度、成就、影響力和咨詢價(jià)格對(duì)咨詢量的影響,在知識(shí)付費(fèi)的商業(yè)模式下,知識(shí)作為一種商品,咨詢價(jià)格會(huì)對(duì)咨詢量有怎樣的影響,為以KATA網(wǎng)為代表的知識(shí)付費(fèi)平臺(tái)發(fā)展提供可行性建議,促進(jìn)平臺(tái)的合理設(shè)計(jì)建設(shè),提高平臺(tái)的運(yùn)營(yíng)效率。研究的目的與內(nèi)容(1)咨詢量:指每個(gè)答主在KATA網(wǎng)付費(fèi)咨詢模塊中累積被咨詢的數(shù)量。(2)咨詢價(jià)格:指答主在KATA網(wǎng)付費(fèi)咨詢模塊中設(shè)定的咨詢價(jià)格。(3)信息認(rèn)證:平臺(tái)中用戶個(gè)人信息頁呈現(xiàn)用戶的教育經(jīng)歷、職業(yè)經(jīng)歷等信息。用戶還可以向平臺(tái)申請(qǐng)對(duì)個(gè)人信息進(jìn)行認(rèn)證,認(rèn)證通過后,將獲得平臺(tái)的認(rèn)證標(biāo)簽。用戶未申請(qǐng)或未通過認(rèn)證則不會(huì)獲得認(rèn)證標(biāo)簽。認(rèn)證用戶一般被認(rèn)為更具有權(quán)威性。變量選取與數(shù)據(jù)來源變量選取與數(shù)據(jù)來源(4)被關(guān)注數(shù):平臺(tái)中用戶允許關(guān)注其他用戶。通過關(guān)注其他用戶,可以及時(shí)獲取被關(guān)注者的動(dòng)態(tài)信息。被關(guān)注數(shù)指每個(gè)答主被關(guān)注的數(shù)量。(5)贊同數(shù):指每個(gè)答主在KATA網(wǎng)的普通問答模塊中參與回答和發(fā)表文章時(shí)獲得的其他用戶贊同的數(shù)量。(6)感謝數(shù):指每個(gè)答主在KATA網(wǎng)的普通問答模塊中參與回答時(shí)獲得的其他用戶感謝的數(shù)量。(7)收藏?cái)?shù):指每個(gè)答主在KATA網(wǎng)的普通問答模塊中參與回答和發(fā)表文章時(shí)被其他用戶收藏的數(shù)量。(8)聽得值數(shù):在KATA網(wǎng)的付費(fèi)咨詢模塊,用戶可以搜索相關(guān)問題進(jìn)行1元付費(fèi)“偷聽”,“偷聽”后可以對(duì)答案是否值得聽進(jìn)行評(píng)價(jià)。變量選取與數(shù)據(jù)來源(9)回答數(shù):指每個(gè)答主在KATA網(wǎng)的普通問答模塊中參與回答的數(shù)量。(10)文章數(shù):指每個(gè)答主在KATA網(wǎng)的普通問答模塊中發(fā)表文章的數(shù)量。因子分析過程前面已經(jīng)提到,在進(jìn)行主成分(因子)分析前,要進(jìn)行KMO檢驗(yàn)和Bartlett's球度檢驗(yàn)。其中,KMO用于測(cè)度原始變量屬于一個(gè)整體的程度,可以說明主成分(因子)分析是否有意義;Bartlett's球度檢驗(yàn)則用于檢驗(yàn)相關(guān)陣中各變量間的相關(guān)性。具體地,KMO的取值為0~1,KMO值越接近1,變量間的相關(guān)性越強(qiáng),進(jìn)行主成分(因子)分析的意義就越強(qiáng)。在實(shí)際分析中,當(dāng)KMO值在0.7以上時(shí),效果會(huì)很好;當(dāng)KMO值在0.5以下時(shí),則不適宜應(yīng)用主成分(因子)分析法。根據(jù)研究?jī)?nèi)容建立回歸模型,其中,因變量為“咨詢量”,自變量為“參與度”“成就”“信息認(rèn)證”“被關(guān)注數(shù)”和“咨詢價(jià)格”。具體的回歸模型如式(7.16)所示。因子回歸分析案例研究結(jié)論實(shí)證分析的結(jié)果表明,在KATA網(wǎng)中,答主在社區(qū)內(nèi)的參與度、成就、影響力和咨詢價(jià)格對(duì)咨詢量均有顯著正向影響。研究結(jié)果對(duì)以KATA網(wǎng)為代表的知識(shí)付費(fèi)平臺(tái)的建設(shè)發(fā)展及答主的參與具有一定的指導(dǎo)意義。從答主的角度看,答主在參與網(wǎng)站的付費(fèi)咨詢時(shí),應(yīng)該注重自身參與度的積累,通過積極回答自己擅長(zhǎng)領(lǐng)域的問題,發(fā)表相應(yīng)的見聞,向其他用戶傳遞自己樂于與大家分享交流自己的知識(shí)見解的信號(hào)。03奇異值分解SVD的協(xié)同過濾推薦

奇異值分解(SVD)方法是一種數(shù)學(xué)矩陣分解操作,用于發(fā)現(xiàn)向量中的潛在因子。1965年Golub和Kahan等人研究SVD方法[18],證明了給定矩陣A可以分解成3個(gè)矩陣的乘積,如式(7.17)所示。

SVD可用于協(xié)同過濾推薦預(yù)測(cè)評(píng)分。在應(yīng)用SVD前,為了去除用戶評(píng)分的個(gè)性化差異,對(duì)矩陣A中每個(gè)用戶的評(píng)分去除該用戶的平均分生成矩陣A'。由于一般原始評(píng)分矩陣A是數(shù)據(jù)稀疏的,存在數(shù)據(jù)缺失問題,所以需要進(jìn)行數(shù)據(jù)填充。SVD在協(xié)同過濾中的應(yīng)用存在四種常見數(shù)據(jù)填充方法:①利用用戶平均分填充用戶的缺失值;②利用物品的平均分填充物品的缺失值;③利用基于用戶的協(xié)同過濾進(jìn)行缺失值預(yù)測(cè)并填充;④利用基于物品的協(xié)同過濾進(jìn)行缺失值預(yù)測(cè)并填充。對(duì)于矩陣因子化方法的增量式處理,首先對(duì)原始打分矩陣A去除用戶打分整體偏好差異化,然后按照某種數(shù)據(jù)填充策略進(jìn)行數(shù)據(jù)填充,接著對(duì)填充后的打分矩陣進(jìn)行SVD分解,即R=U;S,VT,之后再將新增加的用戶或項(xiàng)投影到以U,或V,為基的低維空間,構(gòu)成新的數(shù)據(jù)陣。SVD增量式協(xié)同過濾方法04主成分回歸與逐步回歸多重共線性是指線性回歸模型中的自變量之間由于存在高度相關(guān)關(guān)系而使模型估計(jì)失真或難以估計(jì)準(zhǔn)確。如果每個(gè)屬性完全是線性相關(guān)的,則稱為完全共線性。解釋變量之間的多重共線性可以通過多種方式度量,常見的有三種方式:①使用方差膨脹因子(VIF);②使用解釋變量之間的相關(guān)系數(shù);③使用特征值分析。殘差分析主成分回歸

主成分回歸分析(PrincipleComponentRegression,PCR),是以主成分為自變量進(jìn)行的回歸分析。先對(duì)原有解釋變量數(shù)據(jù)進(jìn)行主成分分析,可以設(shè)置累積貢獻(xiàn)度閾值進(jìn)行適當(dāng)降維,再將主成分分析輸出的新變量用作回歸自變量?;貧w中利用到主成分分析,其作用通常包括:①可以降低數(shù)據(jù)的維度;②消除變量之間的共線性。

逐步回歸(Stepwiseregression)是一種常用的解釋變量挑選方式,注重挑選一組重要且共線性較弱的變

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論