信息分析與數(shù)據(jù)挖掘相關(guān)分析.doc_第1頁(yè)
信息分析與數(shù)據(jù)挖掘相關(guān)分析.doc_第2頁(yè)
信息分析與數(shù)據(jù)挖掘相關(guān)分析.doc_第3頁(yè)
信息分析與數(shù)據(jù)挖掘相關(guān)分析.doc_第4頁(yè)
信息分析與數(shù)據(jù)挖掘相關(guān)分析.doc_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、如有幫助,歡迎支持。第一節(jié)相關(guān)關(guān)系1. 三類基本關(guān)系現(xiàn)象或概念關(guān)系因果關(guān)系相關(guān)關(guān)系虛無(wú)關(guān)系一因一果一因多果多因一果1-1因果關(guān)系是現(xiàn)象或概念之間最嚴(yán)格的一種關(guān)系:因素變量與結(jié)果變量之間存在必然聯(lián)系;時(shí)間上先后相承;因果之間存在固定的、確定性的定量關(guān)系。比如物理現(xiàn)象 。1-2虛無(wú)關(guān)系現(xiàn)象或概念之間并無(wú)實(shí)際性關(guān)聯(lián)。1-3相關(guān)關(guān)系是普遍存在的、最常見(jiàn)的一類關(guān)系。所謂相關(guān)關(guān)系,是指現(xiàn)象或概念之間確實(shí)存在1如有幫助,歡迎支持。聯(lián)系,但其關(guān)聯(lián)是不嚴(yán)格固定的或數(shù)量關(guān)系是不完全確定的一種關(guān)系。相關(guān)關(guān)系可從多個(gè)角度進(jìn)行細(xì)分:相關(guān)關(guān)系按照相關(guān)因素多少單相關(guān)復(fù)相關(guān)按表現(xiàn)形態(tài)按相關(guān)程度線性相關(guān)零相關(guān)曲線相關(guān)低度相關(guān)拋

2、物線相關(guān)顯著相關(guān)指數(shù)曲線相關(guān)高度相關(guān)其它完全相關(guān)2如有幫助,歡迎支持。2. 變量間線性相關(guān)關(guān)系的描述2-1散點(diǎn)圖: 可大體上判斷變量間是否相關(guān)、正相關(guān)、負(fù)相關(guān)以及相關(guān)程度。2-2相關(guān)系數(shù): 是對(duì)兩個(gè)隨機(jī)配對(duì)的變量之間的線性相關(guān)關(guān)系的量度,用以測(cè)度兩個(gè)隨機(jī)變量之間的線性相關(guān)程度。A. Pearson 相關(guān)系數(shù):可度量標(biāo)量 之間的線性相關(guān)程度 。Rxyxixyi yxi22xyi y顯然,1Rxy1, Pearson 相關(guān)系數(shù)為正表示正相關(guān),為負(fù)表示負(fù)相關(guān),其絕對(duì)值越大,變量間線性關(guān)系越強(qiáng)。BSpearman and Kendall秩相關(guān)系數(shù),又稱等級(jí)相關(guān)系數(shù):可度量包括序變量 的變量之間的相關(guān)關(guān)

3、系。其表達(dá)式是Rsp16di2n n21其中: di 表示數(shù)據(jù)等級(jí)差,相關(guān)系數(shù)所表示含義如Pearson 相關(guān)系數(shù)。 比如,有一3如有幫助,歡迎支持。家公司招聘打字員,采用口試與實(shí)際操作兩種考核方式?,F(xiàn)有 6 個(gè)申請(qǐng)人的口試與實(shí)際操作的評(píng)分記錄如下:序號(hào)123456口試成績(jī)B-A-BACB操作成績(jī)283847562932要求測(cè)定這些申請(qǐng)人實(shí)際操作成績(jī)與口試成績(jī)之間是否存在關(guān)系及關(guān)系的密切程度。先將口試成績(jī)、操作成績(jī)變換為等級(jí),然后計(jì)算等級(jí)相關(guān)系數(shù),如下表所示:序號(hào)口試成績(jī)等級(jí)成績(jī)操作成績(jī)等級(jí)成績(jī)等級(jí)之差差之平方1B-5286 112A-2383 113B3472114A1561005C6295

4、114如有幫助,歡迎支持。6B432400計(jì)算得到 R0.8857 ,說(shuō)明兩者存在較強(qiáng)的相關(guān)性。sp2-3 偏相關(guān)系數(shù): 在控制其它變量的影響下考慮兩個(gè)變量之間的相關(guān)性,較為真實(shí)地反映了兩個(gè)變量之間的相關(guān)關(guān)系。設(shè)有 n 個(gè)變量 X1 , X2 , Xn ,由 Pearson 相關(guān)系數(shù)所構(gòu)成的相關(guān)系數(shù)對(duì)稱陣為1R12R1nR211R2 nRRn1Rn21則變量 X i 與 X j 之間的偏相關(guān)系數(shù)為AijrijAiiAjj其中 Aij 表示矩陣 R中元素 Rij 的代數(shù)余子式。2-3相關(guān)系數(shù)的檢驗(yàn)。一般取零假設(shè)H 0 為:相關(guān)系數(shù)為0;檢驗(yàn)統(tǒng)計(jì)量為t 統(tǒng)計(jì)量。A. Spearman and Ke

5、ndall 秩相關(guān)系數(shù)的顯著性檢驗(yàn):取統(tǒng)計(jì)量5如有幫助,歡迎支持。Rspn2tt n21 Rsp2在給定顯著水平下,若t 值絕對(duì)值較大則拒絕原假設(shè),或認(rèn)為變量之間存在相關(guān)性。B. 偏相關(guān)系數(shù)的顯著性檢驗(yàn):取統(tǒng)計(jì)量rij nk 2t n k 2tr 21ij其中 k 表示剔除了的變量數(shù),或被控制的變量個(gè)數(shù)。6如有幫助,歡迎支持。第二節(jié)主成分分析1. 方法的提出1-1多元分析處理的是多變量或多指標(biāo)問(wèn)題,由于變量較多,增加了分析問(wèn)題的復(fù)雜性。在大部分實(shí)際問(wèn)題中, 變量之間是有一定的相關(guān)性的, 人們希望能 用較少的變量來(lái)代替原來(lái)較多的變量,而這些較少的變量盡可能地反映原來(lái)變量的信息。1-2降維的主要方

6、法:主成分分析、相應(yīng)分析、典型相關(guān)分析、因子分析等。2.總體的主成分2-1基本思想:設(shè) X X1, X2,T, X p為一個(gè) p 維隨機(jī)向量,有二階矩存在,記期望E X,而協(xié)方差矩陣 covX。考慮它的線性變換:Y1a11a12a1 pX1a1 XY2a21a22a2 pX2a2 XYpap1ap2appX pap X7如有幫助,歡迎支持。顯然: var Yi aiT ai , cov Yi ,Yj aiT aj , i , j 1,2, , p 。若希望用 Y1 來(lái)代替原來(lái)的 p 維隨機(jī)變量,則要求 Y1 盡可能地反映原 p 個(gè)變量的信息。 表征信息最好的方法是借用方差 。若 var Y 越

7、大,則表示其所含信息越多。當(dāng)然,在前方線性變換下,var Y11有可能無(wú)界,為此令aT a 1,i 1,2, , pi i從而可在此約束下搜尋a1 ,使得 var Y1達(dá)到最大,滿足條件的Y 稱為 第一主成分 。如1果一個(gè)主成分不足以代表原p 個(gè)向量,則考慮采用 Y2 ,為了最有效地代表原變量信息,Y1 已有信息不需要出現(xiàn)在Y2 中,這要求cov Y1 ,Y20結(jié)合變化矩陣行向量模限制條件,可求得a2 ,使得 var Y2 達(dá)到最大,從而得到第二主成分 。依此類推。2-2基本方法:令12p0 為的特征根,設(shè)t1 , t2 , t p 為相應(yīng)的特征向量,顯然,可設(shè)特征向量組為一個(gè)標(biāo)準(zhǔn)正交向量組,

8、不過(guò)不是唯一的。有以下定理:定理:設(shè) X 為 p 維隨機(jī)向量,且協(xié)方差矩陣cov X存在,則 X 的第 i 個(gè)主成分為8如有幫助,歡迎支持。YtT X ,i1,2, pii其中, ti 為對(duì)應(yīng)i 的單位特征向量,此時(shí)var Yii,i 1,2, p2-3 主成分個(gè)數(shù)的選擇:用主成分的目的是減少變量的個(gè)數(shù),故一般絕不用p 個(gè)主成分,究竟需要選擇多少個(gè)主成分,這是一個(gè)比較實(shí)際的問(wèn)題。為此給出如下定義:m定義:稱k為主成分的貢獻(xiàn)率, 而i 1m為主成分 Y,Y , Y的累計(jì)貢獻(xiàn)率。pkp12mi1ii1i通常取 m,使得累計(jì)貢獻(xiàn)率達(dá)到一定標(biāo)準(zhǔn)以上。雖然累計(jì)貢獻(xiàn)率表達(dá)了m個(gè)主成分提取了原隨機(jī)向量的多少

9、信息,但它沒(méi)有表達(dá)某個(gè)變量被提取了多少信息,為此還需要另一個(gè)概念:定義:m個(gè)主成分 Y1 , Y2 , Ym 對(duì)于原變量 Xi 的貢獻(xiàn)率 vi 是 Xi 與 Y1 , Y2 ,Ym 全相關(guān)系數(shù)的平方,即mk tik2k 1viii9如有幫助,歡迎支持。3. 示例:設(shè) XX1, X 2, X3 T 的協(xié)方差陣是120250002求得15.83,22.00,30.17對(duì)應(yīng)的特征向量分別為0.38300.924t10.924 , t20, t30.3830.00010.000如果只取一個(gè)主成分,貢獻(xiàn)率可達(dá)5.8372.875%5.832.000.17似乎已經(jīng)很理想,如進(jìn)一步計(jì)算每個(gè)變量的貢獻(xiàn)率,得i

10、Y1 , X iviY2 , Xivi10.9250.8550.0000.85510如有幫助,歡迎支持。2-0.9980.9960.0000.99630.0000.0001.0001.000其中主成分與原變量之間的相關(guān)系數(shù)稱做因子負(fù)荷量 ,可如下計(jì)算:covX i ,Yjcov eiTX ,tTj XeTtjeT tjj t jiXi,Yjij ivar Yjvar X iiijiijiijii這表明, Y1 對(duì)第三個(gè)變量X3 的貢獻(xiàn)率為零,沒(méi)有包含X3 的信息,需要追加主成分。參考文獻(xiàn):方開(kāi)泰,實(shí)用多元統(tǒng)計(jì)分析,華東師范大學(xué)出版社,1989 年第一版。11如有幫助,歡迎支持。第三節(jié)因子分析1

11、. 因子分析的數(shù)理統(tǒng)計(jì)背景1-1 因子分析是一種主要用于數(shù)據(jù)化簡(jiǎn)和降維的多元統(tǒng)計(jì)分析方法。具體而言,將相關(guān)性較強(qiáng)的幾個(gè)變量歸于同一類,每一類賦予新的名稱,成為一個(gè)因子,反映事物的一個(gè)方面,或者說(shuō)一個(gè)維度。這樣,少數(shù)的幾個(gè)因子就能夠代表數(shù)據(jù)的基本結(jié)構(gòu),反映事物的本質(zhì)特征。進(jìn)一步地,還可以根據(jù)原始觀測(cè)值推出因子值,以因子代替原有變量進(jìn)行統(tǒng)計(jì)分析。1-2 設(shè)有容量為 n 的一個(gè)樣本,每個(gè)元素觀測(cè)p 個(gè)變量。先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,消除量綱差異、數(shù)量級(jí)影響, 使得每個(gè)變量 均值為 0,方差為 1。記變化后的變量為x1 , x2 , , xp ,對(duì)應(yīng)的公共因子變量為F1, F2 , Fm 。 滿足如下條件的

12、模型稱為因子模型:A Xx , x, xT0 ,協(xié)方差矩陣定義p是可觀測(cè)的隨機(jī)向量, 且向量均值 E X12為相關(guān)系數(shù)矩陣 covXR。B. FF,F , FT0 ,協(xié)方為因子向量, 一般不能直接觀測(cè)到, 其均值為 E F12m12如有幫助,歡迎支持。差矩陣為單位矩陣,或者說(shuō),其分量相互獨(dú)立。TC1 , 2 ,p與 F 相互獨(dú)立,且E0 ,其協(xié)方差矩陣為對(duì)角陣,或者說(shuō)其各個(gè)分量相互獨(dú)立。因子模型的一般形式:XAF其中 F 是公共因子向量 ,是特殊因子向量,而矩陣a11a12a1ma21a22a2mAap1ap2apm稱為 因子載荷矩陣 ,元素 aij 的絕對(duì)值大小表征xi 與 Fj 之間的依存

13、程度高低。2. 因子分析過(guò)程2-1問(wèn)題定義。 因子分析適用場(chǎng)合: 對(duì)于一個(gè)包含 多變量大樣本 問(wèn)題,為探求具有 內(nèi)在相關(guān)性的變量之間的基本結(jié)構(gòu), 可采用因子分析法。 具體而言, 樣本容量必須是變量數(shù)13如有幫助,歡迎支持。目的四至五倍以上。2-2計(jì)算并檢驗(yàn)協(xié)方差矩陣。要求變量間具有一定相關(guān)性,為此可采用 巴特利特球體檢驗(yàn)或者 KMO測(cè)度 。2-3選擇因子分析的方法。主成分分析法或者公因子分析法。2-4確定因子數(shù)目。在因子碎石圖 中,一般選取曲線下降迅猛的幾個(gè)做為公共因子。2-5因子旋轉(zhuǎn)。 正交旋轉(zhuǎn)或斜交旋轉(zhuǎn)。2-6因子解釋。考察因子具體含義,命名。2-7因子得分。將公因子表示為各觀測(cè)變量的線性

14、組合。2-8模型的適合度。利用殘差矩陣 進(jìn)行。14如有幫助,歡迎支持。第四節(jié)聚類分析1. 聚類分析概述1-1概念: 聚類分析是一種根據(jù)事物本身特性研究個(gè)體分類 的方法,是多元分析與當(dāng)代分類學(xué)結(jié)合的產(chǎn)物,又稱 群分析、點(diǎn)群分析或簇類分析 。1-2基本思想: 聚類分析認(rèn)為研究的樣本或指標(biāo)之間存在著程度不同的相似度或親疏關(guān)系,根據(jù)樣本的多個(gè)觀測(cè)指標(biāo),將之視為多維空間中一個(gè)點(diǎn),則可按照它們空間關(guān)系的親疏程度進(jìn)行分類。1-3方法: 以距離、匹配系數(shù)或相似系數(shù)來(lái)表征空間關(guān)系,先將關(guān)系密切的聚合到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位,直到將所有的樣本或指標(biāo)都聚合完畢,將不同的類型一一劃分出來(lái),

15、形成一個(gè)由小到大的分類系統(tǒng),并畫(huà)成譜系圖 。1-4不同數(shù)據(jù)類型,聚類處理方法有所不同。15如有幫助,歡迎支持。變量間隔變量有序變量名義變量A. 間隔變量: 變量用連續(xù)的量來(lái)表示,如長(zhǎng)度、重量。如果存在絕對(duì)零點(diǎn),又稱比例尺度。B. 有序尺度: 變量用有序的等級(jí)來(lái)表示,如評(píng)價(jià)酒。分好、中、次三等。C. 名義尺度: 變量用一些類來(lái)表示,這些類之間沒(méi)有等級(jí)關(guān)系也沒(méi)有數(shù)量關(guān)系,比如,性別、職業(yè)等。2. 聚類分析類型2-1按照分類對(duì)象劃分:Q型聚類分析和R 型聚類分析。前者是根據(jù)被觀測(cè)的樣本 的各種特征進(jìn)行分類,后者是根據(jù)特征相似的變量 進(jìn)行分類。2-2按照聚類方法分類:系統(tǒng)聚類、動(dòng)態(tài)聚類法(或稱快速聚類

16、法、K均值聚類法)等。前者先將每個(gè)樣本或指標(biāo)視為一類,然后將最相似的類加以合并,再計(jì)算新類與其他16如有幫助,歡迎支持。類之間的相似程度,并繼續(xù)合并, 直到所有樣本或指標(biāo)歸為同一類。后者是先選取一批聚類中心 ,然后讓樣本向中心聚集,形成初始分類, 再按照距離原則修改不合理分類,直至合理。調(diào)優(yōu)法(動(dòng)態(tài)聚類法) :首先對(duì) n 個(gè)對(duì)象初步分類,然后根據(jù)分類的損失函數(shù)盡可能小的原則對(duì)分類進(jìn)行調(diào)整,直到分類合理為止。最優(yōu)分割法(有序樣本聚類法) :開(kāi)始將所有樣本看成一類,然后根據(jù)某種最優(yōu)準(zhǔn)則將它們分割為二類、三類,一直分割到所需為止。3. 聚類分析基本步驟3-1數(shù)據(jù)標(biāo)準(zhǔn)化:消除 量綱的影響。3-2計(jì)算對(duì)

17、象之間的距離:計(jì)算對(duì)象之間的兩兩距離rij ,得到對(duì)象之間的相似關(guān)系矩陣R rij 。常用的聚類統(tǒng)計(jì)量:A. 匹配系數(shù) 。當(dāng)分類指標(biāo)為類別標(biāo)度變量,通常采用匹配系數(shù)做為聚類統(tǒng)計(jì)量。假17如有幫助,歡迎支持。設(shè)指標(biāo)有 p 個(gè),第 i 個(gè)樣品與第j 個(gè)樣品的匹配系數(shù)是pSijZkk 1其中Zk1,xikxjk0,xikxjk例 1對(duì)購(gòu)買(mǎi)家具的顧客作聚類分析,取分類指標(biāo)為 x1 :喜歡的式樣,老式記為 1,新式記為 2;x2:喜歡的圖案,素式記為1,格子式記為2,花式記為3;x3:喜歡的顏色,藍(lán)色為1,黃色為 2,紅色為3,綠色為 4。設(shè)有 4為顧客的觀測(cè)值為x1x2x31131212218如有幫助

18、,歡迎支持。32334223不難求得S113,S121001,S130101,S140000S223,S230000,S240101S333,S341012S443顯然,匹配系數(shù)越大表明兩者越相似,從而得到如下聚類圖:1234有時(shí)還可以考慮對(duì)指標(biāo)賦權(quán),再計(jì)算匹配系數(shù)。B 距離。凡 滿足如下性質(zhì) 的函數(shù) d X ,Y : dXY 皆可定義為距離:A-1 dXY 0 ;19A-2dXY0XY ;A-3dXYdYX ;A-4dXYdXZdZY特別地,當(dāng)A-4 加強(qiáng)為A-4 dXYmax dXZ , dZY則稱相應(yīng)的距離為 極端距離 ( Ultradistance 絕對(duì)值距離:pdijxikk 1平方和距離:如有幫助,歡迎支持。)。常用的距離函數(shù)有xjkp2dijxikxjkk1閔可夫斯基距離:1dijqpqwkxik x jkk 120如有幫助,歡迎支持。切比雪夫距離:dijmax xikxjkkC 相關(guān)系數(shù):如前,略。3-3選擇類與類之間的距離定義A. 類的定義:由一個(gè)以上對(duì)象所組成的集合。B.類與類之間的距離:可由類的代表點(diǎn)之間的距離表示。類與類之間的距離有多種計(jì)算方法 :一是最短距離;一是平均距離;指定點(diǎn)與點(diǎn)之間的距離。3-4聚類A. 把每個(gè)點(diǎn)做為一類,稱為第

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論