第六講數(shù)據(jù)分析技術(shù)_第1頁
第六講數(shù)據(jù)分析技術(shù)_第2頁
第六講數(shù)據(jù)分析技術(shù)_第3頁
第六講數(shù)據(jù)分析技術(shù)_第4頁
第六講數(shù)據(jù)分析技術(shù)_第5頁
已閱讀5頁,還剩81頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第六講數(shù)據(jù)分析技術(shù)主要內(nèi)容數(shù)據(jù)分析基礎(chǔ)單變量分析——就一道題的結(jié)果進(jìn)行分析雙變量分析——兩道題之間的關(guān)聯(lián)性多變量分析數(shù)據(jù)分析基礎(chǔ)按照計(jì)量尺度的不同,數(shù)據(jù)可以劃分為四種類型:定類:只有分類意義定序:只表示順序,加減無意義定距:沒有絕對(duì)零點(diǎn),可以加減,不能做除法定比:有絕對(duì)零點(diǎn)定類、定序數(shù)據(jù)為定性數(shù)據(jù),定距、定比數(shù)據(jù)為定量數(shù)據(jù),不同數(shù)據(jù)有不同的分析方法一、單變量分析原始數(shù)據(jù)的數(shù)量較多,難以把握其本質(zhì)特征,難以進(jìn)行比較,所以經(jīng)常需要使用一些統(tǒng)計(jì)量或統(tǒng)計(jì)圖作為工具來幫助分析一、單變量分析統(tǒng)計(jì)量按照測(cè)度對(duì)象不同,可以分為集中趨勢(shì)度量離散趨勢(shì)度量一、單變量分析集中趨勢(shì)度量指標(biāo)用以判斷數(shù)據(jù)的位置離散趨勢(shì)指標(biāo)用以判斷數(shù)據(jù)的分散程度一、單變量分析1、集中趨勢(shì)指標(biāo)

均值(mean)中位數(shù)(median)眾數(shù)(mode)2、離散趨勢(shì)指標(biāo)

標(biāo)準(zhǔn)差(standarddeviation)離散系數(shù)(coefficientofvariation)四分位距(quartiledeviation)異眾比率(variationratio)1、集中趨勢(shì)指標(biāo)均值適用于正態(tài)分布數(shù)據(jù)(必定為定量數(shù)據(jù))優(yōu)點(diǎn):包含了所有數(shù)據(jù)的信息,是數(shù)據(jù)的重心、數(shù)學(xué)性質(zhì)較好缺點(diǎn):不穩(wěn)健,受異常數(shù)據(jù)的影響很大1、集中趨勢(shì)指標(biāo)均值應(yīng)用時(shí)應(yīng)注意:均值對(duì)于個(gè)體決策而言意義不大均值必須與標(biāo)準(zhǔn)差結(jié)合,才能對(duì)數(shù)據(jù)特征有較客觀的認(rèn)識(shí)1、集中趨勢(shì)指標(biāo)中位數(shù)適用于定序數(shù)據(jù)和非正態(tài)分布或存在異常值的定量數(shù)據(jù)優(yōu)點(diǎn):穩(wěn)健,含義清晰缺點(diǎn):將定量數(shù)據(jù)當(dāng)定性數(shù)據(jù)處理,浪費(fèi)了信息1、集中趨勢(shì)指標(biāo)五數(shù)概括將中位數(shù)、上下四分位數(shù)和最大最小值這5個(gè)數(shù)放在一起,就能刻畫出數(shù)據(jù)分布的大致狀態(tài),即為五數(shù)概括1、集中趨勢(shì)指標(biāo)眾數(shù)

出現(xiàn)次數(shù)最多的數(shù)值,適用于定類數(shù)據(jù)2、離散趨勢(shì)指標(biāo)標(biāo)準(zhǔn)差與離散系數(shù)適用于定量數(shù)據(jù)優(yōu)點(diǎn):包含了所有數(shù)據(jù)的信息,數(shù)學(xué)性質(zhì)較好缺點(diǎn):不穩(wěn)健,受異常數(shù)據(jù)的影響很大與標(biāo)準(zhǔn)差相比,離散系數(shù)更具可比性,對(duì)于水平差異較大的數(shù)據(jù),通常用后者進(jìn)行比較2、離散趨勢(shì)指標(biāo)四分位距:上、下四分位數(shù)的差適用于定序數(shù)據(jù)和存在異常值的定量數(shù)據(jù)優(yōu)點(diǎn):穩(wěn)健缺點(diǎn):將定量數(shù)據(jù)當(dāng)定性數(shù)據(jù)處理,浪費(fèi)了信息2、離散趨勢(shì)指標(biāo)異眾比率適用于定類數(shù)據(jù)

測(cè)度集中、離散趨勢(shì)有三套指標(biāo):1、均值——標(biāo)準(zhǔn)差、離散系數(shù)適用于正態(tài)分布數(shù)據(jù)2、字母值——四分位距適用于定序數(shù)據(jù),當(dāng)注重穩(wěn)健性時(shí),也用于定量數(shù)據(jù)3、眾數(shù)——異眾比率適用于定類數(shù)據(jù)一、單變量分析盡管有一系列的統(tǒng)計(jì)量可用來概括數(shù)據(jù)特征,但由一組數(shù)據(jù)變?yōu)?個(gè)或幾個(gè)數(shù)據(jù),信息的遺漏是很嚴(yán)重的,而統(tǒng)計(jì)圖則提供了一類在不損失信息情況下,方便觀察數(shù)據(jù)規(guī)律性的工具一、單變量分析1、條形圖與直方圖2、餅圖3、箱線圖1、條形圖與直方圖1、條形圖與直方圖1、條形圖與直方圖2、餅圖3、箱線圖二、雙變量分析二、雙變量分析二、雙變量分析二、雙變量分析列聯(lián)表分析關(guān)聯(lián)性測(cè)量假設(shè)檢驗(yàn)列聯(lián)表分析列聯(lián)表分析關(guān)聯(lián)性測(cè)量關(guān)聯(lián)——association相關(guān)——correlation關(guān)聯(lián)性測(cè)量常用測(cè)量指標(biāo)按適用范圍分類兩個(gè)變量之間兩組變量之間典型相關(guān)系數(shù)(Canonical)其他因素不變其他因素可變偏相關(guān)系數(shù)(Partial)皮爾遜系數(shù)(Pearson)數(shù)量相關(guān)等級(jí)相關(guān)斯皮爾曼系數(shù)(Spearman)部分相關(guān)系數(shù)(Part)名義關(guān)聯(lián)肯達(dá)爾系數(shù)(Kendall)列聯(lián)系數(shù)(contingency)關(guān)聯(lián)性測(cè)量Pearson相關(guān)系數(shù)(簡(jiǎn)單相關(guān)系數(shù)、積矩相關(guān)系數(shù))的構(gòu)造同方向性的一種表現(xiàn)是:一個(gè)變量的某個(gè)觀測(cè)值如果高于均值,則另一個(gè)變量的相應(yīng)觀測(cè)值也高于均值關(guān)聯(lián)性測(cè)量Pearson相關(guān)系數(shù)的構(gòu)造關(guān)聯(lián)性測(cè)量可以構(gòu)造如下統(tǒng)計(jì)量關(guān)聯(lián)性測(cè)量關(guān)聯(lián)性測(cè)量關(guān)聯(lián)性測(cè)量存在兩個(gè)問題:

1、受樣本數(shù)據(jù)多少的影響2、受計(jì)量單位的影響關(guān)聯(lián)性測(cè)量相關(guān)系數(shù)關(guān)聯(lián)性測(cè)量相關(guān)系數(shù)的取值范圍:[-1,1]關(guān)聯(lián)性測(cè)量如果相關(guān)系數(shù)越接近于1,意味著X大于均值,則Y也大于均值的可能性越大如果相關(guān)系數(shù)越接近于-1,意味著X大于均值,則Y小于均值的可能性越大如果相關(guān)系數(shù)越接近于0,意味著X大于均值,則Y大于均值或小于均值的可能性越接近關(guān)聯(lián)性測(cè)量相關(guān)系數(shù)的絕對(duì)值越接近于1,意味著X與Y的線性關(guān)系越明顯,數(shù)量關(guān)系越確定。相關(guān)系數(shù)的絕對(duì)值越接近于0,意味著X與Y之間越?jīng)]有明顯的線性關(guān)系。關(guān)聯(lián)性測(cè)量相關(guān)系數(shù)的局限性不能用以測(cè)度非線性相關(guān)受到異常值的影響關(guān)聯(lián)性測(cè)量關(guān)聯(lián)性測(cè)量測(cè)度等級(jí)以及名義相關(guān)的統(tǒng)計(jì)量

斯皮爾曼等級(jí)相關(guān)系數(shù)(Spearmanrankcorrelationcoefficient)

肯達(dá)爾t系數(shù)(Kendalltcoefficient)關(guān)聯(lián)性測(cè)量斯皮爾曼等級(jí)相關(guān)系數(shù)關(guān)聯(lián)性測(cè)量可以通過兩種方式計(jì)算Spearman系數(shù):

專門計(jì)算程序?qū)⒃紨?shù)據(jù)排序,計(jì)算樣本的秩,然后對(duì)秩計(jì)算Pearson系數(shù)對(duì)于定序數(shù)據(jù)而言,Spearman系數(shù)與Pearson系數(shù)是等價(jià)的如果一個(gè)變量為定量數(shù)據(jù),一個(gè)變量為定序數(shù)據(jù),應(yīng)計(jì)算Spearman系數(shù)或?qū)⒍繑?shù)據(jù)變?yōu)槎ㄐ驍?shù)據(jù)后使用Pearson系數(shù)關(guān)聯(lián)性測(cè)量肯達(dá)爾t系數(shù)關(guān)聯(lián)性測(cè)量關(guān)聯(lián)性測(cè)量肯達(dá)爾系數(shù)一個(gè)重要優(yōu)點(diǎn)在于便于解釋,如果肯達(dá)爾系數(shù)等于1/3,意味著:一致情況的出現(xiàn)頻率是不一致的兩倍關(guān)聯(lián)性測(cè)量就一個(gè)連續(xù)總體而言,肯達(dá)爾t系數(shù)可以定義為:如果沒有結(jié)點(diǎn),則從樣本計(jì)算出來的統(tǒng)計(jì)量是總體系數(shù)的無偏估計(jì),記為關(guān)聯(lián)性測(cè)量如果存在結(jié)點(diǎn),則要對(duì)統(tǒng)計(jì)量進(jìn)行調(diào)整:關(guān)聯(lián)性測(cè)量關(guān)聯(lián)性測(cè)量列聯(lián)系數(shù)phi和Cramer也都是基于卡方的名義變量關(guān)聯(lián)程度的測(cè)量指標(biāo)關(guān)聯(lián)性測(cè)量偏相關(guān)系數(shù)在控制其他變量的情況下,研究?jī)蓚€(gè)變量之間的相關(guān)程度,由于去除了其他變量的干擾,能更準(zhǔn)確的反映兩個(gè)變量之間的相關(guān)程度假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)sig.或者p-value是一個(gè)概率如果這個(gè)概率等于0.340,意味著如果兩個(gè)變量實(shí)際獨(dú)立(原假設(shè)),則產(chǎn)生能計(jì)算出這樣一個(gè)列聯(lián)系數(shù)(0.130)的樣本的概率有0.340;顯然,sig.或者p-value越小,越有充分的證據(jù)拒絕原假設(shè)假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)的流程——反證法提出原假設(shè)——你希望拒絕他,是希望證明對(duì)象的反面計(jì)算在此原假設(shè)下,統(tǒng)計(jì)量的分布——可知各種結(jié)果的出現(xiàn)概率則可知樣本結(jié)果的出現(xiàn)概率小概率事件是不可能事件拒絕原假設(shè)假設(shè)檢驗(yàn)如果概率很小,可以拒絕原假設(shè)

一般有三條線:0.01(0.001),0.05,0.1,小于它們,意味著高度顯著、顯著、比較顯著;或者說在0.05顯著性水平上顯著如果概率較大,能否接受備擇假設(shè)?

不能,只是沒有充分證據(jù)拒絕原假設(shè)假設(shè)檢驗(yàn)在抽樣調(diào)查數(shù)據(jù)的雙變量分析中,最重要的假設(shè)檢驗(yàn)是卡方檢驗(yàn),這是一個(gè)基于列聯(lián)表的關(guān)鍵檢驗(yàn)。列聯(lián)表的深入分析列聯(lián)表的深入分析123……K1n11n12n13n1jn1Kn1+2n21n22n23n2jn2Kn2+……ni1ni2ni3nijniKni+LnL1nL2nL3nLjnLKnL+n+1n+2n+3n+jn+Kn列聯(lián)表的深入分析卡方檢驗(yàn)關(guān)聯(lián)性的各種分析指標(biāo)列聯(lián)表的深入分析卡方檢驗(yàn)觀測(cè)值期望值(如果兩個(gè)變量是獨(dú)立的,在現(xiàn)有樣本量下,各種情況的期望頻數(shù))列聯(lián)表的深入分析實(shí)際值與期望值越接近——不相關(guān)差距越大——拒絕不相關(guān)的原假設(shè)列聯(lián)表的深入分析擬合優(yōu)度卡方檢驗(yàn)統(tǒng)計(jì)量似然比卡方系數(shù)檢驗(yàn)統(tǒng)計(jì)量(likelihoodratiochi-squarecoefficient)列聯(lián)表的深入分析“一個(gè)顯著的卡方數(shù)值告訴我們兩個(gè)變量在總體中可能是相關(guān)的,但是它沒有帶來更多的信息,更糟糕的是,如果生吞活剝的使用卡方檢驗(yàn),它帶來的誤導(dǎo)不亞于所提供的信息。”列聯(lián)表的深入分析大多數(shù)(80%)的期望頻次應(yīng)該超過5如果一個(gè)2×2的列聯(lián)表,樣本量小于20,應(yīng)該采用Fisher檢驗(yàn)(Fisher’sexacttest)列聯(lián)表的深入分析卡方統(tǒng)計(jì)量的結(jié)果與樣本量相關(guān),如果樣本量足夠大,即使存在著微弱的關(guān)系,也可以非常顯著的拒絕原假設(shè)列聯(lián)表的深入分析如果拒絕了原假設(shè),確認(rèn)存在關(guān)聯(lián),那么關(guān)聯(lián)由何而來?卡方的分解計(jì)算子列聯(lián)表卡方列聯(lián)表的深入分析卡方的分解列聯(lián)表的深入分析分割列聯(lián)表,計(jì)算卡方,這樣可以檢驗(yàn)更多的假說ABCabc列聯(lián)表的深入分析ABabA+BCabABa+bcA+BCa+bc列聯(lián)表的深入分析卡方檢驗(yàn)只能用來判斷兩個(gè)變量是否獨(dú)立(關(guān)聯(lián),相關(guān))關(guān)聯(lián)程度如何,卡方值不是一個(gè)好指標(biāo)樣本量有影響沒有好解釋的取值范圍列聯(lián)表的深入分析2×2列聯(lián)表Cross-productratio(oddsratio)

交叉乘積比或發(fā)生比率列聯(lián)表的深入分析類別1在因變量上的發(fā)生比類別2在因變量上的發(fā)生比列聯(lián)表的深入分析發(fā)生比率是發(fā)生比之比發(fā)生比率是1,意味著無關(guān)聯(lián)性發(fā)生比率距離1越大,意味著關(guān)聯(lián)性越強(qiáng)列聯(lián)表的深入分析YuleQ列聯(lián)表的深入分析基于卡方的度量取值范圍在0和1之間,越接近1,關(guān)聯(lián)性越強(qiáng)但一個(gè)具體的值還是沒有直觀的含義列聯(lián)表的深入分析成比例消減誤差度量法

假設(shè)沒有任何自變量的信息,預(yù)測(cè)因變量錯(cuò)誤的概率:P(A)有了自變量的信息,預(yù)測(cè)因變量錯(cuò)誤的概率:P(B)列聯(lián)表的深入分析Goodman&Kruskal的λ(Lambda)ABa0.30.20.5b0.10.40.50.40.6

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論