版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第三章可視化圖與分組檢驗(yàn)數(shù)據(jù)分析與數(shù)據(jù)挖掘01數(shù)據(jù)的常用可視化圖分析數(shù)據(jù)的常用可視化圖P-P圖(P-Pplot)又稱概率-概率圖(Probability-probabilityplot)或百分比-百分比圖(Percent-percentplot),用于展示兩組數(shù)據(jù)相接近的程度。
散點(diǎn)圖(Scatterplot)主要用于展示兩個(gè)變量X和Y的相關(guān)性,也常在立體空間中用散點(diǎn)圖分析三個(gè)變量的相關(guān)性。數(shù)據(jù)的常用可視化圖順序圖(Sequenceplot)是對(duì)一組樣本數(shù)據(jù)X按照從前到后的順序以折線圖形式展示,橫坐標(biāo)代表樣本的順序,縱坐標(biāo)代表對(duì)應(yīng)樣本點(diǎn)值。時(shí)滯圖(Lagplot)是一種展示數(shù)據(jù)是否具有隨機(jī)性的散點(diǎn)圖,用于展示數(shù)據(jù)的時(shí)間序列關(guān)系。數(shù)據(jù)的常用可視化圖對(duì)于一組數(shù)值數(shù)據(jù),基于圖的數(shù)據(jù)可視化包括:(1)進(jìn)行數(shù)據(jù)的描述性統(tǒng)計(jì)并繪制盒圖,掌握數(shù)據(jù)的總體情況。(2)繪制頻數(shù)的直方圖,繪制樣本數(shù)據(jù)的經(jīng)驗(yàn)分布圖,掌握數(shù)據(jù)的分布情況。(3)繪制分位數(shù)圖(Q-Q圖),了解數(shù)據(jù)的總體趨勢(shì)。(4)繪制四圖,掌握數(shù)據(jù)的隨機(jī)性、是否具備正態(tài)分布特性。(5)如果猜測(cè)具有某種已知的參考分布,如正態(tài)分布、指數(shù)分布、均勻分布等,可以繪制P-P圖,查看數(shù)據(jù)是否滿足猜想的分布。(6)計(jì)算中心值(中位數(shù)或均值),對(duì)每組數(shù)減去中心值,繪制折線圖(或順序圖),了解數(shù)據(jù)的正負(fù)波動(dòng)情況和離群點(diǎn)情況?;趫D的可視化觀測(cè)一般過程02均值比較和t檢驗(yàn)20%30%40%50%
分組統(tǒng)計(jì)就是將指定的一個(gè)或多個(gè)屬性變量作為分組依據(jù),對(duì)樣本進(jìn)行分組,然后分別對(duì)每組數(shù)據(jù)統(tǒng)計(jì)。
分組統(tǒng)計(jì)是在掌握數(shù)據(jù)的整體狀態(tài)后,對(duì)樣本數(shù)據(jù)做更細(xì)致的分析,其作用包括:①掌握各組的頻數(shù)和相對(duì)頻數(shù),可以繪制直方圖;②掌握各組的各個(gè)統(tǒng)計(jì)量信息,如均值、方差等,用于各組數(shù)據(jù)的對(duì)比,可以通過圖形展示各組信息,以及將各組情況做對(duì)比。分組統(tǒng)計(jì)
數(shù)據(jù)標(biāo)準(zhǔn)化(Normalization),又稱數(shù)據(jù)規(guī)范化,主要用于數(shù)據(jù)的可理解性、數(shù)據(jù)的可比性、數(shù)據(jù)的無量綱化。數(shù)據(jù)標(biāo)準(zhǔn)化與Z-Score
單樣本t檢驗(yàn)是檢驗(yàn)?zāi)硞€(gè)樣本均值和某個(gè)指定值(一般是總體期望值)之間是否存在顯著性差異。該檢驗(yàn)的前提是,假設(shè)樣本所在總體必須服從正態(tài)分布。單樣本t檢驗(yàn)兩獨(dú)立樣本t檢驗(yàn)兩個(gè)獨(dú)立樣本是指兩個(gè)樣本之間彼此獨(dú)立沒有關(guān)聯(lián)。獨(dú)立樣本t檢驗(yàn)用于判別兩個(gè)樣本所在兩個(gè)總體均值之間是否有顯著性差異。兩配對(duì)樣本(Twopairedsample,Tworelativesample)是指兩個(gè)樣本具有相同容量,并且按照順序,相同順序號(hào)的元素—一對(duì)應(yīng)。令x=(x1,x2,…,xn)和y=(y1,y2,…,yn)為兩個(gè)樣本,具有相同容量n。如果對(duì)每個(gè)i,(xi,yi)被視為配對(duì)數(shù)據(jù),則稱x和y為兩配對(duì)樣本。兩配對(duì)樣本t檢驗(yàn)03方差齊性檢驗(yàn)
Levene方差齊性檢驗(yàn)又稱Levene檢驗(yàn)(Levene'stest),可用于對(duì)兩組或多組樣本進(jìn)行方差齊性檢驗(yàn)。
方差用于度量一組數(shù)據(jù)與其平均值的偏離程度,屬于一種離散程度的度量。在樣本容量相同的情況下,方差越大,說明數(shù)據(jù)的波動(dòng)越大,越不穩(wěn)定。Levene方差齊性檢驗(yàn)
F檢驗(yàn)(F-test)可以用于樣本所在兩正態(tài)總體的方差齊性檢驗(yàn)。F檢驗(yàn)又稱方差比率齊性檢驗(yàn)(Ratiotestofvarianceequality)。F檢驗(yàn)是參數(shù)檢驗(yàn)方法。
F檢驗(yàn)的前提條件是:①樣本來自的兩個(gè)總體必須服從正態(tài)分布X~N(H,c2),Y~N(H?,C?);②X和Y的抽樣相互獨(dú)立,樣本容量分別為m和m?且可以不同,各樣本內(nèi)部的個(gè)案順序任意?;贔檢驗(yàn)的方差齊性檢驗(yàn)
Brown-Forsythe方差齊性檢驗(yàn)是Levene檢驗(yàn)的修改版。在Levene中,Zg是由式(3.15)計(jì)算的,即按照數(shù)據(jù)減去均值計(jì)算偏離程度。Brown-Forsythe方差齊性檢驗(yàn)Bartlett's方差齊性檢驗(yàn)(Bartlett'stestofequalvariances)用于檢驗(yàn)多組樣本所在總體是否具有方差齊性(方差相等)。方差齊性(Homogeneityofvariances)是指若干總體具有(統(tǒng)計(jì)上)相等的方差。Bartlett's方差齊性檢驗(yàn)
04兩獨(dú)立樣本的非參數(shù)檢驗(yàn)
Mann-WhitneyU檢驗(yàn)的核心思想是:若兩個(gè)樣本有差異,則它們的中心位置將不同,屬于非參數(shù)檢驗(yàn)。該檢驗(yàn)常用于檢驗(yàn)平均中心趨勢(shì)(如中位數(shù))是否存在顯著性差異。
Mann-WhitneyU檢驗(yàn)(曼-惠特尼秩和檢驗(yàn)),簡(jiǎn)稱秩和檢驗(yàn)。該檢驗(yàn)用于檢驗(yàn)兩個(gè)獨(dú)立樣本所在的總體分布是否存在顯著性差異,或者說,兩個(gè)獨(dú)立樣本是否是從具有同樣分布的總體中抽取的。Mann-WhitneyU檢驗(yàn)兩獨(dú)立樣本t檢驗(yàn)K-S檢驗(yàn)(Kolmogorov-Smirnov檢驗(yàn))用于檢驗(yàn)兩個(gè)獨(dú)立樣本所在總體分布是否存在顯著性差異,或者說兩個(gè)獨(dú)立樣本是否來自同一個(gè)概率分布的總體。在兩獨(dú)立樣本檢驗(yàn)中,K-S檢驗(yàn)統(tǒng)計(jì)量為式(3.29)。在雙樣本分布中,如圖3.4(a)所示,雖然第1個(gè)樣本容量n和第2個(gè)樣本容量m的個(gè)數(shù)可能不同,但仍然能夠?qū)ν粁計(jì)算出兩個(gè)分布的偏差,如圖3.4(b)所示,所獲得的Dnm值代表最大絕對(duì)偏差值。兩獨(dú)立樣本K-S檢驗(yàn)
兩獨(dú)立樣本的游程檢驗(yàn)(Wald-Wolfwitzrunstest,W-W檢驗(yàn))用來檢驗(yàn)樣本所在總體分布是否存在顯著性差異。2.6.4節(jié)中的單樣本游程檢驗(yàn)用于檢驗(yàn)一個(gè)變量是否具有隨機(jī)性。兩獨(dú)立樣本的游程檢驗(yàn)將兩組數(shù)據(jù)按序混合重新排序(升序或降序)",在排序過程中組號(hào)也隨排序過程一起變動(dòng)。這樣排序之后,獲得了組號(hào)的重排序列。兩獨(dú)立樣本游程檢驗(yàn)
20%30%40%50%
Moses極端反應(yīng)檢驗(yàn)(Mosesextremereactions)用來檢驗(yàn)兩個(gè)樣本所在總體分布是否存在顯著性差異。Moses極端反應(yīng)檢驗(yàn)是一種非參數(shù)檢驗(yàn)方法。
對(duì)于輸入的兩個(gè)樣本x和y,將其中一個(gè)樣本作為控制樣本(Controlsample),另一個(gè)樣本作為實(shí)驗(yàn)樣本(Experimentalsample),假設(shè)第1組樣本是控制樣本,第2組樣本是實(shí)驗(yàn)樣本。兩獨(dú)立樣本Moses極端反應(yīng)檢驗(yàn)
兩獨(dú)立樣本Brown-Mood中位數(shù)檢驗(yàn)的原假設(shè)Ho:Mx與My沒有顯著性差異,即Mx=Mr。相應(yīng)的備選假設(shè)可以有:①H:Mx≠M(fèi)y,此時(shí)采用雙側(cè)檢驗(yàn);②H?:Mx<My,此時(shí)采用左側(cè)檢驗(yàn);③H?:Mx>My,此時(shí)采用右側(cè)檢驗(yàn)。應(yīng)根據(jù)問題選擇備選假設(shè)。下面以雙側(cè)檢驗(yàn)為例,另兩種只需檢驗(yàn)時(shí)的P-Value按單側(cè)檢驗(yàn)計(jì)算即可。
Brown-Mood中位數(shù)檢驗(yàn),用于檢驗(yàn)兩組獨(dú)立樣本所在兩總體的中位數(shù)是否存在顯著性差異。兩獨(dú)立樣本Brown-Mood中位數(shù)檢驗(yàn)05兩配對(duì)樣本的非參數(shù)檢驗(yàn)20%30%40%50%
符號(hào)檢驗(yàn)(Signtest)是一種非參數(shù)檢驗(yàn)方法,用于測(cè)試兩組觀察結(jié)果之間的一致性差異,可進(jìn)行兩配對(duì)樣本的檢驗(yàn)。
符號(hào)檢驗(yàn)的前提條件是:①兩個(gè)樣本x=(x1,x2,…,xn),y=(y1,y2,…,yn)是配對(duì)的,每個(gè)對(duì)(xi,yi)被獨(dú)立地采樣;②x和y中的數(shù)據(jù)可以是數(shù)值屬性數(shù)據(jù),也可以是序數(shù)屬性數(shù)據(jù),要求能夠進(jìn)行xi和yi的大小關(guān)系比較,即能判斷出xi>yi、xi<yi或xi=yi;③x中的數(shù)據(jù)來自同一個(gè)總體,y中的數(shù)據(jù)來自同一個(gè)總體。兩配對(duì)樣本符號(hào)檢驗(yàn)
具體來說:①統(tǒng)計(jì)“+”符號(hào)的個(gè)案數(shù)為n1,“-”符號(hào)的個(gè)案數(shù)為n2;②構(gòu)建檢驗(yàn)統(tǒng)計(jì)量S=n1/(n1+n2),然后按照指定比例0.5進(jìn)行二項(xiàng)分布檢驗(yàn)。分位數(shù)檢驗(yàn)也類似中位數(shù)檢驗(yàn),只是檢驗(yàn)比例按照分位點(diǎn)所處的比例計(jì)算。符號(hào)檢驗(yàn)(Signtest)還能用于單樣本中位數(shù)檢驗(yàn)、分位數(shù)檢驗(yàn)及比例檢驗(yàn)。數(shù)據(jù)排序后,中位數(shù)之前的數(shù)據(jù)量約占50%,之后的數(shù)據(jù)量約占50%。兩中位數(shù)、分位數(shù)及比例的符號(hào)檢驗(yàn)
Wilcoxon符號(hào)秩檢驗(yàn)(Wilcoxonsigned-ranktest)用于檢驗(yàn)兩配對(duì)樣本的總體均值是否存在顯著性差異,或者理解成兩配對(duì)樣本是否來自同一總體。
Wilcoxon符號(hào)秩檢驗(yàn)的直接原假設(shè)Ho:兩配對(duì)樣本所在總體分布的差異,圍繞0服從對(duì)稱分布;備選假設(shè):兩配對(duì)樣本所在總體分布的差異,不圍繞0服從對(duì)稱分布。兩配對(duì)樣本W(wǎng)ilcoxon符號(hào)秩檢驗(yàn)Wilcoxon符號(hào)秩檢驗(yàn)還可以用于檢驗(yàn)單樣本的總體中心(中位數(shù))是否與某一特定值存在顯著性差異。Wilcoxon符號(hào)秩檢驗(yàn)屬于非參數(shù)檢驗(yàn),因此,當(dāng)不能假設(shè)總體服從正態(tài)分布時(shí),不能使用單樣本t檢驗(yàn),可以使用Wilcoxon符號(hào)秩檢驗(yàn)。原假設(shè)Ho:樣本所在總體均值μ與指定值Ho沒有顯著性差異。Wilcoxon符號(hào)秩單樣本檢驗(yàn)兩配對(duì)樣本McNemar檢驗(yàn)McNemar檢驗(yàn)(McNemar'stest)用于對(duì)分類屬性上的配對(duì)檢驗(yàn)。McNemar檢驗(yàn)屬于一種非參數(shù)檢驗(yàn)方法。邊緣齊性檢驗(yàn)(Marginalhomogeneitytest),也稱邊際齊性檢驗(yàn),用于兩配對(duì)樣本所在總體分布的顯著性差異檢驗(yàn),其中兩個(gè)樣本具有相同的分類水平(Level)且各分類水平有序。邊緣齊性檢驗(yàn)06多樣本的非參數(shù)檢驗(yàn)
中位數(shù)檢驗(yàn)(Mood'sMediantest,Median檢驗(yàn))用于檢驗(yàn)兩個(gè)或多個(gè)樣本(兩組或多組樣本)的總體中位數(shù)是否存在顯著性差異。多獨(dú)立樣本中位數(shù)檢驗(yàn)Kruskal-Wallis檢驗(yàn)(Kruskal-Wallistest,K-W檢驗(yàn)),用于檢驗(yàn)多組樣本所在總體分布是否存在顯著性差異,或者說多組樣本是否來自同一分布。K-W檢驗(yàn)是一種基于平均秩的單因素分析方法,是一種非參數(shù)檢驗(yàn)方法。K-W檢驗(yàn)擴(kuò)展了Mann-WhitneyU檢驗(yàn),可以用于檢驗(yàn)多組樣本所在總體分布的顯著性差異。多獨(dú)立樣本Kruskal-Wallis檢驗(yàn)
20%30%40%50%
Jonckheere-Terpstra檢驗(yàn)(Jonckheere-Terpstratest,J-T檢驗(yàn)),又稱Jonckheere趨勢(shì)檢驗(yàn)(Jonckheere'strendtest),用于檢驗(yàn)多組樣本(多個(gè)樣本)所在總體分布是否存在顯著性差異,或者說檢驗(yàn)幾個(gè)獨(dú)立樣本是否來自同一總體。
令g(g≥2)代表總組數(shù),日是第i組樣本所在總體的中位數(shù),簡(jiǎn)稱第i個(gè)總體的中位數(shù)。
J-T檢驗(yàn)的原假設(shè)Ho:樣本所在各個(gè)總體分布沒有顯著性差異,或者說,各組樣本來自同一個(gè)總體。多獨(dú)立樣本Jonckheere-Terpstra檢驗(yàn)Friedman檢驗(yàn)(Friedmantest),用于檢驗(yàn)多組配對(duì)樣本所在總體分布是否存在顯著性差異。Friedman檢驗(yàn)是一種非參數(shù)統(tǒng)計(jì)檢驗(yàn),用于測(cè)試多次實(shí)驗(yàn)中配對(duì)結(jié)果是否存在顯著性差異。假設(shè)各組樣本以列向量形式排列在一起構(gòu)成一個(gè)矩陣,組數(shù)為g,樣本容量為n,因此構(gòu)成一個(gè)矩陣{x,}mg。Fricdman檢驗(yàn)原假設(shè)Ho:樣本所在多個(gè)配對(duì)總體分布沒有顯著性差異。多配對(duì)樣本Friedman檢驗(yàn)Kendall協(xié)同系數(shù)檢驗(yàn)(Kendall'sCoefficientofConcordancetest),用于檢驗(yàn)多個(gè)評(píng)價(jià)者是否有一致的評(píng)分標(biāo)準(zhǔn)。多配對(duì)樣本Kendall協(xié)同系數(shù)檢驗(yàn)多配對(duì)樣本Cochran'sQ檢驗(yàn)Cochran‘sQ檢驗(yàn)(Cochran’sQtest),用于檢驗(yàn)多配對(duì)樣本所在配對(duì)總體是否存在顯著性差異。它屬于一種非參數(shù)檢驗(yàn)方法。每組樣本中的數(shù)據(jù)以兩分類數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 商業(yè)步行街景觀路燈施工合同
- 瑜伽教練保姆合同模板
- 職業(yè)體驗(yàn)?zāi)攴b租賃合同模板
- 城市防噪系統(tǒng)防水涂料施工合同
- 婚慶用品租賃合同范本
- 高爐建設(shè)投資分析合同
- 鄭州二手房買賣合同風(fēng)險(xiǎn)防范
- 外語培訓(xùn)機(jī)構(gòu)教師合同
- 住宅建筑地暖安裝合同樣本
- 電子產(chǎn)品零售倉(cāng)儲(chǔ)協(xié)議
- 2024年輔警招聘考試試題庫(kù)及完整答案(全優(yōu))
- 抖音等短視頻mcn機(jī)構(gòu)組建與運(yùn)營(yíng)商業(yè)計(jì)劃書
- 護(hù)理方案優(yōu)化總結(jié)分析報(bào)告
- 美國(guó)史智慧樹知到期末考試答案2024年
- 二年級(jí)體育教師工作述職報(bào)告
- 2024年1月電大國(guó)家開放大學(xué)期末試題及答案:物流信息系統(tǒng)管理
- 【川教版】《生命 生態(tài) 安全》五上第8課《防患于未“燃”》課件
- 家庭責(zé)任醫(yī)生團(tuán)隊(duì)長(zhǎng)競(jìng)聘專項(xiàng)方案
- 卓有成效的管理者pdf
- 職務(wù)侵占罪預(yù)防
- 新型冠狀肺炎科普知識(shí)講座總結(jié)
評(píng)論
0/150
提交評(píng)論