資料的描述性統(tǒng)計分析_第1頁
資料的描述性統(tǒng)計分析_第2頁
資料的描述性統(tǒng)計分析_第3頁
資料的描述性統(tǒng)計分析_第4頁
資料的描述性統(tǒng)計分析_第5頁
已閱讀5頁,還剩72頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

關于資料的描述性統(tǒng)計分析總體與樣本總體(population):研究的全部對象。分為無限總體(infinitepopulation)和有限總體(finitepopulation)。個體(individual):構成總體的每個成員。樣本(sample):總體的一部分。樣本的含量(samplesize):樣本內(nèi)包含的個體數(shù)目。第2頁,共77頁,2024年2月25日,星期天抽樣抽樣(sample):從總體中獲得樣本的過程。

目的:通過對樣本的研究推斷其總體隨機抽樣(randomsample)

抽簽、抓鬮等。使用隨機數(shù)字表。放回式抽樣(samplingwithreplacement)非放回式抽樣(samplingwithoutreplacement)第3頁,共77頁,2024年2月25日,星期天42.1數(shù)據(jù)預處理的原因正確性(Correctness)一致性(Consistency)完整性(Completeness)可靠性(Reliability)

數(shù)據(jù)質(zhì)量的含義

第4頁,共77頁,2024年2月25日,星期天現(xiàn)實世界的數(shù)據(jù)不完整的缺少屬性值或某些感興趣的屬性,或僅包含聚集數(shù)據(jù)。含噪聲的包含錯誤或存在偏離期望的離群值。不一致的采用的編碼或表示不同,如屬性名稱不同冗余的如屬性之間可以相互導出第5頁,共77頁,2024年2月25日,星期天6數(shù)據(jù)錯誤的不可避免性數(shù)據(jù)輸入和獲得過程數(shù)據(jù)錯誤數(shù)據(jù)集成所表現(xiàn)出來的錯誤數(shù)據(jù)傳輸過程所引入的錯誤

據(jù)統(tǒng)計有錯誤的數(shù)據(jù)占總數(shù)據(jù)的5%左右[Redmen],[Orr98]第6頁,共77頁,2024年2月25日,星期天數(shù)據(jù)錯誤的危害性高昂的操作費用糟糕的決策制定組織的不信任分散管理的注意力第7頁,共77頁,2024年2月25日,星期天8數(shù)據(jù)預處理的形式數(shù)據(jù)清理補充缺失數(shù)據(jù)、平滑噪聲數(shù)據(jù)、識別或刪除離群點,解決不一致數(shù)據(jù)集成集成多個數(shù)據(jù)庫、數(shù)據(jù)立方或文件數(shù)據(jù)變換規(guī)范化和聚集數(shù)據(jù)歸約簡化數(shù)據(jù)、但產(chǎn)生同樣或相似的結果第8頁,共77頁,2024年2月25日,星期天數(shù)據(jù)預處理的形式第9頁,共77頁,2024年2月25日,星期天小結現(xiàn)實世界的數(shù)據(jù)一般是臟的、不完整的和不一致的。數(shù)據(jù)預處理技術可以改進數(shù)據(jù)的質(zhì)量,從而有助于提高其后的挖掘過程的精度和性能。高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù),因此數(shù)據(jù)預處理是知識發(fā)現(xiàn)過程的重要步驟。檢測異常數(shù)據(jù)、盡早地調(diào)整數(shù)據(jù)并歸約待分析的數(shù)據(jù),將在決策過程中得到高回報。第10頁,共77頁,2024年2月25日,星期天2.2描述性數(shù)據(jù)匯總獲得數(shù)據(jù)的總體印象對于成功的數(shù)據(jù)預處理是至關重要的。描述性數(shù)據(jù)匯總技術可以用來識別數(shù)據(jù)的典型性質(zhì),突顯哪些數(shù)據(jù)值應當視為噪聲或離群點。動機:更好的理解數(shù)據(jù)。主要內(nèi)容:度量數(shù)據(jù)的中心趨勢和離散程度、描述數(shù)據(jù)匯總的圖形顯示。第11頁,共77頁,2024年2月25日,星期天描述性統(tǒng)計數(shù)值指標包括:(1)集中位置的指標,用以描述觀察值的平均水平。如算術均數(shù)、幾何均數(shù)、中位數(shù)、眾數(shù)、百分位數(shù)等。(2)資料變異的指標,用以描述觀察值間參差不齊的程度,即離散度或稱變異度。如全距、標準差、方差、變異系數(shù)、四分位數(shù)間距等。第12頁,共77頁,2024年2月25日,星期天數(shù)據(jù)類型及頻數(shù)(率)分布連續(xù)型數(shù)據(jù)(continuousdata):又稱度量數(shù)據(jù)(measurementdata)離散型數(shù)據(jù)(discretedata):又稱為計數(shù)數(shù)據(jù)(countdata)變量的方法(methodofvariable):對連續(xù)型數(shù)據(jù)進行分析的方法。屬性的方法(methodofattribute):對離散型數(shù)據(jù)進行分析的方法。第13頁,共77頁,2024年2月25日,星期天頻數(shù)(率)表和頻數(shù)(率)圖離散型數(shù)據(jù)組值(classvalue):一般用組值編制頻數(shù)(率)表(frequencytable)。柱形圖(columndiagram):一般用柱形圖繪制頻數(shù)(率)圖。連續(xù)型數(shù)據(jù)組限(classlimit):一般用組限編制頻數(shù)(率)表。直方圖(histogram)、多邊形圖(polygon)和累積頻數(shù)圖(cumulativefrequencygraph):一般用直方圖、多邊形圖和累積頻數(shù)圖繪制頻數(shù)(率)圖。組界(classboundary):中值(midvalue):每一組的兩個組限的平均值。頻數(shù)分布(frequencydistribution)(百分率分布percentagedistribution)把頻數(shù)或頻率按順序排列起來。

第14頁,共77頁,2024年2月25日,星期天第一節(jié)概述

描述性統(tǒng)計的表、圖形式包括:(1)頻數(shù)分布表(2)條形圖、直方圖、莖葉圖、盒形圖第15頁,共77頁,2024年2月25日,星期天設原始觀察值共n例,為X1,X2,……,Xn

。和(SUM):∑X=X1+X2+……+Xn。

平方和,SS(SUMOFSQUARE):∑X2=X12+X22+……+Xn2平方和又記為USS(UNCORRECTEDSUMOFSQUARE)

離均差平方和,記為CSS(CORRECTEDSUMOFSQUARE):

第16頁,共77頁,2024年2月25日,星期天第二節(jié)

頻數(shù)分布表頻數(shù)表的編制編制步驟:

1.求極差(即全距)R;

2.確定組數(shù)n、組距i,并寫出組段;

3.列表劃記。第17頁,共77頁,2024年2月25日,星期天某市1995年110名7歲男童的身高資料(cm)114.4119.2124.7125.0115.0112.8120.2110.2120.9120.1125.5120.3122.3118.2116.7121.7116.8121.6115.2122.0121.7118.8121.8124.5121.7122.7116.3124.0119.0124.5121.8124.9130.0123.5128.1119.7126.1131.3123.8114.7122.2122.8128.6122.0132.5122.0123.5116.3126.1119.2126.4118.4121.0119.1116.9131.1120.4115.2118.0122.4114.3116.9126.4114.2127.2118.3127.8123.0117.4123.2119.9122.1120.4124.8122.1114.4120.5115.0122.8116.8125.8120.1124.8122.7119.4128.2124.1127.2120.0122.7118.3127.1122.5116.3125.1124.4112.3121.3127.0113.5118.8127.6125.2121.5122.5129.1122.6134.5118.3132.8第18頁,共77頁,2024年2月25日,星期天本例資料,最大值為134.5cm,最小值為110.2cm,故極差

R=134.5-110.2=24.3cm組數(shù)不宜太多,也不宜太少。一般根據(jù)樣本量的多少分成8-15組。本例假設分成10組。理論上組距等于極差除以組數(shù)。但不拘泥于計算結果,而常常取一個比較好處理的數(shù)。組距可以相等,也可以不等。本例,組距=24.3/10=2.43,我們?nèi)?cm。組段:上限、下限列表劃記第19頁,共77頁,2024年2月25日,星期天某市1995年110名7歲男童身高的頻數(shù)分布表身高組段頻數(shù)頻率(%)累計頻數(shù)累計頻率(%)110~

1

0.91

1

0.91112~

3

2.73

4

3.64114~

9

8.18

13

11.82116~

9

8.18

22

20.00118~

15

13.64

37

33.64120~

18

16.36

55

50.00122~

21

19.09

76

69.09124~

14

12.73

90

81.82126~

10

9.09100

90.91128~

4

3.64104

94.55130~

3

2.73107

97.27132~

2

1.82109

99.09134~136

1

0.91110100.00合計110100.00第20頁,共77頁,2024年2月25日,星期天頻數(shù)表的用途

根據(jù)頻數(shù)表,進而可以繪制頻數(shù)圖。揭示資料的分布特征和分布類型;資料的分布范圍、峰(單峰或多峰)和離散情況。對于單峰分布資料,

對稱分布,其中一種特殊的分布叫做正態(tài)分布;非對稱分布,又稱偏態(tài)分布。便于發(fā)現(xiàn)可疑值;便于進一步計算指標和統(tǒng)計分析處理。第21頁,共77頁,2024年2月25日,星期天第三節(jié)集中位置的度量

一、算術平均數(shù)(ArithmeticMean)

簡稱為均數(shù)(Mean),總體均數(shù)用希臘字母μ表示,樣本均數(shù)用表示。

x=nxxxn+++L21=鍈nx/

適用于服從正態(tài)分布的資料。第22頁,共77頁,2024年2月25日,星期天一、算術平均數(shù)=120第23頁,共77頁,2024年2月25日,星期天一、算術平均數(shù)

x為每個組段的組中值,f為相應組段的頻數(shù)。原理:將落在某一組段內(nèi)的觀察值都視為組中值。本例:=(4.0×4+4.2×5+……+5.8×3)/120=595.8/120=4.965

如用原始觀察值計算有=(5.195+5.070+……+5.010)/120=4.959第24頁,共77頁,2024年2月25日,星期天二、幾何均數(shù)(GeometricMean)

幾何均數(shù)用G表示,為觀察值的總乘積開n次方根,有第25頁,共77頁,2024年2月25日,星期天

常用對數(shù)計算,公式如下:

LogG=∑logX/n再查反對數(shù)得出G。列成頻數(shù)表時計算公式如下:

LogG=∑flogX/Σf適用條件:1.成倍數(shù)關系的資料。2.明顯正偏態(tài)分布的資料。二、幾何均數(shù)(GeometricMean)第26頁,共77頁,2024年2月25日,星期天二、幾何均數(shù)(GeometricMean)

例3.36例鉤端螺旋體病人的潛伏期分別為7,10,12,14,18,20天,求其平均潛伏期。

解:

或者lgG=(lg7+lg10+……+lg20)/6=1.1045

查反對數(shù)得G=12.7(天)

第27頁,共77頁,2024年2月25日,星期天二、幾何均數(shù)(GeometricMean)當為滴度資料時,如5名學齡兒童的麻疹血凝抑制抗體滴度為1:25,1:50,1:50,1:100,1:100,可先取其倒數(shù),25,50,50,100,100,再求取幾何均數(shù)為57.43,則平均抗體滴度為1:57。

第28頁,共77頁,2024年2月25日,星期天

三.中位數(shù)(Median)

中位數(shù)用M表示,它將總體或樣本的全部觀察值分成兩部分,每部分各有50%個觀察值。計算方法為:先將原始觀察值按由小到大順序排列后,位次處于中間的那個觀察值為中位數(shù)。觀察值數(shù)為奇數(shù)時,處于中間的那個數(shù)為中位數(shù)。偶數(shù)時處于中間的兩個數(shù)的均數(shù)為中位數(shù)。

第29頁,共77頁,2024年2月25日,星期天三.中位數(shù)(Median)如求數(shù)列7,10,12,14,18,20的中位數(shù)。n=6,為偶數(shù),取中間兩個數(shù)的平均數(shù),則

M=(12+14)/2=13(天)如求數(shù)列7,10,12,14,15,18,20的中位數(shù)。n=7,為奇數(shù),取中間那個數(shù)為中位數(shù)。則

M=14(天)第30頁,共77頁,2024年2月25日,星期天三.中位數(shù)(Median)適用于表示任何分布資料的平均水平。但常用于非正態(tài)分布資料。由于中位數(shù)不受個別特大,特小數(shù)值的影響,因此它比均數(shù)穩(wěn)健,常用于資料分布不明,或明顯偏態(tài),或分布的一端無確定值的情況。第31頁,共77頁,2024年2月25日,星期天

四.眾數(shù)(Mode)

頻數(shù)最大的變量值稱為眾數(shù)。列成頻數(shù)表的資料,頻數(shù)最大的組段的組中值為眾數(shù)。

第32頁,共77頁,2024年2月25日,星期天集中趨勢的測度第33頁,共77頁,2024年2月25日,星期天

五.百分位數(shù)(Percentile)

第X百分位數(shù)以Px表示,它將總體或樣本的全部觀察值分成二個部分,其中有x%個觀察值小于Px,(100-x)%個觀察值大于Px。用途:1.描述一組資料在各個百分位置上的水平,用一組百分位數(shù)如P5,P25,P50,P75,P95,可以描述總體或樣本的分布特征,如集中位置、變異度等。第34頁,共77頁,2024年2月25日,星期天百分位數(shù)70%下側(cè)30%上側(cè)第70個百分位數(shù)值四分之一分位數(shù)=25%四分之二分位數(shù)=50%第35頁,共77頁,2024年2月25日,星期天五.百分位數(shù)(Percentile)

2.確定醫(yī)學正常值范圍。

P25稱為第1四分位數(shù);記為Q1。P50稱為第2四分位數(shù);記為Q2,就是中位數(shù)MP75稱為第3四分位數(shù);記為Q3。

計算百分位數(shù)時,特別是靠近兩端的百分位數(shù)時,要求例數(shù)足夠大,大于100例。

第36頁,共77頁,2024年2月25日,星期天五.百分位數(shù)(Percentile)例:用直接法計算例3.2資料共120例的第5百分位數(shù),用頻數(shù)表法計算第95百分位數(shù),解:將原始觀察值由小到大排列,得3.980,4.065,4.070,4.070,4.2150,4.250,4.260,4.290,……

5.850,5.875先確定第x百分位數(shù)在第幾位。用公式:(n+1)×x%第37頁,共77頁,2024年2月25日,星期天五.百分位數(shù)(Percentile)本例(120+1)×5%=6.05,第5百分位數(shù)在第6.05位,即第6到第7位之間。簡單的算法是取第6和第7位數(shù)的平均值,P5=(4.250+4.260)/2=4.255(1012/L)。第38頁,共77頁,2024年2月25日,星期天五.百分位數(shù)(Percentile)第39頁,共77頁,2024年2月25日,星期天五.百分位數(shù)(Percentile)計算P951.列出頻數(shù)分布表,計算累計頻數(shù)。2.計算nx%,120×95%=1143.對照累計頻數(shù)欄與nx%確定PX應落在哪一個組段中。114將在組限為5.5~的組中,該組段下限為L,組距為i,頻數(shù)為f,上一組累積頻數(shù)為Σfl。PX=L+i(nx%-Σfl)/f,P95=5.5+0.2×(114-108)/9=5.633(1012/L)第40頁,共77頁,2024年2月25日,星期天第三節(jié)離散程度的指標1.全距(Range)是最大與最小觀察值之差。全距計算方便,但僅利用最大與最小二個數(shù)據(jù)來代表全部數(shù)據(jù)的離散程度,信息利用差。全距受特大與特小值影響大,不穩(wěn)定。

2.四分位數(shù)間距(InterquartileRange)

第41頁,共77頁,2024年2月25日,星期天第三節(jié)離散程度的指標四分位數(shù)間距是第3四分位數(shù)與第1四分位數(shù)之差,即P75-P25。四分位數(shù)間距受特大值或特小值影響小,較穩(wěn)定。中位數(shù)和四分位數(shù)間距相結合常用于表示非正態(tài)分布資料的平均水平和離散程度。第42頁,共77頁,2024年2月25日,星期天第三節(jié)離散程度的指標3.標準差與方差(StandardDeviationandVariance)總體的標準差,方差符號為σ,σ2,樣本的標準差,方差符號為S,S2。第43頁,共77頁,2024年2月25日,星期天第三節(jié)離散程度的指標當為頻數(shù)表資料時,公式如下:方差S2是標準差S的平方值。標準差(或方差)越大,表示觀察值的分布越分散,反之,標準差(或方差)越小,表示觀察值的分布越集中。實際應用時常以均數(shù)±標準差的寫法綜合觀察值的集中和離散特征。

第44頁,共77頁,2024年2月25日,星期天第三節(jié)離散程度的指標4.變異系數(shù)(CoefficientofVariation)簡記為CV,它是標準差與均數(shù)之比,用百分數(shù)表達。由于CV無量度單位,而且消除了原始資料的平均水平的影響,因此常用于比較量度單位不相同的指標或者平均水平相差懸殊的指標的變異程度。第45頁,共77頁,2024年2月25日,星期天第三節(jié)離散程度的指標第46頁,共77頁,2024年2月25日,星期天

偏態(tài)系數(shù)(skewness):

評價正態(tài)分布對稱性的指標。對稱:skewness=0;正偏態(tài):skewness>0;個別數(shù)據(jù)特別大。負偏態(tài):skewness<0;個別數(shù)據(jù)特別小。

第47頁,共77頁,2024年2月25日,星期天

峰態(tài)系數(shù)(kurtosis):評價正態(tài)分布正態(tài)峰的指標。正態(tài)峰:kurtosis=0;

尖峭峰:kurtosis>0;

平闊峰:kurtosis<0;第48頁,共77頁,2024年2月25日,星期天第四節(jié)統(tǒng)計表與統(tǒng)計圖第49頁,共77頁,2024年2月25日,星期天統(tǒng)計圖表都是將已整理好的資料用簡明的格式或圖形表達出來,因此是表達和分析統(tǒng)計資料的重要工具。統(tǒng)計表可以代替冗長的文字敘述,便于計算、分析和對比。統(tǒng)計圖則具有問題突出,簡單明了,形象化等優(yōu)點,能使人一目了然。但統(tǒng)計表不形象,統(tǒng)計圖對數(shù)字的反映不精確。因此在實際工作中,往往同時使用統(tǒng)計表和統(tǒng)計圖。第50頁,共77頁,2024年2月25日,星期天統(tǒng)計表統(tǒng)計表(statisticaltable)是以表格的形式,表達被研究對象的特征、內(nèi)部構成及研究項目分組之間的數(shù)量關系。統(tǒng)計表的結構從外形看標題:說明表的名稱橫標目:說明各橫行數(shù)字的涵義縱標目:說明各縱欄數(shù)字的涵義總標目第51頁,共77頁,2024年2月25日,星期天表1某年某地消費者對有機食品的態(tài)度性別對有機食品的態(tài)度合計喜歡(%)不喜歡(%)男30(20.0)120(80.0)150女80(40.0)120(60.0)200合計110(31.4)240(68.6)350第52頁,共77頁,2024年2月25日,星期天從內(nèi)容看主語:指研究的對象,通常列在表的左側(cè)謂語:說明主語的各項指標,通常列在表的右側(cè)主語和謂語連起來能讀成一句完整而通順的話。第53頁,共77頁,2024年2月25日,星期天統(tǒng)計表的種類簡單表:按一個研究特征/標志/標識分組復合/組合表:按二個或二個以上研究特征/標志/標識分組第54頁,共77頁,2024年2月25日,星期天表某大學某年的學生分布學院專業(yè)年級合計一二三四Aa1a2小計Bb1b2b3小計合計第55頁,共77頁,2024年2月25日,星期天繪制統(tǒng)計表的原則重點突出,簡單明了主謂分明,層次清楚繪制統(tǒng)計表的要求標題標目線條數(shù)字備注第56頁,共77頁,2024年2月25日,星期天統(tǒng)計圖統(tǒng)計圖(statisticalgraph)是用點的位置、線段的升降、直條的長短或者面積的大小等形式來表達統(tǒng)計資料之間的數(shù)量關系。統(tǒng)計圖形象、直觀,便于對比分析,但對數(shù)量的表達比較粗糙,不夠精確。第57頁,共77頁,2024年2月25日,星期天繪圖的基本要求根據(jù)資料的性質(zhì)和分析目的,正確選擇合適的圖形;每圖應有標題;直角坐標系中繪圖時,縱橫軸都應有標目,并注明單位;縱:橫一般以5:7為宜;縱軸尺度一般應從“0”開始。比較不同對象時,用不同的線條或顏色表示,并要附圖例說明。圖例寫在圖的下面或圖的右上角。第58頁,共77頁,2024年2月25日,星期天幾種常用的統(tǒng)計圖直條圖(bargraph)直條圖用等寬直條的長短來表示相互獨立的各指標的數(shù)值大小。適用于相互獨立的、無連續(xù)關系的間斷性資料的比較。種類:單式直條圖和復式直條圖第59頁,共77頁,2024年2月25日,星期天第60頁,共77頁,2024年2月25日,星期天第61頁,共77頁,2024年2月25日,星期天直條圖的繪制要點縱軸應從“0”開始,中間不能折斷,否則不能正確反映比較指標之間的相對比例;各直條的寬度應當相等。單式直條圖直條之間要有間隔,間隔以直條的寬度或直條寬度的一半為宜。復式直條圖同一指標之間不要有間隔;復式直條圖中不同系列之間要用不同的圖案或顏色相區(qū)別,并用圖例說明;直條按某一系列中的長短順序從大到小或者從小到大排列,以便比較。第62頁,共77頁,2024年2月25日,星期天圓圖和百分條圖都適用于構成比資料。圓圖(piegraph):又稱餅圖以圓面積為100%,圓內(nèi)各扇形面積為各部分所占的百分比,用來表示全體中各部分的構成。第63頁,共77頁,2024年2月25日,星期天第64頁,共77頁,2024年2月25日,星期天繪制圓圖的要點:每3.60為1%;從相當于時鐘12點或者9點的位置開始順時針方向繪圖;各部分用不同的圖案或者顏色表示,或在圖上標出各部分的百分比和名稱,或以圖例說明;同一組資料,按百分比大小順序排列;比較不同組資料,畫兩個或多個等圓,在每一個圓的下面注明組別,按固定順序排列各組成部分,用相同的圖例。第

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論