數(shù)據(jù)的統(tǒng)計分析與描述_第1頁
數(shù)據(jù)的統(tǒng)計分析與描述_第2頁
數(shù)據(jù)的統(tǒng)計分析與描述_第3頁
數(shù)據(jù)的統(tǒng)計分析與描述_第4頁
數(shù)據(jù)的統(tǒng)計分析與描述_第5頁
已閱讀5頁,還剩38頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)的統(tǒng)計分析與描述2023/4/101第1頁,共43頁,2023年,2月20日,星期五目的2、掌握用數(shù)學(xué)軟件包求解統(tǒng)計問題。1、直觀了解統(tǒng)計基本內(nèi)容。第2頁,共43頁,2023年,2月20日,星期五統(tǒng)計的基本概念參數(shù)估計假設(shè)檢驗數(shù)據(jù)的統(tǒng)計描述和分析2023/4/103第3頁,共43頁,2023年,2月20日,星期五1.總體與樣本總體(population):總體是指所研究對象的全體組成的集合。樣本(sample):樣本是指從總體中抽取的部分對象(個體)組成的集合。樣本中包含個體的個數(shù)稱為樣本容量。容量為n的樣本常用n個隨機(jī)變量X1,X2,…,Xn表示,其觀測值(樣本數(shù)據(jù))則表示為x1,...,xn,為簡單起見,有時不加區(qū)別。第4頁,共43頁,2023年,2月20日,星期五2.參數(shù)與統(tǒng)計量參數(shù)(parameter):參數(shù)是用來描述總體特征的概括性值。如總體平均值(μ)、總體方差(2)、總體比例(π)等。統(tǒng)計量(statistics):統(tǒng)計量是用來描述樣本特征的概括性值。如樣本均值()、樣本方差(s2)、樣本比例(P)等。第5頁,共43頁,2023年,2月20日,星期五表示數(shù)據(jù)集中趨勢的統(tǒng)計量如果要用簡單的數(shù)字來概括一組觀測數(shù)據(jù)x1,...,xn,可以使用“位置統(tǒng)計量”來作為數(shù)據(jù)的總體代表,常見的位置統(tǒng)計量有:均值、中位數(shù)、分位數(shù)、眾數(shù)等。1.均值(Mean)均值是所有觀測值的平均值,是描述數(shù)據(jù)取值中心位置的一個度量:第6頁,共43頁,2023年,2月20日,星期五2.中位數(shù)(Median或Med)中位數(shù)是描述觀測值數(shù)據(jù)中心位置的統(tǒng)計量,大體上比中位數(shù)大(?。┑臄?shù)據(jù)為觀測值的一半。中位數(shù)的一個優(yōu)點是它不受個別極端數(shù)據(jù)的影響,具有穩(wěn)健性。中位數(shù)的計算方法是:首先將數(shù)據(jù)從小到大排序為:x(1),...,x(n),然后計算第7頁,共43頁,2023年,2月20日,星期五3.眾數(shù)(Mode)觀測值中出現(xiàn)最多的數(shù)稱為眾數(shù)。眾數(shù)用得不如均值和中位數(shù)普遍。在屬性變量分析中,常需考慮頻數(shù),因此眾數(shù)用得多些。4.百分位數(shù)(Percentile)分位數(shù)也是描述數(shù)據(jù)分布和位置的統(tǒng)計量。0.5分位數(shù)就是中位數(shù),0.75分位數(shù)和0.25分位數(shù)又分別稱為上、下四分位數(shù),并分別記為Q3和Q1。第8頁,共43頁,2023年,2月20日,星期五表示數(shù)據(jù)離散程度的統(tǒng)計量1.極差(Range)與半極差(Interquartilerange)極差就是數(shù)據(jù)中的最大值和最小值之間的差:極差=max{xi}–min{xi}

上、下四分位數(shù)之差Q3–Q1稱為四分位極差或半極差,它描述了中間半數(shù)觀測值的散布情況。2.方差(Variance或Var)方差是由各觀測值到均值距離的平方和除以觀測量減1:第9頁,共43頁,2023年,2月20日,星期五3.標(biāo)準(zhǔn)差(Standarddeviation或StdDev)方差的開方稱為標(biāo)準(zhǔn)差:標(biāo)準(zhǔn)差的量綱與原變量一致。4.變異系數(shù)(CoefficientofVariation或CV)變異系數(shù)是將標(biāo)準(zhǔn)差表示為均值的百分?jǐn)?shù),是觀測數(shù)據(jù)分散性的一個度量,它在比較用不同單位測量的數(shù)據(jù)的分散性時是有用的:第10頁,共43頁,2023年,2月20日,星期五表示數(shù)據(jù)分布形狀的統(tǒng)計量偏度和峰度是描述數(shù)據(jù)分布形狀的指標(biāo)。1.偏度(skewness)偏度是刻畫數(shù)據(jù)對稱性的指標(biāo)。偏度的計算公式為:在SAS中:●關(guān)于均值對稱的數(shù)據(jù)其偏度為0;●左側(cè)更為分散的數(shù)據(jù),其偏度為負(fù),稱為左偏;●右側(cè)更為分散的數(shù)據(jù),其偏度為正,稱為右偏。第11頁,共43頁,2023年,2月20日,星期五2.峰度(kurtosis)峰度描述數(shù)據(jù)向分布尾端散布的趨勢。峰度的計算公式為:利用峰度研究數(shù)據(jù)分布的形狀是以正態(tài)分布為標(biāo)準(zhǔn)(假定正態(tài)分布的方差與所研究分布的方差相等)比較兩端極端數(shù)據(jù)的分布情況,若●近似于標(biāo)準(zhǔn)正態(tài)分布,則峰度接近于零;●尾部較正態(tài)分布更分散,則峰度為正,稱為輕尾;●尾部較正態(tài)分布更集中,則峰度為負(fù),稱為厚尾。第12頁,共43頁,2023年,2月20日,星期五其它統(tǒng)計量1.均值的標(biāo)準(zhǔn)誤(StdErrorMean或StdMean或Stderror)2.校正平方和(Correctedsumofsquares)第13頁,共43頁,2023年,2月20日,星期五3.未校正平方和(Uncorrectedsumofsquares)4.k階原點矩其中A1即為均值。5.k階中心矩第14頁,共43頁,2023年,2月20日,星期五區(qū)間估計1.點估計和區(qū)間估計參數(shù)的估計方法主要有兩種:點估計和區(qū)間估計。點估計:用樣本的觀測值估計總體未知參數(shù)的值。區(qū)間估計:在點估計的基礎(chǔ)上,給出總體參數(shù)的一個范圍。第15頁,共43頁,2023年,2月20日,星期五2.參數(shù)的置信區(qū)間和置信水平置信區(qū)間:由樣本統(tǒng)計量所構(gòu)造的總體參數(shù)的估計區(qū)間。置信區(qū)間是一個隨機(jī)區(qū)間,它依賴與樣本。如果將構(gòu)造置信區(qū)間的步驟重復(fù)多次,置信區(qū)間中包含總體參數(shù)真值的次數(shù)所占的比例,稱為置信水平。置信水平為1–

α的含義是隨機(jī)區(qū)間(θ1,θ2)以1–

α的概率包含了參數(shù)θ。置信水平為90%時α=0.1,

為正態(tài)曲線下右側(cè)面積為α/2=0.05時的Z值。第16頁,共43頁,2023年,2月20日,星期五3.正態(tài)總體均值和方差的置信區(qū)間正態(tài)總體參數(shù)的各種置信區(qū)間見表5-1。被估參數(shù)條件樞軸量及其分布參數(shù)的置信區(qū)間單正態(tài)總體μ2已知2未知2μ已知μ未知第17頁,共43頁,2023年,2月20日,星期五4.總體比例與比例差的置信區(qū)間實際應(yīng)用中經(jīng)常需要對總體比例進(jìn)行估計,如產(chǎn)品的合格率、大學(xué)生的就業(yè)率和手機(jī)的普及率等。記π和P分別表示總體比例和樣本比例,則當(dāng)樣本容量n很大時(一般當(dāng)nP和n(1–

P)均大于5時,就可以認(rèn)為樣本容量足夠大),樣本比例P的抽樣分布可用正態(tài)分布近似。總體比例與比例差的置信區(qū)間如表5-2所示。待估參數(shù)樞軸量及其分布參數(shù)的置信區(qū)間總體比例π兩總體比例差π1-π2其中P1,P2為兩個樣本比例

第18頁,共43頁,2023年,2月20日,星期五要用到的3個分布:正態(tài)概率分布有以下重要特征:(1)正態(tài)分布是對稱分布,對稱軸是x=μ。(2)當(dāng)x=μ時,正態(tài)概率密度最大。(3)正態(tài)分布的圖形由μ和σ決定。(4)當(dāng)σ為定值時,μ的變化引起正態(tài)概率密度曲線在橫軸上平行移動。(5)當(dāng)μ為定值時,σ的變化將引起正態(tài)概率密度曲線的形狀變得尖峭或偏平。第19頁,共43頁,2023年,2月20日,星期五第20頁,共43頁,2023年,2月20日,星期五第21頁,共43頁,2023年,2月20日,星期五假設(shè)檢驗1.假設(shè)檢驗的基本概念和原理假設(shè)檢驗:先對總體參數(shù)提出某種假設(shè),然后利用樣本信息判斷假設(shè)是否成立的過程。備擇假設(shè):研究者想通過收集證據(jù)以支持的假設(shè)記為H1

原假設(shè):研究者想通過收集證據(jù)以反對的假設(shè)記為H0a:當(dāng)原假設(shè)為真時拒絕原假設(shè)的概率,為顯著性水平。檢驗統(tǒng)計量:對原假設(shè)和備擇假設(shè)作出決策的某個樣本統(tǒng)計量。拒絕域:能夠拒絕原假設(shè)的檢驗統(tǒng)計量的所有可能值的集合。第22頁,共43頁,2023年,2月20日,星期五對總體參數(shù)進(jìn)行假設(shè)檢驗時,首先要給定一個原假設(shè)H0,H0是關(guān)于總體參數(shù)的表述,與此同時存在一個與H0相對立的備擇假設(shè)H1,H0與H1有且僅有一個成立;經(jīng)過一次抽樣,若發(fā)生了小概率事件(通常把概率小于0.05的事件稱為小概率事件),可以依據(jù)“小概率事件在一次實驗中幾乎不可能發(fā)生”的理由,懷疑原假設(shè)不真,作出拒絕原假設(shè)H0,接受H1的決定;反之,若小概率事件沒有發(fā)生,就沒有理由拒絕H0,從而應(yīng)作出拒絕H1的決定。第23頁,共43頁,2023年,2月20日,星期五2.假設(shè)檢驗的步驟

1)根據(jù)問題確立原假設(shè)H0和備選假設(shè)H1;

2)確定一個顯著性水平,它是衡量稀有性(小概率事件)的標(biāo)準(zhǔn),常取為0.05;

3)選定合適的檢驗用統(tǒng)計量W(通常在原假設(shè)中相等成立時,W的分布是已知的),根據(jù)W的分布及的值,確定H0的拒絕域。

4)由樣本觀測值計算出統(tǒng)計量W的觀測值W0,如果W0落入H0的拒絕域,則拒絕H0;否則,不能拒絕原假設(shè)H0。第24頁,共43頁,2023年,2月20日,星期五

注意:在SAS系統(tǒng)中,是由樣本觀測值計算出統(tǒng)計量W的觀測值W0和衡量觀測結(jié)果極端性的p值(p值就是當(dāng)原假設(shè)成立時得到樣本觀測值和更極端結(jié)果的概率),然后比較p和作判斷:p<,拒絕原假設(shè)H0;否則,不能拒絕原假設(shè)H0。第25頁,共43頁,2023年,2月20日,星期五p值通常由下面公式計算而得到?!駊=P{|W|≥|W0|}=2P{W≥|W0|}

(拒絕域為兩邊對稱的區(qū)域時)●p=min{P{W≥W0},P{W

W0}}

(拒絕域為兩邊非對稱區(qū)域時)●p=P{W≥W0}(拒絕域為右邊區(qū)域時)●p=P{W

W0}(拒絕域為左邊區(qū)域時)只需根據(jù)SAS計算出的p值,就可以在指定的顯著水平下,作出拒絕或不能拒絕原假設(shè)的決定。第26頁,共43頁,2023年,2月20日,星期五表5-4單正態(tài)總體N(μ,2)方差2的檢驗法或檢驗名稱條件檢驗類別H0H1檢驗統(tǒng)計量分布拒絕域χ2檢驗μ已知雙邊檢驗左邊檢驗右邊檢驗μ未知雙邊檢驗左邊檢驗右邊檢驗第27頁,共43頁,2023年,2月20日,星期五3.正態(tài)總體均值和方差的假設(shè)檢驗對正態(tài)總體的參數(shù)進(jìn)行假設(shè)檢驗是假設(shè)檢驗的重要內(nèi)容,如對單總體均值、方差的檢驗、兩總體均值之差的檢驗和兩總體方差比的檢驗等。正態(tài)總體參數(shù)的各種檢驗方法見下表5-3至表5-5。表5-3單正態(tài)總體N(μ,2)均值μ的檢驗法檢驗名稱條件檢驗類別H0H1檢驗統(tǒng)計量分布拒絕域Z檢驗已知雙邊檢驗μ=μ0μ≠μ0N(0,1)|Z|≥Zα/2左邊檢驗μ≥μ0μ<μ0Z≤-Zα右邊檢驗μ≤μ0μ>μ0Z≥Zαt檢驗未知雙邊檢驗μ=μ0μ≠μ0t(n–1)|t|≥tα/2(n

–1)左邊檢驗μ≥μ0μ<μ0t≤–

tα(n

–1)右邊檢驗μ≤μ0μ>μ0t≥tα(n

–1)第28頁,共43頁,2023年,2月20日,星期五表5-5兩正態(tài)總體的均值差與方差比的檢驗名稱條件類別H0H1檢驗統(tǒng)計量分布拒絕域Z檢驗兩樣本獨立,12=22=2未知雙邊檢驗μ1-μ2=0μ1-μ2≠0t(n1+n2

–2)左邊檢驗μ1-μ20μ1-μ2<0右邊檢驗μ1-μ20μ1-μ2>0t檢驗成對匹配樣本,12,22未知雙邊檢驗μd=0μd≠0左邊檢驗μd0μd<0右邊檢驗μd0μd>0F檢驗兩樣本獨立,μ1,μ2未知雙邊檢驗F(n1–1,n2–1)左邊檢驗右邊檢驗第29頁,共43頁,2023年,2月20日,星期五4.總體比例與比例差的檢驗當(dāng)樣本容量n很大時,可根據(jù)表5-6對總體比例與比例差進(jìn)行假設(shè)檢驗。表5-6總體比例與比例差的檢驗檢驗名稱檢驗類別H0H1

檢驗統(tǒng)計量分布拒絕域比例檢驗雙邊檢驗

=0

0N(0,1)|z|

zα/2左邊檢驗

0

<0|z|≤–

zα右邊檢驗

0

>0|z|

zα兩總體比例差檢驗雙邊檢驗1

=21

2N(0,1)|z|

zα/2左邊檢驗1

21<2|z|≤–

zα右邊檢驗1

21>2|z|

zα第30頁,共43頁,2023年,2月20日,星期五統(tǒng)計工具箱中的基本統(tǒng)計命令1.數(shù)據(jù)的錄入、保存和調(diào)用2.基本統(tǒng)計量3.常見概率分布的函數(shù)4.頻數(shù)直方圖的描繪5.參數(shù)估計6.假設(shè)檢驗7.綜合實例返回2023/4/1031第31頁,共43頁,2023年,2月20日,星期五一、數(shù)據(jù)的錄入、保存和調(diào)用

例1

上海市區(qū)社會商品零售總額和全民所有制職工工資總額的數(shù)據(jù)如下統(tǒng)計工具箱中的基本統(tǒng)計命令2023/4/1032第32頁,共43頁,2023年,2月20日,星期五1、年份數(shù)據(jù)以1為增量,用產(chǎn)生向量的方法輸入。命令格式:x=a:h:bt=78:872、分別以x和y代表變量職工工資總額和商品零售總額。

x=[23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4]y=[41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]3、將變量t、x、y的數(shù)據(jù)保存在文件data中。

savedatatxy4、進(jìn)行統(tǒng)計分析時,調(diào)用數(shù)據(jù)文件data中的數(shù)據(jù)。

loaddataToMATLAB(txy)方法12023/4/1033第33頁,共43頁,2023年,2月20日,星期五1、輸入矩陣:data=[78,79,80,81,82,83,84,85,86,87,88;23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]2、將矩陣data的數(shù)據(jù)保存在文件data1中:savedata1data3、進(jìn)行統(tǒng)計分析時,先用命令:loaddata1

調(diào)用數(shù)據(jù)文件data1中的數(shù)據(jù),再用以下命令分別將矩陣data的第一、二、三行的數(shù)據(jù)賦給變量t、x、y:

t=data(1,:)x=data(2,:)y=data(3,:)若要調(diào)用矩陣data的第j列的數(shù)據(jù),可用命令:

data(:,j)方法2ToMATLAB(data)返回2023/4/1034第34頁,共43頁,2023年,2月20日,星期五二、基本統(tǒng)計量對隨機(jī)變量x,計算其基本統(tǒng)計量的命令如下:均值:mean(x)中位數(shù):median(x)標(biāo)準(zhǔn)差:std(x)

方差:var(x)偏度:skewness(x)

峰度:kurtosis(x)例對例1中的職工工資總額x,可計算上述基本統(tǒng)計量。ToMATLAB(tjl)返回2023/4/1035第35頁,共43頁,2023年,2月20日,星期五三、常見概率分布的函數(shù)Matlab工具箱對每一種分布都提供五類函數(shù),其命令字符為:概率密度:pdf概率分布:cdf逆概率分布:inv均值與方差:stat隨機(jī)數(shù)生成:rnd

(當(dāng)需要一種分布的某一類函數(shù)時,將以上所列的分布命令字符與函數(shù)命令字符接起來,并輸入自變量(可以是標(biāo)量、數(shù)組或矩陣)和參數(shù)即可.)2023/4/1036第36頁,共43頁,2023年,2月20日,星期五1、給出數(shù)組data的頻數(shù)表的命令為:

[N,X]=hist(data,k)

此命令將區(qū)間[min(data),max(data)]分為k個小區(qū)間(缺省為10),返回數(shù)組data落在每一個小區(qū)間的頻數(shù)N和每一個小區(qū)間的中點X.2、描繪數(shù)組data的頻數(shù)直方圖的命令為:

hist(data,k)四、頻數(shù)直方圖的描繪返回2023/4/1037第37頁,共43頁,2023年,2月20日,星期五五、參數(shù)估計1、正態(tài)總體的參數(shù)估計

設(shè)總體服從正態(tài)分布,則其點估計和區(qū)間估計可同時由以下命令獲得:

[muhat,sigmahat,muci,sigmaci]=normfit(X,alpha)

此命令在顯著性水平alpha下估計數(shù)據(jù)X的參數(shù)(alpha缺省時設(shè)定為0.05),返回值muhat是X的均值的點估計值,sigmahat是標(biāo)準(zhǔn)差的點估計值,muci是均值的區(qū)間估計,sigmaci是標(biāo)準(zhǔn)差的區(qū)間估計.2023/4/1038第38頁,共43頁,2023年,2月20日,星期五六、假設(shè)檢驗

在總體服從正態(tài)分布的情況下,可用以下命令進(jìn)行假設(shè)檢驗.1、總體方差sigma2已知時,總體均值的檢驗使用z-檢驗

[h,sig,ci]=ztest(x,m,sigma,alpha,tail)檢驗數(shù)據(jù)x的關(guān)于均值的某一假設(shè)是否成立,其中sigma為已知方差,alpha為顯著性水平,究竟檢驗什么假設(shè)取決于tail的取值:tail=0,檢驗假設(shè)“x的均值等于m”tail=1,檢驗假設(shè)“x的均值大于m”tail=-1,檢驗假設(shè)“x的均值小于m”tail的缺省值為0,alpha的缺省值為0.05.

返回值h為一個布爾值,h=1表示可以拒絕假設(shè),h=0表示不可以拒絕假設(shè),sig為假設(shè)成立的概率,ci為均值的1-alpha置信區(qū)間.2023/4/1039第39頁,共43頁,2023年,2月20日,星期五

例7Matlab統(tǒng)計工具箱中的數(shù)據(jù)文件gas.mat.中提供了美國1993年一月份和二月份的汽油平均價格(price1,price2分別是一,二月份的油價,單位為美分),它是容量為20的雙樣本.假設(shè)一月份油價的標(biāo)準(zhǔn)偏差是一加侖四分幣(=4),試檢驗一月份油價的均值是否等于115.解作假設(shè):m=115.首先取出數(shù)據(jù),用以下命令:

loadgas然后用以下命令檢驗

[h,sig,ci]=ztest(price1,115,4)返回:h=0,sig=0.8668,ci=[113.3970116.9030].檢驗結(jié)果:1.布爾變量h=0,表示不拒絕零假設(shè).說明提出的假設(shè)均值115

是合理的.2.sig-值為0.8668,遠(yuǎn)超過0.5,不能拒絕零假設(shè)

3.95%的置信區(qū)間為[113.4,116.9],它完全包括115,且精度很高..

ToMATLAB(liti7)2023/4/1040第40頁,共43頁,2023年,2月20日,星期五2、總體方差sigma2未知時,總體均值的檢驗使用t-檢驗[h,sig,ci]=ttest(x,m,alpha,tail)檢驗數(shù)據(jù)x的關(guān)于均值的某一假設(shè)是否成立,其中alpha為顯著性水平,究竟檢驗什么假設(shè)取決于tail的取值:tail=0,檢驗假設(shè)“x的均值等于m”tail=1,檢驗假設(shè)“x的均值大于m”tail=-1,檢驗假設(shè)“x的均值小于m”tail的缺省值為0,alpha的缺省值為0.05.

返回值h為一個布爾值,h=1表示可以拒絕假設(shè),h=0表示不可以拒絕假設(shè),sig為假設(shè)成立的概率,ci為均值的1-alpha置信區(qū)間.2023/4/1041第41頁,共43頁,2023年,2月20日,星期五返回:h=1,sig=4.9517e-004,ci=[116.8120.2].檢驗結(jié)果:1.布爾變量h=1,表示拒絕零假設(shè).說明提出的假設(shè)油價

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論