版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、統(tǒng)計學(xué)從數(shù)據(jù)到結(jié)論第三章數(shù)據(jù)的描述 在對數(shù)據(jù)進行深入加工之前,在對數(shù)據(jù)進行深入加工之前,總應(yīng)該對數(shù)據(jù)有所印象。總應(yīng)該對數(shù)據(jù)有所印象。 可以借助于圖形和簡單的運算,可以借助于圖形和簡單的運算,來了解數(shù)據(jù)的一些特征。來了解數(shù)據(jù)的一些特征。 由于數(shù)據(jù)是從總體中產(chǎn)生的,由于數(shù)據(jù)是從總體中產(chǎn)生的,其特征也反映了總體的特征。其特征也反映了總體的特征。對數(shù)據(jù)的描述也是對其總體的對數(shù)據(jù)的描述也是對其總體的一個近似的描述。一個近似的描述。3.1 如何用圖來表示數(shù)據(jù)?如何用圖來表示數(shù)據(jù)?3.1.1 定量變量的圖表示定量變量的圖表示:1.直方圖直方圖對于一個定量變量,比如某個地區(qū)對于一個定量變量,比如某個地區(qū)(地區(qū)
2、(地區(qū)1)測量了)測量了163個高三男生的身個高三男生的身高高(s3height1.txt)。用圖形來表示這個數(shù)據(jù),使人們能夠用圖形來表示這個數(shù)據(jù),使人們能夠看出這個數(shù)據(jù)的大體分布或看出這個數(shù)據(jù)的大體分布或“形狀形狀”的一個辦法是畫的一個辦法是畫直方圖直方圖(histogram)。圖圖3.1就是利用這個數(shù)據(jù)由就是利用這個數(shù)據(jù)由spss軟件軟件所畫的直方圖。所畫的直方圖。圖3.1 地區(qū)1高三男生身高的直方圖200.0195.0190.0185.0180.0175.0170.0165.0160.0155.0150.0std. dev(標準差)=10.91,mean(均值)=170.9,n(人數(shù))=
3、163403020100該圖的橫坐標是身高區(qū)間,這里每一格代表該圖的橫坐標是身高區(qū)間,這里每一格代表5cm的身高范圍(格子的身高范圍(格子寬度因不同的數(shù)據(jù)性質(zhì)或要求而定,這里的格子寬度為寬度因不同的數(shù)據(jù)性質(zhì)或要求而定,這里的格子寬度為5cm),而),而縱坐標為各種身高區(qū)間的身高的頻數(shù)??v坐標為各種身高區(qū)間的身高的頻數(shù)。 直方圖直方圖3.1.1 定量變量的圖表示定量變量的圖表示:2.盒型圖盒型圖簡單一些的是簡單一些的是盒形圖盒形圖(boxplot,又稱,又稱箱圖、箱線圖、盒子圖箱圖、箱線圖、盒子圖)。圖圖3.2的左邊一個是根據(jù)地區(qū)的左邊一個是根據(jù)地區(qū)1高三男高三男生的身高數(shù)據(jù)所繪的盒形圖;其右邊
4、生的身高數(shù)據(jù)所繪的盒形圖;其右邊的圖代表另一個地區(qū)(地區(qū)的圖代表另一個地區(qū)(地區(qū)2)的高)的高三學(xué)生的身高三學(xué)生的身高(height.txt,height.sav,第三章例,第三章例.xls)。175163n =地區(qū)地區(qū)2地區(qū)1高三男生身高210200190180170160150140323259250248596158盒型圖盒型圖盒子的中間橫線是數(shù)據(jù)的中位數(shù)盒子的中間橫線是數(shù)據(jù)的中位數(shù)(median),封閉盒子的上下兩橫線,封閉盒子的上下兩橫線(邊)為上下四分位數(shù)(點);按照(邊)為上下四分位數(shù)(點);按照spss的默認選項,如果所有的默認選項,如果所有樣本中的數(shù)目都在離四分位點樣本中的數(shù)
5、目都在離四分位點1.5倍盒子長度之內(nèi),則線的端點為倍盒子長度之內(nèi),則線的端點為最大和最小值,否則線長就是最大和最小值,否則線長就是1.5倍的盒子長度(盒子長度稱為四倍的盒子長度(盒子長度稱為四分位間距),在其外面的度量單獨點出分位間距),在其外面的度量單獨點出3.1.1 定量變量的圖表示定量變量的圖表示:3.莖葉圖莖葉圖 在直方圖和盒形圖中,很難恢復(fù)數(shù)據(jù)在直方圖和盒形圖中,很難恢復(fù)數(shù)據(jù)的原貌。而另一種圖:的原貌。而另一種圖:莖葉圖莖葉圖(stem-and-leaf plots)可以恢復(fù)數(shù)據(jù)可以恢復(fù)數(shù)據(jù)以地區(qū)以地區(qū)1高三男生身高為例(圖高三男生身高為例(圖3.3),),莖葉圖既展示了分布形狀又有
6、原始數(shù)莖葉圖既展示了分布形狀又有原始數(shù)據(jù)。它象一片帶有莖的葉子。莖為較據(jù)。它象一片帶有莖的葉子。莖為較大位數(shù)的數(shù)字,葉為較小位數(shù)的數(shù)字。大位數(shù)的數(shù)字,葉為較小位數(shù)的數(shù)字。莖葉圖莖葉圖其中莖葉圖中莖的單位為其中莖葉圖中莖的單位為10cm,而葉子單位為,而葉子單位為1cm。比如,由于。比如,由于第一行莖為第一行莖為150cm,因此葉子中的九個數(shù)字,因此葉子中的九個數(shù)字001223344代表九個數(shù)代表九個數(shù)目目150、150、151、152、152、153、153、154、154cm等。每等。每行左邊有一個頻數(shù)(比如第一行有行左邊有一個頻數(shù)(比如第一行有9個數(shù)目,第二行有個數(shù)目,第二行有17個等等)
7、;個等等);可以看出最長的一行為從可以看出最長的一行為從165cm到到169cm的一段(有的一段(有35個數(shù))。個數(shù))。3.1.1 定量變量的圖表示定量變量的圖表示:4.散點圖散點圖 數(shù)據(jù)會有兩個變量,如美國男士和女數(shù)據(jù)會有兩個變量,如美國男士和女士初婚年限數(shù)據(jù)(士初婚年限數(shù)據(jù)(marriage.txt)。)。該數(shù)據(jù)描述了自該數(shù)據(jù)描述了自1900年到年到1998年男年男女第一次婚姻延續(xù)的時間。女第一次婚姻延續(xù)的時間。這里年份是一個變量,婚姻延續(xù)時間這里年份是一個變量,婚姻延續(xù)時間是第二個變量。由于不可能將所有人是第二個變量。由于不可能將所有人的婚姻年限都給出來,所以每年就取的婚姻年限都給出來,
8、所以每年就取了一個中間的值了一個中間的值(中位數(shù)中位數(shù))作為代表。作為代表。200019801960194019201900282726252423222120女男散點圖散點圖3.1.2 定性變量的圖表示:餅圖定性變量的圖表示:餅圖 定性變量(或?qū)傩宰兞浚诸愖兌ㄐ宰兞浚ɑ驅(qū)傩宰兞?,分類變量)不能點出直方圖、散點圖或量)不能點出直方圖、散點圖或莖葉圖,但可以描繪出它們各類莖葉圖,但可以描繪出它們各類的比例。的比例。 下面用下面用spss繪的圖繪的圖3.5(餅圖,(餅圖,pie chart)表示了說世界各種主表示了說世界各種主要語言人數(shù)的比例要語言人數(shù)的比例(language.txt).餅圖餅圖
9、3.1.2 定性變量的圖表示:條形圖定性變量的圖表示:條形圖 而用同樣數(shù)據(jù)畫的圖而用同樣數(shù)據(jù)畫的圖3.6稱為稱為條條形圖(形圖(bar chart)。 從每一條可以看出講各種語言從每一條可以看出講各種語言的實際人數(shù),而且分別給出了的實際人數(shù),而且分別給出了每個語種中母語和日常使用的每個語種中母語和日常使用的人數(shù)(在圖中并排放置)。條人數(shù)(在圖中并排放置)。條形圖顯示比例不如餅圖直觀。形圖顯示比例不如餅圖直觀。條形圖條形圖3.2 如何用少量數(shù)字來概括數(shù)據(jù)?如何用少量數(shù)字來概括數(shù)據(jù)? 大量的數(shù)字既繁瑣又不直觀;需大量的數(shù)字既繁瑣又不直觀;需要對數(shù)據(jù)做人們時間和耐心所允要對數(shù)據(jù)做人們時間和耐心所允許
10、的簡化許的簡化 我們可以用我們可以用 “平均平均”,“差距差距”或百分比等來概括大量數(shù)字。或百分比等來概括大量數(shù)字。 由于定性變量主要是計數(shù),比較由于定性變量主要是計數(shù),比較簡單,常用的概括就是比例或百簡單,常用的概括就是比例或百分比。下面主要介紹關(guān)于定量變分比。下面主要介紹關(guān)于定量變量的數(shù)字描述。量的數(shù)字描述。3.2 如何用少量數(shù)字來概括數(shù)據(jù)?如何用少量數(shù)字來概括數(shù)據(jù)? 可用少量所謂匯總統(tǒng)計量或可用少量所謂匯總統(tǒng)計量或概括概括統(tǒng)計量統(tǒng)計量(summary statistic)來描來描述定量變量的數(shù)據(jù)。述定量變量的數(shù)據(jù)。 這些數(shù)字是從樣本數(shù)據(jù)得來的,這些數(shù)字是從樣本數(shù)據(jù)得來的,因而也是樣本的函
11、數(shù),因而也是樣本的函數(shù), 任何樣本的函數(shù),只要不包含總?cè)魏螛颖镜暮瘮?shù),只要不包含總體的未知參數(shù),都稱為體的未知參數(shù),都稱為統(tǒng)計量統(tǒng)計量(statistic)。 樣本的隨機性決定統(tǒng)計量的隨機樣本的隨機性決定統(tǒng)計量的隨機性(統(tǒng)計量也是隨機變量)性(統(tǒng)計量也是隨機變量)3.2 如何用少量數(shù)字來概括數(shù)據(jù)?如何用少量數(shù)字來概括數(shù)據(jù)? 概括統(tǒng)計量經(jīng)常對應(yīng)于總體概括統(tǒng)計量經(jīng)常對應(yīng)于總體的無法觀測到的某些參數(shù)。的無法觀測到的某些參數(shù)。 這時,統(tǒng)計量可作為這些參這時,統(tǒng)計量可作為這些參數(shù)的估計。一些統(tǒng)計量還可數(shù)的估計。一些統(tǒng)計量還可以用來檢驗樣本和假設(shè)的總以用來檢驗樣本和假設(shè)的總體是否一致。體是否一致。3.2
12、如何用少量數(shù)字來概括數(shù)據(jù)?如何用少量數(shù)字來概括數(shù)據(jù)? 注:注:一些統(tǒng)計量前面有時加一些統(tǒng)計量前面有時加上上“樣本樣本”二字,以區(qū)別于二字,以區(qū)別于總體的同名參數(shù)。如總體的同名參數(shù)。如“樣本樣本均值均值”和和“樣本標準差樣本標準差”,以區(qū)別于總體均值和總體標以區(qū)別于總體均值和總體標準差;但在不會混淆時可以準差;但在不會混淆時可以只說只說“均值均值”和和“標準差標準差”。3.2.1 數(shù)據(jù)的數(shù)據(jù)的“位置位置”數(shù)據(jù)有位置嗎?數(shù)據(jù)有位置嗎?這里三個數(shù)據(jù)的位置一樣嗎?這里三個數(shù)據(jù)的位置一樣嗎?3.2.1 數(shù)據(jù)的數(shù)據(jù)的“位置位置” “位置位置”一般是關(guān)于數(shù)據(jù)中某變量一般是關(guān)于數(shù)據(jù)中某變量觀測值的觀測值的“中
13、心位置中心位置”或者數(shù)據(jù)或者數(shù)據(jù)分布的中心(分布的中心(center或或center tendency)。)。 和這種和這種“位置位置”有關(guān)的統(tǒng)計量就有關(guān)的統(tǒng)計量就稱為稱為位置統(tǒng)計量位置統(tǒng)計量(location statistic)。 位置統(tǒng)計量當然不一定都是描述位置統(tǒng)計量當然不一定都是描述“中心中心”了,比如后面要講的了,比如后面要講的k百百分位數(shù)(或分位數(shù)(或k分位數(shù))。分位數(shù))。3.2.1 數(shù)據(jù)的數(shù)據(jù)的“位置位置”最常用的位置統(tǒng)計量就是小學(xué)時所學(xué)最常用的位置統(tǒng)計量就是小學(xué)時所學(xué)到的算術(shù)平均數(shù),它在統(tǒng)計中叫做均到的算術(shù)平均數(shù),它在統(tǒng)計中叫做均值值(mean);嚴格地說叫做樣本均值;嚴格地說
14、叫做樣本均值(sample mean),以區(qū)別于總體均值。,以區(qū)別于總體均值。如果記樣本中的觀測值為如果記樣本中的觀測值為x1,xn,則,則樣本均值定義為樣本均值定義為(樣本樣本)中位數(shù)中位數(shù)(median) 是數(shù)據(jù)按照大小排列之是數(shù)據(jù)按照大小排列之后位于中間的那個數(shù)后位于中間的那個數(shù)(如如果樣本量為奇數(shù)果樣本量為奇數(shù)),或者,或者中間兩個數(shù)目的平均中間兩個數(shù)目的平均(如如果樣本量為偶數(shù)果樣本量為偶數(shù))。由于中位數(shù)不易被極端由于中位數(shù)不易被極端值影響,所以中位數(shù)比值影響,所以中位數(shù)比均值穩(wěn)健均值穩(wěn)健(robust)。3.2.1 數(shù)據(jù)的數(shù)據(jù)的“位置位置”上下四分位數(shù)(或分別稱為第一四分位數(shù)和第三
15、四分位數(shù),first quantile, third quantile)則分別位于(按大小排列的)數(shù)據(jù)的上下四分之一的地方。3.2.1 數(shù)據(jù)的數(shù)據(jù)的“位置位置”3.2.1 數(shù)據(jù)的數(shù)據(jù)的“位置位置”一般地還稱上四分位數(shù)為一般地還稱上四分位數(shù)為75百分位數(shù)百分位數(shù)(75 pecentile,有,有75的觀測值小于的觀測值小于它),下四分位數(shù)為它),下四分位數(shù)為25百分位數(shù)百分位數(shù)(有(有25的觀測值小于它)。的觀測值小于它)。一般地,一般地,k百分位數(shù)百分位數(shù)(k-pecentile)意)意味著有味著有k的觀測值小于它。的觀測值小于它。如果令如果令a a=k%,則則k百分位數(shù)也稱為百分位數(shù)也稱為a
16、 a分位數(shù)分位數(shù)(a a-quantile)。樣本中出現(xiàn)最多的數(shù)目,稱為樣本中出現(xiàn)最多的數(shù)目,稱為眾數(shù)眾數(shù)(mode)3.2.2 數(shù)據(jù)的數(shù)據(jù)的“尺度尺度” 這兩個數(shù)據(jù)“胖瘦”一樣嗎?3.2.2 數(shù)據(jù)的數(shù)據(jù)的“尺度尺度” 數(shù)據(jù)中數(shù)目的分散程度由尺度統(tǒng)計量(scale statistic)來描述。 尺度統(tǒng)計量是描述數(shù)據(jù)散布,即描述集中與分散程度或變化(spread或variability)的度量。3.2.2 數(shù)據(jù)的數(shù)據(jù)的“尺度尺度”從前面兩個高三男生身高數(shù)據(jù)的盒從前面兩個高三男生身高數(shù)據(jù)的盒形圖。左邊的數(shù)據(jù)平均要高些,但形圖。左邊的數(shù)據(jù)平均要高些,但右邊的數(shù)據(jù)散布范圍要小得多。右邊的數(shù)據(jù)散布范圍要
17、小得多。175163n =地區(qū)地區(qū)2地區(qū)1高三男生身高210200190180170160150140323259250248596158統(tǒng)計中有許多尺度統(tǒng)計量。一般來說,數(shù)據(jù)越分散,尺度統(tǒng)計量的值越大。3.2.2 數(shù)據(jù)的數(shù)據(jù)的“尺度尺度”極差極差(range);就是極大值和極小值;就是極大值和極小值之間的差。之間的差。前面兩個高三男生身高數(shù)據(jù)的極差分前面兩個高三男生身高數(shù)據(jù)的極差分別為別為50cm和和32cm。盒形圖盒子的長度為兩個四分位數(shù)之盒形圖盒子的長度為兩個四分位數(shù)之差,稱為差,稱為四分位數(shù)極差或四分位間距四分位數(shù)極差或四分位間距(interquantile range);它描述了中;
18、它描述了中間半數(shù)觀測值的散布情況。極差和四間半數(shù)觀測值的散布情況。極差和四分位極差實際上各自只依賴于兩個值,分位極差實際上各自只依賴于兩個值,信息量太少。信息量太少。3.2.2 數(shù)據(jù)的數(shù)據(jù)的“尺度尺度”另一個常用的尺度統(tǒng)計量為(樣本)另一個常用的尺度統(tǒng)計量為(樣本)標準差標準差(standard deviation)。度量樣。度量樣本中各數(shù)值到均值距離的一種平均。本中各數(shù)值到均值距離的一種平均。標準差實際上是標準差實際上是方差方差(variance)的平方的平方根。如果記樣本中的觀測值為根。如果記樣本中的觀測值為x1,xn,則樣本方差為則樣本方差為3.2.2 數(shù)據(jù)的數(shù)據(jù)的“尺度尺度”兩個均值一
19、樣,但右邊的要兩個均值一樣,但右邊的要“胖胖”些,方差為左邊的一些,方差為左邊的一倍倍3.2.3 數(shù)據(jù)的標準得分數(shù)據(jù)的標準得分 假定兩個水平類似的班級(一假定兩個水平類似的班級(一班和二班)上同一門課,班和二班)上同一門課, 但是由于兩個任課老師的評分但是由于兩個任課老師的評分標準不同,使得兩個班成績的標準不同,使得兩個班成績的均值和標準差都不一樣均值和標準差都不一樣(數(shù)據(jù):數(shù)據(jù):grade.txt)。3.2.3 數(shù)據(jù)的標準得分數(shù)據(jù)的標準得分 一班分數(shù)的均值和標準差分別一班分數(shù)的均值和標準差分別為為78.53和和9.43,而二班的均值,而二班的均值和標準差分別為和標準差分別為70.19和和7.00。 那么得到那么得到90分的一班的張穎是分的一班的張穎是不是比得到不是比得到82分的二班的劉疏分的二班的劉疏成績更好呢?怎么比較才能合成績更好呢?怎么比較才能合理呢?理呢?3.2.3 數(shù)據(jù)的標準得分數(shù)據(jù)的標準得分雖然這種均值和標準差不同的數(shù)據(jù)不雖然這種均值和標準差不同的數(shù)據(jù)不能夠直接比較,但是可以把它們進行能夠直接比較,但是可以把它們進行標準化,再比較標準化后的數(shù)據(jù)。標準化,再比較標
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版智能門窗安全性能檢測與認證合同3篇
- 二零二五版健身俱樂部健身用品定制與銷售合同2篇
- 2025版美術(shù)教師教育公益活動聘用合同協(xié)議4篇
- 二零二五年度醫(yī)療健康領(lǐng)域投資借款合同大全4篇
- 二零二五版摩托車售后服務(wù)網(wǎng)點建設(shè)與運營合同4篇
- 2025年度智能化中央空調(diào)系統(tǒng)安裝及維護服務(wù)合同協(xié)議4篇
- 2025年度可再生能源暖氣供應(yīng)合同范本4篇
- 2025版膩子乳膠漆施工與色彩設(shè)計合同范本3篇
- 2025版高端住宅內(nèi)墻藝術(shù)涂料施工合同范本4篇
- 2025年高校教授學(xué)術(shù)團隊建設(shè)與管理合同4篇
- 高考滿分作文常見結(jié)構(gòu)完全解讀
- 理光投影機pj k360功能介紹
- 六年級數(shù)學(xué)上冊100道口算題(全冊完整版)
- 八年級數(shù)學(xué)下冊《第十九章 一次函數(shù)》單元檢測卷帶答案-人教版
- 帕薩特B5維修手冊及帕薩特B5全車電路圖
- 系統(tǒng)解剖學(xué)考試重點筆記
- 小學(xué)五年級解方程應(yīng)用題6
- 云南省地圖含市縣地圖矢量分層地圖行政區(qū)劃市縣概況ppt模板
- 年月江西省南昌市某綜合樓工程造價指標及
- 作物栽培學(xué)課件棉花
評論
0/150
提交評論