版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
統(tǒng)計學(xué)─從數(shù)據(jù)到結(jié)論第三章數(shù)據(jù)的描述在對數(shù)據(jù)進行深入加工之前,總應(yīng)該對數(shù)據(jù)有所印象。可以借助于圖形和簡單的運算,來了解數(shù)據(jù)的一些特征。由于數(shù)據(jù)是從總體中產(chǎn)生的,其特征也反映了總體的特征。對數(shù)據(jù)的描述也是對其總體的一個近似的描述?!?.1如何用圖來表示數(shù)據(jù)?§3.1.1定量變量的圖表示:1.直方圖對于一個定量變量,比如某個地區(qū)(地區(qū)1)測量了163個高三男生的身高(S3height1.txt)。用圖形來表示這個數(shù)據(jù),使人們能夠看出這個數(shù)據(jù)的大體分布或“形狀”的一個辦法是畫直方圖(histogram)。圖3.1就是利用這個數(shù)據(jù)由SPSS軟件所畫的直方圖。該圖的橫坐標是身高區(qū)間,這里每一格代表5cm的身高范圍(格子寬度因不同的數(shù)據(jù)性質(zhì)或要求而定,這里的格子寬度為5cm),而縱坐標為各種身高區(qū)間的身高的頻數(shù)。
直方圖§3.1.1定量變量的圖表示:2.盒型圖簡單一些的是盒形圖(boxplot,又稱箱圖、箱線圖、盒子圖)。圖3.2的左邊一個是根據(jù)地區(qū)1高三男生的身高數(shù)據(jù)所繪的盒形圖;其右邊的圖代表另一個地區(qū)(地區(qū)2)的高三學(xué)生的身高(height.txt,height.sav,第三章例.xls)。盒型圖盒子的中間橫線是數(shù)據(jù)的中位數(shù)(median),封閉盒子的上下兩橫線(邊)為上下四分位數(shù)(點);按照SPSS的默認選項,如果所有樣本中的數(shù)目都在離四分位點1.5倍盒子長度之內(nèi),則線的端點為最大和最小值,否則線長就是1.5倍的盒子長度(盒子長度稱為四分位間距),在其外面的度量單獨點出§3.1.1定量變量的圖表示:3.莖葉圖
在直方圖和盒形圖中,很難恢復(fù)數(shù)據(jù)的原貌。而另一種圖:莖葉圖(stem-and-leafplots)可以恢復(fù)數(shù)據(jù)以地區(qū)1高三男生身高為例(圖3.3),莖葉圖既展示了分布形狀又有原始數(shù)據(jù)。它象一片帶有莖的葉子。莖為較大位數(shù)的數(shù)字,葉為較小位數(shù)的數(shù)字。莖葉圖其中莖葉圖中莖的單位為10cm,而葉子單位為1cm。比如,由于第一行莖為150cm,因此葉子中的九個數(shù)字001223344代表九個數(shù)目150、150、151、152、152、153、153、154、154cm等。每行左邊有一個頻數(shù)(比如第一行有9個數(shù)目,第二行有17個等等);可以看出最長的一行為從165cm到169cm的一段(有35個數(shù))?!?.1.1定定量量變量量的圖圖表示示:4.散散點圖圖數(shù)據(jù)會會有兩兩個變變量,,如美美國男男士和和女士士初婚婚年限限數(shù)據(jù)據(jù)(marriage.txt))。該數(shù)據(jù)據(jù)描述述了自自1900年到到1998年男男女第第一次次婚姻姻延續(xù)續(xù)的時時間。。這里年年份是是一個個變量量,婚婚姻延延續(xù)時時間是是第二二個變變量。。由于于不可可能將將所有有人的的婚姻姻年限限都給給出來來,所所以每每年就就取了了一個個中間間的值值(中中位數(shù)數(shù))作作為代代表。。散點圖圖§3.1.2定定性性變量量的圖圖表示示:餅餅圖定性變變量((或?qū)賹傩宰冏兞浚?,分類類變量量)不不能點點出直直方圖圖、散散點圖圖或莖莖葉圖圖,但但可以以描繪繪出它它們各各類的的比例例。下面用用SPSS繪的的圖3.5(餅圖圖,piechart)表示了了說世世界各各種主主要語語言人人數(shù)的的比例例(language.txt).餅圖§3.1.2定定性性變量量的圖圖表示示:條條形圖圖而用同同樣數(shù)數(shù)據(jù)畫畫的圖圖3.6稱稱為條形圖圖(barchart)。從每一一條可可以看看出講講各種種語言言的實實際人人數(shù),,而且且分別別給出出了每每個語語種中中母語語和日日常使使用的的人數(shù)數(shù)(在在圖中中并排排放置置)。。條形形圖顯顯示比比例不不如餅餅圖直直觀。。條形圖圖§3.2如如何何用少少量數(shù)數(shù)字來來概括括數(shù)據(jù)據(jù)?大量的的數(shù)字字既繁繁瑣又又不直直觀;;需要要對數(shù)數(shù)據(jù)做做人們們時間間和耐耐心所所允許許的簡簡化我們可可以用用““平均均”,,“差差距””或百百分比比等來來概括括大量量數(shù)字字。由于定定性變變量主主要是是計數(shù)數(shù),比比較簡簡單,,常用用的概概括就就是比比例或或百分分比。。下面面主要要介紹紹關(guān)于于定量量變量量的數(shù)數(shù)字描描述。?!?.2如如何何用少少量數(shù)數(shù)字來來概括括數(shù)據(jù)據(jù)?可用少少量所所謂匯匯總統(tǒng)統(tǒng)計量量或概括統(tǒng)統(tǒng)計量量(summarystatistic)來描述述定量量變量量的數(shù)數(shù)據(jù)。。這些數(shù)數(shù)字是是從樣樣本數(shù)數(shù)據(jù)得得來的的,因因而也也是樣樣本的的函數(shù)數(shù),任何樣樣本的的函數(shù)數(shù),只只要不不包含含總體體的未未知參參數(shù),,都稱稱為統(tǒng)計量量(statistic)。樣本的的隨機機性決決定統(tǒng)統(tǒng)計量量的隨隨機性性(統(tǒng)統(tǒng)計量量也是是隨機機變量量)§3.2如如何何用少少量數(shù)數(shù)字來來概括括數(shù)據(jù)據(jù)?概括統(tǒng)統(tǒng)計量量經(jīng)常常對應(yīng)應(yīng)于總總體的的無法法觀測測到的的某些些參數(shù)數(shù)。這時,,統(tǒng)計計量可可作為為這些些參數(shù)數(shù)的估估計。。一些些統(tǒng)計計量還還可以以用來來檢驗驗樣本本和假假設(shè)的的總體體是否否一致致?!?.2如如何何用少少量數(shù)數(shù)字來來概括括數(shù)據(jù)據(jù)?注:一些統(tǒng)統(tǒng)計量量前面面有時時加上上“樣樣本””二字字,以以區(qū)別別于總總體的的同名名參數(shù)數(shù)。如如“樣樣本均均值””和““樣本本標準準差””,以以區(qū)別別于總總體均均值和和總體體標準準差;;但在在不會會混淆淆時可可以只只說““均值值”和和“標標準差差”。。§3.2.1數(shù)數(shù)據(jù)據(jù)的““位置置”數(shù)據(jù)有有位置置嗎??這里三三個數(shù)數(shù)據(jù)的的位置置一樣樣嗎??§3.2.1數(shù)數(shù)據(jù)據(jù)的““位置置”“位置置”一一般是是關(guān)于于數(shù)據(jù)據(jù)中某某變量量觀測測值的的“中中心位位置””或者者數(shù)據(jù)據(jù)分布布的中中心((center或centertendency)。。和這種種“位位置””有關(guān)關(guān)的統(tǒng)統(tǒng)計量量就稱稱為位置統(tǒng)統(tǒng)計量量(locationstatistic)。位置統(tǒng)統(tǒng)計量量當然然不一一定都都是描描述““中心心”了了,比比如后后面要要講的的k百百分位位數(shù)((或k%分分位數(shù)數(shù))。?!?.2.1數(shù)數(shù)據(jù)據(jù)的““位置置”最常用用的位位置統(tǒng)統(tǒng)計量量就是是小學(xué)學(xué)時所所學(xué)到到的算算術(shù)平平均數(shù)數(shù),它它在統(tǒng)統(tǒng)計中中叫做做均值值(mean);嚴嚴格地地說叫叫做樣樣本均均值(samplemean),以以區(qū)別別于總總體均均值。。如果記記樣本本中的的觀測測值為為x1,…,xn,則樣樣本均均值定定義為為(樣本本)中中位數(shù)數(shù)(median)是是數(shù)據(jù)據(jù)按照照大小小排列列之后后位于于中間間的那那個數(shù)數(shù)(如如果樣樣本量量為奇奇數(shù)),或或者中中間兩兩個數(shù)數(shù)目的的平均均(如如果樣樣本量量為偶偶數(shù))。由于中中位數(shù)數(shù)不易易被極極端值值影響響,所所以中中位數(shù)數(shù)比均均值穩(wěn)穩(wěn)健(robust)。。§3.2.1數(shù)數(shù)據(jù)據(jù)的““位置置”上下四四分位位數(shù)(或分分別稱稱為第一四四分位位數(shù)和和第三三四分分位數(shù)數(shù),firstquantile,thirdquantile))則分別別位于于(按按大小小排列列的))數(shù)據(jù)據(jù)的上上下四四分之之一的的地方方?!?.2.1數(shù)數(shù)據(jù)據(jù)的““位置置”§3.2.1數(shù)數(shù)據(jù)據(jù)的““位置置”一般地地還稱稱上四四分位位數(shù)為為75百百分位位數(shù)((75pecentile,有75%%的觀觀測值值小于于它)),下下四分分位數(shù)數(shù)為25百百分位位數(shù)(有25%%的觀觀測值值小于于它))。一般地地,k百分分位數(shù)數(shù)(k-pecentile)意味味著有有k%%的觀觀測值值小于于它。。如果令令a=k%,則k百百分位位數(shù)也也稱為為a分位數(shù)數(shù)(a-quantile)。。樣本中中出現(xiàn)現(xiàn)最多多的數(shù)數(shù)目,,稱為為眾數(shù)(mode)§3.2.2數(shù)數(shù)據(jù)據(jù)的““尺度度”這兩個個數(shù)據(jù)據(jù)“胖胖瘦””一樣樣嗎??§3.2.2數(shù)數(shù)據(jù)據(jù)的““尺度度”數(shù)據(jù)中中數(shù)目目的分分散程程度由由尺度統(tǒng)統(tǒng)計量量(scalestatistic)來描述述。尺度統(tǒng)統(tǒng)計量量是描描述數(shù)數(shù)據(jù)散散布,,即描描述集集中與與分散散程度度或變變化((spread或variability)的的度量量?!?.2.2數(shù)數(shù)據(jù)據(jù)的““尺度度”從前面面兩個個高三三男生生身高高數(shù)據(jù)據(jù)的盒盒形圖圖。左左邊的的數(shù)據(jù)據(jù)平均均要高高些,,但右右邊的的數(shù)據(jù)據(jù)散布布范圍圍要小小得多多。統(tǒng)計中有許許多尺度統(tǒng)統(tǒng)計量。一一般來說,,數(shù)據(jù)越分分散,尺度度統(tǒng)計量的的值越大。。§3.2.2數(shù)據(jù)據(jù)的“尺度度”極差(range);就是極大大值和極小小值之間的的差。前面兩個高高三男生身身高數(shù)據(jù)的的極差分別別為50cm和32cm。盒形圖盒子子的長度為為兩個四分分位數(shù)之差差,稱為四分位數(shù)極極差或四分分位間距(interquantilerange);它描述了了中間半數(shù)數(shù)觀測值的的散布情況況。極差和和四分位極極差實際上上各自只依依賴于兩個個值,信息息量太少。。§3.2.2數(shù)據(jù)據(jù)的“尺度度”另一個常用用的尺度統(tǒng)統(tǒng)計量為((樣本)標準差(standarddeviation)。度量樣本本中各數(shù)值值到均值距距離的一種種平均。標準差實際際上是方差(variance)的平方根。。如果記樣樣本中的觀觀測值為x1,…,xn,則樣本方方差為§3.2.2數(shù)據(jù)據(jù)的“尺度度”兩個均值一一樣,但右右邊的要““胖”些,,方差為左左邊的一倍倍§3.2.3數(shù)據(jù)據(jù)的標準得得分假定兩個水水平類似的的班級(一一班和二班班)上同一一門課,但是由于兩兩個任課老老師的評分分標準不同同,使得兩兩個班成績績的均值和和標準差都都不一樣(數(shù)據(jù):grade.txt)。§3.2.3數(shù)據(jù)據(jù)的標準得得分一班分數(shù)的的均值和標標準差分別別為78.53和9.43,,而二班的的均值和標標準差分別別為70.19和7.00。。那么得到90分的一一班的張穎穎是不是比比得到82分的二班班的劉疏成成績更好呢呢?怎么比比較才能合合理呢?§3.2.3數(shù)據(jù)據(jù)的標準得得分雖然這種均均值和標準準差不同的的數(shù)據(jù)不能能夠直接比比較,但是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房地產(chǎn)行業(yè)業(yè)務(wù)員工作總結(jié)
- 運動品牌的市場推廣計劃
- 【八年級下冊歷史】第16課 獨立自主的和平外交 同步練習(xí)
- 金屬行業(yè)行政后勤運營總結(jié)
- 2023年高考語文試卷(上海)(春考)(空白卷)
- 2024年美術(shù)教案集錦5篇
- 2024年煤礦應(yīng)急預(yù)案
- 紅光十字線激光器行業(yè)市場發(fā)展及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 2025保險合同協(xié)議書大全
- 2024年度天津市公共營養(yǎng)師之二級營養(yǎng)師綜合練習(xí)試卷B卷附答案
- 15《八角樓上》說課稿-2024-2025學(xué)年語文二年級上冊(統(tǒng)編版)
- 施工工地汛期防洪防汛應(yīng)急預(yù)案(9篇)
- 商業(yè)伙伴與合作伙伴管理制度
- 03S702鋼筋混凝土化糞池-標準圖集
- 耳鼻咽喉-頭頸外科:緒論
- 2024年高中語文課內(nèi)文言文復(fù)習(xí)《項脊軒志》課后練習(xí)、探究性閱讀含答案解析翻譯
- 汽車機械制圖(第二版)AB卷模擬試卷及答案2套
- 人教版(2024版)七上數(shù)學(xué)第二單元:有理數(shù)的運算大單元教學(xué)設(shè)計
- 6樹葉書簽(教學(xué)設(shè)計)蘇教版二年級上冊綜合實踐活動
- 安全環(huán)保重點崗位人員應(yīng)知應(yīng)會考試附有答案
- 部編版語文六年級上冊第八單元整體教學(xué)設(shè)計教案
評論
0/150
提交評論