版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
統(tǒng)計學─從數(shù)據(jù)到結論第三章數(shù)據(jù)的描述在對數(shù)據(jù)進行深入加工之前,總應該對數(shù)據(jù)有所印象??梢越柚趫D形和簡單的運算,來了解數(shù)據(jù)的一些特征。由于數(shù)據(jù)是從總體中產生的,其特征也反映了總體的特征。對數(shù)據(jù)的描述也是對其總體的一個近似的描述?!?.1如何用圖來表示數(shù)據(jù)?§3.1.1定量變量的圖表示:1.直方圖對于一個定量變量,比如某個地區(qū)(地區(qū)1)測量了163個高三男生的身高(S3height1.txt)。用圖形來表示這個數(shù)據(jù),使人們能夠看出這個數(shù)據(jù)的大體分布或“形狀”的一個辦法是畫直方圖(histogram)。圖3.1就是利用這個數(shù)據(jù)由SPSS軟件所畫的直方圖。該圖的橫坐標是身高區(qū)間,這里每一格代表5cm的身高范圍(格子寬度因不同的數(shù)據(jù)性質或要求而定,這里的格子寬度為5cm),而縱坐標為各種身高區(qū)間的身高的頻數(shù)。
直方圖§3.1.1定量變量的圖表示:2.盒型圖簡單一些的是盒形圖(boxplot,又稱箱圖、箱線圖、盒子圖)。圖3.2的左邊一個是根據(jù)地區(qū)1高三男生的身高數(shù)據(jù)所繪的盒形圖;其右邊的圖代表另一個地區(qū)(地區(qū)2)的高三學生的身高(height.txt,height.sav,第三章例.xls)。盒型圖盒子的中間橫線是數(shù)據(jù)的中位數(shù)(median),封閉盒子的上下兩橫線(邊)為上下四分位數(shù)(點);按照SPSS的默認選項,如果所有樣本中的數(shù)目都在離四分位點1.5倍盒子長度之內,則線的端點為最大和最小值,否則線長就是1.5倍的盒子長度(盒子長度稱為四分位間距),在其外面的度量單獨點出§3.1.1定量變量的圖表示:3.莖葉圖
在直方圖和盒形圖中,很難恢復數(shù)據(jù)的原貌。而另一種圖:莖葉圖(stem-and-leafplots)可以恢復數(shù)據(jù)以地區(qū)1高三男生身高為例(圖3.3),莖葉圖既展示了分布形狀又有原始數(shù)據(jù)。它象一片帶有莖的葉子。莖為較大位數(shù)的數(shù)字,葉為較小位數(shù)的數(shù)字。莖葉圖其中莖葉圖中莖的單位為10cm,而葉子單位為1cm。比如,由于第一行莖為150cm,因此葉子中的九個數(shù)字001223344代表九個數(shù)目150、150、151、152、152、153、153、154、154cm等。每行左邊有一個頻數(shù)(比如第一行有9個數(shù)目,第二行有17個等等);可以看出最長的一行為從165cm到169cm的一段(有35個數(shù))。§3.1.1定定量變變量的圖圖表示:4.散散點圖數(shù)據(jù)會有有兩個變變量,如如美國男男士和女女士初婚婚年限數(shù)數(shù)據(jù)(marriage.txt))。該數(shù)據(jù)描描述了自自1900年到到1998年男男女第一一次婚姻姻延續(xù)的的時間。。這里年份份是一個個變量,,婚姻延延續(xù)時間間是第二二個變量量。由于于不可能能將所有有人的婚婚姻年限限都給出出來,所所以每年年就取了了一個中中間的值值(中位位數(shù))作作為代表表。散點圖§3.1.2定定性變變量的圖圖表示::餅圖定性變量量(或屬屬性變量量,分類類變量))不能點點出直方方圖、散散點圖或或莖葉圖圖,但可可以描繪繪出它們們各類的的比例。。下面用SPSS繪的圖圖3.5(餅圖,,piechart)表示了說說世界各各種主要要語言人人數(shù)的比比例(language.txt).餅圖§3.1.2定定性變變量的圖圖表示::條形圖圖而用同樣樣數(shù)據(jù)畫畫的圖3.6稱稱為條形圖((barchart)。從每一條條可以看看出講各各種語言言的實際際人數(shù),,而且分分別給出出了每個個語種中中母語和和日常使使用的人人數(shù)(在在圖中并并排放置置)。條條形圖顯顯示比例例不如餅餅圖直觀觀。條形圖§3.2如何何用少量量數(shù)字來來概括數(shù)數(shù)據(jù)?大量的數(shù)數(shù)字既繁繁瑣又不不直觀;;需要對對數(shù)據(jù)做做人們時時間和耐耐心所允允許的簡簡化我們可以以用““平均””,“差差距”或或百分比比等來概概括大量量數(shù)字。。由于定性性變量主主要是計計數(shù),比比較簡單單,常用用的概括括就是比比例或百百分比。。下面主主要介紹紹關于定定量變量量的數(shù)字字描述。?!?.2如何何用少量量數(shù)字來來概括數(shù)數(shù)據(jù)?可用少量量所謂匯匯總統(tǒng)計計量或概括統(tǒng)計計量(summarystatistic)來描述定量量變量的數(shù)數(shù)據(jù)。這些數(shù)字是是從樣本數(shù)數(shù)據(jù)得來的的,因而也也是樣本的的函數(shù),任何樣本的的函數(shù),只只要不包含含總體的未未知參數(shù),,都稱為統(tǒng)計量(statistic)。樣本的隨機機性決定統(tǒng)統(tǒng)計量的隨隨機性(統(tǒng)統(tǒng)計量也是是隨機變量量)§3.2如如何用少少量數(shù)字來來概括數(shù)據(jù)據(jù)?概括統(tǒng)計量量經(jīng)常對應應于總體的的無法觀測測到的某些些參數(shù)。這時,統(tǒng)計計量可作為為這些參數(shù)數(shù)的估計。。一些統(tǒng)計計量還可以以用來檢驗驗樣本和假假設的總體體是否一致致?!?.2如如何用少少量數(shù)字來來概括數(shù)據(jù)據(jù)?注:一些統(tǒng)計量量前面有時時加上“樣樣本”二字字,以區(qū)別別于總體的的同名參數(shù)數(shù)。如“樣樣本均值””和“樣本本標準差””,以區(qū)別別于總體均均值和總體體標準差;;但在不會會混淆時可可以只說““均值”和和“標準差差”。§3.2.1數(shù)據(jù)據(jù)的“位置置”數(shù)據(jù)有位置置嗎?這里三個數(shù)數(shù)據(jù)的位置置一樣嗎??§3.2.1數(shù)據(jù)據(jù)的“位置置”“位置”一一般是關于于數(shù)據(jù)中某某變量觀測測值的“中中心位置””或者數(shù)據(jù)據(jù)分布的中中心(center或centertendency)。和這種“位位置”有關關的統(tǒng)計量量就稱為位置統(tǒng)計量量(locationstatistic)。位置統(tǒng)計量量當然不一一定都是描描述“中心心”了,比比如后面要要講的k百百分位數(shù)((或k%分分位數(shù))。?!?.2.1數(shù)據(jù)據(jù)的“位置置”最常用的位位置統(tǒng)計量量就是小學學時所學到到的算術平平均數(shù),它它在統(tǒng)計中中叫做均值值(mean);嚴嚴格地說叫叫做樣本均均值(samplemean),以以區(qū)別于總總體均值。。如果記樣本本中的觀測測值為x1,…,xn,則樣本均均值定義為為(樣本)中中位數(shù)(median)是是數(shù)據(jù)按照照大小排列列之后位于于中間的那那個數(shù)(如如果樣本量量為奇數(shù)),或者中中間兩個數(shù)數(shù)目的平均均(如果樣樣本量為偶偶數(shù))。由于中位數(shù)數(shù)不易被極極端值影響響,所以中中位數(shù)比均均值穩(wěn)健(robust)。。§3.2.1數(shù)據(jù)據(jù)的“位置置”上下四分位位數(shù)(或分別稱稱為第一四分位位數(shù)和第三三四分位數(shù)數(shù),firstquantile,thirdquantile))則分別位于于(按大小小排列的))數(shù)據(jù)的上上下四分之之一的地方方。§3.2.1數(shù)據(jù)據(jù)的“位置置”§3.2.1數(shù)據(jù)據(jù)的“位置置”一般地還稱稱上四分位位數(shù)為75百分位位數(shù)(75pecentile,有75%%的觀測值值小于它)),下四分分位數(shù)為25百分位位數(shù)(有25%%的觀測值值小于它))。一般地,k百分位數(shù)數(shù)(k-pecentile)意味著有有k%的觀觀測值小于于它。如果令a=k%,則k百分位位數(shù)也稱為為a分位數(shù)(a-quantile)。。樣本中出現(xiàn)最最多的數(shù)目,,稱為眾數(shù)(mode)§3.2.2數(shù)據(jù)的““尺度”這兩個數(shù)據(jù)““胖瘦”一樣樣嗎?§3.2.2數(shù)據(jù)的““尺度”數(shù)據(jù)中數(shù)目的的分散程度由由尺度統(tǒng)計量((scalestatistic)來描述。尺度統(tǒng)計量是是描述數(shù)據(jù)散散布,即描述述集中與分散散程度或變化化(spread或variability))的度量?!?.2.2數(shù)據(jù)的““尺度”從前面兩個高高三男生身高高數(shù)據(jù)的盒形形圖。左邊的的數(shù)據(jù)平均要要高些,但右右邊的數(shù)據(jù)散散布范圍要小小得多。統(tǒng)計中有許多多尺度統(tǒng)計量量。一般來說說,數(shù)據(jù)越分分散,尺度統(tǒng)統(tǒng)計量的值越越大?!?.2.2數(shù)據(jù)的““尺度”極差(range);就是極大值值和極小值之之間的差。前面兩個高三三男生身高數(shù)數(shù)據(jù)的極差分分別為50cm和32cm。盒形圖盒子的的長度為兩個個四分位數(shù)之之差,稱為四分位數(shù)極差差或四分位間間距(interquantilerange);它描述了中中間半數(shù)觀測測值的散布情情況。極差和和四分位極差差實際上各自自只依賴于兩兩個值,信息息量太少?!?.2.2數(shù)據(jù)的““尺度”另一個常用的的尺度統(tǒng)計量量為(樣本))標準差(standarddeviation)。度量樣本中中各數(shù)值到均均值距離的一一種平均。標準差實際上上是方差(variance)的平方根。如如果記樣本中中的觀測值為為x1,…,xn,則樣本方差差為§3.2.2數(shù)據(jù)的““尺度”兩個均值一樣樣,但右邊的的要“胖”些些,方差為左左邊的一倍§3.2.3數(shù)數(shù)據(jù)據(jù)的的標標準準得得分分假定定兩兩個個水水平平類類似似的的班班級級((一一班班和和二二班班))上上同同一一門門課課,,但是是由由于于兩兩個個任任課課老老師師的的評評分分標標準準不不同同,,使使得得兩兩個個班班成成績績的的均均值值和和標標準準差差都都不不一一樣樣(數(shù)數(shù)據(jù)據(jù)::grade.txt)。?!?.2.3數(shù)數(shù)據(jù)據(jù)的的標標準準得得分分一班班分分數(shù)數(shù)的的均均值值和和標標準準差差分分別別為為78.53和和9.43,,而而二二班班的的均均值值和和標標準準差差分分別別為為70.19和和7.00。。那么得到到90分分的一班班的張穎穎是不是是比得到到82分分的二班班的劉疏疏成績更更好呢??怎么比比較才能能合理呢呢?§3.2.3數(shù)數(shù)據(jù)的的標準得得分雖然這種種均值和和標準差差不同的的數(shù)據(jù)不不能夠直直接比較較,但是是可以把把它們進進行標準準化,再再比較標標準化后后的數(shù)據(jù)據(jù)。一個標準準化的方方法是把把某樣本本原始觀觀測值((亦稱得得分,score)和和該樣本本均值之之差除以以該樣本本的標準準差;得得到的度度量稱為為標準得分分(standardscore,又稱稱為z-score)?!?.2.3數(shù)數(shù)據(jù)的的標準得得分即,某某觀測測值xi的標準準得分分定義義為§3.2.3數(shù)數(shù)據(jù)據(jù)的標標準得得分在我們們的例例子中中,張張穎的的標準準得分分為(90-78.53)/9.43=1.22,,而劉劉疏的的標準準得分分為(82-70.19)/7==1.69。顯然如如果兩兩個班班級平平均水水平差差不多多,劉劉疏的的成績績應該該優(yōu)于于張穎穎的成成績;;這是是在標標準化化之前前的數(shù)數(shù)據(jù)中中不易易看到到的。??梢钥纯闯?,,原始始
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 石河子大學《藥理學實驗》2022-2023學年第一學期期末試卷
- 前臺客服上半年工作總結四篇
- 石河子大學《現(xiàn)代交換技術》2022-2023學年第一學期期末試卷
- 石河子大學《食品安全檢測與儀器分析實驗》2022-2023學年第一學期期末試卷
- 石河子大學《俄語語言與文化》2021-2022學年第一學期期末試卷
- 沈陽理工大學《專業(yè)創(chuàng)新課程-自動化控制系統(tǒng)設計實例》2022-2023學年期末試卷
- 沈陽理工大學《信息光學》2023-2024學年第一學期期末試卷
- 沈陽理工大學《軟件工程》2022-2023學年期末試卷
- 沈陽理工大學《建筑節(jié)能》2022-2023學年第一學期期末試卷
- 沈陽理工大學《過程控制系統(tǒng)》2021-2022學年期末試卷
- 2024年公路標識安裝合同
- (正式版)HGT 22820-2024 化工安全儀表系統(tǒng)工程設計規(guī)范
- 綜合實踐活動課《早餐與健康》優(yōu)質課件
- 《中華民族共同體概論》考試復習題庫(含答案)
- 2022-2023學年武漢市江岸區(qū)七年級英語上學期期中質量檢測卷附答案
- 新能源汽車技術職業(yè)生涯人物訪談報告
- 辦公室辦文工作流程圖
- 工程鉆機產品合格證
- 六壬高級教程
- 員工獎懲制度 公司員工獎懲制度范本
- 【原創(chuàng)】水平三花樣跳繩教學設計和教案
評論
0/150
提交評論