統(tǒng)計學原理(第二章)_第1頁
統(tǒng)計學原理(第二章)_第2頁
統(tǒng)計學原理(第二章)_第3頁
統(tǒng)計學原理(第二章)_第4頁
統(tǒng)計學原理(第二章)_第5頁
已閱讀5頁,還剩75頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第二章

統(tǒng)計數(shù)據(jù)的描述描述統(tǒng)計

描述統(tǒng)計是通過圖表或數(shù)學方法,對數(shù)據(jù)資料進行整理、分析,并對數(shù)據(jù)的分布狀態(tài)、數(shù)字特征和隨機變量之間關(guān)系進行估計和描述的方法

一、數(shù)據(jù)的計量尺度定類尺度定序尺度定距尺度定比尺度

二、數(shù)據(jù)的類型數(shù)據(jù)的類型變量及類型

第一節(jié)數(shù)據(jù)的計量和類型一、數(shù)據(jù)的計量尺度1.定類尺度:又稱為類別尺度或列名尺度,它是按照事物的某種屬性對其進行平行的分類。定類尺度是最粗略、計算層次最低的計量尺度。

數(shù)據(jù)的計量和類型性別種族運動項目定類尺度只能按照事物及其現(xiàn)象的某種屬性對其進行平行的分類或分組。例如車牌號、學生的學號、運動員號碼、身份證號碼、人員性別、企業(yè)類別等等。特征:(1)只能區(qū)分事物的類別,無法比較類別間大小,定類尺度只具有“=”和“≠”運算,“=”具有傳遞性。(2)對事物的區(qū)分必須符合窮盡和互斥的要求。(3)對定類尺度數(shù)據(jù)進行分析的統(tǒng)計量主要是頻數(shù)或者頻率,或是眾數(shù)和進行列聯(lián)分析。

一、數(shù)據(jù)的計量尺度2.定序尺度:又稱為順序尺度或有序水平,是對事物之間等級差或順序差別的一種測度。由其構(gòu)成的量表一般稱為順序量表。

數(shù)據(jù)的計量和類型定序尺度不僅可以將事物分成不同的類別,還可以確定這些類別的優(yōu)劣或順序,例如軍階、職稱、工資級別、產(chǎn)品質(zhì)量等級、受教育水平等。>>大學生中學生小學生特征:(1)不僅能區(qū)分事物的類型,而且能夠比較各類型間的優(yōu)劣和順序,不僅可運算“=”、“≠”,而且可以運算“>”或“<”。但不能測量出類別之間的準確差距,不能進行加減乘除的運算。。(2)對事物的區(qū)分同樣要求窮盡和互斥。(3)對定序尺度數(shù)據(jù)進行分析的統(tǒng)計量主要是頻數(shù)和累積頻數(shù),或者頻率和累積頻率。

-≠-一、數(shù)據(jù)的計量尺度3.定距尺度:又稱為間隔尺度或間隔水平,是對事物類別或者次序之間間距進行的一種測度,由其構(gòu)成的量表一般稱為間隔量表或間距量表。

數(shù)據(jù)的計量和類型常見的用定距尺度來測度的有考試成績、各種心理測試的得分、某個地區(qū)的溫度等。天氣預(yù)報:南京:最高溫度3℃

蘇州:最高溫度6℃特征:(1)不僅能區(qū)分事物的類別、進行排序、比較大小,而且還可以精確地計算大小的差異,可以進行加減運算,但不可以進行乘除運算。(2)沒有絕對零點,即可以以任何一個0為起點,“0”不表示“沒有”或“不存在”。

兩地最高溫度相差3℃南京最高溫度較蘇州最高溫度低3℃蘇州最高溫度是南京最高溫度的2倍一、數(shù)據(jù)的計量尺度4.定比尺度:又稱為比例尺度或是比較水平,是對事物之間比值的一種測度,它是最高層次的測量,可用于參數(shù)和非參數(shù)統(tǒng)計推斷。它是與定距尺度屬于同一層次的一種計量尺度,但其功能比定距尺度更強一些。

數(shù)據(jù)的計量和類型在日常生活中,大多數(shù)情況下使用的都是定比尺度。例如,年齡、收入、某地區(qū)每年的失業(yè)人數(shù)、罪犯人數(shù)等。3000元

工資1500元工資甲乙二人工資之差:3000-1500=1500元特征:(1)除了能夠區(qū)分類別、排序、比較大小、求出大小差異外,還可以計算兩個測度值之間的比值,不僅可以進行定距尺度所能夠進行的所有運算,而且在此基礎(chǔ)上還增加了乘、除的數(shù)學運算功能。(2)具有絕對零點,“0”表示“沒有”或“不存在”。

二人工資之比:3000÷1500=2(倍)

四種計量尺度的比較:

在統(tǒng)計分析中,一般要求測量的層次越高越好。二、數(shù)據(jù)的類型1.數(shù)據(jù)的類型和分析方法

統(tǒng)計數(shù)據(jù)是采用某種計量尺度對數(shù)據(jù)進行計量的結(jié)果,采用不同的計量尺度會得到不同類型的統(tǒng)計數(shù)據(jù)。根據(jù)以上四種計量尺度的結(jié)果可以將統(tǒng)計數(shù)據(jù)分成三種類型:

定類數(shù)據(jù)、定序數(shù)據(jù)、數(shù)值型數(shù)據(jù)

前兩者可以統(tǒng)稱為定性數(shù)據(jù)或品質(zhì)數(shù)據(jù);后者成為定量數(shù)據(jù)或數(shù)量數(shù)據(jù)。

數(shù)據(jù)的計量和類型提問:以男女代號分別為0、1,那么這樣的數(shù)據(jù)到底是什么數(shù)據(jù)?

數(shù)據(jù)的計量和類型區(qū)別的法則是能不能做加減法二、數(shù)據(jù)的類型2.變量及其類型變量:是說明現(xiàn)象某種特征的概念。變量最基本的特點是在同一總體的不同單位上可取不同的數(shù)值,以及同一總體相同單位在不同時間上可取不同的數(shù)值,即變量的變異性,或差異性特征。變量的類型:定類變量、定序變量、數(shù)值型變量(離散變量、連續(xù)變量)

數(shù)據(jù)的計量和類型一、品質(zhì)數(shù)據(jù)的描述二、數(shù)據(jù)的類型品質(zhì)數(shù)據(jù)的圖示三、品質(zhì)數(shù)據(jù)的分布特征描述

第二節(jié)品質(zhì)數(shù)據(jù)的描述一、品質(zhì)數(shù)據(jù)的描述1.頻數(shù):是落在某一特定類別(或組)中的數(shù)據(jù)的個數(shù)。把各個類別及其相應(yīng)的頻數(shù)全部列出來則形成頻數(shù)分布。

頻率:把各組的頻數(shù)與全部頻數(shù)之和求得的比值,稱之為頻率。

品質(zhì)數(shù)據(jù)的描述一、品質(zhì)數(shù)據(jù)的描述2.比例:是一個總體(或樣本)中各個部分的數(shù)據(jù)與全部數(shù)據(jù)之比,通常用于反映總體(或樣本)的構(gòu)成。

品質(zhì)數(shù)據(jù)的描述一、品質(zhì)數(shù)據(jù)的描述3.百分比或百分數(shù):是將比例乘以100%得到的數(shù)值。是將對比的技術(shù)劃為100而計算得到的,它表示每100個分母中擁有多少個分子。

品質(zhì)數(shù)據(jù)的描述一、品質(zhì)數(shù)據(jù)的描述4.比率:是總體中不同類別數(shù)值之間的比值。它可以是一個總體(或樣本)中個不同部分的數(shù)量對比??梢砸?作為基數(shù),也可以以100為基數(shù)。

品質(zhì)數(shù)據(jù)的描述一、品質(zhì)數(shù)據(jù)的描述5.累計頻數(shù):是將各類別的頻數(shù)逐級累加得到的頻數(shù)。有向上累積和向下累積兩種方式。

品質(zhì)數(shù)據(jù)的描述品質(zhì)數(shù)據(jù)的描述家庭人口頻數(shù)頻率向上累積向下累積頻數(shù)頻率頻數(shù)頻率172.75%72.75%255100%23814.90%4517.65%24897.25%310541.18%15058.83%21082.3545421.18%20480.00%10541.17%53112.16%23592.16%5120%6207.84%255100%207.84%合計255100%—100%—二、品質(zhì)數(shù)據(jù)的圖示1.條形圖:是用寬度相同的條形的高度或長短來表示數(shù)據(jù)變動的圖形,橫置的稱為帶形圖,縱置的稱為柱形圖(直方圖)。

品質(zhì)數(shù)據(jù)的描述柱形圖(直方圖)二、品質(zhì)數(shù)據(jù)的圖示2.餅圖:又稱圓圖,是以圓的整體面積代表被研究現(xiàn)象的總體,按各構(gòu)成部分占總體比重的大小把面積分割成若干扇形,用以表示現(xiàn)象的部分對總體的比例關(guān)系統(tǒng)計圖,主要表示結(jié)構(gòu)性問題。

品質(zhì)數(shù)據(jù)的描述餅圖二、品質(zhì)數(shù)據(jù)的圖示3.折線圖:折線圖是用直線段將各數(shù)據(jù)點連接起來而組成的圖形,以折線方式顯示數(shù)據(jù)的變化趨勢。折線圖可以顯示隨時間(根據(jù)常用比例設(shè)置)而變化的連續(xù)數(shù)據(jù),因此非常適用于顯示在相等時間間隔下數(shù)據(jù)的趨勢。

品質(zhì)數(shù)據(jù)的描述折線圖品質(zhì)數(shù)據(jù)的描述品質(zhì)數(shù)據(jù)的描述三、品質(zhì)數(shù)據(jù)的分布特征描述1.集中趨勢值①眾數(shù):該變量出現(xiàn)次數(shù)最多的取值,記為Mo。例:對報名參加全國奧林匹克數(shù)學競賽的47名學生的出生省份進行調(diào)查,調(diào)查結(jié)果見下表:出生省份人數(shù)遼寧1北京7湖北10江蘇8浙江5安徽2上海8廣東6合計47②中位數(shù):是一組數(shù)據(jù)排序后處于中間位置上的變量值,記為Me。

Me50%50%中位數(shù)n為奇數(shù)n為偶數(shù)例2.2在某城市中隨機抽取9個家庭,調(diào)查得到每個家庭的人均月收入數(shù)據(jù)如下(單位:元)。要求計算人均月收入的中位數(shù)。7507801080850960200012501630解:將上面的數(shù)據(jù)按從小到大排列,如下:78085096010801250150016302000③四分位數(shù):是一組數(shù)據(jù)排序后處于25%和75%位置上的變量值,記為QL和QU。

QLQMQU25%25%25%25%下四分位數(shù)(QL)位置=N+14上四分位數(shù)(QU)位置=3(N+1)4

(7個數(shù)據(jù)的算例)原始數(shù)據(jù):2321 3032 282526排序:21232526283032位置:1 23 4567N+1QL=237+1QL位置=4=4=2QU位置=3(N+1)43(7+1)4==6QU=30

(6個數(shù)據(jù)的算例)原始數(shù)據(jù):

232130 282526排序:212325262830位置:12 34 56QL=21+0.75(23-21)=22.5QL位置=N+14=6+14=1.75QU位置=3(N+1)43(6+1)4==5.25QU=28+0.25(30-28)

=28.5三、品質(zhì)數(shù)據(jù)的分布特征描述2.離散程度測度值①異眾比率:非眾數(shù)組的頻數(shù)占總頻數(shù)的比例,計算公式為:其中,表示第i組的頻數(shù),表示眾數(shù)組的頻數(shù)例2.1對報名參加全國奧林匹克數(shù)學競賽的47名學生的出生省份進行調(diào)查,調(diào)查結(jié)果見下表:出生省份人數(shù)遼寧1北京7湖北10江蘇8浙江5安徽2上海8廣東6合計47異眾比率為:三、品質(zhì)數(shù)據(jù)的分布特征描述2.離散程度測度值②極差,是變量觀測值中最大值與最小值只差,計算公式為:③四分位差:也稱為內(nèi)距或四分間距,是上四分位數(shù)與下四分位數(shù)的差值計算公式為:一、數(shù)值數(shù)據(jù)的分組二、數(shù)值數(shù)據(jù)的圖示三、數(shù)值數(shù)據(jù)的分布特征

第三節(jié)數(shù)值數(shù)據(jù)的描述一、數(shù)值數(shù)據(jù)的分組

數(shù)值數(shù)據(jù)的描述為什么要進行數(shù)據(jù)的分組?品質(zhì)數(shù)據(jù)的描述107108108110112112113114115117117117118118118119120120121122122122122123123123123124124124125125126126126127127128128129130131133133134134135139139139某電腦公司50名銷售代表某季度電腦銷售量按從小到大排序如下表:

數(shù)據(jù)過多,掩蓋數(shù)據(jù)特征,進行單變量分組得到下表:

50名銷售代表的某季度電腦銷售量分組表

銷售量頻數(shù)銷售量頻數(shù)銷售量頻數(shù)107111911282108212021291110112111301112212241311113112341332114112431342115112521351117312621371118312731392在數(shù)據(jù)較多的情況下,單變量分組會使數(shù)據(jù)較多,仍舊不利于觀察數(shù)據(jù)的特征和規(guī)律。

因此我們采用組距分組一、數(shù)值數(shù)據(jù)的分組組距分組:是將全部變量依次劃分為若干小區(qū)間,并將這一區(qū)間的變量值作為一組的分組方法。在組距分組中,一個組的最小值成為下限,最大值成為上限

數(shù)值數(shù)據(jù)的描述數(shù)值數(shù)據(jù)的描述按電腦銷售量分組(個)頻數(shù)(人)頻率(%)105~11036110~115510115~120816120~1251428125~1301020130~135612135~14048合計5010050名銷售代表的某季度電腦銷售量分組表

一、數(shù)值數(shù)據(jù)的分組組距分組的步驟:第一步:確定組數(shù)組數(shù)不宜太多也不宜太少,一般5≤K≤15Sturges提出的經(jīng)驗公式確定組數(shù):

如:K=1+lg50/lg2=7

數(shù)值數(shù)據(jù)的描述一、數(shù)值數(shù)據(jù)的分組第二步:確定各組的組距組距:是一個組的上限和下限差,可根據(jù)全部數(shù)據(jù)的最大值和最小值確定。

組距=(最大值-最小值)÷組數(shù)如:(139-107)÷7=4.6

因此組距可以取到5

數(shù)值數(shù)據(jù)的描述一、數(shù)值數(shù)據(jù)的分組第三步:根據(jù)分組整理成頻數(shù)分布表

數(shù)值數(shù)據(jù)的描述按電腦銷售量分組(個)頻數(shù)(人)頻率(%)105~11036110~115510115~120816120~1251428125~1301020130~135612135~14048合計5010050名銷售代表的某季度電腦銷售量分組表

①全距與組距②等距與異距③組限與組中值④開口組與閉口組⑤連續(xù)組距分組和不連續(xù)組距分組重疊組限“上限不在內(nèi)”原則關(guān)于組距式分組的幾個問題例:學生按成績分組(分)

(1)50—6060—70

70—8080—9090—100(2)60以下

60—6970—7980—89

90以上組距=80-70=10上限:80下限:70開口組閉口組組中值組中值組中值重疊組限值70歸于70—80組不連續(xù)組距式分組連續(xù)組距式分組

50—6060—8080—9090—100異距分組最典型的例子:對人口年齡分組0~6歲嬰幼兒組7~17歲少年兒童組18~59歲中青年組60歲以上老年組

二、數(shù)值數(shù)據(jù)的圖示1.直方圖:用矩形的寬度和高度來表示頻數(shù)分布的圖形。

數(shù)值數(shù)據(jù)的描述等距分組不等距分組數(shù)值數(shù)據(jù)的描述等距分組

如果是異距分組,則各組次數(shù)的數(shù)值受組距不同的影響。在研究各組次數(shù)的實際分布時,要消除組距不同的影響,要按次數(shù)密度來看實際的次數(shù)分布情況。例如:按照次數(shù)密度作的直方圖如下:二、數(shù)值數(shù)據(jù)的圖示2.折線圖:在直方圖的基礎(chǔ)上,把直方圖頂部的中點用直線連接起來形成的。

二、數(shù)值數(shù)據(jù)的圖示3.盒形圖:又稱箱線圖,構(gòu)成如下:

數(shù)值數(shù)據(jù)的描述中位數(shù)4681012QUQLX最大值X最小值最小值107最大值139中位數(shù)123下四分位數(shù)117.75上四分位數(shù)12810511011512012513013514050名工人日加工零件數(shù)的箱線圖二、數(shù)值數(shù)據(jù)的圖示4.莖葉圖:由頻數(shù)、莖和葉構(gòu)成,莖表示數(shù)值的整數(shù)部分,葉表示數(shù)值的小數(shù)部分。

數(shù)值數(shù)據(jù)的描述樹莖樹葉7880223477788890012222333344466777889013344579910111213數(shù)據(jù)個數(shù)3132410莖葉圖類似橫置的直方圖莖葉圖單位:萬個某車間工人月加工零件數(shù)的莖葉圖三、數(shù)值數(shù)據(jù)的分布特征描述1.集中趨勢測度值均值:均值是反映數(shù)據(jù)分布集中趨勢十分重要的數(shù)據(jù),代表總體單位某一標志值的一般水平。例如:某市中學生每周平均上網(wǎng)時間為2.8小時。某農(nóng)貿(mào)市場2月份牛肉的平均價格為16元/千克。某地區(qū)“十五”期間經(jīng)濟平均增長率為9.6%

數(shù)值數(shù)據(jù)的描述常用的幾種平均數(shù)概念 計算公式 特點 優(yōu)點:①容易理解,便于計算②靈敏度高③穩(wěn)定性好④和

缺點:

①易受極值影響1.算術(shù)平均數(shù)()標志總量與總體單位總數(shù)的比值 簡單:加權(quán):算術(shù)平均數(shù)的計算簡單算術(shù)平均數(shù):

總體平均數(shù)

樣本平均數(shù)簡單均值

(算例)原始數(shù)據(jù): 10 5 9 13 6 8簡單均值

(算例)簡單均值

(算例)原始數(shù)據(jù): 10 5 9 13 6 8算術(shù)平均數(shù)的計算

加權(quán)算術(shù)平均數(shù):是對每個數(shù)據(jù)都根據(jù)其在全組中的重要程度賦予一定權(quán)重后得到的算術(shù)平均數(shù)。

計算公式:

(1)未分組數(shù)據(jù)

其中,

Fi表示權(quán)重。

例:根據(jù)某公司四個品牌數(shù)碼相機的銷售資料計算平均利潤率。

四個品牌數(shù)碼相機的利潤率和銷售額資料所以,四個品牌數(shù)碼相機的平均銷售利潤率為:

因為:

⑵分組的加權(quán)平均數(shù)其中,

Xi表示各組的變量值(組距式數(shù)列的組中值);Fi表示各組變量值出現(xiàn)的頻數(shù)(即權(quán)數(shù))。表2-1某車間50名工人日加工零件均值計算表按零件數(shù)分組組中值(Xi)頻數(shù)(Fi)XiFi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合計—506160.0例:根據(jù)表2-1中的數(shù)據(jù),計算50名工人日加工零件數(shù)的均值常用的幾種平均數(shù)概念 計算公式 特點 優(yōu)點:①靈敏度高②在某種不能計算的條件下,可以代替

缺點:①不易理解②易受極值影響

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論