描述統(tǒng)計學綜合論述_第1頁
描述統(tǒng)計學綜合論述_第2頁
描述統(tǒng)計學綜合論述_第3頁
描述統(tǒng)計學綜合論述_第4頁
描述統(tǒng)計學綜合論述_第5頁
已閱讀5頁,還剩89頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

14.05.20231本資料來源第一頁,共九十四頁。14.05.20232第2章描述統(tǒng)計學

案例導入

在一家財產保險公司的董事會上,董事們就公司的發(fā)展戰(zhàn)略問題展開了激烈討論,其中一個引人關注的問題就是如何借鑒國外保險公司的先進管理經驗,提高自身的管理水平。有的董事提出,2005年公司的各項業(yè)務與去年相比沒有太大增長,除經濟環(huán)境和市場競爭等因素外,對家庭財產保險的業(yè)務開展得不夠,公司在管理方式上也存在問題。他認為,中國的家庭財產保險市場潛力巨大,應加大擴展這一業(yè)務的力度,同時,應對公司家庭財產推銷員實行目標管理,并根據目標完成情況建立相應的獎懲制度。董事長認為該董事的建議有一定道理,準備采納。會后,他責成計劃部經理盡快拿出具體的實施方案。

第二頁,共九十四頁。14.05.20233

計劃部經理接到任務后感到有些頭痛。如果目標定得過高,多數推銷員完不成任務,會使推銷員失去信心;如果定得過低,將不利于充分挖掘員工的工作潛力,提高公司的業(yè)績水平。于是,計劃部經理將公司160個推銷員的月銷售額分別作了統(tǒng)計,統(tǒng)計數據如表2-1所示。如果你是計劃部經理,觀察這160個原始數據后,準備如何來制定具體的銷售目標呢?第三頁,共九十四頁。14.05.20234本章重點1、描述統(tǒng)計數據分布特征的圖表法;2、數據中心位置測度的種類與方法;(1)計算平均數:算術平均數、調和平均數、幾何平均數;(2)位置平均數:中位數、眾數、分位數。3、變異性的測度:全距、平均差、方差、標準差、變異系數;4、相對位置的測度:z分數、切貝雪夫定理、經驗法則。本章難點1、算術平均數;2、方差與標準差。第四頁,共九十四頁。14.05.20235第一節(jié)圖表法一、次數分布

(一)、次數分布的概念及類型

次數:分布在各組的單位數(f)

頻率:各組次數與總次數的比重用f/f表示;

第五頁,共九十四頁。14.05.20236變量數列屬性數列將總體按某個標志分成若干組,在按一定順序進行歸并排列,形成總體單位數在各組間的分布。次數分布分類分組(標志的具體表現)各組的單位數(次數或頻數)構成要素異距數列等距數列組距數列單值數列單項式數列第六頁,共九十四頁。14.05.20237企業(yè)職工性別情況的分配數列(品質數列)性別職工人數(個)女男680520合計1200

某地區(qū)企業(yè)銷售收入情況的分配數列(變量數列)銷售收入(萬元)企業(yè)數(個)80-9090-100100-110110-12024166合計28第七頁,共九十四頁。14.05.20238按銷售額分組(千元)人數(人)f12以下12-1414-1616-1818-2020-2222-2424-2626-2828以上6132936251714974合計160表2-3某保險公司160名推銷員銷售額分組數據第八頁,共九十四頁。14.05.20239組距數列指每個組的變量值用一個區(qū)間來表現的變量數列變量是連續(xù)變量;或:總體單位數較多,變量不同取值個數也較多的離散變量。

編制條件:第九頁,共九十四頁。14.05.202310相關概念指每組兩端表示各組界限的變量值,各組的最小值為下限,最大值為上限組限每組變量值變動區(qū)間的長度,為上下限之差組距每組變量取值范圍的中點數值組中值組中值=第十頁,共九十四頁。14.05.202311某地區(qū)100個百貨商店月銷售額與流通費用情況銷售額(萬元)商店數(個)每百元商品銷售額中支付的流通費(元)50以下50~100100~200200~300300以上102030251514.211.410.19.28.5上組限U下組限L如:組距d=U-L=100-50=50(萬元)如:組中值x=(U+L)/2=(100+200)/2=150(萬元)第十一頁,共九十四頁。14.05.202312對于離散變量,相鄰組組限可以間斷,也可重疊;對于連續(xù)變量,相鄰組組限必須重疊;符合“上組限不計入”原則;首末兩組可使用“××以下”及“××以上”的開口組。組限的表示方法第十二頁,共九十四頁。14.05.202313開口式組距數列組中值的計算:

首組假定下限=首組上限-相鄰組組距末組假定上限=末組下限+相鄰組組距先計算開口組的假定上、下限:

因此有:首組組中值末組組中值第十三頁,共九十四頁。14.05.202314例:30名同齡兒童身高(cm):106,99,85,121,84,94,106,105,110,119,101,95,91,87,105,106,109,118,96,128,91,97,105,111,111,107,103,101,107,106。(1)將變量值按大小次序排列84,85,87,91,91,94,95,96,97,99,101,101,103,105,105,105,106,106,106,106,107,107,109,110,111,111,118,119,121,128。(2)計算全距:R=128-84=44(cm)(3)確定組數與組距令i=10cm,則組數n=44/10=4.4,取5組變量數列的編制。第十四頁,共九十四頁。14.05.20231584,85,87,91,91,94,95,96,97,99,101,101,103,105,105,105,106,106,106,106,107,107,109,110,111,111,118,119,121,128。(4)編制變量數列第十五頁,共九十四頁。14.05.202316(二)、次數分布的主要類型1、鐘形分布分布特征:中間大、兩頭小。鐘形分布進一步區(qū)分為:(1)對稱分布(2)偏態(tài)分布正偏:又稱右偏,有極大值;負偏:又稱左偏,有極小值。右偏左偏第十六頁,共九十四頁。14.05.2023172、U形分布3、J形分布分布特征:一邊大、一邊小。(1)正J分布:右大左??;次數隨變量值的增大而增多(2)反J分布:左大右小;次數隨變量值的增大而減少死亡率年齡分布特征:兩頭大、中間小。第十七頁,共九十四頁。14.05.202318二、直方圖1、直方圖:直方圖是用直方形的高度和寬度來表示次數分布特征的圖形。橫軸表示變量;縱軸表示次數。寬表示組距,高表示次數。

2、折線圖將組中值用折線連接而成。曲線圖當組數無限增多,則組距無限減小,此時折線趨近于曲線。身高15129638090100110120130人數第十八頁,共九十四頁。14.05.202319分組數據—直方圖

(直方圖的繪制)日加工零件數(個)圖某電腦公雖銷售量分布的直方圖我一眼就看出來了,大多數天的日銷售臺數在170~180之間!直方圖下的面積之和等于1頻數(臺)第十九頁,共九十四頁。14.05.202320

將變量數列各組的次數和比率逐組累計相加而成累計次數分布,它表明總體在某一變量值的某一水平上下總共包含的總體次數和比率。累計分布分為向上累計和向下累計。組距數列中的向上累計,表明各組上限以下總共所包含的總體次數和比率有多少。組距數列中的向下累計,表明各組下限以上總共所包含的總體次數和比率有多少。三、累計分布圖第二十頁,共九十四頁。14.05.2023212.2均值測度

次數分配數列的兩個重要特征:集中趨勢與離中趨勢。集中趨勢:反映一組數據向分布的中心集中的趨勢。離中趨勢:反映一組數據遠離中心的趨勢。測定集中趨勢的指標主要有均值。第二十一頁,共九十四頁。14.05.202322

基本公式=總體標志總量/總體單位總量(一)簡單算術平均數

適用未分組或各變量值出現次數相同資料一、算術平均數第二十二頁,共九十四頁。14.05.202323簡單均值

SimpleMean原始數據: 10 5 9 13 6 8第二十三頁,共九十四頁。14.05.202324(二)加權算術平均數適用已分組資料

注意:加權算術平均數不僅受各組變量值大小的影響,還受各組次數多少的影響。次數因其對平均的結果有權衡輕重的作用,因此,也叫權數。第二十四頁,共九十四頁。14.05.202325加權均值(WeightedMean)【例2.3】根據第三章表3-9中的數據,計算電腦銷售量的平均數表2-5加權平均數計算表第二十五頁,共九十四頁。14.05.202326加權均值

(權數對均值的影響)

甲乙兩組各有10名學生,他們的考試成績及其分布數據如下

甲組:考試成績(X): 020100

人數分布(F):118

乙組:考試成績(X): 020100

人數分布(F):811x甲0×1+20×1+100×8n10i=1xi82(分)x乙0×8+20×1+100×1n10i=1xi12(分)第二十六頁,共九十四頁。14.05.202327權數與加權234567819第二十七頁,共九十四頁。14.05.202328權數與加權234567819第二十八頁,共九十四頁。14.05.202329權數與加權234567819第二十九頁,共九十四頁。14.05.202330

權數的種類:

A、絕對權數(次數)fB、相對權數(頻率或比重)f/f

只有當各組的次數不相等時,次數才具有權數的作用。

由此可見,簡單算術平均數是加權算術平均數的一個特例。第三十頁,共九十四頁。14.05.202331A:是非標志——將總體全部單位劃分為“是”或“否”兩類的標志

(三)是非標志平均數第三十一頁,共九十四頁。14.05.202332B、啞變量(0—1變量)第三十二頁,共九十四頁。14.05.202333【例】設X=(2,4,6,8),則其調和平均數可由定義計算如下:⒉再求算術平均數:⒈求各標志值的倒數:,,,⒊再求倒數:是總體各單位標志值倒數的算術平均數的倒數,又叫倒數平均數二、調和平均數harmean(harmonicmean)第三十三頁,共九十四頁。14.05.202334[例]某種蔬菜早上0.4元/斤,中午0.25元/斤,晚上0.20元/斤,某人各買1斤,求平均價格。(算術平均法)

[例]類似地某人早、中、晚各買1元,求平均價格。

(一)簡單調和平均數(各變量值均為一個單位時使用)第三十四頁,共九十四頁。14.05.202335式中:x代表各個變量值,n代表變量值項數第三十五頁,共九十四頁。14.05.202336二.加權調和平均數——適用于總體資料經過分組整理形成變量數列的情況式中:為第組的變量值;為第組的標志總量。第三十六頁,共九十四頁。14.05.202337解:例:晚上白菜0.3元/斤,菠菜0.5元/斤,芹菜0.6元/斤,小王買了2元白菜,3元菠菜,4元芹菜,問平均每斤菜的價格?第三十七頁,共九十四頁。14.05.202338[例]某局所屬四個企業(yè)有關資料如下,試計算該工業(yè)局的產值平均計劃完成百分比。第三十八頁,共九十四頁。14.05.202339

算術平均數與調和平均數的適用前提:

A、已知基本公式母項資料用算術平均數計算

(子項資料未知)B、已知基本公式子項資料用調和平均數計算(母項資料未知)

調和平均數是算術平均數的變形原來只是計算時使用了不同的數據!第三十九頁,共九十四頁。14.05.202340

是N項變量值連乘積的開N

次方根三、幾何平均數Geomean(geomatricmean)用于計算現象的平均比率或平均速度應用各個比率或速度的連乘積等于總比率或總速度;相乘的各個比率或速度不為零或負值。應用的前提條件:第四十頁,共九十四頁。14.05.202341A.簡單幾何平均數——適用于總體資料未經分組整理尚為原始資料的情況式中:為幾何平均數;為變量值的個數;為第個變量值。幾何平均數的計算方法第四十一頁,共九十四頁。14.05.202342(二)加權幾何平均數

注意:當觀察值有一項為零或負值時,不宜用幾何平均數計算。如用同一數據分別計算算術平均數、調和平均數和幾何平均數時,則有如下關系:第四十二頁,共九十四頁。14.05.202343四、中位數

把總體各變量值按大小順序排列起來,處于中點位置的變量值就是中位數,用“Me”表示。(一)根據未分組資料確定中位數第四十三頁,共九十四頁。14.05.202344當n為奇數時,Me=中間位置的那個變量值;原始數據:

2422212620排序: 2021222426位置: 123

45中位數22第四十四頁,共九十四頁。14.05.202345當n為偶數時,Me=中間位置兩側的兩個變量值的簡單平均。原始數據:105 91268排序: 56891012位置: 123

4

56位置N+126+123.5中位數8+928.5第四十五頁,共九十四頁。14.05.2023461、由單項數列確定中位數(二)根據分組資料確定中位數第四十六頁,共九十四頁。14.05.202347中點位置=(181+1)/2=第91個人

Me

應是第91個人的年齡

Me=18歲第四十七頁,共九十四頁。14.05.202348(二)根據組距數列確定中位數式中:L為中位數所在組的下限,U為上限;

i為中位數所在組的組距;Sm-1

為小于中位數的各組次數之和;Sm+1為大于中位數的各組次數之和;

fm為中位數所在組的次數。第四十八頁,共九十四頁。14.05.202349[例]下限公式:上限公式:并且:第四十九頁,共九十四頁。14.05.202350

注意的問題:(1)中位數不受極端值的影響,比較穩(wěn)健。(2)中位數的取值只與中間位置的一或兩個數值有關,利用信息不充分,忽略了其它數據的大小,并且不適合于代數運算。第五十頁,共九十四頁。14.05.202351

眾數是觀察值中出現得最多的變量值。用Mo表示。在數據集中,眾數組是出現頻率最高的一組。數據集可能有一個眾數(組),或兩(多)個眾數(組)。五、Mode眾數第五十一頁,共九十四頁。14.05.202352Themodalclass眾數組Forlargedatasetsthemodalclassismuchmorerelevantthantheasingle-valuemode.對于大的數據集來說,眾數組比單個眾數更合適。第五十二頁,共九十四頁。14.05.202353TypesofMode眾數的種類Nomode無眾數data:10591268Mode:一個眾數

data:65

9855Bimodal:雙眾數data:252828

364242Multimodal:多眾數

data:3232

323334343435363636第五十三頁,共九十四頁。14.05.202354有時眾數是一個合適的代表值

比如在服裝行業(yè)中,生產商、批發(fā)商和零售商在做有關生產或存貨的決策時,更感興趣的是最普遍的尺寸而不是平均尺寸。

第五十四頁,共九十四頁。14.05.202355STAT

五、眾數眾數是指總體中出現次數最多的變量值,用Mo表示。A、20,15,18,20,20,22,20,23;n=8Mo=20B、20,20,15,19,19,20,19,25;n=8Mo=20Mo=19C、10,11,13,16,15,25,8,12;n=8,但沒有眾數(一)由單項數列確定眾數在單項數列中,出現次數最多的變量值就是眾數。確定眾數組確定眾數:Mo=18第五十五頁,共九十四頁。14.05.202356式中:

L為眾數組的下限,U為上限;

i為眾數組的組距;1=fm-fm-1,即眾數組的次數與前一組次數之差;

2=fm-fm+1,即眾數組的次數與后一組次數之差。

(二)由組距數列確定眾數確定眾數組再用下述公式計算:第五十六頁,共九十四頁。14.05.2023574050607080901005040302010AGFBCED人數產值xy(L)(U)Mo=L+x=U-yO第五十七頁,共九十四頁。14.05.202358STAT4050607080901005040302010AGFBCED人數產值xy(L)(U)Mo=L+x=U-yO第2章描述統(tǒng)計學第五十八頁,共九十四頁。14.05.202359眾數取值的特點:

眾數的數值始終偏向相鄰組中次數較大的組,當相鄰兩組的次數相等時,眾數則是眾數組的組中值。注意的問題:(1)優(yōu)點:不受極端值的影響。(2)缺點:未利用所有信息,缺乏敏感性和不適合代數運算。(3)可用于反映質量變量的集中趨勢。第五十九頁,共九十四頁。14.05.202360六、集中趨勢測度指標的比較

(一)各種數值平均數的比較適用場合不同。若總體標志總量等于總體各單位變量值之和,可采用算術平均數計算;若總體標志總量等于總體各單位變量值之積,則應采用幾何平均數計算某些數值平均數對于被平均變量的取值有著特殊的限制。第六十頁,共九十四頁。14.05.202361(二)數值平均數與位置平均數的比較

數值平均數對于數據的概括能力比位置平均數更強。數值平均數對于數據變化的“靈敏度”很高。對極端值的“耐抗性”較低;位置平均數的“靈敏度”較低,但“耐抗性”卻很強。數值平均數只適用于定距尺度和定比尺度的數據:位置平均數還適用于各種定序尺度的數據,眾數甚至還適用于各種定類尺度的數據。第六十一頁,共九十四頁。14.05.202362(三)中位數、眾數和算術平均數的關系對稱分布

均值=中位數=眾數左偏分布均值

中位數

眾數右偏分布眾數

中位數

均值第六十二頁,共九十四頁。14.05.202363

卡爾?皮爾遜經驗公式:適度偏斜情況下,眾數與中位數之間的距離,大約為中位數到算術平均數之間距離的兩倍。第六十三頁,共九十四頁。14.05.202364平均指標只能反映現象的集中趨勢而不能反映總體各單位標志值的差異程度。例

集中趨勢和離散程度是總體分布的兩個重要特征。離散趨勢指標是反映總體各單位標志值差異(離散)程度的指標。又稱標志變動指標、離散程度指標等。平均指標與離散趨勢指標的區(qū)別:平均指標考慮的是如何消除離差,顯示集中趨勢。而離散趨勢指標考慮的是如何計算離差,反映離散的程度及離差的大小。2.3變異程度測定第六十四頁,共九十四頁。14.05.202365

離散趨勢指標作用:

1、衡量平均數代表性的大小第六十五頁,共九十四頁。14.05.202366

2、反映變量值分布的離中趨勢和離散程度

第六十六頁,共九十四頁。14.05.2023673、反映社會經濟現象的均衡性和穩(wěn)定性如甲、乙兩工廠某年四個季度的產量資料如下(單位:萬件):甲:65、68、72、75,平均每季產量為70萬件;乙:34,51,95,100,平均每季產量為70萬件。描述數據離散趨勢的指標主要有全距、平均差、標準差、方差及變異系數等。第六十七頁,共九十四頁。14.05.202368

一、全距全距是總體各單位某一數量標志的最大值與最小值之差。全距(R)=最大值—最小值特點1、優(yōu)點:意義明確,簡單方便。

2、缺點:比較粗略,未考慮中間變量值的離散情況。第六十八頁,共九十四頁。14.05.202369平均差是各變量值對其算術平均數離差絕對值的算術平均數。常用“A·D”表示。(一)根據未分組資料計算

二、平均差

(二)根據分組資料計算第六十九頁,共九十四頁。14.05.202370簡單平均差計算舉例:表2-1第七十頁,共九十四頁。14.05.202371加權平均差計算第七十一頁,共九十四頁。14.05.202372

平均差的特點:(1)充分考慮了每一數值的離中情況,在反映離中趨勢方面比較靈敏,計算方法亦比較簡單。(2)絕對值運算給數學處理帶來很多不便。第七十二頁,共九十四頁。14.05.202373⑴簡單標準差——適用于未分組資料是各個數據與其算術平均數的離差平方的算術平均數的開平方根,用來表示;標準差的平方又叫作方差,用來表示。三、標準差計算公式:總體單位總數第個單位的變量值總體算術平均數第七十三頁,共九十四頁。14.05.202374【例A】某售貨小組5個人,某天的銷售額分別為440元、480元、520元、600元、750元,求該售貨小組銷售額的標準差。解:(比較:其銷售額的平均差為93.6元)即該售貨小組銷售額的標準差為109.62元。第七十四頁,共九十四頁。14.05.202375⑵加權標準差——適用于分組資料標準差的計算公式總體算術平均數第組變量值出現的次數第組的變量值或組中值第七十五頁,共九十四頁。14.05.202376【例B】計算下表中某廠工人日檢查產品數量的標準差。日檢查產品數量(件)組中值(件)工人數(人)40~5050~6060~7070~8080~9045556575852590505035合計—250某廠工人日檢查產品數量表第七十六頁,共九十四頁。14.05.202377解:(教材P71錯誤)即該廠工人日檢查產品的標準差為12件。第七十七頁,共九十四頁。14.05.202378標準差的特點不易受極端數值的影響,能綜合反映全部單位標志值的實際差異程度;用平方的方法消除各標志值與算術平均數離差的正負值問題,可方便地用于數學處理和統(tǒng)計分析運算.由同一資料計算的標準差的結果一般要略大于平均差。第七十八頁,共九十四頁。14.05.202379

(二)標準差和方差的簡捷計算第七十九頁,共九十四頁。14.05.202380

例如,某班50名學生英語考試成績及格人數39人,不及格人數11人。則:

(三)是非標志標準差的計算第八十頁,共九十四頁。14.05.202381

(四)方差的加法定理資料分組后:第八十一頁,共九十四頁。14.05.202382[例]某鄉(xiāng)9戶專業(yè)織襪戶擁有織襪機如下:2、2、3、4、6、7、8、10、12臺試求其總方差。

平均組內方差:各組內方差的平均數。第八十二頁,共九十四頁。14.05.202383原始數據分組按織襪機太數分組戶數(戶)ni臺數(臺)組平均數(臺)

1~44112.7542.355~8321739~122221150合計954

95.25表2-13某鄉(xiāng)織襪專業(yè)戶資料第八十三頁,共九十四頁。14.05.202384總方差:第八十四頁,共九十四頁。14.05.202385可比變異系數指標四、變異系數第八十五頁,共九十四頁。14.05.202386身高的差異水平:cm體重的差異水平:kg用變異系數可以相互比較可比第八十六頁,共九十四頁。14.05.202387

變異系數計算公式:第八十七頁,共九十四頁。1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論