【人教A版必修】第9章統(tǒng)計(jì)(純Word版)_第1頁(yè)
【人教A版必修】第9章統(tǒng)計(jì)(純Word版)_第2頁(yè)
【人教A版必修】第9章統(tǒng)計(jì)(純Word版)_第3頁(yè)
【人教A版必修】第9章統(tǒng)計(jì)(純Word版)_第4頁(yè)
【人教A版必修】第9章統(tǒng)計(jì)(純Word版)_第5頁(yè)
已閱讀5頁(yè),還剩44頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第9章統(tǒng)計(jì)【章頭語】在現(xiàn)實(shí)生活中,我們經(jīng)常會(huì)接觸到各種統(tǒng)計(jì)數(shù)據(jù),例如,人口總量、經(jīng)濟(jì)增長(zhǎng)率、就業(yè)狀況、物價(jià)指數(shù)、產(chǎn)品的合格率、商品的銷售額、農(nóng)作物的產(chǎn)量、人均水資源、居民人均年收人、電視臺(tái)節(jié)目的收視率、學(xué)生的平均身高等.要正確閱讀并理解這些數(shù)據(jù),需要具備一些統(tǒng)計(jì)學(xué)的知識(shí).統(tǒng)計(jì)學(xué)是通過收集數(shù)據(jù)和分析數(shù)據(jù)來認(rèn)識(shí)未知現(xiàn)象的一門科學(xué).面對(duì)一個(gè)統(tǒng)計(jì)問題,首先要根據(jù)實(shí)際需求,通過適當(dāng)?shù)姆椒ǐ@取數(shù)據(jù),并選擇適當(dāng)?shù)慕y(tǒng)計(jì)圖表對(duì)數(shù)據(jù)進(jìn)行整理和描述,在此基礎(chǔ)上用各種統(tǒng)計(jì)方法對(duì)數(shù)據(jù)進(jìn)行分析,從樣本數(shù)據(jù)中提取需要的信息,推斷總體的情況,進(jìn)而解決相應(yīng)的實(shí)際問題.那么,對(duì)于具體的統(tǒng)計(jì)問題,應(yīng)如何收集數(shù)據(jù)?如何從所收集的數(shù)據(jù)中提取信息來認(rèn)識(shí)末知現(xiàn)象?這種認(rèn)識(shí)一定正確嗎?應(yīng)如何正確解釋統(tǒng)計(jì)的結(jié)果?本章我們將在初中學(xué)過的統(tǒng)計(jì)與概率知識(shí)的基礎(chǔ)上,通過進(jìn)一步學(xué)習(xí),加深對(duì)這些問題的認(rèn)識(shí),并通過解決問題的實(shí)踐,進(jìn)一步學(xué)習(xí)數(shù)據(jù)分析的方法.9.1隨機(jī)抽樣統(tǒng)計(jì)的研究對(duì)象是數(shù)據(jù),核心是通過數(shù)據(jù)分析研究和解決問題.因此,首先要設(shè)法獲取與問題有關(guān)的數(shù)據(jù),從而為解決問題奠定基礎(chǔ).例如,準(zhǔn)確掌握全國(guó)的人口數(shù)據(jù),可以為科學(xué)制定國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展規(guī)劃及其他方針政策提供依據(jù).2010年我國(guó)進(jìn)行了第六次人口普查,對(duì)全國(guó)人口普遍地、逐戶逐人地進(jìn)行一次性調(diào)查登記.調(diào)查內(nèi)容包括每位居民的姓名、性別、年齡、民族、受教育程度等.這里,居民為調(diào)查對(duì)象,而居民的性別、年齡、民族、受教育程度等是要調(diào)查的指標(biāo).由于不同調(diào)查對(duì)象的指標(biāo)值往往不同,它是一個(gè)變化的量,所以常把指標(biāo)稱為變量.像人口普查這樣,對(duì)每一個(gè)調(diào)查對(duì)象都進(jìn)行調(diào)查的方法,稱為全面調(diào)查(overallsurvey),又稱普查.在一個(gè)調(diào)查中,我們把調(diào)查對(duì)象的全體稱為總體(population),組成總體的每一個(gè)調(diào)查對(duì)象稱為個(gè)體(individual).為了強(qiáng)調(diào)調(diào)查目的,也可以把調(diào)查對(duì)象的某些指標(biāo)的全體作為總體,每一個(gè)調(diào)查對(duì)象的相應(yīng)指標(biāo)作為個(gè)體.由于人口普查需要花費(fèi)巨大的財(cái)力、物力,因而不宜經(jīng)常進(jìn)行.為了及時(shí)掌握全國(guó)人口變動(dòng)狀況,我國(guó)每年還會(huì)進(jìn)行一次人口變動(dòng)情況的調(diào)查.這種調(diào)查是抽取一部分居民進(jìn)行調(diào)查,根據(jù)抽取的居民情況來推斷總體的人口變動(dòng)情況.像這樣,根據(jù)一定目的,從總體中抽取一部分個(gè)體進(jìn)行調(diào)查,并以此為依據(jù)對(duì)總體的情況作出估計(jì)和推斷的調(diào)查方法,稱為抽樣調(diào)查(samplingsurvey).我們把從總體中抽取的那部分個(gè)體稱為樣本(sample),樣本中包含的個(gè)體數(shù)稱為樣本量.調(diào)查樣本獲得的變量值稱為樣本的觀測(cè)數(shù)據(jù),簡(jiǎn)稱樣本數(shù)據(jù).相對(duì)全面調(diào)查而言,抽樣調(diào)查由于只抽取一部分個(gè)體進(jìn)行調(diào)查,因此具有花費(fèi)少、效率高的特點(diǎn).在總體規(guī)模比較大的調(diào)查中,如果經(jīng)費(fèi)、時(shí)間上受限,那么抽樣調(diào)查是比較合適的調(diào)查方法.在有些調(diào)查中,抽樣調(diào)查則具有不可替代的作用.例如,檢測(cè)一批燈泡的壽命,或一批種子的發(fā)芽率,或一批待售袋裝牛奶的細(xì)菌數(shù)是否超標(biāo),這些檢測(cè)具有毀損性,此時(shí)只能用抽樣調(diào)查.隨著社會(huì)的發(fā)展,抽樣調(diào)查的應(yīng)用范圍越來越廣泛.下面我們研究?jī)煞N基本的抽樣方法一簡(jiǎn)單隨機(jī)抽樣和分層隨機(jī)抽樣.9.1.1簡(jiǎn)單隨機(jī)抽樣抽樣調(diào)查的目的是為了了解總體的情況.例如,抽樣調(diào)查一批待售袋裝牛奶的細(xì)菌數(shù)是否超標(biāo),其目的是要了解整批牛奶的細(xì)菌含量超標(biāo)情況,而不只是局限在抽查到的那幾袋牛奶的情況.因此,通過抽樣調(diào)查了解總體的情況,自然希望抽取的樣本數(shù)據(jù)能很好地反映總體的情況,即樣本含有和總體基本相同的信息.【探究】假設(shè)口袋中有紅色和白色共1000個(gè)小球,除顏色外,小球的大小、質(zhì)地完全相同.你能通過抽樣調(diào)查的方法估計(jì)袋中紅球所占的比例嗎?這里袋中所有小球是調(diào)查的總體,每一個(gè)小球是個(gè)體,小球的顏色是所關(guān)心的變量.我們可以從袋中隨機(jī)地摸出一個(gè)球,記錄顏色后放回,搖勻后再摸出一個(gè)球,如此重復(fù)n次.根據(jù)初中的概率知識(shí)可知,隨著摸球次數(shù)的增加,摸到紅球的頻率會(huì)逐漸穩(wěn)定于摸到紅球的概率,即口袋中紅球所占的比例.因此,我們可以通過放回摸球,用頻率估計(jì)出紅球的比例.在有放回地摸球中,同一個(gè)小球有可能被摸中多次,極端情況是每次摸到同一個(gè)小球,而被重復(fù)摸中的小球只能提供同一個(gè)小球的顏色信息.如果我們采用不放回摸球,即從袋中摸出一個(gè)球后不再放回袋中,每次摸球都在余下的球中隨機(jī)摸取,這樣就可以避免同一個(gè)小球被重復(fù)摸中.特別地,當(dāng)樣本量n=1000一般地,設(shè)一個(gè)總體含有N(N為正整數(shù))個(gè)個(gè)體,從中逐個(gè)抽取n【貼示】從總體中,逐個(gè)不放回地隨機(jī)抽取n個(gè)個(gè)體作為樣本,一次性批量隨機(jī)抽取n個(gè)個(gè)體作為樣本,兩種方法是等價(jià)的.與放回簡(jiǎn)單隨機(jī)抽樣比較,不放回簡(jiǎn)單隨機(jī)抽樣的效率更高,因此實(shí)踐中人們更多采用不放回簡(jiǎn)單隨機(jī)抽樣.除非特殊聲明,本章所稱的簡(jiǎn)單隨機(jī)抽樣指不放回簡(jiǎn)單隨機(jī)抽樣.問題1一家家具廠要為樹人中學(xué)高一年級(jí)制作課桌椅,他們事先想了解全體高一年級(jí)學(xué)生的平均身高,以便設(shè)定可調(diào)節(jié)課桌椅的標(biāo)準(zhǔn)高度.已知樹人中學(xué)高一年級(jí)有712名學(xué)生,如果要通過簡(jiǎn)單隨機(jī)抽樣的方法調(diào)查高一年級(jí)學(xué)生的平均身高,應(yīng)該怎么抽取樣本?在這個(gè)問題中,樹人中學(xué)全部高一年級(jí)的學(xué)生構(gòu)成調(diào)查的總體,每一位學(xué)生是個(gè)體,學(xué)生的身高是調(diào)查的變量.與“探究”欄目中估計(jì)紅球的比例類似,我們可以對(duì)高一年級(jí)進(jìn)行簡(jiǎn)單隨機(jī)抽樣,用抽出的樣本的平均身高估計(jì)高一年級(jí)學(xué)生的平均身高.實(shí)現(xiàn)簡(jiǎn)單隨機(jī)抽樣的方法有很多,抽簽法和隨機(jī)數(shù)法是比較常用的兩種方法.1.抽簽法先給712名學(xué)生編號(hào),例如按1~712進(jìn)行編號(hào).然后把所有編號(hào)寫在外觀、質(zhì)地等無差別的小紙片(也可以是卡片、小球等)上作為號(hào)簽,并將這些小紙片放在一個(gè)不透明的盒里,充分?jǐn)嚢?最后從盒中不放回地逐個(gè)抽取號(hào)簽,使與號(hào)簽上的編號(hào)對(duì)應(yīng)的學(xué)生進(jìn)人樣本,直到抽足樣本所需要的人數(shù).抽簽法簡(jiǎn)單易行,但當(dāng)總體較大時(shí),操作起來比較麻煩.因此,抽簽法一般適用于總體中個(gè)體數(shù)不多的情形.2.隨機(jī)數(shù)法先給712名學(xué)生編號(hào),例如按1~712進(jìn)行編號(hào).用隨機(jī)數(shù)工具產(chǎn)生1712范圍內(nèi)的整數(shù)隨機(jī)數(shù),把產(chǎn)生的隨機(jī)數(shù)作為抽中的編號(hào),使與編號(hào)對(duì)應(yīng)的學(xué)生進(jìn)入樣本.重復(fù)上述過程,直到抽足樣本所需要的人數(shù).如果生成的隨機(jī)數(shù)有重復(fù),即同一編號(hào)被多次抽到,可以剔除重復(fù)的編號(hào)并重新產(chǎn)生隨機(jī)數(shù),直到產(chǎn)生的不同編號(hào)個(gè)數(shù)等于樣本所需要的人數(shù).(1)用隨機(jī)試驗(yàn)生成隨機(jī)數(shù)準(zhǔn)備10個(gè)大小、質(zhì)地一樣的小球,小球上分別寫上數(shù)字0,1,2,?,9,把它們放人一個(gè)不透明的袋中.從袋中有放回摸取3次,每次摸取前充分?jǐn)嚢?并把第一、二、三次摸到的數(shù)字分別作為百、十、個(gè)位數(shù),這樣就生成了一個(gè)三位隨機(jī)數(shù).如果這個(gè)三位數(shù)在1~712范圍內(nèi),就代表對(duì)應(yīng)編號(hào)的學(xué)生被抽中,否則舍棄編號(hào).這樣產(chǎn)生的隨機(jī)數(shù)可能會(huì)有重復(fù).【邊空思考】為什么要給學(xué)生編號(hào)?編號(hào)用學(xué)號(hào)可以嗎?【邊空思考】比較隨機(jī)數(shù)法與抽簽法,它們各有什么優(yōu)點(diǎn)和缺點(diǎn)?【貼示】一般說來,在計(jì)算器或計(jì)算機(jī)軟件沒有特殊設(shè)定的情況下,它們生成的隨機(jī)數(shù),都是可重復(fù)的.為了確認(rèn)你使用的計(jì)算器或計(jì)算機(jī)軟件的情況,可以查閱它的說明書,也可以通過測(cè)試它能否生成3個(gè)整數(shù)隨機(jī)數(shù)1或2來進(jìn)行判斷.(2)用信息技術(shù)生成隨機(jī)數(shù)(1)用計(jì)算器生成隨機(jī)數(shù)進(jìn)人計(jì)算器的計(jì)算模式(不同的計(jì)算器型號(hào)可能會(huì)有不同),調(diào)出生成隨機(jī)數(shù)的函數(shù)并設(shè)置參數(shù),例如RandInt#(1,712),按“=”鍵即可生成1~712范圍內(nèi)的整數(shù)隨機(jī)數(shù).重復(fù)按“=”鍵,可以生成多個(gè)隨機(jī)數(shù).這樣產(chǎn)生的隨機(jī)數(shù)可能會(huì)有重復(fù).(2)用電子表格軟件生成隨機(jī)數(shù)在電子表格軟件的任一單元格中,輸人“=RANDBETWEEN(1,712)”,即可生成一個(gè)1~712范圍內(nèi)的整數(shù)隨機(jī)數(shù).再利用電子表格軟件的自動(dòng)填充功能,可以快速生成大量的隨機(jī)數(shù)(圖9.1-1).這樣產(chǎn)生的隨機(jī)數(shù)可能會(huì)有重復(fù).圖9.1-1(3)用R統(tǒng)計(jì)軟件生成隨機(jī)數(shù)在R軟件的控制臺(tái)中,輸人“sample(1:712,50,replace=F)”,按回車鍵,就可以得到50個(gè)1圖9.1-2【貼示】R軟件是免費(fèi)的統(tǒng)計(jì)軟件,該軟件具有比較強(qiáng)大的數(shù)據(jù)處理、繪圖和分析等統(tǒng)計(jì)功能,在統(tǒng)計(jì)學(xué)研究和學(xué)習(xí)中被廣泛化用.隨著信息技術(shù)的發(fā)展,人們?cè)絹碓蕉嗟乩糜?jì)算器、數(shù)學(xué)軟件、統(tǒng)計(jì)軟件等工具來生成隨機(jī)數(shù).尤其是一些統(tǒng)計(jì)軟件,可以非常方便地按要求生成各種隨機(jī)數(shù).用信息技術(shù)工具產(chǎn)生隨機(jī)數(shù)最大的優(yōu)點(diǎn)是方便、快捷.【思考】用簡(jiǎn)單隨機(jī)抽樣方法抽取樣本,樣本量是否越大越好?我們知道,在重復(fù)試驗(yàn)中,試驗(yàn)次數(shù)越多,頻率接近概率的可能性越大.與此類似,用簡(jiǎn)單隨機(jī)抽樣的方法抽取學(xué)生,樣本量越大,樣本中不同身高的比例接近總體中相應(yīng)身高的比例的可能性也越大,樣本的平均身高接近總體的平均身高的可能性也越大.即對(duì)于樣本的代表性,一般說來,樣本量大的會(huì)好于樣本量小的.尤其是樣本量不大時(shí),增加樣本量可以較好地提高估計(jì)的效果.但是,在實(shí)際抽樣中,樣本量的增大會(huì)導(dǎo)致調(diào)查的人力、費(fèi)用、時(shí)間等成本的增加.因此,抽樣調(diào)查中樣本量的選擇要根據(jù)實(shí)際問題的需要,并不一定是越大越好.【貼示】在簡(jiǎn)單隨機(jī)抽樣調(diào)查中,當(dāng)樣本量和總體一樣大時(shí),就是全面調(diào)查了.【練習(xí)】1.在以下調(diào)查中,總體、個(gè)體各是什么?哪些適合用全面調(diào)查?哪些適合用抽樣調(diào)查?(1)調(diào)查一個(gè)班級(jí)學(xué)生每周的體育鍛煉時(shí)間;(2)調(diào)查一個(gè)地區(qū)結(jié)核病的發(fā)病率;(3)調(diào)查一批炮彈的殺傷半徑;(4)調(diào)查一個(gè)水庫(kù)所有魚中草魚所占的比例.請(qǐng)你再舉一些不宜用全面調(diào)查的例子,并說明理由.2.如圖,由均勻材質(zhì)制成的一個(gè)正20面體(每個(gè)面都是正三角形),將20個(gè)面平分成10組,第1組標(biāo)上0,第2組標(biāo)上1,?,第10組標(biāo)上9.(1)投擲正20面體,若把朝上一面的數(shù)字作為投擲結(jié)果,則出現(xiàn)0,1,2,?,9是等可能的嗎?(2)三個(gè)正20面體分別涂上紅、黃、藍(lán)三種顏色,分別代表百位、十位、個(gè)位,同時(shí)投擲可以產(chǎn)生一個(gè)三位數(shù)(百位為0的也看作三位數(shù)),它是000~999范圍內(nèi)的隨機(jī)數(shù)嗎?(第2題)3.實(shí)驗(yàn)室的籠子里共有100只小白鼠,現(xiàn)要從中抽取10只作試驗(yàn)用.下列兩種情況是否屬于簡(jiǎn)單隨機(jī)抽樣?請(qǐng)說明理由.(1)每次不經(jīng)任何挑選地抓一只,抓滿10只為止;(2)將籠中的100只小白鼠按1~100編號(hào),任意選出編號(hào)范圍內(nèi)的10個(gè)不重復(fù)數(shù)字,把相應(yīng)編號(hào)的小白鼠作為試驗(yàn)用的小白鼠.4.如果計(jì)算器只能生成[0,1)內(nèi)的隨機(jī)數(shù),你有辦法把它轉(zhuǎn)化為1~100范圍內(nèi)的整數(shù)隨機(jī)數(shù)嗎?轉(zhuǎn)化為1~712范圍內(nèi)的整數(shù)隨機(jī)數(shù)呢?5.在抽樣調(diào)查中,請(qǐng)你說說通過“隨機(jī)”選擇樣本的優(yōu)、缺點(diǎn).下面是用隨機(jī)數(shù)法從樹人中學(xué)高一年級(jí)學(xué)生中抽取的一個(gè)容量為50的簡(jiǎn)單隨機(jī)樣本,他們的身高變量值(單位:cm)如下:156.0175.0162.0164.5156.0171.0151,0158.0156.0165.0158.0175.0165.0171.0由這些樣本觀測(cè)數(shù)據(jù),我們可以計(jì)算出樣本的平均數(shù)為164.3.據(jù)此,可以估計(jì)樹人中學(xué)高一年級(jí)學(xué)生的平均身高為164.3cm左右.上面我們通過簡(jiǎn)單隨機(jī)抽樣得到部分學(xué)生的平均身高,并把樣本平均身高作為樹人中學(xué)高一年級(jí)所有學(xué)生平均身高的估計(jì)值.一般地,總體中有N個(gè)個(gè)體,它們的變量值分別為Y1Y為總體均值(populationmean),又稱總體平均數(shù).如果總體的N個(gè)變量值中,不同的值共有k(k?N)個(gè),不妨記為Y1,Y【貼示】∑為求和符號(hào),讀音為/sigma/,主要用于多項(xiàng)式求和.∑i如果從總體中抽取一個(gè)容量為n的樣本,它們的變量值分別為y1y為樣本均值(samplemean),又稱樣本平均數(shù).在簡(jiǎn)單隨機(jī)抽樣中,我們常用樣本平均數(shù)y去估計(jì)總體平均數(shù)Y.【貼示】很多科學(xué)型計(jì)算器都具有求平均數(shù)的功能.只要輸入數(shù)據(jù),按相應(yīng)的鍵,就可以快速求出平均數(shù).【探究】小明想考察一下簡(jiǎn)單隨機(jī)抽樣的估計(jì)效果.他從樹人中學(xué)醫(yī)務(wù)室得到了高一年級(jí)學(xué)生身高的所有數(shù)據(jù),計(jì)算出整個(gè)年級(jí)學(xué)生的平均身高為165.0cm.然后,小明用簡(jiǎn)單隨機(jī)抽樣的方法,從這些數(shù)據(jù)中抽取了樣本量為50和100的樣本各10個(gè),分別計(jì)算出樣本平均數(shù),如表9.1-1所示.從小明多次抽樣所得的結(jié)果中,你有什么發(fā)現(xiàn)?表9.1-1抽樣序號(hào)12345678910樣本量為50的平均數(shù)165.2162.8164.4164.4165.6164.8165.3164.7165.7165.0樣本量為100的平均數(shù)164.4165.0164.7164.9164.6164.9165.1165.2165.1165.2為了更方便地觀察數(shù)據(jù),以便我們分析樣本平均數(shù)的特點(diǎn)以及與總體平均數(shù)的關(guān)系,我們把這20次試驗(yàn)的平均數(shù)用圖形表示出來,如圖9.1-3所示.圖中的紅線表示樹人中學(xué)高一年級(jí)全體學(xué)生身高的平均數(shù).圖9.1-3從試驗(yàn)結(jié)果看,不管樣本量為50,還是為100,不同樣本的平均數(shù)往往是不同的.由于樣本的選取是隨機(jī)的,因此樣本平均數(shù)也具有隨機(jī)性,這與總體平均數(shù)是一個(gè)確定的數(shù)不同.雖然在所有20個(gè)樣本平均數(shù)中,與總體平均數(shù)完全一致的很少,但除了樣本量為50的第2個(gè)樣本外,樣本平均數(shù)偏離總體平均數(shù)都不超過1cm,即大部分樣本平均數(shù)離總體平均數(shù)不遠(yuǎn),在總體平均數(shù)附近波動(dòng).比較樣本量為50和樣本量為100的樣本平均數(shù),還可以發(fā)現(xiàn)樣本量為100的波動(dòng)幅度明顯小于樣本量為50的,這與我們對(duì)增加樣本量可以提高估計(jì)效果的認(rèn)識(shí)是一致的.總體平均數(shù)是總體的一項(xiàng)重要特征.另外,某類個(gè)體在總體中所占的比例也是人們關(guān)心的一項(xiàng)總體特征,例如全部產(chǎn)品中合格品所占的比例、贊成某項(xiàng)政策的人在整個(gè)人群中所占的比例等.問題2眼睛是心靈的窗口,保護(hù)好視力非常重要.樹人中學(xué)在“全國(guó)愛眼日”前,想通過簡(jiǎn)單隨機(jī)抽樣的方法,了解一下全校2174名學(xué)生中視力不低于5.0的學(xué)生所占的比例,你覺得該怎么做?在這個(gè)問題中,全校學(xué)生構(gòu)成調(diào)查的總體,每一位學(xué)生是個(gè)體,學(xué)生的視力是考察的變量.為了便于問題的描述,我們記“視力不低于5.0”為1,“視力低于5.0”為0,則第i個(gè)(iY于是,在全校學(xué)生中,“視力不低于5.0”的人數(shù)就是Y1+Y2+?+P類似地,若抽取容量為n的樣本,把它們的視力變量值分別記為y1,y2,?,p我們可以用樣本平均數(shù)y估計(jì)總體平均數(shù)Y,用樣本中的比例p估計(jì)總體中的比例P.現(xiàn)在,我們從樹人中學(xué)所有學(xué)生中抽取一個(gè)容量為50的簡(jiǎn)單隨機(jī)樣本,其視力變量取值如下:110100101110001101000111011011由樣本觀測(cè)數(shù)據(jù),我們可以計(jì)算出樣本平均數(shù)為y據(jù)此,我們估計(jì)在樹人中學(xué)全體學(xué)生中,“視力不低于5.0”的比例約為0.54.簡(jiǎn)單隨機(jī)抽樣方法簡(jiǎn)單、直觀,用樣本平均數(shù)估計(jì)總體平均數(shù)也比較方便.簡(jiǎn)單隨機(jī)抽樣是一種基本抽樣方法,是其他抽樣方法的基礎(chǔ).但在實(shí)際應(yīng)用中,簡(jiǎn)單隨機(jī)抽樣有一定的局限性.例如,當(dāng)總體很大時(shí),簡(jiǎn)單隨機(jī)抽樣給所有個(gè)體編號(hào)等準(zhǔn)備工作非常費(fèi)事,甚至難以做到;抽中的個(gè)體往往很分散,要找到樣本中的個(gè)體并實(shí)施調(diào)查會(huì)遇到很多困難;簡(jiǎn)單隨機(jī)抽樣沒有利用其他輔助信息,估計(jì)效率不是很高;等等.因此,在規(guī)模較大的調(diào)查中,直接采用簡(jiǎn)單隨機(jī)抽樣的并不多,一般是把簡(jiǎn)單隨機(jī)抽樣和其他抽樣方法組合使用.【練習(xí)】1.為了合理調(diào)配電力資源,某市欲了解全市50000戶居民的日用電量.若通過簡(jiǎn)單隨機(jī)抽樣從中抽取了300戶進(jìn)行調(diào)查,得到其日用電量的平均數(shù)為5.5kW?h(A)一定為5.5kW?h(B)高于5.5kW?h(C)低于5.5kW?h(D)約為5.5kW?h2.在學(xué)生身高的調(diào)查中,小明和小華分別獨(dú)立進(jìn)行了簡(jiǎn)單隨機(jī)抽樣調(diào)查.小明調(diào)查的樣本平均數(shù)為166.4,樣本量為100;小華調(diào)查的樣本平均數(shù)為164.7,樣本量為200.你更愿意把哪個(gè)值作為總體平均數(shù)的估計(jì)?是不是你選的值一定比另一個(gè)更接近總體平均數(shù)?說說你的理由.3.找一組數(shù)據(jù)作為總體,自行設(shè)定樣本量,進(jìn)行多次簡(jiǎn)單隨機(jī)抽樣.觀察樣本量對(duì)估計(jì)總體平均數(shù)的影響,并試著解釋其中的原因.9.1.2分層隨機(jī)抽樣抽樣調(diào)查最核心的問題是樣本的代表性.簡(jiǎn)單隨機(jī)抽樣是使總體中每一個(gè)個(gè)體都有相等的機(jī)會(huì)被抽中,但因?yàn)槌闃拥碾S機(jī)性,有可能會(huì)出現(xiàn)比較“極端”的樣本.例如,在對(duì)樹人中學(xué)高一年級(jí)學(xué)生身高的調(diào)查中,可能出現(xiàn)樣本中50個(gè)個(gè)體大部分來自高個(gè)子或矮個(gè)子的情形.這種“極端”樣本的平均數(shù)會(huì)大幅度地偏離總體平均數(shù),從而使得估計(jì)出現(xiàn)較大的誤差.能否利用總體中的一些額外信息對(duì)抽樣方法進(jìn)行改進(jìn)呢?問題3在樹人中學(xué)高一年級(jí)的712名學(xué)生中,男生有326名、女生有386名.能否利用這個(gè)輔助信息改進(jìn)簡(jiǎn)單隨機(jī)抽樣方法,減少“極端,樣本的出現(xiàn),從而提高對(duì)整個(gè)年級(jí)平均身高的估計(jì)效果呢?我們知道,影響身高的因素有很多,性別是其中的一個(gè)主要因素.高中男生的身高普遍高于女生的身高,而相同性別的身高差異相對(duì)較小.我們可以利用性別和身高的這種關(guān)系,把高一年級(jí)學(xué)生分成男生和女生兩個(gè)身高有明顯差異的群體,對(duì)兩個(gè)群體分別進(jìn)行簡(jiǎn)單隨機(jī)抽樣,然后匯總作為總體的一個(gè)樣本.由于在男生和女生兩個(gè)群體中都抽取了相應(yīng)的個(gè)體,這樣就能有效地避免“極端”樣本.【思考】對(duì)男生、女生分別進(jìn)行簡(jiǎn)單隨機(jī)抽樣,樣本量在男生、女生中應(yīng)如何分配?自然地,為了使樣本的結(jié)構(gòu)與總體的分布相近,人數(shù)多的群體應(yīng)多抽一些,人數(shù)少的群體應(yīng)少抽一些.因此,按男生、女生在全體學(xué)生中所占的比例進(jìn)行分配是一種比較合理的方式,即男生樣本量這樣無論是男生還是女生,每個(gè)學(xué)生抽到的概率都相等.當(dāng)總樣本量為50時(shí),可以計(jì)算出從男生、女生中分別應(yīng)抽取的人數(shù)為nn我們按上述方法抽取了一個(gè)容量為50的樣本,其觀測(cè)數(shù)據(jù)(單位:cm)如下:男生173.0172.0173.0175.0168.0170.0172.0176.0175.0168.0173.0167.0170.0175.0女生163.0154.0154.0164.0149.0159.0161.0170.0171.0155.0148.0172.0162.5158.0155.5157.0163.0172.0通過計(jì)算,得出男生和女生身高的樣本平均數(shù)分別為170.6,160.6.根據(jù)男生、女生身高的樣本平均數(shù)以及他們各自的人數(shù),可以估計(jì)總體平均數(shù)為170.6×326+160.6×386即估計(jì)樹人中學(xué)高一年級(jí)學(xué)生的平均身高在165.2cm左右.上面我們按性別變量,把高一學(xué)生劃分為男生、女生兩個(gè)身高差異較小的子總體分別進(jìn)行抽樣,進(jìn)而得到總體的估計(jì).一般地,按一個(gè)或多個(gè)變量把總體劃分成若干個(gè)子總體,每個(gè)個(gè)體屬于且僅屬于一個(gè)子總體,在每個(gè)子總體中獨(dú)立地進(jìn)行簡(jiǎn)單隨機(jī)抽樣,再把所有子總體中抽取的樣本合在一起作為總樣本,這樣的抽樣方法稱為分層隨機(jī)抽樣(stratifiedrandomsampling),每一個(gè)子總體稱為層.在分層隨機(jī)抽樣中,如果每層樣本量都與層的大小成比例,那么稱這種樣本量的分配方式為比例分配.在分層隨機(jī)抽樣中,如果層數(shù)分為2層,第1層和第2層包含的個(gè)體數(shù)分別為M和N,抽取的樣本量分別m和n.我們用X1,X2,?,XMX第2層的總體平均數(shù)和樣本平均數(shù)分別為Y總體平均數(shù)和樣本平均數(shù)分別為W由于用第1層的樣本平均數(shù)x可以估計(jì)第1層的總體平均數(shù)X,用第2層的樣本平均數(shù)y可以估計(jì)第2層的總體平均數(shù)Y,因此我們可以用M估計(jì)總體平均數(shù)W.在比例分配的分層隨機(jī)抽樣中,m可得M因此,在比例分配的分層隨機(jī)抽樣中,我們可以直接用樣本平均數(shù)w估計(jì)總體平均數(shù)W.【探究】與考察簡(jiǎn)單隨機(jī)抽樣估計(jì)效果類似,小明也想通過多次抽樣考察一下分層隨機(jī)抽樣的估計(jì)效果.他用比例分配的分層隨機(jī)抽樣方法,從高一年級(jí)的學(xué)生中抽取了10個(gè)樣本量為50的樣本,計(jì)算出樣本平均數(shù)如表9.1-2所示.與上一小節(jié)“探究”中相同樣本量的簡(jiǎn)單隨機(jī)抽樣的結(jié)果比較,小明有了一個(gè)重要的發(fā)現(xiàn).你是否也有所發(fā)現(xiàn)?表9.1-2抽樣序號(hào)12345678910男生樣本的平均數(shù)170.0170.7169.8171.7172.7171.9171.6170.6172.6170.9女生樣本的平均數(shù)162.2160.3159.7158.1161.1158.4159.7160.0160.6160.2總樣本的平均數(shù)165.8165.1164.3164.3166.4164.6165.2164.9166.1165.1我們把分層隨機(jī)抽樣的平均數(shù)與上一小節(jié)樣本量為50的簡(jiǎn)單隨機(jī)抽樣的平均數(shù)用圖形進(jìn)行表示(圖9.1-4),其中紅線表示整個(gè)年級(jí)學(xué)生身高的平均數(shù).從試驗(yàn)結(jié)果看,分層隨機(jī)抽樣的樣本平均數(shù)圍繞總體平均數(shù)波動(dòng),與簡(jiǎn)單隨機(jī)抽樣的結(jié)果比較,分層隨機(jī)抽樣并沒有明顯優(yōu)于簡(jiǎn)單隨機(jī)抽樣.但相對(duì)而言,分層隨機(jī)抽樣的樣本平均數(shù)波動(dòng)幅度更均勻,簡(jiǎn)單隨機(jī)抽樣中出現(xiàn)了一個(gè)(第2個(gè))偏離總體平均數(shù)的幅度比較大的樣本平均數(shù),即出現(xiàn)了比較“極端”的樣本,而分層隨機(jī)抽樣沒有出現(xiàn).實(shí)際上,在個(gè)體之間差異較大的情形下,只要選取的分層變量合適,使得各層間差異明顯、層內(nèi)差異不大,分層隨機(jī)抽樣的效果一般會(huì)好于簡(jiǎn)單隨機(jī)抽樣,也好于很多其他抽樣方法.分層隨機(jī)抽樣的組織實(shí)施也比簡(jiǎn)單隨機(jī)抽樣方便,而且除了能得到總體的估計(jì)外,還能得到每層的估計(jì).圖9.1-4在實(shí)際抽樣調(diào)查中,由于實(shí)際問題的復(fù)雜性,除了要考慮獲得的樣本的代表性,還要考慮調(diào)查實(shí)施中人力、物力、時(shí)間等因素,因此通常會(huì)把多種抽樣方法組合起來使用.例如,在分層抽樣中,不同的層內(nèi)除了用簡(jiǎn)單隨機(jī)抽樣外,還可以用其他的抽樣方法,有時(shí)層內(nèi)還需要再進(jìn)行分層,等等.【探究】如果要了解某電視節(jié)目在你所在地區(qū)(城市、鄉(xiāng)鎮(zhèn)或村莊)的收視率,你能幫忙設(shè)計(jì)一個(gè)抽樣方案嗎?結(jié)合你所在地區(qū)的實(shí)際情況,和同學(xué)展開討論.【練習(xí)】1.數(shù)據(jù)x1,x2,?,xmi2.有人說:“如果抽樣方法設(shè)計(jì)得好,用樣本進(jìn)行視力調(diào)查與對(duì)24300名學(xué)生進(jìn)行視力普查的結(jié)果差不多.而且對(duì)于想要掌握學(xué)生視力狀況的教育部門來說,節(jié)省了人力、物力和財(cái)力,抽樣調(diào)查更可取.”你認(rèn)為這種說法有道理嗎?為什么?3.高二年級(jí)有男生490人,女生510人,張華按男生、女生進(jìn)行分層,通過分層隨機(jī)抽樣的方法,得到男生、女生的平均身高分別為170.2cm和160.8cm.(1)如果張華在各層中按比例分配樣本,總樣本量為100,那么在男生、女生中分別抽取了多少名?在這種情況下,請(qǐng)估計(jì)高二年級(jí)全體學(xué)生的平均身高.(2)如果張華從男生、女生中抽取的樣本量分別為30和70,那么在這種情況下,如何估計(jì)高二年級(jí)全體學(xué)生的平均身高更合理?4.要調(diào)查全市普通高中高一年級(jí)學(xué)生中患色盲的比例,小明根據(jù)性別對(duì)總體進(jìn)行分層,用分層隨機(jī)抽樣的方法進(jìn)行調(diào)查.請(qǐng)你查閱有關(guān)資料,說說這樣的分層是否合理.你覺得在選擇分層變量時(shí)應(yīng)注意什么?【閱讀與思考】如何得到敏感性問題的誠(chéng)實(shí)反應(yīng)通過調(diào)查獲取數(shù)據(jù)的基本方式是詢問,調(diào)查問卷是詢問的依據(jù),也是信息的載體.無論是面對(duì)面的調(diào)查,如入戶調(diào)查,還是非面對(duì)面的調(diào)查,如電話調(diào)查、網(wǎng)絡(luò)調(diào)查等,調(diào)查問卷都是必需的.問卷設(shè)計(jì)十分重要,好的問卷是收集高質(zhì)量數(shù)據(jù)的基礎(chǔ).在統(tǒng)計(jì)調(diào)查中,問卷的設(shè)計(jì)是一門很大的學(xué)問.例如,調(diào)查問題的措辭會(huì)對(duì)被調(diào)查者產(chǎn)生影響,舉例來說,在“你在多大程度上喜歡吸煙”和“你在多大程度上不喜歡吸煙”這兩種問法中,前者會(huì)比后者給出更為肯定的答案.再如,問題在問卷中的位置也會(huì)對(duì)調(diào)查者產(chǎn)生影響.一般地,比較容易的、不涉及個(gè)人的問題應(yīng)當(dāng)排在比較靠前的位置,較難的、涉及個(gè)人的問題應(yīng)排得比較靠后,等等.對(duì)一些敏感性問題,例如學(xué)生在考試中有無作弊、某人是否偷稅漏稅等,更要精心設(shè)計(jì)問卷及調(diào)查方法,設(shè)法消除被調(diào)查者的顧慮,使他們能夠如實(shí)回答問題.否則,被調(diào)查者往往會(huì)拒絕回答,或不提供真實(shí)情況.下面我們用一個(gè)例子來說明對(duì)敏感性問題的調(diào)查方法.某地區(qū)的公共衛(wèi)生部門為了調(diào)查本地區(qū)中學(xué)生的吸煙情況,對(duì)隨機(jī)抽出的200名學(xué)生進(jìn)行了調(diào)查.調(diào)查中使用了兩個(gè)問題.問題1:你父親的公歷生日日期是不是奇數(shù)?問題2:你是否經(jīng)常吸煙?調(diào)查者設(shè)計(jì)了一個(gè)隨機(jī)化裝置,這是一個(gè)裝有大小、形狀和質(zhì)量完全一樣的50個(gè)白球和50個(gè)紅球的袋子.每個(gè)被調(diào)查者隨機(jī)從袋中摸取1個(gè)球(摸出的球再放回袋中),摸到白球的學(xué)生如實(shí)回答第一個(gè)問題,摸到紅球的學(xué)生如實(shí)回答第二個(gè)問題,回答“是”的人往一個(gè)盒子中放一個(gè)小石子,回答“否”的人什么都不要做.由于問題的答案只有“是”和“否”,而且回答的是哪個(gè)問題也是別人不知道的,因此被調(diào)查者可以毫無顧慮地給出符合實(shí)際情況的答案.如果在200人中,共有58人回答“是”,你能估計(jì)出這個(gè)地區(qū)吸煙的中學(xué)生所占的百分比嗎?由題意可知,每個(gè)學(xué)生從口袋中摸出1個(gè)白球或紅球的概率都是0.5,即我們期望大約有100人回答了第一個(gè)問題,另100人回答了第二個(gè)問題.在摸出白球的情況下,回答父親公歷生日日期是奇數(shù)的概率是186365≈0.51.因而在回答第一個(gè)問題的100人中,大約有51人回答了“是”.所以我們能推出,在回答第二個(gè)問題的100人中,大約有7人回答了“是”,即估計(jì)這個(gè)地區(qū)大約有這種方法是不是很巧妙?9.1.3獲取數(shù)據(jù)的途徑統(tǒng)計(jì)學(xué)是通過收集數(shù)據(jù)和分析數(shù)據(jù)來認(rèn)識(shí)末知現(xiàn)象的,因此如何收集數(shù)據(jù),是統(tǒng)計(jì)學(xué)研究的重要內(nèi)容.在實(shí)踐中,獲取數(shù)據(jù)的途徑多種多樣,像統(tǒng)計(jì)報(bào)表和年鑒、社會(huì)調(diào)查、普查和抽樣、互聯(lián)網(wǎng)、試驗(yàn)設(shè)計(jì)等等都是常見的.下面介紹獲取數(shù)據(jù)的一些基本途徑.1.通過調(diào)查獲取數(shù)據(jù)對(duì)于有限總體問題,如人口總數(shù)、城鄉(xiāng)就業(yè)狀況、農(nóng)村貧困人口脫貧狀況、生態(tài)環(huán)境改善狀況、青少年受教育狀況、高中生近視的比例、產(chǎn)品合格率、高中生日平均上網(wǎng)時(shí)間等問題,我們一般通過抽樣調(diào)查或普查的方法獲取數(shù)據(jù).針對(duì)不同問題的特點(diǎn),為了有效收集所需數(shù)據(jù),專家發(fā)明了各種不同的抽樣方法.除了我們已經(jīng)學(xué)過的簡(jiǎn)單隨機(jī)抽樣和分層隨機(jī)抽樣,還有系統(tǒng)抽樣、整群抽樣、不等概率抽樣、自適應(yīng)抽樣、兩階段抽樣等很多其他的方法.在實(shí)際應(yīng)用中,關(guān)鍵在于是否能充分有效地利用背景信息選擇或創(chuàng)建更好的抽樣方法,并有效避免抽樣過程中的人為錯(cuò)誤.在前面的學(xué)習(xí)中,我們對(duì)此有了一定的認(rèn)識(shí).2.通過試驗(yàn)獲取數(shù)據(jù)試驗(yàn)是獲取樣本觀測(cè)數(shù)據(jù)的另一種重要途徑.例如,要判斷研制的新藥是否有效、培育的小麥新品種是否具有更高的產(chǎn)量等情況,沒有現(xiàn)存的數(shù)據(jù)可以查詢,就需要通過對(duì)比試驗(yàn)的方法去獲取樣本觀測(cè)數(shù)據(jù).又如特種鋼、輪胎的配方和產(chǎn)品質(zhì)量等,也需要通過試驗(yàn)獲取樣本觀測(cè)數(shù)據(jù).通過試驗(yàn)獲取數(shù)據(jù)時(shí),我們需要嚴(yán)格控制試驗(yàn)環(huán)境,通過精心的設(shè)計(jì)安排試驗(yàn),以提高數(shù)據(jù)質(zhì)量,為獲得好的分析結(jié)果奠定基礎(chǔ).在統(tǒng)計(jì)學(xué)中,這種安排試驗(yàn)的學(xué)問叫做“試驗(yàn)設(shè)計(jì)”,感興趣的同學(xué)可以查閱試驗(yàn)設(shè)計(jì)教科書.3.通過觀察獲取數(shù)據(jù)在現(xiàn)實(shí)生活中,我們感興趣的很多自然現(xiàn)象都不能被人類所控制,如地震、降水、大氣污染、宇宙射線等.自然現(xiàn)象會(huì)隨著時(shí)間的變化而變化,不能用我們已經(jīng)學(xué)過的有限總體來刻畫,也就不能用抽樣的方法獲取觀測(cè)數(shù)據(jù);另一方面,由于自然現(xiàn)象不能被人為控制,也不能通過試驗(yàn)獲取觀測(cè)數(shù)據(jù).研究這類現(xiàn)象,只能通過長(zhǎng)久的持續(xù)觀察獲取數(shù)據(jù).對(duì)于各個(gè)不同的行業(yè),往往需要專業(yè)測(cè)量設(shè)備獲取觀測(cè)數(shù)據(jù).隨著科技水平的提高,專業(yè)測(cè)量設(shè)備的自動(dòng)化程度越來越高,通過觀測(cè)獲取和存儲(chǔ)數(shù)據(jù)的成本越來越低,這成為大數(shù)據(jù)產(chǎn)生的根源.一般地,通過觀察自然現(xiàn)象所獲取的數(shù)據(jù)性質(zhì)比較復(fù)雜,其中蘊(yùn)含著所觀察現(xiàn)象的本質(zhì)信息,這些信息十分寶貴,統(tǒng)計(jì)學(xué)理論和方法是挖掘這些信息的強(qiáng)有力的工具之一.4.通過查詢獲得數(shù)據(jù)我們感興趣的問題,可能有眾多專家研究過,他們?cè)谘芯恐兴占臉颖居^測(cè)數(shù)據(jù)可能存儲(chǔ)于學(xué)術(shù)論文、專著、新聞稿、公報(bào)或互聯(lián)網(wǎng)上.這些數(shù)據(jù)是寶貴的財(cái)富,我們可以收集前人的勞動(dòng)成果并加以利用,從而減少收集數(shù)據(jù)的成本.我們往往把這樣獲得的數(shù)據(jù)叫做二手?jǐn)?shù)據(jù).國(guó)家統(tǒng)計(jì)局是我國(guó)最主要的統(tǒng)計(jì)數(shù)據(jù)收集和發(fā)布的部門,調(diào)查統(tǒng)計(jì)的數(shù)據(jù)涉及經(jīng)濟(jì)、社會(huì)、民生的方方面面.國(guó)家統(tǒng)計(jì)局的統(tǒng)計(jì)數(shù)據(jù)通過多種形式進(jìn)行公布,例如定期發(fā)布新聞稿、舉辦新聞發(fā)布會(huì)、發(fā)布統(tǒng)計(jì)公報(bào)、出版各類統(tǒng)計(jì)資料等.統(tǒng)計(jì)公報(bào)有年度統(tǒng)計(jì)公報(bào)、經(jīng)濟(jì)普查公報(bào)、人口普查公報(bào)、農(nóng)業(yè)普查公報(bào)等;統(tǒng)計(jì)資料出版物有《中國(guó)統(tǒng)計(jì)摘要》、以《中國(guó)統(tǒng)計(jì)年鑒》為代表的統(tǒng)計(jì)年鑒系列等.例如,我們想了解2014年全國(guó)的交通事故情況,通過查找《中國(guó)統(tǒng)計(jì)年鑒》可以得到如表9.1-3所示的數(shù)據(jù).如果我們關(guān)心機(jī)動(dòng)車交通事故逐年變化的情況,那么需要通過查找每年的數(shù)據(jù)表,并把它們合并整理.表9.1-32014年全國(guó)交通事故情況類型發(fā)生數(shù)/起死亡人數(shù)/人受傷人數(shù)/人直接財(cái)產(chǎn)損失/萬元機(jī)動(dòng)車18032154944194887103386.0非機(jī)動(dòng)車141752311157372719.4行人乘車人2242124711671403.5其他74219134.1總計(jì)19681258523211882107543隨著信息技術(shù)的發(fā)展,通過互聯(lián)網(wǎng)獲取數(shù)據(jù)越來越成為獲取二手?jǐn)?shù)據(jù)的主要方式.例如,可以從國(guó)家統(tǒng)計(jì)局的官方網(wǎng)站查詢得到國(guó)家統(tǒng)計(jì)局公布的各種統(tǒng)計(jì)數(shù)據(jù).在網(wǎng)絡(luò)上,也有專門提供數(shù)據(jù)服務(wù)的公司,它們提供政府部門允許公開的各類數(shù)據(jù).當(dāng)然,互聯(lián)網(wǎng)的最大優(yōu)勢(shì)是,人們可以利用強(qiáng)大的搜索功能,在整個(gè)網(wǎng)絡(luò)上查找所需要的數(shù)據(jù).但從網(wǎng)絡(luò)上查找的數(shù)據(jù),因?yàn)閿?shù)據(jù)來歷和渠道多樣,所以質(zhì)量會(huì)參差不齊,必須根據(jù)問題背景知識(shí)“清洗”數(shù)據(jù),去偽存真,為進(jìn)一步的數(shù)據(jù)分析奠定基礎(chǔ).【練習(xí)】1.請(qǐng)從國(guó)家統(tǒng)計(jì)局網(wǎng)站上查找我國(guó)水資源及其使用情況的一些數(shù)據(jù),根據(jù)數(shù)據(jù)談?wù)劗?dāng)前保護(hù)水資源的重要性.2.近視是青少年存在的普遍問題,你能查找相關(guān)數(shù)據(jù),并利用數(shù)據(jù)說說近幾年我國(guó)在防治青少年近視上取得的成效嗎?習(xí)題9.1【復(fù)習(xí)鞏固】1.下列情況中哪些適合用全面調(diào)查,哪些適合用抽樣調(diào)查?說明理由.(1)了解某城市居民的食品消費(fèi)結(jié)構(gòu);(2)調(diào)查一個(gè)縣各村的糧食播種面積;(3)了解某地區(qū)小學(xué)生中患沙眼的人數(shù);(4)了解一批玉米種子的發(fā)芽率;(5)調(diào)查一條河流的水質(zhì);(6)某企業(yè)想了解其產(chǎn)品在市場(chǎng)的占有率.2.某刊物對(duì)其讀者進(jìn)行滿意度調(diào)查,調(diào)查表隨刊物送到讀者手中,對(duì)寄回的調(diào)查表進(jìn)行分析.這是不是一項(xiàng)抽樣調(diào)查?樣本抽取是不是屬于簡(jiǎn)單隨機(jī)抽樣?為什么?3.中央電視臺(tái)希望在春節(jié)聯(lián)歡晩會(huì)播出后一周內(nèi)獲得該節(jié)目的收視率.下面是三名同學(xué)為電視臺(tái)設(shè)計(jì)的調(diào)查方案.同學(xué)A:我把這張《春節(jié)聯(lián)歡晩會(huì)收視率調(diào)查表》放在互聯(lián)網(wǎng)上,只要上網(wǎng)登錄該網(wǎng)址的人就可以看到這張表,他們填表的信息可以很快地反饋到我的電腦中.這樣,我就可以很快統(tǒng)計(jì)出收視率了.同學(xué)B:我給我們居民小區(qū)的每一個(gè)住戶發(fā)一份是否在除夕晩上看過中央電視臺(tái)春節(jié)聯(lián)歡晩會(huì)的調(diào)查表,只要一兩天就可以統(tǒng)計(jì)出收視率.同學(xué)C:我在電話號(hào)碼本上隨機(jī)地選出一定數(shù)量的電話號(hào)碼,然后逐個(gè)給他們打電話,問一下他們是否收看了中央電視臺(tái)春節(jié)聯(lián)歡晩會(huì),我不出家門就可以統(tǒng)計(jì)出中央電視臺(tái)春節(jié)聯(lián)歡晩會(huì)的收視率.請(qǐng)問:上述三名同學(xué)設(shè)計(jì)的調(diào)查方案獲得比較準(zhǔn)確的收視率的可能性大嗎?為什么?4.下列從總體中抽得的樣本是否為簡(jiǎn)單隨機(jī)樣本?(1)總體編號(hào)為1~75,在0~99中產(chǎn)生隨機(jī)整數(shù)r.若r=0或r(2)總體編號(hào)為1~75,在0~99中產(chǎn)生隨機(jī)整數(shù)r,(3)總體編號(hào)為6001~6876,在1~876范圍內(nèi)產(chǎn)生一個(gè)隨機(jī)整數(shù)r,把r+60005.一支田徑隊(duì)有男運(yùn)動(dòng)員56人,女運(yùn)動(dòng)員42人,按性別進(jìn)行分層,用分層隨機(jī)抽樣的方法從全體運(yùn)動(dòng)員中抽出一個(gè)容量為28的樣本.如果樣本按比例分配,那么男、女運(yùn)動(dòng)員應(yīng)各抽取多少名?【綜合運(yùn)用】6.數(shù)據(jù)x1,x2,?,xn的平均數(shù)為x,數(shù)據(jù)y7.已知總體劃分為3層,通過分層隨機(jī)抽樣,得到各層的樣本平均數(shù)分別為x,y,z.(1)根據(jù)以上信息可以估計(jì)總體平均數(shù)嗎?如果不能,還需要什么條件?寫出估計(jì)式.(2)如果樣本量是按比例分配,第1,2,3層的個(gè)體數(shù)分別為L(zhǎng),L8.校學(xué)生會(huì)希望調(diào)查學(xué)生對(duì)本學(xué)期學(xué)生活動(dòng)計(jì)劃的意見.你自愿擔(dān)任調(diào)查員,并打算在學(xué)校里抽取10%的同學(xué)作為樣本.(1)怎樣安排抽樣,可以提高樣本的代表性?(2)在調(diào)查抽樣中你可能遇到哪些問題?(3)這些問題可能會(huì)影響什么?(4)你打算怎樣解決這些問題?9.一般來說,影響農(nóng)作物收成的因素有氣候、土質(zhì)、田間管理水平等.如果你是一個(gè)農(nóng)村調(diào)查隊(duì)成員,要在麥?zhǔn)占竟?jié)對(duì)你所在地區(qū)的小麥進(jìn)行估產(chǎn)調(diào)查,你將如何設(shè)計(jì)調(diào)查方案?【拓廣探索】10..如果調(diào)查目的是要確定被調(diào)查者的收人水平,請(qǐng)?jiān)O(shè)計(jì)一種提問方法.11..你可能想了解全校同學(xué)生活、學(xué)習(xí)中的一些情況,例如,全校同學(xué)比較喜歡哪門課程,每月的零花錢平均是多少,喜歡看《新聞聯(lián)播》的同學(xué)的比例是多少,每天大約什么時(shí)間起床,每天睡眠的平均時(shí)間是多少,等.選一些自己關(guān)心的問題,設(shè)計(jì)一份調(diào)查問卷,利用簡(jiǎn)單隨機(jī)抽樣方法調(diào)查你們學(xué)校同學(xué)的情況,并解釋你所得到的結(jié)論.12..查詢中央電視臺(tái)最近五年春節(jié)聯(lián)歡晩會(huì)的收視率,從中你能發(fā)現(xiàn)一些什么信息?查閱一些收視率調(diào)查所用的方法,在分析這些方法的合理性和不足的基礎(chǔ)上,請(qǐng)你自行設(shè)計(jì)一個(gè)調(diào)車收視率的方案.【信息技術(shù)應(yīng)用】統(tǒng)計(jì)軟件的應(yīng)用在統(tǒng)計(jì)中使用計(jì)算機(jī)技術(shù),不僅可以把人們從機(jī)械、煩瑣的數(shù)據(jù)整理、計(jì)算中解放出來,極大提高工作效率,而且能使大量人工難以完成的數(shù)據(jù)處理變成可能,從而促進(jìn)統(tǒng)計(jì)學(xué)的發(fā)展.現(xiàn)在,用統(tǒng)計(jì)軟件處理數(shù)據(jù)已成為統(tǒng)計(jì)學(xué)的組成部分.為了滿足不同需求,人們開發(fā)了功能各異的統(tǒng)計(jì)軟件.有些是專門的統(tǒng)計(jì)軟件,統(tǒng)計(jì)功能比較全面,如R,SAS,SPSS,S-Plus,Stata等;有些是有一定統(tǒng)計(jì)功能的軟件,如MicrosoftExcel,MATLAB,GeoGebra,《網(wǎng)絡(luò)畫板》等.通常,統(tǒng)計(jì)軟件的功能包括對(duì)數(shù)據(jù)進(jìn)行管理和組織,將數(shù)據(jù)轉(zhuǎn)化為可視化的圖表,對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)計(jì)算和分析等.下面以電子表格軟件和R軟件為例,介紹統(tǒng)計(jì)軟件在統(tǒng)計(jì)分析中的應(yīng)用.一、電子表格軟件的簡(jiǎn)單統(tǒng)計(jì)功能(一)產(chǎn)生隨機(jī)數(shù)1.用RAND()函數(shù)產(chǎn)生區(qū)間[0,1]內(nèi)的隨機(jī)數(shù)打開電子表格軟件,在單元格A1中輸入“=RAND()",按回車鍵,即可產(chǎn)生區(qū)間[0,1]內(nèi)的一個(gè)隨機(jī)數(shù).將鼠標(biāo)放在A1單元格的右下角,待鼠標(biāo)變?yōu)椤?"時(shí),拖動(dòng)A1單元格到A100,就可產(chǎn)生區(qū)間[0,1]內(nèi)的100個(gè)隨機(jī)數(shù).2.用RANDBETWEEN(a,b)函數(shù)產(chǎn)生區(qū)間[a例如,要產(chǎn)生區(qū)間[1,712]內(nèi)的一個(gè)整數(shù)隨機(jī)數(shù),只要在單元格中輸入“=RANDBETWEEN(1,712)”,按回車鍵即可.(二)隨機(jī)抽樣用軟件的數(shù)據(jù)分析工具,可以實(shí)現(xiàn)有放回簡(jiǎn)單隨機(jī)抽樣.例如,從一組數(shù)據(jù)中有放回抽取容量為20的樣本,輸入數(shù)據(jù)后,在菜單欄中依次選擇“數(shù)據(jù)”“數(shù)據(jù)分析”-“抽樣”,點(diǎn)擊“確認(rèn)”按鈕,在彈出的對(duì)話框中把被抽樣的總體數(shù)據(jù)置于“輸入?yún)^(qū)域”中,在“抽樣方法”中選擇“隨機(jī)”,并輸入要抽取的樣本量“20”,設(shè)置“輸出選項(xiàng)”后,單擊“確定”即可.若“數(shù)據(jù)”菜單中沒有“數(shù)據(jù)分析”選項(xiàng),則在“文件”菜單中依次點(diǎn)擊“選項(xiàng)”-“加載項(xiàng)”—“轉(zhuǎn)到”,在“可用加載宏”中選中“分析工具庫(kù)”和“分析工具庫(kù)-VBA",單擊“確定”即可把“數(shù)據(jù)分析”加載到菜單欄中.(三)統(tǒng)計(jì)量的計(jì)算在電子表格軟件的函數(shù)庫(kù)中,有一類統(tǒng)計(jì)函數(shù)提供了計(jì)算常用統(tǒng)計(jì)量的各種函數(shù),如AVERAGE()(平均數(shù)),MEDIAN()(中位數(shù)),MODE()(眾數(shù)),VAR.P()(方差),STDEV.P()(標(biāo)準(zhǔn)差),PERCENTILE.INC()(百分位數(shù)),等.可以直接輸入函數(shù)名稱進(jìn)行調(diào)用,也可以通過“揷入函數(shù)”的方式選擇調(diào)用.例如,求單元格A2到A101所有數(shù)據(jù)的平均數(shù),可以選一空白單元格,輸入“=AVERAGE(A2:A101)",或者在菜單欄中依次選擇“公式”-“函數(shù)庫(kù)”一一揷入函數(shù)”,調(diào)出函數(shù)“AVERAGE",再設(shè)置求平均數(shù)的單元格范圍.其他函數(shù)調(diào)用的操作過程類似,只是不同函數(shù)的參數(shù)設(shè)置有所不同,可以根據(jù)函數(shù)的說明進(jìn)行恰當(dāng)設(shè)置.二、R軟件的簡(jiǎn)單統(tǒng)計(jì)功能R軟件是一款免費(fèi)軟件,可在其官方網(wǎng)站下載.它通過命令形式進(jìn)行操作.(一)產(chǎn)生隨機(jī)數(shù)1.用runif()函數(shù)產(chǎn)生區(qū)間[0,1]內(nèi)的隨機(jī)數(shù)例如,要產(chǎn)生100個(gè)區(qū)間[0,1]內(nèi)的隨機(jī)數(shù),在命令窗口中輸入"runif(100)"即可(圖1).2.用sample()函數(shù)產(chǎn)生區(qū)間[a例如,在命令窗口中輸入"sample(1:712,100,T)”,就產(chǎn)生了100個(gè)區(qū)間[1,712]內(nèi)的可重復(fù)的整數(shù)隨機(jī)數(shù).如果希望隨機(jī)數(shù)不可重復(fù),只要把圖1sample函數(shù)中的參數(shù)T改為F即可.(二)用sample()函數(shù)實(shí)現(xiàn)隨機(jī)抽樣例如,從一組數(shù)據(jù)1,2,3,3,4,4,5,6中,抽取一個(gè)容量為5的樣本.如果是有放回的抽取,在命令窗口中輸入x←c(1,2,3,3,4,4,5,6)如果是不放回的抽取,只要把sample函數(shù)中的參數(shù)T改為F即可.(三)統(tǒng)計(jì)量的計(jì)算在R軟件的命令窗口中,先將數(shù)據(jù)以向量形式輸入到R軟件中,再根據(jù)統(tǒng)計(jì)量調(diào)用相應(yīng)的函數(shù)求值,如mean()(平均數(shù)),median()(中位數(shù)),var()(方差),sd()(標(biāo)準(zhǔn)差),quantile()(分位數(shù))等.例如,求數(shù)據(jù)6,4,2,4,5的平均數(shù).在命令窗口輸入x←c(6,4,2,4,5)不同函數(shù)的參數(shù)設(shè)置可以查看軟件提供的幫助文檔.關(guān)于方差、標(biāo)準(zhǔn)差、分位數(shù)等統(tǒng)計(jì)量的含義,本章后續(xù)即有介紹.9.2用樣本估計(jì)總體收集數(shù)據(jù)是為了尋找數(shù)據(jù)中蘊(yùn)含的信息.因?yàn)閷?shí)際問題中數(shù)據(jù)多而且雜亂,往往無法直接從原始數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,所以需要根據(jù)問題的背景特點(diǎn),選擇合適的統(tǒng)計(jì)圖表對(duì)數(shù)據(jù)進(jìn)行整理和直觀描述.在此基礎(chǔ)上,通過數(shù)據(jù)分析,找出數(shù)據(jù)中蘊(yùn)含的信息,就可以用這些信息來解決實(shí)際問題了.下面我們討論對(duì)隨機(jī)抽樣獲取的數(shù)據(jù)的處理方法.9.2.1總體取值規(guī)律的估計(jì)面對(duì)一個(gè)統(tǒng)計(jì)問題,在隨機(jī)抽樣獲得觀測(cè)數(shù)據(jù)的基礎(chǔ)上,需要根據(jù)數(shù)據(jù)分析的需要,選擇適當(dāng)?shù)慕y(tǒng)計(jì)圖表描述和表示數(shù)據(jù),獲得樣本的規(guī)律,并利用樣本的規(guī)律估計(jì)總體的規(guī)律,解決相應(yīng)的實(shí)際問題.請(qǐng)看下面的問題.問題1我國(guó)是世界上嚴(yán)重缺水的國(guó)家之一,城市缺水問題較為突出.某市政府為了減少水資源的浪費(fèi),計(jì)劃對(duì)居民生活用水費(fèi)用實(shí)施階梯式水價(jià)制度,即確定一戶居民月均用水量標(biāo)準(zhǔn)a,用水量不超過a的部分按平價(jià)收費(fèi),超出a的部分按議價(jià)收費(fèi).如果希望確定一個(gè)比較合理的標(biāo)準(zhǔn),以使大部分居民用戶的水費(fèi)支出不受影響,你認(rèn)為需要做哪些工作?每戶居民月均用水量標(biāo)準(zhǔn)如果定得太低,會(huì)影響很多居民的日常生活;如果標(biāo)準(zhǔn)太高,則不利于節(jié)水.為了確定一個(gè)較為合理的用水標(biāo)準(zhǔn),必須先了解在全市所有居民用戶中,月用水量在不同范圍內(nèi)的居民用戶所占的比例情況.如果經(jīng)費(fèi)、時(shí)間等條件允許,我們可以通過全面調(diào)查獲得過去一年全市所有居民用戶的月均用水量數(shù)據(jù),進(jìn)而得到月均用水量在不同范圍內(nèi)的居民用戶所占的比例.由于全市居民用戶很多,通常采用抽樣調(diào)查的方式,通過分析樣本觀測(cè)數(shù)據(jù),來估計(jì)全市居民用戶月均用水量的分布情況.在這個(gè)問題中,總體是該市的全體居民用戶,個(gè)體是每戶居民用戶,調(diào)查的變量是居民用戶的月均用水量.假設(shè)通過簡(jiǎn)單隨機(jī)抽樣,獲得了100戶居民用戶的月均用水量數(shù)據(jù)(單位:t):9.013.6.14.9.5.9.4.0.7.16.45.4.19.4.2.02.2.8.6.13.85.4.10.24.96.814.0.2.0.10.52.1.5.7.5.1.16.8.6.0.11.1.1.3.11.2.7.7.4.92.3.10.0.16.7.12.0.12.4.7.8.5.2.13.6.2.6.22.43.6.7.1.8.8.25.6.3.2.18.3.5.1.2.0.3.0.12.022.2.10.8.5.5.2.0.24.3.9.9.3.6.5.6.4.4.7.95.124.5.6.4.7.5.4.7.20.5.5.5.15.7.2.6.5.75.56.0.16.02.4.9.5.3.7.17.0.3.8.4.1.2.35.3.7.8.8.1.4.3.13.36.8.1.3.7.0.4.9.1.87.1.28.0.10.2.13.8.17.9.10.1.5.5.4.6.3.2.21.6從這組數(shù)據(jù)我們能發(fā)現(xiàn)什么信息呢?如果將這組數(shù)據(jù)從小到大排序,容易發(fā)現(xiàn),這組數(shù)據(jù)的最小值是1.3t,最大值是28.0t,其他在1.3t至28.0t之間.為了更深人地挖掘數(shù)據(jù)蘊(yùn)含的信息,需要對(duì)數(shù)據(jù)作進(jìn)一步的整理與分析.為了探索一組數(shù)據(jù)的取值規(guī)律,一般先要用表格對(duì)數(shù)據(jù)進(jìn)行整理,或者用圖將數(shù)據(jù)直觀表示出來.在初中,我們?cè)妙l數(shù)分布表和頻數(shù)分布圖來整理和表示這種數(shù)值型數(shù)據(jù),由此能使我們清楚地知道數(shù)據(jù)分布在各個(gè)小組的個(gè)數(shù).在這個(gè)實(shí)際問題中,因?yàn)槲覀兏P(guān)心月均用水量在不同范圍內(nèi)的居民用戶占全市居民用戶的比例,所以選擇頻率分布表(frequencydistributiontable)和頻率分布直方圖(frequencydistributionhistogram)來整理和表示數(shù)據(jù).與畫頻數(shù)分布直方圖類似,我們可以按以下步驟制作頻率分布表、畫頻率分布直方圖.【貼示】用表格整理數(shù)據(jù)是通過改變數(shù)據(jù)的組織方式,為數(shù)據(jù)的解釋提供新方式.用圖表示數(shù)據(jù)不僅有利于從數(shù)據(jù)中提取信息,還可以利用圖形傳遞信息.1.求極差極差為一組數(shù)據(jù)中最大值與最小值的差.樣本觀測(cè)數(shù)據(jù)的最小值是1.3t,最大值是28.0t,極差為28.這說明樣本觀測(cè)數(shù)據(jù)的變化范圍是26.7t.2.決定組距與組數(shù)合適的組距與組數(shù)對(duì)發(fā)現(xiàn)數(shù)據(jù)分布規(guī)律有重要意義.組數(shù)太多或太少,都會(huì)影響我們了解數(shù)據(jù)的分布情況.組距與組數(shù)的確定沒有固定的標(biāo)準(zhǔn),常常需要一個(gè)嘗試和選擇的過程.數(shù)據(jù)分組的組數(shù)與數(shù)據(jù)的個(gè)數(shù)有關(guān),一般數(shù)據(jù)的個(gè)數(shù)越多,所分組數(shù)也越多.當(dāng)樣本容量不超過100時(shí),常分成5~12組.為方便起見,一般取等長(zhǎng)組距,并且組距應(yīng)力求“取整”.分組時(shí)可以先確定組距,也可以先確定組數(shù).如果我們?nèi)∷薪M距為3,則極差組距【貼示】數(shù)據(jù)分組可以是等距的,也可以是不等距的,要根據(jù)數(shù)據(jù)的特點(diǎn)而定.有時(shí)為了方便,往往按等距分組,或者除了第一和最后的兩段,其他各段按等距分組.3.將數(shù)據(jù)分組由于組距為3,9個(gè)組距的長(zhǎng)度超過極差,我們可以使第一組的左端點(diǎn)略小于數(shù)據(jù)中的最小值,最后一組的右端點(diǎn)略大于數(shù)據(jù)中的最大值.例如,可以取區(qū)間為[1.2,28.2],按如下方式把樣本觀測(cè)數(shù)據(jù)以組距3分為9組:[1.2,4.2),[4.2,7.2),?,[25.2,28.2]4.列頻率分布表計(jì)算各小組的頻率,例如第一小組的頻率是第一組頻數(shù)作出頻率分布表(表9.2-1).表9.2-15.畫頻率分布直方圖根據(jù)表9.2-1可以得到如圖9.2-1所示的頻率分布直方圖.在圖9.2-1中,橫軸表示月均用水量,縱軸表示頻率組距.這里,頻率組距小長(zhǎng)方形的面積【邊空思考】頻率分布直方圖與頻數(shù)分布直方圖有什么區(qū)別?所以各小長(zhǎng)方形的面積表示相應(yīng)各組的頻率.這樣,頻率分布直方圖就以面積的形式反映了數(shù)據(jù)落在各個(gè)小組的頻率的大小.容易知道,在頻率分布直方圖中,各小長(zhǎng)方形的面積的總和等于1,即樣本數(shù)據(jù)落在整個(gè)區(qū)間的頻率為1.【貼示】利用統(tǒng)計(jì)軟件,可以快速、準(zhǔn)確地畫出頻率分布直方圖,頻率分布直方圖把樣本數(shù)據(jù)落在各小組的比例大小直觀化,更有利于我們從整體上把握數(shù)據(jù)分布的特點(diǎn).圖9.2-1【觀察】觀察表9.2-1和圖9.2-1,你覺得這組數(shù)據(jù)中蘊(yùn)含了哪些有用的信息?你能從圖表中發(fā)現(xiàn)居民用戶月均用水量的哪些分布規(guī)律?你能給出適當(dāng)?shù)恼Z言描述嗎?從頻率分布表9.2-1可以清楚地看出,樣本觀測(cè)數(shù)據(jù)落在各個(gè)小組的比例大小.例如,月均用水量在區(qū)間[4.2,7.2)內(nèi)的居民用戶最多,在區(qū)間[1.2,4.2)內(nèi)的次之,而月均用水量超過16.2的各區(qū)間內(nèi)數(shù)據(jù)所占比例較小,等等.從頻率分布直方圖9.2-1容易看出,居民用戶月均用水量的樣本觀測(cè)數(shù)據(jù)的分布是不對(duì)稱的,圖形的左邊高、右邊低,右邊有一個(gè)較長(zhǎng)的“尾巴”.這表明大部分居民用戶的月均用水量集中在一個(gè)較低值區(qū)域,尤其在區(qū)間[1.2,7.2)最為集中,少數(shù)居民用戶的月均用水量偏多,而且隨著月均用水量的增加,居民用戶數(shù)呈現(xiàn)降低趨勢(shì).有了樣本觀測(cè)數(shù)據(jù)的頻率分布,我們可以用它估計(jì)總體的取值規(guī)律.根據(jù)100戶居民用戶的月均用水量的頻率分布,可以推測(cè)該市全體居民用戶月均用水量也會(huì)有類似的分布,即大部分居民用戶月均用水量集中在較低值區(qū)域.這使我們確定用水量標(biāo)準(zhǔn)時(shí),可以定一個(gè)合適的值,以達(dá)到既不影響大多數(shù)居民用戶的水費(fèi)支出,又能節(jié)水的目的.需要注意的是,由于樣本的隨機(jī)性,這種估計(jì)可能會(huì)存在一定誤差,但這一誤差一般不會(huì)影響我們對(duì)總體分布情況的大致了解.【探究】分別以3和27為組數(shù),對(duì)數(shù)據(jù)進(jìn)行等距分組,畫出100戶居民用戶月均用水量的頻率分布直方圖(圖9.2-2).觀察圖形,你發(fā)現(xiàn)不同的組數(shù)對(duì)于直方圖呈現(xiàn)數(shù)據(jù)分布規(guī)律有什么影響?(1)"組數(shù)為3"(2)“組數(shù)為27"圖9.2-2從圖9.2-2中可以看出,同一組數(shù)據(jù),組數(shù)不同,得到的直方圖形狀也不盡相同.圖9.2-2(1)中直方圖的組數(shù)少、組距大,從圖中容易看出,數(shù)據(jù)分布的整體規(guī)律是隨著月均用水量的增加,居民用戶數(shù)的頻率在降低,而且月均用水量在區(qū)間[1.2,10.2)內(nèi)的居民用戶數(shù)的頻率,遠(yuǎn)大于在另兩個(gè)區(qū)問[10.2,19.2)和[19.2,28.2]內(nèi)的頻率,這說明大部分居民用戶的月均用水量都少于10.2t.圖9.2-2(2)中直方圖的組數(shù)多、組距小,從圖中可以看出,數(shù)據(jù)主要集中在低值區(qū),尤其在區(qū)間[5.2,6.2)內(nèi)最為集中.從總體上看,隨著月均用水量的增加,居民用戶數(shù)的頻率呈現(xiàn)下降趨勢(shì),但存在個(gè)別區(qū)間頻率變大或者缺失的現(xiàn)象.從上述分析可見,當(dāng)頻率分布直方圖的組數(shù)少、組距大時(shí),容易從中看出數(shù)據(jù)整體的分布特點(diǎn),但由于無法看出每組內(nèi)的數(shù)據(jù)分布情況,損失了較多的原始數(shù)據(jù)信息;當(dāng)頻率分布直方圖的組數(shù)多、組距小時(shí),保留了較多的原始數(shù)據(jù)信息,但由于小長(zhǎng)方形較多,有時(shí)圖形會(huì)變得非常不規(guī)則,不容易從中看出總體數(shù)據(jù)的分布特點(diǎn).這里我們?cè)俅沃赋?對(duì)于同一組數(shù)據(jù),因?yàn)榻M距、組數(shù)不同而得到不同形狀的直方圖,會(huì)給人以不同的頻率分布印象,這種印象有時(shí)會(huì)影響人們對(duì)總體的判斷.因此,我們要注意積累數(shù)據(jù)分組、合理使用圖表的經(jīng)驗(yàn).【練習(xí)】1.從某小區(qū)抽取100戶居民用戶進(jìn)行月用電量調(diào)查,發(fā)現(xiàn)他們的用電量都在50~350kW?h之間,進(jìn)行適當(dāng)分組后(每組為左閉右開的區(qū)間),畫出頻率分布直方圖如圖所示.(1)直方圖中x的值為(2)在被調(diào)查的用戶中,用電量落在區(qū)間[100,2.如圖,胡曉統(tǒng)計(jì)了他爸爸9月的手機(jī)通話明細(xì)清單,發(fā)現(xiàn)他爸爸該月共通話60次.胡曉按每次通話時(shí)間長(zhǎng)短進(jìn)行分組(每組為左閉右開的區(qū)間),畫出了頻率分布直方圖.(第2題)(1)通話時(shí)長(zhǎng)在區(qū)間[15,20),[20,30)內(nèi)的次數(shù)分別為多少?(2)區(qū)間[203.請(qǐng)班上每位同學(xué)估計(jì)一下自己平均每天的課外學(xué)習(xí)時(shí)間(單位:min),然后統(tǒng)計(jì)數(shù)據(jù),作出全班同學(xué)課外學(xué)習(xí)時(shí)間的頻率分布直方圖.能否由這個(gè)頻率分布直方圖估計(jì)出你們學(xué)校全體學(xué)生課外學(xué)習(xí)時(shí)間的分布情況?可以用它來估計(jì)你所在地區(qū)(城市、鄉(xiāng)鎮(zhèn)或村莊)全體學(xué)生課外學(xué)習(xí)時(shí)間的分布情況嗎?為什么?除頻率分布直方圖外,我們?cè)诔踔羞€學(xué)習(xí)過條形圖、扇形圖、折線圖、頻數(shù)分布直方圖等.不同的統(tǒng)計(jì)圖在表示數(shù)據(jù)上有不同的特點(diǎn).例如,扇形圖主要用于直觀描述各類數(shù)據(jù)占總數(shù)的比例,條形圖和直方圖主要用于直觀描述不同類別或分組數(shù)據(jù)的頻數(shù)和頻率,折線圖主要用于描述數(shù)據(jù)隨時(shí)間的變化趨勢(shì).不同的統(tǒng)計(jì)圖適用的數(shù)據(jù)類型也不同.例如,條形圖適用于描述離散型的數(shù)據(jù),直方圖適用描述連續(xù)型數(shù)據(jù)等.因此,在解決問題的過程中,要根據(jù)實(shí)際問題的特點(diǎn),選擇恰當(dāng)?shù)慕y(tǒng)計(jì)圖對(duì)數(shù)據(jù)進(jìn)行可視化描述,以使我們能通過圖形直觀地發(fā)現(xiàn)樣本數(shù)據(jù)的分布情況,進(jìn)而估計(jì)總體的分布規(guī)律.例1已知某市2015年全年空氣質(zhì)量等級(jí)如表9.2-2所示.表9.2-2空氣質(zhì)量等級(jí)(空氣質(zhì)量指數(shù)(AQI)頻數(shù)頻率優(yōu)(AQI?50)8322.8%良(5012133.2%輕度污染(1006818.6%中度污染(1504913.4%重度污染(200308.2%嚴(yán)重污染(AQI143.8%合計(jì)365100%2016年5月和6月的空氣質(zhì)量指數(shù)如下:5月選擇合適的統(tǒng)計(jì)圖描述數(shù)據(jù),并回答下列問題:(1)分析該市2016年6月的空氣質(zhì)量情況.(2)比較該市2016年5月和6月的空氣質(zhì)量,哪個(gè)月的空氣質(zhì)量較好?(3)比較該市2016年6月與該市2015年全年的空氣質(zhì)量,2016年6月的空氣質(zhì)量是否好于去年?解:(1)根據(jù)該市2016年6月的空氣質(zhì)量指數(shù)和空氣質(zhì)量等級(jí)分級(jí)標(biāo)準(zhǔn),可以畫出該市這個(gè)月的不同空氣質(zhì)量等級(jí)的頻數(shù)與頻率分布表(表9.2-3).表9.2-3空氣質(zhì)量等級(jí)優(yōu)良.輕度污染中度污染重度污染嚴(yán)重污染合計(jì)天數(shù)415920030比例13.33%50%30%6.67%00100%從表中可以看出,“優(yōu)”“良”的天數(shù)達(dá)19天,占了整月的63.33%,沒有出現(xiàn)“重度污染”和“嚴(yán)重污染”.我們可以用條形圖和扇形圖對(duì)數(shù)據(jù)作出直觀的描述,如圖9.2-3和圖9.2-4.從條形圖中可以看出,在前三個(gè)等級(jí)的占絕大多數(shù),空氣質(zhì)量等級(jí)為“良”的天數(shù)最多,后三個(gè)等級(jí)的天數(shù)很少.從扇形圖中可以看出,空氣質(zhì)量為“良”的天數(shù)占了總天數(shù)的一半,大約有三分之二為“優(yōu)”“良”,大多數(shù)是“良”和“輕度污染”.因此,整體上6月的空氣質(zhì)量不錯(cuò).圖9.2-3圖9.2-4我們還可以用折線圖展示空氣質(zhì)量指數(shù)隨時(shí)間的變化情況,如圖9.2-5.容易發(fā)現(xiàn),6月的空氣質(zhì)量指數(shù)在100附近波動(dòng).圖9.2-5(2)根據(jù)該市2016年5月的空氣質(zhì)量指數(shù)和空氣質(zhì)量分級(jí)標(biāo)準(zhǔn),可以畫出該市這個(gè)月的不同空氣質(zhì)量等級(jí)的頻數(shù)和頻率分布表(表9.2-4).表9.2-4空氣質(zhì)量等級(jí)優(yōu)良輕度污染中度污染重度污染嚴(yán)重污染合計(jì)天數(shù)321511031頻率10%68%16%3%3%0100%為了便于比較,我們選用復(fù)合條形圖,將兩組數(shù)據(jù)同時(shí)反映到一個(gè)條形圖上.通過條形圖中柱的高低,可以更直觀地進(jìn)行兩個(gè)月的空氣質(zhì)量的比較(圖9.2-6).圖9.2-6由表9.2-4和圖9.2-6可以發(fā)現(xiàn),5月空氣質(zhì)量為“優(yōu)”和“良”的總天數(shù)比6月多.所以,從整體上看,5月的空氣質(zhì)量略好于6月,但5月有重度污染,而6月沒有.(3)把2016年6月和2015年全年的空氣質(zhì)量進(jìn)行比較,由于一個(gè)月和一年的天數(shù)差別很大,所以直接通過頻數(shù)比較沒有意義,應(yīng)該轉(zhuǎn)化成頻率分布進(jìn)行比較.可以通過二者的空氣質(zhì)量指數(shù)的頻率分布直方圖或空氣質(zhì)量等級(jí)的頻率分布條形圖進(jìn)行比較(圖9.2-7).圖9.2-7通過圖9.2-7可以看出,雖然2016年6月的空氣質(zhì)量為“優(yōu)”的頻率略低于2015年,但“良”的頻率明顯高于2015年,而且2016年6月中度以上的污染天氣頻率明顯小由此,你能得出?2016年的空氣質(zhì)量比2015年明顯改善了”的結(jié)論嗎?為什么?于2015年.所以從整體上看,2016年6月的空氣質(zhì)量要好于2015年全年的空氣質(zhì)量.練習(xí)1.某市2016年6月30天的空氣質(zhì)量指數(shù)如下:35你覺得這個(gè)月的空氣質(zhì)量如何?請(qǐng)?jiān)O(shè)計(jì)適當(dāng)?shù)念l率分布直方圖展示這組數(shù)據(jù),并結(jié)合空氣質(zhì)量分級(jí)標(biāo)準(zhǔn)分析數(shù)據(jù).2.統(tǒng)計(jì)你們班所有同學(xué)的鞋號(hào),選擇合適的統(tǒng)計(jì)圖進(jìn)行描述,并分析鞋號(hào)的分布有什么特點(diǎn).能用你們班同學(xué)鞋號(hào)的分布估計(jì)你所在學(xué)校全體高中學(xué)生鞋號(hào)的分布嗎?估計(jì)全國(guó)高中學(xué)生的鞋號(hào)分布呢?9.2.2總體百分位數(shù)的估計(jì)前面我們用頻率分布表、頻率分布直方圖描述了居民用戶月均用水量的樣本數(shù)據(jù),通過對(duì)圖表的觀察與分析,得出了一些樣本數(shù)據(jù)的頻率分布規(guī)律,并由此推測(cè)了該市全體居民用戶月均用水量的分布情況,得出了“大部分居民用戶的月均用水量集中在一個(gè)較低值區(qū)域”等推斷.接下來的問題是,如何利用這些信息,為政府決策服務(wù)呢?下面我們對(duì)此進(jìn)行討論.問題2如果該市政府希望使80%的居民用戶生活用水費(fèi)支出不受影響,根據(jù)9.2.1節(jié)中100戶居民用戶的月均用水量數(shù)據(jù),你能給市政府提出確定居民用戶月均用水量標(biāo)準(zhǔn)的建議嗎?首先要明確一下問題:根據(jù)市政府的要求確定居民用戶月均用水量標(biāo)準(zhǔn),就是要尋找一個(gè)數(shù)a,使全市居民用戶月均用水量中不超過a的占80%,大于a的占20%.下面我們通過樣本數(shù)據(jù)對(duì)a的值進(jìn)行估計(jì).把100個(gè)樣本數(shù)據(jù)按從小到大排序,得到第80個(gè)和第81個(gè)數(shù)據(jù)分別為13.6和13.8.可以發(fā)現(xiàn),區(qū)間(13.6,13.8)內(nèi)的任意一個(gè)數(shù),都能把樣本數(shù)據(jù)分成符合要求的兩部分.一般地,我們?nèi)∵@兩個(gè)數(shù)的平均數(shù)13.6+13.82=13.7,并稱此數(shù)為這組數(shù)據(jù)的第80百分位數(shù)(percentile),或根據(jù)樣本數(shù)據(jù)的第80百分位數(shù),我們可以估計(jì)總體數(shù)值近似為第80百分位數(shù)即可,因此為了實(shí)際中操作的方便,可以建議市政府把月均用水量標(biāo)準(zhǔn)定為14t,或者把年用水量標(biāo)準(zhǔn)定為168t.【邊空思考】你所在的地區(qū)是采用階梯水價(jià)嗎?標(biāo)準(zhǔn)是多少?【邊空思考】你認(rèn)為14t這個(gè)標(biāo)準(zhǔn)一定能夠保證80%的居民用水不超標(biāo)嗎?如果不一定,那么哪些環(huán)節(jié)可能會(huì)導(dǎo)致結(jié)論的差別?一般地,一組數(shù)據(jù)的第p百分位數(shù)是這樣一個(gè)值,它使得這組數(shù)據(jù)中至少有p%的數(shù)據(jù)小于或等于這個(gè)值,且至少有(100-可以通過下面的步驟計(jì)算一組n個(gè)數(shù)據(jù)的第p百分位數(shù):第1步,按從小到大排列原始數(shù)據(jù).第2步,計(jì)算i=第3步,若i不是整數(shù),而大于i的比鄰整數(shù)為j,則第p百分位數(shù)為第j項(xiàng)數(shù)據(jù);若i是整數(shù),則第p百分位數(shù)為第i項(xiàng)與第(i【貼示】分位數(shù)的定義眾多,我們?nèi)∫环N簡(jiǎn)單便于計(jì)算的我們?cè)诔踔袑W(xué)過的中位數(shù),相當(dāng)于是第50百分位數(shù).在實(shí)際應(yīng)用中,除了中位數(shù)外,常用的分位數(shù)還有第25百分位數(shù),第75百分位數(shù).這三個(gè)分位數(shù)把一組由小到大排列后的數(shù)據(jù)分成四等份,因此稱為四分位數(shù).其中第25百分位數(shù)也稱為第一四分位數(shù)或下四分位數(shù)等,第75百分位數(shù)也稱為第三四分位數(shù)或上四分位數(shù)等.另外,像第1百分位數(shù),第5百分位數(shù),第95百分位數(shù)和第99百分位數(shù)在統(tǒng)計(jì)中也經(jīng)常被使用.例2根據(jù)9.1.2節(jié)問題3中女生的樣本數(shù)據(jù),估計(jì)樹人中學(xué)高一年級(jí)女生的第25,50,75百分位數(shù).解:把27名女生的樣本數(shù)據(jù)按從小到大排序,可得148.0由25%×27=6.75,50%×27=13.5,75%×27=20.25,可知樣本數(shù)據(jù)的第25,50,75百分位數(shù)為第7,14,21項(xiàng)數(shù)據(jù),分別為155.5,161,164.據(jù)此可以估計(jì)樹人中學(xué)高一年級(jí)女生的第25,50,75百分位數(shù)分別約為155.5,161和164.【貼示】由于女生的樣本量比較小,所以這里對(duì)總體的估計(jì)可能會(huì)存在比較大的誤差.例3根據(jù)表9.2-1或圖9.2-1,估計(jì)月均用水量的樣本數(shù)據(jù)的80%和95%分位數(shù).分析:在某些情況下,我們只能獲得整理好的統(tǒng)計(jì)表或統(tǒng)計(jì)圖,與原始數(shù)據(jù)相比,它們損失了一些信息.例如由表9.2-1,我們知道在[16.2,19.2)內(nèi)有5個(gè)數(shù)據(jù),但不知道這5個(gè)數(shù)據(jù)具體是多少.此時(shí),我們通常把它們看成均勻地分布在此區(qū)間上.解:由表9.2-1可知,月均用水量在13.2t以下的居民用戶所占比例為23%+32%+13%+9%=77%在16.2t以下的居民用戶所占的比例為77%+9%=86%因此,80%分位數(shù)一定位于[13.2,16.2)內(nèi).由13.可以估計(jì)月均用水量的樣本數(shù)據(jù)的80%分位數(shù)約為14.2.類似地,由22.2+3×可以估計(jì)月均用水量的樣本數(shù)據(jù)的95%分位數(shù)約為22.95.【練習(xí)】1.在居民用戶月均用水量標(biāo)準(zhǔn)制定的問題中,根據(jù)教科書中的調(diào)查數(shù)據(jù),如果要讓60%的居民不超出標(biāo)準(zhǔn),居民用戶月均用水量標(biāo)準(zhǔn)定為多少合適?2.根據(jù)9.1.2節(jié)問題3中男生的樣本數(shù)據(jù),請(qǐng)你估計(jì)樹人中學(xué)高一年級(jí)男生的第25,50,75百分位數(shù).如果要減少估計(jì)的誤差,你覺得應(yīng)該怎么做?3.分別根據(jù)圖9.2-2(1)(2)中的數(shù)據(jù),估計(jì)這組數(shù)據(jù)的月均用水量的第80和95百分位數(shù).與根據(jù)圖9.2-1估計(jì)的結(jié)果比較,它們一樣嗎?你認(rèn)為根據(jù)哪個(gè)圖得到的估計(jì)更好?為什么?9.2.3總體集中趨勢(shì)的估計(jì)為了了解總體的情況,前面我們研究了如何通過樣本的分布規(guī)律估計(jì)總體的分布規(guī)律.但有時(shí)候,我們可能不太關(guān)心總體的分布規(guī)律,而更關(guān)注總體取值在某一方面的特征.例如,對(duì)于某縣今年小麥的收成情況,我們可能會(huì)更關(guān)注該縣今年小麥的總產(chǎn)量或平均每公頃的產(chǎn)量,而不是產(chǎn)量的分布;對(duì)于一個(gè)國(guó)家國(guó)民的身高情況,我們可能會(huì)更關(guān)注身高的平均數(shù)或中位數(shù),而不是身高的分布;等等.在初中的學(xué)習(xí)中我們已經(jīng)了解到,平均數(shù)、中位數(shù)和眾數(shù)等都是刻畫“中心位置”的量,它們從不同角度刻畫了一組數(shù)據(jù)的集中趨勢(shì).下面我們通過具體實(shí)例進(jìn)一步了解這些量的意義,探究它們之間的聯(lián)系與區(qū)別,并根據(jù)樣本的集中趨勢(shì)估計(jì)總體的集中趨勢(shì).例4利用9.2.1節(jié)中100戶居民用戶的月均用水量的調(diào)查數(shù)據(jù),計(jì)算樣本數(shù)據(jù)的平均數(shù)和中位數(shù),并據(jù)此估計(jì)全市居民用戶月均用水量的平均數(shù)和中位數(shù).解:根據(jù)9.2.1節(jié)中100戶居民用戶月均用水量的數(shù)據(jù),由樣本平均數(shù)的定義,可得y即100戶居民的月均用水量的平均數(shù)為8.79t.將樣本數(shù)據(jù)按從小到大排序,得第50個(gè)數(shù)和第51個(gè)數(shù)均為6.8,由中位數(shù)的定義,可得即100戶居民的月均用水量的中位數(shù)是6.6t.【邊空思考】假設(shè)某個(gè)居民小區(qū)有2000P因?yàn)閿?shù)據(jù)是抽自全市居民戶的簡(jiǎn)單隨機(jī)樣本,所以我們可以據(jù)此估計(jì)全市居民用戶的月均用水量約為8.79t,其中位數(shù)約為6.8t.【思考】小明用統(tǒng)計(jì)軟件計(jì)算了100戶居民用水量的平均數(shù)和中位數(shù).但在錄入數(shù)據(jù)時(shí),不小心把一個(gè)數(shù)據(jù)7.7錄成了77.請(qǐng)計(jì)算錄入數(shù)據(jù)的平均數(shù)和中位數(shù),并與真實(shí)的樣本平均數(shù)和中位數(shù)作比較.哪個(gè)量的值變化更大?你能解釋其中的原因嗎?通過簡(jiǎn)單計(jì)算可以發(fā)現(xiàn),平均數(shù)由原來的8.79t變?yōu)?.483t,中位數(shù)沒有變化,還是6.6t.這是因?yàn)闃颖酒骄鶖?shù)與每一個(gè)樣本數(shù)據(jù)有關(guān),樣本中的任何一個(gè)數(shù)據(jù)的改變都會(huì)引起平均數(shù)的改變;但中位數(shù)只利用了樣本數(shù)據(jù)中間位置的一個(gè)或兩個(gè)值,并末利用其他數(shù)據(jù),所以不是任何一個(gè)樣本數(shù)據(jù)的改變都會(huì)引起中位數(shù)的改變.因此,與中位數(shù)比較,平均數(shù)反映出樣本數(shù)據(jù)中的更多信息,對(duì)樣本中的極端值更加敏感.【探究】乎均數(shù)和中位數(shù)都描述了數(shù)據(jù)的集中趨勢(shì),它們的大小關(guān)系和數(shù)據(jù)分布的形態(tài)有關(guān).在圖9.2-8的三種分布形態(tài)中,平均數(shù)和中位數(shù)的大小存在什么關(guān)系?平均數(shù)、中位數(shù)(1)中位數(shù)平均數(shù)(2)(3)圖9.2-8一般來說,對(duì)一個(gè)單峰的頻率分布直方圖來說,如果直方圖的形狀是對(duì)稱的(圖9.2-8(1)),那么平均數(shù)和中位數(shù)應(yīng)該大體上差不多;如果直方圖在右邊“拖尾”(圖9.2-8(2)),那么平均數(shù)大于中位數(shù);如果直方圖在左邊“拖尾”(圖9.2-8(3)),那么平均數(shù)小于中位數(shù).也就是說,和中位數(shù)相比,平均數(shù)總是在“長(zhǎng)尾巴”那邊.例5某學(xué)校要定制高一年級(jí)的校服,學(xué)生根據(jù)廠家提供的參考身高選擇校服規(guī)格.據(jù)統(tǒng)計(jì),高一年級(jí)女生需要不同規(guī)格校服的頻數(shù)如表9.2-5所示.表9.2-5校服規(guī)格155160165170175合計(jì)頻數(shù)39641679026386如果用一個(gè)量來代表該校高一年級(jí)女生所需校服的規(guī)格,那么在中位數(shù)、平均數(shù)和眾數(shù)中,哪個(gè)量比較合適?試討論用表9.2-5中的數(shù)據(jù)估計(jì)全國(guó)高一年級(jí)女生校服規(guī)格的合理性.分析:雖然校服規(guī)格是用數(shù)字表示的,但它們事實(shí)上是幾種不同的類別.對(duì)于這樣的分類數(shù)據(jù),用眾數(shù)作為這組數(shù)據(jù)的代表比較合適.解:為了更直觀地觀察數(shù)據(jù)的特征,我們用條形圖來表示表中的數(shù)據(jù)(圖9.2-9).可以發(fā)現(xiàn),選擇校服規(guī)格為“165”的女生的頻數(shù)最高,所以用眾數(shù)165作為該校高一年級(jí)女生校服的規(guī)格比較合適.由于全國(guó)各地的高一年級(jí)女生的身高存在一定的差異,所以用一個(gè)學(xué)校的數(shù)據(jù)估計(jì)全國(guó)高一年級(jí)女生的校服規(guī)格不合理.圖9.2-9眾數(shù)只利用了出現(xiàn)次數(shù)最多的那個(gè)值的信息.眾數(shù)只能告訴我們它比其他值出現(xiàn)的次數(shù)多,但并末告訴我們它比別的數(shù)值多的程度.因此,眾數(shù)只能傳遞數(shù)據(jù)中的信息的很少一部分,對(duì)極端值也不敏感.一般地,對(duì)數(shù)值型數(shù)據(jù)(如用水量、身高、收人、產(chǎn)量等)集中趨勢(shì)的描述,可以用平均數(shù)、中位數(shù);而對(duì)分類型數(shù)據(jù)(如校服規(guī)格、性別、產(chǎn)品質(zhì)量等級(jí)等)集中趨勢(shì)的描述,可以用眾數(shù).【探究】樣本的平均數(shù)、中位數(shù)和眾數(shù)可以分別作為總體的平均數(shù)、中位數(shù)和眾數(shù)的估計(jì),但在某些情況下我們無法獲知原始的樣本數(shù)據(jù).例如,我們?cè)趫?bào)紙、網(wǎng)絡(luò)上獲得的往往是已經(jīng)整理好的統(tǒng)計(jì)表或統(tǒng)計(jì)圖.這時(shí)該如何估計(jì)樣本的平均數(shù)、中位數(shù)和眾數(shù)?你能以圖9.2-1中頻率分布直方圖提供的信息為例,給出估計(jì)方法嗎?在頻率分布直方圖中,我們無法知道每個(gè)組內(nèi)的數(shù)據(jù)是如何分布的.此時(shí),通常假設(shè)它們?cè)诮M內(nèi)均勻分布.這樣就可以獲得樣本的平均數(shù)、中位數(shù)和眾數(shù)的近似估計(jì),進(jìn)而估計(jì)總體的平均數(shù)、中位數(shù)和眾數(shù).因?yàn)闃颖酒骄鶖?shù)可以表示為數(shù)據(jù)與它的頻率的乘積之和,所以在頻率分布直方圖中,樣本平均數(shù)可以用每個(gè)小矩形底邊中點(diǎn)的橫坐標(biāo)與小矩形的面積的乘積之和近似代替.如圖9.2-10所示,可以測(cè)出圖中每個(gè)小矩形的高度,于是平均數(shù)的近似值為0.077×3×1.2+4.22+0.107×3×圖9.2-10根據(jù)中位數(shù)的意義,在樣本中,有50%的個(gè)體小于或等于中位數(shù),也有50%的個(gè)體大于或等于中位數(shù).因此,在頻率分布直方圖中,中位數(shù)左邊和右邊的直方圖的面積應(yīng)該相等.由于0.077×3=0.231,(0.077+0.107)×3=0.552.因此中位數(shù)落在區(qū)間[4.2,7.2)內(nèi).設(shè)中位數(shù)為x,由0.077×3+0.107×(得到x≈6.71.因此,中位數(shù)約為6.71,如圖9.2-11所示.這個(gè)結(jié)果與根據(jù)原始數(shù)據(jù)求得的中位數(shù)6.6圖9.2-11在頻率分布直方圖9.2-1中,月均用水量在區(qū)間[4.2,7.2)內(nèi)的居民最多,可以將這個(gè)區(qū)間的中點(diǎn)5.7作為眾數(shù)的估計(jì)值,如圖9.2-12所示.眾數(shù)常用在描述分類型數(shù)據(jù)中,在這個(gè)實(shí)際問題中,眾數(shù)“5.7”讓我們知道月均用水量在區(qū)間[4.2,7.2)內(nèi)的居民用戶最多.這個(gè)信息具有實(shí)際意義.圖9.2-12以上我們討論了平均數(shù)、中位數(shù)和眾數(shù)等特征量在刻畫一組數(shù)據(jù)的集中趨勢(shì)時(shí)的各自特點(diǎn),并研究了用樣本的特征量估計(jì)總體的特征量的方法.需要注意的是,這些特征量有時(shí)也會(huì)被利用而產(chǎn)生誤導(dǎo).例如,假設(shè)你到人力市場(chǎng)去找工作,有一個(gè)企業(yè)老板告訴你,“我們企業(yè)員工的年平均收人是20萬元”,你該如何理解這句話?這句話是真實(shí)的,但它可能描述的是差異巨大的實(shí)際情況.例如,可能這個(gè)企業(yè)的工資水平普遍較高,也就是員工年收人的中位數(shù)、眾數(shù)與平均數(shù)差不多;也可能是絕大多數(shù)員工的年收入較低(如大多數(shù)是5萬元左右),而少數(shù)員工的年收人很高,甚至達(dá)到100萬元,在這種情況下年收入的平均數(shù)就比中位數(shù)大得多.盡管在后一種情況下,用中位數(shù)或眾數(shù)比用平均數(shù)更合理些,但這個(gè)企業(yè)的老板為了招攬員工,卻用了平均數(shù).所以,我們要強(qiáng)調(diào)“用數(shù)據(jù)說話”,但同時(shí)又要防止被數(shù)據(jù)誤導(dǎo),這就需要掌握更多的統(tǒng)計(jì)知識(shí)和方法.【練習(xí)】1.根據(jù)表9.2-2中的數(shù)據(jù),估計(jì)該市2015年全年空氣質(zhì)量指數(shù)的平均數(shù)、中位數(shù)和第80百分位數(shù).(注:已知該市屬于“嚴(yán)重污染”等級(jí)的空氣質(zhì)量指數(shù)不超過400)2.假設(shè)你是某市一名交通部門的工作人員,你打算向市長(zhǎng)報(bào)告國(guó)家對(duì)本市26個(gè)公路項(xiàng)目投資的平均資金數(shù)額.已知國(guó)家對(duì)本市一條新公路的建設(shè)投資為2000萬元人民幣,對(duì)另外25個(gè)公路項(xiàng)目的投資是20~100萬元,這26個(gè)投資金額的中位數(shù)是25萬元,平均數(shù)是100萬元,眾數(shù)是20萬元.請(qǐng)你根據(jù)上面的信息給市長(zhǎng)寫一份簡(jiǎn)要的報(bào)告.3.某校舉行演講比賽,10位評(píng)委對(duì)兩位選手的評(píng)分如下:甲選手的最終得分為去掉一個(gè)最低分和一個(gè)最高分之后,剩下8個(gè)評(píng)分的平均數(shù).那么,這兩個(gè)選手的最后得分是多少?若直接用10位評(píng)委評(píng)分的平均數(shù)作為選手的得分,兩位選手的排名有變化嗎?你認(rèn)為哪種評(píng)分辦法更好?為什么?【閱讀與思考】統(tǒng)計(jì)學(xué)在軍事中的應(yīng)用一二戰(zhàn)時(shí)德國(guó)坦克總量的估計(jì)問題俗話說,知已知彼方能百戰(zhàn)百勝.在第二次世界大戰(zhàn)期間,德國(guó)制造坦克的技術(shù)非常先進(jìn),坦克的大量使用使納粹德國(guó)占據(jù)了戰(zhàn)場(chǎng)主動(dòng)權(quán).因此,了解德軍坦克的生產(chǎn)能力對(duì)盟軍具有非常重要的戰(zhàn)略意義.為此,除了通過常規(guī)情報(bào)收集信息外,盟軍請(qǐng)來了統(tǒng)計(jì)學(xué)家參與情報(bào)的收集和分析工作.根據(jù)德國(guó)戰(zhàn)后公布的生產(chǎn)記錄顯示,運(yùn)用統(tǒng)計(jì)方法估計(jì)的結(jié)果與真實(shí)值非常接近,而通過常規(guī)情報(bào)進(jìn)行的估計(jì)則與真實(shí)值相去甚遠(yuǎn).下表是二戰(zhàn)期間的三個(gè)月中,德國(guó)記錄的生產(chǎn)坦克的數(shù)目和情報(bào)估計(jì)、統(tǒng)計(jì)估計(jì)的坦克數(shù)目.表1時(shí)間德國(guó)記錄/輛情報(bào)估計(jì)/輛統(tǒng)計(jì)估計(jì)/輛1940年6月12210001691941年6月27115502441942年8月3421550327統(tǒng)計(jì)估計(jì)有如此高的精確度,統(tǒng)計(jì)學(xué)家是怎么做到的呢?原來,盟軍在繳獲的德軍坦克上發(fā)現(xiàn)了一個(gè)重要的線索一每輛坦克上都有一個(gè)獨(dú)一無二的發(fā)動(dòng)機(jī)序列號(hào).據(jù)分析,序列號(hào)前面6位表示生產(chǎn)的年月,最后4位是按生產(chǎn)順序從1開始的連續(xù)編號(hào).統(tǒng)計(jì)學(xué)家主要是將繳獲的德軍坦克序列號(hào)作為樣本,用樣本估計(jì)總體的方法得出推斷的.假設(shè)德軍某月生產(chǎn)的坦克總數(shù)為N,繳獲的該月生產(chǎn)的n輛坦克編號(hào)從小到大為x1,x因?yàn)樯a(chǎn)的坦克是連續(xù)編號(hào)的,所以繳獲坦克的編號(hào)x1,x2,?,xn相當(dāng)于從[1,N]中隨機(jī)抽取的n個(gè)整數(shù),這n圖1由于這n個(gè)數(shù)是隨機(jī)抽取的,所以可以用前n個(gè)區(qū)間的平均長(zhǎng)度xnn估計(jì)所有(n+1)個(gè)區(qū)間的平均長(zhǎng)度Nn+1,進(jìn)而得到N的估計(jì).例如,繳獲坦克的編號(hào)為12當(dāng)年,統(tǒng)計(jì)學(xué)家就是利用上述方法估計(jì)德軍每月生產(chǎn)的坦克數(shù)的.你還能想出其他估計(jì)德軍每月生產(chǎn)的坦克數(shù)的方法嗎?例如,用樣本編號(hào)的平均數(shù)作為每月生產(chǎn)坦克編號(hào)的平均數(shù)等,比較一下哪種方法更合理.9.2.4總體離散程度的估計(jì)平均數(shù)、中位數(shù)和眾數(shù)為我們提供了一組數(shù)據(jù)的集中趨勢(shì)的信息,這是概括一組數(shù)據(jù)的特征的有效方法.但僅知道集中趨勢(shì)的信息,很多時(shí)候還不能使我們做出有效決策,下面的問題就是一個(gè)例子.問題3有兩位射擊運(yùn)動(dòng)員在一次射擊測(cè)試中各射靶10次,每次命中的環(huán)數(shù)如下:甲如果你是教練,你如何對(duì)兩位運(yùn)動(dòng)員的射擊情況作出評(píng)價(jià)?如果這是一次選拔性考核,你應(yīng)當(dāng)如何作出選擇?通過

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論