版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第9章統(tǒng)計【章頭語】在現(xiàn)實(shí)生活中,我們經(jīng)常會接觸到各種統(tǒng)計數(shù)據(jù),例如,人口總量、經(jīng)濟(jì)增長率、就業(yè)狀況、物價指數(shù)、產(chǎn)品的合格率、商品的銷售額、農(nóng)作物的產(chǎn)量、人均水資源、居民人均年收人、電視臺節(jié)目的收視率、學(xué)生的平均身高等.要正確閱讀并理解這些數(shù)據(jù),需要具備一些統(tǒng)計學(xué)的知識.統(tǒng)計學(xué)是通過收集數(shù)據(jù)和分析數(shù)據(jù)來認(rèn)識未知現(xiàn)象的一門科學(xué).面對一個統(tǒng)計問題,首先要根據(jù)實(shí)際需求,通過適當(dāng)?shù)姆椒ǐ@取數(shù)據(jù),并選擇適當(dāng)?shù)慕y(tǒng)計圖表對數(shù)據(jù)進(jìn)行整理和描述,在此基礎(chǔ)上用各種統(tǒng)計方法對數(shù)據(jù)進(jìn)行分析,從樣本數(shù)據(jù)中提取需要的信息,推斷總體的情況,進(jìn)而解決相應(yīng)的實(shí)際問題.那么,對于具體的統(tǒng)計問題,應(yīng)如何收集數(shù)據(jù)?如何從所收集的數(shù)據(jù)中提取信息來認(rèn)識末知現(xiàn)象?這種認(rèn)識一定正確嗎?應(yīng)如何正確解釋統(tǒng)計的結(jié)果?本章我們將在初中學(xué)過的統(tǒng)計與概率知識的基礎(chǔ)上,通過進(jìn)一步學(xué)習(xí),加深對這些問題的認(rèn)識,并通過解決問題的實(shí)踐,進(jìn)一步學(xué)習(xí)數(shù)據(jù)分析的方法.9.1隨機(jī)抽樣統(tǒng)計的研究對象是數(shù)據(jù),核心是通過數(shù)據(jù)分析研究和解決問題.因此,首先要設(shè)法獲取與問題有關(guān)的數(shù)據(jù),從而為解決問題奠定基礎(chǔ).例如,準(zhǔn)確掌握全國的人口數(shù)據(jù),可以為科學(xué)制定國民經(jīng)濟(jì)和社會發(fā)展規(guī)劃及其他方針政策提供依據(jù).2010年我國進(jìn)行了第六次人口普查,對全國人口普遍地、逐戶逐人地進(jìn)行一次性調(diào)查登記.調(diào)查內(nèi)容包括每位居民的姓名、性別、年齡、民族、受教育程度等.這里,居民為調(diào)查對象,而居民的性別、年齡、民族、受教育程度等是要調(diào)查的指標(biāo).由于不同調(diào)查對象的指標(biāo)值往往不同,它是一個變化的量,所以常把指標(biāo)稱為變量.像人口普查這樣,對每一個調(diào)查對象都進(jìn)行調(diào)查的方法,稱為全面調(diào)查(overallsurvey),又稱普查.在一個調(diào)查中,我們把調(diào)查對象的全體稱為總體(population),組成總體的每一個調(diào)查對象稱為個體(individual).為了強(qiáng)調(diào)調(diào)查目的,也可以把調(diào)查對象的某些指標(biāo)的全體作為總體,每一個調(diào)查對象的相應(yīng)指標(biāo)作為個體.由于人口普查需要花費(fèi)巨大的財力、物力,因而不宜經(jīng)常進(jìn)行.為了及時掌握全國人口變動狀況,我國每年還會進(jìn)行一次人口變動情況的調(diào)查.這種調(diào)查是抽取一部分居民進(jìn)行調(diào)查,根據(jù)抽取的居民情況來推斷總體的人口變動情況.像這樣,根據(jù)一定目的,從總體中抽取一部分個體進(jìn)行調(diào)查,并以此為依據(jù)對總體的情況作出估計和推斷的調(diào)查方法,稱為抽樣調(diào)查(samplingsurvey).我們把從總體中抽取的那部分個體稱為樣本(sample),樣本中包含的個體數(shù)稱為樣本量.調(diào)查樣本獲得的變量值稱為樣本的觀測數(shù)據(jù),簡稱樣本數(shù)據(jù).相對全面調(diào)查而言,抽樣調(diào)查由于只抽取一部分個體進(jìn)行調(diào)查,因此具有花費(fèi)少、效率高的特點(diǎn).在總體規(guī)模比較大的調(diào)查中,如果經(jīng)費(fèi)、時間上受限,那么抽樣調(diào)查是比較合適的調(diào)查方法.在有些調(diào)查中,抽樣調(diào)查則具有不可替代的作用.例如,檢測一批燈泡的壽命,或一批種子的發(fā)芽率,或一批待售袋裝牛奶的細(xì)菌數(shù)是否超標(biāo),這些檢測具有毀損性,此時只能用抽樣調(diào)查.隨著社會的發(fā)展,抽樣調(diào)查的應(yīng)用范圍越來越廣泛.下面我們研究兩種基本的抽樣方法一簡單隨機(jī)抽樣和分層隨機(jī)抽樣.9.1.1簡單隨機(jī)抽樣抽樣調(diào)查的目的是為了了解總體的情況.例如,抽樣調(diào)查一批待售袋裝牛奶的細(xì)菌數(shù)是否超標(biāo),其目的是要了解整批牛奶的細(xì)菌含量超標(biāo)情況,而不只是局限在抽查到的那幾袋牛奶的情況.因此,通過抽樣調(diào)查了解總體的情況,自然希望抽取的樣本數(shù)據(jù)能很好地反映總體的情況,即樣本含有和總體基本相同的信息.【探究】假設(shè)口袋中有紅色和白色共1000個小球,除顏色外,小球的大小、質(zhì)地完全相同.你能通過抽樣調(diào)查的方法估計袋中紅球所占的比例嗎?這里袋中所有小球是調(diào)查的總體,每一個小球是個體,小球的顏色是所關(guān)心的變量.我們可以從袋中隨機(jī)地摸出一個球,記錄顏色后放回,搖勻后再摸出一個球,如此重復(fù)n次.根據(jù)初中的概率知識可知,隨著摸球次數(shù)的增加,摸到紅球的頻率會逐漸穩(wěn)定于摸到紅球的概率,即口袋中紅球所占的比例.因此,我們可以通過放回摸球,用頻率估計出紅球的比例.在有放回地摸球中,同一個小球有可能被摸中多次,極端情況是每次摸到同一個小球,而被重復(fù)摸中的小球只能提供同一個小球的顏色信息.如果我們采用不放回摸球,即從袋中摸出一個球后不再放回袋中,每次摸球都在余下的球中隨機(jī)摸取,這樣就可以避免同一個小球被重復(fù)摸中.特別地,當(dāng)樣本量n=1000一般地,設(shè)一個總體含有N(N為正整數(shù))個個體,從中逐個抽取n【貼示】從總體中,逐個不放回地隨機(jī)抽取n個個體作為樣本,一次性批量隨機(jī)抽取n個個體作為樣本,兩種方法是等價的.與放回簡單隨機(jī)抽樣比較,不放回簡單隨機(jī)抽樣的效率更高,因此實(shí)踐中人們更多采用不放回簡單隨機(jī)抽樣.除非特殊聲明,本章所稱的簡單隨機(jī)抽樣指不放回簡單隨機(jī)抽樣.問題1一家家具廠要為樹人中學(xué)高一年級制作課桌椅,他們事先想了解全體高一年級學(xué)生的平均身高,以便設(shè)定可調(diào)節(jié)課桌椅的標(biāo)準(zhǔn)高度.已知樹人中學(xué)高一年級有712名學(xué)生,如果要通過簡單隨機(jī)抽樣的方法調(diào)查高一年級學(xué)生的平均身高,應(yīng)該怎么抽取樣本?在這個問題中,樹人中學(xué)全部高一年級的學(xué)生構(gòu)成調(diào)查的總體,每一位學(xué)生是個體,學(xué)生的身高是調(diào)查的變量.與“探究”欄目中估計紅球的比例類似,我們可以對高一年級進(jìn)行簡單隨機(jī)抽樣,用抽出的樣本的平均身高估計高一年級學(xué)生的平均身高.實(shí)現(xiàn)簡單隨機(jī)抽樣的方法有很多,抽簽法和隨機(jī)數(shù)法是比較常用的兩種方法.1.抽簽法先給712名學(xué)生編號,例如按1~712進(jìn)行編號.然后把所有編號寫在外觀、質(zhì)地等無差別的小紙片(也可以是卡片、小球等)上作為號簽,并將這些小紙片放在一個不透明的盒里,充分?jǐn)嚢?最后從盒中不放回地逐個抽取號簽,使與號簽上的編號對應(yīng)的學(xué)生進(jìn)人樣本,直到抽足樣本所需要的人數(shù).抽簽法簡單易行,但當(dāng)總體較大時,操作起來比較麻煩.因此,抽簽法一般適用于總體中個體數(shù)不多的情形.2.隨機(jī)數(shù)法先給712名學(xué)生編號,例如按1~712進(jìn)行編號.用隨機(jī)數(shù)工具產(chǎn)生1712范圍內(nèi)的整數(shù)隨機(jī)數(shù),把產(chǎn)生的隨機(jī)數(shù)作為抽中的編號,使與編號對應(yīng)的學(xué)生進(jìn)入樣本.重復(fù)上述過程,直到抽足樣本所需要的人數(shù).如果生成的隨機(jī)數(shù)有重復(fù),即同一編號被多次抽到,可以剔除重復(fù)的編號并重新產(chǎn)生隨機(jī)數(shù),直到產(chǎn)生的不同編號個數(shù)等于樣本所需要的人數(shù).(1)用隨機(jī)試驗生成隨機(jī)數(shù)準(zhǔn)備10個大小、質(zhì)地一樣的小球,小球上分別寫上數(shù)字0,1,2,?,9,把它們放人一個不透明的袋中.從袋中有放回摸取3次,每次摸取前充分?jǐn)嚢?并把第一、二、三次摸到的數(shù)字分別作為百、十、個位數(shù),這樣就生成了一個三位隨機(jī)數(shù).如果這個三位數(shù)在1~712范圍內(nèi),就代表對應(yīng)編號的學(xué)生被抽中,否則舍棄編號.這樣產(chǎn)生的隨機(jī)數(shù)可能會有重復(fù).【邊空思考】為什么要給學(xué)生編號?編號用學(xué)號可以嗎?【邊空思考】比較隨機(jī)數(shù)法與抽簽法,它們各有什么優(yōu)點(diǎn)和缺點(diǎn)?【貼示】一般說來,在計算器或計算機(jī)軟件沒有特殊設(shè)定的情況下,它們生成的隨機(jī)數(shù),都是可重復(fù)的.為了確認(rèn)你使用的計算器或計算機(jī)軟件的情況,可以查閱它的說明書,也可以通過測試它能否生成3個整數(shù)隨機(jī)數(shù)1或2來進(jìn)行判斷.(2)用信息技術(shù)生成隨機(jī)數(shù)(1)用計算器生成隨機(jī)數(shù)進(jìn)人計算器的計算模式(不同的計算器型號可能會有不同),調(diào)出生成隨機(jī)數(shù)的函數(shù)并設(shè)置參數(shù),例如RandInt#(1,712),按“=”鍵即可生成1~712范圍內(nèi)的整數(shù)隨機(jī)數(shù).重復(fù)按“=”鍵,可以生成多個隨機(jī)數(shù).這樣產(chǎn)生的隨機(jī)數(shù)可能會有重復(fù).(2)用電子表格軟件生成隨機(jī)數(shù)在電子表格軟件的任一單元格中,輸人“=RANDBETWEEN(1,712)”,即可生成一個1~712范圍內(nèi)的整數(shù)隨機(jī)數(shù).再利用電子表格軟件的自動填充功能,可以快速生成大量的隨機(jī)數(shù)(圖9.1-1).這樣產(chǎn)生的隨機(jī)數(shù)可能會有重復(fù).圖9.1-1(3)用R統(tǒng)計軟件生成隨機(jī)數(shù)在R軟件的控制臺中,輸人“sample(1:712,50,replace=F)”,按回車鍵,就可以得到50個1圖9.1-2【貼示】R軟件是免費(fèi)的統(tǒng)計軟件,該軟件具有比較強(qiáng)大的數(shù)據(jù)處理、繪圖和分析等統(tǒng)計功能,在統(tǒng)計學(xué)研究和學(xué)習(xí)中被廣泛化用.隨著信息技術(shù)的發(fā)展,人們越來越多地利用計算器、數(shù)學(xué)軟件、統(tǒng)計軟件等工具來生成隨機(jī)數(shù).尤其是一些統(tǒng)計軟件,可以非常方便地按要求生成各種隨機(jī)數(shù).用信息技術(shù)工具產(chǎn)生隨機(jī)數(shù)最大的優(yōu)點(diǎn)是方便、快捷.【思考】用簡單隨機(jī)抽樣方法抽取樣本,樣本量是否越大越好?我們知道,在重復(fù)試驗中,試驗次數(shù)越多,頻率接近概率的可能性越大.與此類似,用簡單隨機(jī)抽樣的方法抽取學(xué)生,樣本量越大,樣本中不同身高的比例接近總體中相應(yīng)身高的比例的可能性也越大,樣本的平均身高接近總體的平均身高的可能性也越大.即對于樣本的代表性,一般說來,樣本量大的會好于樣本量小的.尤其是樣本量不大時,增加樣本量可以較好地提高估計的效果.但是,在實(shí)際抽樣中,樣本量的增大會導(dǎo)致調(diào)查的人力、費(fèi)用、時間等成本的增加.因此,抽樣調(diào)查中樣本量的選擇要根據(jù)實(shí)際問題的需要,并不一定是越大越好.【貼示】在簡單隨機(jī)抽樣調(diào)查中,當(dāng)樣本量和總體一樣大時,就是全面調(diào)查了.【練習(xí)】1.在以下調(diào)查中,總體、個體各是什么?哪些適合用全面調(diào)查?哪些適合用抽樣調(diào)查?(1)調(diào)查一個班級學(xué)生每周的體育鍛煉時間;(2)調(diào)查一個地區(qū)結(jié)核病的發(fā)病率;(3)調(diào)查一批炮彈的殺傷半徑;(4)調(diào)查一個水庫所有魚中草魚所占的比例.請你再舉一些不宜用全面調(diào)查的例子,并說明理由.2.如圖,由均勻材質(zhì)制成的一個正20面體(每個面都是正三角形),將20個面平分成10組,第1組標(biāo)上0,第2組標(biāo)上1,?,第10組標(biāo)上9.(1)投擲正20面體,若把朝上一面的數(shù)字作為投擲結(jié)果,則出現(xiàn)0,1,2,?,9是等可能的嗎?(2)三個正20面體分別涂上紅、黃、藍(lán)三種顏色,分別代表百位、十位、個位,同時投擲可以產(chǎn)生一個三位數(shù)(百位為0的也看作三位數(shù)),它是000~999范圍內(nèi)的隨機(jī)數(shù)嗎?(第2題)3.實(shí)驗室的籠子里共有100只小白鼠,現(xiàn)要從中抽取10只作試驗用.下列兩種情況是否屬于簡單隨機(jī)抽樣?請說明理由.(1)每次不經(jīng)任何挑選地抓一只,抓滿10只為止;(2)將籠中的100只小白鼠按1~100編號,任意選出編號范圍內(nèi)的10個不重復(fù)數(shù)字,把相應(yīng)編號的小白鼠作為試驗用的小白鼠.4.如果計算器只能生成[0,1)內(nèi)的隨機(jī)數(shù),你有辦法把它轉(zhuǎn)化為1~100范圍內(nèi)的整數(shù)隨機(jī)數(shù)嗎?轉(zhuǎn)化為1~712范圍內(nèi)的整數(shù)隨機(jī)數(shù)呢?5.在抽樣調(diào)查中,請你說說通過“隨機(jī)”選擇樣本的優(yōu)、缺點(diǎn).下面是用隨機(jī)數(shù)法從樹人中學(xué)高一年級學(xué)生中抽取的一個容量為50的簡單隨機(jī)樣本,他們的身高變量值(單位:cm)如下:156.0175.0162.0164.5156.0171.0151,0158.0156.0165.0158.0175.0165.0171.0由這些樣本觀測數(shù)據(jù),我們可以計算出樣本的平均數(shù)為164.3.據(jù)此,可以估計樹人中學(xué)高一年級學(xué)生的平均身高為164.3cm左右.上面我們通過簡單隨機(jī)抽樣得到部分學(xué)生的平均身高,并把樣本平均身高作為樹人中學(xué)高一年級所有學(xué)生平均身高的估計值.一般地,總體中有N個個體,它們的變量值分別為Y1Y為總體均值(populationmean),又稱總體平均數(shù).如果總體的N個變量值中,不同的值共有k(k?N)個,不妨記為Y1,Y【貼示】∑為求和符號,讀音為/sigma/,主要用于多項式求和.∑i如果從總體中抽取一個容量為n的樣本,它們的變量值分別為y1y為樣本均值(samplemean),又稱樣本平均數(shù).在簡單隨機(jī)抽樣中,我們常用樣本平均數(shù)y去估計總體平均數(shù)Y.【貼示】很多科學(xué)型計算器都具有求平均數(shù)的功能.只要輸入數(shù)據(jù),按相應(yīng)的鍵,就可以快速求出平均數(shù).【探究】小明想考察一下簡單隨機(jī)抽樣的估計效果.他從樹人中學(xué)醫(yī)務(wù)室得到了高一年級學(xué)生身高的所有數(shù)據(jù),計算出整個年級學(xué)生的平均身高為165.0cm.然后,小明用簡單隨機(jī)抽樣的方法,從這些數(shù)據(jù)中抽取了樣本量為50和100的樣本各10個,分別計算出樣本平均數(shù),如表9.1-1所示.從小明多次抽樣所得的結(jié)果中,你有什么發(fā)現(xiàn)?表9.1-1抽樣序號12345678910樣本量為50的平均數(shù)165.2162.8164.4164.4165.6164.8165.3164.7165.7165.0樣本量為100的平均數(shù)164.4165.0164.7164.9164.6164.9165.1165.2165.1165.2為了更方便地觀察數(shù)據(jù),以便我們分析樣本平均數(shù)的特點(diǎn)以及與總體平均數(shù)的關(guān)系,我們把這20次試驗的平均數(shù)用圖形表示出來,如圖9.1-3所示.圖中的紅線表示樹人中學(xué)高一年級全體學(xué)生身高的平均數(shù).圖9.1-3從試驗結(jié)果看,不管樣本量為50,還是為100,不同樣本的平均數(shù)往往是不同的.由于樣本的選取是隨機(jī)的,因此樣本平均數(shù)也具有隨機(jī)性,這與總體平均數(shù)是一個確定的數(shù)不同.雖然在所有20個樣本平均數(shù)中,與總體平均數(shù)完全一致的很少,但除了樣本量為50的第2個樣本外,樣本平均數(shù)偏離總體平均數(shù)都不超過1cm,即大部分樣本平均數(shù)離總體平均數(shù)不遠(yuǎn),在總體平均數(shù)附近波動.比較樣本量為50和樣本量為100的樣本平均數(shù),還可以發(fā)現(xiàn)樣本量為100的波動幅度明顯小于樣本量為50的,這與我們對增加樣本量可以提高估計效果的認(rèn)識是一致的.總體平均數(shù)是總體的一項重要特征.另外,某類個體在總體中所占的比例也是人們關(guān)心的一項總體特征,例如全部產(chǎn)品中合格品所占的比例、贊成某項政策的人在整個人群中所占的比例等.問題2眼睛是心靈的窗口,保護(hù)好視力非常重要.樹人中學(xué)在“全國愛眼日”前,想通過簡單隨機(jī)抽樣的方法,了解一下全校2174名學(xué)生中視力不低于5.0的學(xué)生所占的比例,你覺得該怎么做?在這個問題中,全校學(xué)生構(gòu)成調(diào)查的總體,每一位學(xué)生是個體,學(xué)生的視力是考察的變量.為了便于問題的描述,我們記“視力不低于5.0”為1,“視力低于5.0”為0,則第i個(iY于是,在全校學(xué)生中,“視力不低于5.0”的人數(shù)就是Y1+Y2+?+P類似地,若抽取容量為n的樣本,把它們的視力變量值分別記為y1,y2,?,p我們可以用樣本平均數(shù)y估計總體平均數(shù)Y,用樣本中的比例p估計總體中的比例P.現(xiàn)在,我們從樹人中學(xué)所有學(xué)生中抽取一個容量為50的簡單隨機(jī)樣本,其視力變量取值如下:110100101110001101000111011011由樣本觀測數(shù)據(jù),我們可以計算出樣本平均數(shù)為y據(jù)此,我們估計在樹人中學(xué)全體學(xué)生中,“視力不低于5.0”的比例約為0.54.簡單隨機(jī)抽樣方法簡單、直觀,用樣本平均數(shù)估計總體平均數(shù)也比較方便.簡單隨機(jī)抽樣是一種基本抽樣方法,是其他抽樣方法的基礎(chǔ).但在實(shí)際應(yīng)用中,簡單隨機(jī)抽樣有一定的局限性.例如,當(dāng)總體很大時,簡單隨機(jī)抽樣給所有個體編號等準(zhǔn)備工作非常費(fèi)事,甚至難以做到;抽中的個體往往很分散,要找到樣本中的個體并實(shí)施調(diào)查會遇到很多困難;簡單隨機(jī)抽樣沒有利用其他輔助信息,估計效率不是很高;等等.因此,在規(guī)模較大的調(diào)查中,直接采用簡單隨機(jī)抽樣的并不多,一般是把簡單隨機(jī)抽樣和其他抽樣方法組合使用.【練習(xí)】1.為了合理調(diào)配電力資源,某市欲了解全市50000戶居民的日用電量.若通過簡單隨機(jī)抽樣從中抽取了300戶進(jìn)行調(diào)查,得到其日用電量的平均數(shù)為5.5kW?h(A)一定為5.5kW?h(B)高于5.5kW?h(C)低于5.5kW?h(D)約為5.5kW?h2.在學(xué)生身高的調(diào)查中,小明和小華分別獨(dú)立進(jìn)行了簡單隨機(jī)抽樣調(diào)查.小明調(diào)查的樣本平均數(shù)為166.4,樣本量為100;小華調(diào)查的樣本平均數(shù)為164.7,樣本量為200.你更愿意把哪個值作為總體平均數(shù)的估計?是不是你選的值一定比另一個更接近總體平均數(shù)?說說你的理由.3.找一組數(shù)據(jù)作為總體,自行設(shè)定樣本量,進(jìn)行多次簡單隨機(jī)抽樣.觀察樣本量對估計總體平均數(shù)的影響,并試著解釋其中的原因.9.1.2分層隨機(jī)抽樣抽樣調(diào)查最核心的問題是樣本的代表性.簡單隨機(jī)抽樣是使總體中每一個個體都有相等的機(jī)會被抽中,但因為抽樣的隨機(jī)性,有可能會出現(xiàn)比較“極端”的樣本.例如,在對樹人中學(xué)高一年級學(xué)生身高的調(diào)查中,可能出現(xiàn)樣本中50個個體大部分來自高個子或矮個子的情形.這種“極端”樣本的平均數(shù)會大幅度地偏離總體平均數(shù),從而使得估計出現(xiàn)較大的誤差.能否利用總體中的一些額外信息對抽樣方法進(jìn)行改進(jìn)呢?問題3在樹人中學(xué)高一年級的712名學(xué)生中,男生有326名、女生有386名.能否利用這個輔助信息改進(jìn)簡單隨機(jī)抽樣方法,減少“極端,樣本的出現(xiàn),從而提高對整個年級平均身高的估計效果呢?我們知道,影響身高的因素有很多,性別是其中的一個主要因素.高中男生的身高普遍高于女生的身高,而相同性別的身高差異相對較小.我們可以利用性別和身高的這種關(guān)系,把高一年級學(xué)生分成男生和女生兩個身高有明顯差異的群體,對兩個群體分別進(jìn)行簡單隨機(jī)抽樣,然后匯總作為總體的一個樣本.由于在男生和女生兩個群體中都抽取了相應(yīng)的個體,這樣就能有效地避免“極端”樣本.【思考】對男生、女生分別進(jìn)行簡單隨機(jī)抽樣,樣本量在男生、女生中應(yīng)如何分配?自然地,為了使樣本的結(jié)構(gòu)與總體的分布相近,人數(shù)多的群體應(yīng)多抽一些,人數(shù)少的群體應(yīng)少抽一些.因此,按男生、女生在全體學(xué)生中所占的比例進(jìn)行分配是一種比較合理的方式,即男生樣本量這樣無論是男生還是女生,每個學(xué)生抽到的概率都相等.當(dāng)總樣本量為50時,可以計算出從男生、女生中分別應(yīng)抽取的人數(shù)為nn我們按上述方法抽取了一個容量為50的樣本,其觀測數(shù)據(jù)(單位:cm)如下:男生173.0172.0173.0175.0168.0170.0172.0176.0175.0168.0173.0167.0170.0175.0女生163.0154.0154.0164.0149.0159.0161.0170.0171.0155.0148.0172.0162.5158.0155.5157.0163.0172.0通過計算,得出男生和女生身高的樣本平均數(shù)分別為170.6,160.6.根據(jù)男生、女生身高的樣本平均數(shù)以及他們各自的人數(shù),可以估計總體平均數(shù)為170.6×326+160.6×386即估計樹人中學(xué)高一年級學(xué)生的平均身高在165.2cm左右.上面我們按性別變量,把高一學(xué)生劃分為男生、女生兩個身高差異較小的子總體分別進(jìn)行抽樣,進(jìn)而得到總體的估計.一般地,按一個或多個變量把總體劃分成若干個子總體,每個個體屬于且僅屬于一個子總體,在每個子總體中獨(dú)立地進(jìn)行簡單隨機(jī)抽樣,再把所有子總體中抽取的樣本合在一起作為總樣本,這樣的抽樣方法稱為分層隨機(jī)抽樣(stratifiedrandomsampling),每一個子總體稱為層.在分層隨機(jī)抽樣中,如果每層樣本量都與層的大小成比例,那么稱這種樣本量的分配方式為比例分配.在分層隨機(jī)抽樣中,如果層數(shù)分為2層,第1層和第2層包含的個體數(shù)分別為M和N,抽取的樣本量分別m和n.我們用X1,X2,?,XMX第2層的總體平均數(shù)和樣本平均數(shù)分別為Y總體平均數(shù)和樣本平均數(shù)分別為W由于用第1層的樣本平均數(shù)x可以估計第1層的總體平均數(shù)X,用第2層的樣本平均數(shù)y可以估計第2層的總體平均數(shù)Y,因此我們可以用M估計總體平均數(shù)W.在比例分配的分層隨機(jī)抽樣中,m可得M因此,在比例分配的分層隨機(jī)抽樣中,我們可以直接用樣本平均數(shù)w估計總體平均數(shù)W.【探究】與考察簡單隨機(jī)抽樣估計效果類似,小明也想通過多次抽樣考察一下分層隨機(jī)抽樣的估計效果.他用比例分配的分層隨機(jī)抽樣方法,從高一年級的學(xué)生中抽取了10個樣本量為50的樣本,計算出樣本平均數(shù)如表9.1-2所示.與上一小節(jié)“探究”中相同樣本量的簡單隨機(jī)抽樣的結(jié)果比較,小明有了一個重要的發(fā)現(xiàn).你是否也有所發(fā)現(xiàn)?表9.1-2抽樣序號12345678910男生樣本的平均數(shù)170.0170.7169.8171.7172.7171.9171.6170.6172.6170.9女生樣本的平均數(shù)162.2160.3159.7158.1161.1158.4159.7160.0160.6160.2總樣本的平均數(shù)165.8165.1164.3164.3166.4164.6165.2164.9166.1165.1我們把分層隨機(jī)抽樣的平均數(shù)與上一小節(jié)樣本量為50的簡單隨機(jī)抽樣的平均數(shù)用圖形進(jìn)行表示(圖9.1-4),其中紅線表示整個年級學(xué)生身高的平均數(shù).從試驗結(jié)果看,分層隨機(jī)抽樣的樣本平均數(shù)圍繞總體平均數(shù)波動,與簡單隨機(jī)抽樣的結(jié)果比較,分層隨機(jī)抽樣并沒有明顯優(yōu)于簡單隨機(jī)抽樣.但相對而言,分層隨機(jī)抽樣的樣本平均數(shù)波動幅度更均勻,簡單隨機(jī)抽樣中出現(xiàn)了一個(第2個)偏離總體平均數(shù)的幅度比較大的樣本平均數(shù),即出現(xiàn)了比較“極端”的樣本,而分層隨機(jī)抽樣沒有出現(xiàn).實(shí)際上,在個體之間差異較大的情形下,只要選取的分層變量合適,使得各層間差異明顯、層內(nèi)差異不大,分層隨機(jī)抽樣的效果一般會好于簡單隨機(jī)抽樣,也好于很多其他抽樣方法.分層隨機(jī)抽樣的組織實(shí)施也比簡單隨機(jī)抽樣方便,而且除了能得到總體的估計外,還能得到每層的估計.圖9.1-4在實(shí)際抽樣調(diào)查中,由于實(shí)際問題的復(fù)雜性,除了要考慮獲得的樣本的代表性,還要考慮調(diào)查實(shí)施中人力、物力、時間等因素,因此通常會把多種抽樣方法組合起來使用.例如,在分層抽樣中,不同的層內(nèi)除了用簡單隨機(jī)抽樣外,還可以用其他的抽樣方法,有時層內(nèi)還需要再進(jìn)行分層,等等.【探究】如果要了解某電視節(jié)目在你所在地區(qū)(城市、鄉(xiāng)鎮(zhèn)或村莊)的收視率,你能幫忙設(shè)計一個抽樣方案嗎?結(jié)合你所在地區(qū)的實(shí)際情況,和同學(xué)展開討論.【練習(xí)】1.數(shù)據(jù)x1,x2,?,xmi2.有人說:“如果抽樣方法設(shè)計得好,用樣本進(jìn)行視力調(diào)查與對24300名學(xué)生進(jìn)行視力普查的結(jié)果差不多.而且對于想要掌握學(xué)生視力狀況的教育部門來說,節(jié)省了人力、物力和財力,抽樣調(diào)查更可取.”你認(rèn)為這種說法有道理嗎?為什么?3.高二年級有男生490人,女生510人,張華按男生、女生進(jìn)行分層,通過分層隨機(jī)抽樣的方法,得到男生、女生的平均身高分別為170.2cm和160.8cm.(1)如果張華在各層中按比例分配樣本,總樣本量為100,那么在男生、女生中分別抽取了多少名?在這種情況下,請估計高二年級全體學(xué)生的平均身高.(2)如果張華從男生、女生中抽取的樣本量分別為30和70,那么在這種情況下,如何估計高二年級全體學(xué)生的平均身高更合理?4.要調(diào)查全市普通高中高一年級學(xué)生中患色盲的比例,小明根據(jù)性別對總體進(jìn)行分層,用分層隨機(jī)抽樣的方法進(jìn)行調(diào)查.請你查閱有關(guān)資料,說說這樣的分層是否合理.你覺得在選擇分層變量時應(yīng)注意什么?【閱讀與思考】如何得到敏感性問題的誠實(shí)反應(yīng)通過調(diào)查獲取數(shù)據(jù)的基本方式是詢問,調(diào)查問卷是詢問的依據(jù),也是信息的載體.無論是面對面的調(diào)查,如入戶調(diào)查,還是非面對面的調(diào)查,如電話調(diào)查、網(wǎng)絡(luò)調(diào)查等,調(diào)查問卷都是必需的.問卷設(shè)計十分重要,好的問卷是收集高質(zhì)量數(shù)據(jù)的基礎(chǔ).在統(tǒng)計調(diào)查中,問卷的設(shè)計是一門很大的學(xué)問.例如,調(diào)查問題的措辭會對被調(diào)查者產(chǎn)生影響,舉例來說,在“你在多大程度上喜歡吸煙”和“你在多大程度上不喜歡吸煙”這兩種問法中,前者會比后者給出更為肯定的答案.再如,問題在問卷中的位置也會對調(diào)查者產(chǎn)生影響.一般地,比較容易的、不涉及個人的問題應(yīng)當(dāng)排在比較靠前的位置,較難的、涉及個人的問題應(yīng)排得比較靠后,等等.對一些敏感性問題,例如學(xué)生在考試中有無作弊、某人是否偷稅漏稅等,更要精心設(shè)計問卷及調(diào)查方法,設(shè)法消除被調(diào)查者的顧慮,使他們能夠如實(shí)回答問題.否則,被調(diào)查者往往會拒絕回答,或不提供真實(shí)情況.下面我們用一個例子來說明對敏感性問題的調(diào)查方法.某地區(qū)的公共衛(wèi)生部門為了調(diào)查本地區(qū)中學(xué)生的吸煙情況,對隨機(jī)抽出的200名學(xué)生進(jìn)行了調(diào)查.調(diào)查中使用了兩個問題.問題1:你父親的公歷生日日期是不是奇數(shù)?問題2:你是否經(jīng)常吸煙?調(diào)查者設(shè)計了一個隨機(jī)化裝置,這是一個裝有大小、形狀和質(zhì)量完全一樣的50個白球和50個紅球的袋子.每個被調(diào)查者隨機(jī)從袋中摸取1個球(摸出的球再放回袋中),摸到白球的學(xué)生如實(shí)回答第一個問題,摸到紅球的學(xué)生如實(shí)回答第二個問題,回答“是”的人往一個盒子中放一個小石子,回答“否”的人什么都不要做.由于問題的答案只有“是”和“否”,而且回答的是哪個問題也是別人不知道的,因此被調(diào)查者可以毫無顧慮地給出符合實(shí)際情況的答案.如果在200人中,共有58人回答“是”,你能估計出這個地區(qū)吸煙的中學(xué)生所占的百分比嗎?由題意可知,每個學(xué)生從口袋中摸出1個白球或紅球的概率都是0.5,即我們期望大約有100人回答了第一個問題,另100人回答了第二個問題.在摸出白球的情況下,回答父親公歷生日日期是奇數(shù)的概率是186365≈0.51.因而在回答第一個問題的100人中,大約有51人回答了“是”.所以我們能推出,在回答第二個問題的100人中,大約有7人回答了“是”,即估計這個地區(qū)大約有這種方法是不是很巧妙?9.1.3獲取數(shù)據(jù)的途徑統(tǒng)計學(xué)是通過收集數(shù)據(jù)和分析數(shù)據(jù)來認(rèn)識末知現(xiàn)象的,因此如何收集數(shù)據(jù),是統(tǒng)計學(xué)研究的重要內(nèi)容.在實(shí)踐中,獲取數(shù)據(jù)的途徑多種多樣,像統(tǒng)計報表和年鑒、社會調(diào)查、普查和抽樣、互聯(lián)網(wǎng)、試驗設(shè)計等等都是常見的.下面介紹獲取數(shù)據(jù)的一些基本途徑.1.通過調(diào)查獲取數(shù)據(jù)對于有限總體問題,如人口總數(shù)、城鄉(xiāng)就業(yè)狀況、農(nóng)村貧困人口脫貧狀況、生態(tài)環(huán)境改善狀況、青少年受教育狀況、高中生近視的比例、產(chǎn)品合格率、高中生日平均上網(wǎng)時間等問題,我們一般通過抽樣調(diào)查或普查的方法獲取數(shù)據(jù).針對不同問題的特點(diǎn),為了有效收集所需數(shù)據(jù),專家發(fā)明了各種不同的抽樣方法.除了我們已經(jīng)學(xué)過的簡單隨機(jī)抽樣和分層隨機(jī)抽樣,還有系統(tǒng)抽樣、整群抽樣、不等概率抽樣、自適應(yīng)抽樣、兩階段抽樣等很多其他的方法.在實(shí)際應(yīng)用中,關(guān)鍵在于是否能充分有效地利用背景信息選擇或創(chuàng)建更好的抽樣方法,并有效避免抽樣過程中的人為錯誤.在前面的學(xué)習(xí)中,我們對此有了一定的認(rèn)識.2.通過試驗獲取數(shù)據(jù)試驗是獲取樣本觀測數(shù)據(jù)的另一種重要途徑.例如,要判斷研制的新藥是否有效、培育的小麥新品種是否具有更高的產(chǎn)量等情況,沒有現(xiàn)存的數(shù)據(jù)可以查詢,就需要通過對比試驗的方法去獲取樣本觀測數(shù)據(jù).又如特種鋼、輪胎的配方和產(chǎn)品質(zhì)量等,也需要通過試驗獲取樣本觀測數(shù)據(jù).通過試驗獲取數(shù)據(jù)時,我們需要嚴(yán)格控制試驗環(huán)境,通過精心的設(shè)計安排試驗,以提高數(shù)據(jù)質(zhì)量,為獲得好的分析結(jié)果奠定基礎(chǔ).在統(tǒng)計學(xué)中,這種安排試驗的學(xué)問叫做“試驗設(shè)計”,感興趣的同學(xué)可以查閱試驗設(shè)計教科書.3.通過觀察獲取數(shù)據(jù)在現(xiàn)實(shí)生活中,我們感興趣的很多自然現(xiàn)象都不能被人類所控制,如地震、降水、大氣污染、宇宙射線等.自然現(xiàn)象會隨著時間的變化而變化,不能用我們已經(jīng)學(xué)過的有限總體來刻畫,也就不能用抽樣的方法獲取觀測數(shù)據(jù);另一方面,由于自然現(xiàn)象不能被人為控制,也不能通過試驗獲取觀測數(shù)據(jù).研究這類現(xiàn)象,只能通過長久的持續(xù)觀察獲取數(shù)據(jù).對于各個不同的行業(yè),往往需要專業(yè)測量設(shè)備獲取觀測數(shù)據(jù).隨著科技水平的提高,專業(yè)測量設(shè)備的自動化程度越來越高,通過觀測獲取和存儲數(shù)據(jù)的成本越來越低,這成為大數(shù)據(jù)產(chǎn)生的根源.一般地,通過觀察自然現(xiàn)象所獲取的數(shù)據(jù)性質(zhì)比較復(fù)雜,其中蘊(yùn)含著所觀察現(xiàn)象的本質(zhì)信息,這些信息十分寶貴,統(tǒng)計學(xué)理論和方法是挖掘這些信息的強(qiáng)有力的工具之一.4.通過查詢獲得數(shù)據(jù)我們感興趣的問題,可能有眾多專家研究過,他們在研究中所收集的樣本觀測數(shù)據(jù)可能存儲于學(xué)術(shù)論文、專著、新聞稿、公報或互聯(lián)網(wǎng)上.這些數(shù)據(jù)是寶貴的財富,我們可以收集前人的勞動成果并加以利用,從而減少收集數(shù)據(jù)的成本.我們往往把這樣獲得的數(shù)據(jù)叫做二手?jǐn)?shù)據(jù).國家統(tǒng)計局是我國最主要的統(tǒng)計數(shù)據(jù)收集和發(fā)布的部門,調(diào)查統(tǒng)計的數(shù)據(jù)涉及經(jīng)濟(jì)、社會、民生的方方面面.國家統(tǒng)計局的統(tǒng)計數(shù)據(jù)通過多種形式進(jìn)行公布,例如定期發(fā)布新聞稿、舉辦新聞發(fā)布會、發(fā)布統(tǒng)計公報、出版各類統(tǒng)計資料等.統(tǒng)計公報有年度統(tǒng)計公報、經(jīng)濟(jì)普查公報、人口普查公報、農(nóng)業(yè)普查公報等;統(tǒng)計資料出版物有《中國統(tǒng)計摘要》、以《中國統(tǒng)計年鑒》為代表的統(tǒng)計年鑒系列等.例如,我們想了解2014年全國的交通事故情況,通過查找《中國統(tǒng)計年鑒》可以得到如表9.1-3所示的數(shù)據(jù).如果我們關(guān)心機(jī)動車交通事故逐年變化的情況,那么需要通過查找每年的數(shù)據(jù)表,并把它們合并整理.表9.1-32014年全國交通事故情況類型發(fā)生數(shù)/起死亡人數(shù)/人受傷人數(shù)/人直接財產(chǎn)損失/萬元機(jī)動車18032154944194887103386.0非機(jī)動車141752311157372719.4行人乘車人2242124711671403.5其他74219134.1總計19681258523211882107543隨著信息技術(shù)的發(fā)展,通過互聯(lián)網(wǎng)獲取數(shù)據(jù)越來越成為獲取二手?jǐn)?shù)據(jù)的主要方式.例如,可以從國家統(tǒng)計局的官方網(wǎng)站查詢得到國家統(tǒng)計局公布的各種統(tǒng)計數(shù)據(jù).在網(wǎng)絡(luò)上,也有專門提供數(shù)據(jù)服務(wù)的公司,它們提供政府部門允許公開的各類數(shù)據(jù).當(dāng)然,互聯(lián)網(wǎng)的最大優(yōu)勢是,人們可以利用強(qiáng)大的搜索功能,在整個網(wǎng)絡(luò)上查找所需要的數(shù)據(jù).但從網(wǎng)絡(luò)上查找的數(shù)據(jù),因為數(shù)據(jù)來歷和渠道多樣,所以質(zhì)量會參差不齊,必須根據(jù)問題背景知識“清洗”數(shù)據(jù),去偽存真,為進(jìn)一步的數(shù)據(jù)分析奠定基礎(chǔ).【練習(xí)】1.請從國家統(tǒng)計局網(wǎng)站上查找我國水資源及其使用情況的一些數(shù)據(jù),根據(jù)數(shù)據(jù)談?wù)劗?dāng)前保護(hù)水資源的重要性.2.近視是青少年存在的普遍問題,你能查找相關(guān)數(shù)據(jù),并利用數(shù)據(jù)說說近幾年我國在防治青少年近視上取得的成效嗎?習(xí)題9.1【復(fù)習(xí)鞏固】1.下列情況中哪些適合用全面調(diào)查,哪些適合用抽樣調(diào)查?說明理由.(1)了解某城市居民的食品消費(fèi)結(jié)構(gòu);(2)調(diào)查一個縣各村的糧食播種面積;(3)了解某地區(qū)小學(xué)生中患沙眼的人數(shù);(4)了解一批玉米種子的發(fā)芽率;(5)調(diào)查一條河流的水質(zhì);(6)某企業(yè)想了解其產(chǎn)品在市場的占有率.2.某刊物對其讀者進(jìn)行滿意度調(diào)查,調(diào)查表隨刊物送到讀者手中,對寄回的調(diào)查表進(jìn)行分析.這是不是一項抽樣調(diào)查?樣本抽取是不是屬于簡單隨機(jī)抽樣?為什么?3.中央電視臺希望在春節(jié)聯(lián)歡晩會播出后一周內(nèi)獲得該節(jié)目的收視率.下面是三名同學(xué)為電視臺設(shè)計的調(diào)查方案.同學(xué)A:我把這張《春節(jié)聯(lián)歡晩會收視率調(diào)查表》放在互聯(lián)網(wǎng)上,只要上網(wǎng)登錄該網(wǎng)址的人就可以看到這張表,他們填表的信息可以很快地反饋到我的電腦中.這樣,我就可以很快統(tǒng)計出收視率了.同學(xué)B:我給我們居民小區(qū)的每一個住戶發(fā)一份是否在除夕晩上看過中央電視臺春節(jié)聯(lián)歡晩會的調(diào)查表,只要一兩天就可以統(tǒng)計出收視率.同學(xué)C:我在電話號碼本上隨機(jī)地選出一定數(shù)量的電話號碼,然后逐個給他們打電話,問一下他們是否收看了中央電視臺春節(jié)聯(lián)歡晩會,我不出家門就可以統(tǒng)計出中央電視臺春節(jié)聯(lián)歡晩會的收視率.請問:上述三名同學(xué)設(shè)計的調(diào)查方案獲得比較準(zhǔn)確的收視率的可能性大嗎?為什么?4.下列從總體中抽得的樣本是否為簡單隨機(jī)樣本?(1)總體編號為1~75,在0~99中產(chǎn)生隨機(jī)整數(shù)r.若r=0或r(2)總體編號為1~75,在0~99中產(chǎn)生隨機(jī)整數(shù)r,(3)總體編號為6001~6876,在1~876范圍內(nèi)產(chǎn)生一個隨機(jī)整數(shù)r,把r+60005.一支田徑隊有男運(yùn)動員56人,女運(yùn)動員42人,按性別進(jìn)行分層,用分層隨機(jī)抽樣的方法從全體運(yùn)動員中抽出一個容量為28的樣本.如果樣本按比例分配,那么男、女運(yùn)動員應(yīng)各抽取多少名?【綜合運(yùn)用】6.數(shù)據(jù)x1,x2,?,xn的平均數(shù)為x,數(shù)據(jù)y7.已知總體劃分為3層,通過分層隨機(jī)抽樣,得到各層的樣本平均數(shù)分別為x,y,z.(1)根據(jù)以上信息可以估計總體平均數(shù)嗎?如果不能,還需要什么條件?寫出估計式.(2)如果樣本量是按比例分配,第1,2,3層的個體數(shù)分別為L,L8.校學(xué)生會希望調(diào)查學(xué)生對本學(xué)期學(xué)生活動計劃的意見.你自愿擔(dān)任調(diào)查員,并打算在學(xué)校里抽取10%的同學(xué)作為樣本.(1)怎樣安排抽樣,可以提高樣本的代表性?(2)在調(diào)查抽樣中你可能遇到哪些問題?(3)這些問題可能會影響什么?(4)你打算怎樣解決這些問題?9.一般來說,影響農(nóng)作物收成的因素有氣候、土質(zhì)、田間管理水平等.如果你是一個農(nóng)村調(diào)查隊成員,要在麥?zhǔn)占竟?jié)對你所在地區(qū)的小麥進(jìn)行估產(chǎn)調(diào)查,你將如何設(shè)計調(diào)查方案?【拓廣探索】10..如果調(diào)查目的是要確定被調(diào)查者的收人水平,請設(shè)計一種提問方法.11..你可能想了解全校同學(xué)生活、學(xué)習(xí)中的一些情況,例如,全校同學(xué)比較喜歡哪門課程,每月的零花錢平均是多少,喜歡看《新聞聯(lián)播》的同學(xué)的比例是多少,每天大約什么時間起床,每天睡眠的平均時間是多少,等.選一些自己關(guān)心的問題,設(shè)計一份調(diào)查問卷,利用簡單隨機(jī)抽樣方法調(diào)查你們學(xué)校同學(xué)的情況,并解釋你所得到的結(jié)論.12..查詢中央電視臺最近五年春節(jié)聯(lián)歡晩會的收視率,從中你能發(fā)現(xiàn)一些什么信息?查閱一些收視率調(diào)查所用的方法,在分析這些方法的合理性和不足的基礎(chǔ)上,請你自行設(shè)計一個調(diào)車收視率的方案.【信息技術(shù)應(yīng)用】統(tǒng)計軟件的應(yīng)用在統(tǒng)計中使用計算機(jī)技術(shù),不僅可以把人們從機(jī)械、煩瑣的數(shù)據(jù)整理、計算中解放出來,極大提高工作效率,而且能使大量人工難以完成的數(shù)據(jù)處理變成可能,從而促進(jìn)統(tǒng)計學(xué)的發(fā)展.現(xiàn)在,用統(tǒng)計軟件處理數(shù)據(jù)已成為統(tǒng)計學(xué)的組成部分.為了滿足不同需求,人們開發(fā)了功能各異的統(tǒng)計軟件.有些是專門的統(tǒng)計軟件,統(tǒng)計功能比較全面,如R,SAS,SPSS,S-Plus,Stata等;有些是有一定統(tǒng)計功能的軟件,如MicrosoftExcel,MATLAB,GeoGebra,《網(wǎng)絡(luò)畫板》等.通常,統(tǒng)計軟件的功能包括對數(shù)據(jù)進(jìn)行管理和組織,將數(shù)據(jù)轉(zhuǎn)化為可視化的圖表,對數(shù)據(jù)進(jìn)行統(tǒng)計計算和分析等.下面以電子表格軟件和R軟件為例,介紹統(tǒng)計軟件在統(tǒng)計分析中的應(yīng)用.一、電子表格軟件的簡單統(tǒng)計功能(一)產(chǎn)生隨機(jī)數(shù)1.用RAND()函數(shù)產(chǎn)生區(qū)間[0,1]內(nèi)的隨機(jī)數(shù)打開電子表格軟件,在單元格A1中輸入“=RAND()",按回車鍵,即可產(chǎn)生區(qū)間[0,1]內(nèi)的一個隨機(jī)數(shù).將鼠標(biāo)放在A1單元格的右下角,待鼠標(biāo)變?yōu)椤?"時,拖動A1單元格到A100,就可產(chǎn)生區(qū)間[0,1]內(nèi)的100個隨機(jī)數(shù).2.用RANDBETWEEN(a,b)函數(shù)產(chǎn)生區(qū)間[a例如,要產(chǎn)生區(qū)間[1,712]內(nèi)的一個整數(shù)隨機(jī)數(shù),只要在單元格中輸入“=RANDBETWEEN(1,712)”,按回車鍵即可.(二)隨機(jī)抽樣用軟件的數(shù)據(jù)分析工具,可以實(shí)現(xiàn)有放回簡單隨機(jī)抽樣.例如,從一組數(shù)據(jù)中有放回抽取容量為20的樣本,輸入數(shù)據(jù)后,在菜單欄中依次選擇“數(shù)據(jù)”“數(shù)據(jù)分析”-“抽樣”,點(diǎn)擊“確認(rèn)”按鈕,在彈出的對話框中把被抽樣的總體數(shù)據(jù)置于“輸入?yún)^(qū)域”中,在“抽樣方法”中選擇“隨機(jī)”,并輸入要抽取的樣本量“20”,設(shè)置“輸出選項”后,單擊“確定”即可.若“數(shù)據(jù)”菜單中沒有“數(shù)據(jù)分析”選項,則在“文件”菜單中依次點(diǎn)擊“選項”-“加載項”—“轉(zhuǎn)到”,在“可用加載宏”中選中“分析工具庫”和“分析工具庫-VBA",單擊“確定”即可把“數(shù)據(jù)分析”加載到菜單欄中.(三)統(tǒng)計量的計算在電子表格軟件的函數(shù)庫中,有一類統(tǒng)計函數(shù)提供了計算常用統(tǒng)計量的各種函數(shù),如AVERAGE()(平均數(shù)),MEDIAN()(中位數(shù)),MODE()(眾數(shù)),VAR.P()(方差),STDEV.P()(標(biāo)準(zhǔn)差),PERCENTILE.INC()(百分位數(shù)),等.可以直接輸入函數(shù)名稱進(jìn)行調(diào)用,也可以通過“揷入函數(shù)”的方式選擇調(diào)用.例如,求單元格A2到A101所有數(shù)據(jù)的平均數(shù),可以選一空白單元格,輸入“=AVERAGE(A2:A101)",或者在菜單欄中依次選擇“公式”-“函數(shù)庫”一一揷入函數(shù)”,調(diào)出函數(shù)“AVERAGE",再設(shè)置求平均數(shù)的單元格范圍.其他函數(shù)調(diào)用的操作過程類似,只是不同函數(shù)的參數(shù)設(shè)置有所不同,可以根據(jù)函數(shù)的說明進(jìn)行恰當(dāng)設(shè)置.二、R軟件的簡單統(tǒng)計功能R軟件是一款免費(fèi)軟件,可在其官方網(wǎng)站下載.它通過命令形式進(jìn)行操作.(一)產(chǎn)生隨機(jī)數(shù)1.用runif()函數(shù)產(chǎn)生區(qū)間[0,1]內(nèi)的隨機(jī)數(shù)例如,要產(chǎn)生100個區(qū)間[0,1]內(nèi)的隨機(jī)數(shù),在命令窗口中輸入"runif(100)"即可(圖1).2.用sample()函數(shù)產(chǎn)生區(qū)間[a例如,在命令窗口中輸入"sample(1:712,100,T)”,就產(chǎn)生了100個區(qū)間[1,712]內(nèi)的可重復(fù)的整數(shù)隨機(jī)數(shù).如果希望隨機(jī)數(shù)不可重復(fù),只要把圖1sample函數(shù)中的參數(shù)T改為F即可.(二)用sample()函數(shù)實(shí)現(xiàn)隨機(jī)抽樣例如,從一組數(shù)據(jù)1,2,3,3,4,4,5,6中,抽取一個容量為5的樣本.如果是有放回的抽取,在命令窗口中輸入x←c(1,2,3,3,4,4,5,6)如果是不放回的抽取,只要把sample函數(shù)中的參數(shù)T改為F即可.(三)統(tǒng)計量的計算在R軟件的命令窗口中,先將數(shù)據(jù)以向量形式輸入到R軟件中,再根據(jù)統(tǒng)計量調(diào)用相應(yīng)的函數(shù)求值,如mean()(平均數(shù)),median()(中位數(shù)),var()(方差),sd()(標(biāo)準(zhǔn)差),quantile()(分位數(shù))等.例如,求數(shù)據(jù)6,4,2,4,5的平均數(shù).在命令窗口輸入x←c(6,4,2,4,5)不同函數(shù)的參數(shù)設(shè)置可以查看軟件提供的幫助文檔.關(guān)于方差、標(biāo)準(zhǔn)差、分位數(shù)等統(tǒng)計量的含義,本章后續(xù)即有介紹.9.2用樣本估計總體收集數(shù)據(jù)是為了尋找數(shù)據(jù)中蘊(yùn)含的信息.因為實(shí)際問題中數(shù)據(jù)多而且雜亂,往往無法直接從原始數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,所以需要根據(jù)問題的背景特點(diǎn),選擇合適的統(tǒng)計圖表對數(shù)據(jù)進(jìn)行整理和直觀描述.在此基礎(chǔ)上,通過數(shù)據(jù)分析,找出數(shù)據(jù)中蘊(yùn)含的信息,就可以用這些信息來解決實(shí)際問題了.下面我們討論對隨機(jī)抽樣獲取的數(shù)據(jù)的處理方法.9.2.1總體取值規(guī)律的估計面對一個統(tǒng)計問題,在隨機(jī)抽樣獲得觀測數(shù)據(jù)的基礎(chǔ)上,需要根據(jù)數(shù)據(jù)分析的需要,選擇適當(dāng)?shù)慕y(tǒng)計圖表描述和表示數(shù)據(jù),獲得樣本的規(guī)律,并利用樣本的規(guī)律估計總體的規(guī)律,解決相應(yīng)的實(shí)際問題.請看下面的問題.問題1我國是世界上嚴(yán)重缺水的國家之一,城市缺水問題較為突出.某市政府為了減少水資源的浪費(fèi),計劃對居民生活用水費(fèi)用實(shí)施階梯式水價制度,即確定一戶居民月均用水量標(biāo)準(zhǔn)a,用水量不超過a的部分按平價收費(fèi),超出a的部分按議價收費(fèi).如果希望確定一個比較合理的標(biāo)準(zhǔn),以使大部分居民用戶的水費(fèi)支出不受影響,你認(rèn)為需要做哪些工作?每戶居民月均用水量標(biāo)準(zhǔn)如果定得太低,會影響很多居民的日常生活;如果標(biāo)準(zhǔn)太高,則不利于節(jié)水.為了確定一個較為合理的用水標(biāo)準(zhǔn),必須先了解在全市所有居民用戶中,月用水量在不同范圍內(nèi)的居民用戶所占的比例情況.如果經(jīng)費(fèi)、時間等條件允許,我們可以通過全面調(diào)查獲得過去一年全市所有居民用戶的月均用水量數(shù)據(jù),進(jìn)而得到月均用水量在不同范圍內(nèi)的居民用戶所占的比例.由于全市居民用戶很多,通常采用抽樣調(diào)查的方式,通過分析樣本觀測數(shù)據(jù),來估計全市居民用戶月均用水量的分布情況.在這個問題中,總體是該市的全體居民用戶,個體是每戶居民用戶,調(diào)查的變量是居民用戶的月均用水量.假設(shè)通過簡單隨機(jī)抽樣,獲得了100戶居民用戶的月均用水量數(shù)據(jù)(單位:t):9.013.6.14.9.5.9.4.0.7.16.45.4.19.4.2.02.2.8.6.13.85.4.10.24.96.814.0.2.0.10.52.1.5.7.5.1.16.8.6.0.11.1.1.3.11.2.7.7.4.92.3.10.0.16.7.12.0.12.4.7.8.5.2.13.6.2.6.22.43.6.7.1.8.8.25.6.3.2.18.3.5.1.2.0.3.0.12.022.2.10.8.5.5.2.0.24.3.9.9.3.6.5.6.4.4.7.95.124.5.6.4.7.5.4.7.20.5.5.5.15.7.2.6.5.75.56.0.16.02.4.9.5.3.7.17.0.3.8.4.1.2.35.3.7.8.8.1.4.3.13.36.8.1.3.7.0.4.9.1.87.1.28.0.10.2.13.8.17.9.10.1.5.5.4.6.3.2.21.6從這組數(shù)據(jù)我們能發(fā)現(xiàn)什么信息呢?如果將這組數(shù)據(jù)從小到大排序,容易發(fā)現(xiàn),這組數(shù)據(jù)的最小值是1.3t,最大值是28.0t,其他在1.3t至28.0t之間.為了更深人地挖掘數(shù)據(jù)蘊(yùn)含的信息,需要對數(shù)據(jù)作進(jìn)一步的整理與分析.為了探索一組數(shù)據(jù)的取值規(guī)律,一般先要用表格對數(shù)據(jù)進(jìn)行整理,或者用圖將數(shù)據(jù)直觀表示出來.在初中,我們曾用頻數(shù)分布表和頻數(shù)分布圖來整理和表示這種數(shù)值型數(shù)據(jù),由此能使我們清楚地知道數(shù)據(jù)分布在各個小組的個數(shù).在這個實(shí)際問題中,因為我們更關(guān)心月均用水量在不同范圍內(nèi)的居民用戶占全市居民用戶的比例,所以選擇頻率分布表(frequencydistributiontable)和頻率分布直方圖(frequencydistributionhistogram)來整理和表示數(shù)據(jù).與畫頻數(shù)分布直方圖類似,我們可以按以下步驟制作頻率分布表、畫頻率分布直方圖.【貼示】用表格整理數(shù)據(jù)是通過改變數(shù)據(jù)的組織方式,為數(shù)據(jù)的解釋提供新方式.用圖表示數(shù)據(jù)不僅有利于從數(shù)據(jù)中提取信息,還可以利用圖形傳遞信息.1.求極差極差為一組數(shù)據(jù)中最大值與最小值的差.樣本觀測數(shù)據(jù)的最小值是1.3t,最大值是28.0t,極差為28.這說明樣本觀測數(shù)據(jù)的變化范圍是26.7t.2.決定組距與組數(shù)合適的組距與組數(shù)對發(fā)現(xiàn)數(shù)據(jù)分布規(guī)律有重要意義.組數(shù)太多或太少,都會影響我們了解數(shù)據(jù)的分布情況.組距與組數(shù)的確定沒有固定的標(biāo)準(zhǔn),常常需要一個嘗試和選擇的過程.數(shù)據(jù)分組的組數(shù)與數(shù)據(jù)的個數(shù)有關(guān),一般數(shù)據(jù)的個數(shù)越多,所分組數(shù)也越多.當(dāng)樣本容量不超過100時,常分成5~12組.為方便起見,一般取等長組距,并且組距應(yīng)力求“取整”.分組時可以先確定組距,也可以先確定組數(shù).如果我們?nèi)∷薪M距為3,則極差組距【貼示】數(shù)據(jù)分組可以是等距的,也可以是不等距的,要根據(jù)數(shù)據(jù)的特點(diǎn)而定.有時為了方便,往往按等距分組,或者除了第一和最后的兩段,其他各段按等距分組.3.將數(shù)據(jù)分組由于組距為3,9個組距的長度超過極差,我們可以使第一組的左端點(diǎn)略小于數(shù)據(jù)中的最小值,最后一組的右端點(diǎn)略大于數(shù)據(jù)中的最大值.例如,可以取區(qū)間為[1.2,28.2],按如下方式把樣本觀測數(shù)據(jù)以組距3分為9組:[1.2,4.2),[4.2,7.2),?,[25.2,28.2]4.列頻率分布表計算各小組的頻率,例如第一小組的頻率是第一組頻數(shù)作出頻率分布表(表9.2-1).表9.2-15.畫頻率分布直方圖根據(jù)表9.2-1可以得到如圖9.2-1所示的頻率分布直方圖.在圖9.2-1中,橫軸表示月均用水量,縱軸表示頻率組距.這里,頻率組距小長方形的面積【邊空思考】頻率分布直方圖與頻數(shù)分布直方圖有什么區(qū)別?所以各小長方形的面積表示相應(yīng)各組的頻率.這樣,頻率分布直方圖就以面積的形式反映了數(shù)據(jù)落在各個小組的頻率的大小.容易知道,在頻率分布直方圖中,各小長方形的面積的總和等于1,即樣本數(shù)據(jù)落在整個區(qū)間的頻率為1.【貼示】利用統(tǒng)計軟件,可以快速、準(zhǔn)確地畫出頻率分布直方圖,頻率分布直方圖把樣本數(shù)據(jù)落在各小組的比例大小直觀化,更有利于我們從整體上把握數(shù)據(jù)分布的特點(diǎn).圖9.2-1【觀察】觀察表9.2-1和圖9.2-1,你覺得這組數(shù)據(jù)中蘊(yùn)含了哪些有用的信息?你能從圖表中發(fā)現(xiàn)居民用戶月均用水量的哪些分布規(guī)律?你能給出適當(dāng)?shù)恼Z言描述嗎?從頻率分布表9.2-1可以清楚地看出,樣本觀測數(shù)據(jù)落在各個小組的比例大小.例如,月均用水量在區(qū)間[4.2,7.2)內(nèi)的居民用戶最多,在區(qū)間[1.2,4.2)內(nèi)的次之,而月均用水量超過16.2的各區(qū)間內(nèi)數(shù)據(jù)所占比例較小,等等.從頻率分布直方圖9.2-1容易看出,居民用戶月均用水量的樣本觀測數(shù)據(jù)的分布是不對稱的,圖形的左邊高、右邊低,右邊有一個較長的“尾巴”.這表明大部分居民用戶的月均用水量集中在一個較低值區(qū)域,尤其在區(qū)間[1.2,7.2)最為集中,少數(shù)居民用戶的月均用水量偏多,而且隨著月均用水量的增加,居民用戶數(shù)呈現(xiàn)降低趨勢.有了樣本觀測數(shù)據(jù)的頻率分布,我們可以用它估計總體的取值規(guī)律.根據(jù)100戶居民用戶的月均用水量的頻率分布,可以推測該市全體居民用戶月均用水量也會有類似的分布,即大部分居民用戶月均用水量集中在較低值區(qū)域.這使我們確定用水量標(biāo)準(zhǔn)時,可以定一個合適的值,以達(dá)到既不影響大多數(shù)居民用戶的水費(fèi)支出,又能節(jié)水的目的.需要注意的是,由于樣本的隨機(jī)性,這種估計可能會存在一定誤差,但這一誤差一般不會影響我們對總體分布情況的大致了解.【探究】分別以3和27為組數(shù),對數(shù)據(jù)進(jìn)行等距分組,畫出100戶居民用戶月均用水量的頻率分布直方圖(圖9.2-2).觀察圖形,你發(fā)現(xiàn)不同的組數(shù)對于直方圖呈現(xiàn)數(shù)據(jù)分布規(guī)律有什么影響?(1)"組數(shù)為3"(2)“組數(shù)為27"圖9.2-2從圖9.2-2中可以看出,同一組數(shù)據(jù),組數(shù)不同,得到的直方圖形狀也不盡相同.圖9.2-2(1)中直方圖的組數(shù)少、組距大,從圖中容易看出,數(shù)據(jù)分布的整體規(guī)律是隨著月均用水量的增加,居民用戶數(shù)的頻率在降低,而且月均用水量在區(qū)間[1.2,10.2)內(nèi)的居民用戶數(shù)的頻率,遠(yuǎn)大于在另兩個區(qū)問[10.2,19.2)和[19.2,28.2]內(nèi)的頻率,這說明大部分居民用戶的月均用水量都少于10.2t.圖9.2-2(2)中直方圖的組數(shù)多、組距小,從圖中可以看出,數(shù)據(jù)主要集中在低值區(qū),尤其在區(qū)間[5.2,6.2)內(nèi)最為集中.從總體上看,隨著月均用水量的增加,居民用戶數(shù)的頻率呈現(xiàn)下降趨勢,但存在個別區(qū)間頻率變大或者缺失的現(xiàn)象.從上述分析可見,當(dāng)頻率分布直方圖的組數(shù)少、組距大時,容易從中看出數(shù)據(jù)整體的分布特點(diǎn),但由于無法看出每組內(nèi)的數(shù)據(jù)分布情況,損失了較多的原始數(shù)據(jù)信息;當(dāng)頻率分布直方圖的組數(shù)多、組距小時,保留了較多的原始數(shù)據(jù)信息,但由于小長方形較多,有時圖形會變得非常不規(guī)則,不容易從中看出總體數(shù)據(jù)的分布特點(diǎn).這里我們再次指出,對于同一組數(shù)據(jù),因為組距、組數(shù)不同而得到不同形狀的直方圖,會給人以不同的頻率分布印象,這種印象有時會影響人們對總體的判斷.因此,我們要注意積累數(shù)據(jù)分組、合理使用圖表的經(jīng)驗.【練習(xí)】1.從某小區(qū)抽取100戶居民用戶進(jìn)行月用電量調(diào)查,發(fā)現(xiàn)他們的用電量都在50~350kW?h之間,進(jìn)行適當(dāng)分組后(每組為左閉右開的區(qū)間),畫出頻率分布直方圖如圖所示.(1)直方圖中x的值為(2)在被調(diào)查的用戶中,用電量落在區(qū)間[100,2.如圖,胡曉統(tǒng)計了他爸爸9月的手機(jī)通話明細(xì)清單,發(fā)現(xiàn)他爸爸該月共通話60次.胡曉按每次通話時間長短進(jìn)行分組(每組為左閉右開的區(qū)間),畫出了頻率分布直方圖.(第2題)(1)通話時長在區(qū)間[15,20),[20,30)內(nèi)的次數(shù)分別為多少?(2)區(qū)間[203.請班上每位同學(xué)估計一下自己平均每天的課外學(xué)習(xí)時間(單位:min),然后統(tǒng)計數(shù)據(jù),作出全班同學(xué)課外學(xué)習(xí)時間的頻率分布直方圖.能否由這個頻率分布直方圖估計出你們學(xué)校全體學(xué)生課外學(xué)習(xí)時間的分布情況?可以用它來估計你所在地區(qū)(城市、鄉(xiāng)鎮(zhèn)或村莊)全體學(xué)生課外學(xué)習(xí)時間的分布情況嗎?為什么?除頻率分布直方圖外,我們在初中還學(xué)習(xí)過條形圖、扇形圖、折線圖、頻數(shù)分布直方圖等.不同的統(tǒng)計圖在表示數(shù)據(jù)上有不同的特點(diǎn).例如,扇形圖主要用于直觀描述各類數(shù)據(jù)占總數(shù)的比例,條形圖和直方圖主要用于直觀描述不同類別或分組數(shù)據(jù)的頻數(shù)和頻率,折線圖主要用于描述數(shù)據(jù)隨時間的變化趨勢.不同的統(tǒng)計圖適用的數(shù)據(jù)類型也不同.例如,條形圖適用于描述離散型的數(shù)據(jù),直方圖適用描述連續(xù)型數(shù)據(jù)等.因此,在解決問題的過程中,要根據(jù)實(shí)際問題的特點(diǎn),選擇恰當(dāng)?shù)慕y(tǒng)計圖對數(shù)據(jù)進(jìn)行可視化描述,以使我們能通過圖形直觀地發(fā)現(xiàn)樣本數(shù)據(jù)的分布情況,進(jìn)而估計總體的分布規(guī)律.例1已知某市2015年全年空氣質(zhì)量等級如表9.2-2所示.表9.2-2空氣質(zhì)量等級(空氣質(zhì)量指數(shù)(AQI)頻數(shù)頻率優(yōu)(AQI?50)8322.8%良(5012133.2%輕度污染(1006818.6%中度污染(1504913.4%重度污染(200308.2%嚴(yán)重污染(AQI143.8%合計365100%2016年5月和6月的空氣質(zhì)量指數(shù)如下:5月選擇合適的統(tǒng)計圖描述數(shù)據(jù),并回答下列問題:(1)分析該市2016年6月的空氣質(zhì)量情況.(2)比較該市2016年5月和6月的空氣質(zhì)量,哪個月的空氣質(zhì)量較好?(3)比較該市2016年6月與該市2015年全年的空氣質(zhì)量,2016年6月的空氣質(zhì)量是否好于去年?解:(1)根據(jù)該市2016年6月的空氣質(zhì)量指數(shù)和空氣質(zhì)量等級分級標(biāo)準(zhǔn),可以畫出該市這個月的不同空氣質(zhì)量等級的頻數(shù)與頻率分布表(表9.2-3).表9.2-3空氣質(zhì)量等級優(yōu)良.輕度污染中度污染重度污染嚴(yán)重污染合計天數(shù)415920030比例13.33%50%30%6.67%00100%從表中可以看出,“優(yōu)”“良”的天數(shù)達(dá)19天,占了整月的63.33%,沒有出現(xiàn)“重度污染”和“嚴(yán)重污染”.我們可以用條形圖和扇形圖對數(shù)據(jù)作出直觀的描述,如圖9.2-3和圖9.2-4.從條形圖中可以看出,在前三個等級的占絕大多數(shù),空氣質(zhì)量等級為“良”的天數(shù)最多,后三個等級的天數(shù)很少.從扇形圖中可以看出,空氣質(zhì)量為“良”的天數(shù)占了總天數(shù)的一半,大約有三分之二為“優(yōu)”“良”,大多數(shù)是“良”和“輕度污染”.因此,整體上6月的空氣質(zhì)量不錯.圖9.2-3圖9.2-4我們還可以用折線圖展示空氣質(zhì)量指數(shù)隨時間的變化情況,如圖9.2-5.容易發(fā)現(xiàn),6月的空氣質(zhì)量指數(shù)在100附近波動.圖9.2-5(2)根據(jù)該市2016年5月的空氣質(zhì)量指數(shù)和空氣質(zhì)量分級標(biāo)準(zhǔn),可以畫出該市這個月的不同空氣質(zhì)量等級的頻數(shù)和頻率分布表(表9.2-4).表9.2-4空氣質(zhì)量等級優(yōu)良輕度污染中度污染重度污染嚴(yán)重污染合計天數(shù)321511031頻率10%68%16%3%3%0100%為了便于比較,我們選用復(fù)合條形圖,將兩組數(shù)據(jù)同時反映到一個條形圖上.通過條形圖中柱的高低,可以更直觀地進(jìn)行兩個月的空氣質(zhì)量的比較(圖9.2-6).圖9.2-6由表9.2-4和圖9.2-6可以發(fā)現(xiàn),5月空氣質(zhì)量為“優(yōu)”和“良”的總天數(shù)比6月多.所以,從整體上看,5月的空氣質(zhì)量略好于6月,但5月有重度污染,而6月沒有.(3)把2016年6月和2015年全年的空氣質(zhì)量進(jìn)行比較,由于一個月和一年的天數(shù)差別很大,所以直接通過頻數(shù)比較沒有意義,應(yīng)該轉(zhuǎn)化成頻率分布進(jìn)行比較.可以通過二者的空氣質(zhì)量指數(shù)的頻率分布直方圖或空氣質(zhì)量等級的頻率分布條形圖進(jìn)行比較(圖9.2-7).圖9.2-7通過圖9.2-7可以看出,雖然2016年6月的空氣質(zhì)量為“優(yōu)”的頻率略低于2015年,但“良”的頻率明顯高于2015年,而且2016年6月中度以上的污染天氣頻率明顯小由此,你能得出?2016年的空氣質(zhì)量比2015年明顯改善了”的結(jié)論嗎?為什么?于2015年.所以從整體上看,2016年6月的空氣質(zhì)量要好于2015年全年的空氣質(zhì)量.練習(xí)1.某市2016年6月30天的空氣質(zhì)量指數(shù)如下:35你覺得這個月的空氣質(zhì)量如何?請設(shè)計適當(dāng)?shù)念l率分布直方圖展示這組數(shù)據(jù),并結(jié)合空氣質(zhì)量分級標(biāo)準(zhǔn)分析數(shù)據(jù).2.統(tǒng)計你們班所有同學(xué)的鞋號,選擇合適的統(tǒng)計圖進(jìn)行描述,并分析鞋號的分布有什么特點(diǎn).能用你們班同學(xué)鞋號的分布估計你所在學(xué)校全體高中學(xué)生鞋號的分布嗎?估計全國高中學(xué)生的鞋號分布呢?9.2.2總體百分位數(shù)的估計前面我們用頻率分布表、頻率分布直方圖描述了居民用戶月均用水量的樣本數(shù)據(jù),通過對圖表的觀察與分析,得出了一些樣本數(shù)據(jù)的頻率分布規(guī)律,并由此推測了該市全體居民用戶月均用水量的分布情況,得出了“大部分居民用戶的月均用水量集中在一個較低值區(qū)域”等推斷.接下來的問題是,如何利用這些信息,為政府決策服務(wù)呢?下面我們對此進(jìn)行討論.問題2如果該市政府希望使80%的居民用戶生活用水費(fèi)支出不受影響,根據(jù)9.2.1節(jié)中100戶居民用戶的月均用水量數(shù)據(jù),你能給市政府提出確定居民用戶月均用水量標(biāo)準(zhǔn)的建議嗎?首先要明確一下問題:根據(jù)市政府的要求確定居民用戶月均用水量標(biāo)準(zhǔn),就是要尋找一個數(shù)a,使全市居民用戶月均用水量中不超過a的占80%,大于a的占20%.下面我們通過樣本數(shù)據(jù)對a的值進(jìn)行估計.把100個樣本數(shù)據(jù)按從小到大排序,得到第80個和第81個數(shù)據(jù)分別為13.6和13.8.可以發(fā)現(xiàn),區(qū)間(13.6,13.8)內(nèi)的任意一個數(shù),都能把樣本數(shù)據(jù)分成符合要求的兩部分.一般地,我們?nèi)∵@兩個數(shù)的平均數(shù)13.6+13.82=13.7,并稱此數(shù)為這組數(shù)據(jù)的第80百分位數(shù)(percentile),或根據(jù)樣本數(shù)據(jù)的第80百分位數(shù),我們可以估計總體數(shù)值近似為第80百分位數(shù)即可,因此為了實(shí)際中操作的方便,可以建議市政府把月均用水量標(biāo)準(zhǔn)定為14t,或者把年用水量標(biāo)準(zhǔn)定為168t.【邊空思考】你所在的地區(qū)是采用階梯水價嗎?標(biāo)準(zhǔn)是多少?【邊空思考】你認(rèn)為14t這個標(biāo)準(zhǔn)一定能夠保證80%的居民用水不超標(biāo)嗎?如果不一定,那么哪些環(huán)節(jié)可能會導(dǎo)致結(jié)論的差別?一般地,一組數(shù)據(jù)的第p百分位數(shù)是這樣一個值,它使得這組數(shù)據(jù)中至少有p%的數(shù)據(jù)小于或等于這個值,且至少有(100-可以通過下面的步驟計算一組n個數(shù)據(jù)的第p百分位數(shù):第1步,按從小到大排列原始數(shù)據(jù).第2步,計算i=第3步,若i不是整數(shù),而大于i的比鄰整數(shù)為j,則第p百分位數(shù)為第j項數(shù)據(jù);若i是整數(shù),則第p百分位數(shù)為第i項與第(i【貼示】分位數(shù)的定義眾多,我們?nèi)∫环N簡單便于計算的我們在初中學(xué)過的中位數(shù),相當(dāng)于是第50百分位數(shù).在實(shí)際應(yīng)用中,除了中位數(shù)外,常用的分位數(shù)還有第25百分位數(shù),第75百分位數(shù).這三個分位數(shù)把一組由小到大排列后的數(shù)據(jù)分成四等份,因此稱為四分位數(shù).其中第25百分位數(shù)也稱為第一四分位數(shù)或下四分位數(shù)等,第75百分位數(shù)也稱為第三四分位數(shù)或上四分位數(shù)等.另外,像第1百分位數(shù),第5百分位數(shù),第95百分位數(shù)和第99百分位數(shù)在統(tǒng)計中也經(jīng)常被使用.例2根據(jù)9.1.2節(jié)問題3中女生的樣本數(shù)據(jù),估計樹人中學(xué)高一年級女生的第25,50,75百分位數(shù).解:把27名女生的樣本數(shù)據(jù)按從小到大排序,可得148.0由25%×27=6.75,50%×27=13.5,75%×27=20.25,可知樣本數(shù)據(jù)的第25,50,75百分位數(shù)為第7,14,21項數(shù)據(jù),分別為155.5,161,164.據(jù)此可以估計樹人中學(xué)高一年級女生的第25,50,75百分位數(shù)分別約為155.5,161和164.【貼示】由于女生的樣本量比較小,所以這里對總體的估計可能會存在比較大的誤差.例3根據(jù)表9.2-1或圖9.2-1,估計月均用水量的樣本數(shù)據(jù)的80%和95%分位數(shù).分析:在某些情況下,我們只能獲得整理好的統(tǒng)計表或統(tǒng)計圖,與原始數(shù)據(jù)相比,它們損失了一些信息.例如由表9.2-1,我們知道在[16.2,19.2)內(nèi)有5個數(shù)據(jù),但不知道這5個數(shù)據(jù)具體是多少.此時,我們通常把它們看成均勻地分布在此區(qū)間上.解:由表9.2-1可知,月均用水量在13.2t以下的居民用戶所占比例為23%+32%+13%+9%=77%在16.2t以下的居民用戶所占的比例為77%+9%=86%因此,80%分位數(shù)一定位于[13.2,16.2)內(nèi).由13.可以估計月均用水量的樣本數(shù)據(jù)的80%分位數(shù)約為14.2.類似地,由22.2+3×可以估計月均用水量的樣本數(shù)據(jù)的95%分位數(shù)約為22.95.【練習(xí)】1.在居民用戶月均用水量標(biāo)準(zhǔn)制定的問題中,根據(jù)教科書中的調(diào)查數(shù)據(jù),如果要讓60%的居民不超出標(biāo)準(zhǔn),居民用戶月均用水量標(biāo)準(zhǔn)定為多少合適?2.根據(jù)9.1.2節(jié)問題3中男生的樣本數(shù)據(jù),請你估計樹人中學(xué)高一年級男生的第25,50,75百分位數(shù).如果要減少估計的誤差,你覺得應(yīng)該怎么做?3.分別根據(jù)圖9.2-2(1)(2)中的數(shù)據(jù),估計這組數(shù)據(jù)的月均用水量的第80和95百分位數(shù).與根據(jù)圖9.2-1估計的結(jié)果比較,它們一樣嗎?你認(rèn)為根據(jù)哪個圖得到的估計更好?為什么?9.2.3總體集中趨勢的估計為了了解總體的情況,前面我們研究了如何通過樣本的分布規(guī)律估計總體的分布規(guī)律.但有時候,我們可能不太關(guān)心總體的分布規(guī)律,而更關(guān)注總體取值在某一方面的特征.例如,對于某縣今年小麥的收成情況,我們可能會更關(guān)注該縣今年小麥的總產(chǎn)量或平均每公頃的產(chǎn)量,而不是產(chǎn)量的分布;對于一個國家國民的身高情況,我們可能會更關(guān)注身高的平均數(shù)或中位數(shù),而不是身高的分布;等等.在初中的學(xué)習(xí)中我們已經(jīng)了解到,平均數(shù)、中位數(shù)和眾數(shù)等都是刻畫“中心位置”的量,它們從不同角度刻畫了一組數(shù)據(jù)的集中趨勢.下面我們通過具體實(shí)例進(jìn)一步了解這些量的意義,探究它們之間的聯(lián)系與區(qū)別,并根據(jù)樣本的集中趨勢估計總體的集中趨勢.例4利用9.2.1節(jié)中100戶居民用戶的月均用水量的調(diào)查數(shù)據(jù),計算樣本數(shù)據(jù)的平均數(shù)和中位數(shù),并據(jù)此估計全市居民用戶月均用水量的平均數(shù)和中位數(shù).解:根據(jù)9.2.1節(jié)中100戶居民用戶月均用水量的數(shù)據(jù),由樣本平均數(shù)的定義,可得y即100戶居民的月均用水量的平均數(shù)為8.79t.將樣本數(shù)據(jù)按從小到大排序,得第50個數(shù)和第51個數(shù)均為6.8,由中位數(shù)的定義,可得即100戶居民的月均用水量的中位數(shù)是6.6t.【邊空思考】假設(shè)某個居民小區(qū)有2000P因為數(shù)據(jù)是抽自全市居民戶的簡單隨機(jī)樣本,所以我們可以據(jù)此估計全市居民用戶的月均用水量約為8.79t,其中位數(shù)約為6.8t.【思考】小明用統(tǒng)計軟件計算了100戶居民用水量的平均數(shù)和中位數(shù).但在錄入數(shù)據(jù)時,不小心把一個數(shù)據(jù)7.7錄成了77.請計算錄入數(shù)據(jù)的平均數(shù)和中位數(shù),并與真實(shí)的樣本平均數(shù)和中位數(shù)作比較.哪個量的值變化更大?你能解釋其中的原因嗎?通過簡單計算可以發(fā)現(xiàn),平均數(shù)由原來的8.79t變?yōu)?.483t,中位數(shù)沒有變化,還是6.6t.這是因為樣本平均數(shù)與每一個樣本數(shù)據(jù)有關(guān),樣本中的任何一個數(shù)據(jù)的改變都會引起平均數(shù)的改變;但中位數(shù)只利用了樣本數(shù)據(jù)中間位置的一個或兩個值,并末利用其他數(shù)據(jù),所以不是任何一個樣本數(shù)據(jù)的改變都會引起中位數(shù)的改變.因此,與中位數(shù)比較,平均數(shù)反映出樣本數(shù)據(jù)中的更多信息,對樣本中的極端值更加敏感.【探究】乎均數(shù)和中位數(shù)都描述了數(shù)據(jù)的集中趨勢,它們的大小關(guān)系和數(shù)據(jù)分布的形態(tài)有關(guān).在圖9.2-8的三種分布形態(tài)中,平均數(shù)和中位數(shù)的大小存在什么關(guān)系?平均數(shù)、中位數(shù)(1)中位數(shù)平均數(shù)(2)(3)圖9.2-8一般來說,對一個單峰的頻率分布直方圖來說,如果直方圖的形狀是對稱的(圖9.2-8(1)),那么平均數(shù)和中位數(shù)應(yīng)該大體上差不多;如果直方圖在右邊“拖尾”(圖9.2-8(2)),那么平均數(shù)大于中位數(shù);如果直方圖在左邊“拖尾”(圖9.2-8(3)),那么平均數(shù)小于中位數(shù).也就是說,和中位數(shù)相比,平均數(shù)總是在“長尾巴”那邊.例5某學(xué)校要定制高一年級的校服,學(xué)生根據(jù)廠家提供的參考身高選擇校服規(guī)格.據(jù)統(tǒng)計,高一年級女生需要不同規(guī)格校服的頻數(shù)如表9.2-5所示.表9.2-5校服規(guī)格155160165170175合計頻數(shù)39641679026386如果用一個量來代表該校高一年級女生所需校服的規(guī)格,那么在中位數(shù)、平均數(shù)和眾數(shù)中,哪個量比較合適?試討論用表9.2-5中的數(shù)據(jù)估計全國高一年級女生校服規(guī)格的合理性.分析:雖然校服規(guī)格是用數(shù)字表示的,但它們事實(shí)上是幾種不同的類別.對于這樣的分類數(shù)據(jù),用眾數(shù)作為這組數(shù)據(jù)的代表比較合適.解:為了更直觀地觀察數(shù)據(jù)的特征,我們用條形圖來表示表中的數(shù)據(jù)(圖9.2-9).可以發(fā)現(xiàn),選擇校服規(guī)格為“165”的女生的頻數(shù)最高,所以用眾數(shù)165作為該校高一年級女生校服的規(guī)格比較合適.由于全國各地的高一年級女生的身高存在一定的差異,所以用一個學(xué)校的數(shù)據(jù)估計全國高一年級女生的校服規(guī)格不合理.圖9.2-9眾數(shù)只利用了出現(xiàn)次數(shù)最多的那個值的信息.眾數(shù)只能告訴我們它比其他值出現(xiàn)的次數(shù)多,但并末告訴我們它比別的數(shù)值多的程度.因此,眾數(shù)只能傳遞數(shù)據(jù)中的信息的很少一部分,對極端值也不敏感.一般地,對數(shù)值型數(shù)據(jù)(如用水量、身高、收人、產(chǎn)量等)集中趨勢的描述,可以用平均數(shù)、中位數(shù);而對分類型數(shù)據(jù)(如校服規(guī)格、性別、產(chǎn)品質(zhì)量等級等)集中趨勢的描述,可以用眾數(shù).【探究】樣本的平均數(shù)、中位數(shù)和眾數(shù)可以分別作為總體的平均數(shù)、中位數(shù)和眾數(shù)的估計,但在某些情況下我們無法獲知原始的樣本數(shù)據(jù).例如,我們在報紙、網(wǎng)絡(luò)上獲得的往往是已經(jīng)整理好的統(tǒng)計表或統(tǒng)計圖.這時該如何估計樣本的平均數(shù)、中位數(shù)和眾數(shù)?你能以圖9.2-1中頻率分布直方圖提供的信息為例,給出估計方法嗎?在頻率分布直方圖中,我們無法知道每個組內(nèi)的數(shù)據(jù)是如何分布的.此時,通常假設(shè)它們在組內(nèi)均勻分布.這樣就可以獲得樣本的平均數(shù)、中位數(shù)和眾數(shù)的近似估計,進(jìn)而估計總體的平均數(shù)、中位數(shù)和眾數(shù).因為樣本平均數(shù)可以表示為數(shù)據(jù)與它的頻率的乘積之和,所以在頻率分布直方圖中,樣本平均數(shù)可以用每個小矩形底邊中點(diǎn)的橫坐標(biāo)與小矩形的面積的乘積之和近似代替.如圖9.2-10所示,可以測出圖中每個小矩形的高度,于是平均數(shù)的近似值為0.077×3×1.2+4.22+0.107×3×圖9.2-10根據(jù)中位數(shù)的意義,在樣本中,有50%的個體小于或等于中位數(shù),也有50%的個體大于或等于中位數(shù).因此,在頻率分布直方圖中,中位數(shù)左邊和右邊的直方圖的面積應(yīng)該相等.由于0.077×3=0.231,(0.077+0.107)×3=0.552.因此中位數(shù)落在區(qū)間[4.2,7.2)內(nèi).設(shè)中位數(shù)為x,由0.077×3+0.107×(得到x≈6.71.因此,中位數(shù)約為6.71,如圖9.2-11所示.這個結(jié)果與根據(jù)原始數(shù)據(jù)求得的中位數(shù)6.6圖9.2-11在頻率分布直方圖9.2-1中,月均用水量在區(qū)間[4.2,7.2)內(nèi)的居民最多,可以將這個區(qū)間的中點(diǎn)5.7作為眾數(shù)的估計值,如圖9.2-12所示.眾數(shù)常用在描述分類型數(shù)據(jù)中,在這個實(shí)際問題中,眾數(shù)“5.7”讓我們知道月均用水量在區(qū)間[4.2,7.2)內(nèi)的居民用戶最多.這個信息具有實(shí)際意義.圖9.2-12以上我們討論了平均數(shù)、中位數(shù)和眾數(shù)等特征量在刻畫一組數(shù)據(jù)的集中趨勢時的各自特點(diǎn),并研究了用樣本的特征量估計總體的特征量的方法.需要注意的是,這些特征量有時也會被利用而產(chǎn)生誤導(dǎo).例如,假設(shè)你到人力市場去找工作,有一個企業(yè)老板告訴你,“我們企業(yè)員工的年平均收人是20萬元”,你該如何理解這句話?這句話是真實(shí)的,但它可能描述的是差異巨大的實(shí)際情況.例如,可能這個企業(yè)的工資水平普遍較高,也就是員工年收人的中位數(shù)、眾數(shù)與平均數(shù)差不多;也可能是絕大多數(shù)員工的年收入較低(如大多數(shù)是5萬元左右),而少數(shù)員工的年收人很高,甚至達(dá)到100萬元,在這種情況下年收入的平均數(shù)就比中位數(shù)大得多.盡管在后一種情況下,用中位數(shù)或眾數(shù)比用平均數(shù)更合理些,但這個企業(yè)的老板為了招攬員工,卻用了平均數(shù).所以,我們要強(qiáng)調(diào)“用數(shù)據(jù)說話”,但同時又要防止被數(shù)據(jù)誤導(dǎo),這就需要掌握更多的統(tǒng)計知識和方法.【練習(xí)】1.根據(jù)表9.2-2中的數(shù)據(jù),估計該市2015年全年空氣質(zhì)量指數(shù)的平均數(shù)、中位數(shù)和第80百分位數(shù).(注:已知該市屬于“嚴(yán)重污染”等級的空氣質(zhì)量指數(shù)不超過400)2.假設(shè)你是某市一名交通部門的工作人員,你打算向市長報告國家對本市26個公路項目投資的平均資金數(shù)額.已知國家對本市一條新公路的建設(shè)投資為2000萬元人民幣,對另外25個公路項目的投資是20~100萬元,這26個投資金額的中位數(shù)是25萬元,平均數(shù)是100萬元,眾數(shù)是20萬元.請你根據(jù)上面的信息給市長寫一份簡要的報告.3.某校舉行演講比賽,10位評委對兩位選手的評分如下:甲選手的最終得分為去掉一個最低分和一個最高分之后,剩下8個評分的平均數(shù).那么,這兩個選手的最后得分是多少?若直接用10位評委評分的平均數(shù)作為選手的得分,兩位選手的排名有變化嗎?你認(rèn)為哪種評分辦法更好?為什么?【閱讀與思考】統(tǒng)計學(xué)在軍事中的應(yīng)用一二戰(zhàn)時德國坦克總量的估計問題俗話說,知已知彼方能百戰(zhàn)百勝.在第二次世界大戰(zhàn)期間,德國制造坦克的技術(shù)非常先進(jìn),坦克的大量使用使納粹德國占據(jù)了戰(zhàn)場主動權(quán).因此,了解德軍坦克的生產(chǎn)能力對盟軍具有非常重要的戰(zhàn)略意義.為此,除了通過常規(guī)情報收集信息外,盟軍請來了統(tǒng)計學(xué)家參與情報的收集和分析工作.根據(jù)德國戰(zhàn)后公布的生產(chǎn)記錄顯示,運(yùn)用統(tǒng)計方法估計的結(jié)果與真實(shí)值非常接近,而通過常規(guī)情報進(jìn)行的估計則與真實(shí)值相去甚遠(yuǎn).下表是二戰(zhàn)期間的三個月中,德國記錄的生產(chǎn)坦克的數(shù)目和情報估計、統(tǒng)計估計的坦克數(shù)目.表1時間德國記錄/輛情報估計/輛統(tǒng)計估計/輛1940年6月12210001691941年6月27115502441942年8月3421550327統(tǒng)計估計有如此高的精確度,統(tǒng)計學(xué)家是怎么做到的呢?原來,盟軍在繳獲的德軍坦克上發(fā)現(xiàn)了一個重要的線索一每輛坦克上都有一個獨(dú)一無二的發(fā)動機(jī)序列號.據(jù)分析,序列號前面6位表示生產(chǎn)的年月,最后4位是按生產(chǎn)順序從1開始的連續(xù)編號.統(tǒng)計學(xué)家主要是將繳獲的德軍坦克序列號作為樣本,用樣本估計總體的方法得出推斷的.假設(shè)德軍某月生產(chǎn)的坦克總數(shù)為N,繳獲的該月生產(chǎn)的n輛坦克編號從小到大為x1,x因為生產(chǎn)的坦克是連續(xù)編號的,所以繳獲坦克的編號x1,x2,?,xn相當(dāng)于從[1,N]中隨機(jī)抽取的n個整數(shù),這n圖1由于這n個數(shù)是隨機(jī)抽取的,所以可以用前n個區(qū)間的平均長度xnn估計所有(n+1)個區(qū)間的平均長度Nn+1,進(jìn)而得到N的估計.例如,繳獲坦克的編號為12當(dāng)年,統(tǒng)計學(xué)家就是利用上述方法估計德軍每月生產(chǎn)的坦克數(shù)的.你還能想出其他估計德軍每月生產(chǎn)的坦克數(shù)的方法嗎?例如,用樣本編號的平均數(shù)作為每月生產(chǎn)坦克編號的平均數(shù)等,比較一下哪種方法更合理.9.2.4總體離散程度的估計平均數(shù)、中位數(shù)和眾數(shù)為我們提供了一組數(shù)據(jù)的集中趨勢的信息,這是概括一組數(shù)據(jù)的特征的有效方法.但僅知道集中趨勢的信息,很多時候還不能使我們做出有效決策,下面的問題就是一個例子.問題3有兩位射擊運(yùn)動員在一次射擊測試中各射靶10次,每次命中的環(huán)數(shù)如下:甲如果你是教練,你如何對兩位運(yùn)動員的射擊情況作出評價?如果這是一次選拔性考核,你應(yīng)當(dāng)如何作出選擇?通過
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個人二手房交易安全保障協(xié)議3篇
- 二零二五版羅馬柱歷史文化遺址保護(hù)合同4篇
- 二零二五版藥店營業(yè)員藥品配送及聘用合同4篇
- 2025版投資經(jīng)理借貸雙方合作協(xié)議書3篇
- 二零二五年度國際藝術(shù)品拍賣交易合同3篇
- 二零二五年度出差工作成果評估與獎勵合同3篇
- 2025年度戶外景觀設(shè)計施工與后期養(yǎng)護(hù)合同4篇
- 2025版投標(biāo)文件制作及審核服務(wù)合同模板3篇
- 2025年度蘋果種植基地水資源利用合同4篇
- 2025版企業(yè)委托持股法律事務(wù)處理合同3篇
- 中央2025年國務(wù)院發(fā)展研究中心有關(guān)直屬事業(yè)單位招聘19人筆試歷年參考題庫附帶答案詳解
- 2024年09月北京中信銀行北京分行社會招考(917)筆試歷年參考題庫附帶答案詳解
- 外呼合作協(xié)議
- 小學(xué)二年級100以內(nèi)進(jìn)退位加減法800道題
- 保險公司2025年工作總結(jié)與2025年工作計劃
- 2024年公司領(lǐng)導(dǎo)在新年動員會上的講話樣本(3篇)
- 眼科護(hù)理進(jìn)修專題匯報
- GB/T 33629-2024風(fēng)能發(fā)電系統(tǒng)雷電防護(hù)
- 深靜脈血栓(DVT)課件
- 2023年四川省廣元市中考數(shù)學(xué)試卷
- GB/T 19885-2005聲學(xué)隔聲間的隔聲性能測定實(shí)驗室和現(xiàn)場測量
評論
0/150
提交評論