版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
統(tǒng)計(jì)學(xué):思想、方法與應(yīng)用第1章什么是統(tǒng)計(jì)學(xué)?如何運(yùn)用統(tǒng)計(jì)學(xué)?統(tǒng)計(jì)學(xué)的基本概念數(shù)據(jù)的收集數(shù)據(jù)陣/數(shù)據(jù)文件統(tǒng)計(jì)學(xué)和數(shù)學(xué)、統(tǒng)計(jì)軟件的關(guān)系學(xué)習(xí)目標(biāo)用一句話說(shuō)明統(tǒng)計(jì)學(xué);理解我們?yōu)槭裁匆獙W(xué)習(xí)統(tǒng)計(jì)學(xué);懂得如何運(yùn)用統(tǒng)計(jì)學(xué);知道統(tǒng)計(jì)學(xué)的基本概念;什么是描述統(tǒng)計(jì)學(xué)和推斷統(tǒng)計(jì)學(xué);了解數(shù)據(jù)如何收集以及數(shù)據(jù)收集中存在的問(wèn)題;知道常用的統(tǒng)計(jì)軟件。
數(shù)據(jù)顯示,2010年中國(guó)名義GDP為58786億美元,GDP增速為
10%左右。而2010年日本名義GDP為54742億美元,GDP增速為3.9%。中國(guó)GDP比日本多4044億美元,這意味著中國(guó)超越日本
成為世界第二大經(jīng)濟(jì)體。盡管中國(guó)總量GDP超過(guò)日本,但中國(guó)人均GDP卻只有日本1/10,在世界排名第100位左右,不到世界平
均水平的一半。這樣的結(jié)果對(duì)我們意味著什么呢?毫無(wú)疑問(wèn),我們需要知道一些統(tǒng)計(jì)知識(shí)。1960到2009全球主要國(guó)家人均GDP的增長(zhǎng)圖表(來(lái)源:Google網(wǎng)站)
作為一名潛在的汽車(chē)購(gòu)買(mǎi)者和一名有責(zé)任心的市民,你樂(lè)意為保護(hù)地球生態(tài)環(huán)境應(yīng)有的貢獻(xiàn)。根據(jù)最新的研究結(jié)果,消費(fèi)者的行為對(duì)自然資源到底有怎樣的影響呢?你應(yīng)該買(mǎi)使用柴油發(fā)動(dòng)機(jī)的汽車(chē),還是購(gòu)買(mǎi)電動(dòng)車(chē),或者干脆騎自行車(chē)呢?報(bào)紙、雜志或網(wǎng)絡(luò)中的統(tǒng)計(jì)結(jié)果對(duì)于你的決定非常關(guān)鍵,這些結(jié)果建議你該有怎樣的消費(fèi)觀。低碳社會(huì)要求汽車(chē)廠商根據(jù)他們的總產(chǎn)量生產(chǎn)一定比例的電動(dòng)車(chē),以減少機(jī)動(dòng)車(chē)造成的空氣污染,這已開(kāi)始成為整個(gè)國(guó)家的趨勢(shì)。對(duì)于立法者來(lái)說(shuō),統(tǒng)計(jì)信息在使他們相信并檢測(cè)使用電動(dòng)車(chē)在改進(jìn)空氣質(zhì)量上的有效性方面起著關(guān)鍵性的作用。
在金融危機(jī)發(fā)生后,各國(guó)政府對(duì)于國(guó)家經(jīng)濟(jì)的現(xiàn)狀和對(duì)未來(lái)經(jīng)濟(jì)走勢(shì)的預(yù)測(cè)十分關(guān)注,每個(gè)月都要編制CPI等各類指數(shù)以評(píng)價(jià)通貨膨脹情況。有關(guān)商品銷售額、新開(kāi)工的住宅、貨幣流通以及工業(yè)生產(chǎn)的信息僅僅是構(gòu)成預(yù)測(cè)基礎(chǔ)的成百上千類信息的一小部分。我們?cè)撊绾谓庾x這些數(shù)據(jù)呢?知道一些統(tǒng)計(jì)知識(shí)有助于我們知道這些數(shù)據(jù)是如何與我們的生活息息相關(guān)的。
假設(shè)你是市場(chǎng)部的新任經(jīng)理,一次廣告活動(dòng)的統(tǒng)計(jì)結(jié)果擺到了你面前,聲稱某個(gè)結(jié)果是“統(tǒng)計(jì)顯著”的。你如何解釋這份報(bào)告而又不暴露你對(duì)該術(shù)語(yǔ)的無(wú)知呢?趕快學(xué)點(diǎn)統(tǒng)計(jì),這對(duì)你和你的事業(yè)都非常有用。1.1什么是統(tǒng)計(jì)學(xué)在三百多年前,統(tǒng)計(jì)的英文單詞Statistics首次被人們應(yīng)用。統(tǒng)計(jì)學(xué)是研究收集數(shù)據(jù),整理數(shù)據(jù),分析數(shù)據(jù)以及由數(shù)據(jù)分析得出結(jié)論的方法,簡(jiǎn)稱為“數(shù)據(jù)的科學(xué)”。2010年6月3日,第64屆聯(lián)合國(guó)大會(huì)第90次會(huì)議通過(guò)決議確定每年10月20日為“世界統(tǒng)計(jì)日”。
20
1年初,國(guó)務(wù)院學(xué)位委員會(huì)在新的研究生專業(yè)目錄中將統(tǒng)計(jì)學(xué)上升為一級(jí)學(xué)科,為統(tǒng)計(jì)學(xué)科和統(tǒng)計(jì)教育的發(fā)展提供了更廣闊的平臺(tái),也顯示出統(tǒng)計(jì)對(duì)科學(xué)研究、經(jīng)濟(jì)增長(zhǎng)和社會(huì)發(fā)展的重要性。人物小傳:瓦爾德有人把統(tǒng)計(jì)學(xué)定義為數(shù)據(jù)處理的一門(mén)藝術(shù),瓦爾德(A.Wald,1902—1950年)的事例就是明證。
瓦爾德是二戰(zhàn)時(shí)期的統(tǒng)計(jì)學(xué)家,他發(fā)明的一些統(tǒng)計(jì)方法在戰(zhàn)時(shí)被視為軍事機(jī)密。
瓦爾德被咨詢飛機(jī)上什么部位應(yīng)該加強(qiáng)鋼板時(shí),他開(kāi)始研究從戰(zhàn)役中返航的軍機(jī)上受敵軍創(chuàng)傷的彈孔位置。他畫(huà)了飛機(jī)的輪廓,并且標(biāo)示出彈孔的位置。資料累積一段時(shí)間后,幾乎把機(jī)身各部位都填滿了。于是瓦爾德提議,把剩下少數(shù)幾個(gè)沒(méi)有彈孔的部位補(bǔ)強(qiáng)……因?yàn)檫@些部位被擊中的飛機(jī)都沒(méi)有返航。
這是一個(gè)簡(jiǎn)單但近乎完美的實(shí)例,簡(jiǎn)單的統(tǒng)計(jì)方法一旦融入了統(tǒng)計(jì)學(xué)家的智慧,便顯得生動(dòng)而唯美!1.2如何運(yùn)用統(tǒng)計(jì)學(xué)統(tǒng)計(jì)在許多學(xué)科中得到廣泛的應(yīng)用。比如說(shuō),學(xué)術(shù)研究雜志就依賴于統(tǒng)計(jì)結(jié)果。在許多學(xué)科中,一篇文章是否能夠發(fā)表在主要雜志上,在很大程度上取決于該文章是否能正確地使用統(tǒng)計(jì)方法。除了學(xué)術(shù)領(lǐng)域,統(tǒng)計(jì)在其他領(lǐng)域也被人們廣泛使用。統(tǒng)計(jì)在工業(yè)中得到大量使用,尤其用于研究新產(chǎn)品、質(zhì)量控制和市場(chǎng)開(kāi)發(fā)中;市場(chǎng)調(diào)查也需要統(tǒng)計(jì)。讀者文摘的總統(tǒng)選舉調(diào)查這個(gè)故事有關(guān)一次著名的失敗的統(tǒng)計(jì)調(diào)查。在1936年美國(guó)總統(tǒng)選舉前,一份名為讀者文摘(LiterαryDigest)的雜志曾進(jìn)行了一次民意調(diào)查。調(diào)查的焦點(diǎn)是誰(shuí)將成為下一屆總統(tǒng)——是挑戰(zhàn)者,堪薩斯州州長(zhǎng)阿爾夫·蘭登(AlfLandon),還是現(xiàn)任總統(tǒng)富蘭克林·德拉諾·羅斯福(Franklin
Delano
Roosevelt)。為了了解選民意向,民意調(diào)查專家們根據(jù)電話簿和車(chē)輛登記簿上的名單給一大批人發(fā)了簡(jiǎn)單的調(diào)查表(電話和汽車(chē)在1936-年并不像現(xiàn)在這樣普遍,但是這些名單比較容易得到)。盡管發(fā)出的調(diào)查表大約有一千萬(wàn)張,但收回的比例并不高。在收回的調(diào)查表中,蘭登非常受歡迎。于是,該雜志預(yù)測(cè)蘭登將贏得選舉。你可能對(duì)聲稱蘭登將贏得選舉的預(yù)測(cè)結(jié)果有疑問(wèn)。正如你所懷疑的,在經(jīng)濟(jì)大蕭條時(shí)期調(diào)查擁有電話和汽車(chē)的人們,并不能夠很好地反映全體選民的觀點(diǎn)。此外,只有少數(shù)的調(diào)查表被收回,這一點(diǎn)也是值得懷疑的。事實(shí)表明,最終是羅斯福而不是蘭登贏得了這次選舉。由此可見(jiàn),那次的調(diào)查結(jié)果有多么錯(cuò)誤了。當(dāng)前大多數(shù)應(yīng)用統(tǒng)計(jì)不會(huì)像這個(gè)例子錯(cuò)得那樣厲害,但即便在今天,我們也很容易發(fā)現(xiàn)統(tǒng)計(jì)被誤用的情況,尤其在需要考慮選擇正確的樣本時(shí)。1.3統(tǒng)計(jì)學(xué)的基本概念1.3.1隨機(jī)性和規(guī)律性當(dāng)我們不能預(yù)測(cè)一件事情的結(jié)果時(shí),這件事就和隨機(jī)性聯(lián)系起來(lái)了。例如,擲硬幣,參加統(tǒng)計(jì)考試是否會(huì)達(dá)到預(yù)期的分?jǐn)?shù)。當(dāng)把大量隨機(jī)事件放在一起時(shí),就表現(xiàn)出令人驚奇的規(guī)律性。比如,考察擲硬幣這樣的隨機(jī)事件,如果你將同樣的硬幣擲
100次,經(jīng)驗(yàn)告訴我們差不多50次正面朝上,50次反面朝上。類似地,盡管每個(gè)人死于二手煙的可能性很小,但是全球每年有60萬(wàn)人死于二手煙,這個(gè)恐怖的數(shù)字卻令人難以置信地穩(wěn)定。通過(guò)對(duì)看起來(lái)隨機(jī)的現(xiàn)象進(jìn)行統(tǒng)計(jì)分析,統(tǒng)計(jì)知識(shí)能夠幫助我們把隨機(jī)性歸納于可能的規(guī)律性中。統(tǒng)計(jì)從我們?nèi)绾斡^察事物和事物本身如何真正發(fā)生這兩個(gè)方面幫助我們理解隨機(jī)性和規(guī)律性的重要性。因此,統(tǒng)計(jì)可以看做是一項(xiàng)對(duì)隨機(jī)性中的規(guī)律性的研究。1.3.1隨機(jī)性和規(guī)律性規(guī)律也表現(xiàn)出某種隨機(jī)性。如果你再擲100次硬幣,正面朝上的次數(shù)幾乎不會(huì)和前100次完全一樣。在第一個(gè)100次中,也許有52次硬幣的正面朝上,然而在第二個(gè)100次中,也許就有49次正面朝上。這種偏差不僅僅發(fā)生于擲硬幣時(shí),而且發(fā)生于調(diào)查、實(shí)驗(yàn)和其它任何一種方式的數(shù)據(jù)收集中。比如在某次調(diào)查中,如果對(duì)兩個(gè)不同群的人做同樣的調(diào)查,則有不同的比例的人支持這一觀點(diǎn)。這兩個(gè)比例之間的差異主要是由于數(shù)據(jù)本身的隨機(jī)性引起的。在這種意義下來(lái)說(shuō),統(tǒng)計(jì)就成了對(duì)數(shù)據(jù)中的偏差問(wèn)題的研究。根據(jù)作為統(tǒng)計(jì)基礎(chǔ)的數(shù)學(xué)理論,我們可以確定一項(xiàng)調(diào)查中的某一比例有多大的隨機(jī)性,以及在下一次的重復(fù)調(diào)查中,這個(gè)比例可能有多大的偏差。我們還可以指出,兩個(gè)比例之間的差異是否大到了隨機(jī)性本身所不能解釋的地步。我們將在以后章節(jié)中詳細(xì)討論這些思想。1.3.2概率因?yàn)樯婕暗诫S機(jī)性,統(tǒng)計(jì)學(xué)還需要一個(gè)很重要的概念——概率(probability)。概率是一個(gè)0到1之間的數(shù),它告訴我們某一事件發(fā)生的機(jī)會(huì)有多大。概率為統(tǒng)計(jì)學(xué)的第三個(gè)方面——如何從數(shù)據(jù)中得出結(jié)論——奠定了基石。我們可能永遠(yuǎn)不能確定兩個(gè)數(shù)字的差異是否超出了隨機(jī)性本身所預(yù)期的范圍,但是我們可以確定,這種差異發(fā)生的概率是大還是小。根據(jù)這個(gè)基本思想,在很多情況下,我們可以得出關(guān)于我們所處的這個(gè)世界的重要結(jié)論。我們將在第四章及其后章節(jié)中詳細(xì)闡述。1.3.3變量變量(variable)是指一個(gè)可以取兩個(gè)或更多個(gè)可能值的特征、特質(zhì)或 屬性。比如,性別是取兩個(gè)值的變量,因?yàn)橐粋€(gè)人只可能是男性或女性。還有其它變量的例子,如人的壽命,體重,以及汽車(chē)每升汽油所能行駛的距離,等等。圖1.1變量及其取值1.3.3變量變量的值(value)通常是對(duì)某一特定個(gè)體的度量,特定個(gè)體可能是指一個(gè)人,一個(gè)家庭,一個(gè)地區(qū),或一個(gè)國(guó)家。表1.1列出了一些變量、變量的取值及其所測(cè)量的個(gè)體的例子。從表中可知,性別變量是以人為個(gè)體的觀測(cè),孩子的數(shù)目是以家庭為個(gè)體的觀測(cè)。表1.1變量,值和個(gè)體1.3.3變量
上面介紹的是經(jīng)驗(yàn)變量(empirical
variables),級(jí)處理的對(duì)像是我們周?chē)捎^測(cè)到的物質(zhì)世界中的事物。
用數(shù)學(xué)方法推導(dǎo)的變量稱為理論變量(theoreticalvariables)——z,t,和F變量。與變量相對(duì)的概念是常數(shù)(constant)。在統(tǒng)計(jì)中經(jīng)常使用的一種被稱做參數(shù)(parameter)的常數(shù)。1.4數(shù)據(jù)的收集1.4.1定義變量數(shù)據(jù)收集的第一個(gè)準(zhǔn)則是要清楚測(cè)量的是什么。換句話說(shuō),變量必須有一個(gè)明確的適合研究目的的定義。這有時(shí)是說(shuō)起來(lái)容易做起來(lái)難。如果我們對(duì)問(wèn)題考慮得不全面,那么就沒(méi)理由指望回答問(wèn)題的人(一般稱為響應(yīng)者)能按照我們期望的回答問(wèn)題。在我們做研究之前,對(duì)變量必須要有一個(gè)清晰、詳盡的定義。1.4數(shù)據(jù)的收集1.4.1定義變量假定我們?cè)谝淮问称菲髽I(yè)的市場(chǎng)調(diào)查中包含了這樣的問(wèn)題"在您的家庭中有多少個(gè)孩子?"我們也許認(rèn)為自己知道想要了解的是什么,但是,沒(méi)有理由期待響應(yīng)者和我們有同樣的想法。1.4數(shù)據(jù)的收集1.4.1定義變量我們也許不加考慮地認(rèn)為,"孩子"應(yīng)定義為一個(gè)不滿18歲并和他(她)的親生父母一起生活的人。但如果一個(gè)家庭中包含大于18歲的親生子女、前妻或前夫的孩子、養(yǎng)子或養(yǎng)女、過(guò)繼子女或者其他年輕的親戚,那該怎么辦呢?對(duì)于不和親生父母生活在一起的孩子怎么算呢?對(duì)于父母離了婚而共同撫養(yǎng)的孩子怎么算呢?這有很多種發(fā)生混淆的可能。因此,我們?cè)谡{(diào)查之前首先需要明確"孩子"的定義。1.4.2觀測(cè)數(shù)據(jù)數(shù)據(jù)收集有兩種主要方法,其中一種是當(dāng)我們觀測(cè)現(xiàn)實(shí)世
界時(shí)收集到的數(shù)據(jù),如在不同城市中的流動(dòng)人口數(shù)量。觀測(cè)數(shù)據(jù)(observational
data)是指僅通過(guò)對(duì)世界的觀察(而沒(méi)有操縱或控制它)所得到的數(shù)據(jù)。收集觀測(cè)數(shù)據(jù)的研究者們盡量不干涉研究對(duì)象的行為模式。例如,證券分析人員可能會(huì)記錄某即將被收購(gòu)的公司在被收購(gòu)的前一天的股市收盤(pán)價(jià)格,并與其宣布被收購(gòu)的當(dāng)天的收盤(pán)價(jià)比較??傮w和樣本收集數(shù)據(jù)是為了從收集的個(gè)體中得出結(jié)論。
所有我們感興趣的個(gè)體就組成了總體(population)。比如,你讀本教材這一時(shí)刻,我國(guó)所有居民就構(gòu)成了一個(gè)總體。有時(shí)我們能夠收集到總體中所有個(gè)體的數(shù)據(jù)。在這種情況下,我們就是對(duì)總體做了普查(census)。我國(guó)進(jìn)行的第六次全國(guó)人口普查就是希望確定我國(guó)所有居民數(shù)。然而,在苛刻的現(xiàn)實(shí)生活中,由于資金、時(shí)間有限以及不斷變化的環(huán)境條件,普查通常是很困的。此時(shí),我們需要把收集數(shù)據(jù)限制在總體的一個(gè)樣本(sample)上,樣本是總體的中的一個(gè)被選中的部分。樣本的選擇統(tǒng)計(jì)研究者所面臨的一個(gè)關(guān)鍵問(wèn)題是如何選擇樣本。我們希望基于樣本得出的結(jié)論能夠適用于該樣本所屬的總體,這依賴于獲得一個(gè)"好"的樣本,否則這是不可能實(shí)現(xiàn)的。以烹調(diào)為例子來(lái)幫助你理解為什么一個(gè)好的樣本如此重要。當(dāng)我們品嘗一勺我們做的湯時(shí),我們關(guān)心的不是這勺湯怎樣,而是整個(gè)鍋里的湯味道如何。如果鍋里的湯被充分?jǐn)嚢枇?,我們只需品嘗一勺即可知道整鍋湯的味道。我們品嘗的這一勺湯無(wú)論是來(lái)自家庭廚房中的一個(gè)小鍋,還是來(lái)自一個(gè)更大的鍋,我們都可以窺一斑而知全豹。這正如我們從總體中選擇一個(gè)樣本,從某種意義上來(lái)說(shuō),需要選擇一個(gè)來(lái)自"攪拌均勻"的總體的樣本。如果總體能被攪拌均勻,那么一個(gè)包含1000個(gè)個(gè)體的樣本,不管它是以整個(gè)國(guó)家為總體,還是以一個(gè)城市為總體,都可以告訴我們同樣多的內(nèi)容。樣本的選擇我們可以把這個(gè)例子應(yīng)用于樣本調(diào)查。某產(chǎn)品上市之前的市場(chǎng)調(diào)查表明,有70%的人喜該產(chǎn)品。如果樣本選擇正確,這個(gè)比例將和整個(gè)市場(chǎng)中的消費(fèi)者中的比例大致相同。類似地,在對(duì)大學(xué)畢業(yè)生就業(yè)狀況的研究中,檢查畢業(yè)生的某個(gè)樣本的目的,不是要看這些抽查到的畢業(yè)生是否能順利就業(yè),而是要要看所有大學(xué)畢業(yè)生組成的總體能否順利就業(yè)。選擇的這個(gè)樣本應(yīng)該能夠很好地反映總體,因此也就能夠很好地反映大學(xué)畢業(yè)生就業(yè)狀況。如果不能正確地選擇樣本,那么對(duì)于"整鍋湯"的判斷可能導(dǎo)致錯(cuò)誤的結(jié)論。如果市場(chǎng)調(diào)查專家們只對(duì)他們的家人和朋友提問(wèn),那么將可能產(chǎn)生壞樣本。如果只對(duì)已經(jīng)就業(yè)的畢業(yè)生進(jìn)行調(diào)查,而忽略校漂族,那么此樣本將產(chǎn)生錯(cuò)誤的結(jié)論。由于樣本選擇對(duì)于結(jié)果的可信度有重要作用,所以根據(jù)正確的統(tǒng)計(jì)原理選擇樣本是非常必要的。隨機(jī)樣本隨機(jī)樣本(random
sample)指一個(gè)合適的、能夠被推廣應(yīng)用 于更大的總體的統(tǒng)計(jì)樣本。從一個(gè)紙箱子中抽簽對(duì)學(xué)生點(diǎn) 名回答問(wèn)題,是選擇隨機(jī)樣本的最簡(jiǎn)單的例子。疊好的寫(xiě) 有學(xué)生名字的紙簽是組成整個(gè)總體的個(gè)體,每一個(gè)個(gè)體都 有相等的被選中的機(jī)會(huì)。從這種意義上說(shuō)完全可能實(shí)現(xiàn)總 體中所有的群體在某樣本中的代表的數(shù)量比例大致等于這 些群體在總體中的比例。比如,如果一個(gè)工科院系的班級(jí) 有25個(gè)男生和5個(gè)女生,那么在該班級(jí)的一個(gè)隨機(jī)樣本中, 每5個(gè)男生應(yīng)該對(duì)應(yīng)著大約1個(gè)女生。當(dāng)一個(gè)總體中的名字或代碼被放進(jìn)一個(gè)紙箱子里,攪拌均勻,并隨機(jī)抽取,其結(jié)果就是一個(gè)簡(jiǎn)單隨機(jī)樣本(simplerandom
sample)。本書(shū)中每一章末尾的所有公式都基于簡(jiǎn)單隨機(jī)樣本的使用。方便樣本:如何產(chǎn)生一個(gè)"壞的"樣本研究者們經(jīng)常習(xí)慣于研究手頭方便的總體中的個(gè)體。例如,醫(yī)學(xué)研究者經(jīng)常對(duì)他們自己的病人做研究;市場(chǎng)調(diào)查者研究被他們說(shuō)服進(jìn)行合作的消費(fèi)者。能夠很容易、很經(jīng)濟(jì)地得到的樣本稱為方便樣本
(convenience
sample)。從方便樣本中得出的結(jié)果有時(shí)候很難推廣到整個(gè)總體。有時(shí)候大型商場(chǎng)會(huì)要求他們的顧客回答某些問(wèn)題并收回問(wèn)卷,由此得到一些樣本。根據(jù)隨機(jī)取樣的原則,我們可以對(duì)此提出疑問(wèn):不在該商場(chǎng)買(mǎi)東西的人顯然不包含在樣本中,而回答問(wèn)卷的人構(gòu)成了方便樣本,從他們那兒得到的數(shù)據(jù)是不能夠作為該樣本以外的其他人的推廣的;即使對(duì)于該商場(chǎng)的顧客總體本身而言,它們也不一定是典型的。這些數(shù)據(jù)只是很好地描述了那些花了時(shí)間和精力回答問(wèn)卷的顧客,僅此而已。抽樣的其它形式抽取比簡(jiǎn)單隨機(jī)樣本更復(fù)雜的樣本也是可能的。其中一種抽樣方法是隨機(jī)選取若干小的地區(qū),然后隨機(jī)選取居住在這個(gè)地區(qū)的一些人進(jìn)行直接調(diào)查。這是得到樣本的一種有效途徑。通過(guò)調(diào)查每一地區(qū)居住相臨的一些人,研究者們就避免了走好遠(yuǎn)的路從一個(gè)居住區(qū)到另一個(gè)居住區(qū)。任何一種抽樣程序的一個(gè)普遍的困難是,很少能完全包含屬于某一特定總體的所有樣本。1.4.3收集觀測(cè)數(shù)據(jù)時(shí)的錯(cuò)誤和誤差
研究抽樣技術(shù)使我們意識(shí)到,很多因素可使樣本中的數(shù)據(jù)產(chǎn)生錯(cuò)誤并導(dǎo)致錯(cuò)誤結(jié)論。若僅憑某一樣本中有55%的人認(rèn)為他們的生活很幸福,我們還不能夠得出結(jié)論說(shuō)全國(guó)人口中的55%的人生活很幸福。從剛開(kāi)始決定調(diào)查到最后報(bào)告結(jié)果,任何一件事情都有可能出錯(cuò)。大部分調(diào)查也的確犯了這樣或那樣的錯(cuò)誤。抽樣誤差:并非錯(cuò)誤的"誤差"調(diào)查中的有些誤差純粹是統(tǒng)計(jì)上的,主要的統(tǒng)計(jì)誤差即所謂的抽樣誤差(sampling
error)。這并不是某件事出錯(cuò)造成的誤差,而是指這樣的一個(gè)事實(shí):如果研究被再做一遍,結(jié)果未必會(huì)和上次一模一樣。例如,前面提到過(guò)的在第二個(gè)100次擲硬幣中,也許就有49次正面朝上,即正面朝上的比例為49%,不同于第一個(gè)100次擲硬幣中正面朝上的比例52%。又例如,在下一次的抽樣中,也許并不是60%的人贊同政府開(kāi)征的房地產(chǎn)稅,而是57%或63%或其它相近比例的人贊同房地產(chǎn)稅。但是,即便不同的樣本會(huì)產(chǎn)生不同的答案,大部分答案仍都位于總體中的真正比例的某一變化范圍內(nèi)。例如,通過(guò)每次大約1000個(gè)響應(yīng)者的多次抽樣,大部分樣本(95%)得出的比例和實(shí)際的比例至多相差3個(gè)百分點(diǎn)。也就是說(shuō),抽樣誤差等于加或減三個(gè)百分點(diǎn)
(±3%)。這種結(jié)果僅僅是每一個(gè)統(tǒng)計(jì)研究所固有的隨機(jī)性的反映。別忘了這些比例是來(lái)自不同的樣本,我們沒(méi)有理由相信一個(gè)樣本的結(jié)果會(huì)和另一個(gè)樣本的結(jié)果一模一樣。并且,沒(méi)有理由相信某一特定樣本的結(jié)果恰好等于從整個(gè)總體可能得到的結(jié)果。抽樣誤差:并非錯(cuò)誤的"誤差"圖1.2表明當(dāng)實(shí)際的總體比例為50%時(shí),計(jì)算機(jī)產(chǎn)生的數(shù)據(jù)的情況。其中,
100個(gè)不同樣本中的95個(gè)樣本比例位于47%和53%之間。在這種情況下,我們說(shuō)有±3%的抽樣誤差——53%比50%多(+)3個(gè)百分點(diǎn),47%比50%少(-)3個(gè)百分點(diǎn)。?圖1.2實(shí)際的總體比例和抽樣誤差為±3%的例子這一例子是基于實(shí)際的總體比例為50%的基礎(chǔ)之上的。而現(xiàn)實(shí)中,我們幾乎從來(lái)不知道這個(gè)數(shù)字。實(shí)際上,我們之所以做調(diào)查,就是要估計(jì)總體比例。然而,我們通過(guò)樣本依然可以計(jì)算出抽樣誤差有多大。在第5章和第6章的參數(shù)估計(jì)和假設(shè)檢驗(yàn)中會(huì)給出一些計(jì)算抽樣誤差的公式。抽樣誤差的大小依賴于得到樣本的方式和樣本中包含的觀測(cè)的個(gè)數(shù)。樣本越大,誤差越小。如果樣本等于整個(gè)總體,則樣本比例就等于總體比例。在總體變化以前,對(duì)整個(gè)總體做重復(fù)研究,就會(huì)得到相同的結(jié)果。在這種情況下,抽樣誤差是0。抽樣誤差:并非錯(cuò)誤的"誤差"在公布任何一次抽樣調(diào)查的結(jié)果時(shí)都應(yīng)說(shuō)明抽樣誤差的大小,不管是比例、均值還是其它形式。抽樣誤差告訴我們,樣本離總體的實(shí)際值可能有多遠(yuǎn)。我們將在第5章和第6章的參數(shù)估計(jì)和假設(shè)檢驗(yàn)中再次提到抽樣誤差。未響應(yīng)誤差另外一種影響抽樣調(diào)查結(jié)果的誤差是未響應(yīng)誤差(
nonresponse
error)。未響應(yīng)誤差是指由于包含在樣本中的一部分人未回答調(diào)查而造成的誤差。這可能是由于某一選定的電話號(hào)碼撥了多次也沒(méi)有反應(yīng)或接通后那人拒絕回
答問(wèn)題。郵寄調(diào)查通常比電話調(diào)查有更多的未響應(yīng)誤差,
因?yàn)椴焕頃?huì)一封信比不理會(huì)一個(gè)響著的電話容易得多,而
且信被寄錯(cuò)地址的可能性也要比撥一個(gè)無(wú)人使用的電話號(hào)
碼的可能性大得多。有時(shí),一次好的電話調(diào)查,通常會(huì)有
85%至90%的響應(yīng)率;而一次郵寄調(diào)查的響應(yīng)率很少有到達(dá)50%的.對(duì)研究者來(lái)說(shuō),高拒絕率是一個(gè)很大的問(wèn)題,因?yàn)樗麄儗?duì)于被選中但未參與調(diào)查的人了解很少。于是出現(xiàn)許多無(wú)法回答的問(wèn)題:是什么使得人們有了不響應(yīng)和響應(yīng)的區(qū)別?相對(duì)響應(yīng)者來(lái)說(shuō),未響應(yīng)者是富有還是貧窮?保守還是自由?有影響力還是缺乏影響力?如果他們響應(yīng),他們的回答會(huì)怎樣影響研究結(jié)果?未響應(yīng)誤差
我們通過(guò)一個(gè)最壞的假設(shè)情況來(lái)表明未響應(yīng)誤差的影響可能有多大。假定我們計(jì)劃調(diào)查1200個(gè)人,卻只有1000人接受了調(diào)查,這意味著我們?nèi)绷?00人的數(shù)據(jù)。在1000個(gè)我們調(diào)查的響應(yīng)者中,我們發(fā)現(xiàn)600人(或60%)贊成某事物而其余人反對(duì)它。如果我們假定另外200人也贊成,那么在1200人中就有800人贊成,比例為67%。但另一方面,如果我們假定那200人反對(duì),那么1200人中只有600人贊成,比例為
50%。因此,僅僅由于未響應(yīng)誤差,觀測(cè)樣本中60%的贊成比例有可能實(shí)際只是50%和67%之間的一個(gè)隨機(jī)數(shù)。這就可能給我們的研究結(jié)論帶來(lái)很大的差別。一些經(jīng)驗(yàn)表明,在大部分情況下,未響應(yīng)者和響應(yīng)者并無(wú)多大差別。如果我們開(kāi)始時(shí)有一個(gè)高的響應(yīng)率,那么可假定未響應(yīng)者也依同樣的比例作出回答。但是如果響應(yīng)率很低,例如不超過(guò)50%,那么不響應(yīng)的影響可能會(huì)很大。響應(yīng)誤差
如果研究者小心一點(diǎn)的話,由調(diào)查得來(lái)的數(shù)據(jù)是有可能避免響應(yīng)誤差(response
error)的。
響應(yīng)誤差是在調(diào)查過(guò)程中,由于問(wèn)題的提問(wèn)方式、問(wèn)題所處的位置或訪員的影響而使得響應(yīng)者在回答問(wèn)題時(shí)產(chǎn)生的偏差。我們?cè)谶@里討論其中的一部分(而不是全部)情況。即使所有的問(wèn)題都有了回答,我們所知道的也僅僅是調(diào)查時(shí)人們告訴訪員的,而未必是他們實(shí)際上做的、感覺(jué)的或想的。當(dāng)我們?cè)趫?bào)紙上讀到,在最近的一次調(diào)查中有55%的人認(rèn)為他們的生活很幸福,那么我們應(yīng)該知道這句話其實(shí)是這個(gè)意思:被調(diào)查并回答了問(wèn)題的人在當(dāng)時(shí)有55%對(duì)訪員說(shuō)他們認(rèn)為生活很幸福。1.4.4實(shí)驗(yàn)數(shù)據(jù):尋找造成結(jié)果的原因收集數(shù)據(jù)的另一種辦法是在實(shí)驗(yàn)中控制一個(gè)或多個(gè)變量并測(cè)量操縱的結(jié)果。例如,如果我們給一組植物施肥,另外一組不給施肥,那么我們就是在控制植物土壤的成分。我們可以測(cè)量像增長(zhǎng)率、成活率等變量。實(shí)驗(yàn)數(shù)據(jù)(experimental
data)是指在實(shí)驗(yàn)中控制實(shí)驗(yàn)對(duì) 象而收集到的變量的數(shù)據(jù)。實(shí)驗(yàn)是檢驗(yàn)變量間因果關(guān)系的
一種方法。在實(shí)驗(yàn)中,研究者試圖控制某一情形的所有相
關(guān)方面,操縱少數(shù)感興趣的變量,然后觀察實(shí)驗(yàn)結(jié)果。1.5數(shù)據(jù)陣/數(shù)據(jù)文件
數(shù)據(jù)表通常叫做數(shù)據(jù)陣或數(shù)據(jù)文件。表1.2是一個(gè)根據(jù)抽樣調(diào)查得來(lái)的數(shù)據(jù)生成的小數(shù)據(jù)陣的例子。表1.2一次抽樣調(diào)查的原始數(shù)據(jù)1.5數(shù)據(jù)陣/數(shù)據(jù)文件在計(jì)算機(jī)分析數(shù)據(jù)時(shí),需要把數(shù)據(jù)文件中的描述性文字轉(zhuǎn)化成數(shù)字。每一個(gè)人都被分配一個(gè)身份號(hào)碼作為名字。年齡變量本來(lái)就是用數(shù)字測(cè)量的,因此不需要任何轉(zhuǎn)化。性別變量的兩個(gè)取值是“女”或“男”,因此,“女”用數(shù)字0代替,“男”用數(shù)字1代替。當(dāng)然還可以使用任何兩個(gè)別的數(shù)字,比如用17代替“女”,用23代替“男”。“態(tài)度”這個(gè)值可以用三個(gè)等級(jí)數(shù)1、2和3表示反對(duì)、中立和贊成。表1.3適合計(jì)算機(jī)處理的一次抽樣調(diào)查的數(shù)據(jù)1.6統(tǒng)計(jì)學(xué)和數(shù)學(xué)、統(tǒng)計(jì)軟件的關(guān)系統(tǒng)計(jì)學(xué)的基礎(chǔ)是數(shù)學(xué),尤其是統(tǒng)計(jì)推斷牢牢地建立于數(shù)學(xué)基礎(chǔ)之上。但是,沒(méi)有數(shù)學(xué)知識(shí)也是有可能學(xué)會(huì)統(tǒng)計(jì),這是本書(shū)的講述方式。
在本教材中,我們同時(shí)使用Excel和SPSS17.0或PASW作為應(yīng)用軟件,這將有助于你擺脫枯燥的計(jì)算,使你能夠更好的專注于對(duì)數(shù)據(jù)的分析。因此,理解計(jì)算機(jī)的輸人和輸出的內(nèi)容比知道計(jì)算機(jī)軟件如何計(jì)算重要得多。
但是,我們?cè)谶@里要強(qiáng)調(diào)的是,你要學(xué)會(huì)基本的統(tǒng)計(jì)思想——某些專業(yè)術(shù)語(yǔ),數(shù)據(jù)如何被收集、演示、分析,結(jié)果意味著什么,及它們何時(shí)該或不該應(yīng)用于實(shí)際生活——而不至于深陷于公式和計(jì)算細(xì)節(jié)的泥潭中。
在使用統(tǒng)計(jì)軟件進(jìn)行數(shù)據(jù)分析時(shí)也應(yīng)該特別留神,因?yàn)橹灰獢?shù)據(jù)格式無(wú)誤、選項(xiàng)不矛盾而且不用零作為除數(shù),統(tǒng)計(jì)軟件就一定給你結(jié)果,而且?guī)缀鯖](méi)有任何警告。另外,統(tǒng)計(jì)軟件輸出的結(jié)果太多。即使是同樣的方法,不同軟件輸出的內(nèi)容還不一樣,甚至有時(shí)同樣的內(nèi)容名稱也不一樣。這就使得使用者大傷腦筋。即使是統(tǒng)計(jì)學(xué)家也不一定能解釋所有的輸出。因此,你要明白自己是在干什么,不要在得到一堆毫無(wú)意義的垃圾之后還沾沾自喜。常用統(tǒng)計(jì)軟件簡(jiǎn)介(1)SPSS:這是一個(gè)很受歡迎的統(tǒng)計(jì)軟件,它容易操作,輸出漂亮,功能齊全,價(jià)格合理。它也有自己的程序語(yǔ)言,但基本上已經(jīng)“傻瓜化”。它對(duì)于非專業(yè)統(tǒng)計(jì)工作者是很好的選擇。2009年4月,SPSS公司被IBM收購(gòu)后將其重新命名為PASW(PredictiveAnalytics
Software,預(yù)測(cè)分析軟件),不過(guò)本書(shū)仍然使用SPSS名稱。(2)Excel:嚴(yán)格說(shuō)來(lái)并不是統(tǒng)計(jì)軟件,但作為數(shù)據(jù)表格軟件有一定統(tǒng)計(jì)計(jì)算功能。而且凡是裝有Microsoft
Office的計(jì)算機(jī),基本上都有Excel。但要注意,有時(shí)在安裝Office時(shí)沒(méi)有安裝數(shù)據(jù)分析的功能,則必須安裝該功能后才能進(jìn)行數(shù)據(jù)分析。當(dāng)然,畫(huà)圖功能
是默認(rèn)具備的。對(duì)于簡(jiǎn)單分析,Excel還算方便,但隨著問(wèn)題的深入,Excel就不那么“傻瓜”,需要使用宏命令來(lái)編程,這時(shí)就沒(méi)有相應(yīng)的簡(jiǎn)單選項(xiàng)了。多數(shù)專門(mén)一些的統(tǒng)計(jì)推斷問(wèn)題還需要其他專門(mén)的統(tǒng)計(jì)軟件來(lái)處理。(3)SAS:這是功能非常齊全的軟件,盡管價(jià)格相當(dāng)不菲,但是許多公司,特別是美國(guó)制藥公司偏愛(ài)使用。盡管現(xiàn)在已經(jīng)盡量“傻瓜化”,但仍然需要一定的訓(xùn)練才可以進(jìn)入。也可以對(duì)它編程,但對(duì)于基本統(tǒng)計(jì)課程則不那么方便。(4)Eviews:這是一個(gè)處理回歸和時(shí)間序列等問(wèn)題很方便的經(jīng)濟(jì)計(jì)量學(xué)軟件,能夠處理以時(shí)間序列為主的多種類型數(shù)據(jù),進(jìn)行包括描述統(tǒng)計(jì)、回歸分析、傳統(tǒng)時(shí)間序列分析等基本數(shù)據(jù)分析以及建立條件異方差、向量自回歸等復(fù)雜的計(jì)量經(jīng)濟(jì)模型。(5)R軟件:這是一個(gè)免費(fèi)的,由志愿者管理的軟件。其編程語(yǔ)言與S-plus所基于的S語(yǔ)言一樣,使用很方便。還有不少統(tǒng)計(jì)學(xué)家和愛(ài)好者不斷在R網(wǎng)站提供他們編寫(xiě)的各種最新方法的統(tǒng)計(jì)軟件包和程序。它的所有計(jì)算過(guò)程和代碼都是公開(kāi)的,不像多數(shù)“傻瓜
”軟件“黑盒子”式的模塊。它的函數(shù)還可以被用戶按需要改寫(xiě),容易舉一反三。對(duì)于一般非統(tǒng)計(jì)工作者來(lái)說(shuō),主要問(wèn)題是它沒(méi)有“傻瓜化”。統(tǒng)計(jì)學(xué):思想、方法與應(yīng)用第2章分類數(shù)據(jù)的描述方法數(shù)據(jù)分析的三個(gè)原則頻數(shù)表統(tǒng)計(jì)圖列聯(lián)表學(xué)習(xí)目標(biāo)用頻數(shù)表描述數(shù)據(jù)的分布;用條形圖、餅圖、百分條圖等圖形來(lái)展示數(shù)據(jù);用列聯(lián)表分析兩個(gè)分類指標(biāo)之間的關(guān)系;相關(guān)理論在統(tǒng)計(jì)軟件中的應(yīng)用;相應(yīng)統(tǒng)計(jì)分析結(jié)果的解讀。
在收集好數(shù)據(jù)之后,我們必須在數(shù)據(jù)中尋找所包含的信息。
雖然我們?cè)陔娮颖砀窕蚱渌麛?shù)據(jù)文件中可以直接看到數(shù)據(jù),但是數(shù)據(jù)如此之多,以至于我們無(wú)法把他們?nèi)坷斫狻?/p>
因此,我們必須使用一些方法從數(shù)據(jù)中提取信息,并轉(zhuǎn)化成可用的形式。
數(shù)據(jù)分析包括三種形式:為數(shù)據(jù)畫(huà)一個(gè)圖,制作一個(gè)表或者計(jì)算一些我們感興趣的東西。
這可以幫助我們對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)化。簡(jiǎn)化使得理解數(shù)據(jù)和從數(shù)據(jù)中提取信息變得容易了。
但是數(shù)據(jù)簡(jiǎn)化有一個(gè)不足之處,就是難以從簡(jiǎn)化的形式中恢復(fù)原始數(shù)據(jù),因此,當(dāng)我們分析數(shù)據(jù)時(shí),幾乎總會(huì)丟失某些信息。2.1數(shù)據(jù)分析的三個(gè)原則一幅好圖勝千言。數(shù)據(jù)分析有三個(gè)原則:1、繪制一個(gè)圖。圖像可以幫助你看到從數(shù)據(jù)表里看不到的信息,有助于你選擇分析的方法,幫你明確思考隱藏在數(shù)據(jù)背后的模式和關(guān)系。2、繪制一個(gè)圖。精心設(shè)計(jì)的圖像在分析工作中很重要。它能夠展現(xiàn)重要的特征和模式,有時(shí)候可以揭示出你意想不到的事情:值得注意的(可能是錯(cuò)誤的)數(shù)據(jù)或意想不到的模式。3、繪制一個(gè)圖。使用一個(gè)精心挑選的圖像是向其他人匯報(bào)你的數(shù)據(jù)分析結(jié)果的最佳方式。2.2頻數(shù)表
頻數(shù)表(frequency
table)或頻數(shù)分布表(frequencydistribution
table)可以幫助了解變量取值的分布狀況。頻數(shù)表是遵循既不重疊又不遺漏的原則,按變量(數(shù)據(jù)特征)的取值歸類分組,把總體的所有單位按組歸并排列,其各個(gè)組別所包含的數(shù)據(jù)數(shù)目(頻數(shù))的匯總表格。簡(jiǎn)而言之,頻數(shù)表包括兩個(gè)要素:總體按其標(biāo)志所分的組和各組所分布的單位數(shù)量。2.2頻數(shù)表
表2.1是KEEN網(wǎng)站的訪問(wèn)者使用的搜索引擎的頻數(shù)表,“Direct”表示直接輸入網(wǎng)址訪問(wèn)。
該表給出了搜索引擎的類別名稱,每個(gè)類別的訪問(wèn)數(shù)量以及合計(jì)數(shù)量。表2.1訪問(wèn)KEEN網(wǎng)站的訪問(wèn)者使用的搜索引擎的頻數(shù)表2.2頻數(shù)表
表2.2是訪問(wèn)KEEN網(wǎng)站的訪問(wèn)者使用的搜索引擎的相對(duì)頻數(shù)表,表中展示了每個(gè)類別的訪問(wèn)比例。通過(guò)這種方式,我們可以描述分類變量的分布。表2.2相對(duì)頻數(shù)表2.3統(tǒng)計(jì)圖如果想獲得更生動(dòng)的展示,我們可以使用統(tǒng)計(jì)圖。
統(tǒng)計(jì)圖是用幾何圖形或具體事物的形象來(lái)表現(xiàn)統(tǒng)計(jì)數(shù)據(jù)的一種形式。
統(tǒng)計(jì)圖既可以節(jié)省大量文字?jǐn)⑹?,又可便于?shù)據(jù)的對(duì)比分析與積累。利用統(tǒng)計(jì)圖表現(xiàn)統(tǒng)計(jì)數(shù)據(jù),能更為鮮明醒目、一目了然、形象具體地顯示現(xiàn)象之間的相互關(guān)系。
按照?qǐng)D形的形式,統(tǒng)計(jì)圖大體上可以分為幾何圖、象形圖和統(tǒng)計(jì)地圖三種。2.3統(tǒng)計(jì)圖幾何圖。幾何圖是利用幾何的形和線來(lái)表明統(tǒng)計(jì)數(shù)據(jù)的圖形,包括條形圖、餅圖等。象形圖。象形圖是以表示現(xiàn)象本身形象的長(zhǎng)度、大小、多少來(lái)表示數(shù)值大小的一種圖形。例如用油桶的大小表示的某地1990年、
2000年和2005年三年的原油產(chǎn)量如左圖所示:(3)統(tǒng)計(jì)地圖。統(tǒng)計(jì)地圖是用不同的顏色或紋理表示變量或某種指標(biāo)在地域上的分布特征及規(guī)律,用以顯示不同地域事物數(shù)量的分布情況。例如可以利用顏色的深淺來(lái)表示某地區(qū)各縣某種產(chǎn)品的生產(chǎn)情況。如右圖所示:2.3.1面積原則
在得到頻數(shù)表之后,我們就可以按照數(shù)據(jù)分析的三個(gè)原則來(lái)對(duì)數(shù)據(jù)進(jìn)行繪圖。但是不能隨便做圖,因?yàn)橐粋€(gè)糟糕的圖像反而會(huì)歪曲我們對(duì)數(shù)據(jù)的認(rèn)識(shí)。
例如,盡管大部分的人都是通過(guò)Google來(lái)訪問(wèn)KEEN網(wǎng)站,但是圖2.1展示的情況是瀏覽者似乎全部是通過(guò)Google來(lái)訪問(wèn)
KEEN網(wǎng)站。問(wèn)題出在哪里呢?圖2.1一個(gè)容易讓人迷惑的圖2.3.1面積原則
圖2.1中的涼鞋的長(zhǎng)度對(duì)應(yīng)著頻數(shù)表中的數(shù)據(jù),但是我們的眼睛更容易被涼鞋的“面積”或者“體積”迷惑。
通過(guò)Google來(lái)訪問(wèn)KEEN網(wǎng)站的人數(shù)是直接輸入網(wǎng)址來(lái)訪問(wèn)的人數(shù)的2倍多,代表通過(guò)Google來(lái)訪問(wèn)KEEN網(wǎng)站的涼鞋的長(zhǎng)度就是代表直接輸入網(wǎng)址來(lái)訪問(wèn)的2倍多,但是前者的面積是后者的4倍多,于是我們從這個(gè)圖上就會(huì)有錯(cuò)誤的認(rèn)識(shí)。獲得最佳數(shù)據(jù)展示的一個(gè)基礎(chǔ)原則就是面積原則,即圖像一部分所占的面積應(yīng)該與數(shù)據(jù)的量級(jí)對(duì)應(yīng)。2.3.2條形圖和柱形圖
分類數(shù)據(jù)的一個(gè)常用統(tǒng)計(jì)圖是條形圖(bar
chart,bar
plot,bar
graph)。
條形圖是用等寬直條的長(zhǎng)短來(lái)表示各個(gè)相互獨(dú)立的指標(biāo)大小的圖形,適用于相互獨(dú)立的數(shù)據(jù)(數(shù)據(jù)有明確分組,不連續(xù))。條形圖可以描述那些已經(jīng)用頻數(shù)或頻率匯總了的定性變量。一個(gè)坐標(biāo)軸代表定性變量的各個(gè)取值,在每個(gè)變量位置的條的長(zhǎng)度和其所代表的水平的頻數(shù)或頻率成比例。
條形圖分為單式和復(fù)式兩種,單式適用于只有一組觀察數(shù)據(jù),復(fù)式適用于有若干組觀察數(shù)據(jù)。
條形圖有很多變種。比如,縱軸和橫軸可以互換,這決定條形是垂直放置(柱形圖)還是水平放置。條形圖還可以描述離散定量變量數(shù)據(jù)的頻數(shù)、頻率或概率分布。2.3.2條形圖和柱形圖
圖2.2是通過(guò)搜索引擎訪問(wèn)的條形圖,該圖遵守了面積原則。
做法:在Excel中使用“插入圖表”工具按鈕,選擇柱形圖或條形圖。圖2.2通過(guò)搜索引擎訪問(wèn)的條形圖2.3.2條形圖和柱形圖如果我們想了解搜索引擎的頻率,還可以畫(huà)出相對(duì)頻數(shù)條形圖(relative
frequency
bar
chart),如下圖2.3所示。圖2.3通過(guò)搜索引擎訪問(wèn)的相對(duì)頻數(shù)的條形圖2.3.3帕累托圖帕累托圖(pareto
chart)是以意大利經(jīng)濟(jì)學(xué)家V.帕累托(1848---1923年)的名字命名的,又稱主次因素分析、排列圖。帕累托圖是根據(jù)“關(guān)鍵的少數(shù)和次要的多數(shù)”的原理而制做的。根據(jù)表2.1中不同類型搜索引擎的頻數(shù)分布表繪制的帕累托圖如圖2.8所示。圖2.8不同類型搜索引擎的頻數(shù)分布表繪制的帕累托圖該帕累托圖表明:對(duì)網(wǎng)站的訪問(wèn)主要途徑依靠Google和Direct,KEEN公司需要在這兩個(gè)途徑上進(jìn)行加強(qiáng)和改進(jìn)。2.3.4餅圖餅圖(pie
chart)又叫圓形圖,是一個(gè)圓面積為100%,由許多扇形組成的圓,各個(gè)扇形的大小比例等于變量各個(gè)水平(或
類別)的頻率或比例,即表示了不同組成部分的相對(duì)重要性。餅圖對(duì)描述定類尺度的數(shù)據(jù)特別有用。Excel中使用“插入圖表”工具按鈕,選擇餅圖。餅圖比條形圖簡(jiǎn)單,描述比例較直觀。但是當(dāng)變量太多時(shí),餅圖就不那么好看了。2.3.4餅圖
圖2.8是搜索引擎訪問(wèn)的相對(duì)頻數(shù)表的餅圖。餅圖中列出了每個(gè)類別的名稱、頻數(shù)和頻率。從餅圖可以比較不同類別之間的差異。但是,有時(shí)候我們不容易看出不同類別之間的差異。比如,從餅圖能看出通過(guò)Yahoo訪問(wèn)量大還是通過(guò)其他方式訪問(wèn)的量大?這很難講,因?yàn)檫@兩塊的面積看起來(lái)似乎一樣大。而這個(gè)比較在條形圖中是很容易看出來(lái)的,在條形圖2.2中我們很容易看出來(lái)自于Yahoo的訪問(wèn)量較小。2.4列聯(lián)表
為了了解不同地區(qū)或市場(chǎng)對(duì)這款新涼鞋款式的接受程度,調(diào)查了5個(gè)國(guó)家769名顧客,收集了兩個(gè)變量:態(tài)度和國(guó)家,數(shù)據(jù)見(jiàn)表2.5。
這些變量每個(gè)都有兩個(gè)或更多的可能取值,這些取值稱為變量的水平。
表2.5中對(duì)新涼鞋的態(tài)度就有“完全贊成、有些贊成、既不反對(duì)也不贊成、有些不贊成、完全不贊成、不知道”六個(gè)水平,國(guó)家類別包括了五個(gè)國(guó)家,表示該變量有5個(gè)水平。
為了分析的方便,我們往往用水平用符號(hào)或數(shù)字代碼來(lái)表示這些變量,例如:對(duì)新涼鞋的六種態(tài)度就可以用代碼1、2、3、4、5、6表示;五個(gè)國(guó)家可以用代碼1、2、3、4、5或者A、B、C、D、E表示。2.4列聯(lián)表
根據(jù)表2.5,整理得到這些顧客對(duì)新涼鞋的態(tài)度如下表2.6:表2.6對(duì)新涼鞋的接受態(tài)度的調(diào)查數(shù)據(jù)表2.4列聯(lián)表
對(duì)表2.6,可以通過(guò)前面介紹的餅圖和條形圖來(lái)了解顧客對(duì)新涼鞋款式的接受狀況。
下面的餅圖反映出有一半的顧客贊成新款式(包括有些贊成和完全贊成兩部分)。2.4列聯(lián)表
不同國(guó)家的顧客對(duì)該鞋款式的態(tài)度是怎么樣的,有沒(méi)有區(qū)別?
換句話說(shuō),對(duì)該鞋新款式的態(tài)度是否隨著國(guó)家的改變而變化。
為了獲得答案,我們需要把根據(jù)兩個(gè)分類變量(即“對(duì)新涼鞋的態(tài)度”和“國(guó)家”)匯總得到的數(shù)據(jù)放在一個(gè)二維列聯(lián)表里面,見(jiàn)表2.7。2.4列聯(lián)表表2.7對(duì)新涼鞋的接受態(tài)度的調(diào)查數(shù)據(jù)表(列聯(lián)表)2.4列聯(lián)表
列聯(lián)表(contingencytable)是由兩個(gè)或兩個(gè)以上變量進(jìn)行交叉分類得到的頻數(shù)分布表。
列聯(lián)表中間的各個(gè)變量不同水平的交匯處,就是這種水平組合出現(xiàn)的頻數(shù)或計(jì)數(shù)(count)。比如表2.7中的“中國(guó)”這一行的數(shù)字52,表明有52名中國(guó)顧客完全贊成新涼鞋的款式。
構(gòu)成列聯(lián)表的變量都是定性變量或定序變量。一個(gè)r
行c
列的列聯(lián)表稱為r×c
列聯(lián)表,一般的把2×2的二維列聯(lián)表又稱為交叉表(cross
table)。列聯(lián)表可以有很多維。維數(shù)多的叫做高維列聯(lián)表。2.4列聯(lián)表
注意到表2.7還展示了每一行人數(shù)的總和及每一列的總和,分別放在最后一列和最后一行中。
實(shí)際上,最后一行就是表2.6中的數(shù)據(jù),即對(duì)新涼鞋態(tài)度的頻數(shù)分布。
列聯(lián)表的最后一列反應(yīng)的是變量“國(guó)家”的頻數(shù)分布。
在統(tǒng)計(jì)上就把列聯(lián)表的這兩部分?jǐn)?shù)據(jù)稱為對(duì)應(yīng)變量的邊際分布(marginal
distribution)。2.4列聯(lián)表
我們可能還想知道哪個(gè)國(guó)家的顧客更贊成新涼鞋的款式,哪個(gè)國(guó)家的顧客更反對(duì)新涼鞋的款式,或者哪個(gè)國(guó)家的顧客覺(jué)得無(wú)所謂
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2021年動(dòng)力鋰電行業(yè)億緯鋰能分析報(bào)告
- 微型真空泵相關(guān)行業(yè)投資方案
- 放射性核素遙控后裝機(jī)行業(yè)相關(guān)投資計(jì)劃提議范本
- 鼓勵(lì)學(xué)生自主學(xué)習(xí)的班級(jí)策略計(jì)劃
- 腦卒中并發(fā)吞咽障礙個(gè)案護(hù)理
- IPD(漢捷培訓(xùn))資料課件
- 《認(rèn)清形勢(shì)》課件
- 《政府規(guī)制政策》課件
- 生鮮行業(yè)的報(bào)告范文
- 《政府政策與經(jīng)濟(jì)學(xué)》課件
- 排洪溝工程設(shè)計(jì)說(shuō)明
- (完整版)高數(shù)_大一_上學(xué)期知識(shí)要點(diǎn)
- 藥業(yè)發(fā)展工作規(guī)劃.doc
- 21世紀(jì)學(xué)生核心素養(yǎng)研究PPT精品文檔
- 材料熱力學(xué)1-7
- 鋼筋加工廠龍門(mén)吊的安裝與拆除專項(xiàng)施工方案
- 氣體滅火打壓方案-七氟丙烷FM200
- 2019-2020沈陽(yáng)市四年級(jí)語(yǔ)文統(tǒng)考
- 中國(guó)建設(shè)銀行信貸業(yè)務(wù)手冊(cè)III8 信貸檔案管理
- 分戶驗(yàn)收評(píng)估報(bào)告1[小編整理] (3)
- 最新系統(tǒng)FMEA—(SFMEA)
評(píng)論
0/150
提交評(píng)論