版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
賈俊平2024/3/131.1統(tǒng)計(jì)及其應(yīng)用領(lǐng)域1.2數(shù)據(jù)及其分類1.3統(tǒng)計(jì)中的基本概念
統(tǒng)計(jì)和數(shù)據(jù)1.1
統(tǒng)計(jì)及其應(yīng)用領(lǐng)域各種定義統(tǒng)計(jì)學(xué)是收集、分析、表述和解釋數(shù)據(jù)的科學(xué)(不列顛百科全書)統(tǒng)計(jì)是一門收集、分析、解釋和提供數(shù)據(jù)的科學(xué)(韋伯斯特國(guó)際辭典第3版)統(tǒng)計(jì)指的是一組方法,用來(lái)設(shè)計(jì)實(shí)驗(yàn)、獲得數(shù)據(jù),然后在這些數(shù)據(jù)的基礎(chǔ)上組織、概括、演示、分析、解釋和得出結(jié)論(MarioF.Triola,《初級(jí)統(tǒng)計(jì)學(xué)》)什么統(tǒng)計(jì)學(xué)收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學(xué)收集數(shù)據(jù):取得數(shù)據(jù)處理數(shù)據(jù):整理與圖表展示分析數(shù)據(jù):利用統(tǒng)計(jì)方法分析數(shù)據(jù)數(shù)據(jù)解釋:結(jié)果的說明得到結(jié)論:從數(shù)據(jù)分析中得出客觀結(jié)論包括描述方法、推斷方法及其他方法1.1統(tǒng)計(jì)及其應(yīng)用領(lǐng)域描述統(tǒng)計(jì)研究數(shù)據(jù)收集、處理、匯總、圖表描述、概括與分析等統(tǒng)計(jì)方法描述數(shù)據(jù)特征找出數(shù)據(jù)的基本規(guī)律內(nèi)容包括:搜集數(shù)據(jù)、整理數(shù)據(jù)、展示數(shù)據(jù)、描述性分析描述統(tǒng)計(jì)與推斷統(tǒng)計(jì)推斷統(tǒng)計(jì)研究如何利用樣本數(shù)據(jù)來(lái)推斷總體特征的統(tǒng)計(jì)方法對(duì)總體特征作出推斷內(nèi)容包括:參數(shù)估計(jì)、假設(shè)檢驗(yàn)1.1統(tǒng)計(jì)及其應(yīng)用領(lǐng)域【例1.1】用統(tǒng)計(jì)識(shí)別作者1787—1788年,亞歷山大·漢密爾頓(AlexanderHamilton)、約翰·杰伊(JohnJay)和詹姆士·麥迪遜(JamesMadison)為了說服紐約人認(rèn)可憲法,匿名發(fā)表了85篇著名的論文。在這些論文中,大多數(shù)的作者已經(jīng)得到了識(shí)別,但是其中的12篇論文的作者身份引起了爭(zhēng)議。有人通過對(duì)不同的單詞的頻數(shù)進(jìn)行統(tǒng)計(jì)分析,得出了結(jié)論:詹姆士·麥迪遜最有可能是這12篇論文的作者?,F(xiàn)在,對(duì)于這些存在爭(zhēng)議的論文,認(rèn)為詹姆士·麥迪遜是作者的觀點(diǎn)占主導(dǎo)地位,而且?guī)缀蹩梢钥隙ㄟ@種觀點(diǎn)是正確的統(tǒng)計(jì)的應(yīng)用領(lǐng)域【例1.2】用簡(jiǎn)單的描述統(tǒng)計(jì)量得到一個(gè)重要發(fā)現(xiàn)費(fèi)舍(R.A.Fisher)在1952年的一篇文章中舉了一個(gè)例子,說明如何由基本的描述統(tǒng)計(jì)量的知識(shí)引出一個(gè)重要的發(fā)現(xiàn)。20世紀(jì)早期,哥本哈根卡爾堡實(shí)驗(yàn)室的施密特(J.Schmidt)發(fā)現(xiàn)不同地區(qū)所捕獲的同種魚類的脊椎骨和鰓腺的數(shù)量有很大不同,甚至在同一海灣內(nèi)不同地點(diǎn)所捕獲的同種魚類,也有這樣的傾向;然而,鰻魚的脊椎骨的數(shù)量卻變化不大。施密特從歐洲大陸各地、冰島、亞速爾群島以及尼羅河等幾乎分離的水域里所捕獲的鰻魚的樣本中,計(jì)算發(fā)現(xiàn)了幾乎一樣的均值和標(biāo)準(zhǔn)偏差值。由此,施密特推斷各個(gè)不同海域內(nèi)的鰻魚都是在海洋中某公共場(chǎng)所繁殖的。后來(lái)名為“戴納(Dana)”的科學(xué)考察船在一次遠(yuǎn)征中發(fā)現(xiàn)了這個(gè)場(chǎng)所1.1統(tǒng)計(jì)及其應(yīng)用領(lǐng)域
統(tǒng)計(jì)的應(yīng)用領(lǐng)域1.1統(tǒng)計(jì)及其應(yīng)用領(lǐng)域統(tǒng)計(jì)的誤用與濫用統(tǒng)計(jì)濫用不好的樣本或過小的樣本誤導(dǎo)性圖表局部描述故意曲解統(tǒng)計(jì)應(yīng)用上的兩個(gè)極端——不用或幾乎不用統(tǒng)計(jì);簡(jiǎn)單問題復(fù)雜化在統(tǒng)計(jì)應(yīng)用中,這兩個(gè)極端都是不可取的簡(jiǎn)單的方法不一定沒用,復(fù)雜的方法也不一定有用。正如有的學(xué)者所說的,最簡(jiǎn)單的模型往往是最有用的統(tǒng)計(jì)應(yīng)該恰當(dāng)?shù)貞?yīng)用到它能起作用的地方。不能把統(tǒng)計(jì)神秘化,更不能歪曲統(tǒng)計(jì),把統(tǒng)計(jì)作為掩蓋實(shí)事的陷阱1.2數(shù)據(jù)及其分類按計(jì)量尺度分類別數(shù)據(jù)(categoricaldata)只能歸于某一類別的非數(shù)字型數(shù)據(jù)對(duì)事物進(jìn)行分類的結(jié)果,數(shù)據(jù)表現(xiàn)為類別,用文字來(lái)表述分為無(wú)序類別數(shù)據(jù)和有序類別數(shù)據(jù)數(shù)值數(shù)據(jù)(metricdata)按數(shù)字尺度測(cè)量的觀察值結(jié)果表現(xiàn)為具體的數(shù)值,對(duì)事物的精確測(cè)度分為離散數(shù)據(jù)和連續(xù)數(shù)據(jù)數(shù)據(jù)——變量的觀測(cè)結(jié)果按收集方法分觀測(cè)的數(shù)據(jù)(observationaldata)通過調(diào)查或觀測(cè)而收集到的數(shù)據(jù)在沒有對(duì)事物人為控制的條件下而得到的有關(guān)社會(huì)經(jīng)濟(jì)現(xiàn)象的統(tǒng)計(jì)數(shù)據(jù)幾乎都是觀測(cè)數(shù)據(jù)實(shí)驗(yàn)的數(shù)據(jù)(experimentaldata)在實(shí)驗(yàn)中控制實(shí)驗(yàn)對(duì)象而收集到的數(shù)據(jù)比如,對(duì)一種新藥療效的實(shí)驗(yàn),對(duì)一種新的農(nóng)作物品種的實(shí)驗(yàn)等自然科學(xué)領(lǐng)域的數(shù)據(jù)大多數(shù)都為實(shí)驗(yàn)數(shù)據(jù)按時(shí)間狀況分截面數(shù)據(jù)(cross-sectionaldata)在相同或近似相同的時(shí)間點(diǎn)上收集的數(shù)據(jù)描述現(xiàn)象在某一時(shí)刻的變化情況比如,2021年我國(guó)各地區(qū)的國(guó)內(nèi)生產(chǎn)總值數(shù)據(jù)時(shí)間序列數(shù)據(jù)(timeseriesdata)在不同時(shí)間上收集到的數(shù)據(jù)描述現(xiàn)象隨時(shí)間變化的情況比如,2000年至2021年國(guó)內(nèi)生產(chǎn)總值數(shù)據(jù)1.2數(shù)據(jù)及其分類數(shù)據(jù)——變量的觀測(cè)結(jié)果數(shù)據(jù)的分類按計(jì)量尺度類別數(shù)據(jù)無(wú)序類別數(shù)據(jù)有序類別數(shù)據(jù)數(shù)值數(shù)據(jù)離散數(shù)據(jù)連續(xù)數(shù)據(jù)按收集方法觀察數(shù)據(jù)實(shí)驗(yàn)數(shù)據(jù)按時(shí)間狀況截面數(shù)據(jù)時(shí)間序列數(shù)據(jù)1.3統(tǒng)計(jì)中的基本概念總體(population)所研究的全部個(gè)體(數(shù)據(jù))的集合,其中的每一個(gè)個(gè)體也稱為元素分為有限總體和無(wú)限總體有限總體的范圍能夠明確確定,且元素的數(shù)目是有限的無(wú)限總體所包括的元素是無(wú)限的,不可數(shù)的樣本(sample)從總體中抽取的一部分元素的集合構(gòu)成樣本的元素的數(shù)目稱為樣本容量或樣本量(samplesize)總體和樣本1.3統(tǒng)計(jì)中的基本概念參數(shù)和統(tǒng)計(jì)量參數(shù)(parameter)描述總體特征的概括性數(shù)字度量,是研究者想要了解的總體的某種特征值所關(guān)心的參數(shù)主要有總體均值()、標(biāo)準(zhǔn)差(
)、總體比例()等總體參數(shù)通常用希臘字母表示統(tǒng)計(jì)量(statistic)用來(lái)描述樣本特征的概括性數(shù)字度量,它是根據(jù)樣本數(shù)據(jù)計(jì)算出來(lái)的一些量,是樣本的函數(shù)所關(guān)心的樣本統(tǒng)計(jì)量有樣本均值(
x)、樣本標(biāo)準(zhǔn)差(s)、樣本比例(p)等樣本統(tǒng)計(jì)量通常用小寫英文字母來(lái)表示1.3統(tǒng)計(jì)中的基本概念說明現(xiàn)象某種特征的概念如商品銷售額、受教育程度、產(chǎn)品的質(zhì)量等級(jí)等變量的具體表現(xiàn)稱為變量值,即數(shù)據(jù)變量可以分為類別變量(categoricalvariable):說明事物類別的名稱無(wú)序類別變量有序類別變量數(shù)值變量(metricvariable):說明事物數(shù)字特征的名稱離散變量:取有限個(gè)值連續(xù)變量:可以取無(wú)窮多個(gè)值變量(variable)思維導(dǎo)圖本書結(jié)構(gòu)數(shù)據(jù)來(lái)源和處理第2章數(shù)據(jù)來(lái)源和處理描述方法圖形展示第3章數(shù)據(jù)的圖形展示概括性度量第4章數(shù)據(jù)的概括性度量推斷方法估計(jì)方法第5章抽樣與參數(shù)估計(jì)檢驗(yàn)方法第6章假設(shè)檢驗(yàn)其他方法關(guān)系分析第7章相關(guān)與回歸分析時(shí)間序列第8章時(shí)間序列分析和預(yù)測(cè)描述應(yīng)用推斷本書結(jié)構(gòu)賈俊平2024/3/132.1數(shù)據(jù)的來(lái)源2.2數(shù)據(jù)的預(yù)處理2.3生成頻數(shù)分布表
數(shù)據(jù)來(lái)源和處理內(nèi)容提要本章主要介紹統(tǒng)計(jì)數(shù)據(jù)的來(lái)源及其基本的處理方法,以便為進(jìn)一步的分析奠定基礎(chǔ)具體內(nèi)容包括數(shù)據(jù)的來(lái)源,介紹數(shù)據(jù)的直接來(lái)源和間接來(lái)源,抽樣方法以及抽取數(shù)據(jù)樣本的Excel實(shí)現(xiàn)數(shù)據(jù)的預(yù)處理,介紹數(shù)據(jù)審核、數(shù)據(jù)排序和篩選方法及Excel實(shí)現(xiàn)生成頻數(shù)分布表。介紹類別數(shù)據(jù)和數(shù)值數(shù)據(jù)頻數(shù)分布表的生成方法及Excel實(shí)現(xiàn)本章內(nèi)容提要2.1
數(shù)據(jù)的來(lái)源二手?jǐn)?shù)據(jù)——?jiǎng)e人調(diào)查或?qū)嶒?yàn)的數(shù)據(jù)統(tǒng)計(jì)部門和政府部門公布的有關(guān)資料,如各類統(tǒng)計(jì)年鑒各類經(jīng)濟(jì)信息中心、信息咨詢機(jī)構(gòu)、專業(yè)調(diào)查機(jī)構(gòu)等提供的數(shù)據(jù)各類專業(yè)期刊、報(bào)紙、書籍所提供的資料各種會(huì)議,如博覽會(huì)、展銷會(huì)、交易會(huì)及專業(yè)性、學(xué)術(shù)性研討會(huì)上交流的有關(guān)資料從互聯(lián)網(wǎng)或圖書館查閱到的相關(guān)資料間接來(lái)源二手?jǐn)?shù)據(jù)的特點(diǎn)收集容易,采集成本低作用廣泛分析所要研究的問題提供研究問題的背景幫助研究者更好地定義問題檢驗(yàn)和回答某些疑問和假設(shè)尋找研究問題的思路和途徑收集二手資料在研究中應(yīng)優(yōu)先考慮二手?jǐn)?shù)據(jù)的評(píng)估數(shù)據(jù)是誰(shuí)收集的?可信度評(píng)估為什么目的而收集的?數(shù)據(jù)是怎樣收集的?什么時(shí)候收集的?2.1
數(shù)據(jù)的來(lái)源直接來(lái)源調(diào)查數(shù)據(jù)通過調(diào)查方法獲得的數(shù)據(jù)通常是對(duì)社會(huì)現(xiàn)象而言通常取自有限總體實(shí)驗(yàn)數(shù)據(jù)通過實(shí)驗(yàn)方法得到的數(shù)據(jù)通常是對(duì)自然現(xiàn)象而言也被廣泛運(yùn)用到社會(huì)科學(xué)中如心理學(xué)、教育學(xué)、社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、管理學(xué)等2.1
數(shù)據(jù)的來(lái)源數(shù)據(jù)抽樣——概率抽樣(probabilitysampling)簡(jiǎn)單隨機(jī)抽樣(simplerandomsampling)從含有N個(gè)元素的總體中,抽取n個(gè)元素作為樣本,使得每一個(gè)容量為n的樣本都有相同的機(jī)會(huì)(概率)被抽中簡(jiǎn)單隨機(jī)抽樣是其他抽樣方法的基礎(chǔ)有兩種抽取元素的方法:重復(fù)抽樣和不重復(fù)抽樣重復(fù)抽樣(samplingwithoutreplacement):從總體中抽取一個(gè)元素后,把這個(gè)元素放回到總體中再抽取第二個(gè)元素,直至抽取n個(gè)元素為止不重復(fù)抽樣(samplingwithreplacement:個(gè)元素被抽中后不再放回總體,然后再?gòu)乃O碌脑刂谐槿〉诙€(gè)元素,直到抽取n個(gè)元素為止分層抽樣(stratifiedsampling)在抽樣之前先將總體的元素劃分為若干層(類),然后從各個(gè)層中抽取一定數(shù)量的元素組成一個(gè)樣本,這樣的抽樣方式稱為分層抽樣,也稱分類抽樣(stratifiedsampling)在分層或分類時(shí),應(yīng)使層內(nèi)各元素的差異盡可能小,而使層與層之間的差異盡可能大。各層的劃分可根據(jù)研究者的判斷或研究的需要進(jìn)行。比如,研究的對(duì)象為人時(shí),可按性別、年齡等分層;研究收入的差異時(shí),可按城鄉(xiāng)分層,等等。分層抽樣是一種常用的抽樣方式。它具有以下優(yōu)點(diǎn):分層抽樣除了可以對(duì)總體進(jìn)行估計(jì)外,還可以對(duì)各層的子總體進(jìn)行估計(jì)分層抽樣按自然區(qū)域或行政區(qū)域進(jìn)行分層,可以使抽樣的組織和實(shí)施都比較方便分層抽樣的樣本分布在各個(gè)層內(nèi),從而使樣本在總體中的分布比較均勻分層抽樣可以提高估計(jì)的精度2.1
數(shù)據(jù)的來(lái)源數(shù)據(jù)抽樣——概率抽樣(probabilitysampling)系統(tǒng)抽樣(systematicsampling)也稱等距抽樣或機(jī)械抽樣。先將總體各元素按某種順序排列,并按某種規(guī)則確定一個(gè)隨機(jī)起點(diǎn),然后,每隔一定的間隔抽取一個(gè)元素,直至抽取n個(gè)元素形成一個(gè)樣本系統(tǒng)抽樣具有以下優(yōu)點(diǎn):簡(jiǎn)便易行。當(dāng)抽樣容量很大時(shí),簡(jiǎn)單隨機(jī)抽樣逐個(gè)使用隨機(jī)數(shù)字表抽選是相當(dāng)麻煩的,而系統(tǒng)抽樣有了總體元素的排序,只要確定出抽樣的起點(diǎn)和間隔后,樣本元素也就隨之確定,而且可以利用現(xiàn)有的排列順序,如抽選學(xué)生時(shí)利用學(xué)校的花名冊(cè),抽選居民時(shí)可利用居委會(huì)的戶口本等,方便操作。因此系統(tǒng)抽樣常用來(lái)代替簡(jiǎn)單隨機(jī)抽樣。系統(tǒng)抽樣的樣本在總體中的分布一般也比較均勻,由此估計(jì)的誤差通常要小于簡(jiǎn)單隨機(jī)抽樣。如果掌握了總體的有關(guān)信息,將總體各元素按有關(guān)標(biāo)志排列,就可以提高估計(jì)的精度整群抽樣(clustersampling)先將總體劃分成若干群,然后以群作為抽樣單位從中抽取部分群,再對(duì)抽中的各個(gè)群中所包含的所有元素進(jìn)行觀察整群抽樣時(shí),對(duì)群的劃分可以按自然的或行政的區(qū)域進(jìn)行,也可以人為地組成群。比如,在抽選地區(qū)時(shí),可以將一個(gè)地區(qū)作為一群,在抽取居民戶時(shí),可以將一個(gè)居民區(qū)作為一群整群抽樣的優(yōu)點(diǎn)是群的名單比較容易得到調(diào)查比較方便,節(jié)約費(fèi)用。當(dāng)群內(nèi)的各元素存在差異時(shí),整群抽樣可以提供較好的結(jié)果,理想的情況是每一群都是整個(gè)總體的一個(gè)縮影。在這種情況下,抽取很少的群就可以提供有關(guān)總體特征的信息如果實(shí)際情況不是這樣,整群抽樣的誤差會(huì)很大,效果也就很差2.1
數(shù)據(jù)的來(lái)源數(shù)據(jù)抽樣——概率抽樣——例題分析【例2.1】表2-1是50學(xué)生的姓名、性別、專業(yè)和考試分?jǐn)?shù)數(shù)據(jù),隨機(jī)抽取10個(gè)學(xué)生組成的一個(gè)樣本學(xué)生編號(hào)姓名性別專業(yè)考試分?jǐn)?shù)1張青松男會(huì)計(jì)學(xué)822王宇翔男金融學(xué)813田思雨女會(huì)計(jì)學(xué)754徐麗娜女管理學(xué)865張志杰男會(huì)計(jì)學(xué)77……………21劉曉軍男管理學(xué)9146孫夢(mèng)婷女管理學(xué)8647唐國(guó)健男管理學(xué)7548尹嘉韓男會(huì)計(jì)學(xué)7049王雯迪女會(huì)計(jì)學(xué)7350王思思女會(huì)計(jì)學(xué)80第1步:在工作表中點(diǎn)擊【數(shù)據(jù)】
【數(shù)據(jù)分析】。第2步:在彈出的對(duì)話框中選擇【抽樣】。單擊【確定】。第3步:在出現(xiàn)的對(duì)話框【輸入?yún)^(qū)域】中輸入要抽取一般的數(shù)據(jù)區(qū)域(本例中為學(xué)生代碼所在的區(qū)域);在【抽樣方法】中單擊【隨機(jī)】;在【樣本數(shù)】中輸入需要抽樣的樣本量(本例為20);在【輸出區(qū)域】中選擇抽樣結(jié)果放置的區(qū)域。單擊【確定】學(xué)生編號(hào)姓名性別專業(yè)考試分?jǐn)?shù)6趙穎穎女金融學(xué)9739劉文濤男管理學(xué)7341馬家強(qiáng)男金融學(xué)8212馬鳳良男金融學(xué)558宋麗媛女會(huì)計(jì)學(xué)9244邱怡爽女金融學(xué)8315孫學(xué)偉男會(huì)計(jì)學(xué)5130李愛華女會(huì)計(jì)學(xué)9812馬鳳良男金融學(xué)5539劉文濤男管理學(xué)732.2數(shù)據(jù)的預(yù)處理數(shù)據(jù)審核就是檢查數(shù)據(jù)中是否有錯(cuò)誤對(duì)于通過調(diào)查取得的原始數(shù)據(jù)(rawdata),主要從完整性和準(zhǔn)確性兩個(gè)方面去審核。完整性審核主要是檢查應(yīng)調(diào)查個(gè)體是否有遺漏,所有的調(diào)查項(xiàng)目是否填寫齊全等。準(zhǔn)確性審核主要是檢查數(shù)據(jù)是否有錯(cuò)誤,是否存在異常值等對(duì)于通過其他渠道取得的二手?jǐn)?shù)據(jù),應(yīng)著重審核數(shù)據(jù)的適用性和時(shí)效性應(yīng)弄清楚數(shù)據(jù)的來(lái)源、數(shù)據(jù)的口徑以及有關(guān)的背景材料,以便確定這些數(shù)據(jù)是否符合自己分析研究的需要,不能盲目生搬硬套還要對(duì)數(shù)據(jù)的時(shí)效性進(jìn)行審核,對(duì)于有些時(shí)效性較強(qiáng)的問題,如果所取得的數(shù)據(jù)過于滯后,可能失去了研究的意義數(shù)據(jù)審核與錄入——數(shù)據(jù)審核2.2數(shù)據(jù)的預(yù)處理數(shù)據(jù)錄入就是生成電子數(shù)據(jù)文件用Excel進(jìn)行數(shù)據(jù)驗(yàn)證第1步:用鼠標(biāo)在工作表中選定錄入數(shù)據(jù)的單元格區(qū)域,如A1:B10單元格區(qū)域第2步:選擇【數(shù)據(jù)】→【數(shù)據(jù)驗(yàn)證】第3步:在【驗(yàn)證條件】的【允許】框內(nèi)選擇要錄入的數(shù)據(jù)類型,比如,“整數(shù)”(默認(rèn)為任何值)。在【介于】框內(nèi)選擇驗(yàn)證條件,或者在“最小值”和“最大值”框內(nèi)輸入數(shù)據(jù)范圍。比如,在【最小值】框內(nèi)輸入0,在【最大值】框內(nèi)輸入100。出現(xiàn)的界面如下圖所示第4步:點(diǎn)擊【出錯(cuò)警告】,在【式樣】下選擇“警告”,在【錯(cuò)誤信息】下輸入警告信息,比如“NA”。然后點(diǎn)擊【確定】,即可完成設(shè)置完成上述設(shè)置后,在此區(qū)域內(nèi)錄入不符合驗(yàn)證條件的數(shù)據(jù)將會(huì)出現(xiàn)以下錯(cuò)誤信息。比如,在A1單元格錄入1000,顯示的錯(cuò)誤信息。選擇【是】,忽略此錯(cuò)誤,選擇【否】則返回單元格,再重新錄入數(shù)據(jù)審核與錄入——數(shù)據(jù)錄入2.2數(shù)據(jù)的預(yù)處理
數(shù)據(jù)排序與篩選——數(shù)據(jù)排序2.2數(shù)據(jù)的預(yù)處理數(shù)據(jù)篩選(datafilter)是根據(jù)需要找出符合特定條件的某類數(shù)據(jù)用Excel進(jìn)行數(shù)據(jù)篩選的過程篩選出考試分?jǐn)?shù)大于等于90的學(xué)生第1步:將光標(biāo)放在數(shù)據(jù)區(qū)域的任意單元格。然后點(diǎn)擊【數(shù)據(jù)】
【篩選】。這時(shí)繪在每個(gè)變量名中出現(xiàn)下拉箭頭第2步:點(diǎn)擊要篩選的變量的下拉箭頭即可對(duì)該變量進(jìn)行篩選。比如,要篩選出考試分?jǐn)?shù)大于等于90的學(xué)生,點(diǎn)擊考試分?jǐn)?shù)變量的下拉箭頭第3步:點(diǎn)擊“大于或等于”,并在后面的框內(nèi)輸入90。點(diǎn)擊【確定】篩選出會(huì)計(jì)學(xué)專業(yè)考試分?jǐn)?shù)小于60男生——使用【高級(jí)篩選】命令第1步:在工作表的上方插入3個(gè)空行,將數(shù)據(jù)表的第一行(變量名)復(fù)制到第1個(gè)空行;在第2個(gè)空行的相應(yīng)變量名下依次輸入篩選的條件第2步:選擇【數(shù)據(jù)】→【高級(jí)】。在列表區(qū)域輸入要篩選的數(shù)據(jù)區(qū)域;在條件區(qū)域輸入條件區(qū)域單擊【確定】數(shù)據(jù)排序與篩選——數(shù)據(jù)篩選2.3生成頻數(shù)分布表頻數(shù)(frequency)——落在某一特定類別(或組)中的數(shù)據(jù)個(gè)數(shù)頻數(shù)分布(frequencydistribution)——把各個(gè)類別及落在其中的相應(yīng)頻數(shù)全部列出,并用表格形式表現(xiàn)出來(lái)由于類別數(shù)據(jù)本身就是用文字表達(dá)的類別,因此,只要先把所有的類別都列出來(lái),然后計(jì)算出每一類別的頻數(shù),即可生成一張頻數(shù)分布表頻數(shù)分布表中落在某一特定類別的數(shù)據(jù)個(gè)數(shù)就是頻數(shù)根據(jù)觀察變量的多少,可以生成簡(jiǎn)單頻數(shù)表、二維列聯(lián)表和多維列聯(lián)表等類別數(shù)據(jù)的頻數(shù)分布表——簡(jiǎn)單頻數(shù)表簡(jiǎn)單的頻數(shù)表也稱為一維列聯(lián)表只涉及一個(gè)分類變量時(shí),這個(gè)變量的各類別(取值)可以放在頻數(shù)分布表中“行”的位置,也可以放在“列”的位置,將該變量的各類別及其相應(yīng)的頻數(shù)列出來(lái)2.3生成頻數(shù)分布表類別數(shù)據(jù)的頻數(shù)分布表——簡(jiǎn)單頻數(shù)表——例題分析【例2.3】沿用例2.1。分別制作學(xué)生性別和專業(yè)的簡(jiǎn)單頻數(shù)表用Excel生成頻數(shù)分布表的步驟第1步:選擇【插入】→【數(shù)據(jù)透視表】第2步:在【表/區(qū)域】框內(nèi)選定數(shù)據(jù)區(qū)域(在操作前將光標(biāo)放在任意數(shù)據(jù)單元格內(nèi),系統(tǒng)會(huì)自動(dòng)選定數(shù)據(jù)區(qū)域)。選擇放置數(shù)據(jù)透視表的位置。系統(tǒng)默認(rèn)是新工作表,如果要將透視表放在現(xiàn)有工作表中,選擇【現(xiàn)有工作表】,并在【位置】框內(nèi)點(diǎn)擊工作表的任意單元格(不要覆蓋數(shù)據(jù))。點(diǎn)擊【確定】第3步:用鼠標(biāo)右鍵單擊數(shù)據(jù)透視表,選擇【數(shù)據(jù)透視表選項(xiàng)】,在彈出的對(duì)話框中點(diǎn)擊【顯示】,并選中【經(jīng)典數(shù)據(jù)透視表布局】,然后【確定】第4步:將數(shù)據(jù)透視的一個(gè)字段拖至“行”位置,將“另一個(gè)字段”拖至“列”的位置(行列可以互換),再將要計(jì)數(shù)的變量拖至“值字段”位置,即可生成需要的頻數(shù)分布表2.3生成頻數(shù)分布表類別數(shù)據(jù)的頻數(shù)分布表——二維列聯(lián)表——例題分析二維列聯(lián)表(contingencytable)也稱為交叉表(crosstable)涉及兩個(gè)分類變量時(shí),通常將一個(gè)變量的各類別放在“行”的位置,另一個(gè)變量的各類別放在“列”的位置(行和列可以互換)生成頻數(shù)分布表,這樣表格就是列聯(lián)表可以使用比例(proportion)、百分比(percentage)、比率(ratio)等統(tǒng)計(jì)量進(jìn)行描述。如果是有序類別數(shù)據(jù),還可以計(jì)算累積百分比(CumulativePercent)進(jìn)行分析【例2.4】例如沿用例2.1。將性別放在行的位置、專專業(yè)放在列的位置,制作一個(gè)二維列聯(lián)表2.3生成頻數(shù)分布表數(shù)值數(shù)據(jù)的頻數(shù)分布表——例題分析生成數(shù)值數(shù)據(jù)的頻數(shù)分布表時(shí),需要先將其類別化,即轉(zhuǎn)化為類別數(shù)據(jù),然后再生成頻數(shù)分布表。類別化的方法是將原始數(shù)據(jù)分成不同的組別數(shù)據(jù)分組是將數(shù)值數(shù)據(jù)轉(zhuǎn)化成類別數(shù)據(jù)的方法之一,它是先將數(shù)據(jù)按照一定的間距劃分成若干個(gè)區(qū)間,然后再統(tǒng)計(jì)出每個(gè)區(qū)間的頻數(shù),生成頻數(shù)分布表【例2.5】某電腦公司2021年前4個(gè)月的銷售額數(shù)據(jù)如表2-7所示。對(duì)數(shù)據(jù)額做適當(dāng)分組,分析銷售額的分布特征2341591871551721831821771631581431981411671942251771891962031871602141681731781842091761881611521492111962341851891962061501611781681741531861901601712281622231701651791861751972081531632181801751441781911971921661961791712331791871731742101541642152331751882371941981681742261801721901721871892002111561651752102071812051952011722031651961721761821881952022132.3生成頻數(shù)分布表數(shù)值數(shù)據(jù)的頻數(shù)分布表——例題分析
2.3生成頻數(shù)分布表數(shù)值數(shù)據(jù)的頻數(shù)分布表——例題分析【例2.5】某電腦公司2021年前4個(gè)月的銷售額數(shù)據(jù)分組表
銷售額分組(萬(wàn)元)天數(shù)(天)頻率(%)140-15043.3315--16097.50160-1701613.33170-1802722.50180-1902016.67190-2001714.17200-210108.33210=22086.67220-23043.33230-24054.17合計(jì)120100.00思維導(dǎo)圖本書結(jié)構(gòu)數(shù)據(jù)來(lái)源和處理數(shù)據(jù)來(lái)源間接來(lái)源和間接來(lái)源數(shù)據(jù)抽樣簡(jiǎn)單隨機(jī)抽樣分層抽樣系統(tǒng)抽樣整群抽樣數(shù)據(jù)預(yù)處理審核與錄入排序與篩選生成頻數(shù)表分類數(shù)據(jù)數(shù)值數(shù)據(jù)來(lái)源間接和直接處理審核與錄入生成表頻數(shù)表賈俊平2024/3/133.1類別數(shù)據(jù)可視化3.2數(shù)值數(shù)據(jù)可視化3.3合理使用圖表
數(shù)據(jù)可視化內(nèi)容提要本章主要介紹數(shù)據(jù)可視化,也就是如何用圖形來(lái)展示數(shù)據(jù)。無(wú)論是做數(shù)據(jù)的描述、推斷還是其他分析,都離不開可視化問題??梢暬菙?shù)據(jù)分析的基本技能,也是學(xué)習(xí)統(tǒng)計(jì)必須掌握的知識(shí)具體內(nèi)容包括類別數(shù)據(jù)的可視化方法,主要介紹條形圖和餅圖的繪制方法數(shù)值數(shù)據(jù)的可視化方法,介紹反映數(shù)據(jù)分布特征的直方圖和箱形圖;反映數(shù)值變量之間關(guān)系的散點(diǎn)圖和氣泡圖;反映樣本相似性的雷達(dá)圖和輪廓圖;反映時(shí)間序列變化特征的折線圖和面積圖等使用圖表的注意事項(xiàng),介紹圖表使用中應(yīng)注意的一些問題本章內(nèi)容提要3.1
類別數(shù)據(jù)可視化條形圖(barchart)用一定寬度的條形來(lái)表示各類別頻數(shù)的圖形,用于觀察不同類別頻數(shù)的多少或分布狀況繪制時(shí),各類別可以放在橫軸,也可以放在縱軸,將各類別放在橫軸繪制的條形圖也稱為柱形圖(columnchart)只有一個(gè)分類變量時(shí),可以繪制簡(jiǎn)單條形圖和帕累托圖有兩個(gè)分類變量時(shí),可以繪制簇狀條形圖或堆積條形圖條形圖簡(jiǎn)單條形圖是根據(jù)一個(gè)分類變量繪制的,用于描述該變量的各類別的頻數(shù)分布狀況其中的各個(gè)類別可以放在橫軸,也可以放在縱軸帕累托圖(paretoplot)以意大利經(jīng)濟(jì)學(xué)家V.Pareto的名字而命名的,它是按各類別的頻數(shù)多少降序排列后繪制的條形圖。帕累托圖可以看做是簡(jiǎn)單條形圖的一個(gè)變種簇狀條形圖或堆積條形圖可以將兩個(gè)變量的條形圖以簇狀或堆積的方式繪制3.1
類別數(shù)據(jù)可視化【例3.1】為研究不同地區(qū)的消費(fèi)者對(duì)網(wǎng)上購(gòu)物的滿意度,隨機(jī)抽取東部、中部和西部的2000個(gè)消費(fèi)者進(jìn)行調(diào)查,得到的結(jié)果如表3-1所示。繪制條形圖,分析各類別的人數(shù)分布狀況條形圖——簡(jiǎn)單條形圖——例題分析東部中部西部總計(jì)非常滿意104140132376比較滿意156108120384一般148148160456不滿意156108140404非常不滿意156116108380總計(jì)72062066020003.1
類別數(shù)據(jù)可視化【例3.1】為研究不同地區(qū)的消費(fèi)者對(duì)網(wǎng)上購(gòu)物的滿意度,隨機(jī)抽取東部、中部和西部的2000個(gè)消費(fèi)者進(jìn)行調(diào)查,得到的結(jié)果如表3-1所示。繪制條形圖,分析各類別的人數(shù)分布狀況條形圖——帕累托圖——例題分析東部中部西部總計(jì)非常滿意104140132376比較滿意156108120384一般148148160456不滿意156108140404非常不滿意156116108380總計(jì)72062066020003.1
類別數(shù)據(jù)可視化【例3.1】——繪制簇狀條形圖和堆積條形圖條形圖——簇狀條形圖和堆積條形圖——例題分析3.1
類別數(shù)據(jù)可視化【例3.1】——繪制百分比堆積條形圖條形圖——簇狀條形圖和堆積條形圖——例題分析3.1
類別數(shù)據(jù)可視化餅圖(piechart)是用圓形及圓內(nèi)扇形的角度來(lái)表示一個(gè)樣本(或總體)中各類別的頻數(shù)占總頻數(shù)比例大小的圖形對(duì)于研究結(jié)構(gòu)性問題十分有用餅圖和環(huán)形圖——餅圖——例題分析3.1
類別數(shù)據(jù)可視化環(huán)形圖(doughnutchart)環(huán)形圖與餅圖類似,但又有區(qū)別。環(huán)形圖中間有一個(gè)“空洞”,每個(gè)樣本用一個(gè)環(huán)來(lái)表示,樣本中每一類別的頻數(shù)構(gòu)成用環(huán)中的一段表示。因此,環(huán)形圖可顯示多個(gè)樣本各類別頻數(shù)占其相應(yīng)總頻數(shù)的比例,從而有利于構(gòu)成的比較研究繪制環(huán)形圖時(shí),先向圓心方向畫一條垂線(圓的半徑),然后順時(shí)針方向依次畫出各類別所占的百分比。其中樣本的順序依次從內(nèi)環(huán)到外環(huán)餅圖和環(huán)形圖——環(huán)形圖——例題分析3.2
數(shù)值數(shù)據(jù)可視化直方圖(histogram)用于展示數(shù)值數(shù)據(jù)分布的一種常用圖形它是用矩形的寬度和高度來(lái)表示頻數(shù)分布通過直方圖可以觀察數(shù)據(jù)分布的大體形狀,如分布是否對(duì)稱直方圖和箱形圖——直方圖不同直方圖所對(duì)應(yīng)的分布形狀3.2
數(shù)值數(shù)據(jù)可視化【例3.2】表3-2是2020年1月—6月北京市的PM2.5數(shù)據(jù)。繪制直方圖分析PM2.5的分布特征直方圖和箱形圖——直方圖——例題分析日期1月2月3月4月5月6月135921910819251312516552335018141459424431011233485612638304812…………………271582854196628171651059375529708645615928304668905315314464112020年1—6月北京市PM2.5的直方圖3.2
數(shù)值數(shù)據(jù)可視化直方圖和箱形圖——直方圖——例題分析2020年1—6月北京市PM2.5的直方圖(組距=15)2020年1—6月北京市PM2.5的直方圖(組距為15,下溢箱為10,溢出箱為180)3.2
數(shù)值數(shù)據(jù)可視化
直方圖和箱形圖——箱形圖3.2
數(shù)值數(shù)據(jù)可視化箱形圖的一般形式直方圖和箱形圖——箱形圖3.2
數(shù)值數(shù)據(jù)可視化不同分布形狀對(duì)應(yīng)的箱形圖直方圖和箱形圖——箱形圖3.2
數(shù)值數(shù)據(jù)可視化【例3.3】沿用例3.2。繪制箱形圖,分析各月份PM2.5分布的特征用Excel繪制箱形圖時(shí),先將光標(biāo)放在任意數(shù)據(jù)單元格,然后點(diǎn)擊【插入】
【插入統(tǒng)計(jì)圖表】,選擇【箱形圖】,即可繪制出箱形圖。根據(jù)需要再對(duì)圖形做必要的修改,比如,選擇不同的箱形圖式樣、更改坐標(biāo)軸刻度、添加坐標(biāo)軸標(biāo)題、添加箱形圖的數(shù)值標(biāo)簽等直方圖和箱形圖——箱形圖——例題分析3.2
數(shù)值數(shù)據(jù)可視化
散點(diǎn)圖和氣泡圖——散點(diǎn)圖——例題分析【例3.4】我國(guó)2019年31個(gè)地區(qū)的地區(qū)生產(chǎn)總值、房地產(chǎn)開發(fā)投資和社會(huì)消費(fèi)品零售總額數(shù)據(jù)。繪散點(diǎn)圖并觀察它們之間的關(guān)系地區(qū)地區(qū)生產(chǎn)總值房地產(chǎn)開發(fā)投資社會(huì)消費(fèi)品零售總額北京市35371.33838.415063.7天津市14104.32727.84218.2河北省35104.54347.112985.5山西省17026.71656.57030.5內(nèi)蒙古自治區(qū)17212.51042.05051.1…………陜西省25793.23903.710213.0甘肅省8718.31257.93700.3青海省2966.0406.3948.5寧夏回族自治區(qū)3748.5403.11399.4新疆維吾爾自治區(qū)13597.11074.03617.03.2
數(shù)值數(shù)據(jù)可視化散點(diǎn)圖和氣泡圖——散點(diǎn)圖——例題分析【例3.4】我國(guó)2019年31個(gè)地區(qū)的地區(qū)生產(chǎn)總值、房地產(chǎn)開發(fā)投資和社會(huì)消費(fèi)品零售總額數(shù)據(jù)。繪散點(diǎn)圖并觀察它們之間的關(guān)系3.2
數(shù)值數(shù)據(jù)可視化氣泡圖(bubblechart)可以看作是散點(diǎn)圖的一個(gè)變種在氣泡圖中,第3個(gè)變量數(shù)值的大小用圓的大小表示散點(diǎn)圖和氣泡圖——?dú)馀輬D——例題分析【例3.4】地區(qū)生產(chǎn)總值、房地產(chǎn)開發(fā)投資、社會(huì)消費(fèi)品零售總額3個(gè)變量繪制的氣泡圖3.2
數(shù)值數(shù)據(jù)可視化氣泡圖(bubblechart)可以看作是散點(diǎn)圖的一個(gè)變種在氣泡圖中,第3個(gè)變量數(shù)值的大小用圓的大小表示散點(diǎn)圖和氣泡圖——?dú)馀輬D——例題分析【例3.4】地區(qū)生產(chǎn)總值、房地產(chǎn)開發(fā)投資、社會(huì)消費(fèi)品零售總額3個(gè)變量繪制的氣泡圖3.2
數(shù)值數(shù)據(jù)可視化雷達(dá)圖和輪廓圖——雷達(dá)圖——例題分析雷達(dá)圖(radarchart)從一個(gè)點(diǎn)出發(fā),用每一條射線代表一個(gè)變量,多個(gè)變量的數(shù)據(jù)點(diǎn)連接成線,即圍成一個(gè)區(qū)域,多個(gè)樣本圍成多個(gè)區(qū)域,就是雷達(dá)圖利用它也可以研究多個(gè)樣本之間的相似程度【例3.5】表3-4是2018年北京、天津、上海和重慶的人均消費(fèi)支出數(shù)據(jù),繪制雷達(dá)圖,比較不同地區(qū)的家庭消費(fèi)支出的特點(diǎn)和相似性地區(qū)食品煙酒衣著居住生活用品及服務(wù)交通通信教育文化娛樂醫(yī)療保健其他用品及服務(wù)北京8064.92175.514110.32371.94767.43999.43274.51078.6天津8647.51990.06406.31818.44280.93186.62676.9896.3上海10728.22036.814208.52095.54881.25049.43070.21281.5重慶6220.81454.53498.81338.92545.02087.81660.0442.83.2
數(shù)值數(shù)據(jù)可視化雷達(dá)圖和輪廓圖——雷達(dá)圖——例題分析【例3.5】——雷達(dá)圖3.2
數(shù)值數(shù)據(jù)可視化雷達(dá)圖和輪廓圖——輪廓圖——例題分析輪廓圖(outlinechart)也稱為平行坐標(biāo)圖或多線圖它是用x軸表示各樣本,y軸表示每個(gè)樣本的多個(gè)變量的取值,將同一樣本的不同變量取值用折線連接,即為輪廓圖利用它也可以研究多個(gè)樣本之間的相似程度【例3.5】表3-4是2018年北京、天津、上海和重慶的人均消費(fèi)支出數(shù)據(jù),繪制輪廓圖,比較不同地區(qū)的家庭消費(fèi)支出的特點(diǎn)和相似性3.2
數(shù)值數(shù)據(jù)可視化折線圖和面積圖——折線圖——例題分析
【例3.1】例3.1中1月份和2月份的數(shù)據(jù)的PM2.5的折線圖3.2
數(shù)值數(shù)據(jù)可視化折線圖和面積圖——折線圖——例題分析
【例3.1】例3.1中1月份和2月份的數(shù)據(jù)的PM2.5的面積圖3.3
合理使用圖表使用圖表的注意事項(xiàng)精心設(shè)計(jì)的圖表可以準(zhǔn)確表達(dá)數(shù)據(jù)所要傳遞的信息設(shè)計(jì)圖表時(shí),應(yīng)盡可能簡(jiǎn)潔,以能夠清晰地顯示數(shù)據(jù)、合理地表達(dá)統(tǒng)計(jì)目的為依據(jù)在繪制圖形時(shí),應(yīng)避免一切不必要的修飾。過于花哨的修飾往往會(huì)使人注重圖形本身,而掩蓋了圖形所要表達(dá)的信息。圖形大體上為4:3的一個(gè)矩形,過長(zhǎng)或過高的圖形都有可能歪曲數(shù)據(jù),給人留下錯(cuò)誤的印象圖表應(yīng)有編號(hào)和標(biāo)題。編號(hào)一般使用阿拉伯?dāng)?shù)字,如表1、表2等等。圖表的標(biāo)題應(yīng)明示出表中數(shù)據(jù)所屬的時(shí)間(when)、地點(diǎn)(where)和內(nèi)容(what),即通常所說的3W準(zhǔn)則。表的標(biāo)題通常放在表的上方;圖的標(biāo)題可放在圖的上方,也可放在圖的下方思維導(dǎo)圖本書結(jié)構(gòu)數(shù)據(jù)可視化類別數(shù)據(jù)觀察頻數(shù)簡(jiǎn)單條形圖帕累托圖簇狀條形圖堆積條形圖觀察頻數(shù)構(gòu)成餅圖環(huán)形圖數(shù)值數(shù)據(jù)看分布直方圖箱形圖看關(guān)系散點(diǎn)圖氣泡圖看相似雷達(dá)圖輪廓圖時(shí)間序列折線圖面積圖數(shù)值數(shù)據(jù)其他數(shù)據(jù)類別數(shù)據(jù)賈俊平2024/3/134.1集中趨勢(shì)的度量4.2離散程度的度量4.3分布形狀的度量
數(shù)據(jù)分布特征的測(cè)度內(nèi)容提要數(shù)據(jù)分布的特征主要從三個(gè)方面進(jìn)行測(cè)度和描述:一是分布的集中趨勢(shì),反映各數(shù)據(jù)向其中心值靠攏或聚集的程度;二是分布的離散程度,反映各數(shù)據(jù)遠(yuǎn)離其中心值的趨勢(shì);三是分布的形狀,反映數(shù)據(jù)分布偏斜程度和峰度。這三個(gè)方面分別反映了數(shù)據(jù)分布特征的不同側(cè)面。本章將重點(diǎn)討論數(shù)據(jù)分布特征各測(cè)度值的計(jì)算方法、特點(diǎn)及應(yīng)用場(chǎng)合具體內(nèi)容包括集中趨勢(shì)的度量。介紹數(shù)據(jù)分布集中趨勢(shì)的各統(tǒng)計(jì)量,包括平均數(shù)、中位數(shù)、四分位數(shù)和眾數(shù)的計(jì)算方法、特點(diǎn)和應(yīng)用場(chǎng)合離散程度的度量,介紹測(cè)度數(shù)據(jù)離散程度的常用統(tǒng)計(jì)量,包括極差、四分位差、方差、標(biāo)準(zhǔn)差以及離散系數(shù)等偏度和峰度的度量,介紹偏度系數(shù)和峰度系數(shù)計(jì)算方法類別數(shù)據(jù)的可視化方法,主要介紹條形圖和餅圖的繪制方法本章內(nèi)容提要4.1
集中趨勢(shì)的度量
平均數(shù)簡(jiǎn)單平均數(shù)加權(quán)平均數(shù)
4.1
集中趨勢(shì)的度量【例4.1】隨機(jī)抽取30個(gè)大學(xué)生,得到他們?cè)凇半p十一”期間的網(wǎng)購(gòu)金額數(shù)據(jù),如表所示。計(jì)算30個(gè)人的平均網(wǎng)購(gòu)金額平均數(shù)——簡(jiǎn)單平均數(shù)——例題分析479.0721.2672.4728.7443.2381.3527.0500.0586.0500.0528.2633.8705.9423.5590.1353.6447.4565.3557.1481.3561.1620.1477.1436.2562.9505.1515.4502.7487.5675.4
4.1
集中趨勢(shì)的度量【例4.2】假定將表4-1的數(shù)據(jù)分成組距為50的組,分組結(jié)果如表4-2所示,計(jì)算網(wǎng)購(gòu)金額的平均數(shù)平均數(shù)——加權(quán)平均數(shù)——例題分析
分組人數(shù)350~4002400~4504450~5004500~5507550~6006600~6502650~7002700~7503合計(jì)30分組350~4003752750400~45042541700450~50047541900500~55052573675550~60057563450600~65062521250650~70067521350700~75072532175合計(jì)
30162504.1
集中趨勢(shì)的度量中位數(shù)和四分位數(shù)——中位數(shù)——例題分析分位數(shù)——一組數(shù)據(jù)按從小到大排序后,可以找出排在某個(gè)位置上的數(shù)值,該數(shù)值可以代表數(shù)據(jù)水平的高低。這些位置上的數(shù)值就是相應(yīng)的分位數(shù)(quantile)。常用的分位數(shù)有中位數(shù)、四分位數(shù)、百分位數(shù)等中位數(shù)——排序后處于中間位置上的值。不受極端值影響位置確定數(shù)值計(jì)算
4.1
集中趨勢(shì)的度量中位數(shù)和四分位數(shù)——四分位數(shù)——例題分析四分位數(shù)——一組數(shù)據(jù)排序后處在25%和75%位置上的數(shù)值它是用3個(gè)點(diǎn)將全部數(shù)據(jù)等分為4部分,其中每部分包含25%的數(shù)據(jù)。中間的四分位數(shù)就是中位數(shù),通常所說的四分位數(shù)是指處在25%位置上和75%位置上的兩個(gè)數(shù)值位置確定
4.1
集中趨勢(shì)的度量眾數(shù)——各度量值的比較眾數(shù)——一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值一組數(shù)據(jù)可能沒有眾數(shù)或有幾個(gè)眾數(shù)適合于數(shù)據(jù)量較多時(shí)使用實(shí)際中很少使用平均數(shù)易受極端值影響數(shù)學(xué)性質(zhì)優(yōu)良,實(shí)際中最常用數(shù)據(jù)對(duì)稱分布或接近對(duì)稱分布時(shí)代表性較好中位數(shù)不受極端值影響數(shù)據(jù)分布偏斜程度較大時(shí)代表性接好眾數(shù)不受極端值影響具有不惟一性數(shù)據(jù)分布偏斜程度較大且有明顯峰值時(shí)代表性較好4.2
離散程度的度量極差和四分位差——極差
4.2
離散程度的度量極差和四分位差——四分位差
4.2
離散程度的度量方差和標(biāo)準(zhǔn)差方差——各變量值與均值的平均差異標(biāo)準(zhǔn)差——上四分位數(shù)與下四分位數(shù)之差
樣本標(biāo)準(zhǔn)差s
樣本標(biāo)準(zhǔn)差s
原始數(shù)據(jù)分組數(shù)據(jù)4.2
離散程度的度量方差和標(biāo)準(zhǔn)差——例題分析
【例4.6】沿用例4.2。根據(jù)表4-2的分組數(shù)據(jù),計(jì)算網(wǎng)購(gòu)金額的標(biāo)準(zhǔn)差分組350~400375226879.6053759.21400~450425412984.6051938.41450~50047544089.6016358.41500~5505257194.601362.22550~60057561299.607797.61600~65062527404.6014809.21650~700675218509.6037019.21700~750725334614.60103843.81合計(jì)—30105976.82286888.08
4.2
離散程度的度量離散系數(shù)——例題分析離散系數(shù)——標(biāo)準(zhǔn)差與其相應(yīng)的均值之比對(duì)數(shù)據(jù)相對(duì)離散程度的測(cè)度消除了數(shù)據(jù)水平高低和計(jì)量單位的影響用于對(duì)不同組別數(shù)據(jù)離散程度的比較計(jì)算公式為【例4.7】評(píng)價(jià)哪名運(yùn)動(dòng)員的發(fā)揮更穩(wěn)定
姓名國(guó)家預(yù)賽成績(jī)決賽10槍成績(jī)(環(huán))納塔利婭·帕杰林娜俄羅斯39110.08.510.010.210.610.59.89.79.59.3郭文珺中國(guó)39010.010.510.410.410.110.39.410.710.89.7卓格巴德拉赫·蒙赫珠勒蒙古3879.310.08.78.39.29.58.510.79.29.2妮諾·薩盧克瓦澤格魯吉亞3869.810.310.09.510.210.710.410.69.110.8維多利亞·柴卡白俄羅斯3849.39.410.410.110.210.59.210.59.88.6萊萬(wàn)多夫斯卡·薩貢波蘭3848.110.39.29.99.810.49.99.410.79.8亞斯娜·舍卡里奇塞爾維亞38410.29.69.99.99.39.19.710.09.39.9米拉·內(nèi)萬(wàn)蘇芬蘭3848.79.39.210.39.810.09.79.99.99.74.2
離散程度的度量離散系數(shù)——例題分析【例4.7】評(píng)價(jià)哪名運(yùn)動(dòng)員的發(fā)揮更穩(wěn)定運(yùn)動(dòng)員國(guó)家平均環(huán)數(shù)標(biāo)準(zhǔn)差離散系數(shù)納塔利婭·帕杰林娜俄羅斯9.810.61540.0627郭文珺中國(guó)10.230.43730.0427卓格巴德拉赫·蒙赫珠勒蒙古國(guó)9.260.70740.0764妮諾·薩盧克瓦澤格魯吉亞10.140.54610.0539維多利亞·柴卡白俄羅斯9.800.64980.0663萊萬(wàn)多夫斯卡·薩貢波蘭9.730.73340.0754亞斯娜·舍卡里奇塞爾維亞9.690.35730.0369米拉·內(nèi)萬(wàn)蘇芬蘭9.650.46250.0479結(jié)論:從離散系數(shù)可以看出,在最后10槍的決賽中,發(fā)揮比較穩(wěn)定的運(yùn)動(dòng)員是塞爾維亞的亞斯娜·舍卡里奇和中國(guó)的郭文珺,發(fā)揮不穩(wěn)定的運(yùn)動(dòng)員是蒙古國(guó)的卓格巴德拉赫·蒙赫珠勒和波蘭的萊萬(wàn)多夫斯卡·薩貢4.2
離散程度的度量標(biāo)準(zhǔn)分?jǐn)?shù)——例題分析標(biāo)準(zhǔn)分?jǐn)?shù)——也稱標(biāo)準(zhǔn)化值對(duì)某一個(gè)值在一組數(shù)據(jù)中相對(duì)位置的度量可用于判斷一組數(shù)據(jù)是否有離群點(diǎn)(outlier)用于對(duì)變量的標(biāo)準(zhǔn)化處理計(jì)算公式為
4.2
離散程度的度量標(biāo)準(zhǔn)分?jǐn)?shù)——例題分析【例4.8】沿用例4.1。計(jì)算30個(gè)人網(wǎng)購(gòu)金額的標(biāo)準(zhǔn)分?jǐn)?shù)網(wǎng)購(gòu)金額標(biāo)準(zhǔn)分?jǐn)?shù)網(wǎng)購(gòu)金額標(biāo)準(zhǔn)分?jǐn)?shù)網(wǎng)購(gòu)金額標(biāo)準(zhǔn)分?jǐn)?shù)479.0-0.6141672.41.3670443.2-0.9808527.0-0.1224586.00.4820528.2-0.1101705.91.7102590.10.5240447.4-0.9378557.10.1859561.10.2269477.1-0.6336562.90.2453515.4-0.2412487.5-0.5270721.21.8669728.71.9438381.3-1.6149500.0-0.3990500.0-0.3990633.80.9716423.5-1.1826353.6-1.8987565.30.2699481.3-0.5906620.10.8313436.2-1.0526505.1-0.3468502.7-0.3713675.41.39784.2
離散程度的度量標(biāo)準(zhǔn)分?jǐn)?shù)——經(jīng)驗(yàn)法則與切比雪夫不等式經(jīng)驗(yàn)法則根據(jù)標(biāo)準(zhǔn)分?jǐn)?shù),可以判斷一組數(shù)據(jù)中是否存在離群點(diǎn)(outlier)經(jīng)驗(yàn)表明:當(dāng)一組數(shù)據(jù)對(duì)稱分布時(shí),約有68.26%的數(shù)據(jù)在平均數(shù)加減1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi);約有95.44%的數(shù)據(jù)在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi);約有99%的數(shù)據(jù)在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)一組數(shù)據(jù)中低于或高于平均數(shù)3倍標(biāo)準(zhǔn)差之外的數(shù)值是很少的,也就是說,在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)幾乎包含了全部數(shù)據(jù),而在3個(gè)標(biāo)準(zhǔn)差之外的數(shù)據(jù)在統(tǒng)計(jì)上也稱為離群點(diǎn)4.2
離散程度的度量標(biāo)準(zhǔn)分?jǐn)?shù)——經(jīng)驗(yàn)法則與切比雪夫不等式切比雪夫不等式(Chebyshev’sinequality)經(jīng)驗(yàn)法則適合對(duì)稱分布的數(shù)據(jù)。如果一組數(shù)據(jù)不是對(duì)稱分布,經(jīng)驗(yàn)法則就不再適用,這時(shí)可使用切比雪夫不等式它對(duì)任何分布形態(tài)的數(shù)據(jù)都適用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”,對(duì)于任意分布形態(tài)的數(shù)據(jù),根據(jù)切比雪夫不等式:至少有(1-1/k2)的數(shù)據(jù)落在±k個(gè)標(biāo)準(zhǔn)差之內(nèi)。其中k是大于1的任意值,但不一定是整數(shù)。對(duì)于k=2,3,4,該不等式的含義是:至少有75%的數(shù)據(jù)在平均數(shù)±2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)。至少有89%的數(shù)據(jù)在平均數(shù)±3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)。至少有94%的數(shù)據(jù)在平均數(shù)±4個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)。4.3
分布形狀的度量偏度系數(shù)和峰度系數(shù)
峰度(kurtosis)——指數(shù)據(jù)分布峰值的高低由統(tǒng)計(jì)學(xué)家K.Pearson于1905年首次提出峰度系數(shù)—測(cè)度一組數(shù)據(jù)分布峰值高低的統(tǒng)計(jì)量是(coefficientofkurtosis),記作K計(jì)算公式
4.3
分布形狀的度量偏度系數(shù)和峰度系數(shù)——例題分析
4.3
分布形狀的度量偏度系數(shù)和峰度系數(shù)——例題分析【例4.9】沿用例4.1。計(jì)算30個(gè)人網(wǎng)購(gòu)金額的偏度系數(shù)和峰度系數(shù)Excel實(shí)現(xiàn)第1步:將光標(biāo)放在任意空白單元格。然后點(diǎn)擊【數(shù)據(jù)】
【數(shù)據(jù)分析】。在分析工具中選擇【描述統(tǒng)計(jì)】。單擊【確定】。第2步:在【輸入?yún)^(qū)域】輸入原始數(shù)據(jù)所在的區(qū)域;在【輸出選項(xiàng)】中選擇結(jié)果的輸出位置;選擇【匯總統(tǒng)計(jì)】(其他選項(xiàng)可根據(jù)需要選擇)。單擊【確定】即可得到結(jié)果統(tǒng)計(jì)量名稱計(jì)算結(jié)果平均538.95標(biāo)準(zhǔn)誤差17.82291中位數(shù)521.2眾數(shù)500標(biāo)準(zhǔn)差97.62009方差9529.681峰度-0.40747偏度0.340565區(qū)域375.1最小值353.6最大值728.7求和16168.5觀測(cè)數(shù)304.3
分布形狀的度量偏度系數(shù)——例題分析Excel中的描述函數(shù)函數(shù)名語(yǔ)法功能AVEDEVAVEDEV(number1,number2,...)計(jì)算平均差A(yù)VERAGEAVERAGE(number1,number2,...)計(jì)算平均數(shù)GEOMEANGEOMEAN(number1,number2,...)計(jì)算幾何平均數(shù)HARMEANHARMEAN(number1,number2,...)計(jì)算簡(jiǎn)單調(diào)和平均數(shù)KURTKURT(number1,number2,...)計(jì)算峰態(tài)系數(shù)MODEMODE(number1,number2,...)計(jì)算眾數(shù)MEDIANMEDIAN(number1,number2,...)計(jì)算中位數(shù)QUARTILEQUARTILE(array,quart)計(jì)算四分位數(shù)SKEWSKEW(number1,number2,...)計(jì)算偏態(tài)系數(shù)STDEVSTDEV(number1,number2,...)計(jì)算樣本標(biāo)準(zhǔn)差STDEVPSTDEVP(number1,number2,...)計(jì)算總體標(biāo)準(zhǔn)差TRIMMEANTRIMMEAN(array,percent)計(jì)算切尾均值思維導(dǎo)圖本書結(jié)構(gòu)分布特征的測(cè)度集中趨勢(shì)平均數(shù)中位數(shù)四分位數(shù)眾數(shù)離散程度極差和四分位差方差和標(biāo)準(zhǔn)差離散系數(shù)標(biāo)準(zhǔn)分?jǐn)?shù)分布形狀偏度系數(shù)峰度系數(shù)數(shù)值特征水平差異形狀賈俊平2024/3/135.1統(tǒng)計(jì)量的抽樣分布5.2參數(shù)估計(jì)的基本原理5.3總體均值的區(qū)間估計(jì)5.4總體比的區(qū)間估計(jì)5.5樣本量的確定
參數(shù)估計(jì)內(nèi)容提要參數(shù)估計(jì)是推斷統(tǒng)計(jì)的重要內(nèi)容之一。它是在抽樣及抽樣分布的基礎(chǔ)上,根據(jù)樣本統(tǒng)計(jì)量來(lái)推斷所關(guān)心的總體參數(shù)。本章首先介紹抽樣分布的有關(guān)知識(shí),然后上介紹參數(shù)估計(jì)的基本方法,最后介紹參數(shù)估計(jì)中樣本量的確定問題具體內(nèi)容包括抽樣分布。主要解釋樣本均值和一般比例的抽樣分布,為理解參數(shù)估計(jì)奠定基礎(chǔ)參數(shù)估計(jì)的基本原理。介紹點(diǎn)估計(jì)和區(qū)間估計(jì)的基本思想和原理總體均值的區(qū)間估計(jì)。介紹一個(gè)總體均值的區(qū)間估計(jì)方法,包括正態(tài)總體方差已知和非正態(tài)總體大樣本條件下總體均值的區(qū)間估計(jì),以及正態(tài)總體方差未知及小樣本條件下總體均值的區(qū)間估計(jì)體比例的估計(jì)。主要介紹大樣本情形下總體比例的區(qū)間估計(jì)樣本量的確定。分別介紹估計(jì)總體均值時(shí)和估計(jì)總體比例時(shí)樣本量的確定方法本章內(nèi)容提要5.1
統(tǒng)計(jì)量的抽樣分布
什么是抽樣分布5.1
統(tǒng)計(jì)量的抽樣分布
樣本均值的分布5.1
統(tǒng)計(jì)量的抽樣分布
樣本均值的分布——例題分析樣本樣本中的元素11,11.021,21.531,32.041,42.552,11.562,22.072,32.582,43.093,12.0103,22.5113,33.0123,43.5134,12.5144,23.0154,33.5164,44.01.011.522.032.543.033.524.015.1
統(tǒng)計(jì)量的抽樣分布
樣本均值的分布——例題分析5.1
統(tǒng)計(jì)量的抽樣分布抽樣均值的分布與總體分布及樣本量的關(guān)系樣本均值的分布——與總體分布及樣本量的關(guān)系5.1
統(tǒng)計(jì)量的抽樣分布
樣本均值的分布——中心極限定理5.1
統(tǒng)計(jì)量的抽樣分布從0~100均勻分布的總體和指數(shù)分布的總體中分別抽取樣本量為2、10和30的各5000個(gè)樣本,樣本均值的分布如圖所示圖中的U表示均勻分布,E表示指數(shù)分布樣本均值的分布——中心極限定理的模擬5.1
統(tǒng)計(jì)量的抽樣分布
樣本均值的分布——分布的參數(shù)特征5.1
統(tǒng)計(jì)量的抽樣分布
樣本比例的分布——比例5.1
統(tǒng)計(jì)量的抽樣分布
樣本比例的分布5.1
統(tǒng)計(jì)量的抽樣分布
統(tǒng)計(jì)量的標(biāo)準(zhǔn)誤5.1
統(tǒng)計(jì)量的抽樣分布估計(jì)的標(biāo)準(zhǔn)誤當(dāng)總體標(biāo)準(zhǔn)差
未知時(shí),可用樣本標(biāo)準(zhǔn)差s代替計(jì)算,這時(shí)計(jì)算的標(biāo)準(zhǔn)誤也稱為估計(jì)標(biāo)準(zhǔn)誤(standarderrorofestimation)由于實(shí)際應(yīng)用中,總體
通常是未知時(shí),所計(jì)算的標(biāo)準(zhǔn)誤實(shí)際上都是估計(jì)標(biāo)準(zhǔn)誤,因此估計(jì)標(biāo)準(zhǔn)誤就簡(jiǎn)稱為標(biāo)準(zhǔn)誤(統(tǒng)計(jì)軟件中得到的都是估計(jì)標(biāo)準(zhǔn)誤)統(tǒng)計(jì)量的標(biāo)準(zhǔn)誤5.2
參數(shù)估計(jì)的基本原理
估計(jì)量與估計(jì)值5.2
參數(shù)估計(jì)的基本原理
點(diǎn)估計(jì)與區(qū)間估計(jì)5.2
參數(shù)估計(jì)的基本原理點(diǎn)估計(jì)與區(qū)間估計(jì)區(qū)間估計(jì)——在點(diǎn)估計(jì)的基礎(chǔ)上,給出總體參數(shù)估計(jì)的一個(gè)估計(jì)區(qū)間根據(jù)樣本統(tǒng)計(jì)量所構(gòu)造的總體參數(shù)的估計(jì)區(qū)間,稱為置信區(qū)間(confidenceinterval,CI),其中區(qū)間的最小值稱為置信下限,最大值稱為置信上限。該區(qū)間由樣本統(tǒng)計(jì)量加減估計(jì)誤差而得到區(qū)間估計(jì)的圖示5.2
參數(shù)估計(jì)的基本原理點(diǎn)估計(jì)與區(qū)間估計(jì)——置信水平
置信水平90%0.100.051.64595%0.050.0251.9699%0.010.0052.585.2
參數(shù)估計(jì)的基本原理點(diǎn)估計(jì)與區(qū)間估計(jì)——置信區(qū)間的理解
5.2
參數(shù)估計(jì)的基本原理點(diǎn)估計(jì)與區(qū)間估計(jì)——置信區(qū)間的理解
5.3
總體均值的區(qū)間估計(jì)
正態(tài)總體方差已知,或非正態(tài)總體大樣本
5.3
總體均值的區(qū)間估計(jì)
正態(tài)總體方差已知,或非正態(tài)總體大樣本——例題分析【例5.2】一家食品生產(chǎn)企業(yè)以生產(chǎn)袋裝食品為主,每天的產(chǎn)量大約為8000袋左右。按規(guī)定每袋的重量應(yīng)為100克。為對(duì)產(chǎn)量質(zhì)量進(jìn)行監(jiān)測(cè),企業(yè)質(zhì)檢部門經(jīng)常要進(jìn)行抽檢,以分析每袋重量是否符合要求?,F(xiàn)從某天生產(chǎn)的一批食品中隨機(jī)抽取了25袋,測(cè)得每袋重量如表5-4所示
112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.35.3
總體均值的區(qū)間估計(jì)
正態(tài)總體方差已知,或非正態(tài)總體大樣本——例題分析
5.3
總體均值的區(qū)間估計(jì)
正態(tài)總體方差已知,或非正態(tài)總體大樣本——例題分析【例5.3】一家保險(xiǎn)公司收集到由36位投保個(gè)人組成的隨機(jī)樣本,得到每位投保人的年齡(單位:周歲)數(shù)據(jù)如表5-5
2335392736443642464331334253455447243428393644403949383448503439454845325.3
總體均值的區(qū)間估計(jì)
正態(tài)總體方差未知,小樣本
5.3
總體均值的區(qū)間估計(jì)
正態(tài)總體方差未知,小樣本——例題分析【例5.4】已知某種燈泡的壽命服從正態(tài)分布,現(xiàn)從一批燈泡中隨機(jī)抽取16只,測(cè)得其使用壽命(單位:小時(shí))如表5-6所示
15101450148014601520148014901460148015101530147015001520151014705.3
總體均值的區(qū)間估計(jì)
正態(tài)總體方差未知,小樣本——例題分析
5.4
總體比例間估計(jì)總體比例的區(qū)間估計(jì)——大樣本
5.4
總體比例間估計(jì)總體比例的區(qū)間估計(jì)——大樣本【例5.5】某城市交通管理部門想要估計(jì)贊成機(jī)動(dòng)車限行的人數(shù)比例,隨機(jī)抽取了100個(gè)機(jī)動(dòng)車主,其中65人表示贊成。試以95%的置信水平估計(jì)該城市贊成機(jī)動(dòng)車限行的人數(shù)比例的置信區(qū)間
5.4
總體均值和比例間估計(jì)總體均值和比例的區(qū)間估計(jì)——小結(jié)參數(shù)點(diǎn)估計(jì)量標(biāo)準(zhǔn)誤差假定條件p5.5
樣本量的確定估計(jì)總體均值時(shí)樣本量的確定
5.5
樣本量的確定估計(jì)總體均值時(shí)樣本量的確定
5.5
樣本量的確定估計(jì)總體比例時(shí)樣本量的確定
5.5
樣本量的確定估計(jì)總體比例時(shí)樣本量的確定——例題分析
5.5
樣本量的確定估計(jì)總體均值時(shí)樣本量的確定
思維導(dǎo)圖本書結(jié)構(gòu)參數(shù)估計(jì)統(tǒng)計(jì)推斷的理論基礎(chǔ)抽樣分布樣本均值的部分樣本比例的分布統(tǒng)計(jì)量的標(biāo)準(zhǔn)誤總體均值的區(qū)間估計(jì)正態(tài)總體方差已知或非正態(tài)總體大樣本正態(tài)分布正態(tài)總體、方差未知小樣本t分布總體比例的區(qū)間估計(jì)大樣本正態(tài)分布樣本量的確定估計(jì)總體均值時(shí)的樣本量估計(jì)總體比例時(shí)的樣本量參數(shù)統(tǒng)計(jì)量誤差賈俊平2024/3/136.1假設(shè)檢驗(yàn)的基本原理6.2總體均值的檢驗(yàn)6.3總體比例的檢驗(yàn)
假設(shè)檢驗(yàn)內(nèi)容提要
本章內(nèi)容提要6.1
假設(shè)檢驗(yàn)的基本原理假設(shè)的陳述——假設(shè)與假設(shè)檢驗(yàn)假設(shè)—在參數(shù)檢驗(yàn)中,是對(duì)總體參數(shù)的具體數(shù)值所作的陳述就一個(gè)總體而言,總體參數(shù)包括總體均值、比例、方差等分析之前必需陳述假設(shè)檢驗(yàn)—先對(duì)總體的參數(shù)(或分布形式)提出某種假設(shè),然后利用樣本信息判斷假設(shè)是否成立的統(tǒng)計(jì)方法有參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)邏輯上運(yùn)用反證法,統(tǒng)計(jì)上依據(jù)小概率原理小概率是在一次試驗(yàn)中,一個(gè)幾乎不可能發(fā)生的事件發(fā)生的概率在一次試驗(yàn)中小概率事件一旦發(fā)生,我們就有理由拒絕原假設(shè)6.1
假設(shè)檢驗(yàn)的基本原理如何提出假設(shè)——原假設(shè)與備擇假設(shè)
6.1
假設(shè)檢驗(yàn)的基本原理如何提出假設(shè)——例題分析【例6.1】一種零件的生產(chǎn)標(biāo)準(zhǔn)是直徑應(yīng)為10cm,為對(duì)生產(chǎn)過程進(jìn)行控制,質(zhì)量監(jiān)測(cè)人員定期對(duì)一臺(tái)加工機(jī)床檢查,確定這臺(tái)機(jī)床生產(chǎn)的零件是否符合標(biāo)準(zhǔn)要求。如果零件的平均直徑大于或小于10cm,則表明生產(chǎn)過程不正常,必須進(jìn)行調(diào)整。試陳述用來(lái)檢驗(yàn)生產(chǎn)過程是否正常的原假設(shè)和備擇假設(shè)
6.1
假設(shè)檢驗(yàn)的基本原理如何提出假設(shè)——例題分析【例6.2】某品牌洗滌劑在它的產(chǎn)品說明書中聲稱:平均凈含【例6.2】某品牌洗滌劑在它的產(chǎn)品說明書中聲稱:平均凈含量不少于500g。從消費(fèi)者的利益出發(fā),有關(guān)研究人員要通過抽檢其中的一批產(chǎn)品來(lái)驗(yàn)證該產(chǎn)品制造商的說明是否屬實(shí)。試陳述用于檢驗(yàn)的原假設(shè)與備擇假設(shè)
6.1
假設(shè)檢驗(yàn)的基本原理如何提出假設(shè)——例題分析【例6.3】一家研究機(jī)構(gòu)估計(jì),某城市中家庭擁有汽車的比例超過30%。為驗(yàn)證這一估計(jì)是否正確,該研究機(jī)構(gòu)隨機(jī)抽取了一個(gè)樣本進(jìn)行檢驗(yàn)。試陳述用于檢驗(yàn)的原假設(shè)與備擇假設(shè)
6.1
假設(shè)檢驗(yàn)的基本原理如何提出假設(shè)——問題總結(jié)原假設(shè)和備擇假設(shè)是一個(gè)完備事件組,而且相互對(duì)立。這意味著,在一項(xiàng)假設(shè)檢驗(yàn)中,原假設(shè)和備擇假設(shè)必有一個(gè)成立,而且只有一個(gè)成立在建立假設(shè)時(shí),通常是先確定備擇假設(shè),然后再確定原假設(shè)。這樣做的原因是備擇假設(shè)是我們所關(guān)心的,是想予以支持或證實(shí)的,因而比較清楚,容易確定。由于原假設(shè)和備擇假設(shè)是對(duì)立的,只要確定了備擇假設(shè),原假設(shè)就很容易確定出來(lái)在假設(shè)檢驗(yàn)中,等號(hào)“=”總是放在原假設(shè)上在面對(duì)某一實(shí)際問題時(shí),由于不同的研究者有不同的研究目的,即使對(duì)同一問題也可能提出截然相反的原假設(shè)和備擇假設(shè)通常情形下,由于檢驗(yàn)的目的不同,原假設(shè)可以根據(jù)3種情形來(lái)確定:①如果檢驗(yàn)的目的是確定參數(shù)是否已經(jīng)發(fā)生變化,這時(shí),原假設(shè)的值可以根據(jù)過去的經(jīng)驗(yàn)、對(duì)過程的了解情形來(lái)確定。②如果檢驗(yàn)的目的是證明某種理論或模型是否正確,原假設(shè)的值可以通過有關(guān)這個(gè)過程的一些理論或模型來(lái)確定。③如果檢驗(yàn)的目的是檢驗(yàn)是否符合某種特定標(biāo)準(zhǔn),原假設(shè)的值可以根據(jù)事先設(shè)計(jì)的標(biāo)準(zhǔn)或合同的要求來(lái)確定假設(shè)檢驗(yàn)的目的主要是收集證據(jù)拒絕原假設(shè)。原假設(shè)最初被假設(shè)是成立的,之后就是要根據(jù)樣本數(shù)據(jù),確定是否有足夠的不符合原假設(shè)的證據(jù)以拒絕原假設(shè)6.1
假設(shè)檢驗(yàn)的基本原理假設(shè)的形式——雙側(cè)檢驗(yàn)與單側(cè)檢驗(yàn)雙側(cè)檢驗(yàn)—備擇假設(shè)沒有特定的方向性,并含有符號(hào)“
”的假設(shè)檢驗(yàn),稱為雙側(cè)檢驗(yàn)或雙尾檢驗(yàn)(two-tailedtest)單側(cè)檢驗(yàn)—備擇假設(shè)具有特定的方向性,并含有符號(hào)“>”或“<”的假設(shè)檢驗(yàn),稱為單側(cè)檢驗(yàn)或單尾檢驗(yàn)(one-tailedtest)備擇假設(shè)的方向?yàn)椤?lt;”,稱為左側(cè)檢驗(yàn)
備擇假設(shè)的方向?yàn)椤?gt;”,稱為右側(cè)檢驗(yàn)假設(shè)雙側(cè)檢驗(yàn)單側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)原假設(shè)備擇假設(shè)6.1
假設(shè)檢驗(yàn)的基本原理兩類錯(cuò)誤與顯著性水平
6.1
假設(shè)檢驗(yàn)的基本原理兩類錯(cuò)誤與顯著性水平——決策及其后果決策結(jié)果實(shí)際情形正確決策正確決策6.1
假設(shè)檢驗(yàn)的基本原理檢驗(yàn)統(tǒng)計(jì)量與拒絕域
6.1
假設(shè)檢驗(yàn)的基本原理檢驗(yàn)統(tǒng)計(jì)量與拒絕域拒絕域拒絕域臨界值臨界值0
/2
/2非拒絕域
非拒絕域
拒絕域臨界值0
拒絕域臨界值0
雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)雙側(cè)檢驗(yàn):│統(tǒng)計(jì)量│>臨界值,拒絕原假設(shè)左側(cè)檢驗(yàn):統(tǒng)計(jì)量的值<-臨界值,拒絕原假設(shè)右側(cè)檢驗(yàn):統(tǒng)計(jì)量的值>臨界值,拒絕原假設(shè)6.1
假設(shè)檢驗(yàn)的基本原理用P值決策
6.1
假設(shè)檢驗(yàn)的基本原理用P值決策雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)2P臨界值臨界值0
/2
/2計(jì)算出的統(tǒng)計(jì)量值計(jì)算出的統(tǒng)計(jì)量值P值臨界值0
計(jì)算出的統(tǒng)計(jì)量值P值臨界值0
計(jì)算出的統(tǒng)計(jì)量值
6.1
假設(shè)檢驗(yàn)的基本原理用P值決策
6.1
假設(shè)檢驗(yàn)的基本原理用P值決策與統(tǒng)計(jì)量決策的差異
統(tǒng)計(jì)量1統(tǒng)計(jì)量2拒絕H0的P1拒絕H0的
0拒絕H0的P2P6.1
假設(shè)檢驗(yàn)的基本原理結(jié)果的表述
6.1
假設(shè)檢驗(yàn)的基本原理小結(jié)——假設(shè)檢驗(yàn)的步驟
6.2
總體均值的檢驗(yàn)大樣本的檢驗(yàn)方法
總體方差已知總體方差未知6.2
總體均值的檢驗(yàn)大樣本的檢驗(yàn)方法——例題分析
拒絕H0拒絕H0-1.961.9600.0250.025Z=1.016.2
總體均值的檢驗(yàn)大樣本的檢驗(yàn)方法——公式列表
雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式檢驗(yàn)統(tǒng)計(jì)量P值決策準(zhǔn)則6.2
總體均值的檢驗(yàn)小樣本的檢驗(yàn)方法
總體方差已知總體方差未知
雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式檢驗(yàn)統(tǒng)計(jì)量P值決策準(zhǔn)則6.2
總體均值的檢驗(yàn)大樣本的檢驗(yàn)方法——例題分析【例6.7】一種汽車配件的平均長(zhǎng)度要求為12cm,高于或低于該標(biāo)準(zhǔn)均被認(rèn)為是不合格的。汽車生產(chǎn)企業(yè)在購(gòu)進(jìn)配件時(shí),通常是經(jīng)過招標(biāo),然后對(duì)中標(biāo)的配件提供商提供的樣品進(jìn)行檢驗(yàn),以決定是否采購(gòu)?,F(xiàn)對(duì)一個(gè)配件提供商提供的10個(gè)樣本進(jìn)行了檢驗(yàn),結(jié)果如下。假定該供貨商生產(chǎn)的配件長(zhǎng)度服從正態(tài)分布,在0.05的顯著性水平下,檢驗(yàn)該供貨商提供的配件是否符合要求12.210.812.011.811.912.411.312.212.012.36.2
總體均值的檢驗(yàn)大樣本的檢驗(yàn)方法——例題分析
拒絕域
22已知拒絕域t=-2.262t=2.26200.0250.025-0.70536.2
總體均值的檢驗(yàn)一個(gè)總體均值檢驗(yàn)的流程6.3
總體比例的檢驗(yàn)大樣本的檢驗(yàn)方法假定條件總體服從二項(xiàng)分布可用正態(tài)分布來(lái)近似(大樣本)檢驗(yàn)的z統(tǒng)計(jì)量
雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式檢驗(yàn)統(tǒng)計(jì)量P值決策準(zhǔn)則6.3
總體比例的檢驗(yàn)大樣本的檢驗(yàn)方法——例題分析
6.3
總體比例的檢驗(yàn)大樣本的檢驗(yàn)方法——例題分析檢驗(yàn)統(tǒng)計(jì)量的觀察值z(mì)=-2.475拒絕H0拒絕H0-1.961.9600.0250.025拒絕H0拒絕H0-2.582.5800.0050.005檢驗(yàn)統(tǒng)計(jì)量的觀察值z(mì)=-2.475(a)顯著性水平為0.05(b)顯著性水平為0.01思維導(dǎo)圖本書結(jié)構(gòu)假設(shè)檢驗(yàn)基本原理提出假設(shè)兩類錯(cuò)誤和顯著性水平經(jīng)驗(yàn)統(tǒng)計(jì)量和拒絕域用P值決策總體均值的經(jīng)驗(yàn)大樣本正態(tài)分布正態(tài)總體方差已知小樣本正態(tài)分布正態(tài)總體方差未知小樣本t分布總體比例的經(jīng)驗(yàn)大樣本t分布提出假設(shè)構(gòu)建統(tǒng)計(jì)量計(jì)算P值做出決策表述結(jié)果賈俊平2024/3/137.1變量間關(guān)系的度量7.2一元線性回歸分析7.3利用回歸方程進(jìn)行估計(jì)和預(yù)測(cè)
相關(guān)與回歸分析內(nèi)容提要相關(guān)與回歸是分析變量之間關(guān)系的統(tǒng)計(jì)方法。從所處理的變量多少來(lái)看,如果研究的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 養(yǎng)老院老人入住手續(xù)制度
- 養(yǎng)老院老人安全保障制度
- 向命運(yùn)挑戰(zhàn)課件
- 城市經(jīng)濟(jì)學(xué)城市化教學(xué)課件
- 救生員入職合同(2篇)
- 2024年度生物安全試劑采購(gòu)與儲(chǔ)備合同3篇
- 2024年農(nóng)業(yè)設(shè)施維修及保養(yǎng)承包合同樣本3篇
- 2025年大興安嶺貨運(yùn)從業(yè)資格證模擬考試題目
- 2025年塔城貨物運(yùn)輸駕駛員從業(yè)資格考試系統(tǒng)
- 2025年阜陽(yáng)貨運(yùn)從業(yè)資格證試題庫(kù)及答案
- GB/T 34898-2017微機(jī)電系統(tǒng)(MEMS)技術(shù)MEMS諧振敏感元件非線性振動(dòng)測(cè)試方法
- GB/T 28888-2012下水道及化糞池氣體監(jiān)測(cè)技術(shù)要求
- GB/T 2467.3-1996硫鐵礦和硫精礦中鉛含量的測(cè)定第3部分:EDTA容量法
- 班組活動(dòng)記錄(危化品儲(chǔ)存)
- 茶文化知識(shí)-競(jìng)賽課件
- 龍生九子【超詳版】課件
- 二年級(jí)(上學(xué)期)道德與法治15.可親可敬的家鄉(xiāng)人習(xí)題(含解析)(部編版)
- 中文版msds-5606w75umpet離型膜產(chǎn)品安全說明書MSDS
- 2023年黑龍江生態(tài)工程職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能考試筆試題庫(kù)及答案解析
- 12 內(nèi)部講師反饋評(píng)價(jià)表
- 愛嬰醫(yī)院評(píng)估重點(diǎn)標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論