統(tǒng)計(jì)學(xué)基礎(chǔ)課件_第1頁
統(tǒng)計(jì)學(xué)基礎(chǔ)課件_第2頁
統(tǒng)計(jì)學(xué)基礎(chǔ)課件_第3頁
統(tǒng)計(jì)學(xué)基礎(chǔ)課件_第4頁
統(tǒng)計(jì)學(xué)基礎(chǔ)課件_第5頁
已閱讀5頁,還剩196頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

賈俊平2024-2-121.1統(tǒng)計(jì)及其應(yīng)用領(lǐng)域1.2數(shù)據(jù)及其分類1.3統(tǒng)計(jì)中的基本概念

統(tǒng)計(jì)和數(shù)據(jù)1.1

統(tǒng)計(jì)及其應(yīng)用領(lǐng)域各種定義統(tǒng)計(jì)學(xué)是收集、分析、表述和解釋數(shù)據(jù)的科學(xué)(不列顛百科全書)統(tǒng)計(jì)是一門收集、分析、解釋和提供數(shù)據(jù)的科學(xué)(韋伯斯特國際辭典第3版)統(tǒng)計(jì)指的是一組方法,用來設(shè)計(jì)實(shí)驗(yàn)、獲得數(shù)據(jù),然後在這些數(shù)據(jù)的基礎(chǔ)上組織、概括、演示、分析、解釋和得出結(jié)論(MarioF.Triola,《初級(jí)統(tǒng)計(jì)學(xué)》)什麼統(tǒng)計(jì)學(xué)收集、處理、分析、解釋數(shù)據(jù)並從數(shù)據(jù)中得出結(jié)論的科學(xué)收集數(shù)據(jù):取得數(shù)據(jù)處理數(shù)據(jù):整理與圖表展示分析數(shù)據(jù):利用統(tǒng)計(jì)方法分析數(shù)據(jù)數(shù)據(jù)解釋:結(jié)果的說明得到結(jié)論:從數(shù)據(jù)分析中得出客觀結(jié)論包括描述方法、推斷方法及其他方法1.1統(tǒng)計(jì)及其應(yīng)用領(lǐng)域描述統(tǒng)計(jì)研究數(shù)據(jù)收集、處理、匯總、圖表描述、概括與分析等統(tǒng)計(jì)方法描述數(shù)據(jù)特徵找出數(shù)據(jù)的基本規(guī)律內(nèi)容包括:搜集數(shù)據(jù)、整理數(shù)據(jù)、展示數(shù)據(jù)、描述性分析描述統(tǒng)計(jì)與推斷統(tǒng)計(jì)推斷統(tǒng)計(jì)研究如何利用樣本數(shù)據(jù)來推斷總體特徵的統(tǒng)計(jì)方法對總體特徵作出推斷內(nèi)容包括:參數(shù)估計(jì)、假設(shè)檢驗(yàn)1.1統(tǒng)計(jì)及其應(yīng)用領(lǐng)域【例1.1】用統(tǒng)計(jì)識(shí)別作者1787—1788年,亞曆山大·漢密爾頓(AlexanderHamilton)、約翰·傑伊(JohnJay)和詹姆士·麥迪遜(JamesMadison)為了說服紐約人認(rèn)可憲法,匿名發(fā)表了85篇著名的論文。在這些論文中,大多數(shù)的作者已經(jīng)得到了識(shí)別,但是其中的12篇論文的作者身份引起了爭議。有人通過對不同的單詞的頻數(shù)進(jìn)行統(tǒng)計(jì)分析,得出了結(jié)論:詹姆士·麥迪遜最有可能是這12篇論文的作者?,F(xiàn)在,對於這些存在爭議的論文,認(rèn)為詹姆士·麥迪遜是作者的觀點(diǎn)占主導(dǎo)地位,而且?guī)缀蹩梢钥隙ㄟ@種觀點(diǎn)是正確的統(tǒng)計(jì)的應(yīng)用領(lǐng)域【例1.2】用簡單的描述統(tǒng)計(jì)量得到一個(gè)重要發(fā)現(xiàn)費(fèi)舍(R.A.Fisher)在1952年的一篇文章中舉了一個(gè)例子,說明如何由基本的描述統(tǒng)計(jì)量的知識(shí)引出一個(gè)重要的發(fā)現(xiàn)。20世紀(jì)早期,哥本哈根卡爾堡實(shí)驗(yàn)室的施密特(J.Schmidt)發(fā)現(xiàn)不同地區(qū)所捕獲的同種魚類的脊椎骨和鰓腺的數(shù)量有很大不同,甚至在同一海灣內(nèi)不同地點(diǎn)所捕獲的同種魚類,也有這樣的傾向;然而,鰻魚的脊椎骨的數(shù)量卻變化不大。施密特從歐洲大陸各地、冰島、亞速爾群島以及尼羅河等幾乎分離的水域裏所捕獲的鰻魚的樣本中,計(jì)算發(fā)現(xiàn)了幾乎一樣的均值和標(biāo)準(zhǔn)偏差值。由此,施密特推斷各個(gè)不同海域內(nèi)的鰻魚都是在海洋中某公共場所繁殖的。後來名為“戴納(Dana)”的科學(xué)考察船在一次遠(yuǎn)征中發(fā)現(xiàn)了這個(gè)場所1.1統(tǒng)計(jì)及其應(yīng)用領(lǐng)域

統(tǒng)計(jì)的應(yīng)用領(lǐng)域1.1統(tǒng)計(jì)及其應(yīng)用領(lǐng)域統(tǒng)計(jì)的誤用與濫用統(tǒng)計(jì)濫用不好的樣本或過小的樣本誤導(dǎo)性圖表局部描述故意曲解統(tǒng)計(jì)應(yīng)用上的兩個(gè)極端——不用或幾乎不用統(tǒng)計(jì);簡單問題複雜化在統(tǒng)計(jì)應(yīng)用中,這兩個(gè)極端都是不可取的簡單的方法不一定沒用,複雜的方法也不一定有用。正如有的學(xué)者所說的,最簡單的模型往往是最有用的統(tǒng)計(jì)應(yīng)該恰當(dāng)?shù)貞?yīng)用到它能起作用的地方。不能把統(tǒng)計(jì)神秘化,更不能歪曲統(tǒng)計(jì),把統(tǒng)計(jì)作為掩蓋實(shí)事的陷阱1.2數(shù)據(jù)及其分類按計(jì)量尺度分類別數(shù)據(jù)(categoricaldata)只能歸於某一類別的非數(shù)字型數(shù)據(jù)對事物進(jìn)行分類的結(jié)果,數(shù)據(jù)表現(xiàn)為類別,用文字來表述分為無序類別數(shù)據(jù)和有序類別數(shù)據(jù)數(shù)值數(shù)據(jù)(metricdata)按數(shù)字尺度測量的觀察值結(jié)果表現(xiàn)為具體的數(shù)值,對事物的精確測度分為離散數(shù)據(jù)和連續(xù)數(shù)據(jù)數(shù)據(jù)——變數(shù)的觀測結(jié)果按收集方法分觀測的數(shù)據(jù)(observationaldata)通過調(diào)查或觀測而收集到的數(shù)據(jù)在沒有對事物人為控制的條件下而得到的有關(guān)社會(huì)經(jīng)濟(jì)現(xiàn)象的統(tǒng)計(jì)數(shù)據(jù)幾乎都是觀測數(shù)據(jù)實(shí)驗(yàn)的數(shù)據(jù)(experimentaldata)在實(shí)驗(yàn)中控制實(shí)驗(yàn)對象而收集到的數(shù)據(jù)比如,對一種新藥療效的實(shí)驗(yàn),對一種新的農(nóng)作物品種的實(shí)驗(yàn)等自然科學(xué)領(lǐng)域的數(shù)據(jù)大多數(shù)都為實(shí)驗(yàn)數(shù)據(jù)按時(shí)間狀況分截面數(shù)據(jù)(cross-sectionaldata)在相同或近似相同的時(shí)間點(diǎn)上收集的數(shù)據(jù)描述現(xiàn)象在某一時(shí)刻的變化情況比如,2021年我國各地區(qū)的國內(nèi)生產(chǎn)總值數(shù)據(jù)時(shí)間序列數(shù)據(jù)(timeseriesdata)在不同時(shí)間上收集到的數(shù)據(jù)描述現(xiàn)象隨時(shí)間變化的情況比如,2000年至2021年國內(nèi)生產(chǎn)總值數(shù)據(jù)1.2數(shù)據(jù)及其分類數(shù)據(jù)——變數(shù)的觀測結(jié)果數(shù)據(jù)的分類按計(jì)量尺度類別數(shù)據(jù)無序類別數(shù)據(jù)有序類別數(shù)據(jù)數(shù)值數(shù)據(jù)離散數(shù)據(jù)連續(xù)數(shù)據(jù)按收集方法觀察數(shù)據(jù)實(shí)驗(yàn)數(shù)據(jù)按時(shí)間狀況截面數(shù)據(jù)時(shí)間序列數(shù)據(jù)1.3統(tǒng)計(jì)中的基本概念總體(population)所研究的全部個(gè)體(數(shù)據(jù))的集合,其中的每一個(gè)個(gè)體也稱為元素分為有限總體和無限總體有限總體的範(fàn)圍能夠明確確定,且元素的數(shù)目是有限的無限總體所包括的元素是無限的,不可數(shù)的樣本(sample)從總體中抽取的一部分元素的集合構(gòu)成樣本的元素的數(shù)目稱為樣本容量或樣本量(samplesize)總體和樣本1.3統(tǒng)計(jì)中的基本概念參數(shù)和統(tǒng)計(jì)量參數(shù)(parameter)描述總體特徵的概括性數(shù)字度量,是研究者想要瞭解的總體的某種特徵值所關(guān)心的參數(shù)主要有總體均值()、標(biāo)準(zhǔn)差(

)、總體比例()等總體參數(shù)通常用希臘字母表示統(tǒng)計(jì)量(statistic)用來描述樣本特徵的概括性數(shù)字度量,它是根據(jù)樣本數(shù)據(jù)計(jì)算出來的一些量,是樣本的函數(shù)所關(guān)心的樣本統(tǒng)計(jì)量有樣本均值(

x)、樣本標(biāo)準(zhǔn)差(s)、樣本比例(p)等樣本統(tǒng)計(jì)量通常用小寫英文字母來表示1.3統(tǒng)計(jì)中的基本概念說明現(xiàn)象某種特徵的概念如商品銷售額、受教育程度、產(chǎn)品的品質(zhì)等級(jí)等變數(shù)的具體表現(xiàn)稱為變數(shù)值,即數(shù)據(jù)變數(shù)可以分為類別變數(shù)(categoricalvariable):說明事物類別的名稱無序類別變數(shù)有序類別變數(shù)數(shù)值變數(shù)(metricvariable):說明事物數(shù)字特徵的名稱離散變數(shù):取有限個(gè)值連續(xù)變數(shù):可以取無窮多個(gè)值變數(shù)(variable)思維導(dǎo)圖本書結(jié)構(gòu)數(shù)據(jù)來源和處理第2章數(shù)據(jù)來源和處理描述方法圖形展示第3章數(shù)據(jù)的圖形展示概括性度量第4章數(shù)據(jù)的概括性度量推斷方法估計(jì)方法第5章抽樣與參數(shù)估計(jì)檢驗(yàn)方法第6章假設(shè)檢驗(yàn)其他方法關(guān)系分析第7章相關(guān)與回歸分析時(shí)間序列第8章時(shí)間序列分析和預(yù)測描述應(yīng)用推斷本書結(jié)構(gòu)賈俊平2024-2-122.1數(shù)據(jù)的來源2.2數(shù)據(jù)的預(yù)處理2.3生成頻數(shù)分佈表

數(shù)據(jù)來源和處理內(nèi)容提要本章主要介紹統(tǒng)計(jì)數(shù)據(jù)的來源及其基本的處理方法,以便為進(jìn)一步的分析奠定基礎(chǔ)具體內(nèi)容包括數(shù)據(jù)的來源,介紹數(shù)據(jù)的直接來源和間接來源,抽樣方法以及抽取數(shù)據(jù)樣本的Excel實(shí)現(xiàn)數(shù)據(jù)的預(yù)處理,介紹數(shù)據(jù)審核、數(shù)據(jù)排序和篩選方法及Excel實(shí)現(xiàn)生成頻數(shù)分佈表。介紹類別數(shù)據(jù)和數(shù)值數(shù)據(jù)頻數(shù)分佈表的生成方法及Excel實(shí)現(xiàn)本章內(nèi)容提要2.1

數(shù)據(jù)的來源二手?jǐn)?shù)據(jù)——?jiǎng)e人調(diào)查或?qū)嶒?yàn)的數(shù)據(jù)統(tǒng)計(jì)部門和政府部門公佈的有關(guān)資料,如各類統(tǒng)計(jì)年鑒各類經(jīng)濟(jì)資訊中心、資訊諮詢機(jī)構(gòu)、專業(yè)調(diào)查機(jī)構(gòu)等提供的數(shù)據(jù)各類專業(yè)期刊、報(bào)紙、書籍所提供的資料各種會(huì)議,如博覽會(huì)、展銷會(huì)、交易會(huì)及專業(yè)性、學(xué)術(shù)性研討會(huì)上交流的有關(guān)資料從互聯(lián)網(wǎng)或圖書館查閱到的相關(guān)資料間接來源二手?jǐn)?shù)據(jù)的特點(diǎn)收集容易,採集成本低作用廣泛分析所要研究的問題提供研究問題的背景幫助研究者更好地定義問題檢驗(yàn)和回答某些疑問和假設(shè)尋找研究問題的思路和途徑收集二手資料在研究中應(yīng)優(yōu)先考慮二手?jǐn)?shù)據(jù)的評(píng)估數(shù)據(jù)是誰收集的?可信度評(píng)估為什麼目的而收集的?數(shù)據(jù)是怎樣收集的?什麼時(shí)候收集的?2.1

數(shù)據(jù)的來源直接來源調(diào)查數(shù)據(jù)通過調(diào)查方法獲得的數(shù)據(jù)通常是對社會(huì)現(xiàn)象而言通常取自有限總體實(shí)驗(yàn)數(shù)據(jù)通過實(shí)驗(yàn)方法得到的數(shù)據(jù)通常是對自然現(xiàn)象而言也被廣泛運(yùn)用到社會(huì)科學(xué)中如心理學(xué)、教育學(xué)、社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、管理學(xué)等2.1

數(shù)據(jù)的來源數(shù)據(jù)抽樣——概率抽樣(probabilitysampling)簡單隨機(jī)抽樣(simplerandomsampling)從含有N個(gè)元素的總體中,抽取n個(gè)元素作為樣本,使得每一個(gè)容量為n的樣本都有相同的機(jī)會(huì)(概率)被抽中簡單隨機(jī)抽樣是其他抽樣方法的基礎(chǔ)有兩種抽取元素的方法:重複抽樣和不重複抽樣重複抽樣(samplingwithoutreplacement):從總體中抽取一個(gè)元素後,把這個(gè)元素放回到總體中再抽取第二個(gè)元素,直至抽取n個(gè)元素為止不重複抽樣(samplingwithreplacement:個(gè)元素被抽中後不再放回總體,然後再從所剩下的元素中抽取第二個(gè)元素,直到抽取n個(gè)元素為止分層抽樣(stratifiedsampling)在抽樣之前先將總體的元素劃分為若干層(類),然後從各個(gè)層中抽取一定數(shù)量的元素組成一個(gè)樣本,這樣的抽樣方式稱為分層抽樣,也稱分類抽樣(stratifiedsampling)在分層或分類時(shí),應(yīng)使層內(nèi)各元素的差異盡可能小,而使層與層之間的差異盡可能大。各層的劃分可根據(jù)研究者的判斷或研究的需要進(jìn)行。比如,研究的對象為人時(shí),可按性別、年齡等分層;研究收入的差異時(shí),可按城鄉(xiāng)分層,等等。分層抽樣是一種常用的抽樣方式。它具有以下優(yōu)點(diǎn):分層抽樣除了可以對總體進(jìn)行估計(jì)外,還可以對各層的子總體進(jìn)行估計(jì)分層抽樣按自然區(qū)域或行政區(qū)域進(jìn)行分層,可以使抽樣的組織和實(shí)施都比較方便分層抽樣的樣本分佈在各個(gè)層內(nèi),從而使樣本在總體中的分佈比較均勻分層抽樣可以提高估計(jì)的精度2.1

數(shù)據(jù)的來源數(shù)據(jù)抽樣——概率抽樣(probabilitysampling)系統(tǒng)抽樣(systematicsampling)也稱等距抽樣或機(jī)械抽樣。先將總體各元素按某種順序排列,並按某種規(guī)則確定一個(gè)隨機(jī)起點(diǎn),然後,每隔一定的間隔抽取一個(gè)元素,直至抽取n個(gè)元素形成一個(gè)樣本系統(tǒng)抽樣具有以下優(yōu)點(diǎn):簡便易行。當(dāng)抽樣容量很大時(shí),簡單隨機(jī)抽樣逐個(gè)使用亂數(shù)字表抽選是相當(dāng)麻煩的,而系統(tǒng)抽樣有了總體元素的排序,只要確定出抽樣的起點(diǎn)和間隔後,樣本元素也就隨之確定,而且可以利用現(xiàn)有的排列順序,如抽選學(xué)生時(shí)利用學(xué)校的花名冊,抽選居民時(shí)可利用居委會(huì)的戶口本等,方便操作。因此系統(tǒng)抽樣常用來代替簡單隨機(jī)抽樣。系統(tǒng)抽樣的樣本在總體中的分佈一般也比較均勻,由此估計(jì)的誤差通常要小於簡單隨機(jī)抽樣。如果掌握了總體的有關(guān)資訊,將總體各元素按有關(guān)標(biāo)誌排列,就可以提高估計(jì)的精度整群抽樣(clustersampling)先將總體劃分成若干群,然後以群作為抽樣單位從中抽取部分群,再對抽中的各個(gè)群中所包含的所有元素進(jìn)行觀察整群抽樣時(shí),對群的劃分可以按自然的或行政的區(qū)域進(jìn)行,也可以人為地組成群。比如,在抽選地區(qū)時(shí),可以將一個(gè)地區(qū)作為一群,在抽取居民戶時(shí),可以將一個(gè)居民區(qū)作為一群整群抽樣的優(yōu)點(diǎn)是群的名單比較容易得到調(diào)查比較方便,節(jié)約費(fèi)用。當(dāng)群內(nèi)的各元素存在差異時(shí),整群抽樣可以提供較好的結(jié)果,理想的情況是每一群都是整個(gè)總體的一個(gè)縮影。在這種情況下,抽取很少的群就可以提供有關(guān)總體特徵的資訊如果實(shí)際情況不是這樣,整群抽樣的誤差會(huì)很大,效果也就很差2.1

數(shù)據(jù)的來源數(shù)據(jù)抽樣——概率抽樣——例題分析【例2.1】表2-1是50學(xué)生的姓名、性別、專業(yè)和考試分?jǐn)?shù)數(shù)據(jù),隨機(jī)抽取10個(gè)學(xué)生組成的一個(gè)樣本學(xué)生編號(hào)姓名性別專業(yè)考試分?jǐn)?shù)1張青松男會(huì)計(jì)學(xué)822王宇翔男金融學(xué)813田思雨女會(huì)計(jì)學(xué)754徐麗娜女管理學(xué)865張志傑男會(huì)計(jì)學(xué)77……………21劉曉軍男管理學(xué)9146孫夢婷女管理學(xué)8647唐國健男管理學(xué)7548尹嘉韓男會(huì)計(jì)學(xué)7049王雯迪女會(huì)計(jì)學(xué)7350王思思女會(huì)計(jì)學(xué)80第1步:在工作表中點(diǎn)擊【數(shù)據(jù)】

【數(shù)據(jù)分析】。第2步:在彈出的對話框中選擇【抽樣】。單擊【確定】。第3步:在出現(xiàn)的對話框【輸入?yún)^(qū)域】中輸入要抽取一般的數(shù)據(jù)區(qū)域(本例中為學(xué)生代碼所在的區(qū)域);在【抽樣方法】中單擊【隨機(jī)】;在【樣本數(shù)】中輸入需要抽樣的樣本量(本例為20);在【輸出區(qū)域】中選擇抽樣結(jié)果放置的區(qū)域。單擊【確定】學(xué)生編號(hào)姓名性別專業(yè)考試分?jǐn)?shù)6趙穎穎女金融學(xué)9739劉文濤男管理學(xué)7341馬家強(qiáng)男金融學(xué)8212馬鳳良男金融學(xué)558宋麗媛女會(huì)計(jì)學(xué)9244邱怡爽女金融學(xué)8315孫學(xué)偉男會(huì)計(jì)學(xué)5130李愛華女會(huì)計(jì)學(xué)9812馬鳳良男金融學(xué)5539劉文濤男管理學(xué)732.2數(shù)據(jù)的預(yù)處理數(shù)據(jù)審核就是檢查數(shù)據(jù)中是否有錯(cuò)誤對於通過調(diào)查取得的原始數(shù)據(jù)(rawdata),主要從完整性和準(zhǔn)確性兩個(gè)方面去審核。完整性審核主要是檢查應(yīng)調(diào)查個(gè)體是否有遺漏,所有的調(diào)查專案是否填寫齊全等。準(zhǔn)確性審核主要是檢查數(shù)據(jù)是否有錯(cuò)誤,是否存在異常值等對於通過其他管道取得的二手?jǐn)?shù)據(jù),應(yīng)著重審核數(shù)據(jù)的適用性和時(shí)效性應(yīng)弄清楚數(shù)據(jù)的來源、數(shù)據(jù)的口徑以及有關(guān)的背景材料,以便確定這些數(shù)據(jù)是否符合自己分析研究的需要,不能盲目生搬硬套還要對數(shù)據(jù)的時(shí)效性進(jìn)行審核,對於有些時(shí)效性較強(qiáng)的問題,如果所取得的數(shù)據(jù)過於滯後,可能失去了研究的意義數(shù)據(jù)審核與錄入——數(shù)據(jù)審核2.2數(shù)據(jù)的預(yù)處理數(shù)據(jù)錄入就是生成電子數(shù)據(jù)檔用Excel進(jìn)行數(shù)據(jù)驗(yàn)證第1步:用滑鼠在工作表中選定錄入數(shù)據(jù)的單元格區(qū)域,如A1:B10單元格區(qū)域第2步:選擇【數(shù)據(jù)】→【數(shù)據(jù)驗(yàn)證】第3步:在【驗(yàn)證條件】的【允許】框內(nèi)選擇要錄入的數(shù)據(jù)類型,比如,“整數(shù)”(默認(rèn)為任何值)。在【介於】框內(nèi)選擇驗(yàn)證條件,或者在“最小值”和“最大值”框內(nèi)輸入數(shù)據(jù)範(fàn)圍。比如,在【最小值】框內(nèi)輸入0,在【最大值】框內(nèi)輸入100。出現(xiàn)的介面如下圖所示第4步:點(diǎn)擊【出錯(cuò)警告】,在【式樣】下選擇“警告”,在【錯(cuò)誤資訊】下輸入警告資訊,比如“NA”。然後點(diǎn)擊【確定】,即可完成設(shè)置完成上述設(shè)置後,在此區(qū)域內(nèi)錄入不符合驗(yàn)證條件的數(shù)據(jù)將會(huì)出現(xiàn)以下錯(cuò)誤資訊。比如,在A1單元格錄入1000,顯示的錯(cuò)誤資訊。選擇【是】,忽略此錯(cuò)誤,選擇【否】則返回單元格,再重新錄入數(shù)據(jù)審核與錄入——數(shù)據(jù)錄入2.2數(shù)據(jù)的預(yù)處理

數(shù)據(jù)排序與篩選——數(shù)據(jù)排序2.2數(shù)據(jù)的預(yù)處理數(shù)據(jù)篩選(datafilter)是根據(jù)需要找出符合特定條件的某類數(shù)據(jù)用Excel進(jìn)行數(shù)據(jù)篩選的過程篩選出考試分?jǐn)?shù)大於等於90的學(xué)生第1步:將游標(biāo)放在數(shù)據(jù)區(qū)域的任意單元格。然後點(diǎn)擊【數(shù)據(jù)】

【篩選】。這時(shí)繪在每個(gè)變數(shù)名中出現(xiàn)下拉箭頭第2步:點(diǎn)擊要篩選的變數(shù)的下拉箭頭即可對該變數(shù)進(jìn)行篩選。比如,要篩選出考試分?jǐn)?shù)大於等於90的學(xué)生,點(diǎn)擊考試分?jǐn)?shù)變數(shù)的下拉箭頭第3步:點(diǎn)擊“大於或等於”,並在後面的框內(nèi)輸入90。點(diǎn)擊【確定】篩選出會(huì)計(jì)學(xué)專業(yè)考試分?jǐn)?shù)小於60男生——使用【高級(jí)篩選】命令第1步:在工作表的上方插入3個(gè)空行,將數(shù)據(jù)表的第一行(變數(shù)名)複製到第1個(gè)空行;在第2個(gè)空行的相應(yīng)變數(shù)名下依次輸入篩選的條件第2步:選擇【數(shù)據(jù)】→【高級(jí)】。在列表區(qū)域輸入要篩選的數(shù)據(jù)區(qū)域;在條件區(qū)域輸入條件區(qū)域單擊【確定】數(shù)據(jù)排序與篩選——數(shù)據(jù)篩選2.3生成頻數(shù)分佈表頻數(shù)(frequency)——落在某一特定類別(或組)中的數(shù)據(jù)個(gè)數(shù)頻數(shù)分佈(frequencydistribution)——把各個(gè)類別及落在其中的相應(yīng)頻數(shù)全部列出,並用表格形式表現(xiàn)出來由於類別數(shù)據(jù)本身就是用文字表達(dá)的類別,因此,只要先把所有的類別都列出來,然後計(jì)算出每一類別的頻數(shù),即可生成一張頻數(shù)分佈表頻數(shù)分佈表中落在某一特定類別的數(shù)據(jù)個(gè)數(shù)就是頻數(shù)根據(jù)觀察變數(shù)的多少,可以生成簡單頻數(shù)表、二維列聯(lián)表和多維列聯(lián)表等類別數(shù)據(jù)的頻數(shù)分佈表——簡單頻數(shù)表簡單的頻數(shù)表也稱為一維列聯(lián)表只涉及一個(gè)分類變數(shù)時(shí),這個(gè)變數(shù)的各類別(取值)可以放在頻數(shù)分佈表中“行”的位置,也可以放在“列”的位置,將該變數(shù)的各類別及其相應(yīng)的頻數(shù)列出來2.3生成頻數(shù)分佈表類別數(shù)據(jù)的頻數(shù)分佈表——簡單頻數(shù)表——例題分析【例2.3】沿用例2.1。分別製作學(xué)生性別和專業(yè)的簡單頻數(shù)表用Excel生成頻數(shù)分佈表的步驟第1步:選擇【插入】→【數(shù)據(jù)透視表】第2步:在【表/區(qū)域】框內(nèi)選定數(shù)據(jù)區(qū)域(在操作前將游標(biāo)放在任意數(shù)據(jù)單元格內(nèi),系統(tǒng)會(huì)自動(dòng)選定數(shù)據(jù)區(qū)域)。選擇放置數(shù)據(jù)透視表的位置。系統(tǒng)默認(rèn)是新工作表,如果要將透視表放在現(xiàn)有工作表中,選擇【現(xiàn)有工作表】,並在【位置】框內(nèi)點(diǎn)擊工作表的任意單元格(不要覆蓋數(shù)據(jù))。點(diǎn)擊【確定】第3步:用滑鼠右鍵單擊數(shù)據(jù)透視表,選擇【數(shù)據(jù)透視表選項(xiàng)】,在彈出的對話框中點(diǎn)擊【顯示】,並選中【經(jīng)典數(shù)據(jù)透視表佈局】,然後【確定】第4步:將數(shù)據(jù)透視的一個(gè)字段拖至“行”位置,將“另一個(gè)字段”拖至“列”的位置(行列可以互換),再將要計(jì)數(shù)的變數(shù)拖至“值字段”位置,即可生成需要的頻數(shù)分佈表2.3生成頻數(shù)分佈表類別數(shù)據(jù)的頻數(shù)分佈表——二維列聯(lián)表——例題分析二維列聯(lián)表(contingencytable)也稱為交叉表(crosstable)涉及兩個(gè)分類變數(shù)時(shí),通常將一個(gè)變數(shù)的各類別放在“行”的位置,另一個(gè)變數(shù)的各類別放在“列”的位置(行和列可以互換)生成頻數(shù)分佈表,這樣表格就是列聯(lián)表可以使用比例(proportion)、百分比(percentage)、比率(ratio)等統(tǒng)計(jì)量進(jìn)行描述。如果是有序類別數(shù)據(jù),還可以計(jì)算累積百分比(CumulativePercent)進(jìn)行分析【例2.4】例如沿用例2.1。將性別放在行的位置、專專業(yè)放在列的位置,製作一個(gè)二維列聯(lián)表2.3生成頻數(shù)分佈表數(shù)值數(shù)據(jù)的頻數(shù)分佈表——例題分析生成數(shù)值數(shù)據(jù)的頻數(shù)分佈表時(shí),需要先將其類別化,即轉(zhuǎn)化為類別數(shù)據(jù),然後再生成頻數(shù)分佈表。類別化的方法是將原始數(shù)據(jù)分成不同的組別數(shù)據(jù)分組是將數(shù)值數(shù)據(jù)轉(zhuǎn)化成類別數(shù)據(jù)的方法之一,它是先將數(shù)據(jù)按照一定的間距劃分成若干個(gè)區(qū)間,然後再統(tǒng)計(jì)出每個(gè)區(qū)間的頻數(shù),生成頻數(shù)分佈表【例2.5】某電腦公司2021年前4個(gè)月的銷售額數(shù)據(jù)如表2-7所示。對數(shù)據(jù)額做適當(dāng)分組,分析銷售額的分佈特徵2341591871551721831821771631581431981411671942251771891962031871602141681731781842091761881611521492111962341851891962061501611781681741531861901601712281622231701651791861751972081531632181801751441781911971921661961791712331791871731742101541642152331751882371941981681742261801721901721871892002111561651752102071812051952011722031651961721761821881952022132.3生成頻數(shù)分佈表數(shù)值數(shù)據(jù)的頻數(shù)分佈表——例題分析

2.3生成頻數(shù)分佈表數(shù)值數(shù)據(jù)的頻數(shù)分佈表——例題分析【例2.5】某電腦公司2021年前4個(gè)月的銷售額數(shù)據(jù)分組表

銷售額分組(萬元)天數(shù)(天)頻率(%)140-15043.3315--16097.50160-1701613.33170-1802722.50180-1902016.67190-2001714.17200-210108.33210=22086.67220-23043.33230-24054.17合計(jì)120100.00思維導(dǎo)圖本書結(jié)構(gòu)數(shù)據(jù)來源和處理數(shù)據(jù)來源間接來源和間接來源數(shù)據(jù)抽樣簡單隨機(jī)抽樣分層抽樣系統(tǒng)抽樣整群抽樣數(shù)據(jù)預(yù)處理審核與錄入排序與篩選生成頻數(shù)表分類數(shù)據(jù)數(shù)值數(shù)據(jù)來源間接和直接處理審核與錄入生成表頻數(shù)表賈俊平2024-2-123.1類別數(shù)據(jù)可視化3.2數(shù)值數(shù)據(jù)可視化3.3合理使用圖表

數(shù)據(jù)可視化內(nèi)容提要本章主要介紹數(shù)據(jù)可視化,也就是如何用圖形來展示數(shù)據(jù)。無論是做數(shù)據(jù)的描述、推斷還是其他分析,都離不開可視化問題。可視化是數(shù)據(jù)分析的基本技能,也是學(xué)習(xí)統(tǒng)計(jì)必須掌握的知識(shí)具體內(nèi)容包括類別數(shù)據(jù)的可視化方法,主要介紹條形圖和餅圖的繪製方法數(shù)值數(shù)據(jù)的可視化方法,介紹反映數(shù)據(jù)分佈特徵的直方圖和箱形圖;反映數(shù)值變數(shù)之間關(guān)係的散點(diǎn)圖和氣泡圖;反映樣本相似性的雷達(dá)圖和輪廓圖;反映時(shí)間序列變化特徵的折線圖和麵積圖等使用圖表的注意事項(xiàng),介紹圖表使用中應(yīng)注意的一些問題本章內(nèi)容提要3.1

類別數(shù)據(jù)可視化條形圖(barchart)用一定寬度的條形來表示各類別頻數(shù)的圖形,用於觀察不同類別頻數(shù)的多少或分佈狀況繪製時(shí),各類別可以放在橫軸,也可以放在縱軸,將各類別放在橫軸繪製的條形圖也稱為柱形圖(columnchart)只有一個(gè)分類變數(shù)時(shí),可以繪製簡單條形圖和帕累托圖有兩個(gè)分類變數(shù)時(shí),可以繪製簇狀條形圖或堆積條形圖條形圖簡單條形圖是根據(jù)一個(gè)分類變數(shù)繪製的,用於描述該變數(shù)的各類別的頻數(shù)分佈狀況其中的各個(gè)類別可以放在橫軸,也可以放在縱軸帕累托圖(paretoplot)以義大利經(jīng)濟(jì)學(xué)家V.Pareto的名字而命名的,它是按各類別的頻數(shù)多少降序排列後繪製的條形圖。帕累托圖可以看做是簡單條形圖的一個(gè)變種簇狀條形圖或堆積條形圖可以將兩個(gè)變數(shù)的條形圖以簇狀或堆積的方式繪製3.1

類別數(shù)據(jù)可視化【例3.1】為研究不同地區(qū)的消費(fèi)者對網(wǎng)上購物的滿意度,隨機(jī)抽取東部、中部和西部的2000個(gè)消費(fèi)者進(jìn)行調(diào)查,得到的結(jié)果如表3-1所示。繪製條形圖,分析各類別的人數(shù)分佈狀況條形圖——簡單條形圖——例題分析東部中部西部總計(jì)非常滿意104140132376比較滿意156108120384一般148148160456不滿意156108140404非常不滿意156116108380總計(jì)72062066020003.1

類別數(shù)據(jù)可視化【例3.1】為研究不同地區(qū)的消費(fèi)者對網(wǎng)上購物的滿意度,隨機(jī)抽取東部、中部和西部的2000個(gè)消費(fèi)者進(jìn)行調(diào)查,得到的結(jié)果如表3-1所示。繪製條形圖,分析各類別的人數(shù)分佈狀況條形圖——帕累托圖——例題分析東部中部西部總計(jì)非常滿意104140132376比較滿意156108120384一般148148160456不滿意156108140404非常不滿意156116108380總計(jì)72062066020003.1

類別數(shù)據(jù)可視化【例3.1】——繪製簇狀條形圖和堆積條形圖條形圖——簇狀條形圖和堆積條形圖——例題分析3.1

類別數(shù)據(jù)可視化【例3.1】——繪製百分比堆積條形圖條形圖——簇狀條形圖和堆積條形圖——例題分析3.1

類別數(shù)據(jù)可視化餅圖(piechart)是用圓形及圓內(nèi)扇形的角度來表示一個(gè)樣本(或總體)中各類別的頻數(shù)占總頻數(shù)比例大小的圖形對於研究結(jié)構(gòu)性問題十分有用餅圖和環(huán)形圖——餅圖——例題分析3.1

類別數(shù)據(jù)可視化環(huán)形圖(doughnutchart)環(huán)形圖與餅圖類似,但又有區(qū)別。環(huán)形圖中間有一個(gè)“空洞”,每個(gè)樣本用一個(gè)環(huán)來表示,樣本中每一類別的頻數(shù)構(gòu)成用環(huán)中的一段表示。因此,環(huán)形圖可顯示多個(gè)樣本各類別頻數(shù)占其相應(yīng)總頻數(shù)的比例,從而有利於構(gòu)成的比較研究繪製環(huán)形圖時(shí),先向圓心方向畫一條垂線(圓的半徑),然後順時(shí)針方向依次畫出各類別所占的百分比。其中樣本的順序依次從內(nèi)環(huán)到外環(huán)餅圖和環(huán)形圖——環(huán)形圖——例題分析3.2

數(shù)值數(shù)據(jù)可視化直方圖(histogram)用於展示數(shù)值數(shù)據(jù)分佈的一種常用圖形它是用矩形的寬度和高度來表示頻數(shù)分佈通過直方圖可以觀察數(shù)據(jù)分佈的大體形狀,如分佈是否對稱直方圖和箱形圖——直方圖不同直方圖所對應(yīng)的分佈形狀3.2

數(shù)值數(shù)據(jù)可視化【例3.2】表3-2是2020年1月—6月北京市的PM2.5數(shù)據(jù)。繪製直方圖分析PM2.5的分佈特徵直方圖和箱形圖——直方圖——例題分析日期1月2月3月4月5月6月135921910819251312516552335018141459424431011233485612638304812…………………271582854196628171651059375529708645615928304668905315314464112020年1—6月北京市PM2.5的直方圖3.2

數(shù)值數(shù)據(jù)可視化直方圖和箱形圖——直方圖——例題分析2020年1—6月北京市PM2.5的直方圖(組距=15)2020年1—6月北京市PM2.5的直方圖(組距為15,下溢箱為10,溢出箱為180)3.2

數(shù)值數(shù)據(jù)可視化

直方圖和箱形圖——箱形圖3.2

數(shù)值數(shù)據(jù)可視化箱形圖的一般形式直方圖和箱形圖——箱形圖3.2

數(shù)值數(shù)據(jù)可視化不同分佈形狀對應(yīng)的箱形圖直方圖和箱形圖——箱形圖3.2

數(shù)值數(shù)據(jù)可視化【例3.3】沿用例3.2。繪製箱形圖,分析各月份PM2.5分佈的特徵用Excel繪製箱形圖時(shí),先將游標(biāo)放在任意數(shù)據(jù)單元格,然後點(diǎn)擊【插入】

【插入統(tǒng)計(jì)圖表】,選擇【箱形圖】,即可繪製出箱形圖。根據(jù)需要再對圖形做必要的修改,比如,選擇不同的箱形圖式樣、更改坐標(biāo)軸刻度、添加坐標(biāo)軸標(biāo)題、添加箱形圖的數(shù)值標(biāo)籤等直方圖和箱形圖——箱形圖——例題分析3.2

數(shù)值數(shù)據(jù)可視化

散點(diǎn)圖和氣泡圖——散點(diǎn)圖——例題分析【例3.4】我國2019年31個(gè)地區(qū)的地區(qū)生產(chǎn)總值、房地產(chǎn)開發(fā)投資和社會(huì)消費(fèi)品零售總額數(shù)據(jù)。繪散點(diǎn)圖並觀察它們之間的關(guān)係地區(qū)地區(qū)生產(chǎn)總值房地產(chǎn)開發(fā)投資社會(huì)消費(fèi)品零售總額北京市35371.33838.415063.7天津市14104.32727.84218.2河北省35104.54347.112985.5山西省17026.71656.57030.5內(nèi)蒙古自治區(qū)17212.51042.05051.1…………陝西省25793.23903.710213.0甘肅省8718.31257.93700.3青海省2966.0406.3948.5寧夏回族自治區(qū)3748.5403.11399.4新疆維吾爾自治區(qū)13597.11074.03617.03.2

數(shù)值數(shù)據(jù)可視化散點(diǎn)圖和氣泡圖——散點(diǎn)圖——例題分析【例3.4】我國2019年31個(gè)地區(qū)的地區(qū)生產(chǎn)總值、房地產(chǎn)開發(fā)投資和社會(huì)消費(fèi)品零售總額數(shù)據(jù)。繪散點(diǎn)圖並觀察它們之間的關(guān)係3.2

數(shù)值數(shù)據(jù)可視化氣泡圖(bubblechart)可以看作是散點(diǎn)圖的一個(gè)變種在氣泡圖中,第3個(gè)變數(shù)數(shù)值的大小用圓的大小表示散點(diǎn)圖和氣泡圖——?dú)馀輬D——例題分析【例3.4】地區(qū)生產(chǎn)總值、房地產(chǎn)開發(fā)投資、社會(huì)消費(fèi)品零售總額3個(gè)變數(shù)繪製的氣泡圖3.2

數(shù)值數(shù)據(jù)可視化氣泡圖(bubblechart)可以看作是散點(diǎn)圖的一個(gè)變種在氣泡圖中,第3個(gè)變數(shù)數(shù)值的大小用圓的大小表示散點(diǎn)圖和氣泡圖——?dú)馀輬D——例題分析【例3.4】地區(qū)生產(chǎn)總值、房地產(chǎn)開發(fā)投資、社會(huì)消費(fèi)品零售總額3個(gè)變數(shù)繪製的氣泡圖3.2

數(shù)值數(shù)據(jù)可視化雷達(dá)圖和輪廓圖——雷達(dá)圖——例題分析雷達(dá)圖(radarchart)從一個(gè)點(diǎn)出發(fā),用每一條射線代表一個(gè)變數(shù),多個(gè)變數(shù)的數(shù)據(jù)點(diǎn)連接成線,即圍成一個(gè)區(qū)域,多個(gè)樣本圍成多個(gè)區(qū)域,就是雷達(dá)圖利用它也可以研究多個(gè)樣本之間的相似程度【例3.5】表3-4是2018年北京、天津、上海和重慶的人均消費(fèi)支出數(shù)據(jù),繪製雷達(dá)圖,比較不同地區(qū)的家庭消費(fèi)支出的特點(diǎn)和相似性地區(qū)食品煙酒衣著居住生活用品及服務(wù)交通通信教育文化娛樂醫(yī)療保健其他用品及服務(wù)北京8064.92175.514110.32371.94767.43999.43274.51078.6天津8647.51990.06406.31818.44280.93186.62676.9896.3上海10728.22036.814208.52095.54881.25049.43070.21281.5重慶6220.81454.53498.81338.92545.02087.81660.0442.83.2

數(shù)值數(shù)據(jù)可視化雷達(dá)圖和輪廓圖——雷達(dá)圖——例題分析【例3.5】——雷達(dá)圖3.2

數(shù)值數(shù)據(jù)可視化雷達(dá)圖和輪廓圖——輪廓圖——例題分析輪廓圖(outlinechart)也稱為平行座標(biāo)圖或多線圖它是用x軸表示各樣本,y軸表示每個(gè)樣本的多個(gè)變數(shù)的取值,將同一樣本的不同變數(shù)取值用折線連接,即為輪廓圖利用它也可以研究多個(gè)樣本之間的相似程度【例3.5】表3-4是2018年北京、天津、上海和重慶的人均消費(fèi)支出數(shù)據(jù),繪製輪廓圖,比較不同地區(qū)的家庭消費(fèi)支出的特點(diǎn)和相似性3.2

數(shù)值數(shù)據(jù)可視化折線圖和麵積圖——折線圖——例題分析

【例3.1】例3.1中1月份和2月份的數(shù)據(jù)的PM2.5的折線圖3.2

數(shù)值數(shù)據(jù)可視化折線圖和麵積圖——折線圖——例題分析

【例3.1】例3.1中1月份和2月份的數(shù)據(jù)的PM2.5的面積圖3.3

合理使用圖表使用圖表的注意事項(xiàng)精心設(shè)計(jì)的圖表可以準(zhǔn)確表達(dá)數(shù)據(jù)所要傳遞的資訊設(shè)計(jì)圖表時(shí),應(yīng)盡可能簡潔,以能夠清晰地顯示數(shù)據(jù)、合理地表達(dá)統(tǒng)計(jì)目的為依據(jù)在繪製圖形時(shí),應(yīng)避免一切不必要的修飾。過於花哨的修飾往往會(huì)使人注重圖形本身,而掩蓋了圖形所要表達(dá)的資訊。圖形大體上為4:3的一個(gè)矩形,過長或過高的圖形都有可能歪曲數(shù)據(jù),給人留下錯(cuò)誤的印象圖表應(yīng)有編號(hào)和標(biāo)題。編號(hào)一般使用阿拉伯?dāng)?shù)字,如表1、表2等等。圖表的標(biāo)題應(yīng)明示出表中數(shù)據(jù)所屬的時(shí)間(when)、地點(diǎn)(where)和內(nèi)容(what),即通常所說的3W準(zhǔn)則。表的標(biāo)題通常放在表的上方;圖的標(biāo)題可放在圖的上方,也可放在圖的下方思維導(dǎo)圖本書結(jié)構(gòu)數(shù)據(jù)可視化類別數(shù)據(jù)觀察頻數(shù)簡單條形圖帕累托圖簇狀條形圖堆積條形圖觀察頻數(shù)構(gòu)成餅圖環(huán)形圖數(shù)值數(shù)據(jù)看分布直方圖箱形圖看關(guān)系散點(diǎn)圖氣泡圖看相似雷達(dá)圖輪廓圖時(shí)間序列折線圖面積圖數(shù)值數(shù)據(jù)其他數(shù)據(jù)類別數(shù)據(jù)賈俊平2024-2-124.1集中趨勢的度量4.2離散程度的度量4.3分佈形狀的度量

數(shù)據(jù)分佈特徵的測度內(nèi)容提要數(shù)據(jù)分佈的特徵主要從三個(gè)方面進(jìn)行測度和描述:一是分佈的集中趨勢,反映各數(shù)據(jù)向其中心值靠近或聚集的程度;二是分佈的離散程度,反映各數(shù)據(jù)遠(yuǎn)離其中心值的趨勢;三是分佈的形狀,反映數(shù)據(jù)分佈偏斜程度和峰度。這三個(gè)方面分別反映了數(shù)據(jù)分佈特徵的不同側(cè)面。本章將重點(diǎn)討論數(shù)據(jù)分佈特徵各測度值的計(jì)算方法、特點(diǎn)及應(yīng)用場合具體內(nèi)容包括集中趨勢的度量。介紹數(shù)據(jù)分佈集中趨勢的各統(tǒng)計(jì)量,包括平均數(shù)、中位數(shù)、四分位數(shù)和眾數(shù)的計(jì)算方法、特點(diǎn)和應(yīng)用場合離散程度的度量,介紹測度數(shù)據(jù)離散程度的常用統(tǒng)計(jì)量,包括極差、四分位差、方差、標(biāo)準(zhǔn)差以及離散係數(shù)等偏度和峰度的度量,介紹偏度係數(shù)和峰度係數(shù)計(jì)算方法類別數(shù)據(jù)的可視化方法,主要介紹條形圖和餅圖的繪製方法本章內(nèi)容提要4.1

集中趨勢的度量

平均數(shù)簡單平均數(shù)加權(quán)平均數(shù)

4.1

集中趨勢的度量【例4.1】隨機(jī)抽取30個(gè)大學(xué)生,得到他們在“雙十一”期間的網(wǎng)購金額數(shù)據(jù),如表所示。計(jì)算30個(gè)人的平均網(wǎng)購金額平均數(shù)——簡單平均數(shù)——例題分析479.0721.2672.4728.7443.2381.3527.0500.0586.0500.0528.2633.8705.9423.5590.1353.6447.4565.3557.1481.3561.1620.1477.1436.2562.9505.1515.4502.7487.5675.4

4.1

集中趨勢的度量【例4.2】假定將表4-1的數(shù)據(jù)分成組距為50的組,分組結(jié)果如表4-2所示,計(jì)算網(wǎng)購金額的平均數(shù)平均數(shù)——加權(quán)平均數(shù)——例題分析

分組人數(shù)350~4002400~4504450~5004500~5507550~6006600~6502650~7002700~7503合計(jì)30分組350~4003752750400~45042541700450~50047541900500~55052573675550~60057563450600~65062521250650~70067521350700~75072532175合計(jì)

30162504.1

集中趨勢的度量中位數(shù)和四分位數(shù)——中位數(shù)——例題分析分位數(shù)——一組數(shù)據(jù)按從小到大排序後,可以找出排在某個(gè)位置上的數(shù)值,該數(shù)值可以代表數(shù)據(jù)水準(zhǔn)的高低。這些位置上的數(shù)值就是相應(yīng)的分位數(shù)(quantile)。常用的分位數(shù)有中位數(shù)、四分位數(shù)、百分位數(shù)等中位數(shù)——排序後處於中間位置上的值。不受極端值影響位置確定數(shù)值計(jì)算

4.1

集中趨勢的度量中位數(shù)和四分位數(shù)——四分位數(shù)——例題分析四分位數(shù)——一組數(shù)據(jù)排序後處在25%和75%位置上的數(shù)值它是用3個(gè)點(diǎn)將全部數(shù)據(jù)等分為4部分,其中每部分包含25%的數(shù)據(jù)。中間的四分位數(shù)就是中位數(shù),通常所說的四分位數(shù)是指處在25%位置上和75%位置上的兩個(gè)數(shù)值位置確定

4.1

集中趨勢的度量眾數(shù)——各度量值的比較眾數(shù)——一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變數(shù)值一組數(shù)據(jù)可能沒有眾數(shù)或有幾個(gè)眾數(shù)適合於數(shù)據(jù)量較多時(shí)使用實(shí)際中很少使用平均數(shù)易受極端值影響數(shù)學(xué)性質(zhì)優(yōu)良,實(shí)際中最常用數(shù)據(jù)對稱分佈或接近對稱分佈時(shí)代表性較好中位數(shù)不受極端值影響數(shù)據(jù)分佈偏斜程度較大時(shí)代表性接好眾數(shù)不受極端值影響具有不惟一性數(shù)據(jù)分佈偏斜程度較大且有明顯峰值時(shí)代表性較好4.2

離散程度的度量極差和四分位差——極差

4.2

離散程度的度量極差和四分位差——四分位差

4.2

離散程度的度量方差和標(biāo)準(zhǔn)差方差——各變數(shù)值與均值的平均差異標(biāo)準(zhǔn)差——上四分位數(shù)與下四分位數(shù)之差

樣本標(biāo)準(zhǔn)差s

樣本標(biāo)準(zhǔn)差s

原始數(shù)據(jù)分組數(shù)據(jù)4.2

離散程度的度量方差和標(biāo)準(zhǔn)差——例題分析

【例4.6】沿用例4.2。根據(jù)表4-2的分組數(shù)據(jù),計(jì)算網(wǎng)購金額的標(biāo)準(zhǔn)差分組350~400375226879.6053759.21400~450425412984.6051938.41450~50047544089.6016358.41500~5505257194.601362.22550~60057561299.607797.61600~65062527404.6014809.21650~700675218509.6037019.21700~750725334614.60103843.81合計(jì)—30105976.82286888.08

4.2

離散程度的度量離散係數(shù)——例題分析離散係數(shù)——標(biāo)準(zhǔn)差與其相應(yīng)的均值之比對數(shù)據(jù)相對離散程度的測度消除了數(shù)據(jù)水準(zhǔn)高低和計(jì)量單位的影響用於對不同組別數(shù)據(jù)離散程度的比較計(jì)算公式為【例4.7】評(píng)價(jià)哪名運(yùn)動(dòng)員的發(fā)揮更穩(wěn)定

姓名國家預(yù)賽成績決賽10槍成績(環(huán))納塔利婭·帕傑林娜俄羅斯39110.08.510.010.210.610.59.89.79.59.3郭文珺中國39010.010.510.410.410.110.39.410.710.89.7卓格巴德拉赫·蒙赫珠勒蒙古3879.310.08.78.39.29.58.510.79.29.2妮諾·薩盧克瓦澤格魯吉亞3869.810.310.09.510.210.710.410.69.110.8維多利亞·柴卡白俄羅斯3849.39.410.410.110.210.59.210.59.88.6萊萬多夫斯卡·薩貢波蘭3848.110.39.29.99.810.49.99.410.79.8亞斯娜·舍卡裏奇塞爾維亞38410.29.69.99.99.39.19.710.09.39.9米拉·內(nèi)萬蘇芬蘭3848.79.39.210.39.810.09.79.99.99.74.2

離散程度的度量離散係數(shù)——例題分析【例4.7】評(píng)價(jià)哪名運(yùn)動(dòng)員的發(fā)揮更穩(wěn)定運(yùn)動(dòng)員國家平均環(huán)數(shù)標(biāo)準(zhǔn)差離散係數(shù)納塔利婭·帕傑林娜俄羅斯9.810.61540.0627郭文珺中國10.230.43730.0427卓格巴德拉赫·蒙赫珠勒蒙古國9.260.70740.0764妮諾·薩盧克瓦澤格魯吉亞10.140.54610.0539維多利亞·柴卡白俄羅斯9.800.64980.0663萊萬多夫斯卡·薩貢波蘭9.730.73340.0754亞斯娜·舍卡裏奇塞爾維亞9.690.35730.0369米拉·內(nèi)萬蘇芬蘭9.650.46250.0479結(jié)論:從離散係數(shù)可以看出,在最後10槍的決賽中,發(fā)揮比較穩(wěn)定的運(yùn)動(dòng)員是塞爾維亞的亞斯娜·舍卡裏奇和中國的郭文珺,發(fā)揮不穩(wěn)定的運(yùn)動(dòng)員是蒙古國的卓格巴德拉赫·蒙赫珠勒和波蘭的萊萬多夫斯卡·薩貢4.2

離散程度的度量標(biāo)準(zhǔn)分?jǐn)?shù)——例題分析標(biāo)準(zhǔn)分?jǐn)?shù)——也稱標(biāo)準(zhǔn)化值對某一個(gè)值在一組數(shù)據(jù)中相對位置的度量可用於判斷一組數(shù)據(jù)是否有離群點(diǎn)(outlier)用於對變數(shù)的標(biāo)準(zhǔn)化處理計(jì)算公式為

4.2

離散程度的度量標(biāo)準(zhǔn)分?jǐn)?shù)——例題分析【例4.8】沿用例4.1。計(jì)算30個(gè)人網(wǎng)購金額的標(biāo)準(zhǔn)分?jǐn)?shù)網(wǎng)購金額標(biāo)準(zhǔn)分?jǐn)?shù)網(wǎng)購金額標(biāo)準(zhǔn)分?jǐn)?shù)網(wǎng)購金額標(biāo)準(zhǔn)分?jǐn)?shù)479.0-0.6141672.41.3670443.2-0.9808527.0-0.1224586.00.4820528.2-0.1101705.91.7102590.10.5240447.4-0.9378557.10.1859561.10.2269477.1-0.6336562.90.2453515.4-0.2412487.5-0.5270721.21.8669728.71.9438381.3-1.6149500.0-0.3990500.0-0.3990633.80.9716423.5-1.1826353.6-1.8987565.30.2699481.3-0.5906620.10.8313436.2-1.0526505.1-0.3468502.7-0.3713675.41.39784.2

離散程度的度量標(biāo)準(zhǔn)分?jǐn)?shù)——經(jīng)驗(yàn)法則與切比雪夫不等式經(jīng)驗(yàn)法則根據(jù)標(biāo)準(zhǔn)分?jǐn)?shù),可以判斷一組數(shù)據(jù)中是否存在離群點(diǎn)(outlier)經(jīng)驗(yàn)表明:當(dāng)一組數(shù)據(jù)對稱分佈時(shí),約有68.26%的數(shù)據(jù)在平均數(shù)加減1個(gè)標(biāo)準(zhǔn)差的範(fàn)圍之內(nèi);約有95.44%的數(shù)據(jù)在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的範(fàn)圍之內(nèi);約有99%的數(shù)據(jù)在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的範(fàn)圍之內(nèi)一組數(shù)據(jù)中低於或高於平均數(shù)3倍標(biāo)準(zhǔn)差之外的數(shù)值是很少的,也就是說,在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的範(fàn)圍內(nèi)幾乎包含了全部數(shù)據(jù),而在3個(gè)標(biāo)準(zhǔn)差之外的數(shù)據(jù)在統(tǒng)計(jì)上也稱為離群點(diǎn)4.2

離散程度的度量標(biāo)準(zhǔn)分?jǐn)?shù)——經(jīng)驗(yàn)法則與切比雪夫不等式切比雪夫不等式(Chebyshev’sinequality)經(jīng)驗(yàn)法則適合對稱分佈的數(shù)據(jù)。如果一組數(shù)據(jù)不是對稱分佈,經(jīng)驗(yàn)法則就不再適用,這時(shí)可使用切比雪夫不等式它對任何分佈形態(tài)的數(shù)據(jù)都適用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”,對於任意分佈形態(tài)的數(shù)據(jù),根據(jù)切比雪夫不等式:至少有(1-1/k2)的數(shù)據(jù)落在±k個(gè)標(biāo)準(zhǔn)差之內(nèi)。其中k是大於1的任意值,但不一定是整數(shù)。對於k=2,3,4,該不等式的含義是:至少有75%的數(shù)據(jù)在平均數(shù)±2個(gè)標(biāo)準(zhǔn)差的範(fàn)圍之內(nèi)。至少有89%的數(shù)據(jù)在平均數(shù)±3個(gè)標(biāo)準(zhǔn)差的範(fàn)圍之內(nèi)。至少有94%的數(shù)據(jù)在平均數(shù)±4個(gè)標(biāo)準(zhǔn)差的範(fàn)圍之內(nèi)。4.3

分佈形狀的度量偏度係數(shù)和峰度係數(shù)

峰度(kurtosis)——指數(shù)據(jù)分佈峰值的高低由統(tǒng)計(jì)學(xué)家K.Pearson於1905年首次提出峰度係數(shù)—測度一組數(shù)據(jù)分佈峰值高低的統(tǒng)計(jì)量是(coefficientofkurtosis),記作K計(jì)算公式

4.3

分佈形狀的度量偏度係數(shù)和峰度係數(shù)——例題分析

4.3

分佈形狀的度量偏度係數(shù)和峰度係數(shù)——例題分析【例4.9】沿用例4.1。計(jì)算30個(gè)人網(wǎng)購金額的偏度係數(shù)和峰度係數(shù)Excel實(shí)現(xiàn)第1步:將游標(biāo)放在任意空白單元格。然後點(diǎn)擊【數(shù)據(jù)】

【數(shù)據(jù)分析】。在分析工具中選擇【描述統(tǒng)計(jì)】。單擊【確定】。第2步:在【輸入?yún)^(qū)域】輸入原始數(shù)據(jù)所在的區(qū)域;在【輸出選項(xiàng)】中選擇結(jié)果的輸出位置;選擇【匯總統(tǒng)計(jì)】(其他選項(xiàng)可根據(jù)需要選擇)。單擊【確定】即可得到結(jié)果統(tǒng)計(jì)量名稱計(jì)算結(jié)果平均538.95標(biāo)準(zhǔn)誤差17.82291中位數(shù)521.2眾數(shù)500標(biāo)準(zhǔn)差97.62009方差9529.681峰度-0.40747偏度0.340565區(qū)域375.1最小值353.6最大值728.7求和16168.5觀測數(shù)304.3

分佈形狀的度量偏度係數(shù)——例題分析Excel中的描述函數(shù)函數(shù)名語法功能AVEDEVAVEDEV(number1,number2,...)計(jì)算平均差A(yù)VERAGEAVERAGE(number1,number2,...)計(jì)算平均數(shù)GEOMEANGEOMEAN(number1,number2,...)計(jì)算幾何平均數(shù)HARMEANHARMEAN(number1,number2,...)計(jì)算簡單調(diào)和平均數(shù)KURTKURT(number1,number2,...)計(jì)算峰態(tài)係數(shù)MODEMODE(number1,number2,...)計(jì)算眾數(shù)MEDIANMEDIAN(number1,number2,...)計(jì)算中位數(shù)QUARTILEQUARTILE(array,quart)計(jì)算四分位數(shù)SKEWSKEW(number1,number2,...)計(jì)算偏態(tài)係數(shù)STDEVSTDEV(number1,number2,...)計(jì)算樣本標(biāo)準(zhǔn)差STDEVPSTDEVP(number1,number2,...)計(jì)算總體標(biāo)準(zhǔn)差TRIMMEANTRIMMEAN(array,percent)計(jì)算切尾均值思維導(dǎo)圖本書結(jié)構(gòu)分布特征的測度集中趨勢平均數(shù)中位數(shù)四分位數(shù)眾數(shù)離散程度極差和四分位差方差和標(biāo)準(zhǔn)差離散系數(shù)標(biāo)準(zhǔn)分?jǐn)?shù)分布形狀偏度系數(shù)峰度系數(shù)數(shù)值特征水平差異形狀賈俊平2024-2-125.1統(tǒng)計(jì)量的抽樣分佈5.2參數(shù)估計(jì)的基本原理5.3總體均值的區(qū)間估計(jì)5.4總體比的區(qū)間估計(jì)5.5樣本量的確定

參數(shù)估計(jì)內(nèi)容提要參數(shù)估計(jì)是推斷統(tǒng)計(jì)的重要內(nèi)容之一。它是在抽樣及抽樣分佈的基礎(chǔ)上,根據(jù)樣本統(tǒng)計(jì)量來推斷所關(guān)心的總體參數(shù)。本章首先介紹抽樣分佈的有關(guān)知識(shí),然後上介紹參數(shù)估計(jì)的基本方法,最後介紹參數(shù)估計(jì)中樣本量的確定問題具體內(nèi)容包括抽樣分佈。主要解釋樣本均值和一般比例的抽樣分佈,為理解參數(shù)估計(jì)奠定基礎(chǔ)參數(shù)估計(jì)的基本原理。介紹點(diǎn)估計(jì)和區(qū)間估計(jì)的基本思想和原理總體均值的區(qū)間估計(jì)。介紹一個(gè)總體均值的區(qū)間估計(jì)方法,包括正態(tài)總體方差已知和非正態(tài)總體大樣本條件下總體均值的區(qū)間估計(jì),以及正態(tài)總體方差未知及小樣本條件下總體均值的區(qū)間估計(jì)體比例的估計(jì)。主要介紹大樣本情形下總體比例的區(qū)間估計(jì)樣本量的確定。分別介紹估計(jì)總體均值時(shí)和估計(jì)總體比例時(shí)樣本量的確定方法本章內(nèi)容提要5.1

統(tǒng)計(jì)量的抽樣分佈

什麼是抽樣分佈5.1

統(tǒng)計(jì)量的抽樣分佈

樣本均值的分佈5.1

統(tǒng)計(jì)量的抽樣分佈

樣本均值的分佈——例題分析樣本樣本中的元素11,11.021,21.531,32.041,42.552,11.562,22.072,32.582,43.093,12.0103,22.5113,33.0123,43.5134,12.5144,23.0154,33.5164,44.01.011.522.032.543.033.524.015.1

統(tǒng)計(jì)量的抽樣分佈

樣本均值的分佈——例題分析5.1

統(tǒng)計(jì)量的抽樣分佈抽樣均值的分佈與總體分佈及樣本量的關(guān)係樣本均值的分佈——與總體分佈及樣本量的關(guān)係5.1

統(tǒng)計(jì)量的抽樣分佈

樣本均值的分佈——中心極限定理5.1

統(tǒng)計(jì)量的抽樣分佈從0~100均勻分佈的總體和指數(shù)分佈的總體中分別抽取樣本量為2、10和30的各5000個(gè)樣本,樣本均值的分佈如圖所示圖中的U表示均勻分佈,E表示指數(shù)分佈樣本均值的分佈——中心極限定理的模擬5.1

統(tǒng)計(jì)量的抽樣分佈

樣本均值的分佈——分佈的參數(shù)特徵5.1

統(tǒng)計(jì)量的抽樣分佈

樣本比例的分佈——比例5.1

統(tǒng)計(jì)量的抽樣分佈

樣本比例的分佈5.1

統(tǒng)計(jì)量的抽樣分佈

統(tǒng)計(jì)量的標(biāo)準(zhǔn)誤5.1

統(tǒng)計(jì)量的抽樣分佈估計(jì)的標(biāo)準(zhǔn)誤當(dāng)總體標(biāo)準(zhǔn)差

未知時(shí),可用樣本標(biāo)準(zhǔn)差s代替計(jì)算,這時(shí)計(jì)算的標(biāo)準(zhǔn)誤也稱為估計(jì)標(biāo)準(zhǔn)誤(standarderrorofestimation)由於實(shí)際應(yīng)用中,總體

通常是未知時(shí),所計(jì)算的標(biāo)準(zhǔn)誤實(shí)際上都是估計(jì)標(biāo)準(zhǔn)誤,因此估計(jì)標(biāo)準(zhǔn)誤就簡稱為標(biāo)準(zhǔn)誤(統(tǒng)計(jì)軟體中得到的都是估計(jì)標(biāo)準(zhǔn)誤)統(tǒng)計(jì)量的標(biāo)準(zhǔn)誤5.2

參數(shù)估計(jì)的基本原理

估計(jì)量與估計(jì)值5.2

參數(shù)估計(jì)的基本原理

點(diǎn)估計(jì)與區(qū)間估計(jì)5.2

參數(shù)估計(jì)的基本原理點(diǎn)估計(jì)與區(qū)間估計(jì)區(qū)間估計(jì)——在點(diǎn)估計(jì)的基礎(chǔ)上,給出總體參數(shù)估計(jì)的一個(gè)估計(jì)區(qū)間根據(jù)樣本統(tǒng)計(jì)量所構(gòu)造的總體參數(shù)的估計(jì)區(qū)間,稱為置信區(qū)間(confidenceinterval,CI),其中區(qū)間的最小值稱為置信下限,最大值稱為置信上限。該區(qū)間由樣本統(tǒng)計(jì)量加減估計(jì)誤差而得到區(qū)間估計(jì)的圖示5.2

參數(shù)估計(jì)的基本原理點(diǎn)估計(jì)與區(qū)間估計(jì)——置信水準(zhǔn)

置信水準(zhǔn)90%0.100.051.64595%0.050.0251.9699%0.010.0052.585.2

參數(shù)估計(jì)的基本原理點(diǎn)估計(jì)與區(qū)間估計(jì)——置信區(qū)間的理解

5.2

參數(shù)估計(jì)的基本原理點(diǎn)估計(jì)與區(qū)間估計(jì)——置信區(qū)間的理解

5.3

總體均值的區(qū)間估計(jì)

正態(tài)總體方差已知,或非正態(tài)總體大樣本

5.3

總體均值的區(qū)間估計(jì)

正態(tài)總體方差已知,或非正態(tài)總體大樣本——例題分析【例5.2】一家食品生產(chǎn)企業(yè)以生產(chǎn)袋裝食品為主,每天的產(chǎn)量大約為8000袋左右。按規(guī)定每袋的重量應(yīng)為100克。為對產(chǎn)量品質(zhì)進(jìn)行監(jiān)測,企業(yè)質(zhì)檢部門經(jīng)常要進(jìn)行抽檢,以分析每袋重量是否符合要求?,F(xiàn)從某天生產(chǎn)的一批食品中隨機(jī)抽取了25袋,測得每袋重量如表5-4所示

112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.35.3

總體均值的區(qū)間估計(jì)

正態(tài)總體方差已知,或非正態(tài)總體大樣本——例題分析

5.3

總體均值的區(qū)間估計(jì)

正態(tài)總體方差已知,或非正態(tài)總體大樣本——例題分析【例5.3】一家保險(xiǎn)公司收集到由36位投保個(gè)人組成的隨機(jī)樣本,得到每位投保人的年齡(單位:周歲)數(shù)據(jù)如表5-5

2335392736443642464331334253455447243428393644403949383448503439454845325.3

總體均值的區(qū)間估計(jì)

正態(tài)總體方差未知,小樣本

5.3

總體均值的區(qū)間估計(jì)

正態(tài)總體方差未知,小樣本——例題分析【例5.4】已知某種燈泡的壽命服從正態(tài)分佈,現(xiàn)從一批燈泡中隨機(jī)抽取16只,測得其使用壽命(單位:小時(shí))如表5-6所示

15101450148014601520148014901460148015101530147015001520151014705.3

總體均值的區(qū)間估計(jì)

正態(tài)總體方差未知,小樣本——例題分析

5.4

總體比例間估計(jì)總體比例的區(qū)間估計(jì)——大樣本

5.4

總體比例間估計(jì)總體比例的區(qū)間估計(jì)——大樣本【例5.5】某城市交通管理部門想要估計(jì)贊成機(jī)動(dòng)車限行的人數(shù)比例,隨機(jī)抽取了100個(gè)機(jī)動(dòng)車主,其中65人表示贊成。試以95%的置信水準(zhǔn)估計(jì)該城市贊成機(jī)動(dòng)車限行的人數(shù)比例的置信區(qū)間

5.4

總體均值和比例間估計(jì)總體均值和比例的區(qū)間估計(jì)——小結(jié)參數(shù)點(diǎn)估計(jì)量標(biāo)準(zhǔn)誤差假定條件p5.5

樣本量的確定估計(jì)總體均值時(shí)樣本量的確定

5.5

樣本量的確定估計(jì)總體均值時(shí)樣本量的確定

5.5

樣本量的確定估計(jì)總體比例時(shí)樣本量的確定

5.5

樣本量的確定估計(jì)總體比例時(shí)樣本量的確定——例題分析

5.5

樣本量的確定估計(jì)總體均值時(shí)樣本量的確定

思維導(dǎo)圖本書結(jié)構(gòu)參數(shù)估計(jì)統(tǒng)計(jì)推斷的理論基礎(chǔ)抽樣分布樣本均值的部分樣本比例的分布統(tǒng)計(jì)量的標(biāo)準(zhǔn)誤總體均值的區(qū)間估計(jì)正態(tài)總體方差已知或非正態(tài)總體大樣本正態(tài)分布正態(tài)總體、方差未知小樣本t分布總體比例的區(qū)間估計(jì)大樣本正態(tài)分布樣本量的確定估計(jì)總體均值時(shí)的樣本量估計(jì)總體比例時(shí)的樣本量參數(shù)統(tǒng)計(jì)量誤差賈俊平2024-2-126.1假設(shè)檢驗(yàn)的基本原理6.2總體均值的檢驗(yàn)6.3總體比例的檢驗(yàn)

假設(shè)檢驗(yàn)內(nèi)容提要

本章內(nèi)容提要6.1

假設(shè)檢驗(yàn)的基本原理假設(shè)的陳述——假設(shè)與假設(shè)檢驗(yàn)假設(shè)—在參數(shù)檢驗(yàn)中,是對總體參數(shù)的具體數(shù)值所作的陳述就一個(gè)總體而言,總體參數(shù)包括總體均值、比例、方差等分析之前必需陳述假設(shè)檢驗(yàn)—先對總體的參數(shù)(或分佈形式)提出某種假設(shè),然後利用樣本資訊判斷假設(shè)是否成立的統(tǒng)計(jì)方法有參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)邏輯上運(yùn)用反證法,統(tǒng)計(jì)上依據(jù)小概率原理小概率是在一次試驗(yàn)中,一個(gè)幾乎不可能發(fā)生的事件發(fā)生的概率在一次試驗(yàn)中小概率事件一旦發(fā)生,我們就有理由拒絕原假設(shè)6.1

假設(shè)檢驗(yàn)的基本原理如何提出假設(shè)——原假設(shè)與備擇假設(shè)

6.1

假設(shè)檢驗(yàn)的基本原理如何提出假設(shè)——例題分析【例6.1】一種零件的生產(chǎn)標(biāo)準(zhǔn)是直徑應(yīng)為10cm,為對生產(chǎn)過程進(jìn)行控制,品質(zhì)監(jiān)測人員定期對一臺(tái)加工機(jī)床檢查,確定這臺(tái)機(jī)床生產(chǎn)的零件是否符合標(biāo)準(zhǔn)要求。如果零件的平均直徑大於或小於10cm,則表明生產(chǎn)過程不正常,必須進(jìn)行調(diào)整。試陳述用來檢驗(yàn)生產(chǎn)過程是否正常的原假設(shè)和備擇假設(shè)

6.1

假設(shè)檢驗(yàn)的基本原理如何提出假設(shè)——例題分析【例6.2】某品牌洗滌劑在它的產(chǎn)品說明書中聲稱:平均淨(jìng)含【例6.2】某品牌洗滌劑在它的產(chǎn)品說明書中聲稱:平均淨(jìng)含量不少於500g。從消費(fèi)者的利益出發(fā),有關(guān)研究人員要通過抽檢其中的一批產(chǎn)品來驗(yàn)證該產(chǎn)品製造商的說明是否屬實(shí)。試陳述用於檢驗(yàn)的原假設(shè)與備擇假設(shè)

6.1

假設(shè)檢驗(yàn)的基本原理如何提出假設(shè)——例題分析【例6.3】一家研究機(jī)構(gòu)估計(jì),某城市中家庭擁有汽車的比例超過30%。為驗(yàn)證這一估計(jì)是否正確,該研究機(jī)構(gòu)隨機(jī)抽取了一個(gè)樣本進(jìn)行檢驗(yàn)。試陳述用於檢驗(yàn)的原假設(shè)與備擇假設(shè)

6.1

假設(shè)檢驗(yàn)的基本原理如何提出假設(shè)——問題總結(jié)原假設(shè)和備擇假設(shè)是一個(gè)完備事件組,而且相互對立。這意味著,在一項(xiàng)假設(shè)檢驗(yàn)中,原假設(shè)和備擇假設(shè)必有一個(gè)成立,而且只有一個(gè)成立在建立假設(shè)時(shí),通常是先確定備擇假設(shè),然後再確定原假設(shè)。這樣做的原因是備擇假設(shè)是我們所關(guān)心的,是想予以支持或證實(shí)的,因而比較清楚,容易確定。由於原假設(shè)和備擇假設(shè)是對立的,只要確定了備擇假設(shè),原假設(shè)就很容易確定出來在假設(shè)檢驗(yàn)中,等號(hào)“=”總是放在原假設(shè)上在面對某一實(shí)際問題時(shí),由於不同的研究者有不同的研究目的,即使對同一問題也可能提出截然相反的原假設(shè)和備擇假設(shè)通常情形下,由於檢驗(yàn)的目的不同,原假設(shè)可以根據(jù)3種情形來確定:①如果檢驗(yàn)的目的是確定參數(shù)是否已經(jīng)發(fā)生變化,這時(shí),原假設(shè)的值可以根據(jù)過去的經(jīng)驗(yàn)、對過程的瞭解情形來確定。②如果檢驗(yàn)的目的是證明某種理論或模型是否正確,原假設(shè)的值可以通過有關(guān)這個(gè)過程的一些理論或模型來確定。③如果檢驗(yàn)的目的是檢驗(yàn)是否符合某種特定標(biāo)準(zhǔn),原假設(shè)的值可以根據(jù)事先設(shè)計(jì)的標(biāo)準(zhǔn)或合同的要求來確定假設(shè)檢驗(yàn)的目的主要是收集證據(jù)拒絕原假設(shè)。原假設(shè)最初被假設(shè)是成立的,之後就是要根據(jù)樣本數(shù)據(jù),確定是否有足夠的不符合原假設(shè)的證據(jù)以拒絕原假設(shè)6.1

假設(shè)檢驗(yàn)的基本原理假設(shè)的形式——雙側(cè)檢驗(yàn)與單側(cè)檢驗(yàn)雙側(cè)檢驗(yàn)—備擇假設(shè)沒有特定的方向性,並含有符號(hào)“

”的假設(shè)檢驗(yàn),稱為雙側(cè)檢驗(yàn)或雙尾檢驗(yàn)(two-tailedtest)單側(cè)檢驗(yàn)—備擇假設(shè)具有特定的方向性,並含有符號(hào)“>”或“<”的假設(shè)檢驗(yàn),稱為單側(cè)檢驗(yàn)或單尾檢驗(yàn)(one-tailedtest)備擇假設(shè)的方向?yàn)椤?lt;”,稱為左側(cè)檢驗(yàn)

備擇假設(shè)的方向?yàn)椤?gt;”,稱為右側(cè)檢驗(yàn)假設(shè)雙側(cè)檢驗(yàn)單側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)原假設(shè)備擇假設(shè)6.1

假設(shè)檢驗(yàn)的基本原理兩類錯(cuò)誤與顯著性水準(zhǔn)

6.1

假設(shè)檢驗(yàn)的基本原理兩類錯(cuò)誤與顯著性水準(zhǔn)——決策及其後果決策結(jié)果實(shí)際情形正確決策正確決策6.1

假設(shè)檢驗(yàn)的基本原理檢驗(yàn)統(tǒng)計(jì)量與拒絕域

6.1

假設(shè)檢驗(yàn)的基本原理檢驗(yàn)統(tǒng)計(jì)量與拒絕域拒絕域拒絕域臨界值臨界值0

/2

/2非拒絕域

非拒絕域

拒絕域臨界值0

拒絕域臨界值0

雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)雙側(cè)檢驗(yàn):│統(tǒng)計(jì)量│>臨界值,拒絕原假設(shè)左側(cè)檢驗(yàn):統(tǒng)計(jì)量的值<-臨界值,拒絕原假設(shè)右側(cè)檢驗(yàn):統(tǒng)計(jì)量的值>臨界值,拒絕原假設(shè)6.1

假設(shè)檢驗(yàn)的基本原理用P值決策

6.1

假設(shè)檢驗(yàn)的基本原理用P值決策雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)2P臨界值臨界值0

/2

/2計(jì)算出的統(tǒng)計(jì)量值計(jì)算出的統(tǒng)計(jì)量值P值臨界值0

計(jì)算出的統(tǒng)計(jì)量值P值臨界值0

計(jì)算出的統(tǒng)計(jì)量值

6.1

假設(shè)檢驗(yàn)的基本原理用P值決策

6.1

假設(shè)檢驗(yàn)的基本原理用P值決策與統(tǒng)計(jì)量決策的差異

統(tǒng)計(jì)量1統(tǒng)計(jì)量2拒絕H0的P1拒絕H0的

0拒絕H0的P2P6.1

假設(shè)檢驗(yàn)的基本原理結(jié)果的表述

6.1

假設(shè)檢驗(yàn)的基本原理小結(jié)——假設(shè)檢驗(yàn)的步驟

6.2

總體均值的檢驗(yàn)大樣本的檢驗(yàn)方法

總體方差已知總體方差未知6.2

總體均值的檢驗(yàn)大樣本的檢驗(yàn)方法——例題分析

拒絕H0拒絕H0-1.961.9600.0250.025Z=1.016.2

總體均值的檢驗(yàn)大樣本的檢驗(yàn)方法——公式列表

雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式檢驗(yàn)統(tǒng)計(jì)量P值決策準(zhǔn)則6.2

總體均值的檢驗(yàn)小樣本的檢驗(yàn)方法

總體方差已知總體方差未知

雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式檢驗(yàn)統(tǒng)計(jì)量P值決策準(zhǔn)則6.2

總體均值的檢驗(yàn)大樣本的檢驗(yàn)方法——例題分析【例6.7】一種汽車配件的平均長度要求為12cm,高於或低於該標(biāo)準(zhǔn)均被認(rèn)為是不合格的。汽車生產(chǎn)企業(yè)在購進(jìn)配件時(shí),通常是經(jīng)過招標(biāo),然後對中標(biāo)的配件提供商提供的樣品進(jìn)行檢驗(yàn),以決定是否採購?,F(xiàn)對一個(gè)配件提供商提供的10個(gè)樣本進(jìn)行了檢驗(yàn),結(jié)果如下。假定該供貨商生產(chǎn)的配件長度服從正態(tài)分佈,在0.05的顯著性水準(zhǔn)下,檢驗(yàn)該供貨商提供的配件是否符合要求12.210.812.011.811.912.411.312.212.012.36.2

總體均值的檢驗(yàn)大樣本的檢驗(yàn)方法——例題分析

拒絕域

22已知拒絕域t=-2.262t=2.26200.0250.025-0.70536.2

總體均值的檢驗(yàn)一個(gè)總體均值檢驗(yàn)的流程6.3

總體比例的檢驗(yàn)大樣本的檢驗(yàn)方法假定條件總體服從二項(xiàng)分佈可用正態(tài)分佈來近似(大樣本)檢驗(yàn)的z統(tǒng)計(jì)量

雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式檢驗(yàn)統(tǒng)計(jì)量P值決策準(zhǔn)則6.3

總體比例的檢驗(yàn)大樣本的檢驗(yàn)方法——例題分析

6.3

總體比例的檢驗(yàn)大樣本的檢驗(yàn)方法——例題分析檢驗(yàn)統(tǒng)計(jì)量的觀察值z=-2.475拒絕H0拒絕H0-1.961.9600.0250.025拒絕H0拒絕H0-2.582.5800.0050.005檢驗(yàn)統(tǒng)計(jì)量的觀察值z=-2.475(a)顯著性水準(zhǔn)為0.05(b)顯著性水準(zhǔn)為0.01思維導(dǎo)圖本書結(jié)構(gòu)假設(shè)檢驗(yàn)基本原理提出假設(shè)兩類錯(cuò)誤和顯著性水平經(jīng)驗(yàn)統(tǒng)計(jì)量和拒絕域用P值決策總體均值的經(jīng)驗(yàn)大樣本正態(tài)分布正態(tài)總體方差已知小樣本正態(tài)分布正態(tài)總體方差未知小樣本t分布總體比例的經(jīng)驗(yàn)大樣本t分布提出假設(shè)構(gòu)建統(tǒng)計(jì)量計(jì)算P值做出決策表述結(jié)果賈俊平2024-2-127.1變數(shù)間關(guān)係的度量7.2一元線性回歸分析7.3利用回歸方程進(jìn)行估計(jì)和預(yù)測

相關(guān)與回歸分析內(nèi)容提要相關(guān)與回歸是分析變數(shù)之間關(guān)係的統(tǒng)計(jì)方法。從所處理的變數(shù)多少來看,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論