統(tǒng)計(jì)學(xué)-賈俊平-考研-知識(shí)點(diǎn)總結(jié)_第1頁
統(tǒng)計(jì)學(xué)-賈俊平-考研-知識(shí)點(diǎn)總結(jié)_第2頁
統(tǒng)計(jì)學(xué)-賈俊平-考研-知識(shí)點(diǎn)總結(jié)_第3頁
統(tǒng)計(jì)學(xué)-賈俊平-考研-知識(shí)點(diǎn)總結(jié)_第4頁
統(tǒng)計(jì)學(xué)-賈俊平-考研-知識(shí)點(diǎn)總結(jié)_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、統(tǒng)計(jì)學(xué)重點(diǎn)筆記第一章導(dǎo)論、比較描述統(tǒng)計(jì)和推斷統(tǒng)計(jì):數(shù)據(jù)分析是通過統(tǒng)計(jì)方法研究數(shù)據(jù),其所用的方法可分為描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)。( 1)描述性統(tǒng)計(jì):研究一組數(shù)據(jù)的組織、整理和描述的統(tǒng)計(jì)學(xué)分支,是社會(huì)科學(xué)實(shí) 證研究中最常用的方法,也是統(tǒng)計(jì)分析中必不可少的一步。內(nèi)容包括取得研究所需要 的數(shù)據(jù)、用圖表形式對(duì)數(shù)據(jù)進(jìn)行加工處理和顯示,進(jìn)而通過綜合、概括與分析,得出 反映所研究現(xiàn)象的一般性特征。(2)推斷統(tǒng)計(jì)學(xué):是研究如何利用樣本數(shù)據(jù)對(duì)總體的數(shù)量特征進(jìn)行推斷的統(tǒng)計(jì)學(xué)分 支。研究者所關(guān)心的是總體的某些特征,但許多總體太大,無法對(duì)每個(gè)個(gè)體進(jìn)行測(cè)量, 有時(shí)我們得到的數(shù)據(jù)往往需要破壞性試驗(yàn),這就需要抽取部分個(gè)體即樣本進(jìn)行

2、測(cè)量, 然后根據(jù)樣本數(shù)據(jù)對(duì)所研究的總體特征進(jìn)行推斷,這就是推斷統(tǒng)計(jì)所要解決的問題。 其內(nèi)容包括抽樣分布理論,參數(shù)估計(jì),假設(shè)檢驗(yàn),方差分析,回歸分析,時(shí)間序列分 析等等。3)兩者的關(guān)系:描述統(tǒng)計(jì)是基礎(chǔ),推斷統(tǒng)計(jì)是主體二、比較分類數(shù)據(jù)、順序數(shù)據(jù)和數(shù)值型數(shù)據(jù):根據(jù)所采用的計(jì)量尺度不同,可以將統(tǒng)計(jì)數(shù)據(jù)分為分類數(shù)據(jù)、順序數(shù)據(jù)和數(shù)值型數(shù) 據(jù)。( 1)分類數(shù)據(jù)是只能歸于某一類別的非數(shù)字型數(shù)據(jù)。它是對(duì)事物進(jìn)行分類的結(jié)果, 數(shù)據(jù)表現(xiàn)為類別,是用文字來表達(dá)的,它是由分類尺度計(jì)量形成的。(2)順序數(shù)量是只能歸于某一有序類別的非數(shù)字型數(shù)據(jù)。也是對(duì)事物進(jìn)行分類的結(jié)果,但這些類別是有順序的,它是由順序尺度計(jì)量形成的。(

3、3)數(shù)值型數(shù)據(jù)是按數(shù)字尺度測(cè)量的觀察值。其結(jié)果表現(xiàn)為具體的數(shù)值,現(xiàn)實(shí)中我 們所處理的大多數(shù)都是數(shù)值型數(shù)據(jù)。總之,分類數(shù)據(jù)和順序數(shù)據(jù)說明的是事物的本質(zhì)特征,通常是用文字來表達(dá)的,其 結(jié)果均表現(xiàn)為類別,因而也統(tǒng)稱為定型數(shù)據(jù)或品質(zhì)數(shù)據(jù);數(shù)值型數(shù)據(jù)說明的是現(xiàn)象的 數(shù)量特征,通常是用數(shù)值來表現(xiàn)的,因此可稱為定量數(shù)據(jù)或數(shù)量數(shù)據(jù)。三、比較總體、樣本、參數(shù)、統(tǒng)計(jì)量和變量:(1)總體是包含所研究的全部個(gè)體的集合。通常是我們所關(guān)心的一些個(gè)體組成, 如由多個(gè)企業(yè)所構(gòu)成的集合,多個(gè)居民戶所構(gòu)成的集合??傮w根據(jù)其所包含的單位數(shù) 目是否可數(shù)可以分為有限總體和無限總體。有限總體是指總體的范圍能夠明確確定, 而且元素的數(shù)目是

4、有限可數(shù)的,需要注意的是,統(tǒng)計(jì)意義上的總體,通常不是一群人 或一些物品的集合,而是一組觀測(cè)數(shù)據(jù)。(2)樣本是從總體中抽取的一部分元素的集合,構(gòu)成樣本的元素的數(shù)目稱為樣本 容量。例如我們從一批燈泡中隨機(jī)抽取 100 個(gè),這 100 個(gè)燈泡就構(gòu)成了一個(gè)樣本。(3)參數(shù)是用來描述總體特征的概括性數(shù)字度量。有總體平均數(shù)、標(biāo)準(zhǔn)差、總體 比例。由于總體參數(shù)通常是不知道的,所以參數(shù)是一個(gè)未知的常數(shù)。所以才需要進(jìn)行 抽樣,根據(jù)樣本來估計(jì)總體參數(shù)(4)樣本量是用來描述樣本特征的概括性數(shù)字度量。統(tǒng)計(jì)量是根據(jù)樣本數(shù)據(jù)計(jì)算 出來的一個(gè)量,通常包括:樣本平均數(shù)、樣本標(biāo)準(zhǔn)差、樣本比例等,由于樣本是我們 已經(jīng)抽出來的,所以

5、統(tǒng)計(jì)量總是知道的,抽樣的目的就是要根據(jù)樣本統(tǒng)計(jì)量推斷總體 參數(shù)。(5)變量是說明現(xiàn)象某種特征的概念。變量的特點(diǎn)是從一次觀察到下一次觀察會(huì) 呈現(xiàn)出差別或變化,分為分類變量、順序變量、數(shù)值型變量、離散型變量和連續(xù)型變 量。第二章 數(shù)據(jù)收集、調(diào)查方案的主要內(nèi)容:( 1)調(diào)查目的:是調(diào)查所要達(dá)到的具體目標(biāo),他所回答的是“為什么調(diào)查”“ 決什么樣的問題”等( 2)調(diào)查對(duì)象和調(diào)查單位:調(diào)查對(duì)象是根據(jù)調(diào)查目的的確定的調(diào)查研究的總體或調(diào) 查范圍。調(diào)查單位是構(gòu)成調(diào)查隊(duì)選中的每一個(gè)單位,它是調(diào)查項(xiàng)目和調(diào)查內(nèi)容的承擔(dān) 著或載體。所要解決的是“向誰調(diào)查”由誰來提供所需數(shù)據(jù)( 3)調(diào)查項(xiàng)目和調(diào)查表:調(diào)查項(xiàng)目要解決的問題

6、是“調(diào)查什么”,也就是調(diào)查的具體內(nèi)容,大多數(shù)統(tǒng)計(jì)調(diào)查中,調(diào)查項(xiàng)目通常以表格的形式來表現(xiàn),稱為調(diào)查表二、數(shù)據(jù)的誤差 :統(tǒng)計(jì)數(shù)據(jù)的誤差通常是指統(tǒng)計(jì)數(shù)據(jù)與客觀現(xiàn)實(shí)之間的差距,誤 差的類型主要有抽樣誤差和非抽樣誤差兩類。(1)抽樣誤差:主要是指在用樣本數(shù)據(jù)進(jìn)行推斷時(shí)所產(chǎn)生的隨機(jī)誤差。只存在于概率抽樣中。這類誤差通常是無法消除的,但事先可以進(jìn)行控制和計(jì)算。影響抽樣誤差大小的因素:(a)抽樣單位的數(shù)目。在其他條件不變的情況下,抽樣單位的數(shù)目越多,抽樣誤 差越?。环粗?,越大。這是因?yàn)殡S著樣本數(shù)目的增多,樣本結(jié)構(gòu)越接近總體,抽樣調(diào) 查也就越接近全面調(diào)查,當(dāng)樣本擴(kuò)大到總體時(shí),則為全面調(diào)查,也就不存在抽樣誤差 了

7、。(b)總體背研究標(biāo)志的變異程度。在其他條件不變的情況下,總體標(biāo)志的變異程 度越小,抽樣誤差越小,反之,越大。抽樣誤差和總體標(biāo)志的變異程度呈正比變化。 這是因?yàn)榭傮w的變異程度小,表示總體各單位標(biāo)志值之間的差異小。則樣本指標(biāo)與總 體指標(biāo)之間的差異也可能??;如果總體各單位標(biāo)志值相等,則標(biāo)志變動(dòng)度為零,樣本 指標(biāo)等于總體指標(biāo),此時(shí)不存在抽樣誤差(C)抽樣方法的選擇。重復(fù)抽樣和非重復(fù)抽樣的抽樣誤差大小不同。采用不重復(fù) 抽樣比采用重復(fù)抽樣的抽樣誤差?。╠)抽樣組織方式不同。采用不同的組織方式,會(huì)有不同的抽樣誤差,這是因?yàn)椴煌某闃咏M織所抽中的樣本,對(duì)于總體的代表性也不同,通常,常利用不同的抽樣 誤差,作

8、出判斷各種抽樣組織方式的比較標(biāo)準(zhǔn)。(2)非抽樣誤差:主要包括:抽樣框誤差,回答誤差、無回答誤差、調(diào)查員誤差; 是調(diào)查過程中由于調(diào)查者或被調(diào)查者的人為因素所造成的誤差。調(diào)查者所造成的誤差 主要有:調(diào)查方案中有關(guān)的規(guī)定或解釋不明確導(dǎo)致的填報(bào)錯(cuò)誤、抄錄錯(cuò)誤、匯總錯(cuò)誤 等;被調(diào)查者所造成的誤差主要有:因人為因素干擾形成的有意虛報(bào)或瞞報(bào)調(diào)查數(shù)據(jù)。 非抽樣誤差理論上是可以消除的。三、簡(jiǎn)單隨機(jī)抽樣:(1)概念:從總體 N個(gè)單位中隨機(jī)地抽取 n個(gè)單位作為樣本,每個(gè)單位入抽樣本 的概率是相等的;2)特點(diǎn):a、簡(jiǎn)單、直觀,在抽樣框完整時(shí),可直接從中抽取樣本b、用樣本統(tǒng)計(jì)量對(duì)目標(biāo)量進(jìn)行估計(jì)比較方便3)局限性當(dāng) N

9、很大時(shí),不易構(gòu)造抽樣框 抽出的單位很分散,給實(shí)施調(diào)查增加了困難 沒有利用其它輔助信息以提高估計(jì)的效率第三章數(shù)據(jù)的整理與展示、數(shù)據(jù)排序的目的(1)數(shù)據(jù)排序是按一定順序?qū)?shù)據(jù)排列,以發(fā)現(xiàn)一些明顯的特征或趨勢(shì),找到解 決問題的線索(2 )排序還有助于對(duì)數(shù)據(jù)檢查糾錯(cuò),以及為重新歸類或分組等提供方便。(3) 在某些場(chǎng)合,排序本身就是分析的目的之一。二、數(shù)據(jù)分組:是根據(jù)統(tǒng)計(jì)研究的需要,將原始數(shù)據(jù)按照某種標(biāo)準(zhǔn)化分成不同的組別,分組后的數(shù) 據(jù)成為分組數(shù)據(jù)。數(shù)據(jù)經(jīng)分組后再計(jì)算出各組中數(shù)據(jù)出現(xiàn)的頻數(shù),就形成了一張頻數(shù) 分布表,分組方法有單變量值分組和組距分組兩種,單變量分組通常只適合于離散變 量,且在變量值較少的

10、情況下使用,在連續(xù)變量或變量值較多情況下,通常采用組距 分組。三、組距分組的步驟和原則(1)步驟:a、確定組數(shù):組數(shù)的確定應(yīng)以能夠顯示數(shù)據(jù)的分布特征和規(guī)律為目的。在實(shí)際分組時(shí),可以按Sturges提出的經(jīng)驗(yàn)公式來確定組數(shù)K K 1 g(n)igb、確定組距:組距(Class Width)是一個(gè)組的上限與下限之差,可根據(jù)全部數(shù)據(jù) 的最大值和最小值及所分的組數(shù)來確定,即組距=(最大值-最小值)*組數(shù)C、統(tǒng)計(jì)出各組的頻數(shù)并整理成頻數(shù)分布表(2)原則:采用組距分組時(shí),需遵循“不重不漏”的原則,“不重”是指一項(xiàng)數(shù)據(jù)只能分在 其中的某一組,不能在其他組中重復(fù)出現(xiàn);“不漏”是指組別能夠窮盡,即在所分的全部組

11、別中每項(xiàng)數(shù)據(jù)都能分在其中的某一組,不能遺漏。為解決不重的問題,統(tǒng)計(jì)分 組時(shí)習(xí)慣上規(guī)定“上組限不在內(nèi)”,即當(dāng)相鄰兩組的上下限重疊時(shí),恰好等于某一組 上限的變量值不算在本組內(nèi),而計(jì)算在下一組內(nèi)。當(dāng)然,對(duì)于離散變量,我們可以采 用相鄰兩組組限間斷的辦法解決“不重”的問題。也可以對(duì)一個(gè)組的上限值采用小數(shù) 點(diǎn)的形式,小數(shù)點(diǎn)的位數(shù)根據(jù)所要求的精度具體確定。缺點(diǎn):組距分組掩蓋了各組內(nèi) 的數(shù)據(jù)分布狀況四、直方圖和條形圖的區(qū)別:首先,條形圖是用條形的長(zhǎng)度(橫置時(shí))表示各類別頻數(shù)的多少,其寬度則是固 定的;直方圖是用面積表示各組頻數(shù)的多少,頻數(shù)的高度表示每一組的頻數(shù)或頻率, 寬度則表示各組的組距,因此高度與寬度均

12、有意義。其次,由于分組數(shù)據(jù)具有連續(xù)性,直方圖的各矩形通常是連續(xù)排列,而條形圖則 是分開排列。最后,條形圖主要用于展示各類數(shù)據(jù),而直方圖則主要用于展示數(shù)據(jù)型數(shù)據(jù)。五、繪制線圖應(yīng)注意的問題:(1)時(shí)間一般繪在橫軸,觀測(cè)數(shù)據(jù)繪在縱軸(2)圖形的長(zhǎng)寬比例要適當(dāng),一般應(yīng)繪成橫軸略大于縱軸的長(zhǎng)方形,其長(zhǎng)寬比例 大致是10 : 7 .(3) 般情況下,縱軸數(shù)據(jù)下端應(yīng)從0開始,以便于比較,數(shù)據(jù)與0之間的間距 過大,可以采取折斷的符號(hào)將縱軸折斷六、設(shè)計(jì)統(tǒng)計(jì)表注意的問題:首先,要合理安排統(tǒng)計(jì)表的結(jié)構(gòu),例如表號(hào)、行標(biāo)題、列標(biāo)題、數(shù)字資料的位置 應(yīng)安排合理。其次,表頭一般應(yīng)包括表號(hào)、總標(biāo)題和表中數(shù)據(jù)的單位等內(nèi)容,總標(biāo)

13、題應(yīng)簡(jiǎn)明確 切地概括出統(tǒng)計(jì)表的內(nèi)容。再次,表中的上下兩條線一般用粗線,中間的其他線用細(xì)線,表的左右兩邊不封口,列標(biāo)題之間可以用豎線分開,而行標(biāo)題之間通常不必用橫線隔開。最后,在使用統(tǒng)計(jì)表時(shí),必要時(shí)可在表下方加上注釋,特別注意標(biāo)明數(shù)據(jù)來源。七、數(shù)據(jù)的審核:1 )原始數(shù)據(jù):a、完整性審核:檢查應(yīng)調(diào)查的單位或個(gè)體是否有遺漏;所有的調(diào)查項(xiàng)目或指標(biāo)是否填寫齊全b 、準(zhǔn)確性審核:檢查數(shù)據(jù)是否真實(shí)反映客觀實(shí)際情況,內(nèi)容是否符合實(shí)際;檢 查數(shù)據(jù)是否有錯(cuò)誤,計(jì)算是否正確等2)二手?jǐn)?shù)據(jù):a、適用性審核:弄清楚數(shù)據(jù)的來源、數(shù)據(jù)的口徑以及有關(guān)的背景材料;確定數(shù)據(jù)是否符合自己分析研究的需要b、時(shí)效性審核:盡可能使用最新

14、的數(shù)據(jù)(1) 是不同的八、數(shù)據(jù)的整理與顯示 (基本問題 )要弄清所面對(duì)的數(shù)據(jù)類型,因?yàn)椴煌愋偷臄?shù)據(jù),所采取的處理方式和方法對(duì)分類數(shù)據(jù)和順序數(shù)據(jù)主要是做分類整理 對(duì)數(shù)值型數(shù)據(jù)則主要是做分組整理(4)適合于低層次數(shù)據(jù)的整理和顯示方法也適合于高層次的數(shù)據(jù);但適合于高層 次數(shù)據(jù)的整理和顯示方法并不適合于低層次的數(shù)據(jù)第四章 數(shù)據(jù)的概括性度量、集中趨勢(shì)和離散趨勢(shì)的度量:(1)集中趨勢(shì) 是指一組數(shù)據(jù)向某一中心值靠攏的傾向,它反映了一組數(shù)據(jù)中心 點(diǎn)的位置所在。描述集中趨勢(shì)所采用的測(cè)度值分為:眾數(shù)、中位數(shù)和分位數(shù)、平均數(shù)。(2)離散趨勢(shì) 是數(shù)據(jù)分布的另一個(gè)重要特征,它所反映的各變量值遠(yuǎn)離其中心 值得程度,因此

15、也稱為離中趨勢(shì),數(shù)據(jù)的離散程度越大,集中趨勢(shì)的測(cè)度值對(duì)該組數(shù) 據(jù)的代表性越差,反之,代表性越好。描述數(shù)據(jù)離散程度所采用的測(cè)度值,根據(jù)所依 據(jù)的數(shù)據(jù)類型的不同主要有異種比率、四分位差、方差和標(biāo)準(zhǔn)差。此外還有極差、平 均差以及測(cè)度相對(duì)離散程度的離散系數(shù)。中位數(shù)和平均數(shù):( 1)三者的關(guān)系: 從分布的角度看,眾數(shù)始終是一組數(shù)據(jù)分布的最高峰值,中位數(shù) 的處于一組數(shù)據(jù)中間位置上的值,而平均數(shù)則是全部數(shù)據(jù)的算數(shù)平均。因此,對(duì)于具 有單峰分布的大多數(shù)數(shù)據(jù)而言,眾數(shù)、中位數(shù)和平均數(shù)之間具有以下關(guān)系:(a)如果數(shù)據(jù)的分布是對(duì)稱的,眾數(shù)、中位數(shù)、平均數(shù)必定相等(b)如果數(shù)據(jù)是左偏分布,說明數(shù)據(jù)存在極小值,必然拉動(dòng)

16、平均數(shù)向極小值一方 靠近,而眾數(shù)和中位數(shù)由于是位置代表值,不受極值的影響,因此三者的關(guān)系為眾數(shù) 中位數(shù) 平均數(shù)(C)如果數(shù)據(jù)是右偏分布,說明數(shù)據(jù)存在極大值,必然拉動(dòng)平均數(shù)向極大值的一 方靠近,則眾數(shù) 中位數(shù)平均數(shù)。2)特點(diǎn)及應(yīng)用場(chǎng)合(a )眾數(shù)是一組數(shù)據(jù)的峰值,是一種位置代表詞,不受極端值的影響,具有不唯 一性,對(duì)于一組數(shù)據(jù)可能有一個(gè)眾數(shù),也可能有兩個(gè)或多個(gè)眾數(shù),也可能沒有眾數(shù)。 雖然對(duì)于順序數(shù)據(jù)以及數(shù)值型數(shù)據(jù)也可以計(jì)算眾數(shù),但眾數(shù)主要適合于作為分類數(shù)據(jù) 的集中趨勢(shì)測(cè)度值。(b)中位數(shù)是一組數(shù)據(jù)中間位置上的代表值,主要適合于作為順序數(shù)據(jù)的集中趨 勢(shì)測(cè)度值,雖然對(duì)于順序數(shù)據(jù)可以使用眾數(shù),但以中位

17、數(shù)為宜。(c )平均數(shù)是就數(shù)值型數(shù)據(jù)計(jì)算的,而且利用了全部數(shù)據(jù)信息,它是實(shí)際中應(yīng)用 最廣泛的集中趨勢(shì)測(cè)度值。平均數(shù)主要適合于作為數(shù)值型數(shù)據(jù)的集中趨勢(shì)測(cè)度值。當(dāng) 數(shù)據(jù)呈對(duì)稱分布或接近對(duì)稱分布時(shí),三個(gè)代表值相等或接近相等,這是我們應(yīng)該選擇 平均數(shù)作為集中趨勢(shì)的代表值。但平均數(shù)的主要缺點(diǎn)是易受數(shù)據(jù)極端值得影響,對(duì)于 偏態(tài)分布的數(shù)據(jù),平均數(shù)的代表性較差。因此,當(dāng)數(shù)據(jù)為偏態(tài)分布,特別是當(dāng)偏斜的 程度較大時(shí),我們可以考慮選擇眾數(shù)或中位數(shù)等位置代表詞。三、異種比率:是非眾數(shù)組的頻數(shù)占總頻數(shù)的比率。主要用于衡量眾數(shù)對(duì)一組數(shù)據(jù)的代表程度。異 眾比率越大,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大,眾數(shù)的代表性越差。反

18、之, 越小,眾數(shù)的代表性越好。異種比率重要適合測(cè)度分類數(shù)據(jù)的離散程度。當(dāng)然,對(duì)于 順序數(shù)據(jù)以及數(shù)值型數(shù)據(jù)也可以計(jì)算異種比率。四、四分位差 :是上四分位數(shù)與下四分位數(shù)之差。反映了中間 50% 數(shù)據(jù)的離散程度,其數(shù)值越小, 說明中間數(shù)據(jù)越集中,數(shù)值越大,說明中間數(shù)據(jù)越分散。四分位差不受極值的影響。 主要用于測(cè)度順序數(shù)據(jù)的離散程度,當(dāng)然,對(duì)于數(shù)值型數(shù)據(jù)也可以計(jì)算四分位差,但 不適合于分類數(shù)據(jù)。五、方差和標(biāo)準(zhǔn)差 :極差 是一組數(shù)據(jù)的最大值與最小值之差,也稱為全距。它容易受極端值的影響, 由于極差只是利用了一組數(shù)據(jù)兩端的信息,不能反映出中間數(shù)據(jù)的分散狀況,因而不 能準(zhǔn)確描述出數(shù)據(jù)的分散程度。平均差 是各

19、變量值與其平均數(shù)離差的絕對(duì)值的平均數(shù),平均差以平均數(shù)為中心, 反映了每個(gè)數(shù)據(jù)與平均數(shù)的平均差異程度,它能全面準(zhǔn)確的反映一組數(shù)據(jù)的離散狀況。 平均差越大說明數(shù)據(jù)的離散程度就越大,反之,越小。為了避免離差之和等于 0 而無 法計(jì)算平均差這一問題,平均差在計(jì)算時(shí)對(duì)離差取了絕對(duì)值,以離差的絕對(duì)值來表示 總離差。方差(或標(biāo)準(zhǔn)差) 是實(shí)際中應(yīng)用最廣泛的離散程度測(cè)度值,因此它能準(zhǔn)確的反映出數(shù)據(jù)的離散程度。方差是各變量值與其平均數(shù)離差平方的平均數(shù)。標(biāo)準(zhǔn)差 是方差的平方根,與方差不同的是,標(biāo)準(zhǔn)差是具有量綱的,它與變量值的 計(jì)量單位相同,其實(shí)際意義要比方差清楚,因此,在對(duì)實(shí)際問題進(jìn)行分析時(shí),我們更 多的使用標(biāo)準(zhǔn)差

20、。六、標(biāo)準(zhǔn)分?jǐn)?shù):標(biāo)準(zhǔn)分?jǐn)?shù)是指變量值與其平均數(shù)的離差除以標(biāo)準(zhǔn)差后的差??梢詼y(cè)度每個(gè)數(shù)據(jù)在 該組數(shù)據(jù)中的相對(duì)位置,并可以用它來判斷一組數(shù)據(jù)是否有離群數(shù)據(jù),也給出了一組 數(shù)據(jù)中各數(shù)值的相對(duì)位置,例如,如果某個(gè)數(shù)值的標(biāo)準(zhǔn)分?jǐn)?shù)為 -1.5 ,我們就知道該數(shù) 值低于平均數(shù) 1.5 倍的標(biāo)準(zhǔn)差。在對(duì)多個(gè)具有不同量綱的變量進(jìn)行處理時(shí),常常需要 對(duì)各變量數(shù)值進(jìn)行標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)分?jǐn)?shù)具有平均數(shù)為0、標(biāo)準(zhǔn)差為 1 的特性。實(shí)際上,標(biāo)準(zhǔn)分?jǐn)?shù)只是將原始數(shù)據(jù)進(jìn)行了線性變換,它并沒有改變一個(gè)數(shù)據(jù)在該組數(shù)據(jù)中 的位置,也沒有改變改組數(shù)據(jù)分布的形狀,而只是使該組數(shù)據(jù)的平均數(shù)為0、標(biāo)準(zhǔn)差為 1 。七、經(jīng)驗(yàn)法則:經(jīng)驗(yàn)法則表明:當(dāng)一

21、組數(shù)據(jù)對(duì)稱分布時(shí)1)約有68% 的數(shù)據(jù)在平均數(shù)加減1 個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)2)約有95% 的數(shù)據(jù)在平均數(shù)加減2 個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)3)約有99% 的數(shù)據(jù)在平均數(shù)加減3 個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)八、切比雪夫不等式:如果一組數(shù)據(jù)不是對(duì)稱分布,經(jīng)驗(yàn)法則就不再適用,這時(shí)就要使用切比雪夫不等式,它對(duì)任何分布形狀的數(shù)據(jù)都適用,對(duì)于任意分布形態(tài)的數(shù)據(jù),根據(jù)切比雪夫不等式,至少有(1-1/k2)的數(shù)據(jù)落在k個(gè)標(biāo)準(zhǔn)差之內(nèi)。其中k是大于1的任意值,但不一定 是整數(shù)。對(duì)于 k=2 、3、4,該不等式的含義是:1)至少有75% 的數(shù)據(jù)在平均數(shù)加減2 個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)2)至少有89% 的數(shù)據(jù)在平均數(shù)加減3 個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)

22、3)至少有94% 的數(shù)據(jù)在平均數(shù)加減4 個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)九、相對(duì)離散程度:離散系數(shù)的作用:極差、平均差、方差和標(biāo)準(zhǔn)差等都是反映數(shù)據(jù)分散程度的絕對(duì)值,其數(shù)值的大小一方面 取決于原變量值本身水平高低的影響,也就是與變量的平均數(shù)大小有關(guān),變量 值絕對(duì)水平高的,離散程度的測(cè)度值自然也就大。絕對(duì)水平小的離散程度的測(cè)度值自 然也就小; 另一方面 ,它們與原變量值的計(jì)量單位相同,采用不同計(jì)量單位計(jì)量的變 量值,其離散程度的測(cè)度值也就不同。因此對(duì)于平均水平不同或者計(jì)量單位不同的不 同組別的變量值,是不能用上述離散程度的測(cè)度值直接比較其離散程度的。為消除變 量值水平高低和計(jì)量單位不同對(duì)離散程度測(cè)度值的影響,需

23、要計(jì)算離散系數(shù)。 離散系數(shù)是指 一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的平均數(shù)之比。離散系數(shù)是測(cè)度數(shù)據(jù)離散程度的相 對(duì)統(tǒng)計(jì)量,通常是就標(biāo)準(zhǔn)差來計(jì)算的,因此也稱為標(biāo)準(zhǔn)差系數(shù),離散系數(shù)的作用 主要是用于比較對(duì)不同樣本數(shù)據(jù)的離散程度。離散系數(shù)大的說明數(shù)據(jù)的離散程度大,離散 系數(shù)小的說明數(shù)據(jù)的離散程度小。十、測(cè)度數(shù)據(jù)分布形狀的統(tǒng)計(jì)量:(1 )偏態(tài):如果一組數(shù)據(jù)的分布的對(duì)稱的,則SK=O,如果SK明顯不等于零,表明分布是非對(duì)稱的。當(dāng) SK為正值時(shí),表示正偏離差值較大,可以判斷為正偏或右偏; 反之,為負(fù)偏或左偏,SK的值越大,表示傾斜的程度就越大( 2 )峰態(tài) :如果一組數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布,則峰態(tài)系數(shù)的值等于0,若峰

24、態(tài)系數(shù)的值明顯不同于 0,表明分布比正太分布更平或更尖,通常稱為平峰分布或尖峰分 布。當(dāng) K>0 時(shí)為尖峰分布,當(dāng) K<0 時(shí)為扁平分布第五章 概率與概率分布、常見的離散型概率分布:1)兩點(diǎn)分布P,失敗的d、實(shí)驗(yàn)用X 表(2)二項(xiàng)分布:n重伯努利試驗(yàn)滿足下列條件:a、一次實(shí)驗(yàn)只有兩種結(jié)果,即成 功和失敗,這里的成功是指感興趣的某種特征。b、一次實(shí)驗(yàn)成功的概率是概率是q=1-p,而且概率P對(duì)每次實(shí)驗(yàn)都是相同的。C、實(shí)驗(yàn)是相互獨(dú)立的。 可以重復(fù)進(jìn)行n次。e、在n次試驗(yàn)中,成功的次數(shù)對(duì)應(yīng)一個(gè)離散型隨機(jī)變量, 示(3 )泊松分布:重要特征:a、所考查的事件在任意兩個(gè)長(zhǎng)度相等的區(qū)間里發(fā)生一

25、次的機(jī)會(huì)均等。b、所考察的事件在任何一個(gè)區(qū)間里發(fā)生與否和在其他區(qū)間里發(fā)生與否 沒有相互影響,即是獨(dú)立的。泊松分布的另一個(gè)重要用途是作為二項(xiàng)概率分布的近似。 對(duì)一個(gè) n 重伯努利實(shí)驗(yàn), p 代表每次伯努利實(shí)驗(yàn)成功的概率,當(dāng)實(shí)驗(yàn)次數(shù) n 相對(duì)很大, 成功概率 p 相對(duì)很小,而乘積 np 大小適中時(shí),泊松分布的一般表達(dá)式與二項(xiàng)分布的一 般表達(dá)式近似相等,(4)超幾何分布:二項(xiàng)分布只適合于重復(fù)抽樣,但在實(shí)際抽樣中,很少采用重復(fù)抽樣。不過,當(dāng)總體的元素?cái)?shù)目 N很大而樣本容量n相對(duì)于N很小時(shí),二項(xiàng)分布仍然 適用。但如果是采用不重復(fù)抽樣,各次實(shí)驗(yàn)并不獨(dú)立,成功的概率也互不相等,而且 總體元素的數(shù)目很小或樣本

26、容量 n 相對(duì)于 N 來說較大時(shí),二項(xiàng)分布就不再適用,這時(shí), 樣本中成功的次數(shù)則服從超幾何分布。n 重伯努利實(shí)驗(yàn)超幾何分布與二項(xiàng)分布的關(guān)系: 由于呈幾何分布所描述的實(shí)驗(yàn)與從直觀上N 而言比較小,那 N 趨于無窮大時(shí),每次抽樣的樣品即使不相似,所以超幾何分布與二項(xiàng)分部之間也存在著十分特殊而有意義的聯(lián)系, 來看嗎,如果總體中的元素個(gè)數(shù) N 很大,使得 M 的有限變化相對(duì)于 么超幾何分布趨向于二項(xiàng)分布。這是因?yàn)樵?放回,對(duì)其后代表成功的事件發(fā)生的概率也不會(huì)有太大影響,可以近似認(rèn)為不變,二 者恰好滿足了二項(xiàng)分布的前提。正態(tài)分布的曲線的性質(zhì):1)正態(tài)曲線的圖形是關(guān)于 x= 的對(duì)稱鐘形曲線,且峰值在 x=

27、 處、( 2)正態(tài)分布的兩個(gè)參數(shù)均值 和標(biāo)準(zhǔn)差 一旦確定,正態(tài)分布的具體形式就唯一 確定,不同參數(shù)取值的正太分布構(gòu)成一個(gè)完整的正態(tài)分布族。( 3)正態(tài)分布的均值 可以是實(shí)數(shù)軸的任意數(shù)值,他決定正態(tài)曲線的具體位置,標(biāo) 準(zhǔn)差 相同二均值不同的正太曲線在坐標(biāo)軸上體現(xiàn)為水平位移(4)正態(tài)分布的標(biāo)準(zhǔn)差 為大于 0 的實(shí)數(shù),他決定正態(tài)曲線的“陡峭“或”扁平 程度。 越大,正太曲線越扁平; 越小,正太曲線越陡峭。(5)當(dāng) X 的取值向橫軸左右兩個(gè)方向無限延伸時(shí),正態(tài)曲線的左右兩個(gè)尾端也無 限漸進(jìn)橫軸,但理論上永遠(yuǎn)不會(huì)與之相交。( 6)與其他連續(xù)型隨機(jī)變量相同,正太隨機(jī)變量在特定區(qū)間上的取值概率由正太曲線下的

28、面積給出,而且其曲線下的面積等于 1經(jīng)驗(yàn)法則:正態(tài)隨機(jī)變量落入其均值左右各68.27%正態(tài)隨機(jī)變量落入其均值左右各95.45%正態(tài)隨機(jī)變量落入其均值左右各99.73%三、數(shù)據(jù)正態(tài)性的評(píng)估方法:1 個(gè)標(biāo)準(zhǔn)差內(nèi)的概率是2個(gè)標(biāo)準(zhǔn)差內(nèi)的概率是3個(gè)標(biāo)準(zhǔn)差內(nèi)的概率是(1 )、對(duì)數(shù)據(jù)畫出頻數(shù)分布的直方圖或莖葉圖。若數(shù)據(jù)近似服從正態(tài)分布,則圖 形的形狀與上面給出的正太曲線應(yīng)該相似(2)、求出樣本數(shù)據(jù)的四分位差Qd/s13( 3)、對(duì)數(shù)據(jù)作正太概率圖。若數(shù)據(jù)近似服從正態(tài)分布,則數(shù)據(jù)點(diǎn)將落在一條近 似直線上四、什么條件下用正態(tài)分布分布近似計(jì)算二項(xiàng)分布的效果較好當(dāng)樣本容量 n 越來越大時(shí),二項(xiàng)分布越來越近似服從正太

29、分布,這時(shí),二項(xiàng)隨機(jī) 變量的直方圖的形狀接近正太分布的圖形形狀。即使對(duì)于小樣本,當(dāng) p=0.5 時(shí),二項(xiàng)分布的正太近似仍然相當(dāng)好,此時(shí)隨機(jī)變量 X 的分布是相對(duì)是相對(duì)于其平均值 =np 對(duì)稱的。當(dāng)平 p 趨于 0 或 1 時(shí),二項(xiàng)分布將呈 現(xiàn)出偏態(tài),但當(dāng)n變大時(shí),這種偏斜就會(huì)消失。一般來說,只有當(dāng) n大到使np和n(1-p )大于或等于5時(shí),近似的效果就相當(dāng)好。五、均勻分布的直觀概率意義:將區(qū)間a,b劃分為任意多個(gè)小區(qū)間。隨機(jī)變量X在任何小區(qū)間上取值的概率大小與該小區(qū)間的長(zhǎng)度成正比,而與該小區(qū)間的具體位置無關(guān)。第六章 抽樣與抽樣分布、比較分層抽樣、系統(tǒng)抽樣和整群抽樣(1)分層抽樣是指將抽樣單位

30、按某種特征或某種規(guī)則劃分為不同的層,然后從不 同的層中獨(dú)立、隨機(jī)地抽取樣本。 優(yōu)點(diǎn): a、 保證樣本的結(jié)構(gòu)與總體的結(jié)構(gòu)比較相近, 從而提高估計(jì)的精度b、組織實(shí)施調(diào)查方便 c、既可以對(duì)總體參數(shù)進(jìn)行估計(jì),也可以對(duì) 各層的目標(biāo)量進(jìn)行估計(jì)。 d分層抽樣的樣本分布在各個(gè)層內(nèi),從而使樣本在總體中的 分布比較均勻( 2)系統(tǒng)抽樣是指將總體中的所有單位 (抽樣單位 )按一定順序排列,在規(guī)定的范圍 內(nèi)隨機(jī)地抽取一個(gè)單位作為初始單位,然后按事先規(guī)定好的規(guī)則確定其它樣本單位 優(yōu)點(diǎn): 操作簡(jiǎn)便,系統(tǒng)抽樣的樣本在總體中的分布一般也比較均勻,由此抽樣誤差通 常要小于簡(jiǎn)單隨機(jī)抽樣,提高估計(jì)的精度缺點(diǎn) :對(duì)估計(jì)量方差的估計(jì)比

31、較困難( 3)整群抽樣是指將總體中若干個(gè)單位合并為組 (群),抽樣時(shí)直接抽取群,然后對(duì)中 選群中的所有單位全部實(shí)施調(diào)查 優(yōu)點(diǎn)是: 不需要有總體的具體名單而只要有群的名單 就可以進(jìn)行抽樣,而群的名單比較容易得到;此外調(diào)查的地點(diǎn)相對(duì)集中,節(jié)省調(diào)查費(fèi) 用,方便調(diào)查的實(shí)施 缺點(diǎn)是 估計(jì)的精度較差二、比較三種不同性質(zhì)的分布(1)總體分布指總體中各元素的觀察值所形成的相對(duì)頻數(shù)的分布。分布通常是未 知的,可以假定它服從某種分布(2)樣本分布是指從總體中抽取一個(gè)容量為n 的樣本,由這 n 個(gè)觀察值形成的相對(duì)頻數(shù)分布。也稱經(jīng)驗(yàn)分布 。當(dāng)樣本容量 n 逐漸增大時(shí),樣本分布逐漸接近總體的分 布(3)從一般意義上說,

32、抽樣分布是指樣本統(tǒng)計(jì)量的概率分布,樣本統(tǒng)計(jì)量的概率 分布。隨機(jī)變量是 樣本統(tǒng)計(jì)量 ,如樣本均值 , 樣本比例,樣本方差等。結(jié)果來自容量 相同的所有可能樣本;提供了樣本統(tǒng)計(jì)量長(zhǎng)遠(yuǎn)我們穩(wěn)定的信息,是進(jìn)行推斷的理論基 礎(chǔ),也是抽樣推斷科學(xué)性的重要依據(jù)三、中心極限定理隨著樣本容量 n 的增大( n>=30 ),不論原來的總體是否服從正態(tài)分布,樣本值的 抽樣分布都趨于正態(tài)分布,其分布的數(shù)學(xué)期望為總體均值 ,方差為總體方差的 1/n , 這就是中心極限定理,表述為 :設(shè)從均值為 ,方差為 2 的一個(gè)任意總體中抽取容量 為n的樣本,當(dāng)n充分大時(shí),樣本均值的抽樣分布近似服從均值為e方差為/n的正態(tài)分布四

33、、重復(fù)抽樣和不重復(fù)抽樣相比,抽樣均值分布的標(biāo)準(zhǔn)差有何 不同樣本均值的方差與抽樣方法有關(guān),在重復(fù)抽樣條件下,樣本均值的方差為總體方2差的1/n,即2_X n在不重復(fù)抽樣條件下,樣本均值的方差則需要用修正系數(shù)去修正重復(fù)抽樣時(shí)樣本22X均值的方差,即22 _L N n廠"Nr不重復(fù)抽樣的樣本均值的方差小于重復(fù)抽樣時(shí)的樣本均值的方差對(duì)于無限總體進(jìn)行不重復(fù)抽樣時(shí),可以按照重復(fù)抽樣來處理,對(duì)于有限總體,當(dāng)N很大,而抽樣比n/N很小時(shí),其修正系數(shù)趨于1,這時(shí)樣本均值的方差也可以按照重復(fù)抽樣的樣本均值的方差公式來計(jì)算五、2分布的性質(zhì)和特點(diǎn)(1 )分布的變量值始終為正(2)分布的形狀取決于其自由度 n

34、的大小,通常為不對(duì)稱的正偏分布,但隨著自 由度的增大逐漸趨于對(duì)稱(3)期望為:E( 2)= n,方差為:D( 2)=2 n(n為自由度)(4) 可加性:若U和V為兩個(gè)獨(dú)立的U+ V這一隨機(jī)變量服從自由度為 ni +n2的2分布隨機(jī)變量,U2(ni),V2(n2),則2分布第七章參數(shù)估計(jì)、評(píng)價(jià)估計(jì)量的標(biāo)準(zhǔn)實(shí)際上,用于估計(jì)的的估計(jì)量有很多,如我們可以用樣本均值作為總體均值的估計(jì)量,也可以用樣本中位數(shù)作為總體均值的估計(jì)量,什么樣的估計(jì)量才算是一個(gè) 好的估計(jì)量呢?這需要一定的評(píng)價(jià)標(biāo)準(zhǔn):'? ",稱'為的無偏估1、無偏性:估計(jì)量抽樣分布的數(shù)學(xué)期望等于被估計(jì)的總體參數(shù)。設(shè)總體參

35、數(shù)為,被選擇的估計(jì)量為卩?,如果E(?)= 計(jì)量。2、有效性:對(duì)同一總體參數(shù)的兩個(gè)無偏估計(jì)量,方差較小的是更有效的估 計(jì)量。致性:隨著樣本容量的增大,點(diǎn)估計(jì)量的值越來越接近被估的總體的 參數(shù)。換言之,一個(gè)大樣本給出的估計(jì)量要比一個(gè)小樣本給出的估計(jì)量更接近 總體的參數(shù)3、二、怎樣理解置信區(qū)間置信區(qū)間:由樣本統(tǒng)計(jì)量所構(gòu)造的總體參數(shù)的估計(jì)區(qū)間,其中區(qū)間的最小值叮j 口 是一個(gè)隨機(jī)區(qū)間,的置信區(qū)-J - Ci,這個(gè)區(qū)間會(huì)隨著樣本觀察值的稱為置信下限,區(qū)間最大值稱為置信上限。間意味著,置信區(qū)間包含未知參數(shù)的概率為不同而不同。但100次運(yùn)用這個(gè)區(qū)間,約有 就是說大約還有100 a個(gè)區(qū)間不包含總體參數(shù)100

36、( 八)個(gè)區(qū)間能包含參數(shù),也判斷置信區(qū)間優(yōu)勢(shì)的標(biāo)準(zhǔn)(好的置信區(qū)間的特性) 越小越好。:置信度越高越好;置信區(qū)間寬度三、影響區(qū)間寬度的因素1.總體數(shù)據(jù)的離散程度,用 s來測(cè)度2.3.樣本容量:當(dāng)置信水平固定時(shí),置信區(qū)間的寬度隨著樣本容量的增大而減小, 換言之,較大的樣本所提供的有關(guān)總體的信息要比小樣本多。置信水平(1 - a),影響z的大?。褐眯潘皆酱螅瑉越大四、簡(jiǎn)述樣本容量與置信水平、總體方差、估計(jì)誤差的關(guān)系?(?*?= (1)樣本量與置信水平呈正比,在其他條件不變的情況下,置信水平越大,所 需的樣本容量也就越大(2)樣本量與總體方差呈正比,總體的差異越大,所需的樣本容量就越大(3)樣本量與

37、邊際誤差的平方成反比,即可以接受的估計(jì)誤差的平方越大,所需的樣本量就越小五、??誇的含義是什么?Z,是標(biāo)準(zhǔn)正態(tài)分布上側(cè)面積為 2時(shí)的z值。Z, V是估計(jì)總體均值時(shí)的邊際誤差, 也稱為估計(jì)誤差或誤差范圍六、對(duì)兩個(gè)總體均值之差的小樣本估計(jì)中,對(duì)兩個(gè)總體和樣本 都有哪些假定(1)兩個(gè)總體都服從正態(tài)分布(2)兩個(gè)隨機(jī)樣本獨(dú)立地分別抽自兩個(gè)總體七、解釋95%勺置信區(qū)間抽取100個(gè)樣本,根據(jù)每個(gè)樣本構(gòu)造一個(gè)置信區(qū)間,這樣由100個(gè)樣本構(gòu)造的總體參數(shù)的100個(gè)置信區(qū)間中,95%的區(qū)間包含了總體參數(shù)的真值,而5%沒包含八、對(duì)于總體比例的估計(jì),確定樣本容量是否“足夠大“的一般經(jīng)驗(yàn)規(guī)則是:區(qū)間P? 2 Vp (1

38、 - P) ?2中不包含0或1.或要求np >5和n (1-p ) >5八、獨(dú)立樣本和匹配樣本如果兩個(gè)樣本是從兩個(gè)總體中獨(dú)立抽取的,即一個(gè)樣本中的元素與另一個(gè)樣本中的 元素相互獨(dú)立,則稱為獨(dú)立樣本。匹配樣本是指一個(gè)樣本中的數(shù)據(jù)與另一個(gè)樣本中的 數(shù)據(jù)相對(duì)應(yīng)九、估計(jì)量和估計(jì)值(1) 估計(jì)量:用于估計(jì)總體參數(shù)的隨機(jī)變量如樣本均值,樣本比例、樣本方差等例如:樣本均值就是總體均值 m的一個(gè)估計(jì)量參數(shù)用表示,估計(jì)量用表示(2)估計(jì)值:估計(jì)參數(shù)時(shí)計(jì)算出來的統(tǒng)計(jì)量的具體值如果樣本均值 x =80,則80就是m的估計(jì)值第八章 假設(shè)檢驗(yàn)、參數(shù)估計(jì)和假設(shè)檢驗(yàn)的區(qū)別和聯(lián)系1)主要聯(lián)系:a.都是根據(jù)樣本信息

39、推斷總體參數(shù);b.都以抽樣分布為理論依據(jù),建立在概率論基礎(chǔ)之上的推斷,推斷結(jié)果都 有風(fēng)險(xiǎn);C.對(duì)同一問題的參數(shù)進(jìn)行推斷,使用同一樣本,同一統(tǒng)計(jì)量,同一分布,二者可相互轉(zhuǎn)換2)主要區(qū)別:a.參數(shù)估計(jì)是以樣本信息估計(jì)總體參數(shù)的可能范圍,假設(shè)檢驗(yàn)是先對(duì)總體參數(shù)提出一個(gè)假設(shè)值,然后利用樣本信息判斷這一假設(shè)是否成立 ;b.區(qū)間估計(jì)求得的是求以樣本估計(jì)值為中心的雙側(cè)置信區(qū)間,假設(shè)檢驗(yàn)既 有雙側(cè)檢驗(yàn),也有單側(cè)檢驗(yàn);C.區(qū)間估計(jì)立足于大概率,通常以較大的可信度(1-a )去估計(jì)總體參數(shù) 的置信區(qū)間。假設(shè)檢驗(yàn)立足于小概率。通常是給定很小的顯著性水平a去檢驗(yàn)總體參數(shù)的先驗(yàn)假設(shè)是否正確二、什么是假設(shè)檢驗(yàn)中的顯著性水

40、平?統(tǒng)計(jì)顯著是什么意思?(1)顯著性水平是當(dāng)原假設(shè)正確時(shí)卻被拒絕的概率或風(fēng)險(xiǎn),即假設(shè)檢驗(yàn)中 犯棄真錯(cuò)誤的概率,通常用 a表示,它是人們根據(jù)經(jīng)驗(yàn)的要求確定的,通常取 a= 0.05或0.01。顯著性水平是人們事先指定的犯第I類錯(cuò)誤概率a勺最大允許值,確定了顯著性水平 a就等于控制了第I類錯(cuò)誤的概率。但犯第n類錯(cuò)誤的概率陸卩是不確定的(2)統(tǒng)計(jì)顯著值在原假設(shè)為真的條件下,用于檢驗(yàn)的樣本統(tǒng)計(jì)量的值落在 了拒絕域內(nèi),作出了拒絕原假設(shè)的決定三、什么是假設(shè)檢驗(yàn)的兩類錯(cuò)誤及其數(shù)理關(guān)系怎樣(1)假設(shè)檢驗(yàn)中所犯的錯(cuò)誤有兩種:一類錯(cuò)誤是原假設(shè)為真卻別拒絕了,犯這類錯(cuò)誤的概率用a表示,也稱第I類錯(cuò)誤。另一類錯(cuò)誤是原

41、假設(shè)為假卻沒有 拒絕,犯這種錯(cuò)誤的概率用P表示,也稱第n類錯(cuò)誤(2)當(dāng)口增加時(shí)P減小,當(dāng)P增大時(shí)a減小,要使a和洞時(shí)減小的唯一辦法是增加樣本容量四、假設(shè)檢驗(yàn)的步驟1)陳述原假設(shè) H0 和備擇假設(shè) H1 。(2) 從所研究的總體中抽出一個(gè)隨機(jī)樣本(3)確定一個(gè)適當(dāng)?shù)臋z驗(yàn)統(tǒng)計(jì)量,并利用樣本數(shù)據(jù)算出其具體數(shù)值(4)確定一個(gè)適當(dāng)?shù)娘@著性水平,并計(jì)算出其臨界值,指定拒絕域(5)將統(tǒng)計(jì)量的值與臨界值進(jìn)行比較,作出決策。統(tǒng)計(jì)量的值落在拒絕域,拒絕Ho,否則不拒絕Ho,或者也可以直接利用P值作出決策五、建立原假設(shè)和備擇假設(shè)的原則(建立假設(shè)的幾點(diǎn)認(rèn)識(shí))1)原假設(shè)和備擇假設(shè)是一個(gè)完備事件組,且相互獨(dú)立2)在建立假

42、設(shè)時(shí),通常是先確定備擇假設(shè),然后再確定原假設(shè)(3) 在假設(shè)檢驗(yàn)中,等號(hào)“ = ”總是放在原假設(shè)上。這是因?yàn)槲覀兿牒w備 擇假設(shè)Hi不出現(xiàn)的所有情況(4)這樣的假設(shè)本質(zhì)上帶有一定的主觀色彩,在面對(duì)某一實(shí)際問題,由于不 同研究者有不同的研究目的,即使對(duì)同一問題也可能提出截然相反的原假設(shè)和 備擇假設(shè),這并不違背假設(shè)的最初定義,只要符合研究的最終目的就是合理的六、單雙側(cè)檢驗(yàn)的區(qū)別備擇假設(shè)具有特定的方向性,并含有“ < ”或“>”的假設(shè)檢驗(yàn),稱為單側(cè)檢 驗(yàn)或單尾檢驗(yàn)。備擇假設(shè)沒有特定的方向性,并含有符號(hào)“工”的假設(shè)檢驗(yàn),稱為雙側(cè)檢驗(yàn)或雙尾檢驗(yàn)在單側(cè)檢驗(yàn)中,由于研究者感興趣的方向不同,又可分為

43、左側(cè)檢驗(yàn)和右側(cè)檢 驗(yàn)七、檢驗(yàn)統(tǒng)計(jì)量的特征和用途檢驗(yàn)統(tǒng)計(jì)量是指根據(jù)樣本觀測(cè)結(jié)果計(jì)算得到的,并據(jù)以對(duì)原假設(shè)和備擇假設(shè) 做出決策的某個(gè)樣本統(tǒng)計(jì)量。a、檢驗(yàn)統(tǒng)計(jì)量實(shí)際上是總體參數(shù)的點(diǎn)估計(jì)量,只有將其標(biāo)準(zhǔn)化后,才能用以度 量它與原假設(shè)的參數(shù)值之間的差異程度。而對(duì)點(diǎn)估計(jì)量標(biāo)準(zhǔn)化的依據(jù)則是: 原假設(shè)Ho為真;b、點(diǎn)估計(jì)量的抽樣分布。實(shí)際上,假設(shè)檢驗(yàn)中所用的檢驗(yàn)統(tǒng) 計(jì)量都是標(biāo)準(zhǔn)化檢驗(yàn)統(tǒng)計(jì)量,它反映了點(diǎn)估計(jì)量與假設(shè)的總體參數(shù)相比相差多 少個(gè)標(biāo)準(zhǔn)差。八、拒絕域面積與 ?大小的關(guān)系< ” , 拒絕域位于抽樣分布的左側(cè),故稱為> ”,拒絕域位于抽樣分布的右側(cè),故稱當(dāng)樣本容量固定時(shí),拒絕域的面積隨著 a的減

44、小而減小。a越小,拒絕原假 設(shè)所需要的檢驗(yàn)統(tǒng)計(jì)量的臨界值與原假設(shè)的參數(shù)值就越遠(yuǎn)。拒絕域的位置取決 于檢驗(yàn)是單側(cè)檢驗(yàn)還是雙側(cè)檢驗(yàn),雙側(cè)檢驗(yàn)的拒絕域在抽樣分布的兩側(cè),而單 側(cè)檢驗(yàn)中,如果備擇假設(shè)具有符號(hào) 左側(cè)檢驗(yàn)。如果備擇假設(shè)具有符號(hào) 為右側(cè)檢驗(yàn)。九、顯著性水平 ?的局限性這也就意味這我們事先確定了拒絕域。顯著性水平a實(shí)在檢驗(yàn)之前確定的,這樣,不論檢驗(yàn)統(tǒng)計(jì)量的值是大還是小,只要他的值落入拒絕域就拒絕原假設(shè),否則不拒絕原假。這種固定的顯著性水平 a對(duì)檢驗(yàn)結(jié)果的可靠性起一種度量作用。但不足的是,a是犯第I類錯(cuò)誤的上限控制值,它只能提供檢驗(yàn)結(jié)論可靠性的一 個(gè)大致范圍,而對(duì)于一個(gè)特定的假設(shè)檢驗(yàn)問題,卻無法

45、給出觀測(cè)數(shù)據(jù)與原假設(shè) 之間不一致程度的精確度量,也就是說,僅從顯著性水平比較,若選擇的a值相同,所有的檢驗(yàn)結(jié)果的可靠性都一樣。十、p值較小時(shí)為什么要拒絕原假設(shè)p 值是指在原假設(shè)為真的條件下,檢驗(yàn)統(tǒng)計(jì)量的觀察值大于或等于其計(jì)算 值的概率。P值是反映實(shí)際觀測(cè)到的數(shù)據(jù)與原假設(shè) H。之間不一致程度的一個(gè)概率值。P 值越小,說明實(shí)際觀測(cè)到的數(shù)據(jù)與H0之間不一致的程度就越大,檢驗(yàn)的結(jié)果也 就越顯著卜一、顯著性水平?< P值得區(qū)別(1)。的含義是當(dāng)原假設(shè)正確時(shí)卻被拒絕的概率或風(fēng)險(xiǎn),即假設(shè)檢驗(yàn)中犯棄真錯(cuò)誤的概率,是有人們根據(jù)檢驗(yàn)的要求確定的,通常a= 0.05或0.01而P值是原假設(shè)為真時(shí)所得到的樣本觀

46、察結(jié)果或更極端結(jié)果出現(xiàn)的概率, 它是通過計(jì)算得到的,P值得大小取決于三個(gè)因素:樣本數(shù)據(jù)與原假設(shè)之間的 差異、樣本量、被假設(shè)數(shù)據(jù)的總體分布(2) a只能提供檢驗(yàn)結(jié)論的可靠性地一個(gè)大致范圍,而對(duì)于一個(gè)特定的假 設(shè)檢驗(yàn)為題,卻無法給出觀測(cè)數(shù)據(jù)與原假設(shè)之間不一致程度的精確度量。即僅 從顯著性水平來比較,如果選擇的a值相同,所有檢查結(jié)果的可靠性都一樣。而P值可以測(cè)量出樣本觀察數(shù)據(jù)與原假設(shè)中假設(shè)的值的偏離程度。十二、總體均值的檢驗(yàn)在對(duì)總體均值進(jìn)行假設(shè)檢驗(yàn)時(shí),采用什么檢驗(yàn)步驟和檢驗(yàn)統(tǒng)計(jì)量取決于我們 所抽取的樣本是大樣本(n30)還是小樣本(n < 30),此外還需要區(qū)分總體 是否服從正態(tài)分布、總體方差

47、d2是否已知等幾種情況。(1)大樣本的檢驗(yàn)方法:總體均值為e,當(dāng)總體方差樣本均值經(jīng)過標(biāo)準(zhǔn)化后服從正態(tài)分布,設(shè)假設(shè)的d2已知時(shí),總體均值檢驗(yàn)的統(tǒng)計(jì)量為:XZ N(0,1)2n當(dāng)總體方差未知時(shí),可以用樣本方差S2來近似代替總體方差,此時(shí)總體均值檢驗(yàn)的統(tǒng)計(jì)量為X 0Z N(0,1)S/Jn(2) 小樣本的檢驗(yàn)方法:總體方差d已知時(shí),即使在小樣本下,檢驗(yàn)統(tǒng)計(jì)量仍然服從正太分布, 因此仍然按照 Z 芻岸N(0,1)來計(jì)算。/vn總體方差d2未知時(shí),需要用樣本方差S2代替總統(tǒng)方差02,此時(shí)檢驗(yàn)統(tǒng)計(jì) 量服從自由度為n-1的t分布。因此需要采用t分布來檢驗(yàn)總體均值,通常稱為 “ t檢驗(yàn)”。檢驗(yàn)的統(tǒng)計(jì)量為:第九

48、章方差分析與實(shí)驗(yàn)設(shè)計(jì)、方差分析的概念及理解方差分析是指檢驗(yàn)多個(gè)總體均值是否相等的統(tǒng)計(jì)方法。所采用的方法就是通過檢驗(yàn)各總體的均值是否相等來判斷分類型自變量對(duì)數(shù)值型因變量是否有顯著影響。它研究的是多哥總統(tǒng)均值是否相等的統(tǒng)計(jì)方法,但本質(zhì)是研究分類型自變量對(duì)數(shù) 值型因變量的影響。二、方差分析和回歸分析的區(qū)別和聯(lián)系區(qū)別:(1 )方差分析中沿水平軸的自變量是分類變量;而回歸分析沿水平軸的自變量是 數(shù)值型變量。(2 )方差分析中,既然自變量是分類變量,就可以把它放在水平軸的任意位置上; 而回歸分析的自變量是數(shù)值型變量,它在水平軸上的位置是從按小到大的數(shù)值排列的, 因此只有一種方式來放這些數(shù)值,并且可以畫出一

49、條穿過這些點(diǎn)的直線。(3)方差分析是通過檢驗(yàn)各總體的均值是否相等來判斷分類型自變量對(duì)數(shù)值型因 變量是否有顯著影響;而回歸分析是根據(jù)一組樣本數(shù)據(jù)確定出變量之間的數(shù)學(xué)關(guān)系式, 然后對(duì)關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并找出哪些變量的影響是顯著的,哪些 不顯著等三、方差分析中的基本原理(1 )方差分析是通過對(duì)數(shù)據(jù)誤差來源的分析來判斷不同總體的均值是否相等,進(jìn) 而分析自變量對(duì)因變量是否有影響(2)數(shù)據(jù)的誤差是用平方差來表示的,包括組內(nèi)誤差和組間誤差(3)組內(nèi)誤差只包含隨機(jī)誤差,而組間誤差既包括隨機(jī)誤差,又包括系統(tǒng)誤差(4)如果組間誤差只包括隨機(jī)誤差,而沒有系統(tǒng)誤差,這時(shí),組間誤差與組內(nèi)誤差經(jīng)過平均后的

50、數(shù)值就應(yīng)該很接近,他們的比值就會(huì)接近1;(5)反之,如果組間誤差既包括隨機(jī)誤差又包括系統(tǒng)誤差,這時(shí),組間誤差與組內(nèi)誤差經(jīng)過平均后的數(shù)值,他們的比值就會(huì)大于 1;(6)當(dāng)這個(gè)比值大到某種程度時(shí),我們就可以說因素的不同水平之間存在著顯著 的差異,也就是自變量對(duì)因變量有影響。四、方差分析中的基本假定(1)每個(gè)總體都應(yīng)服從正態(tài)分布。也就是說,對(duì)于因素的每一個(gè)水平,其觀察值 是來自服從正態(tài)分布總體的簡(jiǎn)單隨機(jī)樣本(2)各個(gè)總體的方差必須相同。也就是說,各組觀察數(shù)據(jù)是從具有相同方差的總 體中抽取的3)觀察值是獨(dú)立的在上述假定成立的前提下,要分析自變量對(duì)因變量是否有影響,實(shí)際上也就是 要檢驗(yàn)自變量的各個(gè)水平(

51、總體)的均值是否相等。五、方差分析和總體均值的 t 檢驗(yàn)或 z 檢驗(yàn)有何不同??jī)?yōu)勢(shì)是 什么(1)不同:總體均值的 t 檢驗(yàn)或 z 檢驗(yàn),只能研究?jī)蓚€(gè)樣本,若要檢驗(yàn)多個(gè)總體均值是否相等。那么作這樣的兩兩比較將 十分繁瑣,共需進(jìn)行cn次不同的檢驗(yàn),如果a=0.05,那么每次檢驗(yàn)犯第I類錯(cuò)誤的概率都是 0.05,做多次檢驗(yàn)會(huì)使第 I類錯(cuò)誤的概率相應(yīng)增加。而方差分析方法則同時(shí)考慮所有的樣本,因此除了 錯(cuò)誤累計(jì)的概率,從而避免了拒絕一個(gè)真是的原假設(shè)。(2)優(yōu)勢(shì):方差分析不僅可以提高檢驗(yàn)的概率,同時(shí)由于他是將所有的樣本信息 結(jié)合在一起,也增加了分析的可靠性。六、要檢驗(yàn)多個(gè)總體均值是否相等時(shí),為什么不做兩兩

52、比較, 而用方差分析方法?t 檢驗(yàn)。隨著方差分析不僅可以提高檢驗(yàn)的概率,同時(shí)由于他是將所有的樣本信息結(jié)合在一起, 也增加了分析的可靠性。檢驗(yàn)多個(gè)總體均值是否相等時(shí),如果做兩兩比較,需要進(jìn)行多次的增加個(gè)體顯著性檢驗(yàn)的次數(shù),偶然因素導(dǎo)致的差別的可能性會(huì)增加(并非均值真的存 在差別),而方差分析則是同時(shí)考慮所有的樣本,因此排除了錯(cuò)誤累積的概率,從而 避免拒絕一個(gè)真實(shí)的原假設(shè)。七、方差分析的步驟(1 )提出假設(shè),按要求檢驗(yàn)的 k個(gè)水平的均值是否相等,提出原假設(shè)和備擇假設(shè)。(2) 構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量,計(jì)算各樣本均值Xi ,樣本總均值?,誤差平方和SST、SSA、SSE F= SSA?k-1 =空SSE?n

53、-k MSE(3 )統(tǒng)計(jì)決策,比較統(tǒng)計(jì)量F和F,(k-1,n-k)的值,若F>Fa,則拒絕原假設(shè),反之不拒絕原假設(shè)八、解釋水平項(xiàng)誤差平方和與誤差平方和(1) 水平項(xiàng)誤差平方和,簡(jiǎn)稱 SSA,是各組平均值與總平均值的誤差平方和,反 映各總體的樣本均值之間的差異程度,因此又稱為組間平方和,其計(jì)算公式為k HiSSA 區(qū) Xii 1 j 1k_= 2Hi Xixi 1SSE,它是每個(gè)水平或組的各樣本數(shù)據(jù)與其組平均值 誤差的平方和,反映了每個(gè)樣本個(gè)觀測(cè)值的離散狀況,因此又稱為組內(nèi)平方和或殘差 平方和,該平方和實(shí)際上反映的是隨機(jī)誤差的大小,其計(jì)算公式為k叫2SSExijj xii(2)誤差項(xiàng)平方和

54、,簡(jiǎn)稱為ii 11 j 1九、解釋組內(nèi)方差和組間方差的含義SSA的均方(組間均方)記為 MSA,也稱組間方差,其計(jì)算公式為MSASSAMSE的均方(組內(nèi)均方)記為 MSE,也稱組內(nèi)方差,其計(jì)算公式為MSESSEn k十、方差分析中效應(yīng)的意義它反映了自變量對(duì)因變量的影響, -2 k _ 2Xn, Xj Xii 1SSE是對(duì)隨機(jī)誤差的大小的度量,它反映了除自變量對(duì)因變量的影響之外,其他因素對(duì)因變量的總影響,因此SSE也稱為殘差變量,它所引起的誤差也稱為殘差效應(yīng)。k n)iSSEXjj XiiSSA是對(duì)隨機(jī)誤差和系統(tǒng)誤差的大小的度量,kk n 也稱自變量效應(yīng)或因子效應(yīng)。SSAXii 1 j 1ii

55、1 j 1k nii=2XjxSST是全部數(shù)據(jù)總誤差程度的度量,它反映了自變量和殘差變量的共同影響,因 此他等于自變量效應(yīng)加殘差效應(yīng)。SSTSST = SSA + SSE1一、多重比較方法的作用:它是通過對(duì)總體均值之間的配對(duì)比較來進(jìn)一步檢驗(yàn)到底哪些均值之間存在差異。十二、交互作用:是一因素對(duì)另一因素的不同水平有不同的效果,如對(duì)于雙因素方差分析,有交互 作用就是兩個(gè)因素搭配在一起,對(duì)應(yīng)變量產(chǎn)生的一種新的效應(yīng)。十三、解釋無交互作用和有交互作用的雙因素方差分析在雙因素方差分析中,由于有兩個(gè)影響因素,若這兩個(gè)因素是相互獨(dú)立的,我們 分別判斷這兩個(gè)因素對(duì)因變量的影響,這時(shí)的雙因素方差分析稱為無交互作用的

56、雙因 素方差分析,或稱為無重復(fù)因素分析。如果出了兩個(gè)因素的單獨(dú)影響外,兩因素的搭 配還會(huì)對(duì)因變量產(chǎn)生一種新的效應(yīng),這時(shí)的雙因素方差分析就是有交互作用的雙因素 方差分析。十四、R2的含義和作用(1) 單因素方差分析中,R2表示自變量平方和(SSA)及殘差平方和(SSE占總平方和 (SST)的比例大小,其平方根 R就可以用來測(cè)量?jī)蓚€(gè)變量之間的關(guān)系強(qiáng)度r2 SSA:組間平萬和SST(總平萬和 )(2) 無交互作用的雙因素方差分析中,行自變量平方(SSR)和和列自變量的平方 和(SSC)加在一起則度量了兩個(gè)自變量對(duì)因變量的聯(lián)合效應(yīng),聯(lián)合效應(yīng)與總平方和的比值定義為R2,其平方根R反映了這兩個(gè)自變量合起來與因變量之間的關(guān)系強(qiáng)度R2SSR SSCSst/ 、S E ”、/ 八丄廠_2SSR+SSC+SSRCSST(3)有父互作用的萬差分析:R2 =P值明顯小于十四、為什么雙因素方差分析中,誤差平方和與 單因素方差分析中的任何一個(gè)平方和?是因?yàn)樵陔p因素方差分析中,誤差平方和不包括兩個(gè)自變量中的任何一個(gè),因而 減少了殘差效應(yīng)。而在分別作單因素方差分析時(shí),將行因素作為自變量時(shí),列變量被包含在殘差中,同樣,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔