




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
-.z統(tǒng)計學(xué)重點(diǎn)筆記第一章導(dǎo)論一、比較描述統(tǒng)計和推斷統(tǒng)計:數(shù)據(jù)分析是通過統(tǒng)計方法研究數(shù)據(jù),其所用的方法可分為描述統(tǒng)計和推斷統(tǒng)計?!?〕描述性統(tǒng)計:研究一組數(shù)據(jù)的組織、整理和描述的統(tǒng)計學(xué)分支,是社會科學(xué)實證研究中最常用的方法,也是統(tǒng)計分析中必不可少的一步。內(nèi)容包括取得研究所需要的數(shù)據(jù)、用圖表形式對數(shù)據(jù)進(jìn)展加工處理和顯示,進(jìn)而通過綜合、概括與分析,得出反映所研究現(xiàn)象的一般性特征。〔2〕推斷統(tǒng)計學(xué):是研究如何利用樣本數(shù)據(jù)對總體的數(shù)量特征進(jìn)展推斷的統(tǒng)計學(xué)分支。研究者所關(guān)心的是總體的*些特征,但許多總體太大,無法對每個個體進(jìn)展測量,有時我們得到的數(shù)據(jù)往往需要破壞性試驗,這就需要抽取局部個體即樣本進(jìn)展測量,然后根據(jù)樣本數(shù)據(jù)對所研究的總體特征進(jìn)展推斷,這就是推斷統(tǒng)計所要解決的問題。其內(nèi)容包括抽樣分布理論,參數(shù)估計,假設(shè)檢驗,方差分析,回歸分析,時間序列分析等等?!?〕兩者的關(guān)系:描述統(tǒng)計是根底,推斷統(tǒng)計是主體二、比較分類數(shù)據(jù)、順序數(shù)據(jù)和數(shù)值型數(shù)據(jù):根據(jù)所采用的計量尺度不同,可以將統(tǒng)計數(shù)據(jù)分為分類數(shù)據(jù)、順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)?!?〕分類數(shù)據(jù)是只能歸于*一類別的非數(shù)字型數(shù)據(jù)。它是對事物進(jìn)展分類的結(jié)果,數(shù)據(jù)表現(xiàn)為類別,是用文字來表達(dá)的,它是由分類尺度計量形成的?!?〕順序數(shù)量是只能歸于*一有序類別的非數(shù)字型數(shù)據(jù)。也是對事物進(jìn)展分類的結(jié)果,但這些類別是有順序的,它是由順序尺度計量形成的?!?〕數(shù)值型數(shù)據(jù)是按數(shù)字尺度測量的觀察值。其結(jié)果表現(xiàn)為具體的數(shù)值,現(xiàn)實中我們所處理的大多數(shù)都是數(shù)值型數(shù)據(jù)??傊?,分類數(shù)據(jù)和順序數(shù)據(jù)說明的是事物的本質(zhì)特征,通常是用文字來表達(dá)的,其結(jié)果均表現(xiàn)為類別,因而也統(tǒng)稱為定型數(shù)據(jù)或品質(zhì)數(shù)據(jù);數(shù)值型數(shù)據(jù)說明的是現(xiàn)象的數(shù)量特征,通常是用數(shù)值來表現(xiàn)的,因此可稱為定量數(shù)據(jù)或數(shù)量數(shù)據(jù)。三、比較總體、樣本、參數(shù)、統(tǒng)計量和變量:〔1〕總體是包含所研究的全部個體的集合。通常是我們所關(guān)心的一些個體組成,如由多個企業(yè)所構(gòu)成的集合,多個居民戶所構(gòu)成的集合。總體根據(jù)其所包含的單位數(shù)目是否可數(shù)可以分為有限總體和無限總體。有限總體是指總體的*圍能夠明確確定,而且元素的數(shù)目是有限可數(shù)的,需要注意的是,統(tǒng)計意義上的總體,通常不是一群人或一些物品的集合,而是一組觀測數(shù)據(jù)?!?〕樣本是從總體中抽取的一局部元素的集合,構(gòu)成樣本的元素的數(shù)目稱為樣本容量。例如我們從一批燈泡中隨機(jī)抽取100個,這100個燈泡就構(gòu)成了一個樣本。〔3〕參數(shù)是用來描述總體特征的概括性數(shù)字度量。有總體平均數(shù)、標(biāo)準(zhǔn)差、總體比例。由于總體參數(shù)通常是不知道的,所以參數(shù)是一個未知的常數(shù)。所以才需要進(jìn)展抽樣,根據(jù)樣本來估計總體參數(shù)〔4〕樣本量是用來描述樣本特征的概括性數(shù)字度量。統(tǒng)計量是根據(jù)樣本數(shù)據(jù)計算出來的一個量,通常包括:樣本平均數(shù)、樣本標(biāo)準(zhǔn)差、樣本比例等,由于樣本是我們已經(jīng)抽出來的,所以統(tǒng)計量總是知道的,抽樣的目的就是要根據(jù)樣本統(tǒng)計量推斷總體參數(shù)?!?〕變量是說明現(xiàn)象*種特征的概念。變量的特點(diǎn)是從一次觀察到下一次觀察會呈現(xiàn)出差異或變化,分為分類變量、順序變量、數(shù)值型變量、離散型變量和連續(xù)型變量。第二章數(shù)據(jù)收集一、調(diào)查方案的主要內(nèi)容:〔1〕調(diào)查目的:是調(diào)查所要到達(dá)的具體目標(biāo),他所答復(fù)的是“為什么調(diào)查〞“要解決什么樣的問題〞等〔2〕調(diào)查對象和調(diào)查單位:調(diào)查對象是根據(jù)調(diào)查目確實實定的調(diào)查研究的總體或調(diào)查*圍。調(diào)查單位是構(gòu)成調(diào)查隊選中的每一個單位,它是調(diào)查工程和調(diào)查內(nèi)容的承擔(dān)著或載體。所要解決的是“向誰調(diào)查〞由誰來提供所需數(shù)據(jù)〔3〕調(diào)查工程和調(diào)查表:調(diào)查工程要解決的問題是“調(diào)查什么〞,也就是調(diào)查的具體內(nèi)容,大多數(shù)統(tǒng)計調(diào)查中,調(diào)查工程通常以表格的形式來表現(xiàn),稱為調(diào)查表二、數(shù)據(jù)的誤差:統(tǒng)計數(shù)據(jù)的誤差通常是指統(tǒng)計數(shù)據(jù)與客觀現(xiàn)實之間的差距,誤差的類型主要有抽樣誤差和非抽樣誤差兩類?!?〕抽樣誤差:主要是指在用樣本數(shù)據(jù)進(jìn)展推斷時所產(chǎn)生的隨機(jī)誤差。只存在于概率抽樣中。這類誤差通常是無法消除的,但事先可以進(jìn)展控制和計算。影響抽樣誤差大小的因素:〔a〕抽樣單位的數(shù)目。在其他條件不變的情況下,抽樣單位的數(shù)目越多,抽樣誤差越??;反之,越大。這是因為隨著樣本數(shù)目的增多,樣本構(gòu)造越接近總體,抽樣調(diào)查也就越接近全面調(diào)查,當(dāng)樣本擴(kuò)大到總體時,則為全面調(diào)查,也就不存在抽樣誤差了。〔b〕總體背研究標(biāo)志的變異程度。在其他條件不變的情況下,總體標(biāo)志的變異程度越小,抽樣誤差越小,反之,越大。抽樣誤差和總體標(biāo)志的變異程度呈正比變化。這是因為總體的變異程度小,表示總體各單位標(biāo)志值之間的差異小。則樣本指標(biāo)與總體指標(biāo)之間的差異也可能??;如果總體各單位標(biāo)志值相等,則標(biāo)志變動度為零,樣本指標(biāo)等于總體指標(biāo),此時不存在抽樣誤差〔c〕抽樣方法的選擇。重復(fù)抽樣和非重復(fù)抽樣的抽樣誤差大小不同。采用不重復(fù)抽樣比采用重復(fù)抽樣的抽樣誤差小〔d〕抽樣組織方式不同。采用不同的組織方式,會有不同的抽樣誤差,這是因為不同的抽樣組織所抽中的樣本,對于總體的代表性也不同,通常,常利用不同的抽樣誤差,作出判斷各種抽樣組織方式的比較標(biāo)準(zhǔn)?!?〕非抽樣誤差:主要包括:抽樣框誤差,答復(fù)誤差、無答復(fù)誤差、調(diào)查員誤差;是調(diào)查過程中由于調(diào)查者或被調(diào)查者的人為因素所造成的誤差。調(diào)查者所造成的誤差主要有:調(diào)查方案中有關(guān)的規(guī)定或解釋不明確導(dǎo)致的填報錯誤、抄錄錯誤、匯總錯誤等;被調(diào)查者所造成的誤差主要有:因人為因素干擾形成的有意虛報或瞞報調(diào)查數(shù)據(jù)。非抽樣誤差理論上是可以消除的。三、簡單隨機(jī)抽樣:〔1〕概念:從總體N個單位中隨機(jī)地抽取n個單位作為樣本,每個單位入抽樣本的概率是相等的;〔2〕特點(diǎn):a、簡單、直觀,在抽樣框完整時,可直接從中抽取樣本b、用樣本統(tǒng)計量對目標(biāo)量進(jìn)展估計比較方便〔3〕局限性當(dāng)N很大時,不易構(gòu)造抽樣框抽出的單位很分散,給實施調(diào)查增加了困難沒有利用其它輔助信息以提高估計的效率第三章數(shù)據(jù)的整理與展示一、數(shù)據(jù)排序的目的:〔1〕數(shù)據(jù)排序是按一定順序?qū)?shù)據(jù)排列,以發(fā)現(xiàn)一些明顯的特征或趨勢,找到解決問題的線索〔2〕排序還有助于對數(shù)據(jù)檢查糾錯,以及為重新歸類或分組等提供方便?!?〕在*些場合,排序本身就是分析的目的之一。二、數(shù)據(jù)分組:是根據(jù)統(tǒng)計研究的需要,將原始數(shù)據(jù)按照*種標(biāo)準(zhǔn)化分成不同的組別,分組后的數(shù)據(jù)成為分組數(shù)據(jù)。數(shù)據(jù)經(jīng)分組后再計算出各組中數(shù)據(jù)出現(xiàn)的頻數(shù),就形成了一*頻數(shù)分布表,分組方法有單變量值分組和組距分組兩種,單變量分組通常只適合于離散變量,且在變量值較少的情況下使用,在連續(xù)變量或變量值較多情況下,通常采用組距分組。三、組距分組的步驟和原則:〔1〕步驟:a、確定組數(shù):組數(shù)確實定應(yīng)以能夠顯示數(shù)據(jù)的分布特征和規(guī)律為目的。在實際分組時,可以按Sturges提出的經(jīng)歷公式來確定組數(shù)Kb、確定組距:組距(ClassWidth)是一個組的上限與下限之差,可根據(jù)全部數(shù)據(jù)的最大值和最小值及所分的組數(shù)來確定,即組距=(最大值-最小值)÷組數(shù)c、統(tǒng)計出各組的頻數(shù)并整理成頻數(shù)分布表〔2〕原則:采用組距分組時,需遵循“不重不漏〞的原則,“不重〞是指一項數(shù)據(jù)只能分在其中的*一組,不能在其他組中重復(fù)出現(xiàn);“不漏〞是指組別能夠窮盡,即在所分的全部組別中每項數(shù)據(jù)都能分在其中的*一組,不能遺漏。為解決不重的問題,統(tǒng)計分組時習(xí)慣上規(guī)定“上組限不在內(nèi)〞,即當(dāng)相鄰兩組的上下限重疊時,恰好等于*一組上限的變量值不算在本組內(nèi),而計算在下一組內(nèi)。當(dāng)然,對于離散變量,我們可以采用相鄰兩組組限連續(xù)的方法解決“不重〞的問題。也可以對一個組的上限值采用小數(shù)點(diǎn)的形式,小數(shù)點(diǎn)的位數(shù)根據(jù)所要求的精度具體確定。缺點(diǎn):組距分組掩蓋了各組內(nèi)的數(shù)據(jù)分布狀況四、直方圖和條形圖的區(qū)別:首先,條形圖是用條形的長度〔橫置時〕表示各類別頻數(shù)的多少,其寬度則是固定的;直方圖是用面積表示各組頻數(shù)的多少,頻數(shù)的高度表示每一組的頻數(shù)或頻率,寬度則表示各組的組距,因此高度與寬度均有意義。其次,由于分組數(shù)據(jù)具有連續(xù)性,直方圖的各矩形通常是連續(xù)排列,而條形圖則是分開排列。最后,條形圖主要用于展示各類數(shù)據(jù),而直方圖則主要用于展示數(shù)據(jù)型數(shù)據(jù)。五、繪制線圖應(yīng)注意的問題:〔1〕時間一般繪在橫軸,觀測數(shù)據(jù)繪在縱軸〔2〕圖形的長寬比例要適當(dāng),一般應(yīng)繪成橫軸略大于縱軸的長方形,其長寬比例大致是10:7.〔3〕一般情況下,縱軸數(shù)據(jù)下端應(yīng)從0開場,以便于比較,數(shù)據(jù)與0之間的間距過大,可以采取折斷的符號將縱軸折斷六、設(shè)計統(tǒng)計表注意的問題:首先,要合理安排統(tǒng)計表的構(gòu)造,例如表號、行標(biāo)題、列標(biāo)題、數(shù)字資料的位置應(yīng)安排合理。其次,表頭一般應(yīng)包括表號、總標(biāo)題和表中數(shù)據(jù)的單位等內(nèi)容,總標(biāo)題應(yīng)簡明確切地概括出統(tǒng)計表的內(nèi)容。再次,表中的上下兩條線一般用粗線,中間的其他線用細(xì)線,表的左右兩邊不封口,列標(biāo)題之間可以用豎線分開,而行標(biāo)題之間通常不必用橫線隔開。最后,在使用統(tǒng)計表時,必要時可在表下方加上注釋,特別注意標(biāo)明數(shù)據(jù)來源。七、數(shù)據(jù)的〔1〕原始數(shù)據(jù):a、完整性檢查應(yīng)調(diào)查的單位或個體是否有遺漏;所有的調(diào)查工程或指標(biāo)是否填寫齊全b、準(zhǔn)確性檢查數(shù)據(jù)是否真實反映客觀實際情況,內(nèi)容是否符合實際;檢查數(shù)據(jù)是否有錯誤,計算是否正確等〔2〕二手?jǐn)?shù)據(jù):a、適用性弄清楚數(shù)據(jù)的來源、數(shù)據(jù)的口徑以及有關(guān)的背景材料;確定數(shù)據(jù)是否符合自己分析研究的需要b、時效性盡可能使用最新的數(shù)據(jù)八、數(shù)據(jù)的整理與顯示(根本問題)〔1〕要弄清所面對的數(shù)據(jù)類型,因為不同類型的數(shù)據(jù),所采取的處理方式和方法是不同的〔2〕對分類數(shù)據(jù)和順序數(shù)據(jù)主要是做分類整理〔3〕對數(shù)值型數(shù)據(jù)則主要是做分組整理〔4〕適合于低層次數(shù)據(jù)的整理和顯示方法也適合于高層次的數(shù)據(jù);但適合于高層次數(shù)據(jù)的整理和顯示方法并不適合于低層次的數(shù)據(jù)第四章數(shù)據(jù)的概括性度量一、集中趨勢和離散趨勢的度量:〔1〕集中趨勢是指一組數(shù)據(jù)向*一中心值靠攏的傾向,它反映了一組數(shù)據(jù)中心點(diǎn)的位置所在。描述集中趨勢所采用的測度值分為:眾數(shù)、中位數(shù)和分位數(shù)、平均數(shù)。〔2〕離散趨勢是數(shù)據(jù)分布的另一個重要特征,它所反映的各變量值遠(yuǎn)離其中心值得程度,因此也稱為離中趨勢,數(shù)據(jù)的離散程度越大,集中趨勢的測度值對該組數(shù)據(jù)的代表性越差,反之,代表性越好。描述數(shù)據(jù)離散程度所采用的測度值,根據(jù)所依據(jù)的數(shù)據(jù)類型的不同主要有異種比率、四分位差、方差和標(biāo)準(zhǔn)差。此外還有極差、平均差以及測度相對離散程度的離散系數(shù)。二、眾數(shù)、中位數(shù)和平均數(shù):〔1〕三者的關(guān)系:從分布的角度看,眾數(shù)始終是一組數(shù)據(jù)分布的最頂峰值,中位數(shù)的處于一組數(shù)據(jù)中間位置上的值,而平均數(shù)則是全部數(shù)據(jù)的算數(shù)平均。因此,對于具有單峰分布的大多數(shù)數(shù)據(jù)而言,眾數(shù)、中位數(shù)和平均數(shù)之間具有以下關(guān)系:〔a〕如果數(shù)據(jù)的分布是對稱的,眾數(shù)、中位數(shù)、平均數(shù)必定相等〔b〕如果數(shù)據(jù)是左偏分布,說明數(shù)據(jù)存在極小值,必然拉動平均數(shù)向極小值一方靠近,而眾數(shù)和中位數(shù)由于是位置代表值,不受極值的影響,因此三者的關(guān)系為眾數(shù)>中位數(shù)>平均數(shù)〔c〕如果數(shù)據(jù)是右偏分布,說明數(shù)據(jù)存在極大值,必然拉動平均數(shù)向極大值的一方靠近,則眾數(shù)<中位數(shù)<平均數(shù)?!?〕特點(diǎn)及應(yīng)用場合〔a〕眾數(shù)是一組數(shù)據(jù)的峰值,是一種位置代表詞,不受極端值的影響,具有不唯一性,對于一組數(shù)據(jù)可能有一個眾數(shù),也可能有兩個或多個眾數(shù),也可能沒有眾數(shù)。雖然對于順序數(shù)據(jù)以及數(shù)值型數(shù)據(jù)也可以計算眾數(shù),但眾數(shù)主要適合于作為分類數(shù)據(jù)的集中趨勢測度值?!瞓〕中位數(shù)是一組數(shù)據(jù)中間位置上的代表值,主要適合于作為順序數(shù)據(jù)的集中趨勢測度值,雖然對于順序數(shù)據(jù)可以使用眾數(shù),但以中位數(shù)為宜。〔c〕平均數(shù)是就數(shù)值型數(shù)據(jù)計算的,而且利用了全部數(shù)據(jù)信息,它是實際中應(yīng)用最廣泛的集中趨勢測度值。平均數(shù)主要適合于作為數(shù)值型數(shù)據(jù)的集中趨勢測度值。當(dāng)數(shù)據(jù)呈對稱分布或接近對稱分布時,三個代表值相等或接近相等,這是我們應(yīng)該選擇平均數(shù)作為集中趨勢的代表值。但平均數(shù)的主要缺點(diǎn)是易受數(shù)據(jù)極端值得影響,對于偏態(tài)分布的數(shù)據(jù),平均數(shù)的代表性較差。因此,當(dāng)數(shù)據(jù)為偏態(tài)分布,特別是當(dāng)偏斜的程度較大時,我們可以考慮選擇眾數(shù)或中位數(shù)等位置代表詞。三、異種比率:是非眾數(shù)組的頻數(shù)占總頻數(shù)的比率。主要用于衡量眾數(shù)對一組數(shù)據(jù)的代表程度。異眾比率越大,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大,眾數(shù)的代表性越差。反之,越小,眾數(shù)的代表性越好。異種比率重要適合測度分類數(shù)據(jù)的離散程度。當(dāng)然,對于順序數(shù)據(jù)以及數(shù)值型數(shù)據(jù)也可以計算異種比率。四、四分位差:是上四分位數(shù)與下四分位數(shù)之差。反映了中間50%數(shù)據(jù)的離散程度,其數(shù)值越小,說明中間數(shù)據(jù)越集中,數(shù)值越大,說明中間數(shù)據(jù)越分散。四分位差不受極值的影響。主要用于測度順序數(shù)據(jù)的離散程度,當(dāng)然,對于數(shù)值型數(shù)據(jù)也可以計算四分位差,但不適合于分類數(shù)據(jù)。五、方差和標(biāo)準(zhǔn)差:極差是一組數(shù)據(jù)的最大值與最小值之差,也稱為全距。它容易受極端值的影響,由于極差只是利用了一組數(shù)據(jù)兩端的信息,不能反映出中間數(shù)據(jù)的分散狀況,因而不能準(zhǔn)確描述出數(shù)據(jù)的分散程度。平均差是各變量值與其平均數(shù)離差的絕對值的平均數(shù),平均差以平均數(shù)為中心,反映了每個數(shù)據(jù)與平均數(shù)的平均差異程度,它能全面準(zhǔn)確的反映一組數(shù)據(jù)的離散狀況。平均差越大說明數(shù)據(jù)的離散程度就越大,反之,越小。為了防止離差之和等于0而無法計算平均差這一問題,平均差在計算時對離差取了絕對值,以離差的絕對值來表示總離差。方差〔或標(biāo)準(zhǔn)差〕是實際中應(yīng)用最廣泛的離散程度測度值,因此它能準(zhǔn)確的反映出數(shù)據(jù)的離散程度。方差是各變量值與其平均數(shù)離差平方的平均數(shù)。標(biāo)準(zhǔn)差是方差的平方根,與方差不同的是,標(biāo)準(zhǔn)差是具有量綱的,它與變量值的計量單位一樣,其實際意義要比方差清楚,因此,在對實際問題進(jìn)展分析時,我們更多的使用標(biāo)準(zhǔn)差。六、標(biāo)準(zhǔn)分?jǐn)?shù):標(biāo)準(zhǔn)分?jǐn)?shù)是指變量值與其平均數(shù)的離差除以標(biāo)準(zhǔn)差后的差。可以測度每個數(shù)據(jù)在該組數(shù)據(jù)中的相對位置,并可以用它來判斷一組數(shù)據(jù)是否有離群數(shù)據(jù),也給出了一組數(shù)據(jù)中各數(shù)值的相對位置,例如,如果*個數(shù)值的標(biāo)準(zhǔn)分?jǐn)?shù)為-1.5,我們就知道該數(shù)值低于平均數(shù)1.5倍的標(biāo)準(zhǔn)差。在對多個具有不同量綱的變量進(jìn)展處理時,常常需要對各變量數(shù)值進(jìn)展標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)分?jǐn)?shù)具有平均數(shù)為0、標(biāo)準(zhǔn)差為1的特性。實際上,標(biāo)準(zhǔn)分?jǐn)?shù)只是將原始數(shù)據(jù)進(jìn)展了線性變換,它并沒有改變一個數(shù)據(jù)在該組數(shù)據(jù)中的位置,也沒有改變改組數(shù)據(jù)分布的形狀,而只是使該組數(shù)據(jù)的平均數(shù)為0、標(biāo)準(zhǔn)差為1。七、經(jīng)歷法則:經(jīng)歷法則說明:當(dāng)一組數(shù)據(jù)對稱分布時〔1〕約有68%的數(shù)據(jù)在平均數(shù)加減1個標(biāo)準(zhǔn)差的*圍之內(nèi)〔2〕約有95%的數(shù)據(jù)在平均數(shù)加減2個標(biāo)準(zhǔn)差的*圍之內(nèi)〔3〕約有99%的數(shù)據(jù)在平均數(shù)加減3個標(biāo)準(zhǔn)差的*圍之內(nèi)八、切比雪夫不等式:如果一組數(shù)據(jù)不是對稱分布,經(jīng)歷法則就不再適用,這時就要使用切比雪夫不等式,它對任何分布形狀的數(shù)據(jù)都適用,對于任意分布形態(tài)的數(shù)據(jù),根據(jù)切比雪夫不等式,至少有〔1-1/QUOTE〕的數(shù)據(jù)落在k個標(biāo)準(zhǔn)差之內(nèi)。其中k是大于1的任意值,但不一定是整數(shù)。對于k=2、3、4,該不等式的含義是:〔1〕至少有75%的數(shù)據(jù)在平均數(shù)加減2個標(biāo)準(zhǔn)差的*圍之內(nèi)〔2〕至少有89%的數(shù)據(jù)在平均數(shù)加減3個標(biāo)準(zhǔn)差的*圍之內(nèi)〔3〕至少有94%的數(shù)據(jù)在平均數(shù)加減4個標(biāo)準(zhǔn)差的*圍之內(nèi)九、相對離散程度:離散系數(shù)的作用:極差、平均差、方差和標(biāo)準(zhǔn)差等都是反映數(shù)據(jù)分散程度的絕對值,其數(shù)值的大小一方面取決于原變量值本身水平上下的影響,也就是與變量的平均數(shù)大小有關(guān),變量值絕對水平高的,離散程度的測度值自然也就大。絕對水平小的離散程度的測度值自然也就小;另一方面,它們與原變量值的計量單位一樣,采用不同計量單位計量的變量值,其離散程度的測度值也就不同。因此對于平均水平不同或者計量單位不同的不同組別的變量值,是不能用上述離散程度的測度值直接比較其離散程度的。為消除變量值水平上下和計量單位不同對離散程度測度值的影響,需要計算離散系數(shù)。離散系數(shù)是指一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的平均數(shù)之比。離散系數(shù)是測度數(shù)據(jù)離散程度的相對統(tǒng)計量,通常是就標(biāo)準(zhǔn)差來計算的,因此也稱為標(biāo)準(zhǔn)差系數(shù),離散系數(shù)的作用主要是用于比較對不同樣本數(shù)據(jù)的離散程度。離散系數(shù)大的說明數(shù)據(jù)的離散程度大,離散系數(shù)小的說明數(shù)據(jù)的離散程度小。十、測度數(shù)據(jù)分布形狀的統(tǒng)計量:〔1〕偏態(tài):如果一組數(shù)據(jù)的分布的對稱的,則SK=0,如果SK明顯不等于零,說明分布是非對稱的。當(dāng)SK為正值時,表示正偏離差值較大,可以判斷為正偏或右偏;反之,為負(fù)偏或左偏,SK的值越大,表示傾斜的程度就越大〔2〕峰態(tài):如果一組數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布,則峰態(tài)系數(shù)的值等于0,假設(shè)峰態(tài)系數(shù)的值明顯不同于0,說明分布比正太分布更平或更尖,通常稱為平峰分布或尖峰分布。當(dāng)K>0時為尖峰分布,當(dāng)K<0時為扁平分布第五章概率與概率分布一、常見的離散型概率分布:〔1〕兩點(diǎn)分布〔2〕二項分布:n重伯努利試驗滿足以下條件:a、一次實驗只有兩種結(jié)果,即成功和失敗,這里的成功是指感興趣的*種特征。b、一次實驗成功的概率是p,失敗的概率是q=1-p,而且概率p對每次實驗都是一樣的。c、實驗是相互獨(dú)立的。d、實驗可以重復(fù)進(jìn)展n次。e、在n次試驗中,成功的次數(shù)對應(yīng)一個離散型隨機(jī)變量,用*表示〔3〕泊松分布:重要特征:a、所考察的事件在任意兩個長度相等的區(qū)間里發(fā)生一次的時機(jī)均等。b、所考察的事件在任何一個區(qū)間里發(fā)生與否和在其他區(qū)間里發(fā)生與否沒有相互影響,即是獨(dú)立的。泊松分布的另一個重要用途是作為二項概率分布的近似。對一個n重伯努利實驗,p代表每次伯努利實驗成功的概率,當(dāng)實驗次數(shù)n相對很大,成功概率p相對很小,而乘積np大小適中時,泊松分布的一般表達(dá)式與二項分布的一般表達(dá)式近似相等,〔4〕超幾何分布:二項分布只適合于重復(fù)抽樣,但在實際抽樣中,很少采用重復(fù)抽樣。不過,當(dāng)總體的元素數(shù)目N很大而樣本容量n相對于N很小時,二項分布仍然適用。但如果是采用不重復(fù)抽樣,各次實驗并不獨(dú)立,成功的概率也互不相等,而且總體元素的數(shù)目很小或樣本容量n相對于N來說較大時,二項分布就不再適用,這時,樣本中成功的次數(shù)則服從超幾何分布。超幾何分布與二項分布的關(guān)系:由于呈幾何分布所描述的實驗與n重伯努利實驗相似,所以超幾何分布與二項分部之間也存在著十分特殊而有意義的聯(lián)系,從直觀上來看嗎,如果總體中的元素個數(shù)N很大,使得M的有限變化相對于N而言比較小,則超幾何分布趨向于二項分布。這是因為在N趨于無窮大時,每次抽樣的樣品即使不放回,對其后代表成功的事件發(fā)生的概率也不會有太大影響,可以近似認(rèn)為不變,二者恰好滿足了二項分布的前提。二、正態(tài)分布的曲線的性質(zhì):〔1〕正態(tài)曲線的圖形是關(guān)于*=的對稱鐘形曲線,且峰值在*=處、〔2〕正態(tài)分布的兩個參數(shù)均值和標(biāo)準(zhǔn)差一旦確定,正態(tài)分布的具體形式就唯一確定,不同參數(shù)取值的正太分布構(gòu)成一個完整的正態(tài)分布族。〔3〕正態(tài)分布的均值可以是實數(shù)軸的任意數(shù)值,他決定正態(tài)曲線的具體位置,標(biāo)準(zhǔn)差一樣二均值不同的正太曲線在坐標(biāo)軸上表達(dá)為水平位移〔4〕正態(tài)分布的標(biāo)準(zhǔn)差為大于0的實數(shù),他決定正態(tài)曲線的“陡峭“或〞扁平“程度。越大,正太曲線越扁平;越小,正太曲線越陡峭?!?〕當(dāng)*的取值向橫軸左右兩個方向無限延伸時,正態(tài)曲線的左右兩個尾端也無限漸進(jìn)橫軸,但理論上永遠(yuǎn)不會與之相交?!?〕與其他連續(xù)型隨機(jī)變量一樣,正太隨機(jī)變量在特定區(qū)間上的取值概率由正太曲線下的面積給出,而且其曲線下的面積等于1經(jīng)歷法則:正態(tài)隨機(jī)變量落入其均值左右各1個標(biāo)準(zhǔn)差內(nèi)的概率是68.27%正態(tài)隨機(jī)變量落入其均值左右各2個標(biāo)準(zhǔn)差內(nèi)的概率是95.45%正態(tài)隨機(jī)變量落入其均值左右各3個標(biāo)準(zhǔn)差內(nèi)的概率是99.73%三、數(shù)據(jù)正態(tài)性的評估方法:〔1〕、對數(shù)據(jù)畫出頻數(shù)分布的直方圖或莖葉圖。假設(shè)數(shù)據(jù)近似服從正態(tài)分布,則圖形的形狀與上面給出的正太曲線應(yīng)該相似〔2〕、求出樣本數(shù)據(jù)的四分位差QUOTE/s≈1.3.〔3〕、對數(shù)據(jù)作正太概率圖。假設(shè)數(shù)據(jù)近似服從正態(tài)分布,則數(shù)據(jù)點(diǎn)將落在一條近似直線上四、什么條件下用正態(tài)分布分布近似計算二項分布的效果較好當(dāng)樣本容量n越來越大時,二項分布越來越近似服從正太分布,這時,二項隨機(jī)變量的直方圖的形狀接近正太分布的圖形形狀。即使對于小樣本,當(dāng)p=0.5時,二項分布的正太近似仍然相當(dāng)好,此時隨機(jī)變量*的分布是相對是相對于其平均值=np對稱的。當(dāng)平p趨于0或1時,二項分布將呈現(xiàn)出偏態(tài),但當(dāng)n變大時,這種偏斜就會消失。一般來說,只有當(dāng)n大到使np和n〔1-p〕大于或等于5時,近似的效果就相當(dāng)好。五、均勻分布的直觀概率意義:將區(qū)間〔a,b〕劃分為任意多個小區(qū)間。隨機(jī)變量*在任何小區(qū)間上取值的概率大小與該小區(qū)間的長度成正比,而與該小區(qū)間的具體位置無關(guān)。第六章抽樣與抽樣分布一、比較分層抽樣、系統(tǒng)抽樣和整群抽樣〔1〕分層抽樣是指將抽樣單位按*種特征或*種規(guī)則劃分為不同的層,然后從不同的層中獨(dú)立、隨機(jī)地抽取樣本。優(yōu)點(diǎn):a、保證樣本的構(gòu)造與總體的構(gòu)造比較相近,從而提高估計的精度b、組織實施調(diào)查方便c、既可以對總體參數(shù)進(jìn)展估計,也可以對各層的目標(biāo)量進(jìn)展估計。d、分層抽樣的樣本分布在各個層內(nèi),從而使樣本在總體中的分布比較均勻〔2〕系統(tǒng)抽樣是指將總體中的所有單位(抽樣單位)按一定順序排列,在規(guī)定的*圍內(nèi)隨機(jī)地抽取一個單位作為初始單位,然后按事先規(guī)定好的規(guī)則確定其它樣本單位。優(yōu)點(diǎn):操作簡便,系統(tǒng)抽樣的樣本在總體中的分布一般也比較均勻,由此抽樣誤差通常要小于簡單隨機(jī)抽樣,提高估計的精度缺點(diǎn):對估計量方差的估計比較困難〔3〕整群抽樣是指將總體中假設(shè)干個單位合并為組(群),抽樣時直接抽取群,然后對中選群中的所有單位全部實施調(diào)查優(yōu)點(diǎn)是:不需要有總體的具體而只要有群的就可以進(jìn)展抽樣,而群的比較容易得到;此外調(diào)查的地點(diǎn)相對集中,節(jié)省調(diào)查費(fèi)用,方便調(diào)查的實施缺點(diǎn)是估計的精度較差二、比較三種不同性質(zhì)的分布〔1〕總體分布指總體中各元素的觀察值所形成的相對頻數(shù)的分布。分布通常是未知的,可以假定它服從*種分布〔2〕樣本分布是指從總體中抽取一個容量為n的樣本,由這n個觀察值形成的相對頻數(shù)分布。也稱經(jīng)歷分布。當(dāng)樣本容量n逐漸增大時,樣本分布逐漸接近總體的分布〔3〕從一般意義上說,抽樣分布是指樣本統(tǒng)計量的概率分布,樣本統(tǒng)計量的概率分布。隨機(jī)變量是樣本統(tǒng)計量,如樣本均值,樣本比例,樣本方差等。結(jié)果來自容量一樣的所有可能樣本;提供了樣本統(tǒng)計量長遠(yuǎn)我們穩(wěn)定的信息,是進(jìn)展推斷的理論根底,也是抽樣推斷科學(xué)性的重要依據(jù)三、中心極限定理隨著樣本容量n的增大〔n>=30〕,不管原來的總體是否服從正態(tài)分布,樣本值的抽樣分布都趨于正態(tài)分布,其分布的數(shù)學(xué)期望為總體均值,方差為總體方差的1/n,這就是中心極限定理,表述為:設(shè)從均值為,方差為2的一個任意總體中抽取容量為n的樣本,當(dāng)n充分大時,樣本均值的抽樣分布近似服從均值為μ、方差為σ2/n的正態(tài)分布四、重復(fù)抽樣和不重復(fù)抽樣相比,抽樣均值分布的標(biāo)準(zhǔn)差有何不同樣本均值的方差與抽樣方法有關(guān),在重復(fù)抽樣條件下,樣本均值的方差為總體方差的1/n,即在不重復(fù)抽樣條件下,樣本均值的方差則需要用修正系數(shù)去修正重復(fù)抽樣時樣本均值的方差,即不重復(fù)抽樣的樣本均值的方差小于重復(fù)抽樣時的樣本均值的方差對于無限總體進(jìn)展不重復(fù)抽樣時,可以按照重復(fù)抽樣來處理,對于有限總體,當(dāng)N很大,而抽樣比n/N很小時,其修正系數(shù)趨于1,這時樣本均值的方差也可以按照重復(fù)抽樣的樣本均值的方差公式來計算五、2分布的性質(zhì)和特點(diǎn)〔1〕分布的變量值始終為正〔2〕分布的形狀取決于其自由度n的大小,通常為不對稱的正偏分布,但隨著自由度的增大逐漸趨于對稱〔3〕期望為:E(2)=n,方差為:D(2)=2n(n為自由度)〔4〕可加性:假設(shè)U和V為兩個獨(dú)立的2分布隨機(jī)變量,U~2(n1),V~2(n2),則U+V這一隨機(jī)變量服從自由度為n1+n2的2分布第七章參數(shù)估計一、評價估計量的標(biāo)準(zhǔn)實際上,用于估計的的估計量有很多,如我們可以用樣本均值作為總體均值的估計量,也可以用樣本中位數(shù)作為總體均值的估計量,什么樣的估計量才算是一個好的估計量呢.這需要一定的評價標(biāo)準(zhǔn):1、無偏性:估計量抽樣分布的數(shù)學(xué)期望等于被估計的總體參數(shù)。設(shè)總體參數(shù)為,被選擇的估計量為,如果E()=,稱為的無偏估計量。2、有效性:對同一總體參數(shù)的兩個無偏估計量,方差較小的是更有效的估計量。3、一致性:隨著樣本容量的增大,點(diǎn)估計量的值越來越接近被估的總體的參數(shù)。換言之,一個大樣本給出的估計量要比一個小樣本給出的估計量更接近總體的參數(shù)二、怎樣理解置信區(qū)間置信區(qū)間:由樣本統(tǒng)計量所構(gòu)造的總體參數(shù)的估計區(qū)間,其中區(qū)間的最小值稱為置信下限,區(qū)間最大值稱為置信上限。是一個隨機(jī)區(qū)間,的置信區(qū)間意味著,置信區(qū)間包含未知參數(shù)的概率為,這個區(qū)間會隨著樣本觀察值的不同而不同。但100次運(yùn)用這個區(qū)間,約有100〔〕個區(qū)間能包含參數(shù),也就是說大約還有100a個區(qū)間不包含總體參數(shù)判斷置信區(qū)間優(yōu)勢的標(biāo)準(zhǔn)〔好的置信區(qū)間的特性〕:置信度越高越好;置信區(qū)間寬度越小越好。三、影響區(qū)間寬度的因素1.總體數(shù)據(jù)的離散程度,用s來測度樣本容量:當(dāng)置信水平固定時,置信區(qū)間的寬度隨著樣本容量的增大而減小,換言之,較大的樣本所提供的有關(guān)總體的信息要比小樣本多。3.置信水平(1-a),影響z的大?。褐眯潘皆酱?,z越大四、簡述樣本容量與置信水平、總體方差、估計誤差的關(guān)系QUOTE〔1〕樣本量與置信水平呈正比,在其他條件不變的情況下,置信水平越大,所需的樣本容量也就越大〔2〕樣本量與總體方差呈正比,總體的差異越大,所需的樣本容量就越大〔3〕樣本量與邊際誤差的平方成反比,即可以承受的估計誤差的平方越大,所需的樣本量就越小五、QUOTE的含義是什么.QUOTE是標(biāo)準(zhǔn)正態(tài)分布上側(cè)面積為QUOTE時的z值。QUOTE是估計總體均值時的邊際誤差,也稱為估計誤差或誤差*圍六、對兩個總體均值之差的小樣本估計中,對兩個總體和樣本都有哪些假定〔1〕兩個總體都服從正態(tài)分布〔2〕兩個隨機(jī)樣本獨(dú)立地分別抽自兩個總體七、解釋95%的置信區(qū)間抽取100個樣本,根據(jù)每個樣本構(gòu)造一個置信區(qū)間,這樣由100個樣本構(gòu)造的總體參數(shù)的100個置信區(qū)間中,95%的區(qū)間包含了總體參數(shù)的真值,而5%沒包含八、對于總體比例的估計,確定樣本容量是否“足夠大“的一般經(jīng)歷規(guī)則是:區(qū)間QUOTE中不包含0或1.或要求npQUOTE5和n〔1-p〕QUOTE5八、獨(dú)立樣本和匹配樣本如果兩個樣本是從兩個總體中獨(dú)立抽取的,即一個樣本中的元素與另一個樣本中的元素相互獨(dú)立,則稱為獨(dú)立樣本。匹配樣本是指一個樣本中的數(shù)據(jù)與另一個樣本中的數(shù)據(jù)相對應(yīng)九、估計量和估計值〔1〕估計量:用于估計總體參數(shù)的隨機(jī)變量如樣本均值,樣本比例、樣本方差等例如:樣本均值就是總體均值m的一個估計量參數(shù)用表示,估計量用表示〔2〕估計值:估計參數(shù)時計算出來的統(tǒng)計量的具體值如果樣本均值*=80,則80就是m的估計值第八章假設(shè)檢驗一、參數(shù)估計和假設(shè)檢驗的區(qū)別和聯(lián)系〔1〕主要聯(lián)系:a.都是根據(jù)樣本信息推斷總體參數(shù);b.都以抽樣分布為理論依據(jù),建立在概率論根底之上的推斷,推斷結(jié)果都有風(fēng)險;c.對同一問題的參數(shù)進(jìn)展推斷,使用同一樣本,同一統(tǒng)計量,同一分布,二者可相互轉(zhuǎn)換〔2〕主要區(qū)別:a.參數(shù)估計是以樣本信息估計總體參數(shù)的可能*圍,假設(shè)檢驗是先對總體參數(shù)提出一個假設(shè)值,然后利用樣本信息判斷這一假設(shè)是否成立;b.區(qū)間估計求得的是求以樣本估計值為中心的雙側(cè)置信區(qū)間,假設(shè)檢驗既有雙側(cè)檢驗,也有單側(cè)檢驗;c.區(qū)間估計立足于大概率,通常以較大的可信度〔1-a〕去估計總體參數(shù)的置信區(qū)間。假設(shè)檢驗立足于小概率。通常是給定很小的顯著性水平a去檢驗總體參數(shù)的先驗假設(shè)是否正確二、什么是假設(shè)檢驗中的顯著性水平.統(tǒng)計顯著是什么意思.〔1〕顯著性水平是當(dāng)原假設(shè)正確時卻被拒絕的概率或風(fēng)險,即假設(shè)檢驗中犯棄真錯誤的概率,通常用QUOTE表示,它是人們根據(jù)經(jīng)歷的要求確定的,通常取QUOTE。顯著性水平是人們事先指定的犯第QUOTE概率QUOTE的最大允許值,確定了顯著性水平QUOTE,就等于控制了第QUOTE的概率。但犯QUOTE類錯誤的概率QUOTE卻是不確定的〔2〕統(tǒng)計顯著值在原假設(shè)為真的條件下,用于檢驗的樣本統(tǒng)計量的值落在了拒絕域內(nèi),作出了拒絕原假設(shè)的決定三、什么是假設(shè)檢驗的兩類錯誤及其數(shù)理關(guān)系怎樣〔1〕假設(shè)檢驗中所犯的錯誤有兩種:一類錯誤是原假設(shè)為真卻別拒絕了,犯這類錯誤的概率用QUOTE表示,也稱第QUOTE。另一類錯誤是原假設(shè)為假卻沒有拒絕,犯這種錯誤的概率用QUOTE類錯誤〔2〕當(dāng)QUOTE,要使QUOTE和QUOTE同時減小的唯一方法是增加樣本容量四、假設(shè)檢驗的步驟〔1〕陳述原假設(shè)QUOTE和備擇假設(shè)QUOTE。(2〕從所研究的總體中抽出一個隨機(jī)樣本(3)確定一個適當(dāng)?shù)臋z驗統(tǒng)計量,并利用樣本數(shù)據(jù)算出其具體數(shù)值(4)確定一個適當(dāng)?shù)娘@著性水平,并計算出其臨界值,指定拒絕域(5)將統(tǒng)計量的值與臨界值進(jìn)展比較,作出決策。統(tǒng)計量的值落在拒絕域,拒絕QUOTE,否則不拒絕QUOTE,或者也可以直接利用P值作出決策五、建立原假設(shè)和備擇假設(shè)的原則〔建立假設(shè)的幾點(diǎn)認(rèn)識〕〔1〕原假設(shè)和備擇假設(shè)是一個完備事件組,且相互獨(dú)立〔2〕在建立假設(shè)時,通常是先確定備擇假設(shè),然后再確定原假設(shè)〔3〕在假設(shè)檢驗中,等號“=〞總是放在原假設(shè)上。這是因為我們想涵蓋備擇假設(shè)QUOTE不出現(xiàn)的所有情況〔4〕這樣的假設(shè)本質(zhì)上帶有一定的主觀色彩,在面對*一實際問題,由于不同研究者有不同的研究目的,即使對同一問題也可能提出截然相反的原假設(shè)和備擇假設(shè),這并不違背假設(shè)的最初定義,只要符合研究的最終目的就是合理的六、單雙側(cè)檢驗的區(qū)別備擇假設(shè)具有特定的方向性,并含有“<〞或“>〞的假設(shè)檢驗,稱為單側(cè)檢驗或單尾檢驗。備擇假設(shè)沒有特定的方向性,并含有符號“〞的假設(shè)檢驗,稱為雙側(cè)檢驗或雙尾檢驗在單側(cè)檢驗中,由于研究者感興趣的方向不同,又可分為左側(cè)檢驗和右側(cè)檢驗七、檢驗統(tǒng)計量的特征和用途檢驗統(tǒng)計量是指根據(jù)樣本觀測結(jié)果計算得到的,并據(jù)以對原假設(shè)和備擇假設(shè)做出決策的*個樣本統(tǒng)計量。檢驗統(tǒng)計量實際上是總體參數(shù)的點(diǎn)估計量,只有將其標(biāo)準(zhǔn)化后,才能用以度量它與原假設(shè)的參數(shù)值之間的差異程度。而對點(diǎn)估計量標(biāo)準(zhǔn)化的依據(jù)則是:a、原假設(shè)QUOTE為真;b、點(diǎn)估計量的抽樣分布。實際上,假設(shè)檢驗中所用的檢驗統(tǒng)計量都是標(biāo)準(zhǔn)化檢驗統(tǒng)計量,它反映了點(diǎn)估計量與假設(shè)的總體參數(shù)相比相差多少個標(biāo)準(zhǔn)差。八、拒絕域面積與QUOTE大小的關(guān)系當(dāng)樣本容量固定時,拒絕域的面積隨著QUOTE的減小而減小。QUOTE小,拒絕原假設(shè)所需要的檢驗統(tǒng)計量的臨界值與原假設(shè)的參數(shù)值就越遠(yuǎn)。拒絕域的位置取決于檢驗是單側(cè)檢驗還是雙側(cè)檢驗,雙側(cè)檢驗的拒絕域在抽樣分布的兩側(cè),而單側(cè)檢驗中,如果備擇假設(shè)具有符號“<〞,拒絕域位于抽樣分布的左側(cè),故稱為左側(cè)檢驗。如果備擇假設(shè)具有符號“>〞,拒絕域位于抽樣分布的右側(cè),故稱為右側(cè)檢驗。九、顯著性水平QUOTE的局限性顯著性水平QUOTE實在檢驗之前確定的,這也就意味這我們事先確定了拒絕域。這樣,不管檢驗統(tǒng)計量的值是大還是小,只要他的值落入拒絕域就拒絕原假設(shè),否則不拒絕原假。這種固定的顯著性水平QUOTE對檢驗結(jié)果的可靠性起一種度量作用。但缺乏的是,QUOTE是犯第QUOTE的上限控制值,它只能提供檢驗結(jié)論可靠性的一個大致*圍,而對于一個特定的假設(shè)檢驗問題,卻無法給出觀測數(shù)據(jù)與原假設(shè)之間不一致程度的準(zhǔn)確度量,也就是說,僅從顯著性水平比較,假設(shè)選擇的QUOTE值一樣,所有的檢驗結(jié)果的可靠性都一樣。十、P值較小時為什么要拒絕原假設(shè)P值是指在原假設(shè)為真的條件下,檢驗統(tǒng)計量的觀察值大于或等于其計算值的概率。P值是反映實際觀測到的數(shù)據(jù)與原假設(shè)QUOTE之間不一致程度的一個概率值。P值越小,說明實際觀測到的數(shù)據(jù)與QUOTE之間不一致的程度就越大,檢驗的結(jié)果也就越顯著十一、顯著性水平QUOTE與P值得區(qū)別〔1〕QUOTE的含義是當(dāng)原假設(shè)正確時卻被拒絕的概率或風(fēng)險,即假設(shè)檢驗中犯棄真錯誤的概率,是有人們根據(jù)檢驗的要求確定的,通常QUOTE而P值是原假設(shè)為真時所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的概率,它是通過計算得到的,P值得大小取決于三個因素:樣本數(shù)據(jù)與原假設(shè)之間的差異、樣本量、被假設(shè)數(shù)據(jù)的總體分布〔2〕QUOTE只能提供檢驗結(jié)論的可靠性地一個大致*圍,而對于一個特定的假設(shè)檢驗為題,卻無法給出觀測數(shù)據(jù)與原假設(shè)之間不一致程度的準(zhǔn)確度量。即僅從顯著性水平來比較,如果選擇的QUOTE值一樣,所有檢查結(jié)果的可靠性都一樣。而P值可以測量出樣本觀察數(shù)據(jù)與原假設(shè)中假設(shè)的值的偏離程度。十二、總體均值的檢驗在對總體均值進(jìn)展假設(shè)檢驗時,采用什么檢驗步驟和檢驗統(tǒng)計量取決于我們所抽取的樣本是大樣本〔n〕還是小樣本〔n〕,此外還需要區(qū)分總體是否服從正態(tài)分布、總體方差QUOTE是否等幾種情況?!?〕大樣本的檢驗方法:樣本均值經(jīng)過標(biāo)準(zhǔn)化后服從正態(tài)分布,設(shè)假設(shè)的總體均值為總體均值檢驗的統(tǒng)計量為:當(dāng)總體方差未知時,可以用樣本方差QUOTE來近似代替總體方差,此時總體均值檢驗的統(tǒng)計量為〔2〕小樣本的檢驗方法:總體方差QUOTE時,即使在小樣本下,檢驗統(tǒng)計量仍然服從正太分布,因此仍然按照來計算??傮w方差QUOTE未知時,需要用樣本方差QUOTE代替總統(tǒng)方差QUOTE,此時檢驗統(tǒng)計量服從自由度為n-1的t分布。因此需要采用t分布來檢驗總體均值,通常稱為“t檢驗〞。檢驗的統(tǒng)計量為:第九章方差分析與實驗設(shè)計一、方差分析的概念及理解方差分析是指檢驗多個總體均值是否相等的統(tǒng)計方法。所采用的方法就是通過檢驗各總體的均值是否相等來判斷分類型自變量對數(shù)值型因變量是否有顯著影響。它研究的是多哥總統(tǒng)均值是否相等的統(tǒng)計方法,但本質(zhì)是研究分類型自變量對數(shù)值型因變量的影響。二、方差分析和回歸分析的區(qū)別和聯(lián)系區(qū)別:〔1〕方差分析中沿水平軸的自變量是分類變量;而回歸分析沿水平軸的自變量是數(shù)值型變量。〔2〕方差分析中,既然自變量是分類變量,就可以把它放在水平軸的任意位置上;而回歸分析的自變量是數(shù)值型變量,它在水平軸上的位置是從按小到大的數(shù)值排列的,因此只有一種方式來放這些數(shù)值,并且可以畫出一條穿過這些點(diǎn)的直線。〔3〕方差分析是通過檢驗各總體的均值是否相等來判斷分類型自變量對數(shù)值型因變量是否有顯著影響;而回歸分析是根據(jù)一組樣本數(shù)據(jù)確定出變量之間的數(shù)學(xué)關(guān)系式,然后對關(guān)系式的可信程度進(jìn)展各種統(tǒng)計檢驗,并找出哪些變量的影響是顯著的,哪些不顯著等三、方差分析中的根本原理〔1〕方差分析是通過對數(shù)據(jù)誤差來源的分析來判斷不同總體的均值是否相等,進(jìn)而分析自變量對因變量是否有影響〔2〕數(shù)據(jù)的誤差是用平方差來表示的,包括組內(nèi)誤差和組間誤差〔3〕組內(nèi)誤差只包含隨機(jī)誤差,而組間誤差既包括隨機(jī)誤差,又包括系統(tǒng)誤差〔4〕如果組間誤差只包括隨機(jī)誤差,而沒有系統(tǒng)誤差,這時,組間誤差與組內(nèi)誤差經(jīng)過平均后的數(shù)值就應(yīng)該很接近,他們的比值就會接近1;〔5〕反之,如果組間誤差既包括隨機(jī)誤差又包括系統(tǒng)誤差,這時,組間誤差與組內(nèi)誤差經(jīng)過平均后的數(shù)值,他們的比值就會大于1;〔6〕當(dāng)這個比值大到*種程度時,我們就可以說因素的不同水平之間存在著顯著的差異,也就是自變量對因變量有影響。四、方差分析中的根本假定〔1〕每個總體都應(yīng)服從正態(tài)分布。也就是說,對于因素的每一個水平,其觀察值是來自服從正態(tài)分布總體的簡單隨機(jī)樣本〔2〕各個總體的方差必須一樣。也就是說,各組觀察數(shù)據(jù)是從具有一樣方差的總體中抽取的〔3〕觀察值是獨(dú)立的在上述假定成立的前提下,要分析自變量對因變量是否有影響,實際上也就是要檢驗自變量的各個水平〔總體〕的均值是否相等。五、方差分析和總體均值的t檢驗或z檢驗有何不同.優(yōu)勢是什么〔1〕不同:總體均值的t檢驗或z檢驗,只能研究兩個樣本,假設(shè)要檢驗多個總體均值是否相等。則作這樣的兩兩比較將十分繁瑣,共需進(jìn)展QUOTE次不同的檢驗,如果QUOTE=0.05,則每次檢驗犯第QUOTE的概率都是0.05,做屢次檢驗會使第QUOTE的概率相應(yīng)增加。而方差分析方法則同時考慮所有的樣本,因此除了錯誤累計的概率,從而防止了拒絕一個真是的原假設(shè)。〔2〕優(yōu)勢:方差分析不僅可以提高檢驗的概率,同時由于他是將所有的樣本信息結(jié)合在一起,也增加了分析的可靠性。六、要檢驗多個總體均值是否相等時,為什么不做兩兩比較,而用方差分析方法.方差分析不僅可以提高檢驗的概率,同時由于他是將所有的樣本信息結(jié)合在一起,也增加了分析的可靠性。檢驗多個總體均值是否相等時,如果做兩兩比較,需要進(jìn)展屢次的t檢驗。隨著增加個體顯著性檢驗的次數(shù),偶然因素導(dǎo)致的差異的可能性會增加〔并非均值真的存在差異〕,而方差分析則是同時考慮所有的樣本,因此排除了錯誤累積的概率,從而防止拒絕一個真實的原假設(shè)。七、方差分析的步驟〔1〕提出假設(shè),按要求檢驗的k個水平的均值是否相等,提出原假設(shè)和備擇假設(shè)。〔2〕構(gòu)造檢驗的統(tǒng)計量,計算各樣本均值QUOTE,樣本總均值QUOTE,誤差平方和SST、SSA、SSEF=QUOTE〔3〕統(tǒng)計決策,比較統(tǒng)計量F和QUOTE(k-1,n-k)的值,假設(shè)F>QUOTE,則拒絕原假設(shè),反之不拒絕原假設(shè)八、解釋水平項誤差平方和與誤差平方和〔1〕水平項誤差平方和,簡稱SSA,是各組平均值與總平均值的誤差平方和,反映各總體的樣本均值之間的差異程度,因此又稱為組間平方和,其計算公式為〔2〕誤差項平方和,簡稱為SSE,它是每個水平或組的各樣本數(shù)據(jù)與其組平均值誤差的平方和,反映了每個樣本個觀測值的離散狀況,因此又稱為組內(nèi)平方和或殘差平方和,該平方和實際上反映的是隨機(jī)誤差的大小,其計算公式為九、解釋組內(nèi)方差和組間方差的含義SSA的均方〔組間均方〕記為MSA,也稱組間方差,其計算公式為MSE的均方〔組內(nèi)均方〕記為MSE,也稱組內(nèi)方差,其計算公式為十、方差分析中效應(yīng)的意義SSA是對隨機(jī)誤差和系統(tǒng)誤差的大小的度量,它反映了自變量對因變量的影響,也稱自變量效應(yīng)或因子效應(yīng)。SSE是對隨機(jī)誤差的大小的度量,它反映了除自變量對因變量的影響之外,其他因素對因變量的總影響,因此SSE也稱為殘差變量,它所引起的誤差也稱為殘差效應(yīng)。SST是全部數(shù)據(jù)總誤差程度的度量,它反映了自變量和殘差變量的共同影響,因此他等于自變量效應(yīng)加殘差效應(yīng)。SST=SSA+SSE十一、多重比較方法的作用:它是通過對總體均值之間的配比照擬來進(jìn)一步檢驗到底哪些均值之間存在差異。十二、交互作用:是一因素對另一因素的不同水平有不同的效果,如對于雙因素方差分析,有交互作用就是兩個因素搭配在一起,對應(yīng)變量產(chǎn)生的一種新的效應(yīng)。十三、解釋無交互作用和有交互作用的雙因素方差分析在雙因素方差分析中,由于有兩個影響因素,假設(shè)這兩個因素是相互獨(dú)立的,我們分別判斷這兩個因素對因變量的影響,這時的雙因素方差分析稱為無交互作用的雙因素方差分析,或稱為無重復(fù)因素分析。如果出了兩個因素的單獨(dú)影響外,兩因素的搭配還會對因變量產(chǎn)生一種新的效應(yīng),這時的雙因素方差分析就是有交互作用的雙因素方差分析。十四、R2的含義和作用〔1〕單因素方差分析中,R2表示自變量平方和(SSA)及殘差平方和(SSE)占總平方和(SST)的比例大小,其平方根R就可以用來測量兩個變量之間的關(guān)系強(qiáng)度〔2〕無交互作用的雙因素方差分析中,行自變量平方〔SSR〕和和列自變量的平方和(SSC)加在一起則度量了兩個自變量對因變量的聯(lián)合效應(yīng),聯(lián)合效應(yīng)與總平方和的比值定義為R2,其平方根R反映了這兩個自變量合起來與因變量之間的關(guān)系強(qiáng)度〔3〕有交互作用的方差分析:R2=QUOTE十四、為什么雙因素方差分析中,誤差平方和與P值明顯小于單因素方差分析中的任何一個平方和.是因為在雙因素方差分析中,誤差平方和不包括兩個自變量中的任何一個,因而減少了殘差效應(yīng)。而在分別作單因素方差分析時,將行因素作為自變量時,列變量被包含在殘差中,同樣,將列因素作為自變量是,行變量被包含在殘差中。因此,對于兩個自變量而言,進(jìn)展雙因素方差分析要優(yōu)于分別對兩個因素進(jìn)展單因素方差分析十五、完全隨機(jī)化設(shè)計、隨機(jī)化區(qū)組設(shè)計、因子設(shè)計〔1〕完全隨機(jī)化設(shè)計指“處理〞被隨機(jī)地指派給試驗單元的一種設(shè)計、對完全隨機(jī)化設(shè)計的數(shù)據(jù)采用單因素方差分析〔2〕隨機(jī)化區(qū)組設(shè)計是指先按一定規(guī)則將試驗單元劃分為假設(shè)干同質(zhì)組,稱為“區(qū)組。分組后再將每個品種〔處理〕隨機(jī)地指派給每一個區(qū)組的設(shè)計就是隨機(jī)化區(qū)組設(shè)計。試驗數(shù)據(jù)采用無重復(fù)雙因素方差分析〔3〕因子設(shè)計指考慮兩個因素(可推廣到多個因素)的搭配試驗設(shè)計稱為因子設(shè)計。該設(shè)計主要用于分析兩個因素及其交互作用對試驗結(jié)果的影響。試驗數(shù)據(jù)采用可重復(fù)雙因素方差分析第十章一元線性回歸一、簡述相關(guān)系數(shù)的性質(zhì)相關(guān)系數(shù)是指根據(jù)數(shù)據(jù)計算的對兩個變量之間線性關(guān)系強(qiáng)度的度量值。假設(shè)相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計算的,稱為總體相關(guān)系數(shù),記為;假設(shè)是根據(jù)樣本數(shù)據(jù)計算的,則稱為樣本相關(guān)系數(shù),記為r,樣本相關(guān)系數(shù)的計算公式:性質(zhì):〔1〕r的取值*圍是[-1,1];|r|=1,為完全相關(guān),r=1,說明*與y之間為完全正線性相關(guān)關(guān)系,r=-1,說明*與y之間為完全負(fù)線性相關(guān)關(guān)系;r=0,說明*與y之間不存在線性相關(guān)關(guān)系相關(guān),-1r<0,說明*與y之間為負(fù)線性相關(guān),0<r1,說明*與y之間為正線性相關(guān),|r|越趨于1表示關(guān)系越密切;|r|越趨于0表示關(guān)系越不密切〔2〕r具有對稱性,*與y之間的相關(guān)系數(shù)QUOTE和y和*之間的相關(guān)系數(shù)QUOTE相等,即QUOTE=QUOTE〔3〕r的大小與*和y的原點(diǎn)及尺度無關(guān)。改變*和y的數(shù)據(jù)原點(diǎn)和計量尺度,并不改變r的大小〔4〕r僅僅是*和y之間的線性關(guān)系的度量,不用于描述非線性關(guān)系,這意味著,r=0指標(biāo)是兩個變量之間不存在線性相關(guān)關(guān)系,但并說明變量之間沒有任何關(guān)系,如可能存在非線性相關(guān)關(guān)系。變量之間的非線性相關(guān)程度較大時,就可能會導(dǎo)致r=0.因此當(dāng)r=0或很小時,不能輕易得出兩個變量之間不存在相關(guān)關(guān)系的結(jié)論,而應(yīng)結(jié)合散點(diǎn)圖作出合理的解釋。〔5〕r雖是兩變量之間線性關(guān)系的度量,卻并不意味著*和y之間一定有因果關(guān)系。二、利用相關(guān)關(guān)系如何判斷變量之間相關(guān)的方向和相關(guān)的密切程度.〔1〕r的取值*圍是[-1,1];|r|=1,為完全相關(guān),r=1,說明*與y之間為完全正線性相關(guān)關(guān)系,r=-1,說明*與y之間為完全負(fù)線性相關(guān)關(guān)系;r=0,說明*與y之間不存在線性相關(guān)關(guān)系相關(guān),-1r<0,說明*與y之間為負(fù)線性相關(guān),0<r1,說明*與y之間為正線性相關(guān)?!?〕根據(jù)實際數(shù)據(jù)計算出的r,|r|越趨于1表示關(guān)系越密切;|r|越趨于0表示關(guān)系越不密切。相關(guān)程度分為以下幾種情況:當(dāng)|r|0.8時,可視為高度相關(guān);0.5|r|<0.8時,可視為中度相關(guān);當(dāng)0.3|r|<0.5時,視為低度相關(guān);|r|<0.3時,說明兩變量之間的相關(guān)程度極弱,可視為不線性相關(guān)。但這種解釋必須建立在對相關(guān)系數(shù)的顯著性進(jìn)展檢驗的根底之上三、為什么對相關(guān)系數(shù)進(jìn)展顯著性檢驗.一般情況下,總體相關(guān)系數(shù)是未知的,我們通常是根據(jù)樣本相關(guān)系數(shù)r作為的近似估計值。但由于r是根據(jù)樣本數(shù)據(jù)計算出來的,他受到抽樣波動的影響。由于抽取的樣本不同,r的取值也不同,因此r是一個隨機(jī)變量。能否根據(jù)樣本相關(guān)系數(shù)說明總體的相關(guān)程度.這就需要考察樣本相關(guān)系數(shù)的可靠性,即進(jìn)展顯著性檢驗。四、樣本容量對r的影響及r與的關(guān)系當(dāng)樣本數(shù)據(jù)來自正態(tài)總體時,隨著n的增大,r的抽樣分布趨于正態(tài)分布,尤其是在總體相關(guān)系數(shù)更小或接近0時,趨于正態(tài)分布的趨勢就非常明顯,而當(dāng)遠(yuǎn)離0時,除非n非常大,否則r的抽樣分布呈現(xiàn)一定的偏態(tài)。因為當(dāng)r是圍繞的周圍分布的,當(dāng)?shù)臄?shù)值接近1或-1時,如=0.96時,兩個方向變化的全距不等,因此r的抽樣分布也不可能對稱。但當(dāng)=0時,兩個方向的變化的全距接近相等,所以r的抽樣分布就接近對稱了。總之,當(dāng)為較大的正值時,r呈現(xiàn)左偏分布;當(dāng)為較小的負(fù)值時,r呈現(xiàn)右偏分布。只有當(dāng)接近0,而樣本容量n很大時,才能認(rèn)為r是接近于正態(tài)分布的隨機(jī)變量。五、r的顯著性檢驗的步驟提出假設(shè):H0:;H1:0計算檢驗的統(tǒng)計量3、進(jìn)展決策。確定顯著性水平,并作出決策。假設(shè)t>t,拒絕H0,說明總體的兩個變量之間存在顯著的線性關(guān)系;假設(shè)t<t,不拒絕H0六、概述相關(guān)分析和回歸分析的區(qū)別和聯(lián)系〔1〕聯(lián)系:兩者都是研究非確定性變量間的統(tǒng)計依賴關(guān)系,并能測度線性依賴程度的大小。他們有共同的研究對象,都是對變量間的相關(guān)關(guān)系的分析,二者可以相互補(bǔ)充,相關(guān)分析可以說明變量間的相關(guān)關(guān)系的性質(zhì)和程度,只有當(dāng)變量間存在相當(dāng)程度的相關(guān)分析時,進(jìn)展回歸分析,尋求變量間相關(guān)的具體數(shù)學(xué)形式才有意義。同時,在相關(guān)分析時,如果要具體確定變量間相關(guān)的具體數(shù)學(xué)形式,又要依賴于回歸分析,而且在多個變量的相關(guān)分析中,相關(guān)系數(shù)確實定也是建立在回歸分析的根底上的?!?〕區(qū)別:a、相關(guān)分析中變量的地位在相關(guān)分析中是對稱的,不考慮二者的因果關(guān)系,而且都是隨機(jī)變量;回歸分析中變量的地位是不對稱的,有自變量和因變量之分,而且自變量也往往被假設(shè)為非隨機(jī)變量。b、相關(guān)分析只關(guān)注變量間的聯(lián)系程度,不關(guān)注具體的依賴關(guān)系;而回歸分析則更加關(guān)注變量間的具體依賴關(guān)系。c、從研究的目的上看,相關(guān)分析時用一定的數(shù)量指標(biāo)〔相關(guān)系數(shù)〕度量相互聯(lián)系的方向和程度;而回歸分析卻是尋求變量間聯(lián)系的具體數(shù)學(xué)形式,是要根據(jù)自變量的固定值去估計和預(yù)測因變量的平均值。七、回歸分析主要解決的問題:〔1〕從一組數(shù)據(jù)出發(fā),確定出變量之間的數(shù)學(xué)關(guān)系式〔2〕對這些關(guān)系是的可信程度進(jìn)展各種統(tǒng)計檢驗,并不影響*一特定變量的諸多變量中找出哪些變量的影響是顯著的,哪些是不顯著的〔3〕利用所求的關(guān)系式,根據(jù)一個或幾個變量的取值來估計或預(yù)測另一個特定變量的取值,并給出這種估計或預(yù)測的置信度八、一元線性回歸模型的根本假定〔1〕誤差項ε是一個期望值為0的隨機(jī)變量,即E(ε)=0。對于一個給定的*值,y的期望值為E(y)=0+1*〔2〕對于所有的*值,ε的方差σ2都一樣〔3〕誤差項ε是一個服從正態(tài)分布的隨機(jī)變量,且相互獨(dú)立。即ε~N(0,σ2)獨(dú)立性意味著對于一個特定的*值,它所對應(yīng)的ε與其他*值所對應(yīng)的ε不相關(guān)。因此,對于一個特定的*值,它所對應(yīng)的y值與其他*所對應(yīng)的y值也不相關(guān)〔4〕因變量y與自變量*之間具有線性關(guān)系〔5〕在重復(fù)抽樣中,自變量*的取值是固定的,即假定*是非隨機(jī)的注:前三項也即在回歸分析中的誤差序列ε的根本假定九、參數(shù)的最小二乘估計的根本原理對于第i個*值,估計的回歸方程可表示為:對于*和y的n對觀察值,用于描述其關(guān)系的直線有多條,終究用哪條直線來代表兩個變量之間的關(guān)系,需要有一個明確的原則。我們自然會想到距離各觀測點(diǎn)最近的一條直線,用最小化觀察值與估計值的離差平方和來估計參數(shù)和的方法稱為最小二乘法,是使得因變量的觀察值與估計值之間的離差平方和到達(dá)最小來求得和的方法。十、回歸分析中模型參數(shù)的最小二乘估計和具有哪些統(tǒng)計特性.假設(shè)參數(shù)用于預(yù)測,影響預(yù)測精度的因素有哪些.〔1〕統(tǒng)計特性:a、線性,即估計量和為隨機(jī)變量的y的線性函數(shù)b、無偏性,和分別是和的無偏估計c、有效性,和是所有線性無偏估計量中具有最小方差的估計量〔2〕影響預(yù)測精度的因素:a、預(yù)測的信度要求,同樣的情況下,要求預(yù)測的把握度越高,則相應(yīng)的預(yù)測區(qū)間就越寬,精度就越低b、總體y分布的離散程度QUOTE。QUOTE越大,預(yù)測區(qū)間越寬,預(yù)測精度越低c、樣本觀測點(diǎn)的多少n。n越大,預(yù)測區(qū)間越窄,預(yù)測精度越高。d、樣本觀測點(diǎn)中,解釋變量*分布的離散程度,*分布越分散,越策精度越高e、預(yù)測點(diǎn)QUOTE離樣本分布中心QUOTE的距離。距離越遠(yuǎn),預(yù)測區(qū)間越寬,預(yù)測精度越低,反之越高。十一、解釋總平方和SST、回歸平方和SSR、殘差平方和SSE的含義,并說明它們之間的關(guān)系(1)用實際觀測值y與其均值QUOTE的離差平方和表示總平方和(SST),反映因變量的n個觀察值與其均值的總離差(2)回歸平方和(SSR)是回歸值QUOTE與均值QUOTE的離差平方和,反映是由于*與y之間的線性關(guān)系引起的y的取值變化局部,它是可以由回歸直線來解釋的y的變差局部(3)殘差平方和(SSE)是各實際觀測點(diǎn)與回歸值的殘差y-QUOTE的平方和,反映除*以外的其他因素對y變差的作用,也稱為不可由回歸直線來解釋的y變差局部三個平方和的關(guān)系為:SST=SSR+SSE十二、判定系數(shù)QUOTE的含義和作用〔1〕判定系數(shù)QUOTE指回歸平方和占總離差平方和的比例,公式為〔2〕反映回歸直線對觀測數(shù)據(jù)的擬合程度〔3〕如果所有觀測點(diǎn)都落在直線上,殘差平方和SSE=0,QUOTE=1,擬合是完全的;如果y的變化與*無關(guān),*無助于解釋y的變差,此時QUOTE=QUOTE,則QUOTE=0??梢?,QUOTE的取值*圍在[0,1]之間〔4〕R21,說明回歸平方和占總平方和的比例越大,回歸直線與各觀測點(diǎn)越接近,用*的變化來解釋y值變差的局部就越多,回歸方程擬合的越好;R20,說明回歸方程擬合的越差〔5〕判定系數(shù)等于相關(guān)系數(shù)的平方,即R2=(r)2十三、回歸分析結(jié)果的評價〔1〕所估計的回歸系數(shù)的符號與事先預(yù)期的一致?!?〕如果理論認(rèn)為y與*之間的關(guān)系不僅是正的,而且是統(tǒng)計上顯著的,則所建立的回歸方程也應(yīng)該如此?!?〕回歸模型在多大程度上解釋了因變量y取值的差異.可用判定系數(shù)來答復(fù)〔4〕考察關(guān)系誤差項ε的正態(tài)性假定是否成立,因為在對線性關(guān)系進(jìn)展F檢驗和對回歸系數(shù)進(jìn)展t檢驗時,都要求誤差項ε服從正太分布,否則,所用的檢驗程度將是無效的,檢驗ε正態(tài)性的簡單方法是畫出殘差直方圖。十四、估計標(biāo)準(zhǔn)誤差估計標(biāo)準(zhǔn)誤差是指均方殘差〔MSE〕的平方根。估計標(biāo)準(zhǔn)誤差是對各觀察點(diǎn)在直線周圍分散程度的一個度量值,它是對誤差項ε的標(biāo)準(zhǔn)差QUOTE的估計,計算公式為估計標(biāo)準(zhǔn)誤差QUOTE可以看做是在排除了*對y的線性影響后,y隨機(jī)波動大小的一個估計量。從估計標(biāo)準(zhǔn)誤差的實際意義看,它反映了用估計的回歸方差預(yù)測因變量y時預(yù)測誤差的大小。假設(shè)各觀測點(diǎn)越靠近直線,QUOTE越小,回歸直線對各觀測點(diǎn)的代表性就越好,根據(jù)估計的回歸方程進(jìn)展預(yù)測也就越準(zhǔn)確;假設(shè)各觀測點(diǎn)全部落在直線上則QUOTE=0。此時用自變量來預(yù)測因變量時是沒有誤差的?;貧w直線是對n個觀測點(diǎn)擬合的所有直線中,估計標(biāo)準(zhǔn)誤差最小的一條直線。十五、回歸分析中,F(xiàn)檢驗和t檢驗各有什么作用〔1〕一元回歸中,F(xiàn)檢驗的作用:線性關(guān)系的檢驗是檢驗自變量*和因變量y之間的線性關(guān)系是否顯著,或者說,他們之間能否用一個線性模型y=QUOTE+QUOTE*+ε來表示。t檢驗的作用:回歸系數(shù)的顯著性檢驗是要檢驗自變量對因變量的影響是否顯著的問題。〔2〕一元線性回歸中,自變量只有一個,F(xiàn)檢驗和t檢驗是等價的,也就是說,如果QUOTE:QUOTE=0被t檢驗拒絕,他也將被F檢驗拒絕。但在多元回歸分析中,這兩種檢驗的意義是不同的,F(xiàn)檢驗只是用來檢驗總體回歸系數(shù)的顯著性,而t檢驗則是檢驗各個回歸系數(shù)的顯著性十六、線性關(guān)系的檢驗步驟和回歸系數(shù)的檢驗步驟〔1〕線性關(guān)系的檢驗步驟:第一步:提出假設(shè),H0:1=0線性關(guān)系不顯著第二步:計算檢驗統(tǒng)計量F第三步:作出決策:確定顯著性水平,并根據(jù)分子自由度1和分母自由度n-2找出臨界值F假設(shè)F>F,拒絕H0;假設(shè)F<F,不拒絕H0〔2〕回歸系數(shù)的檢驗步驟:第一步:提出假設(shè)H0:b1=0(沒有線性關(guān)系)H1:b10(有線性關(guān)系)第二步:計算檢驗的統(tǒng)計量第三步:確定顯著性水平,并進(jìn)展決策t>t,拒絕H0;t<t,不拒絕H0十七、置信區(qū)間和預(yù)測區(qū)間的含義.二者的區(qū)別〔1〕置信區(qū)間指利用估計的回歸方程,對于自變量*的一個給定值*0,求出因變量y的平均值的估計區(qū)間(confidenceinterval)E(y0)在1-置信水平下的置信區(qū)間為〔2〕預(yù)測區(qū)間指利用估計的回歸方程,對于自變量*的一個給定值QUOTE,求出因變量y的一個個別值的估計區(qū)間(predictioninterval)y0在1-置信水平下的預(yù)測區(qū)間為〔3〕二者的區(qū)別:置信區(qū)間估計是求y的平均值的估計區(qū)間,而預(yù)測區(qū)間的估計是求y的一個個別值的區(qū)間估計;對同一個QUOTE,這兩個區(qū)間的寬度也是不一樣的。預(yù)測區(qū)間要比置信區(qū)間寬一些。十八、殘差分析的作用:〔1〕用于判斷有關(guān)模型的假定是否成立〔如誤差項ε的假定是否成立〕〔2〕用于分析回歸中的異常值和對模型有影響的觀測值十九、影響區(qū)間寬度的因素〔1〕置信水平〔1-〕,區(qū)間寬度隨置信水平的增大而增大。〔2〕數(shù)據(jù)的離散程度〔s〕,區(qū)間寬度隨s的增大而增大〔3〕樣本容量,區(qū)間寬度隨樣本容量的增大而減小〔4〕用于預(yù)測的QUOTE與QUOTE的差異程度,區(qū)間寬度隨QUOTE與QUOTE的差異程度的增大而增大第十一章多元線性回歸一、解釋多元線性回歸模型、回歸方程、和估計的多元回歸方程的含義〔1〕多元線性回歸模型:描述因變量y如何依賴于自變量*1,*2,…,*p和誤差項的方程,稱為多元回歸模型。涉及p個自變量的多元回歸模型可表示為y=QUOTE+QUOTEQUOTE+QUOTE+…+QUOTE+QUOTE其中,QUOTE是參數(shù),是誤差項〔2〕回歸方程:描述因變量y的平均值或期望值如何依賴于自變量的方程;多元線性回歸方程的形式為E(y)=QUOTE〔3〕估計的多元回歸方程:由于回歸方程中的QUOTE是不知道的,需要利用樣本數(shù)據(jù)去估計它們,當(dāng)我們用用樣本統(tǒng)計量QUOTE、QUOTE、QUOTE。。QUOTE估計回歸方程中的參數(shù)QUOTE時就得到了估計的多元線性回歸方程,其一般形式為:QUOTE=QUOTE+QUOTEQUOTE+QUOTE+…+QUOTEQUOTE、QUOTE、QUOTE。。QUOTE二、多元線性回歸模型中,對誤差項QUOTE有三個根本假定:〔1〕誤差項ε是一個期望值為0的隨機(jī)變量,即E(ε)=0。對于一個給定的的值,y的期望值為E(y)=QUOTE〔2〕對于所有的值,ε的方差σ2都一樣〔3〕誤差項ε是一個服從正態(tài)分布的隨機(jī)變量,且相互獨(dú)立。即ε~N(0,σ2)獨(dú)立性意味著對于自變量的值,它所對應(yīng)的ε與其他的任意一組其他值所對應(yīng)的ε不相關(guān)。正態(tài)性意味著對于給定的的值,因變量y也是一個服從正態(tài)分布的隨機(jī)變量三、多元線性回歸模型中的根本假定〔1〕誤差項ε是一個期望值為0的隨機(jī)變量,即E(ε)=0。對于一個給定的的值,y的期望值為E(y)=QUOTE〔2〕對于所有的值,ε的方差σ2都一樣〔3〕誤差項ε是一個服從正態(tài)分布的隨機(jī)變量,且相互獨(dú)立。即ε~N(0,σ2)獨(dú)立性意味著對于自變量的值,它所對應(yīng)的ε與其他的任意一組其他值所對應(yīng)的ε不相關(guān)。正態(tài)性意味著對于給定的的值,因變量y也是一個服從正態(tài)分布的隨機(jī)變量〔4〕自變量是非隨機(jī)的,固定的且相互之間互不相關(guān)〔無多重共線性〕四、假設(shè)這些假定不成立的應(yīng)對方法.〔1〕假設(shè)模型中存在多重共線性,解決的方法是:第一、將一個或多個相關(guān)的自變量從模型中剔除,使保存的自變量盡可能不相關(guān);第二、如果要在模型中保存所有的自變量,則應(yīng)防止根據(jù)t統(tǒng)計量對單個參數(shù)進(jìn)展檢驗;對因變量值的推斷(估計或預(yù)測)的限定在自變量樣本值的*圍內(nèi)〔2〕假設(shè)模型中存在序列相關(guān)時,解決的方法有:如果誤差項ε不是相互獨(dú)立的,則說明回歸模型存在序列相關(guān)性,這時首先要查明序列相關(guān)產(chǎn)生的原因,如果是回歸模型選用不當(dāng),則應(yīng)改用適當(dāng)?shù)哪P?;如果是缺少重要的自變量,則應(yīng)增加自變量;如果以上兩種方法都不能消除序列相關(guān)性,則需要采用迭代法,差分法等方法處理。〔3〕假設(shè)模型中存在異方差時,解決的方法有:當(dāng)存在異方差時,普通最小二乘估計不再具有最小方差線性估計的性質(zhì),而加權(quán)最小二乘估計則可以改進(jìn)估計的性質(zhì)。加權(quán)最小二乘估計對誤差項方差小的項加一個大的權(quán)數(shù),對誤差項方差大的項加一個小的權(quán)數(shù),因此加強(qiáng)了小方差性的地位,使離差平方和中各項的作用一樣。五、多元回歸中為什么需要用修正的判定系數(shù)來比較方程的擬合程度.如何計算由于自變量個數(shù)的增加,將影響到因變量中被估計的回歸方程所解釋的變差數(shù)量。當(dāng)增加自變量時,會使得預(yù)測誤差變得比較小,從而減少殘差平方和SSE,由于回歸平方和SSR=SST-SSE,當(dāng)SSE變小時,SSR就會變大,從而使R2變大。如果模型中增加一個自變量,即使這個自變量在統(tǒng)計上并不顯著,R2也會變大。因此,為防止增加自變量而高估R2,統(tǒng)計學(xué)家提出用樣本容量n和自變量p去修正R2,計算出修正的多重判定系數(shù)。修正后的判定系數(shù)不會由于模型中自變量個數(shù)的增加而越來越接近于1。其計算公式為:六、解釋多重判定系數(shù)R2和調(diào)整的多重判定系數(shù)的含義和作用.〔1〕多重判定系數(shù):是指回歸平方和占總平方和的比例。多重判定系數(shù)是估計多元線性回歸方程擬合程度的度量,反映了在因變量取值的變差中,能被估計的多元回歸方程所解釋的比例,計算公式為QUOTE=QUOTE=1-QUOTE(2)修正的多重判定系數(shù):是指用樣本容量n和自變量的個數(shù)p修正的多重判定系數(shù)。它同時考慮了樣本容量和模型中參數(shù)的個數(shù)p的影響,這就使得QUOTE的值永遠(yuǎn)小于QUOTE,而且QUOTE的值不會由于模型中自變量個數(shù)的增加而越來越接近1。七、多元線性回歸中,為什么對整個回歸方程進(jìn)展檢驗后,還要對每個回歸系數(shù)進(jìn)展檢驗.線性關(guān)系的檢驗主要是檢驗因變量同多個自變量的線性關(guān)系是否顯著,在p個自變量中,只要有一個自變量同因變量的線性關(guān)系顯著,F(xiàn)檢驗就通過,但這不一定意味著每個自變量同因變量的關(guān)系都顯著?;貧w系數(shù)檢驗則是對每個回歸系數(shù)分別進(jìn)展單獨(dú)的檢驗,它主要用于檢驗每個自變量對因變量的影響是否顯著。如果*個自變量沒有通過檢驗,這就意味著這個自變量對因變量的影響不顯著,也許就沒有必要將這個自變量放入回歸模型中了。八、F檢驗和t檢驗的區(qū)別:在一元線性回歸中,線性關(guān)系的檢驗〔F檢驗〕和回歸系數(shù)的檢驗〔t檢驗〕的等價的,但在多元回歸中,這兩種檢驗就不再等價。線性關(guān)系的檢驗主要是檢驗因變量同多個自變量的線性關(guān)系是否顯著,在p個自變量中,只要有一個自變量同因變量的線性關(guān)系顯著,F(xiàn)檢驗就通過,但這不一定意味著每個自變量同因變量的關(guān)系都顯著。回歸系數(shù)檢驗則是對每個回歸系數(shù)分別進(jìn)展單獨(dú)的檢驗,它主要用于檢驗每個自變量對因變量的影響是否顯著。如果*個自變量沒有通過檢驗,這就意味著這個自變量對因變量的影響不顯著,也許就沒有必要將這個自變量放入回歸模型中了。九、多重共線性及產(chǎn)生的問題〔即多重共線性對回歸分析的影響〕〔1〕含義:指回歸模型中兩個或兩個以上的自變量彼此相關(guān)時,稱回歸模型中存在多重共線性〔2〕存在的問題:首先、可能會使回歸的結(jié)果造成混亂,甚至?xí)逊治鲆肫缤?;其次、可能對參?shù)估計值的正負(fù)號產(chǎn)生影響,特別是各回歸系數(shù)的正負(fù)號有可能同我們與其的正負(fù)號相反十、如何識別多重共線性:檢測多重共線性的方法很多,其中最簡單的一種方法是計算模型中各自變量之間的相關(guān)系數(shù),并對各相關(guān)系數(shù)進(jìn)展顯著性檢驗,如果有一個或多個相關(guān)系數(shù)是顯著的,就表示模型中所使用的自變量之間相關(guān),因而存在多重共線性問題。具體的說,如果出現(xiàn)以下情況,暗示存在多重共線性:〔1〕模型中各對自變量之間顯著相關(guān)。〔2〕當(dāng)模型的線性關(guān)系檢驗(F檢驗)顯著時,幾乎所有回歸系數(shù)的t檢驗卻不顯著〔3〕回歸系數(shù)的正負(fù)號與其的相反十一、多元線性回歸中選擇自變量的方法有哪些:在多元線性回歸中,變量選擇的方法主要有:向前選擇、向后刪除、逐步回歸、最優(yōu)子集〔1〕向前選擇是從模型中沒有自變量開場,不停的向模型中增加自變量,直至增加自變量不能導(dǎo)致SSE顯著增加〔這個過程通過F檢驗來完成〕為止〔2〕向后刪除是與向前選擇相反,一直將自變量從模型中刪除,直至刪除一個自變量不會使 SSE顯著減小為止,這時,模型中所剩的自變量都是顯著的?!?〕逐步回歸是向前選擇和向后回歸的結(jié)合,不停的增加變量并開了剔除以前增加的變量的可能性,直至增加變量已經(jīng)不能導(dǎo)致SSE顯著減少第十一章事件序列分析和預(yù)測一、時間序列預(yù)測的程序在對時間序列進(jìn)展預(yù)測時,通常包括以下步驟:〔1〕確定時間序列所包含的成分,也就是確定時間序列的結(jié)果〔2〕找出適合此類時間序列的預(yù)測方法〔3〕對可能的預(yù)測方法進(jìn)展評估,以確定最正確預(yù)測方案〔4〕利用最正確預(yù)測方案進(jìn)展預(yù)測二、簡述平穩(wěn)序列和非平穩(wěn)序列的含義〔1〕平穩(wěn)序列是指根本上不存在趨勢的序列。平穩(wěn)序列中的各觀察值根本上在*個固定的水平上波動,雖然在不同時間段波動的程度不同,但并不存在*種規(guī)律,而其波動可以看成是隨機(jī)的?!?〕非平穩(wěn)序列是指包含趨勢性、季節(jié)性或周期性的序列,它可以是只含有其中的一種成分,也可能是幾種成分的組合。非平穩(wěn)序列又可以分為有趨勢的序列,有趨勢、季節(jié)性和周期性的序列,即復(fù)合型序列三、時間序列的構(gòu)成要素〔1〕時間序列在長時期內(nèi)呈現(xiàn)出來的*種持續(xù)向上或持續(xù)下降的變動,稱為趨勢,也稱長期趨勢時間序列在一年內(nèi)重復(fù)出現(xiàn)的周期性波動,稱為季節(jié)變動〔2〕時間序列中呈現(xiàn)出來的圍繞長期趨勢的一種波浪形或震蕩式變動,稱為周期性,或稱循環(huán)波動〔3〕時間序列中除去趨勢、周期性和季節(jié)變動之后的偶然性變動,稱為隨機(jī)性,也稱不規(guī)則變動這樣,可以將時間序列的構(gòu)成要素分為四種,即趨勢〔T〕、季節(jié)性或季節(jié)變動〔S〕、周期性或循環(huán)波動〔C〕、隨機(jī)性或不規(guī)則變動〔I〕四、增長率分析中應(yīng)注意的問題對于大多數(shù)時間序列,特別是有關(guān)社會經(jīng)濟(jì)現(xiàn)象的時間序列,我們經(jīng)常利用增長率來描述其增長狀況。盡管增長的計算與分析都比較簡單,但實際應(yīng)用中,有時也會出現(xiàn)誤用乃至濫用的情況。因此,在應(yīng)用增長率分析實際問題時,應(yīng)注意以下幾點(diǎn):首先,當(dāng)時間序列中的觀察值出現(xiàn)0或負(fù)數(shù)時,不宜計算增長率。對這一序列計算增長率,要么不符合數(shù)學(xué)公理,要么無法解釋其實際意義,在這種情況下,適宜直接用絕對數(shù)進(jìn)展分析。其次,在有些情況下,不能單純的就增長率論增長率,要注意增長率與絕對水平的結(jié)合分析五、簡述指數(shù)平滑法的根本含義〔1〕指數(shù)平滑法是對過去的觀察值加權(quán)平均進(jìn)展預(yù)測的一種方法,該方法使得第t期的指數(shù)平滑值等于第t期的實際觀察值與第t+1期指數(shù)平滑值的加權(quán)平均值?!?〕指數(shù)平滑法是加權(quán)平均的一種特殊形式,觀察值時間越遠(yuǎn),其權(quán)數(shù)也就跟著呈現(xiàn)指數(shù)的下降,因而成為指數(shù)平滑。指數(shù)平滑有一次指數(shù)平滑,二次指數(shù)平滑、三次指數(shù)平滑?!?〕使用指數(shù)平滑法時,關(guān)鍵的問題是確定一個適宜的平滑系數(shù)QUOTE。因為不同的QUOTE會對預(yù)測結(jié)果產(chǎn)生不同的影響。一般而言,當(dāng)時間序列有較大的隨機(jī)波動時,宜選較大的QUOTE,以便能很快地跟上近期的變化,當(dāng)時間序列比較平穩(wěn)時,宜選較小的QUOTE。但實際應(yīng)用時,還應(yīng)考慮預(yù)測誤差的大小,確定QUOTE時,可選擇幾個QUOTE進(jìn)展預(yù)測,然后找出預(yù)測誤差最小的作為最后的QUOTE值。六、復(fù)合型時間序列的預(yù)測步驟復(fù)合型序列是指含有趨勢性、季節(jié)性和周期性的序列,對這類序列進(jìn)展分析的傳統(tǒng)方法就是將時間序列的各個因素依次分解出來,并分別進(jìn)展分析。。分解法預(yù)測通常按照下面的步驟進(jìn)展:〔1〕確定并別離季節(jié)成分。計算季節(jié)指數(shù),以確定時間序列中的季節(jié)成分,然后將季節(jié)成分從時間序列中別離出去,即用每一個時間序列觀測值除以相應(yīng)的季節(jié)指數(shù),以消除季節(jié)性?!?〕建立預(yù)測模型并進(jìn)展預(yù)測,對消除了季節(jié)成分的時間序列建立適當(dāng)?shù)念A(yù)測模型,并根據(jù)這一模型進(jìn)展預(yù)測〔3〕計算出最后的預(yù)測值,用預(yù)測值乘以相應(yīng)的季節(jié)指數(shù),得到最終的預(yù)測值七、季節(jié)指數(shù)的計算方法—平均趨勢剔除法的根本步驟〔1〕計算移動平均值(季度數(shù)據(jù)采用4項移動平均,月份數(shù)據(jù)采用12項移動平均),并將其結(jié)果進(jìn)展“中心化〞處理,將移動平均的結(jié)果再進(jìn)展一次二項的移動平均,即得出“中心化移動平均值〞(CMA)〔2〕計算移動平均的比值。也成為季節(jié)比率,即將序列的各觀察值除以相應(yīng)的中心化移動平均值,然后再計算出各比值的季度(或月份)平均值,即季節(jié)指數(shù)〔3〕季節(jié)指數(shù)調(diào)整。各季節(jié)指數(shù)的平均數(shù)應(yīng)等于1或100%,假設(shè)根據(jù)第二步計算的季節(jié)比率的平均值不等于1時,則需要進(jìn)展調(diào)整。具體方法是:將第二步計算的每個季節(jié)比率的平均值除以它們的總平均值八、周期性分析的常用方法剩余法的具體計算步驟:先消去季節(jié)變動,求得無季節(jié)性資料再將結(jié)果除以由別離季節(jié)性因素后的數(shù)據(jù)計算得到的趨勢值,求得含有周期性及隨機(jī)波動的序列將結(jié)果進(jìn)展移動平均(MA),以消除不規(guī)則波動,即得循環(huán)波動值C=MA(C×I)第十三章指
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 豫章師范學(xué)院《油畫靜物技法與表現(xiàn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 珠海格力職業(yè)學(xué)院《藏文文法上》2023-2024學(xué)年第二學(xué)期期末試卷
- 遼寧石化職業(yè)技術(shù)學(xué)院《語文學(xué)科教育論》2023-2024學(xué)年第二學(xué)期期末試卷
- 西安歐亞學(xué)院《數(shù)據(jù)分析與可視化》2023-2024學(xué)年第二學(xué)期期末試卷
- 南京工業(yè)大學(xué)《建筑防火設(shè)計》2023-2024學(xué)年第二學(xué)期期末試卷
- 西安科技大學(xué)高新學(xué)院《汽車發(fā)展史》2023-2024學(xué)年第二學(xué)期期末試卷
- 遼寧工程技術(shù)大學(xué)《資產(chǎn)評估學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 四川航天職業(yè)技術(shù)學(xué)院《嵌入式系統(tǒng)設(shè)計與開發(fā)》2023-2024學(xué)年第二學(xué)期期末試卷
- 合肥信息技術(shù)職業(yè)學(xué)院《建筑類專業(yè)導(dǎo)論》2023-2024學(xué)年第二學(xué)期期末試卷
- 南華大學(xué)船山學(xué)院《素描半身帶手及全身像實踐教學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- ESAP法律英語教程全冊配套優(yōu)質(zhì)教學(xué)課件
- 水資源保護(hù)知識競賽試題及答案
- 道路清掃保潔-組織機(jī)構(gòu)框架圖、內(nèi)部分工
- PCB制程漲縮系數(shù)操作指引
- 標(biāo)準(zhǔn) DB37T 3690.1-2019 液體菌種制備技術(shù)規(guī)程 第1部分:香菇規(guī)范
- 2021五年級道德與法治培優(yōu)輔差計劃3篇
- 靜脈藥物配置中心課件
- 最新2022年減肥食品市場現(xiàn)狀與發(fā)展趨勢預(yù)測
- 發(fā)展?jié)h語初級綜合1:第30課PPT課件[通用]
- 馬工程西方經(jīng)濟(jì)學(xué)(第二版)教學(xué)課件-(4)
- 醫(yī)療廢物管理組織機(jī)構(gòu)架構(gòu)圖
評論
0/150
提交評論