統(tǒng)計(jì)學(xué)必知知識(shí)點(diǎn)合集_第1頁
統(tǒng)計(jì)學(xué)必知知識(shí)點(diǎn)合集_第2頁
統(tǒng)計(jì)學(xué)必知知識(shí)點(diǎn)合集_第3頁
統(tǒng)計(jì)學(xué)必知知識(shí)點(diǎn)合集_第4頁
統(tǒng)計(jì)學(xué)必知知識(shí)點(diǎn)合集_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)學(xué)知識(shí)點(diǎn)合集試驗(yàn)和事件:對(duì)某事物或現(xiàn)象所進(jìn)行的觀察或?qū)嶒?yàn)叫試驗(yàn),把結(jié)果叫事件.基本事件(elementaryevent):如果一個(gè)事件不能分解成兩個(gè)或更多個(gè)事件,就稱為基本事件。一次觀察只能有一個(gè)基本事件。樣本空間:一個(gè)試驗(yàn)中所有的基本事件的全體稱為樣本空間.古典概型:如果某一隨機(jī)試驗(yàn)的結(jié)果有限,而且各個(gè)結(jié)果出現(xiàn)的可能性相等,則某一事件A發(fā)生的概率為該事件所包含的基本事件個(gè)數(shù)m與樣本空間中所包含的基本事件個(gè)數(shù)n的比值。統(tǒng)計(jì)概型:在相同條件下隨機(jī)試驗(yàn)n次,某事件A出現(xiàn)m次(m≤n),則m/n稱為事件A發(fā)生的頻率。隨著n增大,該頻率圍繞某一常數(shù)p上下波動(dòng),且波動(dòng)幅度逐漸減小,趨于穩(wěn)定,這個(gè)頻率的穩(wěn)定值就是該事件的概率。概率加法:(1)兩個(gè)互斥事件:P(A+B)=P(A)+P(B);任意兩隨機(jī)事件:P(A+B)=P(A)+P(B)-P(AB)。事件獨(dú)立(independent):一個(gè)事件發(fā)生與否不會(huì)影響另一個(gè)事件發(fā)生的概率,公式為:P(AB)=P(A)P(B)?;コ猓ㄏ嘁蕾嚕┮欢ú华?dú)立,不獨(dú)立不一定互斥(相依賴)。全概率公式:根據(jù)某一事件發(fā)生的各種原因的概率,計(jì)算該事件的概率。計(jì)算公式為:。貝葉斯公式:在條件概率的基礎(chǔ)上尋找事件發(fā)生的原因.計(jì)算公式為:

,分母就是全概率公式.也稱為逆概率公式。該公式是在觀察到事件B已發(fā)生的條件下,尋找導(dǎo)致A發(fā)生的每個(gè)原因Ai的概率。P(Ai)稱為驗(yàn)前概率,P(Ai|B)是驗(yàn)后概率。0—1分布:。0—1分布也稱為兩點(diǎn)分布,即非A即B。關(guān)于是否的概率統(tǒng)統(tǒng)是0-1分布。性別。二項(xiàng)分布:現(xiàn)實(shí)生活中,許多事件只是具有兩種互斥結(jié)果的離散變量。如男性和女性、某種化驗(yàn)結(jié)果的陰性陽性,這就是二項(xiàng)分布..參數(shù)為n,p,記為X~B(n,p)。E(X)=np,D(X)=npq。當(dāng)成功的概率很小,而試驗(yàn)次數(shù)很大時(shí),二項(xiàng)分布接近泊松分布,此時(shí)=np。即P≤0.25,n>20,np≤5.二項(xiàng)定理近似服從正態(tài)分布。二項(xiàng)分布是0—1分布的n重實(shí)驗(yàn),表示含量為n的樣本中,有X個(gè)所需結(jié)果的概率。二項(xiàng)分布的正態(tài)近似:

,其中a=,b=,q=1-p。超幾何分布:.即二項(xiàng)分布中,無放回的情況。泊松分布(poissondistribution):用來描述在一指定時(shí)間范圍內(nèi)或在指定的面積之內(nèi)某事件出現(xiàn)的次數(shù)的分布。如某企業(yè)中每月發(fā)生的事故次數(shù)、單位時(shí)間內(nèi)到達(dá)某一服務(wù)柜臺(tái)需要服務(wù)的顧客人數(shù)、人壽保險(xiǎn)公司每天收到的死亡聲明個(gè)數(shù)、某種儀器每月出現(xiàn)故障的次數(shù)等。公式為:,E(X)=,D(X)=。是給定時(shí)間間隔內(nèi)事件的平均數(shù)。期望:各可能值xi與其對(duì)應(yīng)概率pi的乘積之和為該隨機(jī)變量X的期望,即。概率密度滿足的條件:(1)f(x)≥0;(2)。連續(xù)型隨機(jī)變量的概率密度是其分布函數(shù)的倒數(shù)。。;

.正態(tài)分布(normaldistribution):正態(tài)分布的概率密度為:,x∈R.記作X~().正態(tài)分布圖形特點(diǎn):(1)f(x)≥0,即整個(gè)概率密度曲線都在x軸上方;(2)f(x)相對(duì)于x=對(duì)稱,并在x=處取到最大值,最大值為;(3)曲線的陡緩由σ決定,σ越大,越平緩,σ越小,曲線越陡峭;(4)當(dāng)x趨于無窮時(shí),曲線以x軸為漸近線。正態(tài)分布的例子:某地區(qū)同年齡組兒童的發(fā)育特征、某公司的銷售量、同一條件下產(chǎn)品的質(zhì)量以平均質(zhì)量為中心上下擺動(dòng)、特別差和特別好的都是少數(shù),多數(shù)在中間狀態(tài),如人群中的高個(gè)子和矮個(gè)子都是少數(shù),中等身材居多等.標(biāo)準(zhǔn)正態(tài)分布,即在正態(tài)分布中,=0,σ=1,有,即X~N(0,1).用表示分布函數(shù),表示概率密度。(—x)=1—(x)。方差:即每個(gè)隨機(jī)變量取值與期望值的離差平方的期望值.隨機(jī)變量的方差計(jì)算公式為:。標(biāo)準(zhǔn)差:隨機(jī)變量的方差的平方根為標(biāo)準(zhǔn)差,記。標(biāo)準(zhǔn)差與隨機(jī)變量X有相同的度量單位。期望、標(biāo)準(zhǔn)差、離散系數(shù)的使用:如果期望相同,那么比較標(biāo)準(zhǔn)差;如果期望不同,那么比較離散系數(shù).3σ準(zhǔn)則:由標(biāo)準(zhǔn)正態(tài)分布得:當(dāng)X~N(0,1)時(shí),P(|X|≤1)=2(1)—1=0.6826;P(|X|≤2)=2(2)-1=0.9545;P(|X|≤3)=2(3)-1=0.9973.這說明X的取值幾乎全部集中在[-3,3]之間,超出這個(gè)范圍的不到0.3%。將結(jié)論推廣到一般正態(tài),即X~N(,σ)時(shí),有P(|X-|≤σ)=0。6826;P(|X-|≤2σ)=0。9545;P(|X—|≤3σ)=0。9973.可以認(rèn)為X的值一定落在(—3σ,+3σ)內(nèi).矩:(1)為樣本k階矩,其反映出總體k階矩的信息,當(dāng)k=1時(shí),即均值;(2)為樣本k階中心矩,它反映出總體k階中心矩的信息,當(dāng)k=2時(shí),即方差;(3)為樣本偏度,它反映總體偏度的信息,偏度反映了隨機(jī)變量密度函數(shù)曲線在眾數(shù)兩邊的對(duì)稱偏斜性;

(4)為樣本峰度,它反映出總體峰度的信息,峰度反映密度函數(shù)曲線在眾數(shù)附近的峰的尖峭程度。充分統(tǒng)計(jì)量:統(tǒng)計(jì)量加工過程中一點(diǎn)信息都不損失的統(tǒng)計(jì)量稱為充分統(tǒng)計(jì)量。因子分解定理:充分統(tǒng)計(jì)量判定方法.當(dāng)X=(X1,X2,…,Xn)是來自正態(tài)分布N(,σ2)的一個(gè)樣本時(shí),若已知,則是σ2的充分統(tǒng)計(jì)量,若σ2已知,則是的充分統(tǒng)計(jì)量。精確抽樣分布和漸近分布:在總體X的分布類型已知時(shí),若對(duì)任一自然數(shù)n,都能導(dǎo)出統(tǒng)計(jì)量T=(X1,X2,…,Xn)的分布數(shù)學(xué)表達(dá)式,這種分布就是精確抽樣分布,包括卡方、F,t分布;當(dāng)n較大時(shí),用極限分布作為抽樣分布的一種近似,這種極限分布稱為漸近分布,如中心極限定理.卡方分布:設(shè)隨機(jī)變量X1,X2,…,Xn相互獨(dú)立,且Xi服從標(biāo)準(zhǔn)正態(tài)分布N(0,1),則它們的平方和服從自由度為n的分布。E()=n;D()=2n;具有可加性;當(dāng)自由度增加到足夠大時(shí),分布的概率密度曲線趨于對(duì)稱,當(dāng)n趨于無窮時(shí),的極限分布是正態(tài)分布。t分布:也稱為學(xué)生氏分布。設(shè)隨機(jī)變量X~N(0,1),Y~(n),且X與Y獨(dú)立,則,其分布稱為t分布,記為t(n),n是自由度。t分布的密度函數(shù)是偶函數(shù)。當(dāng)n≥2時(shí),E(t)=0,;當(dāng)n≥3時(shí),D(t)=n/(n-2)。t(n)的方差比N(0,1)大一些.自由度為1的分布稱為柯西分布,隨著n增加,t分布的密度函數(shù)越來越接近標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù)。實(shí)際應(yīng)用中,當(dāng)n≥30時(shí),t分布于標(biāo)準(zhǔn)正態(tài)分布很接近。另有一個(gè)關(guān)于t分布的抽樣分布:,稱為服從自由度為(n-1)的t分布。F分布:設(shè)隨機(jī)變量Y與Z獨(dú)立,且Y和Z分別服從自由度為m和n的分布,隨機(jī)變量X如下:。則成X服從第一自由度為m,第二自由度為n的F分布,記為X~F(m,n)。E(X)=n/(n—2),n>2;D(X)=,n>4。t分布與F分布的關(guān)系:如果隨機(jī)變量X服從t(n)分布,則X2服從F(1,n)的F分布。這在回歸系數(shù)顯著性檢驗(yàn)中有用。的抽樣分布(samplingdistribution):當(dāng)總體分布為正態(tài)分布時(shí),的抽樣分布仍然是正態(tài)分布,此時(shí)E()=,D()=σ2/n,則。其說明當(dāng)用樣本均值去估計(jì)總體均值時(shí),平均來說沒有偏差(無偏性);當(dāng)n越來越大時(shí),的散布程度越來越小,即用估計(jì)越來越準(zhǔn)確.中心極限定理(centrallimittheorem):不管總體的分布是什么,只要總體的方差σ2有限且要求n≥30,此時(shí)樣本均值的分布總是近似正態(tài)分布,即~N(,σ2/n).樣本比例的抽樣分布:如果在樣本大小為n的樣本中具有某一特征的個(gè)體數(shù)為X,則樣本比例為:.π是總體比例,即p^=X/n=π.兩個(gè)樣本均值之差的分布:若為兩個(gè)總體,則:

;

;若是兩個(gè)樣本,則:

;

。樣本方差的分布:設(shè)X1,X2,…,Xn為來自正態(tài)分布的樣本,則設(shè)總體分布為N(,σ2),則樣本方差S2的分布為:。兩個(gè)樣本方差比的分布:設(shè)X1,X2,…,Xn是來自正態(tài)分布的樣本,y1,y2,…,yn也是來自正態(tài)分布的樣本,且Xi與yi獨(dú)立,則

。參數(shù)估計(jì)(parameterestimation):用樣本統(tǒng)計(jì)量去估計(jì)總體的參數(shù).點(diǎn)估計(jì)(pointestimate):用樣本統(tǒng)計(jì)量的某個(gè)取值直接作為總體參數(shù)的估計(jì)值.區(qū)間估計(jì)(intervalestimate):是在點(diǎn)估計(jì)的基礎(chǔ)上,給出總體參數(shù)估計(jì)的而一個(gè)區(qū)間范圍,該區(qū)間通常由樣本統(tǒng)計(jì)量加減估計(jì)誤差得到.置信區(qū)間(confidenceinterval):在區(qū)間估計(jì)中,由樣本統(tǒng)計(jì)量所造成的總體參數(shù)的估計(jì)區(qū)間稱為置信區(qū)間。置信水平(confidencelevel):如果將構(gòu)造置信區(qū)間的步驟重復(fù)多次,置信區(qū)間中包含總體參數(shù)真值的次數(shù)所占的比例為置信水平,也稱為置信度或置信系數(shù)。其含義為:如果做了100次抽樣,大概有95次找到的區(qū)間包含真值,而不是95%的可能落在區(qū)間,因?yàn)榻y(tǒng)計(jì)量不涉及概率問題。無偏性(inbiasedenss):指估計(jì)量抽樣分布的期望等于被估計(jì)的總體參數(shù)。設(shè)總體參數(shù)為θ,估計(jì)量為θ^,如果E(θ^)=θ,則稱θ^為θ的無偏估計(jì)量。有效性(efficiency):指對(duì)同一總體參數(shù)的兩個(gè)無偏估計(jì)量,有更小標(biāo)準(zhǔn)差的估計(jì)量更有效.一致性(consistency):指隨著樣本量的增大,點(diǎn)估計(jì)量的值越來越接近被估總體的參數(shù),換個(gè)說法,一個(gè)大樣本給出的估計(jì)量要比一個(gè)小樣本給出的估計(jì)量更接近總體參數(shù)。樣本量與置信水平、總體方差和估計(jì)誤差的關(guān)系:樣本量與置信水平成正比,在其他條件不變的情況下,置信水平越大,所需的樣本量也就越大;樣本量與總體方差成正比,總體的差異越大,所要求的樣本量也越大;樣本量與估計(jì)誤差的平方成反比,即可接受的估計(jì)誤差的平方越大,所需的樣本量就越小。圓整法則:將樣本量取成較大的整數(shù),也就是將小數(shù)點(diǎn)后面的數(shù)值一律進(jìn)位成整數(shù).兩類錯(cuò)誤:一類是原假設(shè)H0為真卻拒絕,這類錯(cuò)誤用α表示,稱為棄真;另一類是原假設(shè)為偽而我們卻接受,這種錯(cuò)誤用β表示,也稱存?zhèn)?兩類錯(cuò)誤的控制原則:如果減小α錯(cuò)誤,就會(huì)增大犯β錯(cuò)誤的機(jī)會(huì);若減小β錯(cuò)誤,也會(huì)增大犯α錯(cuò)誤的機(jī)會(huì).規(guī)則是:首先控制α錯(cuò)誤,這是因?yàn)樵僭O(shè)是什么常常是明確的,而備擇假設(shè)是什么則常常是模糊的.P值:P值是當(dāng)原假設(shè)為真時(shí)所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的概率。P值越小,拒絕原假設(shè)的理由就越充分。P值的長(zhǎng)處是它反映了觀察到的實(shí)際數(shù)據(jù)與原假設(shè)之間不一致的概率值.雙側(cè)檢驗(yàn)與單側(cè)檢驗(yàn):雙側(cè)檢驗(yàn)主要是檢驗(yàn)是否相等,如90年的嬰兒體重與89年嬰兒體重是否相等;另一種是單側(cè)檢驗(yàn),即關(guān)心的假設(shè)問題帶有方向性,如燈泡的使用壽命,汽車行駛距離等;另一種是數(shù)值越小越好,如廢品率、生產(chǎn)成本等。統(tǒng)計(jì)量的選擇:在一個(gè)總體參數(shù)的檢驗(yàn)中,主要統(tǒng)計(jì)量有三個(gè),z、t和.z和t用于均值和比例檢驗(yàn),用于方差檢驗(yàn)。統(tǒng)計(jì)量選擇步驟如下:(1)是否是大樣本,如果是,那么如果總體呈正態(tài)分布,樣本統(tǒng)計(jì)量也呈正態(tài)分布;如果總體不呈正態(tài)分布,樣本統(tǒng)計(jì)量漸進(jìn)服從正態(tài)分布;此時(shí)可以使用z統(tǒng)計(jì)量(2)如果是小樣本,那么觀察σ,如果σ已知,樣本統(tǒng)計(jì)量將服從正態(tài)分布,此時(shí)可以用z統(tǒng)計(jì)量(3)如果未知σ,則只能使用樣本標(biāo)準(zhǔn)差,樣本統(tǒng)計(jì)量服從t分布,應(yīng)采用t統(tǒng)計(jì)量。t統(tǒng)計(jì)量的精度不如z統(tǒng)計(jì)量,這是總體信息σ未知所需要付出的代價(jià).總體比例檢驗(yàn)公式:。P為樣本比例,π0是總體比例π的假設(shè)值.總體(population):包含所研究的全部個(gè)體的集合,組成總體的每一個(gè)元素稱為個(gè)體。當(dāng)總體的范圍難以確定時(shí),可根據(jù)研究的目的來定義總體.樣本(sample):樣本是從總體中抽取的一部分元素的集合,構(gòu)成樣本的元素的數(shù)目稱為樣本量.參數(shù)(parameter):參數(shù)是用來描述總體特征的概括性數(shù)字度量。統(tǒng)計(jì)量(statistic):統(tǒng)計(jì)量是用來描述樣本特征的概括性數(shù)字度量.抽樣的目的就是根據(jù)樣本統(tǒng)計(jì)量估計(jì)總體參數(shù)。統(tǒng)計(jì)量中不能包含未知參數(shù)。變量(variable):說明現(xiàn)象某種特征的概念,特點(diǎn)是從一次觀察到下一次觀察結(jié)果會(huì)呈現(xiàn)出差別或變化。變量分為分類變量、順序變量、數(shù)值型變量,數(shù)值型變量又分為離散型變量和連續(xù)型變量。概率抽樣(probabilitysampling):也稱隨機(jī)抽樣,指遵循隨機(jī)原則進(jìn)行的抽樣,總體中每個(gè)單位都有一定的機(jī)會(huì)被選入樣本。概率抽樣分為簡(jiǎn)單隨機(jī)抽樣、分層抽樣、整群抽樣、系統(tǒng)抽樣和多階段抽樣。簡(jiǎn)單隨機(jī)抽樣(simplerandomsampling):從包括總體N個(gè)單位的抽樣框中隨機(jī)的一個(gè)一個(gè)的抽取n個(gè)單位作為樣本,每個(gè)單位的入樣概率是相等的。非概率抽樣(non-simplerandomsampling):指抽取樣本時(shí)不依據(jù)隨機(jī)原則,而是根據(jù)研究目的對(duì)數(shù)據(jù)的要求,采用某種方式從總體中抽出部分單位對(duì)其實(shí)施調(diào)查。包括方便抽樣、判斷抽樣、自愿樣本、滾雪球抽樣和配額抽樣。抽樣誤差(samplingerror):指由于抽樣的隨機(jī)性引起的樣本結(jié)果與總體真值之間的誤差。頻數(shù)(frequency):是落在某一特定類別或組中的數(shù)據(jù)個(gè)數(shù)。把各個(gè)類別及落在其中的相應(yīng)頻數(shù)全部列出,并用表格形式表現(xiàn)出來,稱為頻數(shù)分布。列聯(lián)表(contingencytable)和交叉表(crosstable):由兩個(gè)或兩個(gè)以上變量交叉分類的頻數(shù)分布表稱為列聯(lián)表.二維的列聯(lián)表又稱為交叉表。帕累托圖(paretochart):按各類別數(shù)據(jù)出現(xiàn)的頻數(shù)多少排序后繪制的條形圖。通過對(duì)條形圖排序,容易看出哪類數(shù)據(jù)出現(xiàn)得多,哪類數(shù)據(jù)出現(xiàn)的少.餅圖(piechart):是用圓形及圓內(nèi)扇形的角度來表示數(shù)值大小的圖形,它主要用于表示一個(gè)樣本中各組成部分的數(shù)據(jù)站全部數(shù)據(jù)的比例,對(duì)于研究結(jié)構(gòu)性問題十分有用.環(huán)形圖(doughnutchart):把餅圖疊在一起,挖去中間部分就是環(huán)形圖。環(huán)形圖可顯示多個(gè)樣本部分所占的相應(yīng)比例,從而有利于構(gòu)成的比較研究。累積頻數(shù)(cumulativefrequencies):將各種有序類別或組的頻數(shù)逐級(jí)累加起來得到的頻數(shù),通過累積頻數(shù)可以很容易看出某一類別以下或某一類別以上的頻數(shù)之和。組中值(classmidpoint):是每一組中下限值與上限值中間的值,組中值可以作為該組數(shù)據(jù)的一個(gè)代表值,但是用組中值有一個(gè)必要的假定條件,即各組數(shù)據(jù)在本組內(nèi)呈均勻分布或在組中值兩側(cè)呈對(duì)稱分布,否則會(huì)產(chǎn)生誤差.直方圖(histogram):適用于展示分組數(shù)據(jù)分布的圖形,用于大批量數(shù)據(jù)的分析。莖葉圖(stem-and—leafdisplay):反映原始數(shù)據(jù)分布的圖形,由莖葉兩部分組成,其圖形是由數(shù)字組成的??梢钥闯鰯?shù)據(jù)的分布形狀及數(shù)據(jù)的離散情況且能保留原始信息,適用于小數(shù)據(jù)。箱線圖(box-plot):由最大值、最小值、中位數(shù)、兩個(gè)四分位數(shù)組成,主要用于反應(yīng)原始數(shù)據(jù)分布的特征,還可以進(jìn)行多組數(shù)據(jù)分布特征的比較。線圖(lineplot):主要用于反應(yīng)現(xiàn)象隨時(shí)間變化的特征.散點(diǎn)圖(scatterdiagram):用二維坐標(biāo)展示兩個(gè)變量之間關(guān)系的圖形。氣泡圖(bubblechart):可用于展示三個(gè)變量之間的關(guān)系。一個(gè)變量是橫軸、一個(gè)變量是縱軸、一個(gè)變量用氣泡大小表示。雷達(dá)圖(radarchart):也稱蜘蛛圖。設(shè)有n組樣本S1,S2…Sn,每個(gè)樣本測(cè)得P個(gè)變量X1,X2…XP,要繪制這P個(gè)變量的雷達(dá)圖,具體做法是,先畫一個(gè)圓,然后將圓P等分,得到P個(gè)點(diǎn),令這P個(gè)點(diǎn)分別對(duì)應(yīng)P個(gè)變量,再將這P個(gè)點(diǎn)與圓心連線,得到P個(gè)輻射狀的半徑,這P個(gè)半徑分別作為P個(gè)變量的坐標(biāo)軸,每個(gè)變量值的大小由半徑上的點(diǎn)到圓心的距離表示,再將同一樣本的值在P個(gè)坐標(biāo)上的點(diǎn)連線.這樣,n個(gè)樣本構(gòu)成的n個(gè)多邊形就是雷達(dá)圖。雷達(dá)圖在顯示或?qū)Ρ雀髯兞康臄?shù)值總和時(shí)十分有用,假定各變量的取值具有相同的正負(fù)號(hào),則總的絕對(duì)值與圖形所圍成的區(qū)域成正比.此外,利用雷達(dá)圖可以研究多個(gè)樣本之間的相似度。眾數(shù)(mode):一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值,用表示.主要用于測(cè)度分類數(shù)據(jù)、順序數(shù)據(jù)、數(shù)值數(shù)據(jù)的集中趨勢(shì),不受極端值影響,一組數(shù)據(jù)分布的最高峰點(diǎn)所對(duì)應(yīng)的數(shù)值即為眾數(shù).只有在數(shù)據(jù)量較大時(shí),眾數(shù)才有意義。中位數(shù)(median):中位數(shù)時(shí)一組數(shù)據(jù)排序后處于中間位置上的變量值,用表示。中位數(shù)主要用于測(cè)度順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)的集中趨勢(shì),但不適用于分類數(shù)據(jù)。中位數(shù)位置為:(n+1)/2;中位數(shù)的值為.中位數(shù)是一個(gè)位置代表值,其特點(diǎn)是不受極端值影響,在研究收入分配時(shí)很有用。平均數(shù)也稱為均值(mean),是集中趨勢(shì)的最主要測(cè)度值,主要適用于數(shù)值型數(shù)據(jù),不適用于分類數(shù)據(jù)和順序數(shù)據(jù).平均數(shù)分為簡(jiǎn)單平均數(shù)和加權(quán)平均數(shù),簡(jiǎn)單平均數(shù)(simplemean)的計(jì)算公式為:.根據(jù)分組數(shù)據(jù)計(jì)算的平均數(shù)稱為加權(quán)平均數(shù)(weightedmean).設(shè)原始數(shù)據(jù)被分為k組,各組的組中值分別用表示,各組變量值出現(xiàn)的品數(shù)分別用表示,則樣本加權(quán)平均數(shù)的計(jì)算公式為:,其中n=。平均數(shù)是一組數(shù)據(jù)的重心所在,是數(shù)據(jù)誤差相互抵消后作用的結(jié)果.幾何平均數(shù)(geometricmean):是n個(gè)變量值乘積的n次方根,用G表示,計(jì)算公式為:。幾何平均數(shù)主要用于計(jì)算平均率,當(dāng)所掌握的變量值本身是比率的形式時(shí),采用幾何平均法更合理。在實(shí)際中,幾何平均數(shù)主要用于計(jì)算現(xiàn)象的平均增長(zhǎng)率。異眾比率(variationratio):指非眾數(shù)組的頻數(shù)占總頻數(shù)的比例,用表示,計(jì)算公式為:.fm是眾數(shù)組的頻數(shù),fi是變量值的總頻數(shù).異眾比率主要用于衡量眾數(shù)對(duì)一組數(shù)據(jù)的代表程度.異眾比率越大,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大,眾數(shù)的代表性越差;異眾比率越小,非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越小,眾數(shù)的代表性越好。異眾比率可用于分類數(shù)據(jù)、順序數(shù)據(jù)和數(shù)值型數(shù)據(jù).四分位差(quartiledeviation):也稱為內(nèi)距或四分間距(inter—quartilerange):是上四分位數(shù)與下四分位數(shù)之差,用表示,計(jì)算公式為:.四分位差反映了中間50%數(shù)據(jù)的離散程度,其數(shù)值越小,中間的數(shù)越集中;數(shù)值越大,中間的數(shù)越分散.四分位數(shù)不受極值影響??捎糜陧樞驍?shù)據(jù)和數(shù)值數(shù)據(jù),但不能用于分類數(shù)據(jù)。極差(range):也稱為全距,用R表示,指一組數(shù)據(jù)的最大值和最小值之差.計(jì)算公式為:.極差容易受極端值影響。平均差(meandeviation):也稱為平均絕對(duì)離差(meanabsolutedeviation):是各變量值與其平均數(shù)離差絕對(duì)值的平均數(shù)。用表示.平均差以平均數(shù)為中心,反應(yīng)了每個(gè)數(shù)據(jù)與平均數(shù)的平均差異程度,能全面反應(yīng)一組數(shù)據(jù)的平均差異程度,但由于為避免出現(xiàn)0而取絕對(duì)值,所以實(shí)際中應(yīng)用較少。

根據(jù)未分組數(shù)據(jù)計(jì)算平均差的公式為:;

根據(jù)分組數(shù)據(jù)計(jì)算平均差的公式為:。方差(variance)與標(biāo)準(zhǔn)差(standardvariance):方差是各變量值與其平均數(shù)離差平方的平均數(shù).方差的平方根是標(biāo)準(zhǔn)差.設(shè)樣本方差為,根據(jù)分組和未分組數(shù)據(jù)計(jì)算樣本方差的公式為:,其中n-1是自由度.標(biāo)準(zhǔn)差更具有實(shí)際意義.自由度(degreeoffreedom):自由度指附加各獨(dú)立的觀測(cè)值的約束或限制的個(gè)數(shù)。當(dāng)樣本數(shù)據(jù)的個(gè)數(shù)為n時(shí),若樣本平均數(shù)確定后,則附加給n個(gè)觀測(cè)值的約束個(gè)數(shù)是1個(gè),因此只有n-1個(gè)數(shù)據(jù)可以自由取值。例如,假定樣本有3個(gè)數(shù),2,4,9,則=5,那么如果前兩個(gè)值取5和8,則第三個(gè)數(shù)必須取2才能使=5,所以有一個(gè)數(shù)是不能自由取值的,所以自由度是n-1.標(biāo)準(zhǔn)分?jǐn)?shù)(standardscore):是變量值與其平均數(shù)的離差除以標(biāo)準(zhǔn)差后的值,也稱為標(biāo)準(zhǔn)化值或z分?jǐn)?shù),計(jì)算公式為:.標(biāo)準(zhǔn)分?jǐn)?shù)給出了一組數(shù)據(jù)中各數(shù)值的相對(duì)位置.比如,如果某個(gè)數(shù)值的標(biāo)準(zhǔn)分?jǐn)?shù)為-1.5,就知道該數(shù)值低于平均數(shù)1.5倍的標(biāo)準(zhǔn)差.標(biāo)準(zhǔn)分?jǐn)?shù)具有均值為0,標(biāo)準(zhǔn)差為1的特性,實(shí)際上z分?jǐn)?shù)只是對(duì)數(shù)據(jù)進(jìn)行了線性轉(zhuǎn)換。用于數(shù)據(jù)標(biāo)準(zhǔn)化和檢測(cè)離散數(shù)據(jù)。經(jīng)驗(yàn)法估計(jì)數(shù)據(jù)的相對(duì)位置:當(dāng)一組數(shù)據(jù)對(duì)稱分布時(shí),約有68%的數(shù)據(jù)在平均數(shù)±1個(gè)標(biāo)準(zhǔn)差內(nèi);約有95%的數(shù)據(jù)在平均數(shù)±2個(gè)標(biāo)準(zhǔn)差內(nèi);約有99%的數(shù)據(jù)在平均數(shù)±3個(gè)標(biāo)準(zhǔn)差內(nèi)。三個(gè)標(biāo)準(zhǔn)差之外的數(shù)據(jù)稱為離群點(diǎn)。切比雪夫不等式(Chebyshev’sinequality):經(jīng)驗(yàn)法只適合對(duì)稱分布數(shù)據(jù),而切比雪夫不等式適用于任何分布的數(shù)據(jù),但只給了下界,即所占比例至少是多少。切比雪夫不等式公式為:.根據(jù)該公式可知,至少有(1-1/2)個(gè)數(shù)據(jù)落在k個(gè)標(biāo)準(zhǔn)差之內(nèi),對(duì)于k=2,該不等式的含義是,至少有75%的數(shù)據(jù)落在±2個(gè)標(biāo)準(zhǔn)差之內(nèi)。離散系數(shù):也稱為變異系數(shù)(coefficientofvariation),是一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的平均數(shù)之比,計(jì)算公式為:。離散系數(shù)是測(cè)度數(shù)據(jù)離散程度的相對(duì)統(tǒng)計(jì)量,主要是用于比較不同樣本數(shù)據(jù)的離散程度。離散系數(shù)大,說明數(shù)據(jù)的離散程度大。離散系數(shù)是比較平均水平不同或計(jì)量單位不同的不同組別的變量值的離散程度.離散測(cè)度總結(jié):分類數(shù)據(jù)主要用異眾比率來測(cè)度離散程度;順序數(shù)據(jù)主要用四分位數(shù)來測(cè)度離散程度;數(shù)值數(shù)據(jù)主要用方差和標(biāo)準(zhǔn)差測(cè)度離散程度;而對(duì)于不同的樣本數(shù)據(jù),用離散系數(shù)比較離散程度。偏態(tài)(skewness):偏態(tài)是對(duì)數(shù)據(jù)分布對(duì)稱性的測(cè)度。測(cè)度偏態(tài)的統(tǒng)計(jì)量是偏態(tài)系數(shù)(coefficientofskewness),記作SK。根據(jù)未分組和分組的原始數(shù)據(jù)計(jì)算偏態(tài)系數(shù)的公式為:。如果一組數(shù)據(jù)的分布是對(duì)稱的,則偏態(tài)系數(shù)等于0,表明分布是對(duì)稱的,若偏態(tài)系數(shù)大于1或小于—1,則稱為高度偏態(tài)分布;若偏態(tài)系數(shù)在0。5~1或-1~-0.5,則是中等偏態(tài)分布。根據(jù)分組的SK公式中,很明顯是將離差的三次方的平均數(shù)除以,是將偏態(tài)系數(shù)轉(zhuǎn)化為相對(duì)數(shù)。相對(duì)數(shù):是兩個(gè)有聯(lián)系的指標(biāo)的比值,它可以從數(shù)量上反映兩個(gè)相互聯(lián)系的現(xiàn)象之間的對(duì)比關(guān)系.峰態(tài)(kurtosis):是對(duì)數(shù)據(jù)分布平峰或尖峰程度的測(cè)度。測(cè)度峰態(tài)的統(tǒng)計(jì)量是峰態(tài)系數(shù)(coefficientofkurtosis),記作K。峰態(tài)通常與標(biāo)準(zhǔn)正態(tài)分布比較而言的。如果數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布,則峰度為0,否則為平峰分布或尖峰分布。根據(jù)未分組和分組數(shù)據(jù)計(jì)算峰態(tài)系數(shù)的公式為:,

。當(dāng)K〉0時(shí)為尖峰分布,數(shù)據(jù)的分布更集中;當(dāng)K<0時(shí)為扁平分布,數(shù)據(jù)的分布越分散。分組公式中也可以不減3,此時(shí)比較的標(biāo)準(zhǔn)是3。分布:主要用于對(duì)兩個(gè)定類變量之間的關(guān)系的分析.對(duì)定類變量進(jìn)行分析,一般是把檢驗(yàn)問題進(jìn)行轉(zhuǎn)化,通過考察頻數(shù)與其期望頻數(shù)之間的吻合程度,達(dá)到檢驗(yàn)?zāi)康摹A新?lián)表的分布:有兩個(gè)方面,一個(gè)是觀察值的分布,一個(gè)是期望值的分布。列聯(lián)表檢驗(yàn):,自由度為:(行數(shù)—1)×(列數(shù)-1),fe表示期望值頻數(shù),f0表示觀察值頻數(shù).計(jì)算出以后,再根據(jù)附錄表和顯著性水平計(jì)算。如果<,那么不能拒絕原假設(shè),調(diào)查數(shù)據(jù)的差異性是由于抽樣的隨機(jī)性造成的。越小,行列之間關(guān)系越密切。列聯(lián)表檢驗(yàn)兩種方法:一種是擬合優(yōu)度檢驗(yàn),一種是獨(dú)立性檢驗(yàn).兩種方法最大的區(qū)別在于期望值的求法。擬合優(yōu)度檢驗(yàn)期望值的計(jì)算方法是:(行合計(jì)項(xiàng)/總數(shù))*列總計(jì)項(xiàng);獨(dú)立性檢驗(yàn)期望值的計(jì)算方法是:(行合計(jì)項(xiàng)/總數(shù))*(列合計(jì)項(xiàng)/總數(shù))*合計(jì)。獨(dú)立性檢驗(yàn)要求樣本足夠大,如果只有兩個(gè)單元,每個(gè)單元的期望頻數(shù)必須是5以上;倘若有兩個(gè)以上的單元,如果20%的單元期望頻數(shù)小于5,則不能用檢驗(yàn)獨(dú)立性。相關(guān)系數(shù)(correlationcoefficient):描述2×2列聯(lián)表數(shù)據(jù)相關(guān)程度最常用的一種相關(guān)系數(shù)。公式為:。當(dāng)ad=bc時(shí)(即對(duì)角線數(shù)值相乘相等時(shí)),=0;若對(duì)角線數(shù)據(jù)有一對(duì)為0,=±1,表示兩個(gè)變量完全相關(guān)。取值主要在0~1,且絕對(duì)值越大,相關(guān)程度越高.C系數(shù)(coefficientofcontingency):也稱列相關(guān)系數(shù)或列聯(lián)系數(shù),主要用于大于2×2列聯(lián)表的情況。計(jì)算公式為:。當(dāng)列聯(lián)表中兩個(gè)變量相互獨(dú)立時(shí),c=0,但不可能大于1,一定低于值。C系數(shù)可能的最大值依賴于列聯(lián)表的行數(shù)和列數(shù),且隨著行和列的增大而增大。因此,根據(jù)不同的行和列計(jì)算的列聯(lián)系數(shù)無法比較,除非兩個(gè)列聯(lián)表中的行數(shù)和列數(shù)一致。C系數(shù)中,對(duì)于2×2列表,c=0。7071;3×3列表,c=0。8165;4×4列表,c=0.87,這些都是每種列表的最大c值。V系數(shù):V系數(shù)也不限列聯(lián)表的大小,計(jì)算公式為:。min是指行和列中較小的一個(gè)。當(dāng)兩個(gè)變量相互獨(dú)立時(shí),V=0;當(dāng)完全相關(guān)時(shí),V在0~1之間。如果列聯(lián)表中有一維是2,那么V=。單樣本t檢驗(yàn):目的是利用來自某總體的樣本數(shù)據(jù),推斷該總體的均值是否與制定的檢驗(yàn)值之間存在差異,它是對(duì)總體均值的假設(shè)檢驗(yàn).其零假設(shè)為:總體均值與指定檢驗(yàn)值之間不存在顯著差異。公式為.兩配對(duì)樣本t檢驗(yàn):目的是利用來自兩個(gè)總體的配對(duì)樣本,推斷兩個(gè)總體的均值是否存在顯著差異.它和獨(dú)立樣本t檢驗(yàn)的差別就是要求兩個(gè)樣本是配對(duì)的.由于配對(duì)樣本在抽樣時(shí)不是相互獨(dú)立的,而是相互關(guān)聯(lián)的,因此在進(jìn)行統(tǒng)計(jì)分析時(shí)必須考慮到這種相關(guān)性,否則會(huì)浪費(fèi)大量統(tǒng)計(jì)信息。要求:兩組樣本容量相同;兩組樣本觀察值順序不能調(diào)換;保持一一對(duì)應(yīng)的關(guān)系。方差分析(analysisofvariance,ANOVA):通過檢驗(yàn)各總體均值是否相等來判斷分類型自變量對(duì)數(shù)值型因變量是否有顯著性影響。數(shù)值型數(shù)據(jù)是因變量,分類型數(shù)據(jù)是自變量。方差元素():在方差分析中,所要檢驗(yàn)的對(duì)象稱為因素或因子。因素的不同表現(xiàn)稱為水平或處理.每個(gè)因子水平下得到的樣本數(shù)據(jù)稱為觀測(cè)值.比如檢驗(yàn)行業(yè)中的四個(gè)行業(yè)的顯著性差異,那么這就是個(gè)單因素(一個(gè)大的行業(yè)總體)四水平(四個(gè)行業(yè))的試驗(yàn)。組內(nèi)誤差():來自水平內(nèi)部的數(shù)據(jù)誤差稱為組內(nèi)誤差,也就是由抽樣的隨機(jī)性所造成的隨機(jī)誤差。組內(nèi)誤差只含有隨機(jī)誤差。組間誤差():來自不同水平之間的數(shù)據(jù)誤差稱為組間誤差。這種差異可能是由抽樣本身形成的隨機(jī)誤差,也可能是由行業(yè)本身的系統(tǒng)性因素造成的系統(tǒng)誤差.單因素方差總平方和(SST):反映全部數(shù)據(jù)誤差大小的平方和,其反映全部觀測(cè)值的離散情況.計(jì)算公式為:,即每一個(gè)水平均值與總均值的差的平方的和.SST=SSE+SSA.自由度為n-1.單因素方差組內(nèi)平方和(SSE):反映組內(nèi)數(shù)據(jù)誤差大小的平方和,也稱誤差平方和或殘差平方和。計(jì)算公式為:.自由度為k—1。單因素方差組間平方和(SSA):反映組間數(shù)據(jù)誤差大小的平方和,也稱因素平方和,反映樣本均值之間的差異程度.計(jì)算公式為:。自由度為n—k。三種誤差之間的關(guān)系:SSA是對(duì)隨機(jī)誤差和系統(tǒng)誤差大小的度量,它反映了自變量對(duì)因變量的影響,也稱為自變量效應(yīng)或因子效應(yīng);SSE是對(duì)隨機(jī)誤差大小的度量,它反映了除自變量對(duì)因變量的影響之外,其他因素對(duì)因變量的影響,SSE也稱為殘差效應(yīng)。方差分析的三個(gè)基本假定:每個(gè)總體都服從正態(tài)分布;各個(gè)總體的方差相同;觀測(cè)值相互獨(dú)立。均方(meansquarem,MS):由于各誤差平方和的大小與觀測(cè)值的多少有關(guān),為了消除觀測(cè)值多少對(duì)誤差平方和大小的影響,需要將其平均,也就是用各平方和除以他們所對(duì)應(yīng)的自由度,這一結(jié)果稱為均方,也稱為方差。F分布():組內(nèi)均方記為MSE,組間均方稱為MSA。將MSA與MSE對(duì)比,即得到方差統(tǒng)計(jì)量F,也就是F分布..單因素方差相關(guān)系數(shù)():為組間平方和(SSA)占總平方和(SST)的比例大小,記為,公式為:。得到的值即自變量對(duì)因變量的影響效應(yīng)的比值,該比值即為殘差效應(yīng)的比值.把開平方即可測(cè)量關(guān)系的強(qiáng)度,若得0.59,說明兩者之間有中等以上的關(guān)系。方差的多重比較(multiplecomparisonprocedures):通過對(duì)總體均值之間的配對(duì)比較來進(jìn)一步檢驗(yàn)?zāi)男┚抵g存在差異。方差的多重比較——最小顯著差異法(LSD):(1)提出假設(shè)H0:μi=μj,H1:μi≠μj;(2)計(jì)算檢驗(yàn)統(tǒng)計(jì)量:;(3)計(jì)算。t的自由度為n—k,k是因素中水平的個(gè)數(shù);(4)若,則拒絕H0.雙因素方差分析(two—wayanalysisofvariance):在對(duì)實(shí)際問題的研究中,有時(shí)需要考慮幾個(gè)因素對(duì)試驗(yàn)結(jié)果的影響。如分析影響彩電銷售的因素時(shí),需要考慮品牌、銷售地區(qū)、價(jià)格等多個(gè)因素的影響。當(dāng)方差分析中涉及兩個(gè)分類型自變量時(shí),稱為雙因素方差分析.雙因素方差分析的交互性:若兩個(gè)因素對(duì)觀測(cè)量的影響是相互獨(dú)立的,那么稱為無交互作用的雙因素方差分析,或無重復(fù)雙因素分析;如果除了兩個(gè)因素對(duì)銷售量的單獨(dú)影響,兩個(gè)因素的搭配還會(huì)對(duì)銷售量產(chǎn)生一種新的影響,那么稱為有交互的雙因素方差分析,或可重復(fù)雙因素分析.雙因素方差總平方和:

,

即總誤差平方和=行因素誤差平方和+列因素誤差平方和+除行列因素之外的剩余因素影響產(chǎn)生的誤差平方和,SST=SSR+SSC+SSE。雙因素方差分析的F分布:,檢驗(yàn)行因素對(duì)因變量的影響是否顯著;,檢驗(yàn)列因素對(duì)因變量的影響是否顯著.雙因素方差相關(guān)系數(shù)():為行變量平方和(SSR)與列變量平方和(SSC)的和占總平方和(SST)的比例大小,記為,公式為:。得到的值即自變量對(duì)因變量的影響效應(yīng)的比值,該比值即為殘差效應(yīng)的比值。把開平方即可測(cè)量關(guān)系的強(qiáng)度,若得0.59,說明兩者之間有中等以上的關(guān)系。方差分析中自變量因變量的確定:若要分析A對(duì)B是否有影響,那么A是自變量,即影響因變量的因素,B是因變量.方差分析各組均值的精細(xì)比較:如果有4個(gè)總體均值,單因素分析可以對(duì)4個(gè)均值單獨(dú)總體比較,但有時(shí)候需要把4個(gè)總體均值分兩組分別比較,此時(shí)就可以引入精細(xì)比較法。該方法將問題轉(zhuǎn)化為研究這兩組總的均值是否存在顯著差異。這種事先制定均值的線性組合,再對(duì)該線性組合進(jìn)行檢驗(yàn)的分析方法就是各組均值的精細(xì)比較。協(xié)方差分析的要求:協(xié)變量是連續(xù)型數(shù)值變量,多個(gè)協(xié)變量之間相互獨(dú)立,且與因素變量之間也沒有交互影響.協(xié)方差分析:將觀察變量總的離差平方和分解為由因變量、因變量交互、協(xié)變量、隨機(jī)因素引起的,即在扣除了協(xié)變量對(duì)觀察變量的影響后,分析因變量對(duì)觀察變量的影響。協(xié)方差分析也采用F檢驗(yàn)法,處理計(jì)算思路和多因素方差分析相似。判斷是否有協(xié)變量的方法:繪制圖形,觀察協(xié)變量和因變量之間有無關(guān)聯(lián)性。若從圖形可以判斷兩者有顯著關(guān)系,則可引入?yún)f(xié)方差分析?;貧w與相關(guān):是數(shù)值型自變量與數(shù)值型因變量之間關(guān)系的分析方法。如果研究的是兩個(gè)變量之間的關(guān)系,則是簡(jiǎn)單相關(guān)或回歸,如果是兩個(gè)以上變量之間的關(guān)系,就是多元回歸或相關(guān).回歸和相關(guān)還分為線性和非線性。變量之間的關(guān)系:變量之間的關(guān)系為函數(shù)關(guān)系或相關(guān)關(guān)系.函數(shù)關(guān)系是一一對(duì)應(yīng)的確定關(guān)系,而相關(guān)關(guān)系不存在完全確定的關(guān)系。由于影響一個(gè)變量的因素有很多,才造成了變量之間關(guān)系的不確定性。變量之間存在的不確定的數(shù)量關(guān)系稱為相關(guān)關(guān)系。相關(guān)的種類:線性相關(guān)、非線性相關(guān)、完全相關(guān)和不相關(guān)。如果變量之間的關(guān)系近似的表現(xiàn)為一條直線,那么是線性相關(guān);如果變量之間的關(guān)系近似的表現(xiàn)為一條曲線,那么是非線性相關(guān)或曲線相關(guān);如果一個(gè)變量完全依賴于另一個(gè)變量,各觀測(cè)點(diǎn)落在一條直線上,稱為完全相關(guān);如果兩個(gè)變量的觀測(cè)點(diǎn)很分散,無任何規(guī)律,那么是不相關(guān)。相關(guān)系數(shù)(correlationcoefficient):是根據(jù)樣本數(shù)據(jù)計(jì)算的度量?jī)蓚€(gè)變量之間線性關(guān)系強(qiáng)度的統(tǒng)計(jì)量。若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計(jì)算的,稱為總體相關(guān)系數(shù),記為ρ;若是根據(jù)樣本數(shù)計(jì)算的,則稱為樣本相關(guān)系數(shù),記為r。計(jì)算公式為:

該公式也稱為線性相關(guān)系數(shù),或皮爾遜相關(guān)系數(shù).皮爾遜相關(guān)系數(shù)適用于連續(xù)變量之間的相關(guān)程度.R=0只代表無線性關(guān)系,但不能代表沒有關(guān)系。當(dāng)r〉0。8,說明蓋度相關(guān);0。5-0。8說明中度相關(guān),0。3—0。5說明低度相關(guān),r<0.3,說明不相關(guān)。r的顯著性檢驗(yàn)方法:(1)提出假設(shè):H0:ρ=0;H1:ρ≠0;(2)計(jì)算檢驗(yàn)的統(tǒng)計(jì)量:;(3)決策:根據(jù)給定的α和df=n-2,查t分布表,得出tα/2(n—2)的臨界值.若|t|>tα/2,則拒絕零假設(shè),表明總體的兩個(gè)變量之間存在顯著性管系。斯皮爾曼相關(guān)系數(shù)(Spearman):該系數(shù)用來度量順序水準(zhǔn)變量間的線性相關(guān)關(guān)系.它是利用兩變量的秩次大小作線性分析。適用條件有二:第一,兩個(gè)變量的變量值是以等級(jí)次序表示的資料;(2)一個(gè)變量的變量值是等級(jí)數(shù)據(jù),另一個(gè)變量的變量值是等距或比率數(shù)據(jù),且兩總體不要求是正態(tài)分布,樣本容量不一定大于30.缺點(diǎn)是計(jì)算精度不高。斯皮爾曼系數(shù)用rR表示,公式為:,其中D是兩個(gè)變量每對(duì)數(shù)據(jù)等級(jí)之差;n是兩列變量值的對(duì)數(shù).肯德爾系數(shù)(kendall):肯德爾等級(jí)相關(guān)系數(shù)用于反映分類變量相關(guān)性的指標(biāo),適用于兩個(gè)變量均為有序分類的情況.這種指標(biāo)采用非參數(shù)檢驗(yàn)方法測(cè)度變量間的相關(guān)關(guān)系,利用變量的秩計(jì)算一致對(duì)數(shù)目和非一致對(duì)數(shù)目.如果兩變量具有較強(qiáng)的正相關(guān),則一致對(duì)數(shù)目U較大,否則一致對(duì)數(shù)目和非一致對(duì)數(shù)目應(yīng)該相近??系聽栂禂?shù)計(jì)算公式如下:。偏相關(guān)分析:其是在扣除其他因素的作用大小以后,重新來測(cè)度這兩個(gè)因素間的關(guān)聯(lián)程度。這種方法的目的在于消除其他變量關(guān)聯(lián)性的傳遞效應(yīng)。偏相關(guān)系數(shù)計(jì)算公式為:。距離分析:距離分析是對(duì)觀測(cè)量之間或變量之間相似或不相似的程度的一種測(cè)度,根據(jù)變量的不同類型,可以有許多距離、相似程度測(cè)量指標(biāo)供用戶選擇。但由于距離分析只是一個(gè)預(yù)分析過程,所以距離分析不會(huì)給出P值,而只能給出各變量/記錄間距離的大小,以供用戶自行判斷相似性。調(diào)用距離分析過程可對(duì)變量?jī)?nèi)部各觀察單位間的數(shù)值進(jìn)行距離相關(guān)分析,以考察相互間的接近程度,也可用于考察變量的相似程度.在距離分析中,主要利用變量間的相似性測(cè)度和不相似性測(cè)度度量研究對(duì)象之間的關(guān)系?;貧w分析:側(cè)重于測(cè)度變量之間的關(guān)系強(qiáng)度,并通過一定數(shù)學(xué)表達(dá)式將這種關(guān)系描述出來,進(jìn)而確定一個(gè)或幾個(gè)變量(自變量)的變化對(duì)另一個(gè)特定變量(因變量)的影響程度?;貧w分析解決的問題:(1)確定變量之間的表達(dá)式;(2)對(duì)關(guān)系式的可信程度進(jìn)行檢驗(yàn),并從影響某一特定變量的諸多變量中找出哪些變量的影響是顯著的,那些是不顯著的;(3)預(yù)測(cè).自變量和因變量:被預(yù)測(cè)或被解釋的變量稱為因變量;用來預(yù)測(cè)或用來解釋因變量的變量稱為自變量.如預(yù)測(cè)一定的貸款余額條件下的不良貸款是多少,被預(yù)測(cè)的不良貸款,是因變量,用來預(yù)測(cè)的是貸款余額,是自變量。一元線性回歸:當(dāng)回歸中只涉及一個(gè)自變量時(shí)稱為一元回歸,若因變量y與自變量x之間的為線性關(guān)系時(shí),是一元線性回歸?;貧w模型(regressionmodel):描述因變量y如何依賴于自變量x和誤差ε的方程稱為回歸模型。只涉及一個(gè)自變量的一元線性回歸模型可表示為y=β0+β1x+ε。誤差項(xiàng)ε:是一個(gè)服從正態(tài)分布的隨機(jī)變量,且獨(dú)立,即ε~N(0,σ2)。獨(dú)立性意味著對(duì)于一個(gè)特定的x值,它所對(duì)應(yīng)的ε與其他x所對(duì)應(yīng)的ε不相關(guān)。因此,對(duì)于一個(gè)特定的x值,它所對(duì)應(yīng)的y值與其他x所對(duì)應(yīng)的y值也不相關(guān).這表明,在x取某個(gè)確定值的情況下,y的觀察值非??拷本€;當(dāng)σ2較大時(shí),y的觀察值將偏離直線。對(duì)于任何一個(gè)給定的x值,y都服從期望值為β0+β1x,方差為σ2的正態(tài)分布,且對(duì)于不同的x都具有相同的方差.回歸方程(regressionequation):描述因變量y的期望值如何依賴于自變量x的方程。一元線性回歸方程為:E(y)=β0+β1x。估計(jì)的回歸方程(estimatedregressionequation):用樣本統(tǒng)計(jì)量和代替回歸方程中未知參數(shù)和,即估計(jì)的回歸方程。表示回歸直線在縱軸上的截距;是回歸系數(shù)。最小二乘估計(jì):用最小化圖中垂直方向的離差平方和來估計(jì)參數(shù)β0和β1,根據(jù)這一方法確定模型參數(shù)β0和β1的方法稱為最小二乘法,也稱最小平方法。它是通過使用因變量的觀察值yi與估計(jì)值之間的離差平方和達(dá)到最小來估計(jì)β0和β1的方法。公式為。在回歸分析中對(duì)截距β0不賦予任何意義。擬合優(yōu)度(goodnessoffit):回歸直線與各觀測(cè)點(diǎn)的接近程度稱為回歸直線對(duì)數(shù)據(jù)的擬合優(yōu)度.為說明直線的擬合優(yōu)度,需要計(jì)算判定系數(shù)。判定系數(shù):判定系數(shù)是對(duì)估計(jì)的回歸方程擬合優(yōu)度的度量。變差:因變量y的取值是不同的,y取值的這種波動(dòng)稱為變差。變差產(chǎn)生的原因有兩個(gè):第一,由自變量x的取值不同造成的;第二,除x以外的其他因素(非線性影響或測(cè)量誤差等)的影響。對(duì)一個(gè)具體的觀測(cè)值來說,變差的大小可以用實(shí)際觀測(cè)值y與其均值之差(y-)來表示。而n次觀察值的總變差可由這些離差的平方和表示,稱為總平方和,記為SST,即。在該公式中,等號(hào)右邊后半部分反映y的總變差中由于x和y之間的線性關(guān)系引起的y的變化部分,它是可以由回歸直線來解釋的yi變差部分,稱為回歸平方和,記為SSR;另一部分是各實(shí)際觀測(cè)點(diǎn)與回歸值的殘差的平方和,它是除x對(duì)y的線性影響之外的其他因素對(duì)y的變差作用,是不能由回歸直線來解釋的yi變差部分,稱為殘差平和和或誤差平方和,記為SSE。回歸直線擬合的好壞取決于(SSR/SST),各點(diǎn)越靠近直線,比例越大,直線擬合越好.該比例稱為判定系數(shù),記為。判定系數(shù)的判定:若所有觀測(cè)點(diǎn)都落在直線上,殘差平方和SSE=0,=1,擬合是完全的;如果y的變化與x無關(guān),x完全無助于解釋y的變差,此時(shí),=0。越接近于1,回歸平方和占總平方和的比率越大。估計(jì)標(biāo)準(zhǔn)誤差(standarderrorofestimate):度量各實(shí)際觀測(cè)點(diǎn)在直線周圍的散布狀況的一個(gè)統(tǒng)計(jì)量,它是均方殘差的平方根,用SE表示,其計(jì)算公式為:

。估計(jì)標(biāo)準(zhǔn)誤差是對(duì)誤差項(xiàng)ε的標(biāo)準(zhǔn)差σ的估計(jì),它可以看作在排除了x對(duì)y的線性影響后,y隨機(jī)波動(dòng)大小的一個(gè)估計(jì)量.從估計(jì)標(biāo)準(zhǔn)誤差的實(shí)際意義看,它反映了用估計(jì)的回歸方程預(yù)測(cè)因變量y時(shí)預(yù)測(cè)誤差的大小,若各觀測(cè)點(diǎn)越靠近直線SE越小,回歸直線對(duì)各觀測(cè)點(diǎn)的代表性就越好,根據(jù)估計(jì)的回歸方程進(jìn)行預(yù)測(cè)也就越準(zhǔn)確;若各觀測(cè)點(diǎn)全部落在直線上,則SE=0?;貧w分析的檢驗(yàn)有兩個(gè)內(nèi)容:一是線性關(guān)系檢驗(yàn),二是回歸系數(shù)檢驗(yàn)。前者檢驗(yàn)x和y之間的線性關(guān)系是否顯著,后者是檢驗(yàn)x對(duì)y的影響是否顯著。線性關(guān)系檢驗(yàn)的步驟:(1)提出假設(shè):H0:β1=0,即兩個(gè)變量之間的線性關(guān)系不顯著;(2)計(jì)算檢驗(yàn)統(tǒng)計(jì)量F:;(3)決策:確定顯著性水平α,并根據(jù)分子的df=1和分母的df=n—2查F分布表,找到響應(yīng)的臨界值Fα。若F>Fα,拒絕H0,表明兩個(gè)變量之間的線性關(guān)系顯著;否則,不拒絕H0,表明沒有證據(jù)表明兩個(gè)變量之間線性關(guān)系是顯著的?;貧w系數(shù)檢驗(yàn)步驟:(1)提出假設(shè):H0:β1=0,即回歸系數(shù)β1=0;(2)計(jì)算檢驗(yàn)統(tǒng)計(jì)量:,其中,Se是ε的估計(jì)值;(3)決策:確定顯著性水平α,并根據(jù)分子的df=n—2查t分布表,找到響應(yīng)的臨界值tα/2。若|t|>tα/2,拒絕H0,否則接受H0,表明沒有證據(jù)表明兩個(gè)變量之間線性關(guān)系是顯著的。在一元線性回歸中,線性的檢驗(yàn)和回歸的檢驗(yàn)是等價(jià)的。點(diǎn)估計(jì):對(duì)于x的一個(gè)特定值x0,求出y的一個(gè)估計(jì)值就是點(diǎn)估計(jì)。點(diǎn)估計(jì)可以分為兩種:一是平均值的點(diǎn)估計(jì),二是個(gè)別值的點(diǎn)估計(jì)。前者是對(duì)總體參數(shù)的估計(jì),后者是對(duì)因變量的某個(gè)具體取值估計(jì)。平均值點(diǎn)估計(jì)和個(gè)別值點(diǎn)估計(jì):平均值點(diǎn)估計(jì)是利用估計(jì)的回歸方程,對(duì)于x的一個(gè)特定值x0,求出y的平均值的一個(gè)估計(jì)值E(y0);個(gè)別值點(diǎn)估計(jì)是利用估計(jì)的回歸方程,對(duì)于x的一個(gè)特定值x0,求出y的一個(gè)個(gè)別值.在點(diǎn)估計(jì)條件下,對(duì)于同一個(gè)x0,平均值的點(diǎn)估計(jì)和個(gè)別值的點(diǎn)估計(jì)的結(jié)果是一樣的,但在區(qū)間估計(jì)中不同。區(qū)間估計(jì):利用估計(jì)的回歸方程,對(duì)于x的一個(gè)特定值x0,求出y的一個(gè)估計(jì)值的區(qū)間就是區(qū)間估計(jì)。區(qū)間估計(jì)有兩種:一是置信區(qū)間估計(jì),它是對(duì)x的一個(gè)特定值x0,求出y的平均值的估計(jì)區(qū)間,這一區(qū)間稱為置信區(qū)間;二是預(yù)測(cè)區(qū)間估計(jì),它是對(duì)x的一個(gè)給定值x0,求出y的一個(gè)個(gè)別值的估計(jì)區(qū)間,這一區(qū)間稱為預(yù)測(cè)區(qū)間。置信區(qū)間估計(jì)(confidenceintervalestimate)計(jì)算步驟:(1)計(jì)算點(diǎn)估計(jì)值;(2)計(jì)算tα/2(n-2);(3)根據(jù)殘差計(jì)算如下公式:,即得區(qū)間。當(dāng)時(shí),估計(jì)最精確,否則,y的平均值的置信區(qū)間就越寬,越不精確。預(yù)測(cè)區(qū)間估計(jì)(predictionintervalestimate):方法與置信區(qū)間估計(jì)相似,但公式變成了,多了一個(gè)1,因此預(yù)測(cè)區(qū)間要比置信區(qū)間寬。四種估計(jì)舉例:(1)平均值點(diǎn)估計(jì):估計(jì)貸款余額為100億元,所有分行不良貸款的平均值;(2)個(gè)別值點(diǎn)估計(jì):估計(jì)貸款余額為72。8億元的那個(gè)分行的不良貸款;(3)置信區(qū)間估計(jì):估計(jì)貸款余額為100億元,建立不良貸款的95%的置信區(qū)間;(4)預(yù)測(cè)區(qū)間估計(jì):估計(jì)貸款余額為72.8億元的那個(gè)分行的不良貸款的95%的置信區(qū)間。一元線性回歸的注意:不能用樣本數(shù)據(jù)之外的x值去預(yù)測(cè)相應(yīng)的y值.殘差分析(residual):確定有關(guān)ε的假定是否成立的方法之一是殘差分析。標(biāo)準(zhǔn)化殘差(standardizedresidual):對(duì)ε正態(tài)性假定的檢驗(yàn),也可通過對(duì)標(biāo)準(zhǔn)化殘差的分析來完成。標(biāo)準(zhǔn)化殘差是殘差除以它的標(biāo)準(zhǔn)差后得到的數(shù)值,也稱為皮爾遜殘差或半學(xué)生化殘差(semi-studentizedresiduals),用ze表示。第i個(gè)觀察值的標(biāo)準(zhǔn)化殘差表示為:,se是殘差的標(biāo)準(zhǔn)差估計(jì).如果誤差項(xiàng)ε服從正態(tài)分布這一假設(shè)成立,那么標(biāo)準(zhǔn)化殘差的分布也應(yīng)服從正態(tài)分布。因此,在標(biāo)準(zhǔn)化殘差圖中,大約有95%的標(biāo)準(zhǔn)化殘差落在±2之間。多元回歸模型(multipleregressionmodel):設(shè)因變量為y,k個(gè)自變量分別為x1,x2…xk和誤差ε的方程為多元回歸模型。公式為。多元回歸方程(multipleregressionequation):即,它描述了因變量y的期望值與自變量xi之間的關(guān)系.多重判定系數(shù)(multiplecoefficientifdetermination):是多元回歸中的回歸平方和占總平方和的比例,它是度量多元回歸方程擬合程度的一個(gè)統(tǒng)計(jì)量,反映了在因變量y的變差中被估計(jì)的回歸方程所解釋的比例。調(diào)整的多重判定系數(shù)(adjustedmultiplecoefficientofdetermination):調(diào)整的多重判定系數(shù)記為,計(jì)算公式為:。與R方類似,不同的是同時(shí)考慮了樣本量n和模型中自變量的個(gè)數(shù)k的影響,這就使得的值永遠(yuǎn)小于R方,,而的值卻不會(huì)由于模型中自變量個(gè)數(shù)的增加而越來越接近.因此,多元回歸用調(diào)整的多重判定系數(shù)。復(fù)相關(guān)系數(shù):R方的平方根稱為復(fù)相關(guān)系數(shù),或者多重相關(guān)系數(shù),它度量了因變量同k個(gè)自變量的相關(guān)程度。多元線性回歸的估計(jì)標(biāo)準(zhǔn)誤差:.多元回歸線性關(guān)系檢驗(yàn)步驟:(1)作出假設(shè):H0:β1=β2=…βk=0;(2)計(jì)算F統(tǒng)計(jì)量;(3)作出決策:給定α,根據(jù)分子自由度l,分母自由度n-k-1,查F分布表,若F>Fα,則接受原假設(shè).多元回歸系數(shù)檢驗(yàn)步驟:(1)提出假設(shè):H0:βi=0,即回歸系數(shù)βi=0;(2)計(jì)算檢驗(yàn)統(tǒng)計(jì)量:,其中,Se是ε的估計(jì)值;(3)決策:確定顯著性水平α,并根據(jù)分子的df=n-k-1查t分布表,找到響應(yīng)的臨界值tα/2。若|t|〉tα/2,拒絕H0,否則接受H0,表明沒有證據(jù)表明兩個(gè)變量之間線性關(guān)系是顯著的。在一元線性回歸中,線性的檢驗(yàn)和回歸的檢驗(yàn)是等價(jià)的。多元回歸系數(shù)的置信區(qū)間:。多重共線性(multicollinearity):當(dāng)回歸模型中兩個(gè)或兩個(gè)以上的自變量彼此相關(guān)時(shí),則稱回歸模型中存在多重共線性。多重共線性會(huì)帶來如下問題:(1)可能會(huì)使回歸的結(jié)果造成混亂,甚至?xí)逊治鲆肫缤荆?2)多重共線性可能對(duì)參數(shù)估計(jì)的正負(fù)號(hào)產(chǎn)生影響。多重共線性的判別:(1)模型中各對(duì)自變量之間顯著相關(guān);(2)當(dāng)模型線性關(guān)系檢驗(yàn)(F)顯著時(shí),幾乎所有回歸系數(shù)βi的t檢驗(yàn)卻不顯著;(3)回歸系數(shù)的正負(fù)號(hào)與預(yù)期相反?;貧w搜尋過程:如果在進(jìn)行回歸時(shí),每次只增加一個(gè)變量,并將新變量與已經(jīng)存在模型中的變量進(jìn)行比較,若新變量引入模型后以前的某個(gè)變量的t統(tǒng)計(jì)量不顯著,這個(gè)變量就會(huì)被從模型中剔除,在這種情況下,回歸分析就很難存在多重共線性的影響,這就是回歸中的搜尋過程.回歸分析自變量選擇原理及方法:將一個(gè)或多個(gè)自變量引入回歸模型時(shí),是否使殘差平方和SSE有顯著減少.如果是,則說明應(yīng)該引入這個(gè)變量.標(biāo)準(zhǔn)就是F統(tǒng)計(jì)量。變量選擇的方法有向前選擇(forwardselection)、向后剔除(backwardelimination)、逐步回歸(stepwiseregression)、最優(yōu)子集(bestsubset)。向前選擇:首先對(duì)k個(gè)自變量分別擬合對(duì)因變量y的一元線性回歸模型,共有k個(gè),然后找出F統(tǒng)計(jì)量的值最高的模型及其自變量xi,并引入模型;然后在已經(jīng)引入模型的xi的基礎(chǔ)上,再分別擬合引入模型外的k-1個(gè)自變量,挑選出F統(tǒng)計(jì)量的值最大的含有兩個(gè)自變量的模型,并將F統(tǒng)計(jì)量的值最大的那個(gè)自變量xj引入模型。向后剔除:對(duì)因變量擬合包括所有k個(gè)自變量的線性回歸模型。然后考察p個(gè)去掉一個(gè)自變量的模型,使模型的SSE值減少最少的自變量被挑選出來并從模型中剔除。逐步回歸:是以上兩種方法的結(jié)合。前兩步與前向回歸相同,但在增加了一個(gè)自變量后,對(duì)模型中所有的變量進(jìn)行考察,看看有無可能剔除某變量。如果在增加了一個(gè)自變量后,前面增加的某個(gè)自變量對(duì)模型的貢獻(xiàn)變得不顯著,這個(gè)變量就會(huì)被剔除。非線性回歸模型:.f是期望函數(shù)。非參數(shù)檢驗(yàn):是不依賴總體分布的統(tǒng)計(jì)推斷方法。它是指在總體不服從正態(tài)分布且分布情況不明時(shí),用來檢驗(yàn)數(shù)據(jù)資料是否來自同一個(gè)總體假設(shè)的一類檢驗(yàn)方法。適用于計(jì)量信息較弱的資料,幾乎什么類型的數(shù)據(jù)都可以做。非參數(shù)檢驗(yàn):用于檢驗(yàn)觀測(cè)數(shù)據(jù)是否與某種概率分布的理論數(shù)值相符合,進(jìn)而推斷觀測(cè)數(shù)據(jù)是否是來自于該分布的樣本的問題。零假設(shè):樣本X來自的總體分布服從期望分布的某一理論分布。值越大,觀察頻數(shù)和理論頻數(shù)距離越遠(yuǎn);值越小,觀察頻數(shù)和理論頻數(shù)越接近。二項(xiàng)分布檢驗(yàn):就是對(duì)只具有兩種互斥結(jié)果的離散型隨機(jī)事件的規(guī)律性進(jìn)行描述的一種概率分布。H0:樣本來自的總體與某個(gè)指定的二項(xiàng)分布無顯著性差異;H1:樣本來自的總體與某個(gè)指定的二項(xiàng)分布有顯著差異。二項(xiàng)分布檢驗(yàn)要求變量必須是數(shù)值型變量,假如是字符型的,需要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)化。如果變量不是二元變量,需要設(shè)置斷點(diǎn),將數(shù)據(jù)分開。游程檢驗(yàn):游程可以用來檢驗(yàn)任何序列的隨機(jī)性,而不管這個(gè)序列是怎樣產(chǎn)生的.此外,游程檢驗(yàn)還可以用來判斷兩個(gè)總體的分布是否相同,從而檢驗(yàn)出它們的位置中心有無顯著差異。一個(gè)游程就是某序列中同類元素的一個(gè)持續(xù)的最大主集。游程數(shù)太大或太小都表示變量值可能不存在隨機(jī)性現(xiàn)象。單樣本K-S檢驗(yàn):K-S檢驗(yàn)的是利用數(shù)據(jù)推斷總體是否服從某一理論分布,一般來說它比卡方檢驗(yàn)更精確的非參數(shù)檢驗(yàn)法。其零假設(shè)是:樣本來自的總體與指定的理論分布無顯著差異。如何判斷兩獨(dú)立樣本是否獨(dú)立?

看在一個(gè)總體中抽取樣本對(duì)在另一個(gè)總體中抽取樣本有無影響,如果沒有影響,則認(rèn)為兩個(gè)總體是獨(dú)立的.數(shù)據(jù)的秩:簡(jiǎn)單說就是數(shù)據(jù)的名次。將數(shù)據(jù)按升序排序,這時(shí)每個(gè)具體數(shù)據(jù)都會(huì)有一個(gè)在整個(gè)數(shù)據(jù)中的位置或名次,這就是該數(shù)據(jù)的秩。兩獨(dú)立樣本非參數(shù)檢驗(yàn)方法:曼—惠特尼U檢驗(yàn)、K-S檢驗(yàn)、極端反應(yīng)檢驗(yàn)、游程檢驗(yàn).曼-惠特尼U檢驗(yàn):最常用的兩樣本秩和檢驗(yàn),零假設(shè)是樣本所在的兩獨(dú)立總體的均值無顯著差異。其主要是通過對(duì)平均秩判斷的。首先將兩組樣本數(shù)據(jù)混合并按升序排序,求出每個(gè)數(shù)據(jù)各自的秩;然后分別對(duì)兩組數(shù)據(jù)的秩求平均,得到平均秩.如果兩個(gè)平均秩相差甚遠(yuǎn),則可以說明一組樣本數(shù)據(jù)偏小,一組樣本數(shù)據(jù)偏大.K-S檢驗(yàn):零假設(shè)是兩組獨(dú)立樣本所在的兩總體分布無顯著差異。與單樣本K—S檢驗(yàn)的區(qū)別是:這里是以變量的秩作為分析對(duì)象的,而非變量值本身。思路是:首先將兩組樣本數(shù)據(jù)混合并按升序排序,然后分別計(jì)算兩組樣本秩的累計(jì)頻率的差,得到差值序列,并得到D統(tǒng)計(jì)量,計(jì)算D的P值,判斷零假設(shè)是否成立.這種方法檢驗(yàn)的是總體分布情況是否相同,如果只是要檢驗(yàn)中心位置是否相同,最好不要選擇這種方法。極端反應(yīng)檢驗(yàn):給出結(jié)果是單側(cè)檢驗(yàn)。如果施加的處理使得某些個(gè)體出現(xiàn)正向效應(yīng),而另一些個(gè)體出現(xiàn)負(fù)向效應(yīng),應(yīng)采取該方法.例如,研究居民對(duì)電信資費(fèi)調(diào)整下調(diào)的反應(yīng),多數(shù)人會(huì)高興,而電信行業(yè)會(huì)感到沮喪?;舅枷胧牵簩⒁唤M樣本作為控制樣本,另一組作為試驗(yàn)樣本。以控制樣本作為對(duì)照,檢驗(yàn)試驗(yàn)樣本相對(duì)于控制樣本是否出現(xiàn)了極端反應(yīng)。如果沒有出現(xiàn),則認(rèn)為兩個(gè)總體分布無顯著差異。游程檢驗(yàn):檢驗(yàn)總體分布情況是否相同,只要兩樣本各自所在總體有任何一點(diǎn)分布上的差別,無論是集中、離散以及其他,它都可以檢驗(yàn)出其中的差異。如果只是要檢驗(yàn)中心位置是否相同,最好不要選擇這種方法。多獨(dú)立樣本非參數(shù)檢驗(yàn)方法:Kruskal—WallisH檢驗(yàn)、中位數(shù)檢驗(yàn)、Joneckheere-Terpstra檢驗(yàn).Kruskal—WallisH檢驗(yàn):是曼-惠特尼U檢驗(yàn)的推廣,重點(diǎn)分析平均秩。Joneckheere—Terpstra檢驗(yàn):該檢驗(yàn)對(duì)連續(xù)性資料或有序分類資料都適用,并當(dāng)分組變量為有序分類資料時(shí),此法的檢驗(yàn)效能高于Kruskal-WallisH檢驗(yàn),適用分類資料。中位數(shù)檢驗(yàn):檢驗(yàn)各個(gè)樣本是否來自具有相同中位數(shù)的總體,三種方法其效能最低。重點(diǎn)分析中間位置.兩配對(duì)樣本非參數(shù)檢驗(yàn):是在對(duì)兩組配對(duì)樣本的總體分布不甚了解的情況下,推斷樣本來自的兩個(gè)總體的分布是否存在顯著性差異的方法.這種檢驗(yàn)對(duì)兩個(gè)總體服從的分布不作要求,但必須是成對(duì)出現(xiàn),且順序不能隨意調(diào)換。方法有:符號(hào)檢驗(yàn)、Wilcoxon符號(hào)秩檢驗(yàn)、McNemar檢驗(yàn)和MarginalHomogeneity檢驗(yàn).符號(hào)檢驗(yàn):樣本數(shù)據(jù)相減所得到的差值應(yīng)當(dāng)大致有一半為正,一般為負(fù),數(shù)量基本平衡。檢驗(yàn)效能較低,精度較差。該方法更適用于對(duì)無法用數(shù)字計(jì)量的情況進(jìn)行比較,比如資料本身就是兩分類,對(duì)于連續(xù)資料最好不要使用。Wilcoxon符號(hào)秩檢驗(yàn):是符號(hào)檢驗(yàn)的改進(jìn).它既考慮了樣本差數(shù)的符號(hào),也考慮了差數(shù)的順序。首先,按照符號(hào)檢驗(yàn)的方法,分別將第二組樣本的各個(gè)觀察值減去第一組樣本的各個(gè)觀察值.如果差值為正,則記為正號(hào),差值為負(fù),則記為負(fù)號(hào)。然后將差值數(shù)據(jù)按升序排序,并求出相應(yīng)的秩.最后,分別計(jì)算正號(hào)秩總和,負(fù)號(hào)秩總和以及正號(hào)平均值和負(fù)號(hào)平均秩。如果正號(hào)平均秩和負(fù)號(hào)平均秩大致相等,則可認(rèn)為量配對(duì)樣本數(shù)據(jù)正負(fù)變化程度基本相當(dāng),兩配對(duì)總體的分布無顯著差異。McNemar檢驗(yàn):是配對(duì)卡方檢驗(yàn),只適用于二分類資料,考察重點(diǎn)是兩組間分類的差異。MarginalHomogeneity檢驗(yàn):是McNemar方法向多分類情況下的擴(kuò)展,適用于資料為有序分類的情況。多配對(duì)樣本非參數(shù)檢驗(yàn)方法:Friedman檢驗(yàn)、Kendall協(xié)和系數(shù)檢驗(yàn)、Cochran檢驗(yàn)。Friedman檢驗(yàn):利用秩來檢驗(yàn)多個(gè)總體分布是否存在顯著差異。首先,將不同樣本同一順序的樣本排序成若干行,將各個(gè)樣本數(shù)據(jù)按行升序排序并求得各數(shù)據(jù)在各自行中的秩;然后分別計(jì)算各樣本的秩總和和平均秩。如果多個(gè)配對(duì)樣本的分布存在顯著差異,那么不同行的秩之間的差異必然較大。因此如果各樣本的平均秩大體相當(dāng),那么可以認(rèn)為各總體的分布無顯著差異。Kendall協(xié)和系數(shù)檢驗(yàn):用于分析評(píng)判者的評(píng)判標(biāo)準(zhǔn)是否一致公平。它將每個(gè)評(píng)判對(duì)象的分?jǐn)?shù)都看作是來自多個(gè)配對(duì)總體的樣本,通過計(jì)算Kendall協(xié)和系數(shù)W以檢驗(yàn)多個(gè)相關(guān)樣本是否來自同一分布的總體。它不僅可以檢驗(yàn)k個(gè)相關(guān)樣本是否來自同一分布的總體,還能檢驗(yàn)變量間的相關(guān)性。W表示k個(gè)指標(biāo)間的相互關(guān)聯(lián)程度。Cochran檢驗(yàn):適用于定性數(shù)據(jù)或二元數(shù)據(jù),它是McNemar方法的推廣。因子分析:對(duì)變量作因子分析,稱為R型因子分析;對(duì)樣品作因子分析,稱為Q型因子分析。因子分析的思想是:通過對(duì)變量的相關(guān)系數(shù)矩陣內(nèi)部結(jié)構(gòu)分析,從中找出少數(shù)幾個(gè)能控制原始變量的隨機(jī)變量。建立模型X=AF+ε,以F代替X.因子分析的步驟:(1)確認(rèn)待分析的原變量是否適合做因子分析:采用計(jì)算相關(guān)系數(shù)矩陣、巴特利特球度檢驗(yàn)和KMO方法檢驗(yàn);(2)構(gòu)造因子變量;(3)利用旋轉(zhuǎn)方法使因子變量更具有可解釋性:也就是使一個(gè)變量在盡可能少的因子上有較高的載荷;(4)計(jì)算因子變量得分。聚類分析的分類:(1)樣品聚類,又稱為Q聚類,或?qū)κ录ㄓ^測(cè)量)進(jìn)行聚類,根據(jù)反映被觀測(cè)對(duì)象的特征的各變量值進(jìn)行分類;(2)變量聚類,又稱為R聚類,即在多個(gè)反映事物的特征中找出某一方面進(jìn)行研究。研究樣品之間的關(guān)系方法:(1)相似系數(shù),如夾角余弦、相關(guān)系數(shù);(2)距離,如明氏距離、馬氏距離、蘭氏距離。明氏距離:,當(dāng)q=1,是絕對(duì)距離;當(dāng)q=2,是歐氏距離;當(dāng)q=3,是切比雪夫距離.當(dāng)各變量的測(cè)量值相差懸殊時(shí),不能用明氏距離,常需要先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,然后才能用。馬氏距離:.馬氏距離排除了各指標(biāo)之間相關(guān)性的干擾。蘭氏距離:,只適合xij〉0的情況.夾角余弦:。當(dāng)=1,說明兩個(gè)樣品完全相同;接近1,說明相似密切;=0,說明完全不一樣;接近0,說明差別大。相關(guān)系數(shù):.K—均值算法又稱為快速聚類算法,可用于大量數(shù)據(jù),是一種非分層的聚類方法。步驟是:(1)指定聚類數(shù)目k;(2)確定k個(gè)初始類的中心;(3)根據(jù)距離最近原則進(jìn)行分類;(4)按照新的中心位置,重新計(jì)算每一記錄距離新的類別中心點(diǎn)的距離,并重新分類。系統(tǒng)聚類算法:也稱層次聚類法,有兩種類型:(1)對(duì)研究對(duì)象本身進(jìn)行分類,也稱Q聚類;另一種是對(duì)研究對(duì)象的觀察指標(biāo)進(jìn)行分類,稱為R聚類。同時(shí)根據(jù)聚類過程,又分為分解法和凝聚法.分解法是指開始把所有個(gè)體都視為同一大類,然后根據(jù)距離和相似性逐層分解,直到參與聚類的每個(gè)個(gè)體自成一類為止;凝聚法指開始把參與聚類的每個(gè)個(gè)體視為一類,根據(jù)兩類之間的距離或相似性進(jìn)行逐步合并,直到合并為一個(gè)大類。系統(tǒng)聚類的變量可以為連續(xù)或分類,當(dāng)樣本量太大或太多時(shí),運(yùn)算緩慢。SPSS是凝聚法。判別分析:判別分析是判別樣品所屬類型的一種統(tǒng)計(jì)方法。其與聚類不同.判別分析是在已知研究對(duì)象分成若干類型并已取得各種類型的一批已知樣品的觀測(cè)數(shù)據(jù),在此基礎(chǔ)上根據(jù)某些規(guī)則建立判別式,然后對(duì)未知類型的樣品進(jìn)行判別分類。判別分析和聚類分析的結(jié)合:判別分析要求先知道各類總體情況才能判斷新樣品的歸類,當(dāng)總體分類不清楚時(shí),可先用聚類分析對(duì)原來的一批樣品進(jìn)行分類,然后再用判別分析建立判別式以對(duì)新樣品進(jìn)行判別。時(shí)間序列(timeseries):是同一現(xiàn)象在不同時(shí)間上的相繼觀察值排列而成的序列.經(jīng)濟(jì)數(shù)據(jù)中大多數(shù)以時(shí)間序列的形式給出。用t表示所觀察的時(shí)間,Y表示觀察值,則Yi表示為時(shí)間ti上的觀察值。平穩(wěn)序列(stationaryseries):時(shí)間序列的一種,基本上不存在。這類序列中的各觀察值基本上在某個(gè)固定的水平上波動(dòng),但不存在規(guī)律性,波動(dòng)可以看成是隨機(jī)的。非平穩(wěn)序列(non-stationaryseries):是包含趨勢(shì)、季節(jié)性或周期性的序列,它可能只含有其中的一種成分,也可能是幾種成分的組合。趨勢(shì)(trend):時(shí)間序列四部分之一。是時(shí)間序列在長(zhǎng)時(shí)間內(nèi)呈現(xiàn)出來的某種持續(xù)向上或向下的變動(dòng),也稱為長(zhǎng)期趨勢(shì)。季節(jié)性(seasonality):時(shí)間序列四部分之二。也稱為季節(jié)變動(dòng),它是時(shí)間序列在一年內(nèi)重復(fù)出現(xiàn)的周期性波動(dòng),如“銷售旺季”和“銷售淡季”等.周期性(cyclicity):時(shí)間序列四部分之三。也稱為循環(huán)波動(dòng),它是時(shí)間序列中呈現(xiàn)出來的圍繞長(zhǎng)期趨勢(shì)的一種波浪形或震蕩式的變動(dòng)。周期性通常是由商業(yè)和經(jīng)濟(jì)活動(dòng)引起的,它不同于趨勢(shì)變動(dòng),不是朝著單方向持續(xù)運(yùn)動(dòng),而是漲落交替運(yùn)動(dòng);也不是季節(jié)運(yùn)動(dòng),季節(jié)運(yùn)動(dòng)有比較固定的規(guī)律,且變動(dòng)周期多為1年,而循環(huán)波動(dòng)則無固定規(guī)律,變動(dòng)周期多為1年以上,且周期長(zhǎng)短不一。周期性由經(jīng)濟(jì)環(huán)境變化引起的。不規(guī)則波動(dòng)(irregularvariations):時(shí)間序列四部分之四。時(shí)間序列中除去趨勢(shì)、周期性和季節(jié)性之后的偶然性波動(dòng),稱為不規(guī)則波動(dòng),也稱為隨機(jī)性波動(dòng)。增長(zhǎng)率(growthrate):也稱為增長(zhǎng)速度,它是時(shí)間序列中報(bào)告期觀察值與基期觀察值之比減一的結(jié)果,用%表示。增長(zhǎng)率分為環(huán)比增長(zhǎng)率和定基增長(zhǎng)率。環(huán)比增長(zhǎng)率:是報(bào)告期觀察值與前一時(shí)期觀察值之比減一,說明現(xiàn)象逐期增長(zhǎng)變化的程度;公式為:。定基增長(zhǎng)率:是報(bào)告期觀察值與某一固定時(shí)期觀察值之比減一,說明現(xiàn)象在整個(gè)觀察期內(nèi)總的增長(zhǎng)變化程度;公式為:。平均增長(zhǎng)率(averagerateofincrease):也稱為平均增長(zhǎng)速度,它是時(shí)間序列中逐期環(huán)比值(也稱環(huán)比發(fā)展速度)的幾何平均數(shù)減一后的結(jié)果,計(jì)算公式為:

。增長(zhǎng)率計(jì)算的問題:(1)當(dāng)時(shí)間序列中的觀察值出現(xiàn)0或負(fù)數(shù)時(shí),不宜計(jì)算增長(zhǎng)率;(2)在有些情況下,不能單純就增長(zhǎng)率論增長(zhǎng)率,要注意增長(zhǎng)率與絕對(duì)水平的結(jié)合.絕對(duì)水平計(jì)算公式為:。時(shí)間序列預(yù)測(cè)步驟:(1)確定時(shí)間序列所包含的成分,也就是確定時(shí)間序列的類型;(2)找出適合此類時(shí)間序列的預(yù)測(cè)方法;(3)對(duì)可能的預(yù)測(cè)方法進(jìn)行評(píng)估,以確定最佳預(yù)測(cè)方案;(4)利用最佳預(yù)測(cè)方案進(jìn)行預(yù)測(cè)。確定時(shí)間序列的成分方法:(1)確定趨勢(shì)成分:繪制時(shí)間序列圖或使用線性回歸判斷線性關(guān)系;(2)確定季節(jié)成分:至少需要兩年的數(shù)據(jù),而且數(shù)據(jù)按季度、月份、周天等來記錄,確定集結(jié)成分可以從繪制時(shí)間序列的線圖入手,該圖為年度折疊時(shí)間序列圖.如果時(shí)間序列只存在季節(jié)成分,年度折疊時(shí)間序列圖中的折線將會(huì)有交叉;如果時(shí)間序列既含有季節(jié)成分又含有趨勢(shì),那么年度折疊時(shí)間序列圖中的折線將不會(huì)有交叉,而卻如果趨勢(shì)是上升的,后面年度的折線將會(huì)高于前面年度的折線。一般來說,任何時(shí)間序列中都會(huì)有不規(guī)則成分存在,而商務(wù)與管理數(shù)據(jù)中通常不考慮周期性,所以只剩下趨勢(shì)成分和季節(jié)成分.選擇預(yù)測(cè)方法:假定過去的變化趨勢(shì)會(huì)延續(xù)到未來,方法選擇如下:

有趨勢(shì)成分無趨勢(shì)成分有季節(jié)性成分季節(jié)性預(yù)測(cè)法:

(1)季節(jié)多元回歸模型;

(2)季節(jié)自回歸模型;

(3)時(shí)間序列分解。季節(jié)性預(yù)測(cè)法:

(1)季節(jié)多元回歸模型;

(2)季節(jié)自回歸模型;

(3)時(shí)間序列分解。無季節(jié)性成分趨勢(shì)預(yù)測(cè)法:

(1)線性趨勢(shì)預(yù)測(cè);

(2)非線性趨勢(shì)預(yù)測(cè);

(3)自回歸預(yù)測(cè)模型.平滑法預(yù)測(cè):

(1)簡(jiǎn)單平均法;

(2)移動(dòng)平均法;

(3)指數(shù)平滑法.預(yù)測(cè)方法的評(píng)估:通過對(duì)預(yù)測(cè)誤差的評(píng)估來判斷預(yù)測(cè)方法的好壞。主要有以下幾種方法:平均誤差、平均絕對(duì)誤差、均方誤差以及平均百分比誤差。平均誤差(meanerror):設(shè)時(shí)間序列的第i個(gè)觀察值為Yi,預(yù)測(cè)值為Fi,則所有預(yù)測(cè)誤差(Yi-Fi)的平均數(shù)就是平均誤差,用ME表示,計(jì)算公式為:。由于預(yù)測(cè)誤差的數(shù)值可能有正有負(fù),求和的結(jié)果就會(huì)相互抵消,在這種情況下,平均誤差可能會(huì)低估誤差。平均絕對(duì)誤差(meanabsolutedeviation):是將預(yù)測(cè)誤差取絕對(duì)值后計(jì)算的平均誤差,用MAD表示。計(jì)算公式為:.平均絕對(duì)誤差可以避免相互抵消的問題,因而可以準(zhǔn)確反映實(shí)際預(yù)測(cè)誤差的大小。均方誤差(meansquareerror):通過平方消去誤差的正負(fù)號(hào)后計(jì)算的平均誤差,用MSE表示,計(jì)算公式為:。三者的應(yīng)用:ME,MAD和MSE的大小受時(shí)間序列數(shù)據(jù)的水平好計(jì)量單位的影響,有時(shí)并不能真正反映預(yù)測(cè)模型的好壞,它們只有在比較不同模型對(duì)同一數(shù)據(jù)的預(yù)測(cè)時(shí)才有意義。平均百分比誤差和平均絕對(duì)百分比誤差:它們消除了時(shí)間序列數(shù)據(jù)的水平和計(jì)量單位的影響,是反映誤差大小的相對(duì)值。分別有MPE和MAPE表示.兩者的計(jì)算公式分別為:.簡(jiǎn)單平均法:根據(jù)過去已有的t期觀察值通過簡(jiǎn)單平均來預(yù)測(cè)下一期的數(shù)值。設(shè)時(shí)間序列已有的t期觀察值為Y1,Y2,…,Yt,則t+1期的一側(cè)值Ft+1為:。簡(jiǎn)單平均法適合較為平穩(wěn)的時(shí)間序列進(jìn)行預(yù)測(cè),即當(dāng)時(shí)間序列沒有趨勢(shì)時(shí),用該方法好.但如果時(shí)間序列有趨勢(shì)或季節(jié)成分,該方法的預(yù)測(cè)不夠準(zhǔn)確.此外,簡(jiǎn)單平均法將遠(yuǎn)期的數(shù)值和近期的數(shù)值看做對(duì)未來同等重要,但從預(yù)測(cè)角度看,近期的數(shù)值要比遠(yuǎn)期的數(shù)值對(duì)未來有更大的作用.移動(dòng)平均法:是通過對(duì)時(shí)間序列逐期遞移求得平均數(shù)作為預(yù)測(cè)值的一種預(yù)測(cè)方法.簡(jiǎn)單移動(dòng)平均是將最近的k期數(shù)據(jù)加以平均,作為下一期的預(yù)測(cè)值。設(shè)移動(dòng)間隔為k,則t期的移動(dòng)平均值為:。該方法也主要適合對(duì)較為平穩(wěn)的時(shí)間序列進(jìn)行預(yù)測(cè)。確定步長(zhǎng)時(shí),選擇一個(gè)使均方誤差達(dá)到最小的移動(dòng)步長(zhǎng)。指數(shù)平滑法(exponentialsmoothing):是通過對(duì)過去的觀察值加權(quán)平均進(jìn)行預(yù)測(cè)的一種方法,該方法使t+1期的預(yù)測(cè)值等于t期的實(shí)際觀察值與t期的預(yù)測(cè)值的加權(quán)平均值。觀察值時(shí)間越遠(yuǎn),其權(quán)數(shù)也跟

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論