統(tǒng)計學必知知識點合集.doc_第1頁
統(tǒng)計學必知知識點合集.doc_第2頁
統(tǒng)計學必知知識點合集.doc_第3頁
統(tǒng)計學必知知識點合集.doc_第4頁
統(tǒng)計學必知知識點合集.doc_第5頁
已閱讀5頁,還剩22頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

統(tǒng)計學知識點合集1. 試驗和事件:對某事物或現(xiàn)象所進行的觀察或?qū)嶒灲性囼灒呀Y(jié)果叫事件。2. 基本事件(elementary event):如果一個事件不能分解成兩個或更多個事件,就稱為基本事件。一次觀察只能有一個基本事件。3. 樣本空間:一個試驗中所有的基本事件的全體稱為樣本空間。4. 古典概型:如果某一隨機試驗的結(jié)果有限,而且各個結(jié)果出現(xiàn)的可能性相等,則某一事件A發(fā)生的概率為該事件所包含的基本事件個數(shù)m與樣本空間中所包含的基本事件個數(shù)n的比值。5. 統(tǒng)計概型:在相同條件下隨機試驗n次,某事件A出現(xiàn)m次(mn),則m/n稱為事件A發(fā)生的頻率。隨著n增大,該頻率圍繞某一常數(shù)p上下波動,且波動幅度逐漸減小,趨于穩(wěn)定,這個頻率的穩(wěn)定值就是該事件的概率。6. 概率加法:(1)兩個互斥事件:P(A+B)=P(A)+P(B);任意兩隨機事件:P(A+B)=P(A)+P(B)-P(AB)。7. 事件獨立(independent):一個事件發(fā)生與否不會影響另一個事件發(fā)生的概率,公式為:P(AB)=P(A)P(B)?;コ猓ㄏ嘁蕾嚕┮欢ú华毩ⅲ华毩⒉灰欢ɑコ猓ㄏ嘁蕾嚕?。8. 全概率公式:根據(jù)某一事件發(fā)生的各種原因的概率,計算該事件的概率。計算公式為:。9. 貝葉斯公式:在條件概率的基礎上尋找事件發(fā)生的原因。計算公式為:,分母就是全概率公式。也稱為逆概率公式。該公式是在觀察到事件B已發(fā)生的條件下,尋找導致A發(fā)生的每個原因Ai的概率。P(Ai)稱為驗前概率,P(Ai |B)是驗后概率。10. 0-1分布:。0-1分布也稱為兩點分布,即非A即B。關于是否的概率統(tǒng)統(tǒng)是0-1分布。性別。11. 二項分布:現(xiàn)實生活中,許多事件只是具有兩種互斥結(jié)果的離散變量。如男性和女性、某種化驗結(jié)果的陰性陽性,這就是二項分布。參數(shù)為n,p,記為XB(n,p)。E(X)=np,D(X)=npq。當成功的概率很小,而試驗次數(shù)很大時,二項分布接近泊松分布,此時=np。即P0.25,n20,np5。二項定理近似服從正態(tài)分布。二項分布是0-1分布的n重實驗,表示含量為n的樣本中,有X個所需結(jié)果的概率。12. 二項分布的正態(tài)近似:,其中a=,b=,q=1-p。13. 超幾何分布:。即二項分布中,無放回的情況。14. 泊松分布(poisson distribution):用來描述在一指定時間范圍內(nèi)或在指定的面積之內(nèi)某事件出現(xiàn)的次數(shù)的分布。如某企業(yè)中每月發(fā)生的事故次數(shù)、單位時間內(nèi)到達某一服務柜臺需要服務的顧客人數(shù)、人壽保險公司每天收到的死亡聲明個數(shù)、某種儀器每月出現(xiàn)故障的次數(shù)等。公式為:,E(X)=,D(X)=。是給定時間間隔內(nèi)事件的平均數(shù)。15. 期望:各可能值xi與其對應概率pi的乘積之和為該隨機變量X的期望,即。16. 概率密度滿足的條件:(1)f(x)0;(2)。連續(xù)型隨機變量的概率密度是其分布函數(shù)的倒數(shù)。;。17. 正態(tài)分布(normal distribution):正態(tài)分布的概率密度為:,xR。記作X()。18. 正態(tài)分布圖形特點:(1)f(x)0,即整個概率密度曲線都在x軸上方;(2)f(x)相對于x= 對稱,并在x=處取到最大值,最大值為;(3)曲線的陡緩由決定,越大,越平緩,越小,曲線越陡峭;(4)當x趨于無窮時,曲線以x軸為漸近線。19. 正態(tài)分布的例子:某地區(qū)同年齡組兒童的發(fā)育特征、某公司的銷售量、同一條件下產(chǎn)品的質(zhì)量以平均質(zhì)量為中心上下擺動、特別差和特別好的都是少數(shù),多數(shù)在中間狀態(tài),如人群中的高個子和矮個子都是少數(shù),中等身材居多等。20. 標準正態(tài)分布,即在正態(tài)分布中,=0,=1,有,即XN(0,1)。用表示分布函數(shù),表示概率密度。(-x)=1-(x)。21. 方差:即每個隨機變量取值與期望值的離差平方的期望值。隨機變量的方差計算公式為:。22. 標準差:隨機變量的方差的平方根為標準差,記。標準差與隨機變量X有相同的度量單位。23. 期望、標準差、離散系數(shù)的使用:如果期望相同,那么比較標準差;如果期望不同,那么比較離散系數(shù)。24. 3準則:由標準正態(tài)分布得:當XN(0,1)時,P(|X|1)=2(1)-1=0.6826;P(|X|2)=2(2)-1=0.9545;P(|X|3)=2(3)-1=0.9973.這說明X的取值幾乎全部集中在-3,3之間,超出這個范圍的不到0.3%。將結(jié)論推廣到一般正態(tài),即XN(,)時,有P(|X-|) =0.6826;P(|X-|2) =0.9545;P(|X-|3) =0.9973??梢哉J為X的值一定落在(-3, +3)內(nèi)。25. 矩:(1)為樣本k階矩,其反映出總體k階矩的信息,當k=1時,即均值;(2)為樣本k階中心矩,它反映出總體k階中心矩的信息,當k=2時,即方差;(3)為樣本偏度,它反映總體偏度的信息,偏度反映了隨機變量密度函數(shù)曲線在眾數(shù)兩邊的對稱偏斜性;(4)為樣本峰度,它反映出總體峰度的信息,峰度反映密度函數(shù)曲線在眾數(shù)附近的峰的尖峭程度。26. 充分統(tǒng)計量:統(tǒng)計量加工過程中一點信息都不損失的統(tǒng)計量稱為充分統(tǒng)計量。27. 因子分解定理:充分統(tǒng)計量判定方法。當X=(X1,X2,,Xn)是來自正態(tài)分布N(,2)的一個樣本時,若已知,則是2的充分統(tǒng)計量,若2已知,則是的充分統(tǒng)計量。28. 精確抽樣分布和漸近分布:在總體X的分布類型已知時,若對任一自然數(shù)n,都能導出統(tǒng)計量T=(X1,X2,Xn)的分布數(shù)學表達式,這種分布就是精確抽樣分布,包括卡方、F,t分布;當n較大時,用極限分布作為抽樣分布的一種近似,這種極限分布稱為漸近分布,如中心極限定理。29. 卡方分布:設隨機變量X1,X2,Xn相互獨立,且Xi服從標準正態(tài)分布N(0,1),則它們的平方和服從自由度為n的分布。E()=n;D()=2n;具有可加性;當自由度增加到足夠大時,分布的概率密度曲線趨于對稱,當n趨于無窮時,的極限分布是正態(tài)分布。30. t分布:也稱為學生氏分布。設隨機變量XN(0,1),Y(n),且X與Y獨立,則,其分布稱為t分布,記為t(n),n是自由度。t分布的密度函數(shù)是偶函數(shù)。當n2時,E(t)=0,;當n3時,D(t)=n/(n-2)。t(n)的方差比N(0,1)大一些。自由度為1的分布稱為柯西分布,隨著n增加,t分布的密度函數(shù)越來越接近標準正態(tài)分布的密度函數(shù)。實際應用中,當n30時,t分布于標準正態(tài)分布很接近。另有一個關于t分布的抽樣分布:,稱為服從自由度為(n-1)的t分布。31. F分布:設隨機變量Y與Z獨立,且Y和Z分別服從自由度為m和n的分布,隨機變量X如下:。則成X服從第一自由度為m,第二自由度為n的F分布,記為XF(m,n)。E(X)=n/(n-2),n2;D(X)=,n4。32. t分布與F分布的關系:如果隨機變量X服從t(n)分布,則X2服從F(1,n)的F分布。這在回歸系數(shù)顯著性檢驗中有用。33. 的抽樣分布(sampling distribution):當總體分布為正態(tài)分布時,的抽樣分布仍然是正態(tài)分布,此時E()=,D()=2/n,則。其說明當用樣本均值去估計總體均值時,平均來說沒有偏差(無偏性);當n越來越大時, 的散布程度越來越小,即用估計越來越準確。34. 中心極限定理(central limit theorem):不管總體的分布是什么,只要總體的方差2有限且要求n30,此時樣本均值的分布總是近似正態(tài)分布,即N(,2/n)。35. 樣本比例的抽樣分布:如果在樣本大小為n的樣本中具有某一特征的個體數(shù)為X,則樣本比例為:。是總體比例,即p=X/n=。36. 兩個樣本均值之差的分布:若為兩個總體,則:;若是兩個樣本,則:;。37. 樣本方差的分布:設X1,X2,Xn為來自正態(tài)分布的樣本,則設總體分布為N(,2),則樣本方差S2的分布為:。38. 兩個樣本方差比的分布:設X1,X2,Xn是來自正態(tài)分布的樣本,y1,y2,yn也是來自正態(tài)分布的樣本,且Xi與yi獨立,則。39. 參數(shù)估計(parameter estimation):用樣本統(tǒng)計量去估計總體的參數(shù)。40. 點估計(point estimate):用樣本統(tǒng)計量的某個取值直接作為總體參數(shù)的估計值。41. 區(qū)間估計(interval estimate):是在點估計的基礎上,給出總體參數(shù)估計的而一個區(qū)間范圍,該區(qū)間通常由樣本統(tǒng)計量加減估計誤差得到。42. 置信區(qū)間(confidence interval):在區(qū)間估計中,由樣本統(tǒng)計量所造成的總體參數(shù)的估計區(qū)間稱為置信區(qū)間。43. 置信水平(confidence level):如果將構(gòu)造置信區(qū)間的步驟重復多次,置信區(qū)間中包含總體參數(shù)真值的次數(shù)所占的比例為置信水平,也稱為置信度或置信系數(shù)。其含義為:如果做了100次抽樣,大概有95次找到的區(qū)間包含真值,而不是95%的可能落在區(qū)間,因為統(tǒng)計量不涉及概率問題。44. 無偏性(inbiasedenss):指估計量抽樣分布的期望等于被估計的總體參數(shù)。設總體參數(shù)為,估計量為,如果E()=,則稱為的無偏估計量。45. 有效性(efficiency):指對同一總體參數(shù)的兩個無偏估計量,有更小標準差的估計量更有效。46. 一致性(consistency):指隨著樣本量的增大,點估計量的值越來越接近被估總體的參數(shù),換個說法,一個大樣本給出的估計量要比一個小樣本給出的估計量更接近總體參數(shù)。47. 樣本量與置信水平、總體方差和估計誤差的關系:樣本量與置信水平成正比,在其他條件不變的情況下,置信水平越大,所需的樣本量也就越大;樣本量與總體方差成正比,總體的差異越大,所要求的樣本量也越大;樣本量與估計誤差的平方成反比,即可接受的估計誤差的平方越大,所需的樣本量就越小。48. 圓整法則:將樣本量取成較大的整數(shù),也就是將小數(shù)點后面的數(shù)值一律進位成整數(shù)。49. 兩類錯誤:一類是原假設H0為真卻拒絕,這類錯誤用表示,稱為棄真;另一類是原假設為偽而我們卻接受,這種錯誤用表示,也稱存?zhèn)巍?0. 兩類錯誤的控制原則:如果減小錯誤,就會增大犯錯誤的機會;若減小錯誤,也會增大犯錯誤的機會。規(guī)則是:首先控制錯誤,這是因為原假設是什么常常是明確的,而備擇假設是什么則常常是模糊的。51. P值:P值是當原假設為真時所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的概率。P值越小,拒絕原假設的理由就越充分。P值的長處是它反映了觀察到的實際數(shù)據(jù)與原假設之間不一致的概率值。52. 雙側(cè)檢驗與單側(cè)檢驗:雙側(cè)檢驗主要是檢驗是否相等,如90年的嬰兒體重與89年嬰兒體重是否相等;另一種是單側(cè)檢驗,即關心的假設問題帶有方向性,如燈泡的使用壽命,汽車行駛距離等;另一種是數(shù)值越小越好,如廢品率、生產(chǎn)成本等。53. 統(tǒng)計量的選擇:在一個總體參數(shù)的檢驗中,主要統(tǒng)計量有三個,z、t和。z和t用于均值和比例檢驗,用于方差檢驗。統(tǒng)計量選擇步驟如下:(1)是否是大樣本,如果是,那么如果總體呈正態(tài)分布,樣本統(tǒng)計量也呈正態(tài)分布;如果總體不呈正態(tài)分布,樣本統(tǒng)計量漸進服從正態(tài)分布;此時可以使用z統(tǒng)計量(2)如果是小樣本,那么觀察,如果已知,樣本統(tǒng)計量將服從正態(tài)分布,此時可以用z統(tǒng)計量(3)如果未知,則只能使用樣本標準差,樣本統(tǒng)計量服從t分布,應采用t統(tǒng)計量。t統(tǒng)計量的精度不如z統(tǒng)計量,這是總體信息未知所需要付出的代價。54. 總體比例檢驗公式:。P為樣本比例,0是總體比例的假設值。55. 總體(population):包含所研究的全部個體的集合,組成總體的每一個元素稱為個體。當總體的范圍難以確定時,可根據(jù)研究的目的來定義總體。56. 樣本(sample):樣本是從總體中抽取的一部分元素的集合,構(gòu)成樣本的元素的數(shù)目稱為樣本量。57. 參數(shù)(parameter):參數(shù)是用來描述總體特征的概括性數(shù)字度量。58. 統(tǒng)計量(statistic):統(tǒng)計量是用來描述樣本特征的概括性數(shù)字度量。抽樣的目的就是根據(jù)樣本統(tǒng)計量估計總體參數(shù)。統(tǒng)計量中不能包含未知參數(shù)。59. 變量(variable):說明現(xiàn)象某種特征的概念,特點是從一次觀察到下一次觀察結(jié)果會呈現(xiàn)出差別或變化。變量分為分類變量、順序變量、數(shù)值型變量,數(shù)值型變量又分為離散型變量和連續(xù)型變量。60. 概率抽樣(probability sampling):也稱隨機抽樣,指遵循隨機原則進行的抽樣,總體中每個單位都有一定的機會被選入樣本。概率抽樣分為簡單隨機抽樣、分層抽樣、整群抽樣、系統(tǒng)抽樣和多階段抽樣。61. 簡單隨機抽樣(simple random sampling):從包括總體N個單位的抽樣框中隨機的一個一個的抽取n個單位作為樣本,每個單位的入樣概率是相等的。62. 非概率抽樣(non- simple random sampling):指抽取樣本時不依據(jù)隨機原則,而是根據(jù)研究目的對數(shù)據(jù)的要求,采用某種方式從總體中抽出部分單位對其實施調(diào)查。包括方便抽樣、判斷抽樣、自愿樣本、滾雪球抽樣和配額抽樣。63. 抽樣誤差(sampling error):指由于抽樣的隨機性引起的樣本結(jié)果與總體真值之間的誤差。64. 頻數(shù)(frequency):是落在某一特定類別或組中的數(shù)據(jù)個數(shù)。把各個類別及落在其中的相應頻數(shù)全部列出,并用表格形式表現(xiàn)出來,稱為頻數(shù)分布。65. 列聯(lián)表(contingency table)和交叉表(cross table):由兩個或兩個以上變量交叉分類的頻數(shù)分布表稱為列聯(lián)表。二維的列聯(lián)表又稱為交叉表。66. 帕累托圖(pareto chart):按各類別數(shù)據(jù)出現(xiàn)的頻數(shù)多少排序后繪制的條形圖。通過對條形圖排序,容易看出哪類數(shù)據(jù)出現(xiàn)得多,哪類數(shù)據(jù)出現(xiàn)的少。67. 餅圖(pie chart):是用圓形及圓內(nèi)扇形的角度來表示數(shù)值大小的圖形,它主要用于表示一個樣本中各組成部分的數(shù)據(jù)站全部數(shù)據(jù)的比例,對于研究結(jié)構(gòu)性問題十分有用。68. 環(huán)形圖(doughnut chart):把餅圖疊在一起,挖去中間部分就是環(huán)形圖。環(huán)形圖可顯示多個樣本部分所占的相應比例,從而有利于構(gòu)成的比較研究。69. 累積頻數(shù)(cumulative frequencies):將各種有序類別或組的頻數(shù)逐級累加起來得到的頻數(shù),通過累積頻數(shù)可以很容易看出某一類別以下或某一類別以上的頻數(shù)之和。70. 組中值(class midpoint):是每一組中下限值與上限值中間的值,組中值可以作為該組數(shù)據(jù)的一個代表值,但是用組中值有一個必要的假定條件,即各組數(shù)據(jù)在本組內(nèi)呈均勻分布或在組中值兩側(cè)呈對稱分布,否則會產(chǎn)生誤差。71. 直方圖(histogram):適用于展示分組數(shù)據(jù)分布的圖形,用于大批量數(shù)據(jù)的分析。72. 莖葉圖(stem-and-leaf display):反映原始數(shù)據(jù)分布的圖形,由莖葉兩部分組成,其圖形是由數(shù)字組成的。可以看出數(shù)據(jù)的分布形狀及數(shù)據(jù)的離散情況且能保留原始信息,適用于小數(shù)據(jù)。73. 箱線圖(box-plot):由最大值、最小值、中位數(shù)、兩個四分位數(shù)組成,主要用于反應原始數(shù)據(jù)分布的特征,還可以進行多組數(shù)據(jù)分布特征的比較。74. 線圖(line plot):主要用于反應現(xiàn)象隨時間變化的特征。75. 散點圖(scatter diagram):用二維坐標展示兩個變量之間關系的圖形。76. 氣泡圖(bubble chart):可用于展示三個變量之間的關系。一個變量是橫軸、一個變量是縱軸、一個變量用氣泡大小表示。77. 雷達圖(radar chart):也稱蜘蛛圖。設有n組樣本S1,S2Sn,每個樣本測得P個變量X1,X2XP,要繪制這P個變量的雷達圖,具體做法是,先畫一個圓,然后將圓P等分,得到P個點,令這P個點分別對應P個變量,再將這P個點與圓心連線,得到P個輻射狀的半徑,這P個半徑分別作為P個變量的坐標軸,每個變量值的大小由半徑上的點到圓心的距離表示,再將同一樣本的值在P個坐標上的點連線。這樣,n個樣本構(gòu)成的n個多邊形就是雷達圖。雷達圖在顯示或?qū)Ρ雀髯兞康臄?shù)值總和時十分有用,假定各變量的取值具有相同的正負號,則總的絕對值與圖形所圍成的區(qū)域成正比。此外,利用雷達圖可以研究多個樣本之間的相似度。78. 眾數(shù)(mode):一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值,用表示。主要用于測度分類數(shù)據(jù)、順序數(shù)據(jù)、數(shù)值數(shù)據(jù)的集中趨勢,不受極端值影響,一組數(shù)據(jù)分布的最高峰點所對應的數(shù)值即為眾數(shù)。只有在數(shù)據(jù)量較大時,眾數(shù)才有意義。79. 中位數(shù)(median):中位數(shù)時一組數(shù)據(jù)排序后處于中間位置上的變量值,用表示。中位數(shù)主要用于測度順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)的集中趨勢,但不適用于分類數(shù)據(jù)。中位數(shù)位置為:(n+1)/2;中位數(shù)的值為。中位數(shù)是一個位置代表值,其特點是不受極端值影響,在研究收入分配時很有用。80. 平均數(shù)也稱為均值(mean),是集中趨勢的最主要測度值,主要適用于數(shù)值型數(shù)據(jù),不適用于分類數(shù)據(jù)和順序數(shù)據(jù)。平均數(shù)分為簡單平均數(shù)和加權(quán)平均數(shù),簡單平均數(shù)(simple mean)的計算公式為:。根據(jù)分組數(shù)據(jù)計算的平均數(shù)稱為加權(quán)平均數(shù)(weighted mean)。設原始數(shù)據(jù)被分為k組,各組的組中值分別用表示,各組變量值出現(xiàn)的品數(shù)分別用表示,則樣本加權(quán)平均數(shù)的計算公式為:,其中n=。平均數(shù)是一組數(shù)據(jù)的重心所在,是數(shù)據(jù)誤差相互抵消后作用的結(jié)果。81. 幾何平均數(shù)(geometric mean):是n個變量值乘積的n次方根,用G表示,計算公式為:。幾何平均數(shù)主要用于計算平均率,當所掌握的變量值本身是比率的形式時,采用幾何平均法更合理。在實際中,幾何平均數(shù)主要用于計算現(xiàn)象的平均增長率。82. 異眾比率(variation ratio):指非眾數(shù)組的頻數(shù)占總頻數(shù)的比例,用表示,計算公式為:。fm是眾數(shù)組的頻數(shù),fi是變量值的總頻數(shù)。異眾比率主要用于衡量眾數(shù)對一組數(shù)據(jù)的代表程度。異眾比率越大,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大,眾數(shù)的代表性越差;異眾比率越小,非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越小,眾數(shù)的代表性越好。異眾比率可用于分類數(shù)據(jù)、順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)。83. 四分位差(quartile deviation):也稱為內(nèi)距或四分間距(inter-quartile range):是上四分位數(shù)與下四分位數(shù)之差,用表示,計算公式為:。四分位差反映了中間50%數(shù)據(jù)的離散程度,其數(shù)值越小,中間的數(shù)越集中;數(shù)值越大,中間的數(shù)越分散。四分位數(shù)不受極值影響??捎糜陧樞驍?shù)據(jù)和數(shù)值數(shù)據(jù),但不能用于分類數(shù)據(jù)。84. 極差(range):也稱為全距,用R表示,指一組數(shù)據(jù)的最大值和最小值之差。計算公式為:。極差容易受極端值影響。85. 平均差(mean deviation):也稱為平均絕對離差(mean absolute deviation):是各變量值與其平均數(shù)離差絕對值的平均數(shù)。用表示。平均差以平均數(shù)為中心,反應了每個數(shù)據(jù)與平均數(shù)的平均差異程度,能全面反應一組數(shù)據(jù)的平均差異程度,但由于為避免出現(xiàn)0而取絕對值,所以實際中應用較少。根據(jù)未分組數(shù)據(jù)計算平均差的公式為:;根據(jù)分組數(shù)據(jù)計算平均差的公式為:。86. 方差(variance)與標準差(standard variance):方差是各變量值與其平均數(shù)離差平方的平均數(shù)。方差的平方根是標準差。設樣本方差為,根據(jù)分組和未分組數(shù)據(jù)計算樣本方差的公式為:,其中n-1是自由度。標準差更具有實際意義。87. 自由度(degree of freedom):自由度指附加各獨立的觀測值的約束或限制的個數(shù)。當樣本數(shù)據(jù)的個數(shù)為n時,若樣本平均數(shù)確定后,則附加給n個觀測值的約束個數(shù)是1個,因此只有n-1個數(shù)據(jù)可以自由取值。例如,假定樣本有3個數(shù),2,4,9,則=5,那么如果前兩個值取5和8,則第三個數(shù)必須取2才能使=5,所以有一個數(shù)是不能自由取值的,所以自由度是n-1。88. 標準分數(shù)(standard score):是變量值與其平均數(shù)的離差除以標準差后的值,也稱為標準化值或z分數(shù),計算公式為:。標準分數(shù)給出了一組數(shù)據(jù)中各數(shù)值的相對位置。比如,如果某個數(shù)值的標準分數(shù)為-1.5,就知道該數(shù)值低于平均數(shù)1.5倍的標準差。標準分數(shù)具有均值為0,標準差為1的特性,實際上z分數(shù)只是對數(shù)據(jù)進行了線性轉(zhuǎn)換。用于數(shù)據(jù)標準化和檢測離散數(shù)據(jù)。89. 經(jīng)驗法估計數(shù)據(jù)的相對位置:當一組數(shù)據(jù)對稱分布時,約有68%的數(shù)據(jù)在平均數(shù)1個標準差內(nèi);約有95%的數(shù)據(jù)在平均數(shù)2個標準差內(nèi);約有99%的數(shù)據(jù)在平均數(shù)3個標準差內(nèi)。三個標準差之外的數(shù)據(jù)稱為離群點。90. 切比雪夫不等式(Chebyshevs inequality):經(jīng)驗法只適合對稱分布數(shù)據(jù),而切比雪夫不等式適用于任何分布的數(shù)據(jù),但只給了下界,即所占比例至少是多少。切比雪夫不等式公式為:。根據(jù)該公式可知,至少有(1-1/)個數(shù)據(jù)落在k個標準差之內(nèi),對于k=2,該不等式的含義是,至少有75%的數(shù)據(jù)落在2個標準差之內(nèi)。91. 離散系數(shù):也稱為變異系數(shù)(coefficient of variation),是一組數(shù)據(jù)的標準差與其相應的平均數(shù)之比,計算公式為:。離散系數(shù)是測度數(shù)據(jù)離散程度的相對統(tǒng)計量,主要是用于比較不同樣本數(shù)據(jù)的離散程度。離散系數(shù)大,說明數(shù)據(jù)的離散程度大。離散系數(shù)是比較平均水平不同或計量單位不同的不同組別的變量值的離散程度。92. 離散測度總結(jié):分類數(shù)據(jù)主要用異眾比率來測度離散程度;順序數(shù)據(jù)主要用四分位數(shù)來測度離散程度;數(shù)值數(shù)據(jù)主要用方差和標準差測度離散程度;而對于不同的樣本數(shù)據(jù),用離散系數(shù)比較離散程度。93. 偏態(tài)(skewness):偏態(tài)是對數(shù)據(jù)分布對稱性的測度。測度偏態(tài)的統(tǒng)計量是偏態(tài)系數(shù)(coefficient of skewness),記作SK。根據(jù)未分組和分組的原始數(shù)據(jù)計算偏態(tài)系數(shù)的公式為:。如果一組數(shù)據(jù)的分布是對稱的,則偏態(tài)系數(shù)等于0,表明分布是對稱的,若偏態(tài)系數(shù)大于1或小于-1,則稱為高度偏態(tài)分布;若偏態(tài)系數(shù)在0.51或-1-0.5,則是中等偏態(tài)分布。根據(jù)分組的SK公式中,很明顯是將離差的三次方的平均數(shù)除以,是將偏態(tài)系數(shù)轉(zhuǎn)化為相對數(shù)。94. 相對數(shù):是兩個有聯(lián)系的指標的比值,它可以從數(shù)量上反映兩個相互聯(lián)系的現(xiàn)象之間的對比關系。95. 峰態(tài)(kurtosis):是對數(shù)據(jù)分布平峰或尖峰程度的測度。測度峰態(tài)的統(tǒng)計量是峰態(tài)系數(shù)(coefficient of kurtosis),記作K。峰態(tài)通常與標準正態(tài)分布比較而言的。如果數(shù)據(jù)服從標準正態(tài)分布,則峰度為0,否則為平峰分布或尖峰分布。根據(jù)未分組和分組數(shù)據(jù)計算峰態(tài)系數(shù)的公式為:,。當K0時為尖峰分布,數(shù)據(jù)的分布更集中;當K0.8,說明蓋度相關;0.5-0.8說明中度相關,0.3-0.5說明低度相關,r0.3,說明不相關。133. r的顯著性檢驗方法:(1)提出假設:H0:=0;H1:0;(2)計算檢驗的統(tǒng)計量:;(3)決策:根據(jù)給定的和df=n-2,查t分布表,得出t/2(n-2)的臨界值。若|t|t/2,則拒絕零假設,表明總體的兩個變量之間存在顯著性管系。134. 斯皮爾曼相關系數(shù)(Spearman):該系數(shù)用來度量順序水準變量間的線性相關關系。它是利用兩變量的秩次大小作線性分析。適用條件有二:第一,兩個變量的變量值是以等級次序表示的資料;(2)一個變量的變量值是等級數(shù)據(jù),另一個變量的變量值是等距或比率數(shù)據(jù),且兩總體不要求是正態(tài)分布,樣本容量不一定大于30。缺點是計算精度不高。斯皮爾曼系數(shù)用rR表示,公式為:,其中D是兩個變量每對數(shù)據(jù)等級之差;n是兩列變量值的對數(shù)。135. 肯德爾系數(shù)(kendall):肯德爾等級相關系數(shù)用于反映分類變量相關性的指標,適用于兩個變量均為有序分類的情況。這種指標采用非參數(shù)檢驗方法測度變量間的相關關系,利用變量的秩計算一致對數(shù)目和非一致對數(shù)目。如果兩變量具有較強的正相關,則一致對數(shù)目U較大,否則一致對數(shù)目和非一致對數(shù)目應該相近??系聽栂禂?shù)計算公式如下:。136. 偏相關分析:其是在扣除其他因素的作用大小以后,重新來測度這兩個因素間的關聯(lián)程度。這種方法的目的在于消除其他變量關聯(lián)性的傳遞效應。偏相關系數(shù)計算公式為:。137. 距離分析:距離分析是對觀測量之間或變量之間相似或不相似的程度的一種測度,根據(jù)變量的不同類型,可以有許多距離、相似程度測量指標供用戶選擇。但由于距離分析只是一個預分析過程,所以距離分析不會給出P值,而只能給出各變量/記錄間距離的大小,以供用戶自行判斷相似性。調(diào)用距離分析過程可對變量內(nèi)部各觀察單位間的數(shù)值進行距離相關分析,以考察相互間的接近程度,也可用于考察變量的相似程度。在距離分析中,主要利用變量間的相似性測度和不相似性測度度量研究對象之間的關系。138. 回歸分析:側(cè)重于測度變量之間的關系強度,并通過一定數(shù)學表達式將這種關系描述出來,進而確定一個或幾個變量(自變量)的變化對另一個特定變量(因變量)的影響程度。139. 回歸分析解決的問題:(1)確定變量之間的表達式;(2)對關系式的可信程度進行檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響是顯著的,那些是不顯著的;(3)預測。140. 自變量和因變量:被預測或被解釋的變量稱為因變量;用來預測或用來解釋因變量的變量稱為自變量。如預測一定的貸款余額條件下的不良貸款是多少,被預測的不良貸款,是因變量,用來預測的是貸款余額,是自變量。141. 一元線性回歸:當回歸中只涉及一個自變量時稱為一元回歸,若因變量y與自變量x之間的為線性關系時,是一元線性回歸。142. 回歸模型(regression model):描述因變量y如何依賴于自變量x和誤差的方程稱為回歸模型。只涉及一個自變量的一元線性回歸模型可表示為y=0+1x+。143. 誤差項:是一個服從正態(tài)分布的隨機變量,且獨立,即N(0,2)。獨立性意味著對于一個特定的x值,它所對應的與其他x所對應的不相關。因此,對于一個特定的x值,它所對應的y值與其他x所對應的y值也不相關。這表明,在x取某個確定值的情況下,y的觀察值非??拷本€;當2較大時,y的觀察值將偏離直線。對于任何一個給定的x值,y都服從期望值為0+1x,方差為2的正態(tài)分布,且對于不同的x都具有相同的方差。144. 回歸方程(regression equation):描述因變量y的期望值如何依賴于自變量x的方程。一元線性回歸方程為:E(y)= 0+1x。145. 估計的回歸方程(estimated regression equation):用樣本統(tǒng)計量和代替回歸方程中未知參數(shù)和,即估計的回歸方程。表示回歸直線在縱軸上的截距;是回歸系數(shù)。146. 最小二乘估計:用最小化圖中垂直方向的離差平方和來估計參數(shù)0和1,根據(jù)這一方法確定模型參數(shù)0和1的方法稱為最小二乘法,也稱最小平方法。它是通過使用因變量的觀察值yi與估計值之間的離差平方和達到最小來估計0和1的方法。公式為。在回歸分析中對截距0不賦予任何意義。147. 擬合優(yōu)度(goodness of fit):回歸直線與各觀測點的接近程度稱為回歸直線對數(shù)據(jù)的擬合優(yōu)度。為說明直線的擬合優(yōu)度,需要計算判定系數(shù)。148. 判定系數(shù):判定系數(shù)是對估計的回歸方程擬合優(yōu)度的度量。149. 變差:因變量y的取值是不同的,y取值的這種波動稱為變差。變差產(chǎn)生的原因有兩個:第一,由自變量x的取值不同造成的;第二,除x以外的其他因素(非線性影響或測量誤差等)的影響。對一個具體的觀測值來說,變差的大小可以用實際觀測值y與其均值之差(y-)來表示。而n次觀察值的總變差可由這些離差的平方和表示,稱為總平方和,記為SST,即。在該公式中,等號右邊后半部分反映y的總變差中由于x和y之間的線性關系引起的y的變化部分,它是可以由回歸直線來解釋的yi變差部分,稱為回歸平方和,記為SSR;另一部分是各實際觀測點與回歸值的殘差的平方和,它是除x對y的線性影響之外的其他因素對y的變差作用,是不能由回歸直線來解釋的yi變差部分,稱為殘差平和和或誤差平方和,記為SSE?;貧w直線擬合的好壞取決于(SSR/SST),各點越靠近直線,比例越大,直線擬合越好。該比例稱為判定系數(shù),記為。150. 判定系數(shù)的判定:若所有觀測點都落在直線上,殘差平方和SSE=0,=1,擬合是完全的;如果y的變化與x無關,x完全無助于解釋y的變差,此時,=0. 越接近于1,回歸平方和占總平方和的比率越大。151. 估計標準誤差(standard error of estimate):度量各實際觀測點在直線周圍的散布狀況的一個統(tǒng)計量,它是均方殘差的平方根,用SE表示,其計算公式為:。估計標準誤差是對誤差項的標準差的估計,它可以看作在排除了x對y的線性影響后,y隨機波動大小的一個估計量。從估計標準誤差的實際意義看,它反映了用估計的回歸方程預測因變量y時預測誤差的大小,若各觀測點越靠近直線SE越小,回歸直線對各觀測點的代表性就越好,根據(jù)估計的回歸方程進行預測也就越準確;若各觀測點全部落在直線上,則SE=0。152. 回歸分析的檢驗有兩個內(nèi)容:一是線性關系檢驗,二是回歸系數(shù)檢驗。前者檢驗x和y之間的線性關系是否顯著,后者是檢驗x對y的影響是否顯著。153. 線性關系檢驗的步驟:(1)提出假設:H0:1=0,即兩個變量之間的線性關系不顯著;(2)計算檢驗統(tǒng)計量F:;(3)決策:確定顯著性水平,并根據(jù)分子的df=1和分母的df=n-2查F分布表,找到響應的臨界值F。若FF,拒絕H0,表明兩個變量之間的線性關系顯著;否則,不拒絕H0,表明沒有證據(jù)表明兩個變量之間線性關系是顯著的。154. 回歸系數(shù)檢驗步驟:(1)提出假設:H0:1=0,即回歸系數(shù)1=0;(2)計算檢驗統(tǒng)計量:,其中,Se是的估計值;(3)決策:確定顯著性水平,并根據(jù)分子的df=n-2查t分布表,找到響應的臨界值t/2。若|t| t/2,拒絕H0,否則接受H0,表明沒有證據(jù)表明兩個變量之間線性關系是顯著的。在一元線性回歸中,線性的檢驗和回歸的檢驗是等價的。155. 點估計:對于x的一個特定值x0,求出y的一個估計值就是點估計。點估計可以分為兩種:一是平均值的點估計,二是個別值的點估計。前者是對總體參數(shù)的估計,后者是對因變量的某個具體取值估計。156. 平均值點估計和個別值點估計:平均值點估計是利用估計的回歸方程,對于x的一個特定值x0,求出y的平均值的一個估計值E(y0);個別值點估計是利用估計的回歸方程,對于x的一個特定值x0,求出y的一個個別值。在點估計條件下,對于同一個x0,平均值的點估計和個別值的點估計的結(jié)果是一樣的,但在區(qū)間估計中不同。157. 區(qū)間估計:利用估計的回歸方程,對于x的一個特定值x0,求出y的一個估計值的區(qū)間就是區(qū)間估計。區(qū)間估計有兩種:一是置信區(qū)間估計,它是對x的一個特定值x0,求出y的平均值的估計區(qū)間,這一區(qū)間稱為置信區(qū)間;二是預測區(qū)間估計,它是對x的一個給定值x0,求出y的一個個別值的估計區(qū)間,這一區(qū)間稱為預測區(qū)間。158. 置信區(qū)間估計(confidence interval estimate)計算步驟:(1)計算點估計值;(2)計算t/2(n-2);(3)根據(jù)殘差計算如下公式:,即得區(qū)間。當時,估計最精確,否則,y的平均值的置信區(qū)間就越寬,越不精確。159. 預測區(qū)間估計(prediction interval estimate):方法與置信區(qū)間估計相似,但公式變成了,多了一個1,因此預測區(qū)間要比置信區(qū)間寬。160. 四種估計舉例:(1)平均值點估計:估計貸款余額為100億元,所有分行不良貸款的平均值;(2)個別值點估計:估計貸款余額為72.8億元的那個分行的不良貸款;(3)置信區(qū)間估計:估計貸款余額為100億元,建立不良貸款的95%的置信區(qū)間;(4)預測區(qū)間估計:估計貸款余額為72.8億元的那個分行的不良貸款的95%的置信區(qū)間。161. 一元線性回歸的注意:不能用樣本數(shù)據(jù)之外的x值去預測相應的y值。162. 殘差分析(residual):確定有關的假定是否成立的方法之一是殘差分析。163. 標準化殘差(standardized residual):對正態(tài)性假定的檢驗,也可通過對標準化殘差的分析來完成。標準化殘差是殘差除以它的標準差后得到的數(shù)值,也稱為皮爾遜殘差或半學生化殘差(semi-studentized residuals),用ze表示。第i個觀察值的標準化殘差表示為:,se是殘差的標準差估計。如果誤差項服從正態(tài)分布這一假設成立,那么標準化殘差的分布也應服從正態(tài)分布。因此,在標準化殘差圖中,大約有95%的標準化殘差落在2之間。164. 多元回歸模型(multiple regression model):設因變量為y,k個自變量分別為x1,x2xk和誤差的方程為多元回歸模型。公式為。165. 多元回歸方程(multiple regression equation):即,它描述了因變量y的期望值與自變量xi之間的關系。166. 多重判定系數(shù)(multiple coefficient if determination):是多元回歸中的回歸平方和占總平方和的比例,它是度量多元回歸方程擬合程度的一個統(tǒng)計量,反映了在因變量y的變差中被估計的回歸方程所解釋的比例。167. 調(diào)整的多重判定系數(shù)(adjusted multiple coefficient of determination):調(diào)整的多重判定系數(shù)記為,計算公式為:。與R方類似,不同的是同時考慮了樣本量n和模型中自變量的個數(shù)k的影響,這就使得的值永遠小于R方,而的值卻不會由于模型中自變量個數(shù)的增加而越來越接近。因此,多元回歸用調(diào)整的多重判定系數(shù)。168. 復相關系數(shù):R方的平方根稱為復相關系數(shù),或者多重相關系數(shù),它度量了因變量同k個自變量的相關程度。169. 多元線性回歸的估計標準誤差:。170. 多元回歸線性關系

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論