數(shù)據(jù)分析-分布類別_第1頁
數(shù)據(jù)分析-分布類別_第2頁
數(shù)據(jù)分析-分布類別_第3頁
數(shù)據(jù)分析-分布類別_第4頁
數(shù)據(jù)分析-分布類別_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、各種分布泊松分布Poisson分布,是一種統(tǒng)計(jì)與概率學(xué)里常見到的離散概率分布泊松分布的概率函數(shù)為:P(X=k)=Qk=(U.泊松分布的參數(shù)人是單位時(shí)間或單位面積、單位體積內(nèi)隨機(jī)事件的平均發(fā)生率.泊松分布適合于描述單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù).泊松分布的期望和方差均為I特征函數(shù)為:-:泊松分布與二項(xiàng)分布當(dāng)二項(xiàng)分布的n很大而p很小時(shí),泊松分布可作為二項(xiàng)分布的近似,其中人為np0通常當(dāng)n二10,p三0.1時(shí),就可以用泊松公式近似得計(jì)算.事實(shí)上,泊松分布正是由二項(xiàng)分布推導(dǎo)而來的.泊松分布可作為二項(xiàng)分布的極限而得到.一般的說,假設(shè)X加限P,其中n很大,p很小,因而11P二人不太大時(shí),X的分布接近于泊松分

2、布P和.這個(gè)事實(shí)有時(shí)可將較難計(jì)算的二項(xiàng)分布轉(zhuǎn)化為泊松分布去計(jì)算.應(yīng)用例如泊松分布適合于描述單位時(shí)間或空間內(nèi)隨機(jī)事件發(fā)生的次數(shù).如某一效勞設(shè)施在一定時(shí)間內(nèi)到達(dá)的人數(shù), 交換機(jī)接到呼叫的次數(shù),汽車站臺(tái)的候客人數(shù),某放射性物質(zhì)發(fā)射出的粒子,機(jī)器出現(xiàn)的故障數(shù),自然災(zāi)害發(fā)生的次數(shù),一塊產(chǎn)品上的缺陷數(shù),顯微鏡下單位分區(qū)內(nèi)的細(xì)菌分布數(shù)等等.卡方分布n個(gè)獨(dú)立的標(biāo)準(zhǔn)卡方分布T分布是概率論與統(tǒng)計(jì)學(xué)中常用的一種概率分布正態(tài)分布變量的平方和服從自由度為n的卡方分布.卡方分布常用于假設(shè)檢驗(yàn)和置信區(qū)間的計(jì)算.假設(shè)n個(gè)相互獨(dú)立的隨機(jī)變量K?八、己n,均服從標(biāo)準(zhǔn)正態(tài)分布(也稱獨(dú)立同分布于標(biāo)準(zhǔn)正態(tài)分布),那么這n個(gè)服從標(biāo)準(zhǔn)正態(tài)

3、分布的隨機(jī)變量的平方和構(gòu)成一新的隨機(jī)變量,其分布規(guī)律稱為卡方分布(chi-squaredistribution),即才分布(chi-squaredistribution),其中參數(shù)n稱為自由度.正如正態(tài)分布中均值或方差不同就是另一個(gè)正態(tài)分布一樣,自由度不同就是另一個(gè)X2分布.記為/或者Q解.卡方分布與正態(tài)分布卡方分布是由正態(tài)分布構(gòu)造而成的一個(gè)新的分布,當(dāng)自由度n很大時(shí),JT分布近似為正態(tài)分布.對于任意正整數(shù)x,自由度為k的卡方分布是一個(gè)隨機(jī)變量X的機(jī)率分布.期望和方差222X分布的均值為自由度n,記為E(x)=nox分布的方差為2倍的自由度(2n),記為D(1)=2n.卡方分布均勻分布均勻分布

4、(UniformDistribution)是概率統(tǒng)計(jì)中的重要分布之一.顧名思義,均勻,表示可能性相等的含義.PX=fcl=I,4Pm(1)如果加,那么稱X服從離散的均勻分布.(2)設(shè)連續(xù)型隨機(jī)變量X的概率密度函數(shù)為b-a,那么稱隨機(jī)變量X服從a,b上的均勻分布,記為X-U(a,b>均值E(X)=f°°xf(x)dx/福五二字J«L6一口2,即數(shù)學(xué)期望位于區(qū)間(a,b)的中問.、.、.廣.萬差°=?L&oD(X)=E(X2)-E團(tuán)產(chǎn)=17上技-(竽/=伯努利分布一個(gè)離散型機(jī)率分布,是二項(xiàng)分布的特殊情況.伯努利分布是一種離散分布,有兩種可能的結(jié)

5、果.1表示成功,出現(xiàn)的概率為p(其中0Vp<1).0表示失敗,出現(xiàn)的概率為q=1-p.*Pr=(分布律:1-P性質(zhì)均值:E(X)=p方差:var(X)=p(1-p)二項(xiàng)分布二項(xiàng)分布即重復(fù)n次獨(dú)立的伯努利試驗(yàn).在每次試驗(yàn)中只有兩種可能的結(jié)果,而且兩種結(jié)果發(fā)生與否互相對立,并且相互獨(dú)立,與其它各次試驗(yàn)結(jié)果無關(guān),事件發(fā)生與否的概率在每一次獨(dú)立試驗(yàn)中都保持不變,那么這一系列試驗(yàn)總稱為n重伯努利實(shí)驗(yàn),當(dāng)試驗(yàn)次數(shù)為1時(shí),二項(xiàng)分布服從0-1分布.概率為:P=Ckpk(1-p)n-kd表示組合數(shù),n為試驗(yàn)次數(shù),k為成功次數(shù),p為成功概率.BincinUlDistrlbutioninslOO,p=9期望與

6、方差E(X)=EX(1)+X(2)+X(3).X(n)=np.D(X)=DX(1)+X(2)+X(3).X(n)=np(1-p).分布區(qū)別兩點(diǎn)分布又稱伯努利分布.兩點(diǎn)分布的分布列就是x01P1-pp而二項(xiàng)分布的可能結(jié)果是不確定的甚至是沒有盡頭的.兩點(diǎn)分布是一種特殊的二項(xiàng)分布.二項(xiàng)分布是離散型分布,概率直方圖是躍階式的.由于x為不連續(xù)變量,用概率條圖表示更適宜,用直方圖表示只是為了更形象些.1 .當(dāng)p=q時(shí),圖形是對稱的.2 .當(dāng)pwq時(shí),直方圖呈偏態(tài),p<q與p>q的偏斜方向相反.如果n很大,即使pWq偏態(tài)逐漸降低,最終成正態(tài)分布,二項(xiàng)分布的極限分布為正態(tài)分布.故當(dāng)n很大時(shí),二項(xiàng)分

7、布的概率可用正態(tài)分布的概率作為近似值.何謂n很大呢一般規(guī)定:當(dāng)p<q且np>?或p>q且nq>5,這時(shí)的n就被認(rèn)為很大,可以用正態(tài)分布的概率作為近似值了.01分布0-1分布就是n=1情況下的二項(xiàng)分布.即只先進(jìn)行一次事件試驗(yàn),該事件發(fā)生的概率為p.不發(fā)生的概率為q=1-p.這是一個(gè)最簡單的分布,任何一個(gè)只有兩種結(jié)果的隨機(jī)現(xiàn)象.記法:XB(x,p)x為0或1.設(shè)離散型隨機(jī)變量的分布律為0-1分布又叫兩點(diǎn)分布.口注二心內(nèi)1川勘,其中k=0,1.p為k=1時(shí)的概率(0<p<1),那么稱X服從0-1分布,期望與方差E(X)=p,D(X)=pq頻數(shù)分布類型鐘形分布、U形

8、分布、J形分布其中鐘形分布可分為正態(tài)分布和偏態(tài)分布.1.母形分布.鐘花分布M特定是“兩頭小,中間大二即雅近中間的變用值分布的次數(shù)多,嵇近兩邊的變值分布的次數(shù)少.其曲線圖宛如一口古鐘,如圖Z-6所示武器和II/稀或力扁滸KFl船廠鐘也分布示塞圖一所1眾數(shù)下限公式附HJ二AuS-上犀公式工,=x也出jg度是用于*Jt分布的不對型坦度或偏斜程度的指庭:用.表示*是受量的莖史強(qiáng)羞除漏道整三次方,用公式表示為:峰度算數(shù)平均數(shù)與中位數(shù)和眾數(shù)的關(guān)系Mo表示眾數(shù),Me表示中位數(shù),x表示算數(shù)平均數(shù)偏度和峰度Q左偏救幡分布b對麗布圖34算術(shù)平均數(shù)和余期中位數(shù)的關(guān)系a右偏C正偏分布Q=0.蜂度是描述分標(biāo)曲線的尖峭程

9、度或峰凸程匣的值蛆是以變量的四曲電心動(dòng)超唉口標(biāo)冷£四次方.井骼結(jié)果再減3來計(jì)算的.用公式襲示為土鞏分布曲就的尖峭程度,當(dāng)通9時(shí),表示發(fā)數(shù)分電比正態(tài)分布更集中分布呈不修狀態(tài)癖易飄分布比JE毒分布里瓦也分布呈辛坦續(xù)出一0時(shí):分彳為止態(tài)分藉贏匕百圖3哧所示*in邙D6011(05離散型隨機(jī)變量的概率分布離散型隨機(jī)變量的概率分布設(shè)離散型隨機(jī)變國*的所有可能取值為看,可,.九,相應(yīng)的就率為可工),*,用表格統(tǒng)一.檢Kt裳#Pjp(fl)戶?可)這稱為高散型隨機(jī)變量X的概率分布*也可簡單記為;P(X=x,)=MG(t-1.2,)屐率分弗有以下性質(zhì):0<p(工)<1(t=I»

10、2.)gp5)=l如通堿鄲為t產(chǎn)=E(X)=£工#(國)(4-3)酋機(jī)交量的期望值也彌為平均值.是莆機(jī)變分布的集中趨勢,即分布的中央位置.容易獨(dú)證窈望值滿足性質(zhì):£(口茶+曲工)=口后(布)+他XX*)其中X?都是隨機(jī)變量*3是任意常數(shù).并且這個(gè)性質(zhì)可推廣到多個(gè)隨機(jī)變量情形.制1j=Var(X)E(X)2*="£(罵一4M工)|方墓的平方根.稱為標(biāo)準(zhǔn)差.百差:或標(biāo)準(zhǔn)差;反映隨機(jī)變量X時(shí)其期型值的離散程度./或.越小,說明期期值的代表性越好,/成廿越大,說明期望值的代表性越差.也容易臉證:對于任慧的心(OX)=(X)成立.連續(xù)型隨機(jī)變量的概率分布其中PQV

11、XV公表示*件瓦曜11機(jī)變*的取值落在區(qū)間8內(nèi)的概率.連續(xù)MR!機(jī)變在*5>區(qū)間上定根分的幾何意義就是由工幃.被積函數(shù)P3八直線父=&和工-b所圉成的面根.如圖4】所示.:tea&bX圖4I晶串的幾何意義連續(xù)里隨機(jī)變工的期望值為;用=EX=邛如4T2方差為,/*ECX中»J1富一浦'艇工山74-ih可以匠,對連續(xù)型題機(jī)變,EG%+國理txjj和也都成立.*連續(xù)型隨機(jī)變量取一個(gè)固定的點(diǎn)的概率為0.抽樣分布簡單隨機(jī)抽樣的方法有重復(fù)抽樣與不重復(fù)抽樣兩種.崛【注】;.抽樣中,如果老忠題序,樣本可能的個(gè)數(shù)是N如果不考慮展序.樣本:.一N+1-1!_i也沈試驗(yàn)是胺立

12、的|:可能的個(gè)數(shù)是函ft,*-c加力叫:“】不新,如果是考慮*如共樣本可能個(gè)款為3%小如果不考患草序.樣*,個(gè)歙為國鳥E工以BW-1工1重復(fù)抽祥的樣本平均數(shù)的平均數(shù)等于總體平均數(shù),gokxI2在電復(fù)抽樣下,有:L1ff口_<n式中,.是總體標(biāo)唯差彳n是樣本單位數(shù).以上結(jié)論具有二正系數(shù).由于該系數(shù)的取值在£0.1之間,因牝.不宜復(fù)抽林標(biāo)準(zhǔn)費(fèi).篁抽長小當(dāng)總悻單位數(shù)N很大時(shí)生正系數(shù)近似I,通??梢杂弥貜?fù)if嬴俞百存確幅瓦萩暫不重篁抽樣條件下樣本平均數(shù)的標(biāo)準(zhǔn)差.2.樣本成效抽料分布用不重復(fù)抽樣方法從總體中抽取九個(gè)單位計(jì)算樣本成數(shù)P,戶也是用機(jī)變量,其分布電同坤本平均數(shù)的分布,即有:(5

13、9)(540)在波有壁蒙如股焚料時(shí),也可跟用實(shí)際樣本的四型代葺:大數(shù)定理和中央極限定理大數(shù)定理大數(shù)定理又稱大數(shù)法那么.人們在觀察個(gè)別事物時(shí),是連同一切個(gè)別的特性來觀察的.個(gè)別現(xiàn)象受偶然因素影響,有各自不同的表現(xiàn).但是,對總體的大量觀察后進(jìn)行平均,就能使偶然因素的影響相互抵消,抵消大局部偶然因素,從而使總體平均數(shù)穩(wěn)定下來,反映出事物變化的一般規(guī)律,這就是大數(shù)定理的意義.方差為直L是人"正理明加給明理底同分布的陵機(jī)變量M.爸.,工,設(shè)它的的/*)=,.(i=U九).愿對任意的正數(shù)口札皿八|:£"_片V,二狂釧讀定理說明,當(dāng),充分大£獨(dú)立陽彳版一系列菌機(jī)菱7其

14、平均數(shù)與它們共同的期里與之間的偏差.可以你艮大的把握被限制在任意給定的范圍之內(nèi),由于從總體中抽用的樣本是虻立且與急憚同分布的,因比,當(dāng)樣本容所可充分大時(shí),樣本平均與總體平均之間的誤差可以有粗大的紀(jì)建皺限制在任看給定的要求之內(nèi),這就是人們用樣本平均估計(jì)總體平均的理論根據(jù)由于劇B曲標(biāo)是一個(gè)符球的平均數(shù),大數(shù)定理對成效指標(biāo)自然也周立:設(shè)m是M次試會(huì)中事件兌發(fā)生的次數(shù),戶是事件人發(fā)生的悔率,那么對于任意小的正數(shù)小看;巨丁I<,=113)即當(dāng)ft充分大時(shí).一釁力髓生鬲糖大接/7依概率收斂石事件4裳生的概率,反映了裁率在大量重鬟弒海國程中的戲定性.該定理稱海貝嚼利大敷定皆,它提供了用頻率代替概真的理

15、論根據(jù).2 .IE態(tài)分布的再生定理正態(tài)分布的再生性是指畫個(gè)殛立的正蠢分必和仍然服從正態(tài)分布.因此.如果總?cè)绻蓮恼龖B(tài)芬假設(shè);7體的平均數(shù)是"標(biāo)準(zhǔn)差是從落個(gè)R體中拄出一個(gè)容是題的樣本,那么樣本平均數(shù)¥也糙從正態(tài)分布真平均敷用,)仍力,其標(biāo)準(zhǔn)差為3 .中央極限定理】*樣本平均數(shù)的中央極限定理如果號(hào)9x的分布具有有限的平-均效和標(biāo)準(zhǔn)壟斷那么從這個(gè)總體所抽取的容it為網(wǎng)的樣書當(dāng)越于無窮大時(shí),樣本平均數(shù)發(fā)近似服從正態(tài)分布,其整均數(shù)E(X)仍為內(nèi)真標(biāo)鹿差為#上.中央極限定翼告訴我tf無論總體膻從何種分布1只要它的平均數(shù)與新準(zhǔn)差客觀存在,W,就可品嬴福本容置用的方式,保證樣本平均數(shù),近似服

16、從正態(tài)分布樣本容量冗越尢原本平均找的分布就越接近正態(tài)分布.一般認(rèn)為樣本單位數(shù)歹士的是火樣本.大樣本的平埼JT近樞屋從正春分布*參數(shù)估計(jì)點(diǎn)估計(jì)直接以樣本統(tǒng)計(jì)量點(diǎn)估計(jì)就是根據(jù)總體參數(shù)與樣本統(tǒng)計(jì)量之間的內(nèi)在聯(lián)系,作為相應(yīng)總體參數(shù)的估計(jì)量,點(diǎn)估計(jì)又稱為定值估計(jì).在統(tǒng)計(jì)中經(jīng)常使用的點(diǎn)估計(jì)量有:&=京"=P1n1式中,3認(rèn),分別表示總體平均數(shù)、總體成數(shù)與總體方差的估計(jì)量.點(diǎn)估計(jì)優(yōu)良性包括三條標(biāo)準(zhǔn):無偏性、有效性和一致性無偏性:用.表示總體的待估計(jì)參數(shù),褪估計(jì)6的樣本統(tǒng)我們廝&/的無偏估計(jì)1指的是9滿足;E(J)=6(S-2)無偏性要求用來節(jié)計(jì)總體參數(shù)的桿本統(tǒng)計(jì)跳沒有系燒偏范.由于

17、E(X)=r所以樣本平均是氈體平均的一個(gè)無偏估計(jì).有效性:.TJTFJOLIJP1I1im2.<«|以和以都是總體蠢數(shù)&的無偏估計(jì)量,如果4期說明估計(jì)量瓦比瓦更有效.設(shè)總體的方差是舞們有1顯然I樣本平均效的方差比任一事的X?二1,九,4的方差瞿小,只是其方第的】那.所以作為牯計(jì)般.樣本平均熨更加書效.井且樣本容證越大有效性越好.一致性:3匕政隹二致隼是勺坦度樣本容Jt不斷堆凡把太線計(jì)生上正總庫參耕的可睢:性就超束謹(jǐn)玄;或左臚而查塔定的商葵疊制采申.兩區(qū)蒜差高于比限制水平的可能性越來越小,接近于口.用公式表示就是IlimF|京一i?|<e'=1S3)式(6-

18、3)中,e為一任意小的數(shù)*上式說明.當(dāng)代充分大時(shí),喪與.之間的偏差*可以百里大的把握被模制在任意給定的范圉之內(nèi).幽嘩趨于無窮大時(shí),估計(jì)量淞概率收斂于以區(qū)間估計(jì)1口.J第產(chǎn)產(chǎn)j.口*1J|,I,F.-,mr''=所謂區(qū)間估計(jì)I就是估計(jì)思體.數(shù)的區(qū)間范圍,并要求給出區(qū)間估計(jì)咸立的概率值*設(shè)#和£都是兩個(gè)統(tǒng)計(jì)量<嗨),分制作為總結(jié)/數(shù)白乂間估計(jì)的上斑U卜展,那么要求,時(shí)三仁必口一64)式中,M0<Y】)是區(qū)間估計(jì)的庭還五其取值大小由實(shí)際問題確定,經(jīng)常取1%、5%匍10后二電秣為置信度型晝倩木耳鹵比:器停晏嵬她壯但回也稱為直缶區(qū)間,災(zāi)中區(qū)間的量小值稱為量值下限,大

19、值稱為置信上限1在用估計(jì)/過程中,除了要考慮置信度,逐矍考慮精璃度.所謂精確度是說估計(jì)設(shè)蚯以平均數(shù)的區(qū)間估計(jì)總體分看一腓馥1巳知非正態(tài)分布烯本磅30H嗑j未知X士32道7或一sX±1己了土口T?ISX±mo正態(tài)分布、總體方差C2根據(jù)抽樣分布,我們知道如果總體服從正態(tài)分布,那么樣本平均數(shù)又N5,辦為了進(jìn)行區(qū)間估計(jì),首先把X與可匕得到腌從樂班!玄介市網(wǎng)7統(tǒng)廿留.即:Z=苣NO.1重復(fù)抽樣時(shí)不重復(fù)抽樣時(shí)正態(tài)分布、總體方差C2未知當(dāng)息體服從正態(tài)分布但方差未知時(shí),可用樣本方差守代替總體方差.可以證實(shí)樣本均值經(jīng)過標(biāo)準(zhǔn)化以后得到的隨機(jī)變量服從自由度為匚2的心電即:3心-1614£分布是類似正態(tài)分布的對稱務(wù)布,這時(shí)采用/分布建立的總體堀值置信區(qū)間為:X±t4重復(fù)抽樣時(shí)6-15J4巴二蓑借三不重復(fù)抽杼時(shí)6-16總體成數(shù)的區(qū)間估計(jì)三.總體成數(shù)的區(qū)間估計(jì)這里只討論大樣本情況F的估計(jì)問題.成數(shù)指標(biāo)是一個(gè)恃殊的平均數(shù),類似于總體平均數(shù)劃區(qū)間估計(jì),總體成數(shù)的區(qū)間估計(jì)是:P土重復(fù)抽樣時(shí)<6-17P士/平應(yīng)舜司不重復(fù)抽樣時(shí)6-18在實(shí)踐中,由于忠體成數(shù)p常常未知,這時(shí)可以用樣本成數(shù)P來代替.假設(shè)檢驗(yàn)一般假設(shè)檢驗(yàn)的步驟:1、提出原假設(shè)H0與備擇假設(shè)Hi;2、構(gòu)造檢驗(yàn)統(tǒng)計(jì)量;原假設(shè)與備擇假設(shè)確定之后,我們要構(gòu)造一個(gè)統(tǒng)計(jì)量來決

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論