




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
腳本——數(shù)據(jù)統(tǒng)計描述與分布(ppt1,2)同學(xué),你好,這節(jié)課我們來學(xué)習(xí)數(shù)據(jù)統(tǒng)計描述與分布。(ppt3)我們先來了解一下數(shù)據(jù)統(tǒng)計分布的重要性以及他的分類情況。(ppt4)在我們的日常生活中,數(shù)據(jù)統(tǒng)計結(jié)果隨處可見。(動畫1)例如吸煙對健康是有害的,吸香煙的男性平均壽命減少壽命2250天;不結(jié)婚的男性會平均壽命減少壽命3500天;身體超重30%會使平均壽命壽命減少1300天;每天攝取500毫升維生素C平均壽命可延長6年;身材高的父親,其子女的身材一般也較高;笫二個出生的子女一般沒有笫一個聰明等。(動畫2)那么我們?nèi)绾卫媒y(tǒng)計的方法來描述這些數(shù)據(jù)的統(tǒng)計分布規(guī)律呢?(ppt5)下面我們將數(shù)據(jù)分類。(動畫1)按照數(shù)據(jù)來源分類,(動畫2)可以分為表格數(shù)據(jù),圖和網(wǎng)絡(luò)以及多媒體數(shù)據(jù)。比如關(guān)系記錄,數(shù)據(jù)矩陣,向量,事物數(shù)據(jù)這些都屬于表格數(shù)據(jù);萬維網(wǎng),社交網(wǎng)絡(luò),分子結(jié)構(gòu)等屬于圖和網(wǎng)絡(luò)。文本、圖像,視頻,音頻等屬于多媒體數(shù)據(jù)。(動畫3)如果按照數(shù)值變量分類,可以分為連續(xù)型和離散型。連續(xù)性是指其特征可以在實數(shù)空間任意取值,如溫度、身高、長度、價格等,通常由浮點型表示。離散型其值域為有限集或可列集,若一個集合與自然數(shù)集合之間存在一一對應(yīng)關(guān)系,則這個集合稱為可列集。如汽車品牌、NBA球隊等布爾型、等級型、名義型。(ppt6)接下來我們來講解第二部分,數(shù)據(jù)的概括性度量。(ppt7)(動畫1)第一種就是數(shù)據(jù)的均值。(動畫2)均值也稱為平均數(shù),是一組數(shù)據(jù)相加后除以數(shù)據(jù)個數(shù)得到的結(jié)果。(動畫3)常見的有簡單平均數(shù)和加權(quán)平均數(shù)。簡單平均數(shù)是值根據(jù)未經(jīng)分組數(shù)據(jù)計算的平均數(shù)。設(shè)一組樣本數(shù)據(jù)為??_1,??_2,…,??_??,樣本量(樣本數(shù)據(jù)的個數(shù))為??。則簡單樣本平均數(shù)用??
bar表示,計算公式為:xbar=1/n*sigemai從1到n(x_i)。(ppt8)(動畫1)加權(quán)平均數(shù)是指根據(jù)分組數(shù)據(jù)計算的平均數(shù)。設(shè)原始數(shù)據(jù)被分為k組,各組的組中值分別用??_1,??_2,…,??_??表示,各組變量值出現(xiàn)的頻數(shù)分布用??_1,??_2,…,??_??表示,則樣本加權(quán)平均數(shù)的計算公式為:??
bar=sigemai從1到k(M_i*f_i)除以??,其中n=sigemai從1到k(f_i)。(動畫2)平均數(shù)是統(tǒng)計中最常用的數(shù)據(jù)代表值,比較可靠和穩(wěn)定,因為它與每一個數(shù)據(jù)都有關(guān),反映出來的信息最充分。平均數(shù)既可以描述一組數(shù)據(jù)本身的整體平均情況,也可以用來作為不同組數(shù)據(jù)比較的一個標(biāo)準(zhǔn)。(ppt9)(動畫1)第二種是中位數(shù)。(動畫2)當(dāng)特征值的項數(shù)??為奇數(shù)時,處于中間位置的特征值即為中位數(shù);當(dāng)??為偶數(shù)時,中位數(shù)則為處于中間位置的2個特征值的平均數(shù)。(動畫3)中位數(shù)作為一組數(shù)據(jù)的代表,可靠性較差,因為它只利用了部分?jǐn)?shù)據(jù)。但當(dāng)一組數(shù)據(jù)的個別數(shù)據(jù)偏大或偏小時,用中位數(shù)來描述該組數(shù)據(jù)的集中趨勢就比較合適。(ppt10)(動畫1)第三種數(shù)據(jù)的概括性度量是眾數(shù)。(動畫2)眾數(shù)是數(shù)據(jù)中出現(xiàn)頻率最高的數(shù)據(jù)。一般情況下,只有在數(shù)據(jù)量較大的情況下,眾數(shù)才有意義。(動畫3)眾數(shù)作為一組數(shù)據(jù)的代表,可靠性也較差,因為它只利用了部分?jǐn)?shù)據(jù)。在一組數(shù)據(jù)中,若個別數(shù)據(jù)變動很大,且某個數(shù)據(jù)出現(xiàn)的次數(shù)最多,此時用該數(shù)據(jù)表示這組數(shù)據(jù)的“集中趨勢”就比較適合。(ppt11)(動畫1)第四種是方差。(動畫2)方差是各個數(shù)據(jù)與平均數(shù)之差的平方的和的平均數(shù),計算公式如下:??方=1/(???1)*sigemai從1到n[(??_?????
bar)]的平方。其中,??
bar表示樣本的平均數(shù),??表示樣本的數(shù)量。(動畫3)方差是測算離散趨勢最重要、最常用的指標(biāo)之一。當(dāng)數(shù)據(jù)分布比較分散(即數(shù)據(jù)在平均數(shù)附近波動較大)時,各個數(shù)據(jù)與平均數(shù)的差的平方和較大,方差就較大;當(dāng)數(shù)據(jù)分布比較集中時,各個數(shù)據(jù)與平均數(shù)的差的平方和較小。因此方差越大,數(shù)據(jù)的波動越大;方差越小,數(shù)據(jù)的波動就越小。(ppt12)(動畫1)數(shù)據(jù)距離也是數(shù)據(jù)的一種概括性度量。(見背板)(動畫2)先來看第一個數(shù)據(jù)距離,閔可夫斯基距離。定義為d(i,j)=(x_i1-x_j1)的絕對值的h次方+(x_i2-x_j2)的絕對值的h次方+……+(x_id-x_jd)的絕對值的h次方,再開h次根號。其中,i=(x_i1,x_i2,…,x_id),j=(x_j1,x_j2,…,x_jd),h為序,上述距離也被稱為??_?范式。(動畫3)曼哈頓距離。當(dāng)h=1,??_1范式??(??,??)=|??_??1???_??1|+|??_??2???_??2|+…+|??_???????_????|,定義為曼哈頓距離,其中,??=(??_??1,??_??2,…,??_????),??=(??_??1,??_??2,…,??_????)。(ppt13)(動畫1)(見背板)歐氏距離定義。?=2,??_2范式??(??,??)=根號下(x_i1-x_j1)的絕對值的平方+(x_i2-x_j2)的絕對值的平方+……+(x_id-x_jd)的絕對值的平方,其中,??=(??_??1,??_??2,…,??_????),??=(??_??1,??_??2,…,??_????)。(動畫2)第四種距離是余弦相似度。假定??=(??_1,??_2,…,??_??),??=(??_1,??_2,…,??_??)是??,則??與??夾角的余弦??為cos(??)=sigemak從1到n(??_??*y_??)除以(根號下sigemal從1到n(??_??)的平方與根號下sigemal從1到n(y_??)的平方的乘積)。(ppt14)下面我們來講解分布函數(shù)。(ppt15)(動畫1)先來看離散型的概率分布。第一種伯努利分布。(動畫2)伯努利試驗,即只有兩種可能結(jié)果的單次隨機試驗。進行一次伯努利試驗,成功(X=1)的概率為p,失敗(X=0)的概率為1?p,則稱隨機變量X服從伯努利分布。其概率分布列為P(x)=p的x次方乘以(1-p)的(1-x)次方,即當(dāng)x=1時,概率為p;當(dāng)x=0時,概率為q。伯努利分布的期望和方差為μ=E(X)=p,σ^2=p(1?p)。(動畫3)例如拋一次均勻硬幣的結(jié)果只有正面和反面;特定機器生產(chǎn)的零件的是有缺陷的還是無缺陷的等,均屬于伯努利分布。(ppt16)在python中用binomial=binom.pmf(k,n,p)計算概率分布律。(ppt17)(動畫1)下面我們來看二項分布,也是一種離散型的概率分布。(動畫2)二項分布是??重獨立伯努利試驗成功次數(shù)的離散概率分布。如果試驗??是一個??重伯努利試驗,每次伯努利試驗的成功概率為??,??代表成功的次數(shù),則??的概率分布是二項分布,記為??服從??(??,??)。(見背板)其概率分布列為:??(??)=??,n,x乘以??的??次方乘以(1???)的(1???)次方。二項分布的期望和方差為??=??(??)=????,??方=????(1???)。(動畫3)例如保險公司可以利用二項分布算出公司獲利、虧本的各種情形,以保證公司業(yè)務(wù)量與利潤達到一定要求;在生產(chǎn)活動中利用二項分布算出至少需配備多少工人,才能保證設(shè)備發(fā)生故障但不能及時維修的概率小于0.01等。(ppt18)用python擬合二項分布。n=10表示獨立實驗次數(shù),p=0.3表示每次事件成功的概率。我們用binomial=binom.pmf(k,n,p)來計算概率分布律。(ppt19)(動畫1)第三種離散型概率分布,泊松分布。(動畫2)泊松分布的參數(shù)??是單位時間(或單位面積)內(nèi)隨機事件的平均發(fā)生次數(shù)。用于描述“一定時間段或一定空間區(qū)域或其他特定單位內(nèi)某一事件出現(xiàn)的次數(shù)”。對于這類只取非負整數(shù)的隨機變量X服從的概率分布稱為泊松分布。(動畫3)當(dāng)二項分布的??很大而??很小時,泊松分布可作為二項分布的近似,其中??為????。通常當(dāng)??≧20,??≦0.05時,就可以用以下泊松公式近似計算。(見背板)??(??=??)=??的??次方除以??的階乘再乘以??的(???)次方,其中??=0,1,…。(動畫4)例如一定時間段內(nèi),某航空公司接到的訂票電話數(shù);一定時間內(nèi),到車站等候公共汽車的人數(shù);一定路段內(nèi),路面出現(xiàn)損壞的次數(shù);一匹布上發(fā)現(xiàn)的疵點個數(shù);一定頁數(shù)的書刊上出現(xiàn)的錯別字個數(shù)等等,都屬于泊松分布。(ppt20)用python擬合泊松分布,rate=5表示每分鐘事件發(fā)生的次數(shù)為5(即??=5);n=np.arange(0,11)表示進行10次模擬;我們用y=stats.poisson.pmf(n,rate)來計算概率分布律。(ppt21)(動畫1)來看下面一種離散型概率分布——超幾何分布。(動畫2)若采用不重復(fù)抽樣(即從總體中抽出一個個體觀測完后不放回總體,然后再繼續(xù)抽下一個個體),各次試驗并不獨立,成功的概率也互不相等,而且總體元素的數(shù)目N很小或樣本量n相對千N來說較大時,二項分布就不再適用。這時,樣本中“成功”的次數(shù)則服從超幾何概率分布,(見背板)記作??~??(??,??,??)。對于??=??時有??(??=??)=??_??^??分之??_??^??乘以??_(?????)^(?????),其中??=0,1,?,??,式中,??=??????(??,??),??為試驗次數(shù),??為總體中元素個數(shù),??為總體中代表成功的元素的個數(shù)。(動畫3)例如在產(chǎn)品質(zhì)量檢驗的不放回抽檢中,若N件產(chǎn)品中有M件次品,抽檢n件時所得次品數(shù)用超幾何分布解決;在購買股票時有N只股票,其中有M只是獲利的,若購買n只股票,其獲利股的數(shù)量可用超幾何分布解決。(ppt22)用python擬合超幾何分布。N=10表示總體中元素個數(shù)為10;M=3表示總體中代表成功元素的個數(shù)為3;n=4表示試驗4次;K=3表示試驗成功了3次。我們用命令y=stats.hypergeom.pmf(K,M,n,N)來計算概率密度函數(shù)(ppt23)(動畫1)接下來我們來學(xué)習(xí)幾種連續(xù)型分布函數(shù)。第一種時正態(tài)分布。(動畫2)若隨機變量??服從一個位置參數(shù)為??、尺度參數(shù)為??的概率分布,且其概率密度函數(shù)為(見背板)f(x)=根號2派??分之1乘以e的[負(2??方)分之(?????)的平方]次方。則這個隨機變量就稱服從正態(tài)分布,記作??服從??(??,??方)。當(dāng)??=0,??=1時的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。(動畫3)正態(tài)分布可以應(yīng)用在某些醫(yī)學(xué)現(xiàn)象,如同質(zhì)群體的身高、紅細胞數(shù)、血紅蛋白量、膽固醇等,以及實驗中的隨機誤差,呈現(xiàn)為正態(tài)或近似正態(tài)分布。(ppt24)用python擬合正態(tài)分布,隨機生成均值為0,標(biāo)準(zhǔn)差為1的1000個服從正態(tài)分布的數(shù)mu,sigma=0,1。我們用a=np.random.normal(mu,sigma,size=1000)來計算概率密度函數(shù)。(ppt25)(動畫1)第二種連續(xù)型分布函數(shù)——均勻分布。(動畫2)均勻分布是最簡單的連續(xù)隨機變量,它表示在區(qū)間[??,??]內(nèi)任意等長度區(qū)間內(nèi)事件出現(xiàn)的概率相同這樣一種分布。(動畫3)??的概率密度函數(shù)如下:??(??)=1/(?????),當(dāng)??屬于[??,??]時;f(x)=0,當(dāng)??不屬于[??,??]時。(動畫4)例如向區(qū)間(A,B)隨機投點,落點坐標(biāo)X服從均勻分布;時鐘任意時針的角度值都是均勻分布。(ppt26)在python中用p=stats.uniform.pdf(x,0,1)來表示在0到1范圍內(nèi)生成其概率密度函數(shù)。圖中紫色的線即表示其理論概率密度,在0到1的范圍內(nèi),一直為1。(ppt27)(動畫1)第三種連續(xù)型分布函數(shù),指數(shù)分布。(動畫2)設(shè)隨機變量??的概率密度函數(shù)如下式,(見背板)??(??,??)=??*??的(?????)次方,??≥0;??(??,??)=0,??<0。其中??是大于0的常數(shù),則稱??為服從參數(shù)??的指數(shù)分布。(動畫3)指數(shù)分布與泊松過程有緊密的聯(lián)系,它具有無記憶性,在泊松過程中兩次相繼發(fā)生的事件之間的間隔服從指數(shù)分布,如第??個顧客與第??+1個顧客的到達時間間隔。(ppt28)在python中我們用p=stats.expon.pdf(x,loc=0,scale=1)計算指數(shù)分布E(1)的概率密度函數(shù)pdf;用c=stats.expon.cdf(x,loc=0,scale=1)計算指數(shù)分布E(1)的累計分布函數(shù)cdf。如圖所示,藍色線表示概率密度函數(shù),黃色線表示累積分布函數(shù)。(ppt29)接下來我們來介紹幾種常見的重要分布。(動畫1)第一種是t分布。(動畫2)用??樣本表示樣本樣本均值經(jīng)標(biāo)準(zhǔn)化后的新隨機變量,因此稱為??分布。(動畫3)當(dāng)正態(tài)總體標(biāo)準(zhǔn)差未知時,在小樣本條件下對總體均值的估計和檢驗要用到??分布。??分布的概率即為曲線下面積。(ppt30)用python擬合t分布。x=np.linspace(-3,3,100),其中x表示生成數(shù)據(jù)集,-3為序列起始點,3為序列結(jié)束點,100為生成的樣本數(shù);df1=stats.t.pdf(x,1)表示自由度為1的t分布;df2=stats.t.pdf(x,20)表示自由度為20的t分布。圖中藍色線表示自由度為1的t分布,黃色線表示自由度為20的t分布。(ppt31)(動畫1)下面我們來學(xué)習(xí)卡方分布。(動畫2)若??個相互獨立的隨機變量???,???,...,??_??,均服從標(biāo)準(zhǔn)正態(tài)分布(也稱獨立同分布于標(biāo)準(zhǔn)正態(tài)分布),則這??個服從標(biāo)準(zhǔn)正態(tài)分布的隨機變量的平方和Q構(gòu)成一新的隨機變量,其分布規(guī)律稱為卡方分布,記為??服從自由度為n的卡方分布。(動畫3)卡方分布具有許多重要的性質(zhì)。1.卡方分布的變量值始終為正;2.卡方分布的形狀取決其自由度n的大小,通常為不對稱的右偏分布,但隨著n的增大逐漸趨于對稱;3.卡方分布的期望值為??,方差為2??;4.卡方分布具有可加性。(動畫4)總體方差的估計和非參數(shù)檢驗
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 同行合作合同范本
- 綠化苗木栽植合同范本
- 廠區(qū)圍網(wǎng)維修合同范本
- 合同違約金合同范本-
- 業(yè)務(wù)變更合同范本
- 木門及木飾面制作安裝合同范本
- 健身公司合同范本
- 卡丁車加盟合同范本
- 吊車司機聘用合同范本
- 合同范例主播
- 2025年01月中國疾控中心信息中心公開招聘1人筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 北京市豐臺區(qū)2024-2025學(xué)年高二上學(xué)期期末英語試題
- 2025年高三第二學(xué)期物理備課組教學(xué)工作計劃
- 丁香園:2024年12月全球新藥月度報告-數(shù)據(jù)篇
- 生產(chǎn)與運作管理-第5版 課件全套 陳志祥 第1-14章 生產(chǎn)系統(tǒng)與生產(chǎn)運作管理概述 -豐田生產(chǎn)方式與精益生產(chǎn)
- 2025年湖南理工職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測試近5年常考版參考題庫含答案解析
- 2024年西安航空職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測試歷年參考題庫含答案解析
- 2024年港作拖輪項目可行性研究報告
- 人教版小學(xué)數(shù)學(xué)三年級下冊第一單元位置與方向一單元測試
- 雅禮中學(xué)2024-2025學(xué)年初三創(chuàng)新人才選拔數(shù)學(xué)試題及答案
- 2023年蘇州衛(wèi)生職業(yè)技術(shù)學(xué)院高職單招(語文)試題庫含答案解析
評論
0/150
提交評論