平均值、方差、標(biāo)準(zhǔn)差_第1頁
平均值、方差、標(biāo)準(zhǔn)差_第2頁
平均值、方差、標(biāo)準(zhǔn)差_第3頁
平均值、方差、標(biāo)準(zhǔn)差_第4頁
平均值、方差、標(biāo)準(zhǔn)差_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

平均值、方差、標(biāo)準(zhǔn)差平均值、方差、標(biāo)準(zhǔn)差平均值、方差、標(biāo)準(zhǔn)差資料僅供參考文件編號:2022年4月平均值、方差、標(biāo)準(zhǔn)差版本號:A修改號:1頁次:1.0審核:批準(zhǔn):發(fā)布日期:平均值(Mean)、方差(Variance)、標(biāo)準(zhǔn)差(StandardDeviation)對于一維數(shù)據(jù)的分析,最常見的就是計算平均值(Mean)、方差(Variance)和標(biāo)準(zhǔn)差(StandardDeviation)。平均值平均值的概念很簡單:所有數(shù)據(jù)之和除以數(shù)據(jù)點的個數(shù),以此表示數(shù)據(jù)集的平均大?。黄鋽?shù)學(xué)定義為:

以下面10個點的CPU使用率數(shù)據(jù)為例,其平均值為。14311619261414141113方差、標(biāo)準(zhǔn)差方差這一概念的目的是為了表示數(shù)據(jù)集中數(shù)據(jù)點的離散程度;其數(shù)學(xué)定義為:

標(biāo)準(zhǔn)差與方差一樣,表示的也是數(shù)據(jù)點的離散程度;其在數(shù)學(xué)上定義為方差的平方根:為什么使用標(biāo)準(zhǔn)差與方差相比,使用標(biāo)準(zhǔn)差來表示數(shù)據(jù)點的離散程度有3個好處:表示離散程度的數(shù)字與樣本數(shù)據(jù)點的數(shù)量級一致,更適合對數(shù)據(jù)樣本形成感性認(rèn)知。依然以上述10個點的CPU使用率數(shù)據(jù)為例,其方差約為41,而標(biāo)準(zhǔn)差則為;兩者相比較,標(biāo)準(zhǔn)差更適合人理解。表示離散程度的數(shù)字單位與樣本數(shù)據(jù)的單位一致,更方便做后續(xù)的分析運算。在樣本數(shù)據(jù)大致符合正態(tài)分布的情況下,標(biāo)準(zhǔn)差具有方便估算的特性:%的數(shù)據(jù)點落在平均值前后1個標(biāo)準(zhǔn)差的范圍內(nèi)、95%的數(shù)據(jù)點落在平均值前后2個標(biāo)準(zhǔn)差的范圍內(nèi),而99%的數(shù)據(jù)點將會落在平均值前后3個標(biāo)準(zhǔn)差的范圍內(nèi)。貝賽爾修正在上面的方差公式和標(biāo)準(zhǔn)差公式中,存在一個值為N的分母,其作用為將計算得到的累積偏差進行平均,從而消除數(shù)據(jù)集大小對計算數(shù)據(jù)離散程度所產(chǎn)生的影響。不過,使用N所計算得到的方差及標(biāo)準(zhǔn)差只能用來表示該數(shù)據(jù)集本身(population)的離散程度;如果數(shù)據(jù)集是某個更大的研究對象的樣本(sample),那么在計算該研究對象的離散程度時,就需要對上述方差公式和標(biāo)準(zhǔn)差公式進行貝塞爾修正,將N替換為N-1:經(jīng)過貝塞爾修正后的方差公式:

經(jīng)過貝塞爾修正后的標(biāo)準(zhǔn)差公式:公式的選擇

是否使用貝塞爾修正,是由數(shù)據(jù)集的性質(zhì)來決定的:如果只想計算數(shù)據(jù)集本身的離散程度(population),那么就使用未經(jīng)修正的公式;如果數(shù)據(jù)集是一個樣本(sample),而想要計算的則是樣本所表達對象的離散程度,那么就使用貝塞爾修正后的公式。在特殊情況下,如果該數(shù)據(jù)集相較總體而言是一個極大的樣本(比如一分鐘內(nèi)采集了十萬次的IO數(shù)據(jù))——在這種情況下,該樣本數(shù)據(jù)集不可能錯過任何的異常值(outlier),此時可以使用未經(jīng)修正的公式來計算總體數(shù)據(jù)的離散程度。R中平均值、方差與標(biāo)準(zhǔn)差的計算在R中,平均值是通過mean()函數(shù)來計算的:x<-c(14,31,16,19,26,14,14,14,11,13)mean(x)方差則通過var()函數(shù)來計算:x<-c(14,31,16,19,26,14,14,14,11,13)var(x)標(biāo)準(zhǔn)差則通過sd()函數(shù)來計算:x<-c(14,31,16,19,26,14,14,14,11,13)sd(x)值得一提的是,R中所計算的方差和標(biāo)準(zhǔn)差是經(jīng)過貝塞爾修正的;如果需要計算未經(jīng)修正的結(jié)果,可以在R的計算結(jié)果上乘以(N-1)/N。平均值與標(biāo)準(zhǔn)差的適用范圍及誤用大多數(shù)統(tǒng)計學(xué)指標(biāo)都有其適用范圍,平均值、方差和標(biāo)準(zhǔn)差也不例外,其適用的數(shù)據(jù)集必須滿足以下條件:中部單峰:數(shù)據(jù)集只存在一個峰值。很簡單,以假想的CPU使用率數(shù)據(jù)為例,如果50%的數(shù)據(jù)點位于20附近,另外50%的數(shù)據(jù)點位于80附近(兩個峰),那么計算得到的平均值約為50,而標(biāo)準(zhǔn)差約為31;這兩個計算結(jié)果完全無法描述數(shù)據(jù)點的特征,反而具有誤導(dǎo)性。這個峰值必須大致位于數(shù)據(jù)集中部。還是以假想的CPU數(shù)據(jù)為例,如果80%的數(shù)據(jù)點位于20附近,剩下的20%數(shù)據(jù)隨機分布于30~90之間,那么計算得到的平均值約為35,而標(biāo)準(zhǔn)差約為25;與之前一樣,這兩個計算結(jié)果不僅無法描述數(shù)據(jù)特征,反而會造成誤導(dǎo)。遺憾的是,在現(xiàn)實生活中,很多數(shù)據(jù)分布并不滿足上述兩個條件;因此,在使用平均值、方差和標(biāo)準(zhǔn)差的時候,必須謹(jǐn)慎小心。結(jié)語如果數(shù)據(jù)集僅僅滿足一個條件:單峰。那么,峰

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論