版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
平均值、方差、標(biāo)準(zhǔn)差平均值、方差、標(biāo)準(zhǔn)差平均值、方差、標(biāo)準(zhǔn)差資料僅供參考文件編號:2022年4月平均值、方差、標(biāo)準(zhǔn)差版本號:A修改號:1頁次:1.0審核:批準(zhǔn):發(fā)布日期:平均值(Mean)、方差(Variance)、標(biāo)準(zhǔn)差(StandardDeviation)對于一維數(shù)據(jù)的分析,最常見的就是計算平均值(Mean)、方差(Variance)和標(biāo)準(zhǔn)差(StandardDeviation)。平均值平均值的概念很簡單:所有數(shù)據(jù)之和除以數(shù)據(jù)點的個數(shù),以此表示數(shù)據(jù)集的平均大?。黄鋽?shù)學(xué)定義為:
以下面10個點的CPU使用率數(shù)據(jù)為例,其平均值為。14311619261414141113方差、標(biāo)準(zhǔn)差方差這一概念的目的是為了表示數(shù)據(jù)集中數(shù)據(jù)點的離散程度;其數(shù)學(xué)定義為:
標(biāo)準(zhǔn)差與方差一樣,表示的也是數(shù)據(jù)點的離散程度;其在數(shù)學(xué)上定義為方差的平方根:為什么使用標(biāo)準(zhǔn)差與方差相比,使用標(biāo)準(zhǔn)差來表示數(shù)據(jù)點的離散程度有3個好處:表示離散程度的數(shù)字與樣本數(shù)據(jù)點的數(shù)量級一致,更適合對數(shù)據(jù)樣本形成感性認(rèn)知。依然以上述10個點的CPU使用率數(shù)據(jù)為例,其方差約為41,而標(biāo)準(zhǔn)差則為;兩者相比較,標(biāo)準(zhǔn)差更適合人理解。表示離散程度的數(shù)字單位與樣本數(shù)據(jù)的單位一致,更方便做后續(xù)的分析運算。在樣本數(shù)據(jù)大致符合正態(tài)分布的情況下,標(biāo)準(zhǔn)差具有方便估算的特性:%的數(shù)據(jù)點落在平均值前后1個標(biāo)準(zhǔn)差的范圍內(nèi)、95%的數(shù)據(jù)點落在平均值前后2個標(biāo)準(zhǔn)差的范圍內(nèi),而99%的數(shù)據(jù)點將會落在平均值前后3個標(biāo)準(zhǔn)差的范圍內(nèi)。貝賽爾修正在上面的方差公式和標(biāo)準(zhǔn)差公式中,存在一個值為N的分母,其作用為將計算得到的累積偏差進行平均,從而消除數(shù)據(jù)集大小對計算數(shù)據(jù)離散程度所產(chǎn)生的影響。不過,使用N所計算得到的方差及標(biāo)準(zhǔn)差只能用來表示該數(shù)據(jù)集本身(population)的離散程度;如果數(shù)據(jù)集是某個更大的研究對象的樣本(sample),那么在計算該研究對象的離散程度時,就需要對上述方差公式和標(biāo)準(zhǔn)差公式進行貝塞爾修正,將N替換為N-1:經(jīng)過貝塞爾修正后的方差公式:
經(jīng)過貝塞爾修正后的標(biāo)準(zhǔn)差公式:公式的選擇
是否使用貝塞爾修正,是由數(shù)據(jù)集的性質(zhì)來決定的:如果只想計算數(shù)據(jù)集本身的離散程度(population),那么就使用未經(jīng)修正的公式;如果數(shù)據(jù)集是一個樣本(sample),而想要計算的則是樣本所表達對象的離散程度,那么就使用貝塞爾修正后的公式。在特殊情況下,如果該數(shù)據(jù)集相較總體而言是一個極大的樣本(比如一分鐘內(nèi)采集了十萬次的IO數(shù)據(jù))——在這種情況下,該樣本數(shù)據(jù)集不可能錯過任何的異常值(outlier),此時可以使用未經(jīng)修正的公式來計算總體數(shù)據(jù)的離散程度。R中平均值、方差與標(biāo)準(zhǔn)差的計算在R中,平均值是通過mean()函數(shù)來計算的:x<-c(14,31,16,19,26,14,14,14,11,13)mean(x)方差則通過var()函數(shù)來計算:x<-c(14,31,16,19,26,14,14,14,11,13)var(x)標(biāo)準(zhǔn)差則通過sd()函數(shù)來計算:x<-c(14,31,16,19,26,14,14,14,11,13)sd(x)值得一提的是,R中所計算的方差和標(biāo)準(zhǔn)差是經(jīng)過貝塞爾修正的;如果需要計算未經(jīng)修正的結(jié)果,可以在R的計算結(jié)果上乘以(N-1)/N。平均值與標(biāo)準(zhǔn)差的適用范圍及誤用大多數(shù)統(tǒng)計學(xué)指標(biāo)都有其適用范圍,平均值、方差和標(biāo)準(zhǔn)差也不例外,其適用的數(shù)據(jù)集必須滿足以下條件:中部單峰:數(shù)據(jù)集只存在一個峰值。很簡單,以假想的CPU使用率數(shù)據(jù)為例,如果50%的數(shù)據(jù)點位于20附近,另外50%的數(shù)據(jù)點位于80附近(兩個峰),那么計算得到的平均值約為50,而標(biāo)準(zhǔn)差約為31;這兩個計算結(jié)果完全無法描述數(shù)據(jù)點的特征,反而具有誤導(dǎo)性。這個峰值必須大致位于數(shù)據(jù)集中部。還是以假想的CPU數(shù)據(jù)為例,如果80%的數(shù)據(jù)點位于20附近,剩下的20%數(shù)據(jù)隨機分布于30~90之間,那么計算得到的平均值約為35,而標(biāo)準(zhǔn)差約為25;與之前一樣,這兩個計算結(jié)果不僅無法描述數(shù)據(jù)特征,反而會造成誤導(dǎo)。遺憾的是,在現(xiàn)實生活中,很多數(shù)據(jù)分布并不滿足上述兩個條件;因此,在使用平均值、方差和標(biāo)準(zhǔn)差的時候,必須謹(jǐn)慎小心。結(jié)語如果數(shù)據(jù)集僅僅滿足一個條件:單峰。那么,峰
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024公司擔(dān)保合同
- 醫(yī)用膠布的材質(zhì)選擇與使用技巧考核試卷
- 信息系統(tǒng)的社交媒體與網(wǎng)絡(luò)媒介考核試卷
- 廣告與社會文化變革考核試卷
- 2024工程招標(biāo)代理專用合同
- 2024裝修材料貿(mào)易合同協(xié)議書
- 天然氣開采的地理分布考核試卷
- 蘇州科技大學(xué)天平學(xué)院《流體力學(xué)》2021-2022學(xué)年第一學(xué)期期末試卷
- 蘇州科技大學(xué)天平學(xué)院《機械制造技術(shù)基礎(chǔ)》2022-2023學(xué)年第一學(xué)期期末試卷
- 創(chuàng)業(yè)空間市場定位與規(guī)劃案例考核試卷
- 【課件】Unit4+Section+B+(Project)課件人教版(2024)七年級英語上冊
- 青少年法治教育實踐基地建設(shè)活動實施方案
- 綠化養(yǎng)護續(xù)簽合同申請書范文
- 教科(2024秋)版科學(xué)三年級上冊2.6 我們來做“熱氣球”教學(xué)設(shè)計
- 4.3《課間》 (教案)-2024-2025學(xué)年一年級上冊數(shù)學(xué)北師大版
- 追要工程款居間合同范本2024年
- 2024至2030年中國氮化硅軸承球行業(yè)市場全景調(diào)查及投資前景分析報告
- 三年級上《時分秒》教材解讀
- 公司培訓(xùn)工作報告6篇
- 審計模擬實訓(xùn)教程第四版馬春靜版部分答案
- 政務(wù)服務(wù)中心物業(yè)服務(wù)投標(biāo)方案(技術(shù)方案)
評論
0/150
提交評論