第三章 數(shù)據(jù)分布特征的描述ppt課件_第1頁
第三章 數(shù)據(jù)分布特征的描述ppt課件_第2頁
第三章 數(shù)據(jù)分布特征的描述ppt課件_第3頁
第三章 數(shù)據(jù)分布特征的描述ppt課件_第4頁
第三章 數(shù)據(jù)分布特征的描述ppt課件_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

.,1,哪名運動員的發(fā)揮更穩(wěn)定?,在奧運會女子10米氣手槍比賽中,每個運動員首先進行每組10槍共4組的預賽,然后根據(jù)預賽總成績確定進入決賽的8名運動員。決賽時8名運動員再進行10槍射擊,再將預賽成績加上決賽成績確定最后的名次。在2008年8月10日舉行的第29屆北京奧運會女子10米氣手槍決賽中,進入決賽的8名運動員的預賽成績和最后10槍的決賽成績?nèi)缦卤?.,2,最會的比賽結(jié)果是,中國運動員郭文珺憑借決賽的穩(wěn)定發(fā)揮,以總成績492.3環(huán)奪得金牌,預賽排在第1名的俄羅斯運動員納塔利婭帕杰林娜以總成績489.1環(huán)獲得銀牌,預賽排在第4名的格魯吉亞運動員妮諾薩盧克瓦澤以總成績487.4環(huán)的成績獲得銅牌,而預賽排在第3名的蒙古運動員卓格巴德拉赫蒙赫珠勒僅以479.6環(huán)的成績名列第8名.由此可見,在射擊比賽中,運動員能否取得好的成績,發(fā)揮的穩(wěn)定性至關(guān)重要。那么,怎樣評價一名運動員的發(fā)揮是否穩(wěn)定呢?通過本章內(nèi)容的學習就能很容易回答這樣的問題。,哪名運動員的發(fā)揮更穩(wěn)定?,.,3,第三章數(shù)據(jù)分布特征的描述,.,4,數(shù)據(jù)集中區(qū),數(shù)據(jù),一組數(shù)據(jù)向其中心值聚集或靠攏的傾向和程度;測度集中趨勢就是尋找數(shù)據(jù)一般水平的代表值或中心值;不同類型的數(shù)據(jù)用不同的集中趨勢測度值;低層次數(shù)據(jù)的集中趨勢測度值適用于高層次的測量數(shù)據(jù),反過來,高層次數(shù)據(jù)的集中趨勢測度值并不適用于低層次的測量數(shù)據(jù);選用哪一個測度值來反映數(shù)據(jù)的集中趨勢,要根據(jù)所掌握的數(shù)據(jù)的類型來確定。,集中趨勢(centraltendency),.,5,第一節(jié)集中趨勢的測定,一、分類數(shù)據(jù):眾數(shù)二、順序數(shù)據(jù):中位數(shù)和分位數(shù)三、數(shù)值型數(shù)據(jù):平均數(shù)四、眾數(shù)、中位數(shù)和平均數(shù)的比較,.,6,一、分類數(shù)據(jù):眾數(shù),1、眾數(shù)的定義(mode),一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值,用表示主要用于分類數(shù)據(jù),也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù);一般情況下,只有在數(shù)據(jù)量較大的情況下,眾數(shù)才有意義;是一種位置平均數(shù),.,7,【例1】計算飲料品牌的眾數(shù),【例2】計算某城市居民關(guān)注廣告類型的眾數(shù),.,8,【例3】計算甲乙兩城市對住房狀況滿意程度評價的眾數(shù),【例4】在某城市中隨機抽取9個家庭,調(diào)查得到每個家庭的人均月收入數(shù)據(jù)如下(單位:元)。要求計算人均月收入的眾數(shù)。,750780108085010802000108016301250,.,9,無眾數(shù)原始數(shù)據(jù):10591268,一個眾數(shù)原始數(shù)據(jù):659855,多于一個眾數(shù)原始數(shù)據(jù):252828364242,2、眾數(shù)的特點不惟一性,是一個位置代表值正態(tài)分布或一般的偏態(tài)分布中,一組數(shù)據(jù)最高峰點所對應的數(shù)值即為眾數(shù)不受極端值的影響一組數(shù)據(jù)可能沒有眾數(shù)或有幾個眾數(shù),.,10,數(shù)值型分組數(shù)據(jù)眾數(shù)的確定,1、眾數(shù)的值與相鄰兩組頻數(shù)的分布有關(guān),該公式假定眾數(shù)組的頻數(shù)在眾數(shù)組內(nèi)均勻分布,2、相鄰兩組的頻數(shù)相等時,眾數(shù)組的組中值即為眾數(shù),3、相鄰兩組的頻數(shù)不相等時,眾數(shù)采用下列近似公式計算,.,11,【例5】計算50名工人日加工零件數(shù)的眾數(shù)。,【例6】計算某車間30名工人加工零件數(shù)的眾數(shù)。,分布的形狀越偏,眾數(shù)值偏離眾數(shù)組的組中值的程度越大,.,12,二、順序數(shù)據(jù):中位數(shù)和分位數(shù),1、中位數(shù)的定義(median),(一)中位數(shù),數(shù)據(jù)排序后處于中間位置上的變量值,適宜于開口組資料和某些不能用數(shù)字測定的事物;間斷數(shù)列無中位數(shù)主要用于順序數(shù)據(jù),也可用數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù)是一種位置平均數(shù),各變量值與中位數(shù)的離差絕對值之和最小,即,.,13,位置確定,數(shù)值確定,2、中位數(shù)的求解,組距分組數(shù)據(jù):,.,14,【例7】計算甲乙兩城市對住房狀況滿意程度評價的中位數(shù),2、中位數(shù)的求解,.,15,【例8】9個家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù):15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,中位數(shù)1080,10個家庭的人均月收入數(shù)據(jù)排序:66075078085096010801250150016302000位置:12345678910,2、中位數(shù)的求解,.,16,1、根據(jù)位置公式確定中位數(shù)所在的組2、采用下列近似公式計算:,該公式假定中位數(shù)組的頻數(shù)在該組內(nèi)均勻分布。,組距分組數(shù)據(jù):,下限公式(向上累積時用),式中:L表示中位數(shù)所在組的下限;中位數(shù)所在組的次數(shù);中位數(shù)所在組以前各組的累積次數(shù);d中位數(shù)所在組的組距;,上限公式(向下累積時用),2、中位數(shù)的求解,.,17,【例9】計算50名工人日加工零件數(shù)的中位數(shù),.,18,不受極端值的影響,具有穩(wěn)健性;,數(shù)據(jù)大量重復某一數(shù)值時,中位數(shù)未必準確,在解釋是特別小心;,研究收入分配時很有用。,(一)中位數(shù),【例】100戶家庭,20戶2口人,400戶3口人,40戶4口人,計算人口的中位數(shù)。,.,19,1、排序后處于25%和75%位置上的值,2、不受極端值的影響3、主要用于順序數(shù)據(jù),也可用于數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù),四分位數(shù)(quartile),(二)分位數(shù),.,20,方法2:較準確算法,方法1:定義算法,四分位數(shù)位置的確定方法:,(二)分位數(shù),.,21,方法3:其中表示中位數(shù)的位置取整。這樣計算出的四分位數(shù)的位置,要么是整數(shù),要么在兩個數(shù)之間0.5的位置上方法4:Excel給出的四分位數(shù)位置的確定方法如果位置不是整數(shù),則按比例分攤位置兩側(cè)數(shù)值的差值,(二)分位數(shù),.,22,【例10】計算甲乙兩城市對住房狀況滿意程度評價的四分位數(shù),QL位置=(300)/4=75,QU位置=(3300)/4=225從累計頻數(shù)看,QL在“不滿意”這一組別中;QU在“滿意”這一組別中,故四分位數(shù)為QL=“不滿意”QU=“滿意”,解:QL位置=(300)/4=75,QU位置=(3300)/4=225從累計頻數(shù)看,QL在“不滿意”這一組別中;QU在“一般”這一組別中,故四分位數(shù)為QL=“不滿意”QU=“一般”,.,23,【例11】9個家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù):15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,方法1,方法2,.,24,平均數(shù)(mean)也稱為均值集中趨勢的最常用測度值一組數(shù)據(jù)的均衡點所在體現(xiàn)了數(shù)據(jù)的必然性特征易受極端值的影響不適用于分類數(shù)據(jù)和順序數(shù)據(jù)根據(jù)總體數(shù)據(jù)計算的,稱為平均數(shù),記為;根據(jù)樣本數(shù)據(jù)計算的,稱為樣本平均數(shù),記為x,三、數(shù)值型數(shù)據(jù):平均數(shù),.,25,設一組數(shù)據(jù)為:x1,x2,xn(總體數(shù)據(jù)xN),樣本平均數(shù),總體平均數(shù),【例12】某售貨小組5個人,某天的銷售額分別為520元、600元、480元、750元、440元,求平均每人日銷售額。,1、簡單平均數(shù)未分組數(shù)據(jù)(Simplemean),.,26,設分組數(shù)據(jù)各組的組中值為:M1,M2,Mk相應的頻數(shù)為:f1,f2,fk,2、加權(quán)平均數(shù)-分組數(shù)據(jù)(Weightedmean),.,27,【例13】計算電腦公司銷售量的平均數(shù),【例14】計算50名工人日加工零件數(shù)的平均數(shù),.,28,權(quán)數(shù)對算數(shù)平均數(shù)的影響,加權(quán)算術(shù)平均數(shù)其數(shù)值的大小,不僅受各組變量值大小的影響,而且受各組變量值出現(xiàn)的頻數(shù)即權(quán)數(shù)大小的影響。如果某一組的權(quán)數(shù)大,說明該組的數(shù)據(jù)較多,那么該組數(shù)據(jù)的大小對算術(shù)平均數(shù)的影響就越大,反之,則越小。,起到權(quán)衡輕重的作用,決定平均數(shù)的變動范圍,.,29,均值的數(shù)學性質(zhì),1、各變量值與均值的離差之和等于零,2、各變量值與均值的離差平方和最小,.,30,3、幾何平均數(shù)(geometricmean),n個變量值乘積的n次方根適用于計算比率的平均,通常主要用于計算現(xiàn)象的平均增長率當數(shù)據(jù)中出現(xiàn)0或負值時不宜計算幾何平均數(shù)計算公式為,可看作是算數(shù)平均數(shù)的一種變形,.,31,【例16】一位投資者購持有一種股票,在2008、2009、2010和2011年收益率分別為4.5%、2.1%、25.5%、1.9%。計算該投資者在這四年內(nèi)的平均收益率。,最初投入10000元,2012年的本利總和應為,當所平均的各比率數(shù)值差別不大時,算數(shù)平均和幾何平均的結(jié)果相差不大,如果各比率的數(shù)值相差較大時,二者的差別就很明顯!,3、幾何平均數(shù)(geometricmean),.,32,均值的另一種表現(xiàn)形式易受極端值的影響用于數(shù)值型數(shù)據(jù),用這種形式時,變量的取值不能為0。計算公式為,4、調(diào)和平均數(shù)(Harmonicmean),.,33,【例15】設市場上某種蔬菜早、中、晚所購金額不同,求平均采購價格。,4、調(diào)和平均數(shù)(Harmonicmean),.,34,四、眾數(shù)、中位數(shù)和平均數(shù)的比較,.,35,眾數(shù)不受極端值影響具有不惟一性數(shù)據(jù)較多時有意義,且有明顯峰值時應用中位數(shù)不受極端值影響數(shù)據(jù)分布偏斜程度較大時應用平均數(shù)易受極端值影響利用了全部數(shù)據(jù)信息,數(shù)學性質(zhì)優(yōu)良數(shù)據(jù)對稱分布或接近對稱分布時應用較好當要用樣本信息對總體進行推斷時,平均數(shù)就更顯示出它的各種優(yōu)良特性,眾數(shù)、中位數(shù)、平均數(shù)的特點和應用場合,.,36,紅色為該數(shù)據(jù)類型最適合用的測度值,數(shù)據(jù)類型與集中趨勢測度值,.,37,離散程度(離中趨勢),數(shù)據(jù)分布的另一個重要特征反映各變量值遠離其中心值的程度(離散程度)從另一個側(cè)面說明了集中趨勢測度值的代表程度不同類型的數(shù)據(jù)有不同的離散程度測度值,.,38,第二節(jié)離散程度的測定,一、分類數(shù)據(jù):異眾比率二、順序數(shù)據(jù):四分位間距三、數(shù)值型數(shù)據(jù):方差和標準差四、相對離散程度:離散系數(shù),.,39,例如,百得便利超市公司50家門店按區(qū)域劃分的眾數(shù)是A區(qū)域,該組的次數(shù)是20家,所以異眾比率為60%,這說明50家門店按區(qū)域劃分的離散程度比較大,眾數(shù)的代表性較差。,一、分類數(shù)據(jù),(variationratio),.,40,一、分類數(shù)據(jù),【例】計算異眾比率,眾數(shù)的代表性不是很好!,.,41,概念計算公式特點,四分位差(內(nèi)距,四分間距),上四分位數(shù)與下四分位數(shù)之差,避免了數(shù)列中極端值的影響,但去頭棄尾,丟失大量的原始數(shù)據(jù),反映了上下四分位數(shù)之間(即中間的50%數(shù)據(jù))的離散程度或變動范圍。四分位差越大,說明中間這部分數(shù)據(jù)越分散,而四分位差越小,則說明中間這部分數(shù)據(jù)越集中。四分位差在一定程度上可用于衡量中位數(shù)的代表程度。,二、順序數(shù)據(jù),(quartiledeviation),.,42,【例17】計算甲乙兩城市對住房狀況滿意程度評價的四分位差,解:設非常不滿意為1,不滿意為2,一般為3,滿意為4,非常滿意為5已知QL=不滿意=2QU=一般=3四分位差:QD=QU=QL=32=1,.,43,數(shù)值型未分組數(shù)據(jù)的四分位差(7個數(shù)據(jù)的算例),原始數(shù)據(jù):23213032282526排序:21232526283032位置:1234567,.,44,三、數(shù)值型數(shù)據(jù),.,45,三、數(shù)值型數(shù)據(jù),(meandeviation),平均絕對離差,.,46,含義:每一天的銷售量與平均數(shù)相比,平均相差17臺。,.,47,三、數(shù)值型數(shù)據(jù),(varianceandstandarddeviation),.,48,通俗點說,一個班上有50個人,我們知道他們語文成績平均分為80,現(xiàn)在只需要知道49個人的成績就能推斷出剩下那個人的成績。你可以隨便報出49個人的成績,但是最后一個人的你不能瞎說,因為平均分已經(jīng)固定下來了,自由度少一個了。自由度的設定是出于這樣一個理由:在總體平均數(shù)未知時,用樣本平均數(shù)去計算離差(常用小s)會受到一個限制要計算標準差(小s)就必須先知道樣本平均數(shù),而樣本平均數(shù)和n都知道的情況下,數(shù)據(jù)的總和就是一個常數(shù)了。所以,“最后一個”樣本數(shù)據(jù)就不可以變了,因為它要是變,總和就變了,而這是不允許的。至于有的自由度是n2什么的,都是同樣道理。,自由度(degreeoffreedom),.,49,自由度(degreeoffreedom),1、自由度是指附加給獨立的觀測值的約束或限制的個數(shù)2、從字面涵義來看,自由度是指一組數(shù)據(jù)中可以自由取值的個數(shù)3、當樣本數(shù)據(jù)的個數(shù)為n時,若樣本平均數(shù)確定后,則附加給n個觀測值的約束個數(shù)就是1個,因此只有n-1個數(shù)據(jù)可以自由取值,其中必有一個數(shù)據(jù)不能自由取值4、按著這一邏輯,如果對n個觀測值附加的約束個數(shù)為k個,自由度則為n-k5、樣本方差用自由度去除,其原因可從多方面解釋,從實際應用角度看,在抽樣估計中,當用樣本方差s2去估計總體方差2時,它是2的無偏估計量。,.,50,原始數(shù)據(jù):10591368,樣本方差,樣本標準差,三、數(shù)值型數(shù)據(jù),.,51,含義:每一天的銷售量與平均數(shù)相比,平均相差21.58臺,.,52,相對位置的度量:標準分數(shù)(standardscore),三、數(shù)值型數(shù)據(jù),.,53,標準化值或z分數(shù)只是將原始數(shù)據(jù)進行了線性變換,它并沒有改變一個數(shù)據(jù)在該組數(shù)據(jù)中的位置,也沒有改變該組數(shù)分布的形狀,而只是將該組數(shù)據(jù)變?yōu)榫禐?,標準差為1。,相對位置的度量:標準分數(shù)(standardscore),.,54,經(jīng)驗法則表明:當一組數(shù)據(jù)對稱分布時約有68%的數(shù)據(jù)在平均數(shù)加減1個標準差的范圍之內(nèi)約有95%的數(shù)據(jù)在平均數(shù)加減2個標準差的范圍之內(nèi)約有99%的數(shù)據(jù)在平均數(shù)加減3個標準差的范圍之內(nèi),在平均數(shù)加減3倍標準差的范圍之外的數(shù)據(jù),在統(tǒng)計上稱為離群點。,切比雪夫不等式,對于k=2,3,4,該不等式的含義是至少有75%的數(shù)據(jù)落在平均數(shù)加減2個標準差的范圍之內(nèi)至少有89%的數(shù)據(jù)落在平均數(shù)加減3個標準差的范圍之內(nèi)至少有94%的數(shù)據(jù)落在平均數(shù)加減4個標準差的范圍之內(nèi),相對位置的度量:標準分數(shù)(standardscore),.,55,【例】某班學生的平均成績是80分,標準差是10分,如果已知該班學生的考試分數(shù)為對稱分布,可以判斷成績在60-100分之間的學生大約占?70-90分之間的大約占多少?,【例】某班學生的平均成績是80分,標準差是10分,如果已知該班學生的考試分數(shù)為非對稱分布,可以判斷成績在60-100分之間的學生至少占多少?,【例】在某公司進行的計算機水平測試中,新員工的平均得分是80分,標準差是5分,假設新員工得分的分布是未知的,則得分在65-95分的新員工至少占?,相對位置的度量:標準分數(shù)(standardscore),.,56,四、相對離散程度:離散系數(shù),(coefficientofvariation),.,57,可比,可比,身高的差異水平:cm,體重的差異水平:kg,.,58,【例】某年級一、二兩班某門課的平均成績分別為82分和76分,其成績的標準差分別為15.6分和14.8分,比較兩班平均成績代表性的大小。,解:,因為,所以一班平均成績的代表性比二班大。,四、相對離散程度:離散系數(shù),離散系數(shù)是相對統(tǒng)計量,其作用主要是用于比較不同樣本的離散程度。離散系數(shù)大,說明數(shù)據(jù)的離散程度也大!,.,59,*為該數(shù)據(jù)類型最適用的測度值,第二節(jié)離散程度的測定,.,60,第三節(jié)偏態(tài)與峰態(tài)的測定,一、偏態(tài)及其測度二、峰態(tài)及其測度,數(shù)據(jù)分布的形狀是否對稱、偏斜的程度以及分布的扁平程度。,.,61,偏態(tài)與峰態(tài)分布的形狀,偏態(tài),峰態(tài),.,62,統(tǒng)計學家Pearson于1895年首

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論