《應用統(tǒng)計學》第四章_第1頁
《應用統(tǒng)計學》第四章_第2頁
《應用統(tǒng)計學》第四章_第3頁
《應用統(tǒng)計學》第四章_第4頁
《應用統(tǒng)計學》第四章_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第四章描述性統(tǒng)計量引導案例

100袋食品重量的統(tǒng)計資料某食品加工廠新增一條可以自動封裝袋裝食品的生產線。每袋食品的重量是50克,過于偏離這個標準,即被視為不合格品。為檢驗生產線的運轉狀況,質檢人員隨機從生產線上抽取了100袋食品,測得的重量數據如表4-1和圖4-1所示。觀察圖4-1可知,100袋食品的重量存在差異,有的偏大一些,有的偏小一些,整體上呈現(xiàn)出一種離散狀態(tài);但這種離散又不是沒有限度的,靠近中間的重量頻數較高,偏離中間的重量則頻數逐漸降低,整體上具有向中間某一確定位置集中的趨勢;頻數分布整體形態(tài)并不是完全對稱的,而是略有向右側偏斜的傾向;從集中速度的變化上看,左側從第二組開始速度加快,右側從第三組開始速度加快,從而使頻數分布圖的形狀開始變得陡峭起來。

觀察頻數分布圖,有助于對頻數分布趨于集中的位置、離散程度的大小、分布圖的對稱性及集中速度變化的快慢形成粗略的判斷,但遠未達到精確的測定。集中位置在哪里?離散程度有多大?是否對稱?偏斜了多少?集中速度變化是快還是慢?這些問題單憑肉眼觀察是無法解決的,因此需要一種尺度,用以測量頻數分布所表現(xiàn)出來的上述特征,這在數據處理活動中就形成了一系列描述性統(tǒng)計量的計算。第一節(jié)第三節(jié)第二節(jié)第四節(jié)集中趨勢描述性統(tǒng)計量分布形態(tài)描述性統(tǒng)計量離散程度描述性統(tǒng)計量運用SPSS進行統(tǒng)計量描述第一節(jié)集中趨勢描述性統(tǒng)計量第三節(jié)分布形態(tài)描述性統(tǒng)計量第二節(jié)離散程度描述性統(tǒng)計量第四節(jié)運用SPSS進行統(tǒng)計量描述一、均值均值反映了同類現(xiàn)象在特定條件下所達到的平均水平。將數據中的全體觀測值求和,再除以觀測值的個數,即可得到該數據的均值,記作。其計算公式如下:

式中,n代表樣本量,即觀測值的個數;代表第i個觀測值。根據式,可計算表4-1中100袋食物重量樣本數據的均值:

均值是用算術平均的方法,將各個觀測值之間的差異抽象化,從而測定數據分布趨于集中的具體位置,同時也給出了全體觀測值的一個代表性水平。實踐中可能遇到各種形式的數據,計算均值時要注意根據具體情況靈活變通地加以運用。如果用代表分組的變量值,代表各組頻數,可總結出分組數據計算均值的公式如下:盡管式(4-2)是根據式(4-1)變換而來的,但它在統(tǒng)計計算中已經從形式上被固定下來,稱為加權均值。通過觀察可知:如果將式中的看作被平均對象,則對平均的結果起著權衡輕重的作用,哪一個變量值所對應的頻數大,計算結果就有向其靠近的傾向。因此,頻數在公式中又被稱作權數。如果數據未被分組,則每一個被平均對象所對應的權數就是相等的,即都為1,此時加權均值的公式就會轉換為原來的形式比較簡單的均值定義公式。所以,也可以將式(4-2)看作是均值的一個代表性公式。此外,在式(4-1)中,假如被平均對象xi的變化是均勻或對稱的,則公式又可進一步簡化為:式(4-3)稱作中距,式中的代表最小的觀測值,代表最大的觀測值。式(4-1)(4-2)和(4-3)是計算均值的三種不同形式的公式,但它們所反映的內容是完全一致的。在一定條件下,三者之間可以互相轉換,因此它們在實踐中經常是結合起來運用的。均值計算公式有兩個重要的數學性質:第一,所有觀測值與其均值的離差之和等于0,即

;第二,所有觀測值與其均值的離差平方和最小,即最小。第一個數學性質表明,全體觀測值與均值的正負離差可以相互抵消,從而使均值處于一個具有充分代表性的平衡的位置上;第二個數學性質表明,均值實現(xiàn)了與全體觀測值之間的最佳擬合,全體觀測值與任意一個不是均值的數值的離差平方和都要大于均值的離差平方和。均值的這兩個數學性質從數理上說明了其作為全體觀測值代表性水平的合理性,也正是由于這個原因,才使得均值成為最重要也是最常用的集中趨勢描述性統(tǒng)計量。二、中位數將全體觀測值按照從小到大的順序排成一列,處于中間位置的觀測值就是該數據的中位數,記作。例如,9個家庭的人均月收入原始數據如表4-4所示,排序結果如表4-5所示。由表4-5可知,中位數為排序后的第5個觀測值,即1180元。由此可見,計算中位數的關鍵是確定其所在位置。當觀測值個數n為奇數時,中位數的位置為

;當觀測值個數n為偶數時,可采用以下公式計算中位數:同理,可計算出表4-1中100袋食品重量樣本數據的中位數為51克。三、眾數盡管根據同一數據所計算出來的均值、中位數和眾數可能略有差異,但都不失為尋找和確定數據分布集中位置的合理方法。均值是通過計算得出的,中位數與眾數則是通過尋找特定位置而確定下來的。因此,均值通常被稱為計算平均數,而中位數與眾數則被稱為位置平均數。全體觀測值都參與了均值的運算,因此,一般情況下均值要比中位數和眾數具有更好的綜合性。然而,均值的這一優(yōu)點同時卻又是它的缺點,當數據中存在偏大或偏小的極端值時,均值的計算結果也將隨之偏大或偏小,這樣反倒會降低其代表性。中位數與眾數都是由位置確定的,因此不受極端值的影響。數據分布集中趨勢明顯并存在偏斜情況時,中位數與眾數有時比均值更具有說服力。因此,在數據處理活動中,均值、中位數和眾數通常都是視具體情況而相互參照使用的??梢赃@樣來概括:均值是全體觀測值的重心,中位數是全體觀測值的中心,眾數是全體觀測值的重點。四、均值、中位數和眾數的比較不同觀測值在樣本數據中出現(xiàn)的次數是不盡相同的,出現(xiàn)次數最多的觀測值就是該數據的眾數,記作。例如,在表4-2所示的車間工人日產零件數的數據中,日產零件數為7件的人數最多,為50人,因此7件就是該數據的眾數。需要注意的是,一個樣本數據中有時可能有不止一個眾數。例如,在表4-6所示的球員身高數據中,出現(xiàn)次數最多的觀測值有兩個,即178cm和188cm,因此該數據有兩個眾數。另外,一個樣本數據中有時可能沒有眾數。例如,在表4-4所示的9個家庭人均月收入的數據中,每個觀測值都只出現(xiàn)了一次,因此該數據沒有眾數。因此,在實際數據處理活動中,眾數一般只適用于數據規(guī)模較大且具有明顯集中趨勢的情況。在表4-1所示的數據中,經過清點可以確定,出現(xiàn)次數最多的觀測值是53克,因此該數據的眾數為53克。此外,在鐘形分布下,均值、中位數和眾數之間一般還具有以下比較確定的關系:對稱分布下,均值=中位數=眾數;左偏分布下,均值<中位數<眾數;右偏分布下,均值>中位數>眾數,如圖4-3所示。經驗表明,頻數分布偏斜程度較低時,三者之間的關系大體為:。第一節(jié)集中趨勢描述性統(tǒng)計量第三節(jié)分布形態(tài)描述性統(tǒng)計量第二節(jié)離散程度描述性統(tǒng)計量第四節(jié)運用SPSS進行統(tǒng)計量描述一、極差、四分位差與平均差極差(一)極差是指數據中的最大觀測值與最小觀測值之差,記作R。其計算公式為:(4-5)式中,和分別代表最大觀測值與最小觀測值。根據式(4-5),表4-1中100袋食品重量的最小觀測值為40克,最大觀測值為61克,所以該數據的極差為21克。極差給出了全體觀測值的最大變動范圍,一般情況下,極差越大,表明頻數分布的離散程度越大。極差計算簡便、含義直觀,通常情況下也可以說明離散程度大小的問題,但極少被單獨使用,這主要是因為其計算過程僅僅是基于數據中的兩個特殊觀測值,所以極易受極端值的影響。一旦最小觀測值過小或最大觀測值過大,就會出現(xiàn)夸大離散程度的情況。四分位差(二)四分位差就是數據中的上四分位數與下四分位數之差,記作。其計算公式為:

(4-6)式中,和分別代表上四分位數和下四分位數。將全體觀測值按照從小到大的順序排成一列,處于第1/4位置上的觀測值就是該數據的下四分位數,處于第3/4位置上的觀測值就是該數據的上四分位數。與確定中位數的方法類似,確定下四分位數位置的公式為:(4-7)確定上四分位數位置的公式為:(4-8)四分位差的計算1將全體觀測值按照從小到大的順序排成一列,則中位數將該數列分成數量相等的兩組數。當觀測值個數n為奇數時,每組有個數,為第一組個數的中位數,為第二組個數的中位數;當觀測值個數n為偶數時,每組有個數,為第一組個數的中位數,為第二組個數的中位數。當數據量很大時,可應用Excel統(tǒng)計函數中的QUARTILE(array,quart)函數計算四分位數。其中,array參數用于指定要計算四分位數值的數組或數值型單元格區(qū)域;quart參數用于指定返回哪一個四分位值,其可取值為0(返回最小值)、1(返回第一個四分位數,即下四分位數)、2(返回第二個四分位數,即中位數)、3(返回第三個四分位數,即上四分位數)、4(返回最大值)。依照上述說明,表4-1中100袋食品重量的下四分位數為47克,上四分位數為53.75克,因此該數據的四分位差為6.75克。四分位差的計算1四分位差給出了全體觀測值中處于中間位置的50%觀測值的變動范圍。一般情況下,四分位差越大,表明中間50%觀測值的離散程度越大,從而間接地反映出數據整體的離散程度也越大。四分位差避免了極差的缺陷,不再受最大觀測值與最小觀測值極端情況的影響。而且,由于中位數處于上下四分位數之間,所以它能夠在一定程度上說明中位數代表性的強弱。但由于四分位差也是基于數據中的兩個特殊觀測值而得出的,所以它與極差一樣,缺乏對全體觀測值離散狀態(tài)的全面概括能力。四分位差的作用2平均差(三)平均差是各個觀測值與其均值離差的絕對值的均值,記作。其計算公式為:表4-1中100袋食品重量的均值為50.76克,根據式(4-9)計算100袋食品重量的平均差為:(4-9)平均差以均值作為衡量各個觀測值離散程度的標準,計算出各個觀測值相對于均值的離差并取絕對值,再就離差絕對值取均值,其計算結果可理解為全體觀測值相對于均值的平均離散程度。與極差和四分位差相比,平均差全面而完整地反映了數據整體離散程度的高低,應當說,已經算是比較完美的尺度了,但由于其計算過程中包含著取絕對值的步驟,這非常不便于進一步的數學推導,所以仍有加以改進的必要。二、方差與標準差樣本方差與標準差(一)樣本方差是各個觀測值與其均值離差平方的均值,記作。其計算公式為:

(4-10)根據式(4-10),計算表4-1中100袋食品重量樣本數據的方差為:這一計算結果也可以理解為全體觀測值相對于均值的平均離散程度。樣本方差保持了平均差全面而完整的優(yōu)點,又通過取離差平方的方式避免了取絕對值的過程,因而方便了今后的數學推導。如果僅僅是單純描述樣本數據的離散程度,以離差平方和除以樣本量n來計算樣本方差也是合理的。但如果要以樣本方差來推斷總體方差,則分母必須取樣本自由度。因為,數理統(tǒng)計的研究表明,分母為自由度的樣本方差是總體方差的無偏估計量;而分母為樣本量n的樣本方差則是有偏的。有關這方面的具體內容,請參見第五章參數估計。樣本標準差是樣本方差的平方根,記作s。其計算公式為:根據式(4-11),表4-1中100袋食品重量樣本數據的標準差為:

(4-11)總體方差與標準差(二)計算樣本方差或樣本標準差,有時是為了估計總體方差或總體標準差。總體方差是用以描述總體數據離散程度的參數。其計算公式為:(4-12)式中,代表總體方差;代表總體均值;N代表總體容量;代表總體中的各個觀測值。總體標準差是總體方差的平方根。其計算公式為:

(4-13)準確理解方差與標準差(三)如果數據呈接近于對稱的鐘形分布,則有:約68%的觀測值與均值的距離在1個標準差范圍之內;約95%的觀測值與均值的距離在2個標準差范圍之內;幾乎所有觀測值與均值的距離在3個標準差范圍之內,如圖4-6所示。這一經驗法則表明,可以通過生成與全體觀測值的均值與標準差,反過來把握全體觀測值整體。與標準差有關的一個經驗法則1切貝謝夫定理在更廣泛的情形下,給出了均值、標準差與全體觀測值之間的聯(lián)系。該定理指出:在任意一組數據中,至少有()的觀測值與均值的距離在z個標準差范圍之內(z是任意大于1的值),如圖4-7所示。切貝謝夫定理2在數據處理活動中,經常需要對不同樣本數據之間的觀測值大小進行比較。但由于變量性質不同,觀測值之間往往是無法進行比較的。標準得分正是為適應這一需要而采取的一種數據加工方法。樣本數據中某一觀測值的標準得分等于該觀測值與其均值之差再除以標準差,記作。其計算公式為:

(4-14)標準得分的計算結果給出了該觀測值之間相對位置的遠近,同時又消除了計算單位的限制。不同樣本數據之間原本無法直接比較的觀測值,可以通過計算標準得分來進行大小比較。標準得分3三、離散系數方差與標準差具有平均差的優(yōu)點,且便于數學推導,因而在數據處理活動中被廣泛應用。但通常情況下,它們只適用于描述單個變量數據的離散程度,如果需要描述兩個不同性質變量的離散程度,方差與標準差還是有缺陷的。從計算公式看,有兩個因素決定方差和標準差的計算結果:一是數據的離散程度,數據的離散程度越高,計算出來的數字結果就會越大;離散程度越低,這個數字結果就會越小。二是參與運算的全體觀測值本身的數值大小,觀測值本身的數值越大,計算出來的數值結果就會越大;觀測值本身的數值越小,這個數字結果就會越小。顯然,第二個因素與離散程度的高低是無關的,因此,需要從方差和標準差中剔除第二個因素的影響,才能更精確地顯示出數據離散程度本身的高低。離散系數是標準差與均值之比,記作。其計算公式為:

(4-15)第一節(jié)集中趨勢描述性統(tǒng)計量第三節(jié)分布形態(tài)描述性統(tǒng)計量第二節(jié)離散程度描述性統(tǒng)計量第四節(jié)運用SPSS進行統(tǒng)計量描述一、偏度偏度是衡量頻數分布形態(tài)對稱性的統(tǒng)計量,記作SK。其計算公式為:

(4-16)偏度計算結果為0,表明頻數分布的形態(tài)是對稱的;如果小于0,則表明是左偏;如果大于0,則表明是右偏。計算結果的絕對值越大,表明左偏或右偏的程度越大,特別是當計算結果的絕對值大于1時,通常被認為是高度偏態(tài)。二、峰度峰度是衡量頻數分布尖削或陡峭程度的統(tǒng)計量,記作KU。其計算公式為:

(4-17)分布趨于集中的速度變化較慢,分布形態(tài)比較平坦;大于0,稱為尖頂峰,表明頻數分布趨于集中的速度變化較快,分布形態(tài)比較尖削或陡峭,如圖4-8所示。第一節(jié)集中趨勢描述性統(tǒng)計量第三節(jié)分布形態(tài)描述性統(tǒng)計量第二節(jié)離散程度描述性統(tǒng)計量第四節(jié)運用SPSS進行統(tǒng)計量描述一、由“Ferquencies”計算描述統(tǒng)計量(1)打開“表4-1”對應的SPSS數據集“data4.1”。在SPSS菜單欄中選擇【Analyze】→【DescriptiveStatistics】→【Frequencies】菜單命令,系統(tǒng)彈出如圖4-9所示的“Frequencies”對話框。(2)選擇變量“食品重量[spzl]”,單擊按鈕,將其移到“Variable(s):”列表框中。單擊【Statistics…】按鈕,系統(tǒng)彈出如圖4-10所示的“Frequencies:Statistics”對話框。(3)在“PercentileValues”欄內選擇“Quartiles”復選框;在“CentralTendency”欄內選擇“Mean”“Median”“Mode”復選框,以計算集中趨勢描述統(tǒng)計量均值、中位數和眾數;在“Disperion”欄內選擇“Std.deviation”“Variance”“Range”復選框,以計算集中趨勢描述統(tǒng)計量標準差、方差和極差;在“Distribution”欄內選擇“Skewness”和“Kurtosis”復選框,以計算偏度和峰度。(4)單擊【Continue】→【OK】按鈕,系統(tǒng)輸出描述性統(tǒng)計量計算結果,如圖4-11所示。二、由“Descriptives”計算描述統(tǒng)計量(1)打開“表4-1”對應的SPSS數據集“data4.1”。在SPSS菜單欄中選擇【Analyze】→【Descript

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論