第二講單變量的統計描述_第1頁
第二講單變量的統計描述_第2頁
第二講單變量的統計描述_第3頁
第二講單變量的統計描述_第4頁
第二講單變量的統計描述_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第二講單變量的統計描述變量層次的劃分A.定類層次;B.定序層次;C.定距層次變量的統計描述

A.分布統計表統計圖;B.集中趨勢測量法;C.離散趨勢測量法一、變量的層次1、定類變量定類變量是變量層次最低的,它的取值只有類別屬性之分,而無大小程度之分.如民族,婚姻等.2、定序變量定序變量的層次高于定類變量.它的取值除了有類別屬性之外,還有等級次序的差別.常見的如受教育程度,滿意度,社會經濟地位等.3、定距變量定距變量的層次又高于定序變量.定距變量的取值,除了具有次序屬性外,取值之間的距離可以度量.如家庭住房面積,家庭人口數等.4、定比變量定比變量是將兩類相關的數加以對比,形成的相對數,用以反映現象的構成、比重、密度和速度等數量關系。例如將家庭人口數與家庭總支出對比計算家庭人均支出水平。

二、單變量的統計描述方法基本描述

集中趨勢離散趨勢定類層次

次數、比例、比率、表格、圖示

眾數異眾比率

定序層次

次數、比例、比率、表格、圖示、累計次數、累計百分比中位數四分位差

定距層次

次數、比例、比率、表格、圖示、累計次數、累計百分比、分組

均值標準差

(一)分布統計表統計圖1、分布統計學里的分布是指一個概念或變量,它的各種情況出現的次數或頻數,也稱頻次分布。如住房產別包括12種情況,按被訪人的回答,可以得到12對數據:(x1,n1),(x2,n2)…(x12,n12).括號中的第一項表示變量的可能選項,第二項表示所對應的頻次。需要注意的是:(1)變量取值必須完備,只有這樣才能使被訪者一一無遺地進行歸類。(2)變量取值必須互斥,這樣才能使每一個觀察值歸入一類,且僅僅歸入一類。2、統計表用表格形式來表示變量的分布。統計表必須具備的內容有:表號(統計表x,x),表頭(包括標題、時間、地點),標識行(產別、頻數、頻率),主體行(第一項位置,按列填寫變量的不同選項;第二項位置,按列填寫變量取值相應的頻次和百分比等等)。要寫明統計的總數。表尾需要寫清資料來源。定類變量的統計表

表1、天津市居民住房的產別分布(1997)產別次數百分比1、直管公產43143.12、單位產16916.93、自有資產13713.74、房改購全部產權18718.75、房改購部分產權525.26、合作產權20.27、軍產101.08、宗教產101.012、其他產20.2Total1000100.0教育fcfcf%C%C%一級685506812.4100.012.4二級9048215816.387.628.7三級10639226419.371.348.0四級19328645735.152.083.1五級939355016.916.9100.0總數550

100.0

定序變量統計表

表2某企業(yè)員工的教育水平

定距變量統計表

表3、天津市不同收入組居民的住房與收入現狀(1997)收入的十等份分組使用面積(平方米)居住面積(平方米)月租金(元)家庭月平均收入(元)128.4919.3417.68472.00233.6523.0426.28726.83336.3823.7122.90867.42432.4522.0224.571003.86536.1724.2924.211154.36638.9026.9226.961306.41740.0826.6429.951481.37842.2526.973.641673.79943.5826.8029.131995.301058.7034.6630.422955.38定距變量制表需要考慮的問題1、組數組數太少會掩蓋變量變動時頻次的變化,組數太多,會使每組內頻次過少,看不出明顯的規(guī)律。一般根據理論和經驗進行分組。2、等距分組與非等距分組一般情況下采用等距分組,但研究一些特殊問題,如貧困問題,需要對低收入分得細一些。3、組限(classlimits)就是每組的范圍,包括上限和下限。對于離散型變量一般采取相鄰組限不重疊的原則,而對于連續(xù)型變量,可能出現相鄰組限重疊的情況,這時采取的原則就是“上組限不在內”原則。4、分組步驟第一,搜集數據;第二,在數據中找出最大值L,最小值S及極差值R;第三,把數據分組,如K組;第四,計算組距h;第五,計算組中值。3、統計圖定類變量:圓瓣圖;條形圖定序變量:條形圖定距變量:直方圖;折線圖(二)集中趨勢測量法(1)集中趨勢測量法(measuresofcentraltendency):就是找出一個數值來代表變量的資料分布,以反映資料的集結情況。該方法的意義,就是根據該代表值(或稱典型值)來估計或預測每個研究對象的數值。(2)運用該方法要舍去變量的某些信息,但由于所根據的數值最有代表性,所產生的誤差最小。(3)有三種方法供選擇集中值:一是根據頻次,哪個變量值具有的頻次最多,就選擇哪個變量值。二是根據居中。三是根據平均。表4、各種集中趨勢量度的比較

均值中位數眾數適用于定距數據適用于定序數據適用于定類數據計算時要用到全部數據只需中間數據可最快求出受極端值的影響對極端值不敏感有時對個別值的變動也很敏感分組變化時影響不大分組變化時有影響分組變化時影響較大眾值、中位值和均值的比較(1)三者設計的目的是相同的,都是希望一個數值來描述整體特征,以便簡化資料。(2)眾值僅使用了資料中最大頻次這一信息,因此,資料中信息的使用是不完善的。(3)雖然均值對資料的信息利用充分,但對嚴重偏態(tài)的分布,會失去它應有的代表性。(4)對于對稱的圖形,三者位置重疊,當圖形正偏或負偏時,均值變化最快,中位值次之,眾數不變。

(二)離散趨勢測量法(1)離散趨勢測量法(measurementsofdispersion),是要求出一個值來表示個案與個案之間的差異情況。(2)試比較以下兩個班次考試成績:甲:100,90,80,70,60,50,40

乙:85,80,75,70,65,60,55如果僅用集中趨勢測量法來測量兩個班的成績,兩班是相等的。但兩班的分布顯然有差異,需要考慮資料的分散特征。表5、各種離散趨勢量度的比較

標準差四分位差異眾比率適用于定距數據適用于定序數據適用于定類數據計算時用到全部數據只需要其中兩段的數據可最快求出受極端值的影響大對極端值不敏感有時對個別值的變動也很敏感(3)離異比率(異眾比率)(VariationRatio)離異比率就是非眾值的次數與全部樣本數目的比率。公式如下:

其中,N是全部樣本數目,f是眾值的次數,二者之差就是非眾值的次數。顯然,非眾值的比例越小,眾值的代表性就越好,信息量越大。反之,非眾值所占的相對頻數越大,眾值的代表性越差,所提供的信息量也就越小。(4)四分位差(InterquartileRange)四分位差是定序以上變量度量分散程度的方法。計算方法是將樣本由低至高排列,然后分為四個等分(即每個等分包括25%的個案),則第一個四分位置的值(Q1)與第三個四分位置的值(Q3)的差異,就是四分位差(簡寫為Q)。公式為:Q=Q3-Q1。

25%25%25%25%

低Q1Q2Q3Q4高5、標準差定距變量可以利用全距,四分位差計算離散程度,但要損失大量的信息。分析定距變量的離散程度,最常用的方法是標準差(簡寫S),即將各數值與其均值差的平方和除以全部樣板數目,然后取其平方根,公式如下:S=還可以根據分組資料,公式為:

變量(X)72-1181864861316969-41657-16256=73.00506表6三群體住房“使用面積”集中和離散趨勢對比使用面積均值標準差變異系數租用公房戶34.9914.440.413原有私房戶41.2727.030.658房改中獲得私房戶48.0622.150.461單變量統計描述與SPSS統計軟件

1、頻數分析分析步驟:(1)單擊Analysis菜單,選擇Descriptivestatistics中的Frequencies選擇項,打開相應的對話框。在左側的源變量框中選擇一個或多個變量,單擊向右箭頭按鈕,使其進入Variable框中;(2)根據需要選擇相應的選擇項

DisplayFrequencyTable選擇此項將顯示頻數分布表。選擇Statistics,打開統計量選擇對話框。在對話框中選擇輸出統計量??蛇x擇的統計量分四組,每組中的統計量可以同時選擇。A、PercentileValues百分位數組,可以選擇:

Quartiles:四分位數,顯示25%、50%、75%的百分數;

Cutpointforequalgroups:將數據平分為所設定的相等等份,所選擇的數值范圍為2—100間的整數。例如,如果鍵入4,那么數據將會被四等分,即計算四分位數值。

Percentile(s):由用戶定義的百分位數。鍵入的范圍在0—100之間。單變量統計描述與SPSS統計軟件B、Dispersion離散趨勢組:

Std.deviation標準差

Variance方差

Range極值,最大值與最小值之差

Minimum最小值

Maximum最大值

S.E.Mean均值的標準誤C、CentralTendency集中趨勢組:

Mean算術平均數

Median中位數

Mode眾數

Sum算術和單變量統計描述與SPSS統計軟件D、Distribution分布參數組,可以選擇以上選擇項選擇完,單擊Continue確認這些選擇,返回主對話框。Chart統計圖形單擊Chart按紐展開統計圖對話框,對圖形的類型及坐標等進行設置。FrequenciesFormat:設置頻數表輸出的格式,單擊Format按紐打開對話框Orderby排序組,在該組中選擇頻數表中變量排列順序。共四個選項:

AscendingValues按變量值的升序排列,這是默認的排列方式。

DescendingValues按變量的降序排列

Ascendingcounts按頻數的升序排列

Descendingcounts按頻數的降序排列。單變量統計描述與SPSS統計軟件2、統計量的描述變量的描述統計量有平均值、標準差、最大值、最小值、方差、極值和平均數的標準誤。A、分析步驟單擊Analysis菜單,選擇Descriptivestatistics中的選擇項,打開對所選擇的每一個變量在數據框中產生其標準化值;DisplayLabel顯示變量的標簽;在主對話框中單擊Option按紐,選擇所要描述的統計量與分布單擊OK按鈕提交系統執(zhí)行。B、數據分組對于定距層次的變量,有時需要先分組,然后在進行統計分布和描述。分組方法如下:單擊Transform菜單,選擇recode中的intodifferentVariables選擇項。鍵入要分組的變量,并定義一個新變量名選擇OldandNewValues命令框定義組限,并賦予一個新值。三、二變量的統計描述1,交叉分組與列聯表交叉分組下的頻數、頻率分析的主要任務有兩個:第一、根據搜集到的樣本數據產生表2、表3的二維交叉列聯表;第二,在交叉列聯表的基礎上,分析和比較兩兩變量之間是否具有獨立性或相關性。2,考慮控制變量下的交叉分組與列聯表表7、不同收入組的住房類型(頻數表)獨用三間及以上獨用兩間獨用一間合計500元以下1172341500—10008164852571000—150018188542601500—200017100181352000—25

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論