單變量統(tǒng)計描述_第1頁
單變量統(tǒng)計描述_第2頁
單變量統(tǒng)計描述_第3頁
單變量統(tǒng)計描述_第4頁
單變量統(tǒng)計描述_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

單變量統(tǒng)計描述第一頁,共二十九頁,2022年,8月28日單變量的統(tǒng)計描述一、頻度分布:某變量取值的各種情況或各種取值出現(xiàn)的次數(shù)或頻數(shù)。二、集中趨勢的量度集中趨勢的量度反映變量所有觀測值的某種共同性質(zhì)。這些性質(zhì)是由絕大多數(shù)觀測值決定的。①平均值:Mean②中位數(shù):Median表示位于數(shù)據(jù)數(shù)列中心位置的那一項的大小。奇?zhèn)€數(shù):第(n+1)/2個數(shù)的值偶個數(shù):第n/2與第(n/2)+1兩個數(shù)的均值③眾數(shù):Mode數(shù)據(jù)中重復(fù)出現(xiàn)次數(shù)最多的數(shù)值。系統(tǒng)只計算最小的數(shù)值。第二頁,共二十九頁,2022年,8月28日平均值、中位數(shù)和眾數(shù)的應(yīng)用特征:⒈考試后,對兩個班級的考試成績的對照分析用什么描述統(tǒng)計數(shù)據(jù)?⒉對全體學(xué)生做教學(xué)滿意度(n等級)調(diào)查,最中性的評價態(tài)度的描述用什么描述統(tǒng)計數(shù)據(jù)?⒊其中學(xué)生最集中的評價用什么描述統(tǒng)計數(shù)據(jù)?第三頁,共二十九頁,2022年,8月28日三、離心趨勢的度量描述數(shù)據(jù)個性方面的特征,即數(shù)據(jù)的分散程度或差異程度。①跨度(全距)(range):觀測值中最大值與最小值之差。跨度表現(xiàn)了總體觀測值分布的最大范圍,跨度大,表現(xiàn)分布范圍大。②方差(Variance):每個數(shù)據(jù)與該組數(shù)據(jù)平均數(shù)之差乘方后的均值③標準差(Standarddeviation):方差的平方根。方差、標準差值越大,說明分布偏離中心的程度越大;其值小說明數(shù)據(jù)相對比較集中。第四頁,共二十九頁,2022年,8月28日④偏(斜)度(Skewness):描述分布偏離正態(tài)分布的程度,即偏離對稱的程度。

Skewness

Skewness>0:正偏離

Skewness<0:負偏離⑤峰(峭)度(Kurtosis):描述單峰頻度曲線峰形的尖平程度。

KurtosisKurtosis>0分布集中趨勢強

Kurtosis<0分布離心趨勢強⑥差異系數(shù):

CV=(S/M)%S:標準差M:平均值第五頁,共二十九頁,2022年,8月28日⑦標準分數(shù):Z分數(shù)以標準誤為單位表示一個分數(shù)在群體中所處的相對位置。⑧百分位數(shù)和N等分百分位數(shù)(percetileNtile):百分位數(shù)和N等分百分位數(shù)能夠度量全部觀測值對中心位置的平均偏差,從而對數(shù)據(jù)的離散性做出最綜合的說明。百分位數(shù)的數(shù)值是給出對應(yīng)不同百分比的數(shù)值,例如:50%對應(yīng)85,表明50%的個案取值在85及其以下。N等分百分位數(shù)是將總體個案數(shù)等份成N等份,產(chǎn)生的N-1個百分比對應(yīng)N-1個數(shù)值,分別表示不同比例的個案取值在給定數(shù)值及其以下。第六頁,共二十九頁,2022年,8月28日特殊統(tǒng)計圖形一、箱圖(Boxplots圖)箱圖或稱箱線圖,可以直觀地描述變量頻度分布特征。箱圖Box主體:由大于25%的百分位數(shù)到小于75%的百分位數(shù)的個案組成。中間的黑色橫線表示中位數(shù)。箱圖Box本體:由上觸須線和下觸須線包括的范圍組成。其意義是除去奇異值和極端值后的全部個案觀測值。第七頁,共二十九頁,2022年,8月28日奇異值:數(shù)據(jù)點到主體邊緣的距離超過箱高的1.5倍。上奇異值>=(75%百分位數(shù)-25%百分位數(shù))*1.5+75%百分位數(shù)下奇異值<=25%百分位數(shù)-(75%百分位數(shù)-25%百分位數(shù))*1.5極端值:數(shù)據(jù)點到主體邊緣的距離超過箱高的3倍。上極端值>=(75%百分位數(shù)-25%百分位數(shù))*3+75%百分位數(shù)下極端值<=25%百分位數(shù)-(75%百分位數(shù)-25%百分位數(shù))*3第八頁,共二十九頁,2022年,8月28日第九頁,共二十九頁,2022年,8月28日二、莖葉圖Stem-and-LeafPlot在輸出顯示窗口Viewer中以字符數(shù)字構(gòu)成的圖,用以表達變量的頻度分布。例如:

FrequencyStem&Leaf.006.1.006.21.006.53.006.6673.006.8897.007.00011117.007.22233339.007.4444555558.007.6666777712.007.88888999999913.008.000000001111111.008.222223333336.008.4444556.008.6667775.008.889993.009.0012.009.231.009.41.009.6

第十頁,共二十九頁,2022年,8月28日1.00Extremes(>=98)Stemwidth:10.00Eachleaf:1case(s)第一列頻數(shù)Frequency:表示個案的頻數(shù)。第二列莖Stem:表達整數(shù)第三列葉Leaf:每片葉表示小數(shù)的量級。Stemwidth表示莖寬,即倍率,例如莖寬=10.00當莖stem=9時,表示90Eachleaf表示每片葉表示個案數(shù),例如當Eachleaf=2case(s)時,每片葉子代表的個案數(shù)為2個個案。例如在上述例子中,第六行中的數(shù)據(jù)表示共有七個個案,其中70的個案有三個,而71的個案有四個。第七行中的數(shù)據(jù)表示共有七個個案,其中72的個案有三個,而73的個案有四個。最后一行中的數(shù)據(jù)表示共有一個個案,該個案為極端值,大于等于98。第十一頁,共二十九頁,2022年,8月28日頻度分析一、頻度分布的描述方式:描述某變量取值的情況可以用數(shù)表和圖形。二、操作步驟:[Analyze][DescriptiveStatistics][Frequencies]選擇分析變量:回答變量名(可以多個)選項“Displayfrequencytable”

決定是否顯示頻數(shù)分布表。“Statistics”

描述統(tǒng)計量的計算:①百分位數(shù)組(PercentileValue):●四等分百分位數(shù)Quartiles●n等分百分位數(shù)Cutpointsnequal●指定的百分位數(shù)Percentile第十二頁,共二十九頁,2022年,8月28日②集中趨勢組(centralTendence):●平均值Mean●中位數(shù)Median●眾數(shù)Mode●求和Sum③離心趨勢組(dispersion):●標準差Std.deviation●方差Variance●跨度Range●最小值Minimum●最大值Maximum●平均值的標準誤S.E.Mean第十三頁,共二十九頁,2022年,8月28日④分布組(distribution):●偏(斜)度Skewness●峰(峭)度Kurtosis“Chart”選擇統(tǒng)計圖形:●條形圖Barcharts:按照樣本的取值,用條形的長度來表達的圖形?!駡A餅圖Piecharts:按照樣本各類取值分組的百分比生成的圓形圖形?!裰狈綀DHistograms:按照樣本的分組取值,用條形的長度來表達各個組的取值的圖形。只適用于數(shù)值型變量,若選擇了“Withnormalcurve”可附帶一條用于對照的正態(tài)曲線。對于圖形的標度可以用頻數(shù),也可以用百分比數(shù)。第十四頁,共二十九頁,2022年,8月28日“Format”

設(shè)置頻數(shù)表格式①排序方式Orderby:●升序Ascendingvalues按照變量值的升序排列?!窠敌駾escendingvalues按照變量值的降序排列。●頻數(shù)升序AscendingCounts按照頻數(shù)升序排列。●頻數(shù)降序DescendingCounts按照頻數(shù)降序排列。②多變量圖形輸出設(shè)置●多變量圖形輸出Comparevariables在同一張圖中可以有多個變量的輸出結(jié)果?!駟巫兞繄D形輸出Organizeoutputbyvariable在一張圖中只能有一個變量的輸出結(jié)果。第十五頁,共二十九頁,2022年,8月28日③壓縮表格格式Supresstableswithmorethanncategories壓縮表格表示頻數(shù)類別將限制在n以內(nèi)。超過n類的將不顯示。壓縮表格式將只顯示變量值、頻度、百分比和累計百分比。第十六頁,共二十九頁,2022年,8月28日描述統(tǒng)計量的計算一、基本功能專門用來產(chǎn)生單變量描述統(tǒng)計量的,如:平均值、求和、標準差、最大值、最小值、方差、跨度、平均值的標準誤。二、操作步驟執(zhí)行:[Analyze][DescriptiveStatistics][Descriptives]

選擇變量到“Variables”中。選項

“Savestandardizedvaluesasvariables”表示是否將進行統(tǒng)計描述的變量生成一個Z分數(shù)變量?!癘ptions”

選擇生成的描述統(tǒng)計量和排序方式●常用的統(tǒng)計描述量:平均值Mean

求和Sum第十七頁,共二十九頁,2022年,8月28日●離心趨勢(dispersion):標準差Std.deviation方差Variance跨度Range最小值Minimum最大值Maximum平均值的標準誤S.E.Mean●分布(distribution):偏(斜)度Skewness峰(峭)度Kurtosis●顯示排序方式按照變量列表進行排序Variablelist按照變量名字母進行排序Alphabetic按照變量平均值的升序排序Ascendingmeans按照變量平均值的降序排序Descendingmeans第十八頁,共二十九頁,2022年,8月28日數(shù)據(jù)考察分析一、考察內(nèi)容誤差使數(shù)據(jù)偏離正常值。數(shù)據(jù)考察主要有如下三個方面:①考察數(shù)據(jù)的真實性偏離數(shù)據(jù)主體分布太遠的數(shù)據(jù)點有可能是有問題的數(shù)據(jù)點,在統(tǒng)計分析過程是否應(yīng)保留?②考察數(shù)據(jù)的分布特性數(shù)據(jù)的正態(tài)分布特性將可以為下一步的統(tǒng)計分析提供條件。③考察變量之間數(shù)據(jù)的相互關(guān)系變量與變量之間的相關(guān)性、方差齊性,都將是一些統(tǒng)計分析過程所必須事先了解的。第十九頁,共二十九頁,2022年,8月28日二、基本功能計算描述統(tǒng)計量。莖葉圖描述頻度分布。箱圖描述數(shù)值分布(表現(xiàn)數(shù)據(jù)的奇異性和極端性)。正態(tài)分布檢驗的概率圖描述數(shù)據(jù)分布的正態(tài)性。方差齊性檢驗的散點分層圖反映變量間的方差齊性?;貧w參數(shù)描述變量之間的相關(guān)性。三、操作步驟執(zhí)行[Analyze][DescriptiveStatistics][Explore]選擇分析變量(因變量)到“Dependentlist”中選擇分組變量(因素或自變量)到“Factorlist”

中選擇標識變量“Labelcaseby”,若不選此項,則在輸出過程中用樣本序號標識樣本。選擇輸出形式:“Display”,輸出描述統(tǒng)計量輸出圖形二者都有輸出。第二十頁,共二十九頁,2022年,8月28日●選擇描述統(tǒng)計量“Statistics”Descriptive:

輸出基本統(tǒng)計量,系統(tǒng)默認的置信區(qū):Confidenceintervalfor95%M-estimators:

排除奇異值和極端值后計算的均值、中位數(shù)。Outlies:

輸出5個最大值和5個最小值。Percentile:可以輸出5%、10%、25%、50%、75%、90%、95%的百分位數(shù)?!襁x擇特殊統(tǒng)計圖形“Plot”生成箱圖BoxplotFactorlevelstogether在同一張圖上只顯示一個變量,不同水平同時顯示。Dependenttogether所有變量顯示在同一張圖上。生成莖葉圖Stem-and-leaf莖葉圖顯示在輸出顯示窗口Viewer中。生成的直方圖Histogram將表現(xiàn)頻度分布。第二十一頁,共二十九頁,2022年,8月28日●

缺失值處理選項“Options”ExcludecasesListwise:對于選入目標變量列表中的有缺失值的變量,無論其參與不參與當前運算,相應(yīng)樣本將被排除。ExcludecasesPairwise:對于選入目標變量列表中的有缺失值的變量,如果其參與運算,相應(yīng)樣本將被排除。ReportValue:

把分組變量中含缺失值的樣本單獨分為一組。第二十二頁,共二十九頁,2022年,8月28日交叉列聯(lián)表利用頻數(shù)或相對頻數(shù)研究變量與變量之間的關(guān)系。一、交叉列聯(lián)表結(jié)構(gòu)定義:行變量和列變量例如:考試成績數(shù)據(jù):定義年齡為行變量,分3個水平,定義成績?yōu)榱凶兞?,?個水平,從而產(chǎn)生一個3×5的交叉列聯(lián)表。每個單元格中的數(shù)據(jù)可以為頻度、頻率、期望值或殘差等。最后一行和最后一列有本行、本列的頻度求和以及頻率求和。第二十三頁,共二十九頁,2022年,8月28日f31f12f23第二十四頁,共二十九頁,2022年,8月28日二、交叉列聯(lián)表中變量的定義:fij:第i行第j列的值,頻數(shù)。f12=3,f23=3,f31=1fi.:第i行累計行邊緣頻數(shù)。fi.=f1.=5,f3.=6f.j:第j列累計列邊緣頻數(shù)。f.j=f.3=4,f.2=8Total:總頻數(shù)===ExpectedCount期望值=fi.*f.j/total第二十五頁,共二十九頁,2022年,8月28日%within行變量行頻率=fij/fi.%within列變量列頻率=fij/f.j

%ofTotal總頻率=fij/totalResidual殘差=fij-ExpectedCountStdResidual標準殘差=Residual/(ExpectedCount)1/2AdjustResidual調(diào)整殘差=Residual/StdErr第二十六頁,共二十九頁,2022年,8月28日三、操作步驟執(zhí)行[Analyze][DescriptiveStatistics][Crosstabs]

選擇行變

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論