第五章基本統(tǒng)計分析_第1頁
第五章基本統(tǒng)計分析_第2頁
第五章基本統(tǒng)計分析_第3頁
第五章基本統(tǒng)計分析_第4頁
第五章基本統(tǒng)計分析_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第五章基本統(tǒng)計分析第一頁,共四十九頁,編輯于2023年,星期四SPSS的基本統(tǒng)計分析頻數(shù)分析-對應表格法計算描述統(tǒng)計量-對應數(shù)值法探索性描述分析-結合交叉分組下的頻數(shù)分析多選項分析統(tǒng)計圖-對應圖形法第二頁,共四十九頁,編輯于2023年,星期四頻數(shù)分析目的 粗略把握變量的總體分布狀況。例:對某個問題的總體看法,如新業(yè)務的使用愿望、教學效果等對某事物的客觀描述,如通話的漫游類型、大客戶的行業(yè)分布采用的方法制作頻數(shù)分布表:包括計算頻數(shù)、累計頻數(shù)、百分比、累計百分比繪制統(tǒng)計圖形:條形圖(品質(zhì)數(shù)據(jù))、餅圖、直方圖(數(shù)量數(shù)據(jù))第三頁,共四十九頁,編輯于2023年,星期四頻數(shù)分析基本操作步驟(1)菜單選項:analyze->descriptivestatistics->frequencies(2)選擇幾個待分析的變量到variables框.(3)chart選項,選擇所需要的圖形第四頁,共四十九頁,編輯于2023年,星期四頻數(shù)分析應用舉例移動通話的漫游類型分析特點:定類數(shù)據(jù)使用頻數(shù)、百分比、總數(shù)(不可缺少的)不使用頻數(shù)表中給出的累計頻數(shù)和累計百分比移動通話時間分析、移動客戶話費分析特點:數(shù)量數(shù)據(jù)除使用頻數(shù)、百分比、總數(shù)外,還可以充分使用累計頻數(shù)和累計百分比第五頁,共四十九頁,編輯于2023年,星期四頻數(shù)分析數(shù)據(jù)中存在缺失值使用有效百分比(分母為有效樣本數(shù))例:學生成績得優(yōu)率、得良率frequencies->format頻數(shù)分布表輸出按變量值、頻數(shù)升序、降序輸出第六頁,共四十九頁,編輯于2023年,星期四頻數(shù)分析頻數(shù)分析中的其他分析計算中位數(shù)、分位數(shù):適用于定序、定距數(shù)據(jù)數(shù)據(jù)按升序排序后,找到若干個分位點上的變量值quartiles:計算四分位數(shù)25%(QL)、50%(中位數(shù))、75%(QU)

cutpointsfornequalgroups:n等份percentile:自定義百分位點計算眾數(shù):適用于定類數(shù)據(jù)(但必須是數(shù)值型)第七頁,共四十九頁,編輯于2023年,星期四頻數(shù)分析頻數(shù)分析中的其他分析分位數(shù)的應用從一個側面比較兩組樣本數(shù)據(jù)的集中趨勢例:(QL=50,QU=80)和(QL=70,QU=75)的比較在排除極端值影響的條件下,通過計算分位數(shù)差,比較兩組樣本數(shù)據(jù)的離散程度例:(QL=50,QU=80)和(QL=70,QU=75)的比較分位數(shù)、中位數(shù)、眾數(shù)的應用舉例不同類型的移動客戶月話費比較(數(shù)據(jù)拆分)利用分位數(shù)(不顯示頻數(shù)分布表)第八頁,共四十九頁,編輯于2023年,星期四計算描述統(tǒng)計量目的精確把握變量的總體分布狀況,了解數(shù)據(jù)的集中趨勢、離散趨勢、對稱程度、陡峭程度?;痉椒ㄓ嬎慊久枋鼋y(tǒng)計量第九頁,共四十九頁,編輯于2023年,星期四計算描述統(tǒng)計量描述集中趨勢的統(tǒng)計量均值(mean):表示某變量所有變量值集中趨勢或平均水平的統(tǒng)計量。適用于定距數(shù)據(jù)。特點:利用了全部數(shù)據(jù),易受極端值的影響。描述離散程度的統(tǒng)計量標準差(standarddeviation--StdDev):表示某變量的所有變量值離散趨勢的統(tǒng)計量。SPSS中計算的是樣本標準差。方差(variance):標準差的平方。SPSS中計算的是樣本方差。極差(range):最大值(minimum)-最小值(minimum)第十頁,共四十九頁,編輯于2023年,星期四計算描述統(tǒng)計量描述對稱程度的統(tǒng)計量偏度(skewness):描述某變量所有變量值分布形態(tài)的偏斜程度和方向的統(tǒng)計量.偏度為0表示對稱;大于0表示正偏差大(右偏),眾數(shù)比均值小,極值大于均值;小于0表示負偏差大(左偏)。第十一頁,共四十九頁,編輯于2023年,星期四計算描述統(tǒng)計量描述陡峭程度的統(tǒng)計量峰度(kurtosis):描述某變量所有變量值分布形態(tài)陡緩程度的統(tǒng)計量。峭度為0表示與正態(tài)分布峭度相同。大于0表示比正態(tài)分布陡,尖峰。小于0表示比正態(tài)分布緩;平峰。第十二頁,共四十九頁,編輯于2023年,星期四計算描述統(tǒng)計量其他統(tǒng)計量均值標準誤差(S.Emeans)中心極限定理認為:樣本均值~N(u,2/n)反映樣本均值與總體真值間的平均離散程度樣本數(shù)越大,樣本均值的離散程度越小,對真值的估計越準確第十三頁,共四十九頁,編輯于2023年,星期四計算描述統(tǒng)計量基本操作步驟(1)菜單選項:analyze->descriptivestatistics->descripive(2)選擇將參加計算的數(shù)值型變量名到variables框。

——僅適用于數(shù)值型變量分析比較男生和女生的學習成績比較集中趨勢比較離散趨勢比較偏斜程度比較陡峭程度實現(xiàn)方式:數(shù)據(jù)拆分第十四頁,共四十九頁,編輯于2023年,星期四其他功能數(shù)據(jù)標準化處理新變量的均值為0,標準差為1;小于0表示在平均水平下,大于0反之.正態(tài)分布的數(shù)據(jù)標準化后呈標準正態(tài)分布(68%,95%,99%)savestandardizedvaluesasvariables選項將變量作標準化后,結果存入名為“Z+原變量名”的新變量中.數(shù)據(jù)標準化處理應用舉例快速找到移動話費出眾的客戶網(wǎng)通集團企業(yè)效益評價計算描述統(tǒng)計量第十五頁,共四十九頁,編輯于2023年,星期四探索性描述分析目的:在未知數(shù)據(jù)分布特點情況下,通過計算詳盡描述統(tǒng)計量,輔助全面的統(tǒng)計圖,認識數(shù)據(jù)分布?;静僮鞑襟E(1)菜單選項:analyze->descriptivestatistics->Explore(2)選擇將參加計算的數(shù)值型變量名到Dependentlist框。(3)進行分組描述分析時,將分組變量選入Factlist框描述統(tǒng)計量:M統(tǒng)計量:集中趨勢的估計值,不受極端值影響。用于判斷有無異常值。第十六頁,共四十九頁,編輯于2023年,星期四探索性描述分析相關圖形箱線圖莖葉圖直方圖正態(tài)分布圖:檢驗變量是否符合正態(tài)分布方差齊性檢驗:各組離散程度是否相同H0:方差相等舉例:兩班學生成績分布情況,離散程度是否相同。第十七頁,共四十九頁,編輯于2023年,星期四交叉分組下的頻數(shù)分析目的

通過了解不同變量在不同水平下的數(shù)據(jù)分布情況,判斷水平對變量是否有影響例:女生的學習成績比男生好嗎?(兩變量)不同專業(yè)的女生學習成績都比男生好嗎?(三變量)分析的主要步驟產(chǎn)生交叉列聯(lián)表分析列聯(lián)表中變量間的關系針對定類數(shù)據(jù)和定序數(shù)據(jù)的頻數(shù)分析第十八頁,共四十九頁,編輯于2023年,星期四產(chǎn)生交叉列聯(lián)表什么是列聯(lián)表多個變量在不同取值下的數(shù)據(jù)分布頻數(shù)表列變量行變量工商管理控制變量頻數(shù)性別成績優(yōu)良差男女第十九頁,共四十九頁,編輯于2023年,星期四產(chǎn)生交叉列聯(lián)表基本操作步驟(1)菜單選項:analyze->descriptivestatistics->crosstabs(2)選擇一個變量作為行變量到row框.(3)選擇一個變量作為列變量到column框.(4)可選一個或多個變量作為控制變量到layer框.(5)是否顯示各分組的條圖(displayclusteredbarcharts)第二十頁,共四十九頁,編輯于2023年,星期四產(chǎn)生交叉列聯(lián)表定距數(shù)據(jù)可做適當分組后再產(chǎn)生列聯(lián)表僅利用頻數(shù),信息利用不充分進一步計算

cells選項:選擇在頻數(shù)分析表中輸出各種百分比.row:行百分比(Rowpct);column:列百分比(Colpct);total:總百分比(Totpct);第二十一頁,共四十九頁,編輯于2023年,星期四分析列聯(lián)表中變量間的關系目的:

通過列聯(lián)表分析,檢驗行列變量之間是否獨立。方法:卡方檢驗:對品質(zhì)數(shù)據(jù)的相關性進行度量(這里兩變量均為定類數(shù)據(jù)或定序數(shù)據(jù))第二十二頁,共四十九頁,編輯于2023年,星期四分析列聯(lián)表中變量間的關系卡方檢驗基本步驟(1)H0:行列變量之間無關聯(lián)或相互獨立(2)構造卡方統(tǒng)計量統(tǒng)計量服從(r-1)*(c-1)個自由度的卡方分布count:觀察(實際)頻數(shù)expectedcount:期望頻數(shù)(期望頻數(shù)反映的是H0成立情況下的數(shù)據(jù)分布特征)第二十三頁,共四十九頁,編輯于2023年,星期四分析列聯(lián)表中變量間的關系卡方檢驗基本步驟(3)計算卡方統(tǒng)計量的值,并得到該統(tǒng)計量值的概率P值(4)決策。概率P與顯著性水平比較,小于等于則拒絕H0,否則不能拒絕實現(xiàn)步驟statistics選項cells選項第二十四頁,共四十九頁,編輯于2023年,星期四分析列聯(lián)表中變量間的關系卡方檢驗的要求:一般要求列聯(lián)表中期望頻數(shù)小于5的格子數(shù)不超過20%,否則會夸大卡方值,容易得出拒絕結論,可以采用精確檢驗??ǚ街禃軜颖緮?shù)的影響行列變量相關性的其他測度指標Nominal:phi系數(shù):在2×2列聯(lián)表中,通常[-1,1],負號無實際意義列聯(lián)C系數(shù)(contingencycoefficient),通常為[0,1)V系數(shù)[0,1]值越大表示行列變量的相關性越大第二十五頁,共四十九頁,編輯于2023年,星期四分析列聯(lián)表中變量間的關系Ordinal反映定序變量一致性指標行變量等級越高,列變量等級也越高或越低——一致性高行變量等級越高,列變量等級不定——不一致指標絕對值越大越相關,越接近0越無關第二十六頁,共四十九頁,編輯于2023年,星期四定序變量一致性檢驗年齡與工資收入交叉列聯(lián)表 低中高 青 40000

中 05000

老 00 600

低中高 青 00 500

中 0600 0

老 4000 0一致一致第二十七頁,共四十九頁,編輯于2023年,星期四應用舉例不同行業(yè)大客戶的價值一致嗎?受教育程度越高通信支出比例越高嗎?離網(wǎng)客戶和在網(wǎng)客戶的通話類型結構一致嗎?第二十八頁,共四十九頁,編輯于2023年,星期四多選項分析什么是多選項問題?(1)即:在回答某些問題時,答案在兩個以上例如:請問您平時主要的休閑娛樂方式是:a.看電視、聽廣播 b.玩游戲 c.體育運動d.逛街購物 e.經(jīng)常去港澳游玩 f.看書學習g.喝酒聊天 h.工作太忙,沒時間休閑娛樂又如:您經(jīng)常瀏覽的網(wǎng)站?在下列品牌中您信任哪些品牌?(2)多選項問題不能直接處理。因為SPSS中的一個變量對每一個答案只能取一個值。第二十九頁,共四十九頁,編輯于2023年,星期四多選項分析多選項問題的處理方法(1)思路:將一個問題定義成幾個變量,用這幾個變量來描述該問題的幾個可能被選擇的答案。分別做頻數(shù)分析或交叉分組下的頻數(shù)分析(2)方法:多選項二分法(multipledichotomiesmethod)和多選項分類法(multiplecategorymethod)普通頻數(shù)分析和交叉分組下的頻數(shù)分析第三十頁,共四十九頁,編輯于2023年,星期四多選項分析多選項二分法將每個答案作為一個變量,每個變量只有兩個取值(0或1)。例如:第三十一頁,共四十九頁,編輯于2023年,星期四多選項分析多選項分類法:

預先估計多選項問題可能被選擇的最多答案數(shù).為每個答案建立一個變量,取值為多選項問題的可選答案.例如:最多可選三個學校第三十二頁,共四十九頁,編輯于2023年,星期四多選項分析多選項分析的基本思路定義多選項變量集多選項頻數(shù)分析多選項交叉分組下的頻數(shù)分析第三十三頁,共四十九頁,編輯于2023年,星期四多選項分析定義多選項變量集目的:將已分解的變量定義為一個集合,便于進行多選項分析菜單選項:analyze->multipleresponse->definesets從原變量中選取被分解的變量(數(shù)值型)到variablesinsets框指定被分解的變量是按多選項二分法(dichotomies)分解還是按多選項分類法(categories)分解的.為變量集命名。系統(tǒng)自動在名字前加字符$.第三十四頁,共四十九頁,編輯于2023年,星期四多選項分析多選項頻數(shù)分析菜單選項:analyze->multipleresponse->frequencies選擇待分析的多選項變量集到tablesfor框。缺失數(shù)據(jù)處理:只要有一個變量含有缺失值就將該個案剔除excludecaseslistwisewithindichotomies:只用于二分變量多項選擇的分析。excludecaseslistwisewithincategories:只用于分類變量多項選擇的分析。第三十五頁,共四十九頁,編輯于2023年,星期四多選項分析多選項交叉分析下的頻數(shù)分析菜單選項:analyze->multipleresponse->crosstabs選擇行變量并定義取值范圍選擇列變量并定義取值范圍選擇控制變量并定義取值范圍其他選項常用分析指標:應答人數(shù)百分比(percentofcases):選擇該項的人占總人數(shù)的比例(較大)應答次數(shù)百分比(percentofresponses):選擇該項的次數(shù)占總應答次數(shù)的比例(較?。┑谌摚菜氖彭?,編輯于2023年,星期四多選項分析多選項分析實例在某次市場調(diào)查中收集了北京、上海和廣州三個城市的受訪者對幾種常見飲料的喜好情況,可選的飲料有茶、牛奶、咖啡、果汁、礦泉水。(數(shù)據(jù)是從原始數(shù)據(jù)庫中抽出的一小部分資料),作以下分析:采用二分法組織數(shù)據(jù)受訪人群中最受歡迎的飲料是哪種?男、女喜愛的飲料有無差異?三個城市的人群對飲料的喜好有無差異?不同學歷的消費者休閑方式有無差異?第三十七頁,共四十九頁,編輯于2023年,星期四統(tǒng)計圖形的種類及用途用于顯示頻數(shù)分布:(

Line和Area也能作,但不很適合)Bar(

不僅僅用于)Pie:Histogram:Boxplot:ErrorBar:顯示總體分布用于判斷數(shù)據(jù)分布P-P圖Q-Q圖第三十八頁,共四十九頁,編輯于2023年,星期四統(tǒng)計圖形的種類及用途用于時間序列LineAreaBar:High-low:類似K線圖用于觀察數(shù)量變量之間關系scatter第三十九頁,共四十九頁,編輯于2023年,星期四統(tǒng)計圖形的種類及用途用于數(shù)據(jù)分析Pareto分析重要因素Control分析數(shù)據(jù)變異統(tǒng)計圖形在SPSS中分為一般統(tǒng)計圖和交互式統(tǒng)計圖第四十頁,共四十九頁,編輯于2023年,星期四條形圖其他匯總方式的條圖:各科成績的均值、各省份移動收入比例復式條圖和堆積條圖:兩班男女生成績均值第四十一頁,共四十九頁,編輯于2023年,星期四統(tǒng)計圖的編輯雙擊圖形進入編輯狀態(tài)圖形的轉(zhuǎn)換:Gallery->條圖、線圖、面積圖和餅圖之間可互相轉(zhuǎn)換散點圖和直方圖之間可互相轉(zhuǎn)換2、圖形的設置:Chart->options適用于復式和堆積圖第四十二頁,共四十九頁,編輯于2023年,星期四統(tǒng)計圖的編輯3、圖形坐標設置Chart->AxisScaleAxis:條圖、線圖、面積圖中的縱軸,散點圖、直方圖中的縱軸和橫軸Categeries:條圖、線圖、面積圖中的橫軸4、圖形格式設置Fomat->注:需選中相應的元素第四十三頁,共四十九頁,編輯于2023年,星期四散點圖1、簡單散點圖:用于觀察兩變量之間關系收入增長率與業(yè)務滲透率、GDP之間關系2、矩陣

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論