第三章的基本統(tǒng)計(jì)分析_第1頁(yè)
第三章的基本統(tǒng)計(jì)分析_第2頁(yè)
第三章的基本統(tǒng)計(jì)分析_第3頁(yè)
第三章的基本統(tǒng)計(jì)分析_第4頁(yè)
第三章的基本統(tǒng)計(jì)分析_第5頁(yè)
已閱讀5頁(yè),還剩86頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章的基本統(tǒng)計(jì)分析第一頁(yè),共九十一頁(yè),2022年,8月28日基本統(tǒng)計(jì)分析通過(guò)基本統(tǒng)計(jì)分析,能夠使分析者掌握數(shù)據(jù)的基本統(tǒng)計(jì)特征,把握數(shù)據(jù)的總體分布形態(tài)?;窘y(tǒng)計(jì)分析的結(jié)論對(duì)今后進(jìn)一步的數(shù)據(jù)建模,將起到重要的指導(dǎo)和參考作用頻數(shù)分析計(jì)算基本描述統(tǒng)計(jì)量(分布特征測(cè)度)列聯(lián)分析(交叉分組下的頻數(shù)分析)多選項(xiàng)分析比率分析兩種方式數(shù)值計(jì)算圖形繪制第二頁(yè),共九十一頁(yè),2022年,8月28日基本統(tǒng)計(jì)分析在Analyze--DescriptiveStatistics菜單中,包括:Frequencies:頻數(shù)分析過(guò)程,特色是產(chǎn)生頻數(shù)表(主要針對(duì)分類變量)Descriptives:數(shù)據(jù)描述過(guò)程,進(jìn)行一般性的統(tǒng)計(jì)描述(主要針對(duì)數(shù)值型變量)Explore:數(shù)據(jù)探察過(guò)程,用于對(duì)數(shù)據(jù)概況不清時(shí)的探索性分析Crosstabs:多維頻數(shù)分布交叉表分析(列聯(lián)表分析)Ratiostatistics:比率分析第三頁(yè),共九十一頁(yè),2022年,8月28日頻數(shù)分析目的了解變量取值的狀況,粗略把握變量值的分布狀況研究被調(diào)查者的特征(如:性別、年齡、職業(yè))通過(guò)這些分析,能夠在一定程度上反映出樣本是否具有總體代表性,抽樣是否存在系統(tǒng)偏差等,并以此證明以后相關(guān)問(wèn)題分析的代表性和可信性方法編制頻數(shù)分布表:包括計(jì)算頻數(shù)、百分比、累計(jì)百分比繪制統(tǒng)計(jì)圖形:條形圖、餅圖、直方圖第四頁(yè),共九十一頁(yè),2022年,8月28日頻數(shù)分布表內(nèi)容頻數(shù)(Frequency)

變量值落在某個(gè)區(qū)間(或某個(gè)類別)中的次數(shù)百分比(Percent)

各頻數(shù)占總樣本量的百分比有效百分比(ValidPercent)

各頻數(shù)占總有效樣本量的百分比

有效樣本量=總樣本-缺失樣本量

在不包含缺失值個(gè)案的所有個(gè)案中各變量取值頻數(shù)的比例累計(jì)百分比(CumulativePercent)

各百分比逐級(jí)累加起來(lái)的結(jié)果。最終取值為百分之百第五頁(yè),共九十一頁(yè),2022年,8月28日統(tǒng)計(jì)圖柱形圖或條形圖(BarChart)用寬度相同的條形的高度或長(zhǎng)短來(lái)表示頻數(shù)分布變化的圖形適用于定序和定類變量的分析柱形圖的縱坐標(biāo)或條形圖的橫坐標(biāo)可以表示頻數(shù),也可以表示百分比分為單式圖和復(fù)式圖等形式第六頁(yè),共九十一頁(yè),2022年,8月28日餅圖(PieChart)用圓形及圓內(nèi)扇形的面積來(lái)表示頻數(shù)百分比變化的圖形有利于研究事物內(nèi)在結(jié)構(gòu)組成等問(wèn)題餅圖中圓內(nèi)的扇形面積可以表示頻數(shù),也可以表示百分比第七頁(yè),共九十一頁(yè),2022年,8月28日直方圖(Histograms)用矩形的面積來(lái)表示頻數(shù)分布變化的圖形適用于定距型變量的分析可以在直方圖上附加正態(tài)分布曲線,便于與正態(tài)分布的比較第八頁(yè),共九十一頁(yè),2022年,8月28日頻數(shù)分析基本操作(1)菜單選項(xiàng):analyze->descriptivestatistics->frequencies(2)選擇幾個(gè)待分析的變量到variables框.(3)按chart選項(xiàng),選擇所需要繪制的統(tǒng)計(jì)圖形(4)按Format按鈕,調(diào)整頻數(shù)分布表中數(shù)據(jù)的輸出順序第九頁(yè),共九十一頁(yè),2022年,8月28日

輸出百分位數(shù):輸出四分位數(shù),顯示25%、50%、75%的百分位數(shù);將數(shù)據(jù)平均分為所設(shè)定的相等等份,可輸入2—100的整數(shù),如鍵入4則輸出第25、50、75百分位數(shù)自定義百分位數(shù),可輸入0—100的整數(shù)。離散趨勢(shì)分布形態(tài)欄集中趨勢(shì)欄輸出統(tǒng)計(jì)量對(duì)話框第十頁(yè),共九十一頁(yè),2022年,8月28日Format對(duì)話框控制頻數(shù)表輸出的分類數(shù)量。默認(rèn)為10多變量框中可設(shè)定多變量表格輸出的格式設(shè)置頻數(shù)表輸出的格式選擇頻數(shù)表中排列順序按變量升序排列,此為默認(rèn)按變量降序排列按變量各種取值發(fā)生的頻數(shù)的升序排列按變量各種取值發(fā)生的頻數(shù)的降序排列第十一頁(yè),共九十一頁(yè),2022年,8月28日multiplevariables單選框組如果選擇了兩個(gè)以上變量作頻數(shù)表,則comparevariables可以將所有變量的結(jié)果在同一個(gè)頻數(shù)表過(guò)程輸出結(jié)果中顯示,便于互相比較organizeoutputbyvariables則將結(jié)果在不同的頻數(shù)表過(guò)程輸出結(jié)果中顯示,每一個(gè)變量一張表第十二頁(yè),共九十一頁(yè),2022年,8月28日頻數(shù)分析中的擴(kuò)展功能—計(jì)算分位數(shù)分位數(shù)是變量在不同分位點(diǎn)上的取值。分位點(diǎn)在0~100之間一般使用較多的是四分位點(diǎn)(Quartiles),即將所有數(shù)據(jù)按升序排序后平均等分成四份,各分位點(diǎn)依次是25%,50%,75%。于是,四分位數(shù)分別是25%,50%,75%分位點(diǎn)對(duì)應(yīng)的變量值此外,還有八分位數(shù)、十六分位數(shù)等第十三頁(yè),共九十一頁(yè),2022年,8月28日計(jì)算分位數(shù)適用于定序數(shù)據(jù)數(shù)據(jù)按升序排序后,找到若干個(gè)分位點(diǎn)上的變量值quartiles:計(jì)算四分位數(shù)25%(QL)、50%(中位數(shù))、75%(QU)cutpointsfornequalgroups:n等份percentile:自定義百分位點(diǎn)分位數(shù)的應(yīng)用在排除極端值影響的條件下,通過(guò)計(jì)算分位數(shù)差,比較兩組樣本數(shù)據(jù)的離散程度例:(QL=50,QU=80)和(QL=70,QU=75)的比較第十四頁(yè),共九十一頁(yè),2022年,8月28日例題3.1利用住房狀況問(wèn)卷調(diào)查數(shù)據(jù)分析被調(diào)查家庭中戶主的從業(yè)狀況和目前所住房屋的產(chǎn)權(quán)狀況分析人居住房面積的分布狀況,并對(duì)本市戶口和外地戶口家庭進(jìn)行比較第十五頁(yè),共九十一頁(yè),2022年,8月28日目標(biāo)一:分析從業(yè)狀況和目前所住房屋的產(chǎn)權(quán)狀況(1)產(chǎn)權(quán)狀況和從業(yè)狀況兩個(gè)變量都是定類型變量,可通過(guò)基本頻數(shù)分析實(shí)現(xiàn)。(2)職業(yè)變量的取值(分類)數(shù)目較多,為使頻數(shù)分布表更一目了然,應(yīng)對(duì)內(nèi)容的輸出順序進(jìn)行調(diào)整,單擊Format按鈕,選擇Descendingcounts按頻數(shù)的降序輸出。(3)單擊Chart按鈕指定輸出產(chǎn)權(quán)變量的餅圖和職業(yè)變量的柱形圖。第十六頁(yè),共九十一頁(yè),2022年,8月28日目標(biāo)二:分析人均住房面積的分布狀況,并對(duì)本市戶口和外地戶口家庭進(jìn)行比較。1、分析思路:(1)由于人均住房面積數(shù)據(jù)為定距型變量,直接采用頻數(shù)分析不利于對(duì)其分布形態(tài)的把握,因此考慮依據(jù)第三章中的數(shù)據(jù)分組功能對(duì)數(shù)據(jù)分組后再編制頻數(shù)分布表。(2)進(jìn)行數(shù)據(jù)拆分,并分別計(jì)算本地戶口和外地戶口的人均住房面積的四分位數(shù),并通過(guò)四分位數(shù)比較兩者分布上的差異。第十七頁(yè),共九十一頁(yè),2022年,8月28日2、分析過(guò)程:(1)數(shù)據(jù)分組,將人均住房面積重新分成四組,四組區(qū)間分別為,少于10平方米,10-20平方米,20-30平方米,30平方米以上。分組后進(jìn)行頻數(shù)分析并繪制帶正態(tài)曲線的直方圖。(2)利用SPSS的頻數(shù)分析計(jì)算所有樣本的人均住房面積的四分位數(shù);然后,按照戶口類型對(duì)數(shù)據(jù)進(jìn)行拆分(Splitfile)并重新計(jì)算分位數(shù),分別得到本地戶口和外地戶口的人均住房面積的四分位數(shù)。第十八頁(yè),共九十一頁(yè),2022年,8月28日基本描述統(tǒng)計(jì)量目的精確把握變量的總體分布狀況,了解數(shù)據(jù)的集中趨勢(shì)、離散趨勢(shì)、對(duì)稱程度、陡峭程度常見(jiàn)的基本描述統(tǒng)計(jì)量有三大類:刻畫(huà)集中趨勢(shì)的統(tǒng)計(jì)量刻畫(huà)離散趨勢(shì)的統(tǒng)計(jì)量刻畫(huà)分布形態(tài)的統(tǒng)計(jì)量第十九頁(yè),共九十一頁(yè),2022年,8月28日刻畫(huà)集中趨勢(shì)的描述統(tǒng)計(jì)量集中趨勢(shì)是指一組數(shù)據(jù)向某一中心值靠攏的傾向計(jì)算刻畫(huà)集中趨勢(shì)的描述統(tǒng)計(jì)量正是要尋找能夠反映數(shù)據(jù)一般水平的“代表值”或“中心值”均值(Mean):即算術(shù)平均數(shù),是反映某變量所有取值的集中趨勢(shì)或平均水平的指標(biāo)。如某企業(yè)職工的平均月收入。其計(jì)算公式為適用于定距數(shù)據(jù)。特點(diǎn):利用了全部數(shù)據(jù),易受極端值的影響第二十頁(yè),共九十一頁(yè),2022年,8月28日刻畫(huà)集中趨勢(shì)的描述統(tǒng)計(jì)量中位數(shù)(Median):即一組數(shù)據(jù)按升序排序后,處于中間位置上的數(shù)據(jù)值。如評(píng)價(jià)社會(huì)的老齡化程度時(shí)眾數(shù)(Mode):即一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)據(jù)值。如生產(chǎn)鞋的廠商在制定各種型號(hào)鞋的生產(chǎn)計(jì)劃時(shí)應(yīng)該運(yùn)用眾數(shù)第二十一頁(yè),共九十一頁(yè),2022年,8月28日刻畫(huà)離散程度的描述統(tǒng)計(jì)量離散程度反映各變量值遠(yuǎn)離其中心值的程度(離散程度),它從另一個(gè)側(cè)面說(shuō)明了集中趨勢(shì)測(cè)度值的代表程度。如果數(shù)據(jù)都緊密地集中在“中心值”的周圍,數(shù)據(jù)的離散程度較小,說(shuō)明這個(gè)“中心值”對(duì)數(shù)據(jù)的代表性好如果數(shù)據(jù)僅是比較松散地分布在“中心值”的周圍,數(shù)據(jù)的離散程度較大,則此“中心值”說(shuō)明數(shù)據(jù)特征是不具有代表性的第二十二頁(yè),共九十一頁(yè),2022年,8月28日刻畫(huà)離散程度的描述統(tǒng)計(jì)量全距(Range):也稱極差,是數(shù)據(jù)的最大值(Maximum)與最小值(Minimum)之間的絕對(duì)離差。方差(Variance):各變量值與算數(shù)平均數(shù)離差平方的算術(shù)平均數(shù)。其計(jì)算公式為標(biāo)準(zhǔn)差(StandardDeviation:StdDev):表示變量取值距離均值的平均離散程度的統(tǒng)計(jì)量。其計(jì)算公式為第二十三頁(yè),共九十一頁(yè),2022年,8月28日均值標(biāo)準(zhǔn)誤差(StandardErrorofMean)樣本均值作為抽樣樣本的平均數(shù)也與總體均值之間存在差異。若干次抽樣后會(huì)得到若干個(gè)不同的樣本均值,當(dāng)樣本容量足夠大時(shí),這些均值服從正態(tài)分布,即X~N(μ,σ2/n)可見(jiàn),樣本均值與總體均值的平均差異(離散)程度(方差)為/n。于是,均值標(biāo)準(zhǔn)誤差的數(shù)學(xué)定義為:因此,均值標(biāo)準(zhǔn)誤差是描述樣本均值與總體均值之間平均差異程度的統(tǒng)計(jì)量。樣本數(shù)越大,樣本均值的離散程度越小,對(duì)真值的估計(jì)越準(zhǔn)確第二十四頁(yè),共九十一頁(yè),2022年,8月28日刻畫(huà)分布形態(tài)的描述統(tǒng)計(jì)量數(shù)據(jù)的分布形態(tài)主要指數(shù)據(jù)分布是否對(duì)稱,偏斜程度如何,分布陡峭程度等偏度(skewness):描述某變量分布形態(tài)的偏斜程度和方向的統(tǒng)計(jì)量偏度為0表示對(duì)稱;大于0表示正偏差大(右偏)小于0表示負(fù)偏差大(左偏)偏度絕對(duì)值越大,表示數(shù)據(jù)分布形態(tài)的偏斜程度越大第二十五頁(yè),共九十一頁(yè),2022年,8月28日刻畫(huà)分布形態(tài)的描述統(tǒng)計(jì)量峰度(kurtosis):描述某變量所有變量值分布形態(tài)陡緩程度的統(tǒng)計(jì)量峭度為0表示與標(biāo)準(zhǔn)正態(tài)分布峭度相同大于0表示比標(biāo)準(zhǔn)正態(tài)分布陡,尖峰小于0表示比標(biāo)準(zhǔn)正態(tài)分布緩;平峰第二十六頁(yè),共九十一頁(yè),2022年,8月28日扁平分布尖峰分布偏態(tài)峰態(tài)左偏分布右偏分布與標(biāo)準(zhǔn)正態(tài)分布比較!第二十七頁(yè),共九十一頁(yè),2022年,8月28日計(jì)算基本描述統(tǒng)計(jì)量的操作(1)菜單選項(xiàng):analyze->descriptivestatistics->descripive(2)選擇將參加計(jì)算的數(shù)值型變量名到variables框。(3)按Options按鈕指定計(jì)算哪些基本描述統(tǒng)計(jì)量,選擇相應(yīng)的選項(xiàng)第二十八頁(yè),共九十一頁(yè),2022年,8月28日Options對(duì)話框

基本統(tǒng)計(jì)量當(dāng)Variables框中有多個(gè)變量時(shí),此框確定其輸出順序:按Variables框中的排列順序輸出按各變量的字母順序輸出按均值的升序排列按均值的降序排列分布第二十九頁(yè),共九十一頁(yè),2022年,8月28日例題3.2利用住房狀況問(wèn)卷調(diào)查數(shù)據(jù),對(duì)人均住房面積計(jì)算基本描述統(tǒng)計(jì)量,并分別對(duì)本市戶口和外地戶口家庭進(jìn)行比較分析:首先按照戶口對(duì)數(shù)據(jù)進(jìn)行拆分(Splitfile),然后計(jì)算人均住房面積的基本描述統(tǒng)計(jì)量第三十頁(yè),共九十一頁(yè),2022年,8月28日數(shù)據(jù)標(biāo)準(zhǔn)化處理用于對(duì)異常值的判斷新變量被稱為標(biāo)準(zhǔn)化值或Z分?jǐn)?shù),反映的是樣本值與均值的差是幾個(gè)標(biāo)準(zhǔn)差單位小于0表示在平均水平下,大于0反之3σ準(zhǔn)則:如果標(biāo)準(zhǔn)化值的絕對(duì)值大于3,則認(rèn)為是異常值第三十一頁(yè),共九十一頁(yè),2022年,8月28日數(shù)據(jù)標(biāo)準(zhǔn)化處理正態(tài)分布的數(shù)據(jù)標(biāo)準(zhǔn)化后呈標(biāo)準(zhǔn)正態(tài)分布數(shù)值分布在正負(fù)一個(gè)標(biāo)準(zhǔn)差之內(nèi)的可能性為68.2%數(shù)值分布在正負(fù)兩個(gè)標(biāo)準(zhǔn)差之內(nèi)的可能性為95.4%數(shù)值分布在正負(fù)三個(gè)標(biāo)準(zhǔn)差之內(nèi)的可能性為99.7%如果異常數(shù)的總比例大于0.3%,則認(rèn)為該組數(shù)據(jù)存在一定的不均衡savestandardizedvaluesasvariables選項(xiàng)將變量作標(biāo)準(zhǔn)化后,結(jié)果存入名為“Z+原變量名”的新變量中第三十二頁(yè),共九十一頁(yè),2022年,8月28日例題3.3利用住房狀況問(wèn)卷調(diào)查數(shù)據(jù),分析人均住房面積是否存在不均衡現(xiàn)象分析:假設(shè)人均住房面積服從正態(tài)分布,跟據(jù)3σ原則,異常值通常為3個(gè)標(biāo)準(zhǔn)差范圍之外的值,可通過(guò)對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)化處理來(lái)判斷通過(guò)標(biāo)準(zhǔn)化可以得到一系列新變量值對(duì)新變量進(jìn)行排序并瀏覽其標(biāo)準(zhǔn)化值的取值情況,可以發(fā)現(xiàn)z分?jǐn)?shù)值得絕對(duì)數(shù)大于3的家庭是存在的。對(duì)其分組為三組:z人均面積<-3,-3<z人均面積<3,z人均面積>3。并進(jìn)行頻數(shù)分析第三十三頁(yè),共九十一頁(yè),2022年,8月28日交叉分組下的頻數(shù)分析(列聯(lián)表分析)例:戶口狀況與購(gòu)買意向之間有關(guān)聯(lián)嗎?(兩變量)例:學(xué)習(xí)成績(jī)與性別有關(guān)聯(lián)嗎?(兩變量)例:職業(yè)、性別、愛(ài)逛商店有關(guān)聯(lián)嗎?(三變量)目的了解多個(gè)變量在不同取值下的分布情況,掌握多變量的聯(lián)合分布特征,進(jìn)而分析變量之間的相互影響和關(guān)系基本任務(wù)根據(jù)收集到的樣本數(shù)據(jù)編制交叉列聯(lián)表在交叉列聯(lián)表的基礎(chǔ)上,對(duì)兩兩變量間是否存在一定的相關(guān)性進(jìn)行分析第三十四頁(yè),共九十一頁(yè),2022年,8月28日編制交叉列聯(lián)表交叉列聯(lián)表是兩個(gè)或兩個(gè)以上的變量交叉分組后形成的頻數(shù)分布表文化程度合計(jì)職稱123411113213432136433合計(jì)445316行變量列變量頻數(shù)行標(biāo)題列邊緣分布第三十五頁(yè),共九十一頁(yè),2022年,8月28日列聯(lián)表(contingencytable)由兩個(gè)以上的變量交叉分類的頻數(shù)分布表行變量的類別用r

表示,ri

表示第i

個(gè)類別列變量的類別用c

表示,cj

表示第j

個(gè)類別每種組合的觀察頻數(shù)用fij

表示表中列出了行變量和列變量的所有可能的組合,所以稱為列聯(lián)表一個(gè)

r行c

列的列聯(lián)表稱為r

c

列聯(lián)表第三十六頁(yè),共九十一頁(yè),2022年,8月28日列聯(lián)表的結(jié)構(gòu)(22列聯(lián)表)列(cj)合計(jì)j=1j=2i=1f11f12f11+f12i=2f21f22f21+f22合計(jì)f11+f21f12+f22n列(cj)行(ri)第三十七頁(yè),共九十一頁(yè),2022年,8月28日列聯(lián)表的結(jié)構(gòu)(r

c

列聯(lián)表的一般表示)列(cj)合計(jì)j=1j=2…i=1f11f12…r1i=2f21f22…r2:::::合計(jì)c1c2…n列(cj)行(ri)fij表示第i行第j列的觀察頻數(shù)第三十八頁(yè),共九十一頁(yè),2022年,8月28日觀察值的分布邊緣分布行邊緣分布行觀察值的合計(jì)數(shù)的分布例如,贊成改革方案的共有279人,反對(duì)改革方案的141人列邊緣分布列觀察值的合計(jì)數(shù)的分布例如,四個(gè)分公司接受調(diào)查的人數(shù)分別為100人,120人,90人,110人公司1公司2公司3公司4合計(jì)贊成68755779279反對(duì)32453331141合計(jì)10012090110420第三十九頁(yè),共九十一頁(yè),2022年,8月28日觀察值的分布條件分布與條件頻數(shù)變量X條件下變量Y

的分布,或在變量Y

條件下變量X

的分布每個(gè)具體的觀察值稱為條件頻數(shù)公司1公司2公司3公司4合計(jì)贊成68755779279反對(duì)32453331141合計(jì)10012090110420第四十頁(yè),共九十一頁(yè),2022年,8月28日百分比分布第四十一頁(yè),共九十一頁(yè),2022年,8月28日百分比分布1.條件頻數(shù)反映了數(shù)據(jù)的分布,但不適合對(duì)比2.為在相同的基數(shù)上進(jìn)行比較,可以計(jì)算相應(yīng)的百分比,稱為百分比分布行百分比:行的每一個(gè)觀察頻數(shù)除以相應(yīng)的行合計(jì)數(shù)(fij

/ri)列百分比:列的每一個(gè)觀察頻數(shù)除以相應(yīng)的列合計(jì)數(shù)(fij

/cj)總百分比:每一個(gè)觀察值除以觀察值的總個(gè)數(shù)(fij

/n

)第四十二頁(yè),共九十一頁(yè),2022年,8月28日百分比分布(圖示)一分公司二分公司三分公司四分公司合計(jì)贊成該方案6875577927924.4%26.9%20.4%28.3%100%68.0%62.5%63.3571.8%66.4%16.2%17.8%13.6%18.8%66.4%反對(duì)該方案3245333114122.7%31.9%23.4%22.0%100%32.0%37.5%36.7%28.2%33.6%7.6%10.7%7.9%7.4%33.6%合計(jì)1001209011047023.8%28.6%21.4%26.2%100%總百分比列百分比行百分比第四十三頁(yè),共九十一頁(yè),2022年,8月28日層變量(Layer)第四十四頁(yè),共九十一頁(yè),2022年,8月28日交叉分組下的頻數(shù)分析的基本操作菜單選項(xiàng)Analyze-DescriptiveStatistics-Crosstabs第四十五頁(yè),共九十一頁(yè),2022年,8月28日該框中的變量作為分布表中的行變量和列變量。該框中的變量作為控制變量,決定頻數(shù)分布表中的層,可有多個(gè)控制變量。顯示每一組中各變量的分類條形圖。只輸出統(tǒng)計(jì)量,不輸出多維列聯(lián)表。Crosstabs對(duì)話框第四十六頁(yè),共九十一頁(yè),2022年,8月28日交叉分組下的頻數(shù)分析的基本操作如果進(jìn)行二維列聯(lián)表分析,則將行變量選擇到Row(s)框中,將列變量選擇到Column(s)框中。如果Row(s)和Column(s)框中有多個(gè)變量名,SPSS會(huì)將行列變量一一配對(duì)后產(chǎn)生多張二維列聯(lián)表。如果進(jìn)行三維或多維列聯(lián)表分析,則將其他變量作為控制變量選到Layer框中。多控制變量間可以是同層次的,也可以是逐層疊加的,可通過(guò)Previous或Next按鈕確定控制變量間的層次關(guān)系。第四十七頁(yè),共九十一頁(yè),2022年,8月28日交叉分組下的頻數(shù)分析的基本操作選擇Displayclusteredbarcharts選項(xiàng),指定繪制各變量交叉分組下頻數(shù)分布條形圖。選擇Suppresstables表示不輸出列聯(lián)表,在僅分析行列變量間關(guān)系時(shí)可選擇該選項(xiàng)。第四十八頁(yè),共九十一頁(yè),2022年,8月28日Crosstabs的CellDisplay對(duì)話框選擇在列聯(lián)表中輸出的統(tǒng)計(jì)量,包括觀測(cè)量數(shù)、百分比、殘差輸出觀測(cè)量的實(shí)際數(shù)量如果行和列變量在統(tǒng)計(jì)上是獨(dú)立的或不相關(guān)的,那么會(huì)在單元格中輸出期望的觀測(cè)值的數(shù)量。輸出單元格中觀測(cè)量的數(shù)目占整行全部觀測(cè)量數(shù)目的百分比輸出單元格中觀測(cè)值的數(shù)目占整列全部觀測(cè)量數(shù)目的百分比輸出單元格中觀測(cè)量的數(shù)目占全部觀測(cè)量數(shù)目的百分比計(jì)算非標(biāo)準(zhǔn)化殘差計(jì)算標(biāo)準(zhǔn)化殘差計(jì)算調(diào)整后殘差第四十九頁(yè),共九十一頁(yè),2022年,8月28日交叉分組下的頻數(shù)分析的基本操作單擊Cells按鈕指定列聯(lián)表單元格中的輸出內(nèi)容單擊Format按鈕指定列聯(lián)表各單元格的輸出排列順序。Ascending表示以行變量取值的升序排列,是SPSS默認(rèn)項(xiàng);Descending表示以行變量取值的降序排列。單擊Statistics按鈕指定用哪種方法分析行變量和列變量間的關(guān)系Unstandardized為非標(biāo)準(zhǔn)化剩余,定義為觀測(cè)頻數(shù)-期望頻數(shù)Standardized為標(biāo)準(zhǔn)化剩余,又稱Pearson剩余第五十頁(yè),共九十一頁(yè),2022年,8月28日交叉列聯(lián)表行列變量間關(guān)系的分析目的在列聯(lián)表的基礎(chǔ)上作進(jìn)一步的分析,可以得到行變量和列變量之間是否有聯(lián)系、聯(lián)系的緊密程度如何等更深層次的信息。通過(guò)列聯(lián)表分析,檢驗(yàn)行列變量之間是否獨(dú)立工資收入低中高年齡段青40000中05000老00600工資收入低中高年齡段青00500中06000老40000第五十一頁(yè),共九十一頁(yè),2022年,8月28日卡方檢驗(yàn)大多數(shù)情況下,觀測(cè)頻數(shù)分散在列聯(lián)表的各個(gè)單元格中,不容易直接發(fā)現(xiàn)行列變量之間的關(guān)系強(qiáng)弱程度,此時(shí)就要借助非參數(shù)檢驗(yàn)方法和度量變量間相關(guān)程度的統(tǒng)計(jì)量等手段。通常用的方法是卡方(

)檢驗(yàn)。

統(tǒng)計(jì)量用于檢驗(yàn)列聯(lián)表中變量間擬合優(yōu)度和獨(dú)立性用于測(cè)定兩個(gè)分類變量之間的相關(guān)程度為觀察頻數(shù),為期望頻數(shù)(ExpectedCount)第五十二頁(yè),共九十一頁(yè),2022年,8月28日期望頻數(shù)RT是指定單元格所在行的觀測(cè)頻數(shù)合計(jì)CT是指定單元格所在列的觀測(cè)頻數(shù)合計(jì)n是觀測(cè)頻數(shù)的合計(jì)期望頻數(shù)的分布反映的是行列變量互不相干下的分布P95第五十三頁(yè),共九十一頁(yè),2022年,8月28日第五十四頁(yè),共九十一頁(yè),2022年,8月28日期望頻數(shù)例如,具有本科學(xué)歷的高級(jí)工程師的期望頻數(shù)是0.75的計(jì)算公式是3*4/16=0.75。期望頻數(shù)可以理解為,總共16個(gè)職工的學(xué)歷分布是25%:25%:31.3%:18.8%,如果遵從這種學(xué)歷的總體比例關(guān)系,高級(jí)職稱三人的學(xué)歷分布也應(yīng)為25%:25%:31.3%:18.8%,于是期望頻數(shù)為3*25%、3*25%、3*31.3%、3*18.8%。同理可以理解,總共16個(gè)職工的職稱分布為18.8%:25%:37.5%:18.8%,本科學(xué)歷4人的期望頻數(shù)分別為4*18.8%、4*25%、4*37.5%、4*18.8%第五十五頁(yè),共九十一頁(yè),2022年,8月28日卡方檢驗(yàn)卡方統(tǒng)計(jì)量觀測(cè)值的大小取決于列聯(lián)表的單元格子數(shù)觀測(cè)頻數(shù)與期望頻數(shù)的總差值在列聯(lián)表確定的情況下,卡方統(tǒng)計(jì)量觀測(cè)值的大小取決于觀測(cè)頻數(shù)與期望頻數(shù)的總差值總差值越大時(shí),卡方值也就越大,實(shí)際分布與期望分布的差距越大,表明行列變量之間越相關(guān)反之表明行列變量之間越獨(dú)立第五十六頁(yè),共九十一頁(yè),2022年,8月28日卡方檢驗(yàn)基本步驟(1)提出原假設(shè)H0:行列變量之間無(wú)關(guān)聯(lián)或相互獨(dú)立(2)構(gòu)造卡方統(tǒng)計(jì)量統(tǒng)計(jì)量服從(r-1)*(c-1)個(gè)自由度的卡方分布count:觀察(實(shí)際)頻數(shù)expectedcount:期望頻數(shù)(期望頻數(shù)反映的是H0成立情況下的數(shù)據(jù)分布特征)Residual:剩余(觀察頻數(shù)-期望頻數(shù))(3)計(jì)算卡方統(tǒng)計(jì)量的值,并得到該統(tǒng)計(jì)量值的概率P值(4)決策。概率P與顯著性水平比較,小于等于則拒絕H0,否則不能拒絕第五十七頁(yè),共九十一頁(yè),2022年,8月28日(4)結(jié)論和決策對(duì)統(tǒng)計(jì)推斷做決策通常有兩種方式:根據(jù)統(tǒng)計(jì)量觀測(cè)值和臨界值比較的結(jié)果進(jìn)行決策。如果卡方觀測(cè)值大于臨界值,則認(rèn)為實(shí)際分布與期望分布之間的差距顯著,可以拒絕原假設(shè),斷定列聯(lián)表的行列變量間不獨(dú)立,存在相關(guān)關(guān)系;反之,接受原假設(shè)。根據(jù)統(tǒng)計(jì)量觀測(cè)值的概率p值和顯著性水平比較的結(jié)果進(jìn)行決策。如果p值小于等于,則認(rèn)為卡方觀測(cè)值出現(xiàn)的概率是很小的,是一個(gè)本不應(yīng)發(fā)生的小概率事件,但卻發(fā)生了,因此拒絕原假設(shè),斷定列聯(lián)表的行列變量間不獨(dú)立,存在依存關(guān)系;反之,接受原假設(shè)。第五十八頁(yè),共九十一頁(yè),2022年,8月28日什么是P值?是一個(gè)概率值;P(|t|>ti)=p(i=1,2)如果原假設(shè)為真,P-值是抽樣分布中大于或小于樣本統(tǒng)計(jì)量的概率;被稱為觀察到的(或?qū)崪y(cè)的)顯著性水平。在實(shí)際應(yīng)用中,用p值更方便,即概率值提供的信息也是很有用的,p值是統(tǒng)計(jì)量精確的顯著性水平。第五十九頁(yè),共九十一頁(yè),2022年,8月28日雙側(cè)檢驗(yàn)的P值/

2

/

2Z拒絕拒絕H0值臨界值計(jì)算出的樣本統(tǒng)計(jì)量計(jì)算出的樣本統(tǒng)計(jì)量臨界值1/2P值1/2P值第六十頁(yè),共九十一頁(yè),2022年,8月28日左側(cè)檢驗(yàn)的P值H0值臨界值a樣本統(tǒng)計(jì)量拒絕域抽樣分布1-置信水平計(jì)算出的樣本統(tǒng)計(jì)量P值第六十一頁(yè),共九十一頁(yè),2022年,8月28日右側(cè)檢驗(yàn)的P值H0值臨界值a拒絕域抽樣分布1-置信水平計(jì)算出的樣本統(tǒng)計(jì)量P值第六十二頁(yè),共九十一頁(yè),2022年,8月28日利用P值進(jìn)行檢驗(yàn)(決策準(zhǔn)則)若p-值>

,不拒絕H0若p-值<,拒絕H0第六十三頁(yè),共九十一頁(yè),2022年,8月28日卡方檢驗(yàn)實(shí)現(xiàn)步驟cells選項(xiàng)【Counts】框中的【Expected】表示輸出期望頻數(shù)【Residuals】框中的各個(gè)選項(xiàng)是在各個(gè)單元格中輸出觀測(cè)頻數(shù)與期望頻數(shù)的差。【Unstandardized】statistics選項(xiàng)指定用哪種方法分析行變量和列變量間的關(guān)系Chi-square為卡方檢驗(yàn)第六十四頁(yè),共九十一頁(yè),2022年,8月28日卡方檢驗(yàn)的要求:列聯(lián)表各單元格中期望頻數(shù)的大?。阂话阋罅新?lián)表中期望頻數(shù)小于5的格子數(shù)不超過(guò)20%,否則會(huì)夸大卡方值,容易得出拒絕結(jié)論,可以合并單元格。樣本量的大?。嚎ǚ街禃?huì)受樣本數(shù)的影響為此,也有必要對(duì)Pearson卡方值進(jìn)行必要的修正,以剔除樣本量的影響。第六十五頁(yè),共九十一頁(yè),2022年,8月28日例題3.4利用住房狀況調(diào)查數(shù)據(jù),分析本市戶口和外地戶口家庭對(duì)“未來(lái)三年是否打算買房”是否持相同態(tài)度H0:本市戶口和外地戶口家庭對(duì)未來(lái)三年是否打算買房的看法是一致的第六十六頁(yè),共九十一頁(yè),2022年,8月28日其他統(tǒng)計(jì)量似然比卡方(LikelihoodRation)當(dāng)樣本量較大時(shí),似然比卡方與Pearson卡方非常接近,檢驗(yàn)結(jié)論通常也是一致的線性相關(guān)卡方(Mantel-Haenszel卡方)檢驗(yàn)列聯(lián)表中行列變量的線性相關(guān)性H0:行列變量零相關(guān)只適用于定序變量,不能用于定類變量第六十七頁(yè),共九十一頁(yè),2022年,8月28日列聯(lián)表分析的其他方法SPSS還提供了其他測(cè)度變量間相關(guān)關(guān)系的檢驗(yàn)方法,包括:適用于兩定類變量的方法:Nominal框中列出的方法屬該類方法。適用于兩定序變量的方法:Ordinal框中列出的方法屬該類方法。適用于一定類變量、一定距變量的方法:Nominalbyinterval框中的Eta方法屬該類方法。其他方法第六十八頁(yè),共九十一頁(yè),2022年,8月28日多選項(xiàng)分析按照您自己的實(shí)際情況,請(qǐng)依次選擇您購(gòu)買商業(yè)養(yǎng)老保險(xiǎn)的原因,最多不超過(guò)三項(xiàng):(1)使晚年生活有保障;(2)一種安全的投資保值方式;(3)抱著試試看的態(tài)度購(gòu)買;(4)親戚朋友推薦;(5)單位統(tǒng)一組織購(gòu)買;(6)保險(xiǎn)公司的宣傳;(7)其他。第六十九頁(yè),共九十一頁(yè),2022年,8月28日多選項(xiàng)二分法SPSS變量名變量名標(biāo)簽變量取值V1是使晚年生活有保障嗎?0/1V2是一種安全的投資保值方式嗎?0/1V3是抱著試試看的態(tài)度購(gòu)買嗎?0/1V4是親戚朋友推薦嗎?0/1V5是單位統(tǒng)一組織購(gòu)買嗎?0/1V6是保險(xiǎn)公司的宣傳嗎?0/1V7是其他嗎?0/1第七十頁(yè),共九十一頁(yè),2022年,8月28日多選項(xiàng)分類法SPSS變量名變量名標(biāo)簽變量取值V1第一原因1/2/3/4/5/6/7V2第二原因1/2/3/4/5/6/7V3第三原因1/2/3/4/5/6/7第七十一頁(yè),共九十一頁(yè),2022年,8月28日對(duì)多選項(xiàng)問(wèn)題作普通頻數(shù)分析的困難采用多選項(xiàng)二分法分解問(wèn)題,對(duì)變量V1~V7作頻數(shù)分析,能很方便地分析出哪種原因是人們購(gòu)買商業(yè)養(yǎng)老保險(xiǎn)的主要原因,但卻丟失了被調(diào)查者購(gòu)買保險(xiǎn)原因的順序性信息。采用多選項(xiàng)分類法分解,就能夠有效解決信息丟失的問(wèn)題。而對(duì)變量V1~V3作頻數(shù)分析,能方便地得到購(gòu)買保險(xiǎn)的三個(gè)主要原因中各個(gè)備選原因所占的比例,但卻無(wú)法方便地分析有多少人是由于某個(gè)備選原因而去購(gòu)買保險(xiǎn)的多選項(xiàng)分類法--所選答案具有一定順序的多選項(xiàng)問(wèn)題多選項(xiàng)二分法--所選答案沒(méi)有順序的多選項(xiàng)問(wèn)題第七十二頁(yè),共九十一頁(yè),2022年,8月28日變量值標(biāo)簽變量值頻數(shù)百分比使晚年生活有保障14590.0單位統(tǒng)一組織購(gòu)買5510.0合計(jì)50100.0變量值標(biāo)簽變量值頻數(shù)百分比保險(xiǎn)公司的宣傳63060.0一種安全的投資保值方式22040.0合計(jì)50100.0變量值標(biāo)簽變量值頻數(shù)百分比一種安全的投資保值方式21020.0單位統(tǒng)一組織購(gòu)買54080.0合計(jì)50100.0V1頻數(shù)分析結(jié)果V2頻數(shù)分析結(jié)果V3頻數(shù)分析結(jié)果第七十三頁(yè),共九十一頁(yè),2022年,8月28日變量值標(biāo)簽變量值頻數(shù)百分比使晚年生活有保障14530.0保險(xiǎn)公司的宣傳63020.0單位統(tǒng)一組織購(gòu)買54530.0一種安全的投資保值方式23020.0合計(jì)150100.0V1、V2、V3頻數(shù)匯總結(jié)果第七十四頁(yè),共九十一頁(yè),2022年,8月28日多選項(xiàng)分析的基本思路按多選項(xiàng)二分法或多選項(xiàng)分類法將多選項(xiàng)問(wèn)題分解成若干個(gè)問(wèn)題,并設(shè)置若干個(gè)SPSS變量采用多選項(xiàng)頻數(shù)分析或多選項(xiàng)交叉分組下的頻數(shù)分析進(jìn)行分析定義多選項(xiàng)變量集多選項(xiàng)頻數(shù)分析第七十五頁(yè),共九十一頁(yè),2022年,8月28日定義多選項(xiàng)變量集的基本操作步驟定義多選項(xiàng)變量集目的:將已分解的變量定義為一個(gè)集合,便于進(jìn)行多選項(xiàng)分析菜單選項(xiàng):analyze->multipleresponse->definesets從原變量中選取被分解的變量(數(shù)值型)到variablesinsets框指定被分解的變量是按多選項(xiàng)二分法(dichotomize)分解還是按多選項(xiàng)分類法(categories)分解的為變量集命名。系統(tǒng)自動(dòng)在名字前加字符$.第七十六頁(yè),共九十一頁(yè),2022年,8月28日用哪個(gè)數(shù)值來(lái)表示選中該選項(xiàng)變量取值的最小值和最大值第七十七頁(yè),共九十一頁(yè),2022年,8月28日多選項(xiàng)頻數(shù)分析的基本操作步驟Frequencies:對(duì)多選變量集進(jìn)行頻數(shù)分析。從multresponsesets中把待分析的多選項(xiàng)變量集選擇到tablesfor框中指定是否處理缺失數(shù)據(jù)Crosstabs:對(duì)多選變量集與其他變量集或與原基本變量進(jìn)行交叉表分析第七十八頁(yè),共九十一頁(yè),2022年,8月28日多選項(xiàng)交叉分組下的頻數(shù)分析菜單選項(xiàng):analyze->multipleresponse->crosstabs選擇列聯(lián)表的行變量并定義取值范圍,或選多選項(xiàng)變量集為行變量選擇列聯(lián)表的列變量并定義取值范圍,或選多選項(xiàng)變量集為列變量選擇列聯(lián)表的控制變量并定義取值范圍,或選多選項(xiàng)變量集為控制變量。第七十九頁(yè),共九十一頁(yè),2022年,8月28日多選項(xiàng)交叉分組下的頻數(shù)分析分母為個(gè)案數(shù)分母為應(yīng)答數(shù)Options:Matchvariableacrossresponsesets:如果列聯(lián)表的行列變量均為多選項(xiàng)變量集時(shí),第一個(gè)變量集的第一個(gè)變量與第二個(gè)變量集的第一個(gè)變量作交叉分組,第一個(gè)變量集的第二個(gè)變量與第二個(gè)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論