




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第五講分析研究資料重點(diǎn)內(nèi)容:統(tǒng)計(jì)分析、因果分析、矛盾分析難點(diǎn)內(nèi)容:推斷統(tǒng)計(jì)與交互分類(lèi)第五講分析研究資料重點(diǎn)內(nèi)容:統(tǒng)計(jì)分析、因果分析、主要內(nèi)容第一節(jié)基本統(tǒng)計(jì)分析第二節(jié)相關(guān)分析與回歸分析第三節(jié)比較分析與類(lèi)型分析第四節(jié)矛盾分析與因果分析主要內(nèi)容第一節(jié)基本統(tǒng)計(jì)分析第一節(jié)基本統(tǒng)計(jì)分析一、頻數(shù)分析二、描述統(tǒng)計(jì)三、探索分析四、交叉表分析五、報(bào)告摘要分析第一節(jié)基本統(tǒng)計(jì)分析一、頻數(shù)分析SPSS統(tǒng)計(jì)分析功能概述有了數(shù)據(jù),可以利用SPSS的各種分析方法進(jìn)行分析,但選擇何種統(tǒng)計(jì)分析方法,即調(diào)用哪個(gè)統(tǒng)計(jì)分析過(guò)程,是得到正確分析結(jié)果的關(guān)鍵。SPSS有數(shù)字分析和作圖分析兩類(lèi)方法11/25/2022SPSS統(tǒng)計(jì)分析功能概述有了數(shù)據(jù),可以利用SPSS的各種SPSS數(shù)值分析過(guò)程SPSS數(shù)值統(tǒng)計(jì)分析過(guò)程均在Analyze菜單中,包括:a、基本統(tǒng)計(jì)分析:Reports,DescriptiveStatisticsb、均值比較與檢驗(yàn):CompareMeansd、方差分析:ANOVAModelsb、相關(guān)分析:Correlatee、回歸分析:Regressionf、聚類(lèi)與判別:Classifyg、因子分析:DataReductionh、非參數(shù)檢驗(yàn):NonparametricTests等等11/25/2022SPSS數(shù)值分析過(guò)程SPSS數(shù)值統(tǒng)計(jì)分析過(guò)程均在Ana基本統(tǒng)計(jì)分析基本統(tǒng)計(jì)分析是進(jìn)行其他更深入的統(tǒng)計(jì)分析的前提,通過(guò)基本統(tǒng)計(jì)分析,用戶(hù)可以對(duì)分析數(shù)據(jù)的總體特征有比較準(zhǔn)確的把握,從而選擇更為深入的分析方法對(duì)分析對(duì)象進(jìn)行研究。在SPSS的Analyze菜單中包括了一系列統(tǒng)計(jì)分析過(guò)程。其中Reports和DescriptiveStatistics命令項(xiàng)中包括的功能是對(duì)單變量的描述統(tǒng)計(jì)分析。DescriptiveStatistics包括的統(tǒng)計(jì)功能有:Frequencies:頻數(shù)分析Descriptives:描述統(tǒng)計(jì)量分析Explore:探索分析Crosstabs:多維頻數(shù)分布交叉表(列聯(lián)表)Reports包括的統(tǒng)計(jì)功能有:OLAPCubes:OLAP報(bào)告摘要表CaseSummaries:觀測(cè)量列表ReportSummariesinRow:行形式輸出報(bào)告ReportSummariesinColumns:列形式輸出報(bào)告11/25/2022基本統(tǒng)計(jì)分析基本統(tǒng)計(jì)分析是進(jìn)行其他更深入的統(tǒng)計(jì)分析的前提,一、頻數(shù)分析(Frequencies)1、了解變量的取值分布情況對(duì)整體把握數(shù)據(jù)的特征是非常有利的。2、求分類(lèi)(定類(lèi)、定序)變量的頻數(shù)和作Bar圖3、求定距變量(連續(xù)變量)的分布情況和作直方圖Histogram比Descriptives多百分位,在Statistics選項(xiàng)和Format選項(xiàng))4、對(duì)連續(xù)變量進(jìn)行分組(recode)后再求頻數(shù),如老中青(35,60)的比例,文化程度(中學(xué)、大學(xué)及以上)的人數(shù)及比例等5、Analyze+DescriptiveStatistics+Frequencies6、例子p105-106:對(duì)1991年美國(guó)社會(huì)研究情況數(shù)據(jù)(data08-01)進(jìn)行統(tǒng)計(jì)處理。分析不同年齡(age變量)和最高受教育年限(educ變量)各水平的頻數(shù)分布情況。11/25/2022一、頻數(shù)分析(Frequencies)1、了解變量的取值分二、描述統(tǒng)計(jì)分析Descriptives1、功能:了解數(shù)據(jù)的基本統(tǒng)計(jì)特征和對(duì)指定的變量值進(jìn)行標(biāo)準(zhǔn)化處理(標(biāo)準(zhǔn)化后的新變量的均值為0,標(biāo)準(zhǔn)差為1,目的是為了消除各變量間變量值在數(shù)量級(jí)上的差異,從而增強(qiáng)數(shù)據(jù)間的可比性)。2、描述統(tǒng)計(jì)分析過(guò)程通過(guò)平均值(Mean)、算術(shù)和(Sum)、標(biāo)準(zhǔn)差(StdDev)、最大值(Maximum)、最小值(Minimum)、方差(Variance)、范圍(Range)、平均數(shù)標(biāo)準(zhǔn)誤(S.E.Mean)等統(tǒng)計(jì)量對(duì)變量進(jìn)行描述。3、一般是求定距變量的描述統(tǒng)計(jì)量,從中分析差異性(max,min)4、Analyze+DescriptiveStatistics+Descriptives5、例子:1985年美國(guó)聯(lián)邦研究局對(duì)50個(gè)州各種犯罪情況研究的數(shù)據(jù)(data08-02)進(jìn)行描述統(tǒng)計(jì)分析50個(gè)州總的情況不同地區(qū)region的情況(2種方法:SplitFile+Descriptives,第8章的Means)11/25/2022二、描述統(tǒng)計(jì)分析Descriptives1、功能:了解數(shù)據(jù)三、探索分析Explore1.考察數(shù)據(jù)的奇異性和分布特征奇異性:數(shù)據(jù)的過(guò)大或過(guò)小(找出、分析原因、是否剔除)分布特征:數(shù)據(jù)是否來(lái)自正態(tài)分布總體考察方法:統(tǒng)計(jì)量和統(tǒng)計(jì)圖形(箱圖、莖葉圖(頻數(shù)、莖和葉)、方差齊次性檢驗(yàn)Spreadvslevel圖)2.一般是考察定距變量3.Analyze+DescriptiveStatistics+Explore因(分析)變量(DependentList):定距變量分組變量(FactorList):分類(lèi)變量標(biāo)識(shí)變量(LabelCasesby):為方便查找輸出觀測(cè)量如id4.例子p112:考察銀行數(shù)據(jù)(data08-03)中的不同性別的工資情況11/25/2022三、探索分析Explore1.考察數(shù)據(jù)的奇異性和分布特四、交叉表分析二維或多維交叉頻數(shù)表(列聯(lián)表),分析事物(變量)之間的相互影響和關(guān)系A(chǔ)nalyze+DescriptiveStatistics+Crosstabs行變量(Row):需分類(lèi)變量列變量(Column):需分類(lèi)變量分層變量(Layer):條件(若有,需分類(lèi)變量)Statistics選項(xiàng):Chi-square復(fù)選項(xiàng)及其四種檢驗(yàn)結(jié)果Correlations復(fù)選項(xiàng):相關(guān)系數(shù)例子:銀行數(shù)據(jù)(data08-03)中:如求男女的民族分布情況,可得到白種人多,男性多的結(jié)論(注意cell選項(xiàng),一般選頻數(shù)和百分比),如求每一工種的男女分布情況(人數(shù))P118:1991年美國(guó)社會(huì)研究情況數(shù)據(jù)(data08-01):男女對(duì)生活的認(rèn)識(shí)。11/25/2022四、交叉表分析二維或多維交叉頻數(shù)表(列聯(lián)表),分析事物(變1.5OLAP報(bào)告摘要表OLAPCubesOLAP(OnlineAnalyticalProcessing)在線分析處理過(guò)程以分組變量為基礎(chǔ),計(jì)算各組的總計(jì)、均值和其他統(tǒng)計(jì)量。而輸出的報(bào)告摘要?jiǎng)t是指每個(gè)組中所包含的各種變量的統(tǒng)計(jì)信息。Analyze+Reports+OLAPCubesSummaryVariables:要進(jìn)行統(tǒng)計(jì)匯總的數(shù)值型變量GroupingVariables:分組變量(分類(lèi)變量),注意:此分組變量在實(shí)際的運(yùn)算過(guò)程中并不發(fā)揮分組的功能,而是確定進(jìn)入統(tǒng)計(jì)的觀測(cè)量的范圍。如選擇數(shù)學(xué)成績(jī)作為摘要分析變量,而性別作為分組變量,要計(jì)算數(shù)學(xué)平均成績(jī),則結(jié)果中顯示的并不是男生的數(shù)學(xué)平均成績(jī)和女生的數(shù)學(xué)平均成績(jī),而是所有男女生觀測(cè)量的數(shù)學(xué)成績(jī)的總平均值。即所有性別有值(非MissingValue)的Case,才參與分析計(jì)算Statistics選項(xiàng):Sum和、NumberofCases觀測(cè)量數(shù)目、Mean均值、Median中位數(shù)、Maximum最大…等等例子p122:1991年美國(guó)社會(huì)研究情況數(shù)據(jù)(data08-01):對(duì)不同種族race的孩子childs和教育educ情況進(jìn)行報(bào)告摘要分析。11/25/20221.5OLAP報(bào)告摘要表OLAPCubesOLAP(On補(bǔ)充:Reports的其他分析過(guò)程Reports的其他分析過(guò)程有:CaseSummaries:觀測(cè)值摘要分析ReportSummariesinRow:行形式輸出報(bào)告ReportSummariesinColumns:列形式輸出報(bào)告11/25/2022補(bǔ)充:Reports的其他分析過(guò)程Reports的其他分析CaseSummaries:觀測(cè)量列表察看或打印所需要的變量值A(chǔ)nalyze+Reports+CaseSummariesVariables:要顯示的變量名GroupingVariables:分組變量(分類(lèi)變量)結(jié)果顯示:多行或單行11/25/2022CaseSummaries:觀測(cè)量列表察看或打印所需要的變行形式輸出報(bào)告Summary按行,如:sum、mean、max、min、count、stddev、variance、percentage(above,below,inside)等菜單:Analyze+Reports+ReportSummariesinRowsDataColumn:報(bào)告變量BreakColumn:分組變量及其Summary(多個(gè)交叉)Report:可對(duì)全部數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì)(GrandTotal)DisplayCases:是否顯示每一個(gè)觀測(cè)量11/25/2022行形式輸出報(bào)告Summary按行,如:sum、mean、m列形式輸出報(bào)告Summary按列,如:sum、mean、max、min、count、stddev、variance、percentage(above,below,inside)等菜單:Analyze+Reports+ReportSummariesinColumnsDataColumn:報(bào)告變量一一對(duì)應(yīng)的SummaryInsertTotal:匯總列,可匯總兩列或多列的信息BreakColumn:分組變量(多個(gè)交叉)及SubtotalReport:可對(duì)全部數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì)(GrandTotal)11/25/2022列形式輸出報(bào)告Summary按列,如:sum、mean、第二節(jié)相關(guān)與回歸分析一、相關(guān)分析的概念和過(guò)程二、兩個(gè)變量間的相關(guān)分析三、偏相關(guān)分析四、距離分析五、回歸分析的概念和模型六、回歸分析的過(guò)程11/25/2022第二節(jié)相關(guān)與回歸分析一、相關(guān)分析的概念和過(guò)程9/24/2一、相關(guān)分析的概念與過(guò)程研究變量間密切程度的一種常用統(tǒng)計(jì)方法1、線性相關(guān)分析:研究?jī)蓚€(gè)變量間線性關(guān)系的程度。用相關(guān)系數(shù)r來(lái)描述。2、偏相關(guān)分析:它描述的是當(dāng)控制了一個(gè)或幾個(gè)另外的變量的影響條件下兩個(gè)變量間的相關(guān)性,如控制年齡和工作經(jīng)驗(yàn)的影響,估計(jì)工資收入與受教育水平之間的相關(guān)關(guān)系3、相似性測(cè)度:兩個(gè)或若干個(gè)變量、兩個(gè)或兩組觀測(cè)量之間的關(guān)系有時(shí)也可以用相似性或不相似性來(lái)描述。相似性測(cè)度用大值表示很相似,而不相似性用距離或不相似性來(lái)描述,大值表示相差甚遠(yuǎn)一、相關(guān)分析的概念與過(guò)程研究變量間密切程度的一種常用統(tǒng)計(jì)方法線性相關(guān)分析研究?jī)蓚€(gè)變量間線性關(guān)系的程度。相關(guān)系數(shù)是描述這種線性關(guān)系程度和方向的統(tǒng)計(jì)量,用r表示。如果變量Y與X間是函數(shù)關(guān)系,則r=1或r=-1;如果變量Y與X間是統(tǒng)計(jì)關(guān)系,則-1<r<1,如果x,y變化的方向一致,如身高與體重的關(guān)系,則稱(chēng)為正相關(guān),r>0,如果x,y變化的方向相反,如吸煙與肺功能的關(guān)系,則稱(chēng)為負(fù)相關(guān),r<0;而r=0表示無(wú)線性相關(guān),一般地,|r|>0.95存在顯著性相關(guān);|r|0.8高度相關(guān);0.5|r|<0.8中度相關(guān);0.3|r|<0.5低度相關(guān);|r|<0.3關(guān)系極弱,認(rèn)為不相關(guān)線性相關(guān)分析研究?jī)蓚€(gè)變量間線性關(guān)系的程度。相關(guān)系數(shù)是描述這種線性相關(guān)分析(續(xù))相關(guān)系數(shù)的計(jì)算有三種:Pearson、Spearman和KendallPearson相關(guān)系數(shù):對(duì)定距變量的數(shù)據(jù)進(jìn)行計(jì)算,公式P207Spearman和Kendall相關(guān)系數(shù):對(duì)分類(lèi)變量的數(shù)據(jù)或變量值的分布明顯非正態(tài)或分布不明時(shí),計(jì)算時(shí)先對(duì)離散數(shù)據(jù)進(jìn)行排序或?qū)Χň嘧兞恐蹬牛ㄇ螅┲取9絇208線性相關(guān)分析(續(xù))相關(guān)系數(shù)的計(jì)算有三種:Pearson、Sp相關(guān)分析的SPSS過(guò)程在Analyze+Correlate下的三個(gè)子菜單:1、Bivariate--相關(guān)分析,計(jì)算指定的兩個(gè)變量間的相關(guān)關(guān)系,可選擇Pearson相關(guān)、Spearman和Kendall相關(guān);同時(shí)對(duì)相關(guān)系數(shù)進(jìn)行檢驗(yàn),檢驗(yàn)的零假設(shè)為:相關(guān)系數(shù)為0(不相關(guān))。給出相關(guān)系數(shù)為0的概率2、Partial--偏相關(guān)分析,計(jì)算兩個(gè)變量間在控制了其他變量的影響下的相關(guān)關(guān)系,對(duì)相關(guān)系數(shù)也進(jìn)行檢驗(yàn),檢驗(yàn)的零假設(shè)為:相關(guān)系數(shù)為03、Distance--相似性測(cè)度,對(duì)變量或觀測(cè)量進(jìn)行相似性或不相似性測(cè)度11/25/2022相關(guān)分析的SPSS過(guò)程在Analyze+Correlate下二、兩個(gè)變量間的相關(guān)分析兩兩變量間的相關(guān):包括兩個(gè)連續(xù)變量間的相關(guān)(Pearson相關(guān))和兩個(gè)等級(jí)(分類(lèi))變量間的秩相關(guān)(Spearman和Kendall相關(guān))菜單:Analyze+Correlate+Bivariatea、連續(xù)變量間的相關(guān):Pearson。P211Data07-03銀行職工的起始工資salbegin和現(xiàn)工資salary與雇員本人各方面條件的關(guān)系(年齡age、工作時(shí)間jobtime、以前工作經(jīng)驗(yàn)prevexp):比較有用的結(jié)果:Pearson相關(guān)系數(shù)r和其相應(yīng)的顯著性概率Sig(Pearson相關(guān)系數(shù)均很?。?1/25/2022二、兩個(gè)變量間的相關(guān)分析兩兩變量間的相關(guān):包括兩個(gè)連續(xù)變量二、兩個(gè)變量的相關(guān)分析b、等級(jí)(分類(lèi))變量間的秩相關(guān):Spearman和Kendall。P212Data07-03銀行職工的起始工資salbegin和現(xiàn)工資salary與雇員的職務(wù)等級(jí)jobcat、受教育程度educ關(guān)系(比較有用的結(jié)果:Kendall秩相關(guān)系數(shù)r和其相應(yīng)的顯著性概率Sig(Kendall秩相關(guān)系數(shù)均>.5,認(rèn)為中度相關(guān))P213Data10-02某次全國(guó)武術(shù)女子前10名運(yùn)動(dòng)員長(zhǎng)拳和長(zhǎng)兵器兩項(xiàng)得分?jǐn)?shù)據(jù),要求分析這兩項(xiàng)得分是否存在線性相關(guān)(比較有用的結(jié)果:秩相關(guān)系數(shù)r和其相應(yīng)的顯著性概率Sig(秩相關(guān)系數(shù)均>.5,認(rèn)為中度相關(guān))11/25/2022二、兩個(gè)變量的相關(guān)分析b、等級(jí)(分類(lèi))變量間的秩相關(guān):Sp三、偏相關(guān)分析的概念線性相關(guān)分析計(jì)算兩個(gè)變量間的相關(guān)關(guān)系,分析兩個(gè)變量間線性關(guān)系的程度。往往因?yàn)榈谌齻€(gè)變量的作用,使相關(guān)系數(shù)不能真正反映兩個(gè)變量間的線性程度。如身高、體重與肺活量之間的關(guān)系。如果使用Pearson相關(guān)計(jì)算其相關(guān)系數(shù),可以得出肺活量與身高和體重均存在較強(qiáng)的線性關(guān)系。但實(shí)際上,如果對(duì)體重相同的人,分析身高和肺活量,是否身高越高,肺活量就越大呢?不是的。原因是身高與體重有線性關(guān)系,體重與肺活量存在線性關(guān)系,因此得出身高和肺活量之間存在著較強(qiáng)的線性關(guān)系的錯(cuò)誤結(jié)論。偏相關(guān)分析的任務(wù)就是在研究?jī)蓚€(gè)變量之間的線性相關(guān)關(guān)系時(shí)控制可能對(duì)其產(chǎn)生影響的變量。分析身高與肺活量之間的相關(guān)性,就要控制體重在相關(guān)分析中的影響。實(shí)際生活中有許多這樣的關(guān)系,如可以控制年齡和工作經(jīng)驗(yàn)兩個(gè)變量的影響,估計(jì)工資收入與受教育程度之間的相關(guān)關(guān)系??梢栽诳刂屏虽N(xiāo)售能力與各種其他經(jīng)濟(jì)指標(biāo)的情況下,研究銷(xiāo)售量與廣告費(fèi)用之間的關(guān)系等。11/25/2022三、偏相關(guān)分析的概念線性相關(guān)分析計(jì)算兩個(gè)變量間的相關(guān)關(guān)系偏相關(guān)分析的SPSS過(guò)程和實(shí)例菜單:Analyze+Correlate+PartialVariables:分析變量Controllingfor:控制變量實(shí)例P220Data10-03使用四川綿陽(yáng)地區(qū)3年生中山柏的數(shù)據(jù),分析月生長(zhǎng)量hgrow與月平均氣溫temp、月降雨量rain、月平均日照時(shí)數(shù)hsun、月平均濕度humi這四個(gè)氣候因素的哪個(gè)因素有關(guān)。將月生長(zhǎng)量hgrow作為分析變量,然后分四次,分別將其中的一個(gè)因素作為分析變量,而其他三個(gè)作為控制變量用Pearson相關(guān)系數(shù)結(jié)果P223:中山柏生長(zhǎng)量與氣溫temp關(guān)系最為密切,相關(guān)系數(shù)0.9774,顯著性概率p=0.000;其次是濕度humi,相關(guān)系數(shù)0.7310,顯著性概率p=0.025;日照時(shí)數(shù)hsun,相關(guān)系數(shù)0.6318,顯著性概率p=0.068;與降雨量沒(méi)有線性關(guān)系,降雨量過(guò)大,還會(huì)影響其生長(zhǎng)。11/25/2022偏相關(guān)分析的SPSS過(guò)程和實(shí)例菜單:Analyze+Cor四、距離分析是對(duì)觀測(cè)量之間或變量之間相似或不相似程度的一種測(cè)度,是一種廣義的距離。有關(guān)的統(tǒng)計(jì)量。不相似性測(cè)度:a、對(duì)等間隔(定距)數(shù)據(jù)的不相似性(距離)測(cè)度可以使用的統(tǒng)計(jì)量有Euclid歐氏距離、歐氏距離平方等。b、對(duì)計(jì)數(shù)數(shù)據(jù)使用卡方。c、對(duì)二值(只有兩種取值)數(shù)據(jù),使用歐氏距離、歐氏距離平方、尺寸差異、模式差異、方差等相似性測(cè)度:a、等間隔數(shù)據(jù)使用統(tǒng)計(jì)量Pearson相關(guān)或余弦。b、測(cè)度二元數(shù)據(jù)的相似性使用的統(tǒng)計(jì)量有20余種。距離分析分為觀測(cè)量之間距離分析和變量之間距離分析。11/25/2022四、距離分析是對(duì)觀測(cè)量之間或變量之間相似或不相似程度的一種距離分析實(shí)例實(shí)例P227Data10-03仍使用四川綿陽(yáng)地區(qū)3年生中山柏的數(shù)據(jù)。菜單:Analyze+Correlate+Distance觀測(cè)量間的距離分析(不相似性測(cè)度,使用歐氏距離),分析月生長(zhǎng)量hgrowVariables分析變量:月生長(zhǎng)量hgrowLabelCaseby:月份MonthComputeDistances:BetweenCaseMeasure:不相似性測(cè)度結(jié)果P228:觀測(cè)量間的歐氏距離(1月與8月的生長(zhǎng)量最不相似,其歐氏距離值為19.290,而1月與2月生長(zhǎng)量不相似性最小,值為0.490)變量間的不相似性Variables分析變量:temp、rain、hsun、humiComputeDistances:BetweenVariablesMeasure:不相似性測(cè)度,歐氏距離,分析變量測(cè)度的單位不同,所以要進(jìn)行標(biāo)準(zhǔn)化,TransformValues:ByVariable,ZScore結(jié)果P229:變量間的歐氏距離矩陣(不相似矩陣)還可以重新進(jìn)行相似性分析,得Pearson相關(guān)系數(shù)矩陣,然后跟歐氏距離矩陣相比較。11/25/2022距離分析實(shí)例實(shí)例P227Data10-03仍使用四川綿陽(yáng)五、回歸分析的概念與模型尋求有關(guān)聯(lián)(相關(guān))的變量之間的關(guān)系主要內(nèi)容:從一組樣本數(shù)據(jù)出發(fā),確定這些變量間的定量關(guān)系式對(duì)這些關(guān)系式的可信度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn)從影響某一變量的諸多變量中,判斷哪些變量的影響顯著,哪些不顯著利用求得的關(guān)系式進(jìn)行預(yù)測(cè)和控制五、回歸分析的概念與模型尋求有關(guān)聯(lián)(相關(guān))的變量之間的關(guān)系回歸分析的模型按是否線性分:線性回歸模型和非線性回歸模型按自變量個(gè)數(shù)分:簡(jiǎn)單的一元回歸,多元回歸基本的步驟:利用SPSS得到模型關(guān)系式,是否是我們所要的,要看回歸方程的顯著性檢驗(yàn)(F檢驗(yàn))和回歸系數(shù)b的顯著性檢驗(yàn)(T檢驗(yàn)),還要看擬合程度R2(相關(guān)系數(shù)的平方,一元回歸用RSquare,多元回歸用AdjustedRSquare)回歸分析的模型按是否線性分:線性回歸模型和非線性回歸模型六、回歸分析的過(guò)程在回歸過(guò)程中包括:Liner:線性回歸CurveEstimation:曲線估計(jì)BinaryLogistic:二分變量邏輯回歸MultinomialLogistic:多分變量邏輯回歸Ordinal序回歸Probit:概率單位回歸Nonlinear:非線性回歸WeightEstimation:加權(quán)估計(jì)2-StageLeastsquares:二段最小平方法OptimalScaling最優(yōu)編碼回歸我們只講前面3個(gè)簡(jiǎn)單的(一般教科書(shū)的講法)六、回歸分析的過(guò)程在回歸過(guò)程中包括:1.線性回歸(Liner)一元線性回歸方程:y=a+bxa稱(chēng)為截距b為回歸直線的斜率用R2判定系數(shù)判定一個(gè)線性回歸直線的擬合程度:用來(lái)說(shuō)明用自變量解釋因變量變異的程度(所占比例)多元線性回歸方程:y=b0+b1x1+b2x2+…+bnxnb0為常數(shù)項(xiàng)b1、b2、…、bn稱(chēng)為y對(duì)應(yīng)于x1、x2、…、xn的偏回歸系數(shù)用AdjustedR2調(diào)整判定系數(shù)判定一個(gè)多元線性回歸方程的擬合程度:用來(lái)說(shuō)明用自變量解釋因變量變異的程度(所占比例)一元線性回歸模型的確定:一般先做散點(diǎn)圖(Graphs->Scatter->Simple),以便進(jìn)行簡(jiǎn)單地觀測(cè)(如:Salary與Salbegin的關(guān)系)若散點(diǎn)圖的趨勢(shì)大概呈線性關(guān)系,可以建立線性方程,若不呈線性分布,可建立其它方程模型,并比較R2(-->1)來(lái)確定一種最佳方程式(曲線估計(jì))多元線性回歸一般采用逐步回歸方法-Stepwise
1.線性回歸(Liner)一元線性回歸方程:y=a+bx逐步回歸方法的基本思想對(duì)全部的自變量x1,x2,...,xp,按它們對(duì)Y貢獻(xiàn)的大小進(jìn)行比較,并通過(guò)F檢驗(yàn)法,選擇偏回歸平方和顯著的變量進(jìn)入回歸方程,每一步只引入一個(gè)變量,同時(shí)建立一個(gè)偏回歸方程。當(dāng)一個(gè)變量被引入后,對(duì)原已引入回歸方程的變量,逐個(gè)檢驗(yàn)他們的偏回歸平方和。如果由于引入新的變量而使得已進(jìn)入方程的變量變?yōu)椴伙@著時(shí),則及時(shí)從偏回歸方程中剔除。在引入了兩個(gè)自變量以后,便開(kāi)始考慮是否有需要剔除的變量。只有當(dāng)回歸方程中的所有自變量對(duì)Y都有顯著影響而不需要剔除時(shí),在考慮從未選入方程的自變量中,挑選對(duì)Y有顯著影響的新的變量進(jìn)入方程。不論引入還是剔除一個(gè)變量都稱(chēng)為一步。不斷重復(fù)這一過(guò)程,直至無(wú)法剔除已引入的變量,也無(wú)法再引入新的自變量時(shí),逐步回歸過(guò)程結(jié)束。逐步回歸方法的基本思想對(duì)全部的自變量x1,x2,...,xp2.線性回歸分析實(shí)例實(shí)例:P240Data07-03建立一個(gè)以初始工資Salbegin、工作經(jīng)驗(yàn)prevexp、工作時(shí)間jobtime、工作種類(lèi)jobcat、受教育年限edcu等為自變量,當(dāng)前工資Salary為因變量的回歸模型。先做數(shù)據(jù)散點(diǎn)圖,觀測(cè)因變量Salary與自變量Salbegin之間關(guān)系是否有線性特點(diǎn)Graphs->Scatter->SimpleXAxis:SalbeginYAxis:Salary若散點(diǎn)圖的趨勢(shì)大概呈線性關(guān)系,可以建立線性回歸模型Analyze->Regression->LinearDependent:SalaryIndependents:Salbegin,prevexp,jobtime,jobcat,edcu等變量Method:Stepwise比較有用的結(jié)果:擬合程度AdjustedR2:越接近1擬合程度越好回歸方程的顯著性檢驗(yàn)Sig回歸系數(shù)表Coefficients的Model最后一個(gè)中的回歸系數(shù)B和顯著性檢驗(yàn)Sig得模型:Salary=-15038.6+1.37Salbegin+5859.59jobcat-19.55prevexp+154.698jobtime+539.64edcu2.線性回歸分析實(shí)例實(shí)例:P240Data07-03建立3.曲線估計(jì)(CurveEstimation)對(duì)于一元回歸,若散點(diǎn)圖的趨勢(shì)不呈線性分布,可以利用曲線估計(jì)方便地進(jìn)行線性擬合(liner)、二次擬合(Quadratic)、三次擬合(Cubic)等。采用哪種擬合方式主要取決于各種擬合模型對(duì)數(shù)據(jù)的充分描述(看修正AdjustedR2-->1)不同模型的表示模型名稱(chēng)回歸方程相應(yīng)的線性回歸方程Linear(線性)Y=b0+b1tQuadratic(二次)Y=b0+b1t+b2t2Compound(復(fù)合)Y=b0(b1t)Ln(Y)=ln(b0)+ln(b1)tGrowth(生長(zhǎng))Y=eb0+b1tLn(Y)=b0+b1tLogarithmic(對(duì)數(shù))Y=b0+b1ln(t)Cubic(三次)Y=b0+b1t+b2t2+b3t3SY=eb0+b1/tLn(Y)=b0+b1/
tExponential(指數(shù))Y=b0*
eb1*tLn(Y)=ln(b0)+b1tInverse(逆)Y=b0+b1/tPower(冪)Y=b0(tb1)Ln(Y)=ln(b0)+b1ln(t)Logistic(邏輯)Y=1/(1/u+b0b1t)Ln(1/Y-1/u)=ln(b0+ln(b1)t)3.曲線估計(jì)(CurveEstimation)對(duì)于一元曲線估計(jì)(CurveEstimation)分析實(shí)例實(shí)例P247Data11-01:有關(guān)汽車(chē)數(shù)據(jù),看mpg(每加侖汽油行駛里程)與weight(車(chē)重)的關(guān)系先做散點(diǎn)圖(Graphs->Scatter->Simple):weight(X)、mpg(Y),看每加侖汽油行駛里程數(shù)mpg(Y)隨著汽車(chē)自重weight(X)的增加而減少的關(guān)系,也發(fā)現(xiàn)是曲線關(guān)系建立若干曲線模型(可試著選用所有模型Models)Analyze->Regression->CurveEstimationDependent:mpgIndependent:weightModels:全選(除了最后一個(gè)邏輯回歸)選Plotmodels:輸出模型圖形比較有用的結(jié)果:各種模型的AdjustedR2,并比較哪個(gè)大,結(jié)果是指數(shù)模型Compound的AdjustedR2=0.70678最好(擬合情況可見(jiàn)圖形窗口),結(jié)果方程為:mpg=60.15*0.999664weight說(shuō)明:Growth和Exponential的結(jié)果也相同,也一樣。曲線估計(jì)(CurveEstimation)分析實(shí)例實(shí)例P3.二項(xiàng)邏輯回歸(BinaryLogistic)在現(xiàn)實(shí)中,經(jīng)常需要判斷一些事情是否將要發(fā)生,候選人是否會(huì)當(dāng)選?為什么一些人易患冠心?。繛槭裁匆恍┤说纳鈺?huì)獲得成功?此問(wèn)題的特點(diǎn)是因變量只有兩個(gè)值,不發(fā)生(0)和發(fā)生(1)。這就要求建立的模型必須因變量的取值范圍在0~1之間。Logistic回歸模型Logistic模型:在邏輯回歸中,可以直接預(yù)測(cè)觀測(cè)量相對(duì)于某一事件的發(fā)生概率。包含一個(gè)自變量的回歸模型和多個(gè)自變量的回歸模型公式:其中:z=B0+B1X1+…BpXp(P為自變量個(gè)數(shù))。某一事件不發(fā)生的概率為Prob(noevent)=1-Prob(event)。因此最主要的是求B0,B1,…Bp(常數(shù)和系數(shù))數(shù)據(jù)要求:因變量應(yīng)具有二分特點(diǎn)。自變量可以是分類(lèi)變量和定距變量。如果自變量是分類(lèi)變量應(yīng)為二分變量或被重新編碼為指示變量。指示變量有兩種編碼方式。回歸系數(shù):幾率和概率的區(qū)別。幾率=發(fā)生的概率/不發(fā)生的概率。如從52張橋牌中抽出一張A的幾率為(4/52)/(48/52)=1/12,而其概率值為4/52=1/13根據(jù)回歸系數(shù)表,可以寫(xiě)出回歸模型公式中的z。然后根據(jù)回歸模型公式Prob(event)進(jìn)行預(yù)測(cè)。3.二項(xiàng)邏輯回歸(BinaryLogistic)在現(xiàn)實(shí)中4.二項(xiàng)邏輯回歸(BinaryLogistic)實(shí)例實(shí)例P255Data11-02:乳腺癌患者的數(shù)據(jù)進(jìn)行分析,變量為:年齡age,患病時(shí)間time,腫瘤擴(kuò)散等級(jí)pathscat(3種),腫瘤大小pathsize,腫瘤史histgrad(3種)和癌變部位的淋巴結(jié)是否含有癌細(xì)胞ln_yesno,建立一個(gè)模型,對(duì)癌變部位的淋巴結(jié)是否含有癌細(xì)胞ln_yesno的情況進(jìn)行預(yù)測(cè)。Analyze->Regression->BinaryLogisticDependent:ln_yesnoCovariates:age,time,pathscat,pathsize,histgrad比較有用的結(jié)果:在VariablesinEquation表中的各變量的系數(shù)(B),可以寫(xiě)出z=-0.86-0.331pathscat+0.415pathsize–0.023age+0.311histgrad。根據(jù)回歸模型公式Prob(event)=1/(1+e-z),就可以計(jì)算一名年齡為60歲、pathsize為1、histgrad為1、pathscat為1的患者,其淋巴結(jié)中發(fā)現(xiàn)癌細(xì)胞的概率為1/(1+e-(-1.845))=0.136(Prob(event)<0.5預(yù)測(cè)事件將不會(huì)發(fā)生,>0.5預(yù)測(cè)事件將會(huì)發(fā)生)4.二項(xiàng)邏輯回歸(BinaryLogistic)實(shí)例實(shí)例第三節(jié)比較分析與類(lèi)型分析一、比較分析的概念二、比較分析的原則與方法三、類(lèi)型分析的概念四、類(lèi)型分析的方法第三節(jié)比較分析與類(lèi)型分析一、比較分析的概念一、比較分析法的概念比較分析法就是通過(guò)對(duì)各種事物或社會(huì)現(xiàn)象的對(duì)比,確定事物的共同點(diǎn)與不同點(diǎn),并進(jìn)一步揭示事物的本質(zhì)區(qū)別的一般分析研究方法。比較分析是人類(lèi)認(rèn)識(shí)自然、社會(huì)及人類(lèi)自身的基本方法。例:結(jié)繩記事一、比較分析法的概念比較分析法就是通過(guò)對(duì)各種事物或社會(huì)現(xiàn)象的二、比較分析的原則和方法(一)比較分析的一般原則1、相比的事物必須具有可比性2、歷史比較與現(xiàn)實(shí)比較相結(jié)合3、求同與求異相結(jié)合4、全面比較與重點(diǎn)比較(現(xiàn)象比較與本質(zhì)比較)相結(jié)合二、比較分析的原則和方法(一)比較分析的一般原則二、比較分析的原則和方法(二)比較分析的方法1.異同比較法2.歷史比較法3.橫向比較法4.主題比較法二、比較分析的原則和方法(二)比較分析的方法民俗社會(huì)與法理社會(huì)的基本差異社會(huì)特征社會(huì)類(lèi)型民俗社會(huì)法理社會(huì)占統(tǒng)治地位的社會(huì)關(guān)系友誼/親屬/鄰里交換/理性分析核心制度家庭法/擴(kuò)大的親屬群國(guó)家/資本主義經(jīng)濟(jì)社會(huì)秩序中的個(gè)人自我個(gè)人財(cái)富的象征土地金錢(qián)法的類(lèi)型家規(guī)契約法秩度的秩序家庭生活/鄉(xiāng)村生活/城鎮(zhèn)生活城市生活/理性生活/全球生活社會(huì)控制的類(lèi)型協(xié)定/風(fēng)俗習(xí)慣/宗教公約/法規(guī)/輿論民俗社會(huì)與法理社會(huì)的基本差異社會(huì)特征社會(huì)類(lèi)型民俗社會(huì)法理社會(huì)傳統(tǒng)家庭與現(xiàn)代家庭的特征傳統(tǒng)家庭現(xiàn)代家庭家庭組織大家族性的組合夫妻的組合家庭規(guī)模擴(kuò)大家庭核心家庭家庭功能多:生產(chǎn)與分配少:消費(fèi)家庭成員之間的責(zé)任關(guān)系混合性的:多而重簡(jiǎn)化性的:少而輕傳統(tǒng)家庭與現(xiàn)代家庭的特征傳統(tǒng)家庭現(xiàn)代家庭家庭組織大家族性的組三、類(lèi)型分析法的概念類(lèi)型分析法就是對(duì)客觀事物進(jìn)行分類(lèi)或者建立類(lèi)型的方法。類(lèi)型比較的主要作用就是將千變?nèi)f化的客觀事物或社會(huì)現(xiàn)象進(jìn)行分類(lèi),但分類(lèi)并不是最終目的,最終的目的是為了進(jìn)一步研究,起到由點(diǎn)及面、由個(gè)別到一般、由局部到整體的作用。同時(shí)還可抽象出事物的本質(zhì)特征。三、類(lèi)型分析法的概念類(lèi)型分析法就是對(duì)客觀事物進(jìn)行分類(lèi)或者建立四、類(lèi)型分析的方法(二)類(lèi)型比較法在社會(huì)研究中,德國(guó)社會(huì)學(xué)家馬克思·韋伯提出了理想類(lèi)型分析方法。所謂理想類(lèi)型分析方法就是從具體獨(dú)特的社會(huì)現(xiàn)象中抽取一些主要性質(zhì),舍棄其他性質(zhì)而建立的類(lèi)型或者典型的社會(huì)比較分析方法。例如馬克思·韋伯的權(quán)力的三種類(lèi)型。文化比較、制度比較或社會(huì)結(jié)構(gòu)比較都屬于類(lèi)型比較。四、類(lèi)型分析的方法(二)類(lèi)型比較法毛澤東:中國(guó)社會(huì)的各階級(jí):地主階級(jí)、買(mǎi)辦階級(jí)、中產(chǎn)階級(jí)、小資產(chǎn)階級(jí)、半無(wú)產(chǎn)階級(jí)、無(wú)產(chǎn)階級(jí)、游民無(wú)產(chǎn)者敵人、朋友、依靠誰(shuí)、團(tuán)結(jié)誰(shuí)、反對(duì)誰(shuí)毛澤東:比較分析法的評(píng)價(jià)比較分析的優(yōu)點(diǎn)在于建立類(lèi)型、區(qū)分異同,為社會(huì)研究的深入進(jìn)行提供基礎(chǔ)比較分析的缺點(diǎn)或局限在于比較只能就部分進(jìn)行,比較無(wú)法說(shuō)明事物的原因及規(guī)律,比較特別是社會(huì)現(xiàn)象之間的比較在很大程度上存在不可比問(wèn)題,即使可比,也未必有用。但是無(wú)論如何,比較分析也是社會(huì)研究的重要方法。比較分析法的評(píng)價(jià)比較分析的優(yōu)點(diǎn)在于建立類(lèi)型、區(qū)分異同,為社會(huì)第四節(jié)因果分析與矛盾分析一、因果分析的概念二、因果分析的方法三、因果分析的評(píng)價(jià)四、矛盾分析的概念五、矛盾分析的方法第四節(jié)因果分析與矛盾分析一、因果分析的概念二、因果分一、因果分析的概念因果分析是指在社會(huì)研究資料過(guò)程中對(duì)事物之間或者事物內(nèi)部的各個(gè)要素之間的具有發(fā)生時(shí)間前后順序的共變關(guān)系的分析方法。1.普通邏輯層次上的因果分析方法2.辨證邏輯層次上的因果分析方法一、因果分析的概念因果分析是指在社會(huì)研究資料過(guò)程中對(duì)事物之間二、因果分析的方法(一)求同法(二)求異法(三)求同求異法(四)共變法(五)剩余法二、因果分析
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 商業(yè)街酒吧裝修工程合同
- 2025年度簽約藝術(shù)家作品推廣合作協(xié)議
- 二零二五年度股權(quán)代持及轉(zhuǎn)讓協(xié)議涉及國(guó)有資產(chǎn)產(chǎn)權(quán)轉(zhuǎn)讓與監(jiān)管
- 2025年度安全無(wú)隱患租房服務(wù)協(xié)議
- 建筑工程居間服務(wù)補(bǔ)充協(xié)議
- 三位數(shù)除以一位數(shù)過(guò)關(guān)考核口算題大全附答案
- 環(huán)山公路工程設(shè)計(jì)合同8篇
- 2025年病房護(hù)理設(shè)備器具合作協(xié)議書(shū)
- 2025年超細(xì)搖粒絨裙子項(xiàng)目投資可行性研究分析報(bào)告-20241226-194140
- 接觸網(wǎng)中級(jí)工模擬練習(xí)題
- 2025書(shū)記員招聘考試題庫(kù)及參考答案
- 2024-2025年第二學(xué)期數(shù)學(xué)教研組工作計(jì)劃
- 2025輔警招聘公安基礎(chǔ)知識(shí)題庫(kù)附含參考答案
- 2025年菏澤醫(yī)學(xué)專(zhuān)科學(xué)校高職單招職業(yè)技能測(cè)試近5年常考版參考題庫(kù)含答案解析
- 成都四川成都簡(jiǎn)陽(yáng)市簡(jiǎn)城街道便民服務(wù)和智慧蓉城運(yùn)行中心招聘綜治巡防隊(duì)員10人筆試歷年參考題庫(kù)附帶答案詳解
- 2025-2030全球廢棄食用油 (UCO) 轉(zhuǎn)化為可持續(xù)航空燃料 (SAF) 的催化劑行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 山東省臨沂市蘭山區(qū)2024-2025學(xué)年七年級(jí)上學(xué)期期末考試生物試卷(含答案)
- 2025年環(huán)衛(wèi)工作計(jì)劃
- 湖北省武漢市2024-2025學(xué)年度高三元月調(diào)考英語(yǔ)試題(含答案無(wú)聽(tīng)力音頻有聽(tīng)力原文)
- 品質(zhì)巡檢培訓(xùn)課件
- 一年級(jí)下冊(cè)勞動(dòng)《變色魚(yú)》課件
評(píng)論
0/150
提交評(píng)論