分析的研究的課件

上傳人：h*** IP屬地：貴州上傳時(shí)間：2022-11-25 格式：PPT 頁(yè)數(shù)：65 大?。?49.77KB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩60頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第五講分析研究資料重點(diǎn)內(nèi)容：統(tǒng)計(jì)分析、因果分析、矛盾分析難點(diǎn)內(nèi)容：推斷統(tǒng)計(jì)與交互分類(lèi)第五講分析研究資料重點(diǎn)內(nèi)容：統(tǒng)計(jì)分析、因果分析、主要內(nèi)容第一節(jié)基本統(tǒng)計(jì)分析第二節(jié)相關(guān)分析與回歸分析第三節(jié)比較分析與類(lèi)型分析第四節(jié)矛盾分析與因果分析主要內(nèi)容第一節(jié)基本統(tǒng)計(jì)分析第一節(jié)基本統(tǒng)計(jì)分析一、頻數(shù)分析二、描述統(tǒng)計(jì)三、探索分析四、交叉表分析五、報(bào)告摘要分析第一節(jié)基本統(tǒng)計(jì)分析一、頻數(shù)分析SPSS統(tǒng)計(jì)分析功能概述有了數(shù)據(jù)，可以利用SPSS的各種分析方法進(jìn)行分析，但選擇何種統(tǒng)計(jì)分析方法，即調(diào)用哪個(gè)統(tǒng)計(jì)分析過(guò)程，是得到正確分析結(jié)果的關(guān)鍵。SPSS有數(shù)字分析和作圖分析兩類(lèi)方法11/25/2022SPSS統(tǒng)計(jì)分析功能概述有了數(shù)據(jù)，可以利用SPSS的各種SPSS數(shù)值分析過(guò)程SPSS數(shù)值統(tǒng)計(jì)分析過(guò)程均在Analyze菜單中，包括：a、基本統(tǒng)計(jì)分析：Reports,DescriptiveStatisticsb、均值比較與檢驗(yàn)：CompareMeansd、方差分析：ANOVAModelsb、相關(guān)分析：Correlatee、回歸分析：Regressionf、聚類(lèi)與判別：Classifyg、因子分析：DataReductionh、非參數(shù)檢驗(yàn)：NonparametricTests等等11/25/2022SPSS數(shù)值分析過(guò)程SPSS數(shù)值統(tǒng)計(jì)分析過(guò)程均在Ana基本統(tǒng)計(jì)分析基本統(tǒng)計(jì)分析是進(jìn)行其他更深入的統(tǒng)計(jì)分析的前提，通過(guò)基本統(tǒng)計(jì)分析，用戶(hù)可以對(duì)分析數(shù)據(jù)的總體特征有比較準(zhǔn)確的把握，從而選擇更為深入的分析方法對(duì)分析對(duì)象進(jìn)行研究。在SPSS的Analyze菜單中包括了一系列統(tǒng)計(jì)分析過(guò)程。其中Reports和DescriptiveStatistics命令項(xiàng)中包括的功能是對(duì)單變量的描述統(tǒng)計(jì)分析。DescriptiveStatistics包括的統(tǒng)計(jì)功能有：Frequencies：頻數(shù)分析Descriptives：描述統(tǒng)計(jì)量分析Explore：探索分析Crosstabs：多維頻數(shù)分布交叉表（列聯(lián)表）Reports包括的統(tǒng)計(jì)功能有：OLAPCubes：OLAP報(bào)告摘要表CaseSummaries：觀測(cè)量列表ReportSummariesinRow：行形式輸出報(bào)告ReportSummariesinColumns：列形式輸出報(bào)告11/25/2022基本統(tǒng)計(jì)分析基本統(tǒng)計(jì)分析是進(jìn)行其他更深入的統(tǒng)計(jì)分析的前提，一、頻數(shù)分析（Frequencies）1、了解變量的取值分布情況對(duì)整體把握數(shù)據(jù)的特征是非常有利的。2、求分類(lèi)（定類(lèi)、定序）變量的頻數(shù)和作Bar圖3、求定距變量(連續(xù)變量)的分布情況和作直方圖Histogram比Descriptives多百分位，在Statistics選項(xiàng)和Format選項(xiàng)）4、對(duì)連續(xù)變量進(jìn)行分組(recode)后再求頻數(shù)，如老中青(35,60)的比例，文化程度(中學(xué)、大學(xué)及以上)的人數(shù)及比例等5、Analyze+DescriptiveStatistics+Frequencies6、例子p105-106：對(duì)1991年美國(guó)社會(huì)研究情況數(shù)據(jù)(data08-01)進(jìn)行統(tǒng)計(jì)處理。分析不同年齡（age變量）和最高受教育年限（educ變量）各水平的頻數(shù)分布情況。11/25/2022一、頻數(shù)分析（Frequencies）1、了解變量的取值分二、描述統(tǒng)計(jì)分析Descriptives1、功能：了解數(shù)據(jù)的基本統(tǒng)計(jì)特征和對(duì)指定的變量值進(jìn)行標(biāo)準(zhǔn)化處理(標(biāo)準(zhǔn)化后的新變量的均值為0，標(biāo)準(zhǔn)差為1，目的是為了消除各變量間變量值在數(shù)量級(jí)上的差異，從而增強(qiáng)數(shù)據(jù)間的可比性)。2、描述統(tǒng)計(jì)分析過(guò)程通過(guò)平均值(Mean)、算術(shù)和(Sum)、標(biāo)準(zhǔn)差(StdDev)、最大值(Maximum)、最小值(Minimum)、方差(Variance)、范圍(Range)、平均數(shù)標(biāo)準(zhǔn)誤(S.E.Mean)等統(tǒng)計(jì)量對(duì)變量進(jìn)行描述。3、一般是求定距變量的描述統(tǒng)計(jì)量，從中分析差異性（max，min）4、Analyze+DescriptiveStatistics+Descriptives5、例子：1985年美國(guó)聯(lián)邦研究局對(duì)50個(gè)州各種犯罪情況研究的數(shù)據(jù)(data08-02)進(jìn)行描述統(tǒng)計(jì)分析50個(gè)州總的情況不同地區(qū)region的情況(2種方法：SplitFile+Descriptives，第8章的Means)11/25/2022二、描述統(tǒng)計(jì)分析Descriptives1、功能：了解數(shù)據(jù)三、探索分析Explore1.考察數(shù)據(jù)的奇異性和分布特征奇異性：數(shù)據(jù)的過(guò)大或過(guò)小（找出、分析原因、是否剔除）分布特征：數(shù)據(jù)是否來(lái)自正態(tài)分布總體考察方法：統(tǒng)計(jì)量和統(tǒng)計(jì)圖形（箱圖、莖葉圖（頻數(shù)、莖和葉）、方差齊次性檢驗(yàn)Spreadvslevel圖）2.一般是考察定距變量3.Analyze+DescriptiveStatistics+Explore因（分析）變量（DependentList）：定距變量分組變量（FactorList）：分類(lèi)變量標(biāo)識(shí)變量(LabelCasesby):為方便查找輸出觀測(cè)量如id4.例子p112：考察銀行數(shù)據(jù)(data08-03)中的不同性別的工資情況11/25/2022三、探索分析Explore1.考察數(shù)據(jù)的奇異性和分布特四、交叉表分析二維或多維交叉頻數(shù)表（列聯(lián)表），分析事物（變量）之間的相互影響和關(guān)系A(chǔ)nalyze+DescriptiveStatistics+Crosstabs行變量（Row）：需分類(lèi)變量列變量（Column）：需分類(lèi)變量分層變量（Layer）：條件（若有，需分類(lèi)變量）Statistics選項(xiàng)：Chi-square復(fù)選項(xiàng)及其四種檢驗(yàn)結(jié)果Correlations復(fù)選項(xiàng)：相關(guān)系數(shù)例子：銀行數(shù)據(jù)(data08-03)中：如求男女的民族分布情況，可得到白種人多，男性多的結(jié)論（注意cell選項(xiàng)，一般選頻數(shù)和百分比），如求每一工種的男女分布情況（人數(shù)）P118：1991年美國(guó)社會(huì)研究情況數(shù)據(jù)(data08-01)：男女對(duì)生活的認(rèn)識(shí)。11/25/2022四、交叉表分析二維或多維交叉頻數(shù)表（列聯(lián)表），分析事物（變1.5OLAP報(bào)告摘要表OLAPCubesOLAP（OnlineAnalyticalProcessing）在線分析處理過(guò)程以分組變量為基礎(chǔ)，計(jì)算各組的總計(jì)、均值和其他統(tǒng)計(jì)量。而輸出的報(bào)告摘要?jiǎng)t是指每個(gè)組中所包含的各種變量的統(tǒng)計(jì)信息。Analyze+Reports+OLAPCubesSummaryVariables：要進(jìn)行統(tǒng)計(jì)匯總的數(shù)值型變量GroupingVariables：分組變量（分類(lèi)變量），注意：此分組變量在實(shí)際的運(yùn)算過(guò)程中并不發(fā)揮分組的功能，而是確定進(jìn)入統(tǒng)計(jì)的觀測(cè)量的范圍。如選擇數(shù)學(xué)成績(jī)作為摘要分析變量，而性別作為分組變量，要計(jì)算數(shù)學(xué)平均成績(jī)，則結(jié)果中顯示的并不是男生的數(shù)學(xué)平均成績(jī)和女生的數(shù)學(xué)平均成績(jī)，而是所有男女生觀測(cè)量的數(shù)學(xué)成績(jī)的總平均值。即所有性別有值（非MissingValue）的Case，才參與分析計(jì)算Statistics選項(xiàng)：Sum和、NumberofCases觀測(cè)量數(shù)目、Mean均值、Median中位數(shù)、Maximum最大…等等例子p122：1991年美國(guó)社會(huì)研究情況數(shù)據(jù)(data08-01)：對(duì)不同種族race的孩子childs和教育educ情況進(jìn)行報(bào)告摘要分析。11/25/20221.5OLAP報(bào)告摘要表OLAPCubesOLAP（On補(bǔ)充：Reports的其他分析過(guò)程Reports的其他分析過(guò)程有：CaseSummaries：觀測(cè)值摘要分析ReportSummariesinRow：行形式輸出報(bào)告ReportSummariesinColumns：列形式輸出報(bào)告11/25/2022補(bǔ)充：Reports的其他分析過(guò)程Reports的其他分析CaseSummaries：觀測(cè)量列表察看或打印所需要的變量值A(chǔ)nalyze+Reports+CaseSummariesVariables：要顯示的變量名GroupingVariables：分組變量（分類(lèi)變量）結(jié)果顯示：多行或單行11/25/2022CaseSummaries：觀測(cè)量列表察看或打印所需要的變行形式輸出報(bào)告Summary按行，如：sum、mean、max、min、count、stddev、variance、percentage(above,below,inside)等菜單：Analyze+Reports+ReportSummariesinRowsDataColumn：報(bào)告變量BreakColumn：分組變量及其Summary(多個(gè)交叉)Report:可對(duì)全部數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì)(GrandTotal)DisplayCases：是否顯示每一個(gè)觀測(cè)量11/25/2022行形式輸出報(bào)告Summary按行，如：sum、mean、m列形式輸出報(bào)告Summary按列，如：sum、mean、max、min、count、stddev、variance、percentage(above,below,inside)等菜單：Analyze+Reports+ReportSummariesinColumnsDataColumn：報(bào)告變量一一對(duì)應(yīng)的SummaryInsertTotal：匯總列，可匯總兩列或多列的信息BreakColumn:分組變量(多個(gè)交叉)及SubtotalReport:可對(duì)全部數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì)(GrandTotal)11/25/2022列形式輸出報(bào)告Summary按列，如：sum、mean、第二節(jié)相關(guān)與回歸分析一、相關(guān)分析的概念和過(guò)程二、兩個(gè)變量間的相關(guān)分析三、偏相關(guān)分析四、距離分析五、回歸分析的概念和模型六、回歸分析的過(guò)程11/25/2022第二節(jié)相關(guān)與回歸分析一、相關(guān)分析的概念和過(guò)程9/24/2一、相關(guān)分析的概念與過(guò)程研究變量間密切程度的一種常用統(tǒng)計(jì)方法1、線性相關(guān)分析：研究?jī)蓚€(gè)變量間線性關(guān)系的程度。用相關(guān)系數(shù)r來(lái)描述。2、偏相關(guān)分析：它描述的是當(dāng)控制了一個(gè)或幾個(gè)另外的變量的影響條件下兩個(gè)變量間的相關(guān)性，如控制年齡和工作經(jīng)驗(yàn)的影響，估計(jì)工資收入與受教育水平之間的相關(guān)關(guān)系3、相似性測(cè)度：兩個(gè)或若干個(gè)變量、兩個(gè)或兩組觀測(cè)量之間的關(guān)系有時(shí)也可以用相似性或不相似性來(lái)描述。相似性測(cè)度用大值表示很相似，而不相似性用距離或不相似性來(lái)描述，大值表示相差甚遠(yuǎn)一、相關(guān)分析的概念與過(guò)程研究變量間密切程度的一種常用統(tǒng)計(jì)方法線性相關(guān)分析研究?jī)蓚€(gè)變量間線性關(guān)系的程度。相關(guān)系數(shù)是描述這種線性關(guān)系程度和方向的統(tǒng)計(jì)量，用r表示。如果變量Y與X間是函數(shù)關(guān)系，則r=1或r=-1;如果變量Y與X間是統(tǒng)計(jì)關(guān)系，則-1<r<1,如果x,y變化的方向一致，如身高與體重的關(guān)系，則稱(chēng)為正相關(guān)，r>0，如果x,y變化的方向相反，如吸煙與肺功能的關(guān)系，則稱(chēng)為負(fù)相關(guān)，r<0；而r=0表示無(wú)線性相關(guān)，一般地，|r|>0.95存在顯著性相關(guān)；|r|0.8高度相關(guān)；0.5|r|<0.8中度相關(guān)；0.3|r|<0.5低度相關(guān)；|r|<0.3關(guān)系極弱，認(rèn)為不相關(guān)線性相關(guān)分析研究?jī)蓚€(gè)變量間線性關(guān)系的程度。相關(guān)系數(shù)是描述這種線性相關(guān)分析（續(xù)）相關(guān)系數(shù)的計(jì)算有三種:Pearson、Spearman和KendallPearson相關(guān)系數(shù)：對(duì)定距變量的數(shù)據(jù)進(jìn)行計(jì)算，公式P207Spearman和Kendall相關(guān)系數(shù)：對(duì)分類(lèi)變量的數(shù)據(jù)或變量值的分布明顯非正態(tài)或分布不明時(shí)，計(jì)算時(shí)先對(duì)離散數(shù)據(jù)進(jìn)行排序或?qū)Χň嘧兞恐蹬牛ㄇ螅┲取９絇208線性相關(guān)分析（續(xù)）相關(guān)系數(shù)的計(jì)算有三種:Pearson、Sp相關(guān)分析的SPSS過(guò)程在Analyze+Correlate下的三個(gè)子菜單：1、Bivariate--相關(guān)分析，計(jì)算指定的兩個(gè)變量間的相關(guān)關(guān)系，可選擇Pearson相關(guān)、Spearman和Kendall相關(guān)；同時(shí)對(duì)相關(guān)系數(shù)進(jìn)行檢驗(yàn)，檢驗(yàn)的零假設(shè)為：相關(guān)系數(shù)為0（不相關(guān)）。給出相關(guān)系數(shù)為0的概率2、Partial--偏相關(guān)分析，計(jì)算兩個(gè)變量間在控制了其他變量的影響下的相關(guān)關(guān)系，對(duì)相關(guān)系數(shù)也進(jìn)行檢驗(yàn)，檢驗(yàn)的零假設(shè)為：相關(guān)系數(shù)為03、Distance--相似性測(cè)度，對(duì)變量或觀測(cè)量進(jìn)行相似性或不相似性測(cè)度11/25/2022相關(guān)分析的SPSS過(guò)程在Analyze+Correlate下二、兩個(gè)變量間的相關(guān)分析兩兩變量間的相關(guān)：包括兩個(gè)連續(xù)變量間的相關(guān)（Pearson相關(guān)）和兩個(gè)等級(jí)（分類(lèi)）變量間的秩相關(guān)（Spearman和Kendall相關(guān)）菜單：Analyze+Correlate+Bivariatea、連續(xù)變量間的相關(guān)：Pearson。P211Data07-03銀行職工的起始工資salbegin和現(xiàn)工資salary與雇員本人各方面條件的關(guān)系（年齡age、工作時(shí)間jobtime、以前工作經(jīng)驗(yàn)prevexp）：比較有用的結(jié)果：Pearson相關(guān)系數(shù)r和其相應(yīng)的顯著性概率Sig(Pearson相關(guān)系數(shù)均很?。?1/25/2022二、兩個(gè)變量間的相關(guān)分析兩兩變量間的相關(guān)：包括兩個(gè)連續(xù)變量二、兩個(gè)變量的相關(guān)分析b、等級(jí)（分類(lèi)）變量間的秩相關(guān)：Spearman和Kendall。P212Data07-03銀行職工的起始工資salbegin和現(xiàn)工資salary與雇員的職務(wù)等級(jí)jobcat、受教育程度educ關(guān)系（比較有用的結(jié)果：Kendall秩相關(guān)系數(shù)r和其相應(yīng)的顯著性概率Sig(Kendall秩相關(guān)系數(shù)均>.5，認(rèn)為中度相關(guān)）P213Data10-02某次全國(guó)武術(shù)女子前10名運(yùn)動(dòng)員長(zhǎng)拳和長(zhǎng)兵器兩項(xiàng)得分?jǐn)?shù)據(jù)，要求分析這兩項(xiàng)得分是否存在線性相關(guān)（比較有用的結(jié)果：秩相關(guān)系數(shù)r和其相應(yīng)的顯著性概率Sig(秩相關(guān)系數(shù)均>.5，認(rèn)為中度相關(guān)）11/25/2022二、兩個(gè)變量的相關(guān)分析b、等級(jí)（分類(lèi)）變量間的秩相關(guān)：Sp三、偏相關(guān)分析的概念線性相關(guān)分析計(jì)算兩個(gè)變量間的相關(guān)關(guān)系,分析兩個(gè)變量間線性關(guān)系的程度。往往因?yàn)榈谌齻€(gè)變量的作用,使相關(guān)系數(shù)不能真正反映兩個(gè)變量間的線性程度。如身高、體重與肺活量之間的關(guān)系。如果使用Pearson相關(guān)計(jì)算其相關(guān)系數(shù),可以得出肺活量與身高和體重均存在較強(qiáng)的線性關(guān)系。但實(shí)際上,如果對(duì)體重相同的人,分析身高和肺活量,是否身高越高,肺活量就越大呢？不是的。原因是身高與體重有線性關(guān)系,體重與肺活量存在線性關(guān)系,因此得出身高和肺活量之間存在著較強(qiáng)的線性關(guān)系的錯(cuò)誤結(jié)論。偏相關(guān)分析的任務(wù)就是在研究?jī)蓚€(gè)變量之間的線性相關(guān)關(guān)系時(shí)控制可能對(duì)其產(chǎn)生影響的變量。分析身高與肺活量之間的相關(guān)性，就要控制體重在相關(guān)分析中的影響。實(shí)際生活中有許多這樣的關(guān)系，如可以控制年齡和工作經(jīng)驗(yàn)兩個(gè)變量的影響，估計(jì)工資收入與受教育程度之間的相關(guān)關(guān)系?？梢栽诳刂屏虽N(xiāo)售能力與各種其他經(jīng)濟(jì)指標(biāo)的情況下，研究銷(xiāo)售量與廣告費(fèi)用之間的關(guān)系等。11/25/2022三、偏相關(guān)分析的概念線性相關(guān)分析計(jì)算兩個(gè)變量間的相關(guān)關(guān)系偏相關(guān)分析的SPSS過(guò)程和實(shí)例菜單：Analyze+Correlate+PartialVariables：分析變量Controllingfor：控制變量實(shí)例P220Data10-03使用四川綿陽(yáng)地區(qū)3年生中山柏的數(shù)據(jù)，分析月生長(zhǎng)量hgrow與月平均氣溫temp、月降雨量rain、月平均日照時(shí)數(shù)hsun、月平均濕度humi這四個(gè)氣候因素的哪個(gè)因素有關(guān)。將月生長(zhǎng)量hgrow作為分析變量，然后分四次，分別將其中的一個(gè)因素作為分析變量，而其他三個(gè)作為控制變量用Pearson相關(guān)系數(shù)結(jié)果P223:中山柏生長(zhǎng)量與氣溫temp關(guān)系最為密切，相關(guān)系數(shù)0.9774，顯著性概率p=0.000；其次是濕度humi，相關(guān)系數(shù)0.7310，顯著性概率p=0.025；日照時(shí)數(shù)hsun，相關(guān)系數(shù)0.6318，顯著性概率p=0.068；與降雨量沒(méi)有線性關(guān)系，降雨量過(guò)大，還會(huì)影響其生長(zhǎng)。11/25/2022偏相關(guān)分析的SPSS過(guò)程和實(shí)例菜單：Analyze+Cor四、距離分析是對(duì)觀測(cè)量之間或變量之間相似或不相似程度的一種測(cè)度，是一種廣義的距離。有關(guān)的統(tǒng)計(jì)量。不相似性測(cè)度：a、對(duì)等間隔(定距)數(shù)據(jù)的不相似性（距離）測(cè)度可以使用的統(tǒng)計(jì)量有Euclid歐氏距離、歐氏距離平方等。b、對(duì)計(jì)數(shù)數(shù)據(jù)使用卡方。c、對(duì)二值（只有兩種取值）數(shù)據(jù)，使用歐氏距離、歐氏距離平方、尺寸差異、模式差異、方差等相似性測(cè)度：a、等間隔數(shù)據(jù)使用統(tǒng)計(jì)量Pearson相關(guān)或余弦。b、測(cè)度二元數(shù)據(jù)的相似性使用的統(tǒng)計(jì)量有20余種。距離分析分為觀測(cè)量之間距離分析和變量之間距離分析。11/25/2022四、距離分析是對(duì)觀測(cè)量之間或變量之間相似或不相似程度的一種距離分析實(shí)例實(shí)例P227Data10-03仍使用四川綿陽(yáng)地區(qū)3年生中山柏的數(shù)據(jù)。菜單：Analyze+Correlate+Distance觀測(cè)量間的距離分析（不相似性測(cè)度，使用歐氏距離），分析月生長(zhǎng)量hgrowVariables分析變量：月生長(zhǎng)量hgrowLabelCaseby：月份MonthComputeDistances：BetweenCaseMeasure：不相似性測(cè)度結(jié)果P228:觀測(cè)量間的歐氏距離（1月與8月的生長(zhǎng)量最不相似，其歐氏距離值為19.290，而1月與2月生長(zhǎng)量不相似性最小，值為0.490）變量間的不相似性Variables分析變量：temp、rain、hsun、humiComputeDistances：BetweenVariablesMeasure：不相似性測(cè)度，歐氏距離，分析變量測(cè)度的單位不同，所以要進(jìn)行標(biāo)準(zhǔn)化，TransformValues：ByVariable，ZScore結(jié)果P229:變量間的歐氏距離矩陣（不相似矩陣）還可以重新進(jìn)行相似性分析，得Pearson相關(guān)系數(shù)矩陣，然后跟歐氏距離矩陣相比較。11/25/2022距離分析實(shí)例實(shí)例P227Data10-03仍使用四川綿陽(yáng)五、回歸分析的概念與模型尋求有關(guān)聯(lián)（相關(guān)）的變量之間的關(guān)系主要內(nèi)容：從一組樣本數(shù)據(jù)出發(fā)，確定這些變量間的定量關(guān)系式對(duì)這些關(guān)系式的可信度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn)從影響某一變量的諸多變量中，判斷哪些變量的影響顯著，哪些不顯著利用求得的關(guān)系式進(jìn)行預(yù)測(cè)和控制五、回歸分析的概念與模型尋求有關(guān)聯(lián)（相關(guān)）的變量之間的關(guān)系回歸分析的模型按是否線性分：線性回歸模型和非線性回歸模型按自變量個(gè)數(shù)分：簡(jiǎn)單的一元回歸，多元回歸基本的步驟：利用SPSS得到模型關(guān)系式，是否是我們所要的，要看回歸方程的顯著性檢驗(yàn)（F檢驗(yàn)）和回歸系數(shù)b的顯著性檢驗(yàn)(T檢驗(yàn))，還要看擬合程度R2(相關(guān)系數(shù)的平方,一元回歸用RSquare，多元回歸用AdjustedRSquare)回歸分析的模型按是否線性分：線性回歸模型和非線性回歸模型六、回歸分析的過(guò)程在回歸過(guò)程中包括：Liner：線性回歸CurveEstimation：曲線估計(jì)BinaryLogistic：二分變量邏輯回歸MultinomialLogistic：多分變量邏輯回歸Ordinal序回歸Probit：概率單位回歸Nonlinear：非線性回歸WeightEstimation：加權(quán)估計(jì)2-StageLeastsquares：二段最小平方法OptimalScaling最優(yōu)編碼回歸我們只講前面3個(gè)簡(jiǎn)單的（一般教科書(shū)的講法）六、回歸分析的過(guò)程在回歸過(guò)程中包括：1.線性回歸(Liner)一元線性回歸方程:y=a+bxa稱(chēng)為截距b為回歸直線的斜率用R2判定系數(shù)判定一個(gè)線性回歸直線的擬合程度：用來(lái)說(shuō)明用自變量解釋因變量變異的程度（所占比例）多元線性回歸方程:y=b0+b1x1+b2x2+…+bnxnb0為常數(shù)項(xiàng)b1、b2、…、bn稱(chēng)為y對(duì)應(yīng)于x1、x2、…、xn的偏回歸系數(shù)用AdjustedR2調(diào)整判定系數(shù)判定一個(gè)多元線性回歸方程的擬合程度：用來(lái)說(shuō)明用自變量解釋因變量變異的程度（所占比例）一元線性回歸模型的確定:一般先做散點(diǎn)圖(Graphs->Scatter->Simple),以便進(jìn)行簡(jiǎn)單地觀測(cè)（如：Salary與Salbegin的關(guān)系)若散點(diǎn)圖的趨勢(shì)大概呈線性關(guān)系，可以建立線性方程，若不呈線性分布，可建立其它方程模型，并比較R2(-->1)來(lái)確定一種最佳方程式（曲線估計(jì)）多元線性回歸一般采用逐步回歸方法-Stepwise

1.線性回歸(Liner)一元線性回歸方程:y=a+bx逐步回歸方法的基本思想對(duì)全部的自變量x1,x2,...,xp,按它們對(duì)Y貢獻(xiàn)的大小進(jìn)行比較，并通過(guò)F檢驗(yàn)法，選擇偏回歸平方和顯著的變量進(jìn)入回歸方程，每一步只引入一個(gè)變量，同時(shí)建立一個(gè)偏回歸方程。當(dāng)一個(gè)變量被引入后，對(duì)原已引入回歸方程的變量，逐個(gè)檢驗(yàn)他們的偏回歸平方和。如果由于引入新的變量而使得已進(jìn)入方程的變量變?yōu)椴伙@著時(shí)，則及時(shí)從偏回歸方程中剔除。在引入了兩個(gè)自變量以后，便開(kāi)始考慮是否有需要剔除的變量。只有當(dāng)回歸方程中的所有自變量對(duì)Y都有顯著影響而不需要剔除時(shí)，在考慮從未選入方程的自變量中，挑選對(duì)Y有顯著影響的新的變量進(jìn)入方程。不論引入還是剔除一個(gè)變量都稱(chēng)為一步。不斷重復(fù)這一過(guò)程，直至無(wú)法剔除已引入的變量，也無(wú)法再引入新的自變量時(shí)，逐步回歸過(guò)程結(jié)束。逐步回歸方法的基本思想對(duì)全部的自變量x1,x2,...,xp2.線性回歸分析實(shí)例實(shí)例：P240Data07-03建立一個(gè)以初始工資Salbegin、工作經(jīng)驗(yàn)prevexp、工作時(shí)間jobtime、工作種類(lèi)jobcat、受教育年限edcu等為自變量，當(dāng)前工資Salary為因變量的回歸模型。先做數(shù)據(jù)散點(diǎn)圖,觀測(cè)因變量Salary與自變量Salbegin之間關(guān)系是否有線性特點(diǎn)Graphs->Scatter->SimpleXAxis：SalbeginYAxis：Salary若散點(diǎn)圖的趨勢(shì)大概呈線性關(guān)系，可以建立線性回歸模型Analyze->Regression->LinearDependent:SalaryIndependents:Salbegin,prevexp,jobtime,jobcat,edcu等變量Method:Stepwise比較有用的結(jié)果：擬合程度AdjustedR2：越接近1擬合程度越好回歸方程的顯著性檢驗(yàn)Sig回歸系數(shù)表Coefficients的Model最后一個(gè)中的回歸系數(shù)B和顯著性檢驗(yàn)Sig得模型：Salary=-15038.6+1.37Salbegin+5859.59jobcat-19.55prevexp+154.698jobtime+539.64edcu2.線性回歸分析實(shí)例實(shí)例：P240Data07-03建立3.曲線估計(jì)(CurveEstimation)對(duì)于一元回歸，若散點(diǎn)圖的趨勢(shì)不呈線性分布，可以利用曲線估計(jì)方便地進(jìn)行線性擬合(liner)、二次擬合(Quadratic)、三次擬合(Cubic)等。采用哪種擬合方式主要取決于各種擬合模型對(duì)數(shù)據(jù)的充分描述(看修正AdjustedR2-->1)不同模型的表示模型名稱(chēng)回歸方程相應(yīng)的線性回歸方程Linear(線性)Y=b0+b1tQuadratic(二次)Y=b0+b1t+b2t2Compound(復(fù)合)Y=b0(b1t)Ln(Y)=ln(b0)+ln(b1)tGrowth(生長(zhǎng))Y=eb0+b1tLn(Y)=b0+b1tLogarithmic(對(duì)數(shù))Y=b0+b1ln(t)Cubic(三次)Y=b0+b1t+b2t2+b3t3SY=eb0+b1/tLn(Y)=b0+b1/

tExponential(指數(shù))Y=b0*

eb1*tLn(Y)=ln(b0)+b1tInverse(逆)Y=b0+b1/tPower(冪)Y=b0(tb1)Ln(Y)=ln(b0)+b1ln(t)Logistic(邏輯)Y=1/(1/u+b0b1t)Ln(1/Y-1/u)=ln(b0+ln(b1)t)3.曲線估計(jì)(CurveEstimation)對(duì)于一元曲線估計(jì)(CurveEstimation)分析實(shí)例實(shí)例P247Data11-01：有關(guān)汽車(chē)數(shù)據(jù)，看mpg(每加侖汽油行駛里程)與weight(車(chē)重)的關(guān)系先做散點(diǎn)圖(Graphs->Scatter->Simple)：weight(X)、mpg(Y)，看每加侖汽油行駛里程數(shù)mpg(Y)隨著汽車(chē)自重weight(X)的增加而減少的關(guān)系，也發(fā)現(xiàn)是曲線關(guān)系建立若干曲線模型（可試著選用所有模型Models)Analyze->Regression->CurveEstimationDependent:mpgIndependent:weightModels:全選(除了最后一個(gè)邏輯回歸)選Plotmodels：輸出模型圖形比較有用的結(jié)果：各種模型的AdjustedR2，并比較哪個(gè)大，結(jié)果是指數(shù)模型Compound的AdjustedR2=0.70678最好（擬合情況可見(jiàn)圖形窗口）,結(jié)果方程為：mpg=60.15*0.999664weight說(shuō)明：Growth和Exponential的結(jié)果也相同，也一樣。曲線估計(jì)(CurveEstimation)分析實(shí)例實(shí)例P3.二項(xiàng)邏輯回歸(BinaryLogistic)在現(xiàn)實(shí)中，經(jīng)常需要判斷一些事情是否將要發(fā)生，候選人是否會(huì)當(dāng)選？為什么一些人易患冠心?。繛槭裁匆恍┤说纳鈺?huì)獲得成功？此問(wèn)題的特點(diǎn)是因變量只有兩個(gè)值，不發(fā)生(0)和發(fā)生(1)。這就要求建立的模型必須因變量的取值范圍在0～1之間。Logistic回歸模型Logistic模型：在邏輯回歸中，可以直接預(yù)測(cè)觀測(cè)量相對(duì)于某一事件的發(fā)生概率。包含一個(gè)自變量的回歸模型和多個(gè)自變量的回歸模型公式：其中：z=B0+B1X1+…BpXp(P為自變量個(gè)數(shù)）。某一事件不發(fā)生的概率為Prob(noevent)＝1-Prob(event)。因此最主要的是求B0,B1,…Bp(常數(shù)和系數(shù))數(shù)據(jù)要求：因變量應(yīng)具有二分特點(diǎn)。自變量可以是分類(lèi)變量和定距變量。如果自變量是分類(lèi)變量應(yīng)為二分變量或被重新編碼為指示變量。指示變量有兩種編碼方式。回歸系數(shù)：幾率和概率的區(qū)別。幾率=發(fā)生的概率/不發(fā)生的概率。如從52張橋牌中抽出一張A的幾率為(4/52)/(48/52)=1/12，而其概率值為4/52=1/13根據(jù)回歸系數(shù)表，可以寫(xiě)出回歸模型公式中的z。然后根據(jù)回歸模型公式Prob(event)進(jìn)行預(yù)測(cè)。3.二項(xiàng)邏輯回歸(BinaryLogistic)在現(xiàn)實(shí)中4.二項(xiàng)邏輯回歸(BinaryLogistic)實(shí)例實(shí)例P255Data11-02：乳腺癌患者的數(shù)據(jù)進(jìn)行分析，變量為：年齡age,患病時(shí)間time,腫瘤擴(kuò)散等級(jí)pathscat（3種）,腫瘤大小pathsize,腫瘤史histgrad（3種）和癌變部位的淋巴結(jié)是否含有癌細(xì)胞ln_yesno，建立一個(gè)模型，對(duì)癌變部位的淋巴結(jié)是否含有癌細(xì)胞ln_yesno的情況進(jìn)行預(yù)測(cè)。Analyze->Regression->BinaryLogisticDependent:ln_yesnoCovariates:age,time,pathscat,pathsize,histgrad比較有用的結(jié)果：在VariablesinEquation表中的各變量的系數(shù)（B），可以寫(xiě)出z=-0.86-0.331pathscat+0.415pathsize–0.023age+0.311histgrad。根據(jù)回歸模型公式Prob(event)=1/(1+e-z)，就可以計(jì)算一名年齡為60歲、pathsize為1、histgrad為1、pathscat為1的患者，其淋巴結(jié)中發(fā)現(xiàn)癌細(xì)胞的概率為1/(1+e-(-1.845))=0.136(Prob(event)<0.5預(yù)測(cè)事件將不會(huì)發(fā)生，>0.5預(yù)測(cè)事件將會(huì)發(fā)生）4.二項(xiàng)邏輯回歸(BinaryLogistic)實(shí)例實(shí)例第三節(jié)比較分析與類(lèi)型分析一、比較分析的概念二、比較分析的原則與方法三、類(lèi)型分析的概念四、類(lèi)型分析的方法第三節(jié)比較分析與類(lèi)型分析一、比較分析的概念一、比較分析法的概念比較分析法就是通過(guò)對(duì)各種事物或社會(huì)現(xiàn)象的對(duì)比，確定事物的共同點(diǎn)與不同點(diǎn)，并進(jìn)一步揭示事物的本質(zhì)區(qū)別的一般分析研究方法。比較分析是人類(lèi)認(rèn)識(shí)自然、社會(huì)及人類(lèi)自身的基本方法。例：結(jié)繩記事一、比較分析法的概念比較分析法就是通過(guò)對(duì)各種事物或社會(huì)現(xiàn)象的二、比較分析的原則和方法（一）比較分析的一般原則1、相比的事物必須具有可比性2、歷史比較與現(xiàn)實(shí)比較相結(jié)合3、求同與求異相結(jié)合4、全面比較與重點(diǎn)比較（現(xiàn)象比較與本質(zhì)比較）相結(jié)合二、比較分析的原則和方法（一）比較分析的一般原則二、比較分析的原則和方法（二）比較分析的方法1.異同比較法2.歷史比較法3.橫向比較法4.主題比較法二、比較分析的原則和方法（二）比較分析的方法民俗社會(huì)與法理社會(huì)的基本差異社會(huì)特征社會(huì)類(lèi)型民俗社會(huì)法理社會(huì)占統(tǒng)治地位的社會(huì)關(guān)系友誼/親屬/鄰里交換/理性分析核心制度家庭法/擴(kuò)大的親屬群國(guó)家/資本主義經(jīng)濟(jì)社會(huì)秩序中的個(gè)人自我個(gè)人財(cái)富的象征土地金錢(qián)法的類(lèi)型家規(guī)契約法秩度的秩序家庭生活/鄉(xiāng)村生活/城鎮(zhèn)生活城市生活/理性生活/全球生活社會(huì)控制的類(lèi)型協(xié)定/風(fēng)俗習(xí)慣/宗教公約/法規(guī)/輿論民俗社會(huì)與法理社會(huì)的基本差異社會(huì)特征社會(huì)類(lèi)型民俗社會(huì)法理社會(huì)傳統(tǒng)家庭與現(xiàn)代家庭的特征傳統(tǒng)家庭現(xiàn)代家庭家庭組織大家族性的組合夫妻的組合家庭規(guī)模擴(kuò)大家庭核心家庭家庭功能多:生產(chǎn)與分配少:消費(fèi)家庭成員之間的責(zé)任關(guān)系混合性的:多而重簡(jiǎn)化性的:少而輕傳統(tǒng)家庭與現(xiàn)代家庭的特征傳統(tǒng)家庭現(xiàn)代家庭家庭組織大家族性的組三、類(lèi)型分析法的概念類(lèi)型分析法就是對(duì)客觀事物進(jìn)行分類(lèi)或者建立類(lèi)型的方法。類(lèi)型比較的主要作用就是將千變?nèi)f化的客觀事物或社會(huì)現(xiàn)象進(jìn)行分類(lèi)，但分類(lèi)并不是最終目的，最終的目的是為了進(jìn)一步研究，起到由點(diǎn)及面、由個(gè)別到一般、由局部到整體的作用。同時(shí)還可抽象出事物的本質(zhì)特征。三、類(lèi)型分析法的概念類(lèi)型分析法就是對(duì)客觀事物進(jìn)行分類(lèi)或者建立四、類(lèi)型分析的方法(二)類(lèi)型比較法在社會(huì)研究中，德國(guó)社會(huì)學(xué)家馬克思·韋伯提出了理想類(lèi)型分析方法。所謂理想類(lèi)型分析方法就是從具體獨(dú)特的社會(huì)現(xiàn)象中抽取一些主要性質(zhì)，舍棄其他性質(zhì)而建立的類(lèi)型或者典型的社會(huì)比較分析方法。例如馬克思·韋伯的權(quán)力的三種類(lèi)型。文化比較、制度比較或社會(huì)結(jié)構(gòu)比較都屬于類(lèi)型比較。四、類(lèi)型分析的方法(二)類(lèi)型比較法毛澤東：中國(guó)社會(huì)的各階級(jí)：地主階級(jí)、買(mǎi)辦階級(jí)、中產(chǎn)階級(jí)、小資產(chǎn)階級(jí)、半無(wú)產(chǎn)階級(jí)、無(wú)產(chǎn)階級(jí)、游民無(wú)產(chǎn)者敵人、朋友、依靠誰(shuí)、團(tuán)結(jié)誰(shuí)、反對(duì)誰(shuí)毛澤東：比較分析法的評(píng)價(jià)比較分析的優(yōu)點(diǎn)在于建立類(lèi)型、區(qū)分異同，為社會(huì)研究的深入進(jìn)行提供基礎(chǔ)比較分析的缺點(diǎn)或局限在于比較只能就部分進(jìn)行，比較無(wú)法說(shuō)明事物的原因及規(guī)律，比較特別是社會(huì)現(xiàn)象之間的比較在很大程度上存在不可比問(wèn)題，即使可比，也未必有用。但是無(wú)論如何，比較分析也是社會(huì)研究的重要方法。比較分析法的評(píng)價(jià)比較分析的優(yōu)點(diǎn)在于建立類(lèi)型、區(qū)分異同，為社會(huì)第四節(jié)因果分析與矛盾分析一、因果分析的概念二、因果分析的方法三、因果分析的評(píng)價(jià)四、矛盾分析的概念五、矛盾分析的方法第四節(jié)因果分析與矛盾分析一、因果分析的概念二、因果分一、因果分析的概念因果分析是指在社會(huì)研究資料過(guò)程中對(duì)事物之間或者事物內(nèi)部的各個(gè)要素之間的具有發(fā)生時(shí)間前后順序的共變關(guān)系的分析方法。1.普通邏輯層次上的因果分析方法2.辨證邏輯層次上的因果分析方法一、因果分析的概念因果分析是指在社會(huì)研究資料過(guò)程中對(duì)事物之間二、因果分析的方法（一）求同法（二）求異法（三）求同求異法（四）共變法（五）剩余法二、因果分析

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

分析的研究的課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

分析的研究的課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔