社會統(tǒng)計學與SPSS應用_第1頁
社會統(tǒng)計學與SPSS應用_第2頁
社會統(tǒng)計學與SPSS應用_第3頁
社會統(tǒng)計學與SPSS應用_第4頁
社會統(tǒng)計學與SPSS應用_第5頁
已閱讀5頁,還剩388頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

主講人:石偉Email:shiwei@社會統(tǒng)計學&SPSS應用除了上帝,任何人都必須用數(shù)據(jù)來說話。

——美國諺語統(tǒng)計的思維方法,就像讀和寫的能力一樣,有一天會成為效率公民的必備能力。

——英國學者威爾斯我在課堂上曾一再對戲劇理論專業(yè)的學生說,與其玩弄幾個空泛的理論概念,不如認真做一點觀眾調(diào)查。理論探討應該面對著一批切實可行的調(diào)查數(shù)據(jù)進行?!@些調(diào)查所得的數(shù)據(jù)即使很粗糙、很不準確,總比脫離實際的詞匯之爭有意思得多。觀眾的反應當然并非藝術(shù)的準繩,因此又需要對調(diào)查結(jié)果進行理性處理,理論家的思辯能力仍然大有用武之地。十六世紀后期的丹麥天文學家第谷(TychoBrahe)觀察天象三十年積累了大量的天文資料,他的助手開普勒(JohannesKepler)運用數(shù)學方法對這一大堆資料進行理論處理,終于發(fā)現(xiàn)了行星運動三定律。我們目前對劇場里的觀眾反應進行調(diào)查,也不僅僅為了票房的盈虧和劇目的輪換,而是面向著審美心理規(guī)律的透徹揭示,就像開普勒那樣。

——余秋雨:《戲劇審美心理學》第一章緒論一、什么是統(tǒng)計學統(tǒng)計學是一門研究如何搜集、整理、分析和展示數(shù)據(jù)的方法科學,其目的是探索數(shù)據(jù)的內(nèi)在規(guī)律性,以達到對客觀事物的科學認識。數(shù)據(jù)搜集:例如,調(diào)查與實驗等數(shù)據(jù)整理:例如,分組、排序等數(shù)據(jù)分析:例如,平均數(shù)、標準差、t檢驗、方差分析、回歸分析等數(shù)據(jù)展示:例如,圖和表等二、什么是社會統(tǒng)計學三、社會統(tǒng)計學的作用描述統(tǒng)計(descriptivestatistics):通過對搜集到的數(shù)據(jù)的整理與分析,以表、圖和各種代表量的形式來描述數(shù)據(jù)的特征,找出數(shù)據(jù)的基本規(guī)律。推斷統(tǒng)計(inferentialstatistics):通過對樣本數(shù)據(jù)的統(tǒng)計分析,在一定可靠程度上推測相應的總體的數(shù)據(jù)特征及規(guī)律。四、SPSS簡介及數(shù)據(jù)編碼錄入簡介StatisticalPackageforSocialScienceStatisticalProgramforSocialScienceStatisticalProduct&ServiceSolutionsPredictiveAnalyticsSoftware(PASW,2009)IBMSPSSStatistics19http:///http:////forum-65-1.html金融行業(yè)

電信行業(yè)

政府行業(yè)

教育行業(yè)……

客戶分析

市場細分

市場調(diào)查

市場預測

新產(chǎn)品開發(fā)

滿意度調(diào)查

信用度分析……數(shù)據(jù)錄入問題1:您認為打工的外地人對重慶市的社會秩序是否有影響?(單選)1□有很大影響2□有較大影響3□沒有影響4□不好說4編碼答案問題2:您有幾個兒子?幾個女兒?

1□兒子_______人

2□女兒________人23問題變量1變量2變量1的值變量2的值23100011外部式錄入內(nèi)部式錄入采用文本文件(*.dat;*.txt)。這種錄入方式的特點是,數(shù)據(jù)之間沒有間隔,錄完一個數(shù)碼后自動后移,錄入速度較快。缺點是容易錯位。采用SPSS數(shù)據(jù)編輯器(SPSSDataEditor)錄入。其優(yōu)點是不容易錯位,缺點是不能自動后移,錄入速度慢,數(shù)據(jù)錯誤不容易修改。例題:某系甲、乙兩班同學的性別及統(tǒng)計成績?nèi)缦拢篒D性別班級分數(shù)ID性別班級分數(shù)1女甲班8612男乙班812男甲班8213女乙班773男甲班7414男乙班634男甲班8515男乙班755女甲班7616女乙班696男甲班7917男乙班867男甲班8218男乙班818男甲班8319女乙班609女甲班8320女乙班6910男甲班7921女乙班7311男甲班8222女乙班89測量水平定類水平定序水平定距水平定比水平五、數(shù)據(jù)的測量水平定類水平(nominallevel)計量層次最低對事物進行平行的分類各類別可以指定數(shù)字代碼表示使用時必須符合類別窮盡和互斥的要求數(shù)據(jù)表現(xiàn)為“類別”具有=或≠的數(shù)學特性定序水平(ordinallevel)對事物分類的同時給出各類別的順序,數(shù)據(jù)表現(xiàn)為有序的類別。比定類水平精確不能測量出類別之間的準確差值具有>或<的數(shù)學特性定距水平(intervallevel)具有定類水平和定序水平的性質(zhì)數(shù)據(jù)直接表現(xiàn)為“數(shù)值”,不用賦值具有+或-的數(shù)學特性可以轉(zhuǎn)變?yōu)槎ㄐ虺叨群投惓叨缺榷ㄐ虺叨染_沒有絕對零點定比水平(ratiolevel)有絕對零點具有定距水平的性質(zhì)具有×或÷的數(shù)學特性四種計量尺度的比較第二章單變量描述統(tǒng)計分布、統(tǒng)計表、統(tǒng)計圖集中趨勢測量法離散趨勢測量法第一節(jié)分布、統(tǒng)計表、統(tǒng)計圖一、分布(distribution)的概念一個變量的各個取值出現(xiàn)的次數(shù)或頻次,又叫頻次分布。例:家庭結(jié)構(gòu)(X)為,可取3個值:

X1——核心家庭

X2——直系家庭

X3——聯(lián)合家庭于是有:

(X1,n1) (X2,n2) (X3,n3)分布的一般形式:當n表示頻次時,以上變量值頻次對的集合稱作頻次分布。當n表示百分比時,以上變量值百分比對的集合稱作百分比分布,又稱頻率或相對頻次分布。當n表示概率時,以上變量值概率對的集合稱作概率分布。二、統(tǒng)計表

以表格的形式來表示變量的分布。(一)定類變量注意事項:百分比統(tǒng)計表必須注明統(tǒng)計總數(shù)。統(tǒng)計表的組成要素:表號、表頭(標題等)、標識行、主體行、表尾(資料來源等)。滿足互斥性要求百分比總和可以為100.1%或99.9%,若要保證為100%,則改變頻次最多項的數(shù)字。(二)定序變量 定序變量的統(tǒng)計表的內(nèi)容、制作方法與定類變量相同,不同的是定序變量的取值需按順序排列。(三)定距、定比變量 離散型變量(如家庭人數(shù)等) 連續(xù)型變量(如身高等)對于變量值較少的離散型變量,其制表方法同定序變量的制表方法。例:某生產(chǎn)車間50名工人日加工零件數(shù)(單位:個)如下,試做頻數(shù)分布表。對于連續(xù)型變量或變量值較多的離散型變量,分組計算頻次。組距:每組的上限與下限之差。對于等組距分組,其計算公式為:i=全距/組數(shù)組限:每組的起止范圍。每組的最低值為下限,最高值為上限。例:下表是100個同齡兒童的身高數(shù)據(jù),試作頻次分布統(tǒng)計表。練習例:某生產(chǎn)車間50名工人日加工零件數(shù)(單位:個)如下,試做分組(7組)頻數(shù)分布表。三、統(tǒng)計圖 以圖形的形式來表示變量的分布。

1.定類、定序變量:Pie圖(餅圖)、bar圖(條形圖)Pie圖的SPSS演示bar圖的SPSS演示練習評價下面的統(tǒng)計表是否有誤,為什么?根據(jù)以下統(tǒng)計資料2.定距、定比變量:histogram(直方圖),line(線圖)直方圖:以一組無間隔的直條表現(xiàn)頻數(shù)分布特征的統(tǒng)計圖。直方圖的每一條形高度分別代表相應組別的頻數(shù)。對于等距分組,用頻次作為條形高度;對于非等距分組,用頻次密度作為條形的相對高度。頻次密度=頻次/組距四、表和圖的累積表示 累積表或累積圖表示的是大于某個變量值的頻次(或頻率)一共是多少或小于某個變量值的頻次(或頻率)一共是多少。向上累積(cf↑或c%↑):是指位于某一變量值“以上”的頻次或頻率的總和。向下累積(cf↓或c%↓):是指位于某一變量值“以下”的頻次或頻率的總和。第二節(jié)集中趨勢測量法一、集中趨勢測量法(measuresofcentraltendency)用一個具有某種典型特征的數(shù)值來代表變量,這樣的特征值就叫做集中值或集中趨勢,對這樣的數(shù)值的求取就叫做集中趨勢測量。二、集中趨勢的類型眾值(mode)中位值(median)均值(mean)(一)眾值Mo1.眾值的概念

眾值指頻次分布中最大頻次所對應的變量值。(1)定類、定序變量Mo=x2(2)定距、定比變量原始數(shù)據(jù)。例:成績分組數(shù)據(jù)(連續(xù)型數(shù)據(jù)):眾值為具有最高頻次或頻次密度的那一組的組中值bi。例:無眾值。2.眾值的意義眾值的代表性在于其估計或預測每一個研究對象(個案)的值所犯錯誤總數(shù)是最小的。3.眾值的適用范圍適合于任何層次的變量,特別是定類變量。適合于單峰對稱分布,不適合于多峰分布(眾值不唯一)。(二)中位值Md1.中位值的概念中位值是指位于一組數(shù)據(jù)數(shù)列中間位置的那個值。數(shù)據(jù)數(shù)列——數(shù)據(jù)依序排列。中間位置——大于等于中位值的數(shù)據(jù)個數(shù)= 小于等于中位數(shù)的數(shù)據(jù)個數(shù)。(1)原始數(shù)據(jù)當觀察總數(shù)N為奇數(shù)時,Md為位于(N+1)/2的那個值。當觀察總數(shù)N為偶數(shù)時,Md取居中位置左右兩數(shù)的平均值。(2)頻次分布數(shù)據(jù)2.中位值的意義對于含有極端數(shù)據(jù)的一組數(shù)據(jù),中位值更具有代表性。例:收入3.中位值的適用范圍定序變量及其以上。例:成績

(三)均值M或1.均值的概念2.均值的意義以均值來估計定距或定比數(shù)據(jù)中個案的數(shù)值,錯誤最小。3.均值的適用范圍適用于定距和定比變量。4.均值的數(shù)學性質(zhì)(1)各變量值與均值的離差之和等于零。(2)各變量值與均值的離差平方和最小。(四)眾值、中位值和均值的比較三值設(shè)計的目的都是希望通過一個數(shù)值來描述一個變量的整體特征,以便簡化資料。它們都反映了變量的集中趨勢。

Scale/MeasurementModeMedianMeanNorminalOrdinalInternal/Ratio★★★★★★均值受極端值的變化影響,而中位值則不受影響。

練習以下是甲、乙兩村9戶家庭人口數(shù)的原始數(shù)據(jù):甲村:3;3;4;4;4;5;6;7;8乙村:3;3;4;4;4;4;5;5;5(1)計算兩村家庭人口數(shù)的眾值、中位值和均值。(2)對三種集中值作出討論。以下是68名職工婚姻狀況的調(diào)查:(1)試作統(tǒng)計表和統(tǒng)計圖。(2)選擇適當?shù)募兄挡⒂懻撝?。以下是某廠職工教育程度的調(diào)查:(1)試作統(tǒng)計表和統(tǒng)計圖。(2)選擇適當?shù)募兄挡⒂懻撝?。設(shè)以下是某區(qū)家庭子女數(shù)的統(tǒng)計表:(1)試作頻率統(tǒng)計表、直方圖和線圖。(2)試求均值。設(shè)以下是72名離婚者婚齡的統(tǒng)計。(1)試作頻率統(tǒng)計表、直方圖和線圖。(2)試求眾值、中位值和均值,并簡單討論之。指出下面的統(tǒng)計表存在的問題,并畫一個完整的頻次和頻率統(tǒng)計表,在表中把真實組限、組距和組中值都列上。某廠工人的月收入分布1501~19004013011300158901~1100136701~90065501~70010某制鞋廠家為了制定生產(chǎn)計劃,調(diào)查了100個成年女性穿鞋的尺寸,數(shù)據(jù)如下:尺寸21.52222.52323.52424.52525.526人數(shù)361018181510631(1)求這個數(shù)據(jù)集的平均數(shù)、中位數(shù)和眾數(shù);(2)對這個數(shù)據(jù)集,用什么指標作為數(shù)據(jù)集中趨勢的度量比較合適?某市40個百貨公司12月份的銷售額資料如下(單位:萬元):試根據(jù)以上資料編制第一組為50萬元~60萬元的等距數(shù)列,并計算出頻率和累積頻次。一項研究調(diào)查了19名中學教師,他們的月經(jīng)濟收入如下:

1200,1270,1300,1310,1320,1350,1360,1370,1390,1400,1450,1460,1490,1530,1580,1600,3200,4000。現(xiàn)欲了解他們的平均月經(jīng)濟收入。下表是39名學生的總評:隨機抽取18名同學對西大進行5點量表的評價(1為非常不滿意;2為不滿意;3為一般;4為滿意;5為非常滿意),結(jié)果如下:

1,1,1,2,2,2,2,2,2,3,3,3,4,4,4,4,5,5(1)試作頻次分布、頻率分布、向上累積頻次、向上累積頻率、向下累積頻次、向下累積頻率表。(2)求中位值;(3)說明中位值的意義。下面是某班20名學生的某心理特征的得分,請描述這班學生在此心理特征上的數(shù)量特征。

12,10,8,9,6,6,23,15,17,5,14,13,7,6,8,19,16,15,13,12

若你是某大公司的人力資源部的經(jīng)理,公司老板要求你確定公司產(chǎn)品開發(fā)工程師的薪酬標準。(1)你該如何著手開展工作?(2)若你通過調(diào)查獲得了如下數(shù)據(jù),那你確定的薪酬標準是什么?A公司年總收入B公司年總收入C公司年總收入助理工程師53000助理工程師51000助理工程師55000助理工程師52000助理工程師52000助理工程師54000助理工程師54000工程師59000助理工程師53000工程師61000工程師61000工程師64000工程師60000高工65000高工70000高工65000高工64000高工71000作業(yè)以下題目請用SPSS完成。我們在某高校采訪了16名大學生,了解他們平時的學習情況,以下數(shù)據(jù)是大學生每周用于看電視的時間:

15,14,12,9,20,4,17,26,15,18,6,10,16,15,5,8。試計算這批數(shù)據(jù)的均值、中位值、眾值、全距、四分位差、方差和標準差??蛻粼阢y行的等待服務時間是反映銀行服務質(zhì)量的一項重要指標,以下是一份來自某調(diào)查公司的調(diào)查資料:等待時間人數(shù)不超過2分鐘7超過2分鐘但不超過4分鐘15超過4分鐘但不超過6分鐘8超過6分鐘但不超過8分鐘3超過8分鐘但不超過10分鐘1以下是某班參加業(yè)余活動情況的調(diào)查:C=“書社”;P=“攝影組”;J=“舞蹈團”;O=“體育組”。(1)試作統(tǒng)計表和統(tǒng)計圖;(2)選擇適當?shù)募兄岛碗x散值,并討論之。第三節(jié)離散趨勢測量法A:7,7,8,8,8,9,9Md=8;=8;R=Max-Min=2B:4,5,7,8,9,11,12Md=8;=8;R=Max-Min=8C:1,4,7,8,9,12,15Md=8;=8;R=Max-Min=14這三組數(shù)據(jù)的均值、中位值都是8,但它們的整齊程度卻不一樣一、離散趨勢測量法(measuresofdispersion) 是用一個值來代表數(shù)據(jù)之間的差異情況,這樣的代表值就叫做離散值或離散趨勢,對這樣的值的求取就叫做離散趨勢測量。二、離散趨勢與集中趨勢的關(guān)系集中值代表性的高低要受數(shù)據(jù)之間差異情形的影響。要全面反映一個變量的數(shù)據(jù)特征,必須同時考察集中趨勢和離散趨勢。三、離中趨勢的類型異眾比率全距四分位差方差與標準差四、異眾比率γ異眾比率γ是非眾值的頻次之和在總數(shù)N中所占的比例。

五、全距或極差(range,簡稱R)全距R=最大變量值-最小變量值R越大,數(shù)據(jù)越分散;R越小,數(shù)據(jù)越集中。只受最大變量值和最小變量值的影響,沒有考慮其他變量值的差異。難以準確反映變量的變異情況。適用于定序、定距、定比變量。六、四分位差(interquartilerange,簡稱Q)(一)四分位值四分位值的概念四分位值是指位于一組數(shù)據(jù)數(shù)列中第25%、第50%、第75%三個位置上的值。中位值或Q50Q1或Q25Q3或Q75四分位值的位置中位值位于(N+1)/2Q25位于Q75位于Q1表明至少有25%的變量值小于等于它;同時至少有75%的變量值大于等于它。Q3表明至少有75%的變量值小于等于它;同時至少有25%的變量值大于等于它。(N+1)/43(N+1)/4例:抽樣調(diào)查甲村和乙村的家庭人數(shù)。甲村11戶人家,每戶人數(shù)如下:2,2,3,4,6,9,10,10,11,13,15Md的位置:(n+1)/2=(11+1)/2=6Md=9Q1的位置:(n+1)/4=(11+1)/4=3Q1=3Q3的位置:3(n+1)/4=3(11+1)/4=9Q3=11乙村8戶人家,每戶人數(shù)如下:2,3,4,7,9,10,12,12Md的位置:(n+1)/2=(8+1)/2=4.5Md=8Q1的位置:(n+1)/4=(8+1)/4=2.25Q1=3+0.25(4-3)=3.25Q3的位置:3(n+1)/4=3(8+1)/4=6.75Q3=10+0.75(12-10)=11.5(二)四分位差四分位差的概念Q=Q75-Q25上例:甲村:Q甲=Q3-Q1=11-3=8乙村:Q乙=Q3-Q1=11.5-3.25=8.25四分位差的意義Q愈大,表示有50%的變量值愈遠離中位值,因而中位值的代表性愈小。四分位差通常與中位值一起使用。上例:因Q甲<Q乙若以中位值作估計,在甲村所犯的錯誤會略小于在乙村所犯的錯誤。練習1.7位評審對華裔溜冰選手關(guān)穎珊的溜冰成績評分為5.8,5.6,5.8,5.7,5.6,5.9,5.8,求Q1、Q2、Q3與四分位差。2.12位學生各在罰球在線投籃十次,投中次數(shù)分別為3,2,3,7,5,3,6,4,1,3,6,8,求Q1、Q2、Q3與四分位差。

3.有4,6,6,7,7,10,11,11,13,15等十個樣本,求下列各統(tǒng)計量:Q1、Q2、Q3與四分位差。4.試求下列8個數(shù)值的四分位差:90,60,75,86,80,78,92,68。

百分位值簡介“中新網(wǎng)11月29日電11月2日,由某雜志主辦的“2004中國MBA商學院排行”揭曉,排行榜顯示復旦MBA畢業(yè)生起薪排行最高,平均年薪19萬。復旦大學管理學院職業(yè)發(fā)展中心代理主任黃智穎告訴記者,近日有很多復旦MBA學生問他這個數(shù)據(jù)的可信度。”

該雜志主編楊俊杰先生在給記者的電子郵件中如此解釋:“排行榜中薪酬部分,是以該校全部畢業(yè)生起薪點的80分位值的平均收入來計算的,收入的80分位值反映出該校畢業(yè)生的收入的中高端水平,最能體現(xiàn)一個學院畢業(yè)生薪酬的整體水準及未來發(fā)展趨勢。復旦MBA畢業(yè)生首份工作的起薪點,即指有20%的畢業(yè)生達到或超過了年薪19萬,而80%的人則達不到19萬?!?/p>

七、方差(variance)與標準差(standarddeviation)方差也稱變異或均方差(meansquaredeviation),表示一組數(shù)據(jù)平均的離散程度。樣本方差總體方差標準差:是方差的正平方根;其單位與原變量X的單位相同。樣本標準差總體標準差例:隨機抽取6個被試,測量其對死刑的態(tài)度。態(tài)度量表為5點量表,1表示堅決反對,5表示堅決支持,依次類推。被試變量x1421324254631.33-1.67-

0.67-

0.671.330.331.772.790.450.451.770.11簡化計算變量x725184816561867396694761573249如果數(shù)據(jù)已被整理為頻次分布,則:SD=1.85對于等距分組數(shù)據(jù),用組中值來代替變量值xi,公式同上。這樣的計算不及用原始數(shù)據(jù)計算精確。SD=7.87方差與標準差是使用了所有的數(shù)據(jù)來計算變異情形的。方差與標準差的意義值越大,數(shù)據(jù)的離散程度越大,分布的范圍越廣,以均值來估計或預測變量值犯錯的可能性越大,均值的代表性越小。標準差通常與均值一起使用。適用于定距和定比變量。第四節(jié)正態(tài)分布與標準分數(shù)單峰、對稱=Mo=Md離差y,y≠0

當σ恒定時當μ恒定時標準分數(shù)(standardscore)又稱為Z分數(shù),是以標準差為單位,表示一個數(shù)在團體中所處位置的相對位置量數(shù)。正態(tài)曲線各部分面積表例:一學生分數(shù)115分,總體平均數(shù)100分,標準差15,問該生的成績所處位置。例:一學生分數(shù)82分,總體平均數(shù)100分,標準差15,問該生的成績所處位置。……練習數(shù)據(jù)文件:SAQ.sav第三章雙變量關(guān)系的描述統(tǒng)計第一節(jié)統(tǒng)計相關(guān)的性質(zhì)例:調(diào)查100人快樂之源,3個選項,其中40%人選金錢,50%人選工作,10%的人選情感。一、相關(guān)的概念

如果一個變量的取值發(fā)生變化,另外一個變量的值也相應發(fā)生變化,則這兩個變量相關(guān)。性別與四級英語考試通過率的相關(guān)統(tǒng)計表述:統(tǒng)計結(jié)果顯示,當性別取值不同時,通過率變量的取值并未發(fā)生變化,因此性別與考試通過率無關(guān)。通過率變量性別變量性別與四級英語考試通過率的相關(guān)統(tǒng)計表述:統(tǒng)計結(jié)果顯示,當性別取值不同時,通過率變量的取值發(fā)生了變化,因此性別與考試通過率相關(guān)。通過率變量性別變量二、相關(guān)的程度大多數(shù)的統(tǒng)計法是以0代表無相關(guān)或零相關(guān),以1代表全相關(guān)。介于0與1之間的數(shù)值如果愈大,就表示相關(guān)的程度愈強。abcdX1212Y全相關(guān)是指在一個變量上的每個增量都對應于另一個變量上的一個增量。零相關(guān)是指兩個變量值變化方向無一定規(guī)律,即當一個變量值變大時,另一個變量值可能變大也可能變小,并且變大變小的機會趨于相等。如學生身高與學習成績的關(guān)系。三、相關(guān)的方向正相關(guān):是指當一個變量的值增加時,另一個變量的值也增加。負相關(guān):是指當一個變量的值增加時,另一個變量的值卻減少。相關(guān)方向的分析不適合于定類變量。三、相關(guān)的方向正相關(guān):是指當一個變量的值增加時,另一個變量的值也增加。負相關(guān):是指當一個變量的值增加時,另一個變量的值卻減少。相關(guān)方向的分析不適合于定類變量。四、變量間的對稱性相關(guān)關(guān)系不代表因果關(guān)系如果假定變量X影響變量Y,而變量Y不影響變量X,則變量X和Y之間的關(guān)系為不對稱關(guān)系。如果不確定或不區(qū)分變量X與變量Y影響的方向,則變量X和Y之間的關(guān)系為對稱關(guān)系。四、變量間的對稱性相關(guān)關(guān)系不代表因果關(guān)系。如果假定變量X影響變量Y,而變量Y不影響變量X,則變量X和Y之間的關(guān)系為不對稱關(guān)系。如果不確定或不區(qū)分變量X與變量Y影響的方向,則變量X和Y之間的關(guān)系為對稱關(guān)系。第二節(jié)列聯(lián)描述統(tǒng)計一、列聯(lián)表的概念 就是同時依據(jù)兩個變量的值,將所研究的個案分類統(tǒng)計的頻次或頻率分布表。二、列聯(lián)表的格式邊緣次數(shù)邊緣次數(shù)條件次數(shù)條件次數(shù)表行百分比列百分比三、列聯(lián)表的大小表的大小就是橫行數(shù)目(rows,簡寫r)乘上縱列數(shù)目(columns,簡寫c),即表的大?。絩×c一般用橫行表示因變量,縱列表示自變量。列聯(lián)表的簡單分析第三節(jié)相關(guān)測量法一、兩個定類變量:Lambda,tau-y(一)Lambda相關(guān)測量法

E1YE2YXE1-E2

在不知道X值的情況下預測Y值所產(chǎn)生的全部誤差根據(jù)X的每個值來預測Y值所產(chǎn)生的誤差總數(shù)以X值來預測Y值時所減少的誤差消減誤差比例(proportionatereductioninerror,簡稱PRE)PRE愈大,以X值預測Y值能夠減少的誤差所占的比例愈大;即X與Y的相關(guān)愈強。Lambda相關(guān)測量法就是以一個定類變量的眾值來預測另一個定類變量的值時,可以減除多少誤差。如果消減的誤差在全部誤差中所占的比例愈大,就表示這兩個變量的相關(guān)越強。例:若性別為自變量X,快樂之源為因變量Y。依PRE的定義,E1=n-MY;E2=n-∑my;E1-E2=(n-MY)-(n-∑my)=∑my-MYY變量的眾值次數(shù)X變量的每個值之下Y變量的眾值次數(shù)對于2個不對稱的定類變量,若X為自變量,Y為因變量,則PRE表示為其中,My為Y變量的眾值次數(shù);

my為X變量的每個值之下Y變量的眾值次數(shù);

n為全部個案數(shù)目。對于2個對稱的定類變量,則PRE表示為其中,Mx為X變量的眾值次數(shù);

mx為Y變量的每個值之下X變量的眾值次數(shù)。若全部眾值集中在條件次數(shù)表的同一列或同一行中,則Lambda系數(shù)就會等于0。這時就不適合于采用Lambda相關(guān)測量法。λ及λy介于0與1之間。其值越大,消減的誤差越大,2個變量之間的相關(guān)越強。(二)tau-y相關(guān)測量法tau-y系數(shù)屬于不對稱相關(guān)測量法。

tau-y系數(shù)的計算公式n:全部個案數(shù)目Fy:Y變量的邊緣次數(shù)Fx:X變量的邊緣次數(shù)f:條件次數(shù)tau-y系數(shù)的解釋由于tau-y測量法考慮了全部的次數(shù),故其敏感度高于Lambda測量法。對于不對稱關(guān)系,最好選用tau-y來簡化兩個變量的相關(guān)情形。二、兩個定序變量:Gamma,dy對稱關(guān)系——Gamma系數(shù);不對稱關(guān)系——dy系數(shù)或Somers’d

其值范圍[-1,+1],都具有消減誤差比例的意義。(一)Gamma相關(guān)測量法同序?qū)?shù)Ns:在兩個變量上的相對等級相同的一對個案為1個同序?qū)??!愋驅(qū)?shù)Nd:在兩個變量上的相對等級不同的一對個案為1個異序?qū)Α!羧總€案數(shù)目為n,則會組成0.5n(n-1)對個案。Ns=4Nd=3G=(4-3)/(4+3)=+0.14可見,工人積極性與產(chǎn)量成正相關(guān)。然而,二者的相關(guān)程度很弱。若以一個變量來預測另一個變量,只可以消減14%的誤差。(二)dy相關(guān)測量法在因變量上的同分對數(shù)Ty:只在因變量上的等級相同的一對個案為1個同分對?!璑s=4Nd=3(三)列聯(lián)表計算Gamma和dy2×2表2×3表3×2表Ty=f11(f12)+f21(f22)+f31(f32)f11f12f13f21f22f23f31f32f33

123

123X

YNS=f11(f22+f23+f32+f33)+f12(f23+f33)+f21(f32+f33)+f22(f33)Nd=f13(f22+f21+f32+f31)+f12(f21+f31)+f23(f32+f31)+f22(f31)Ty=f11(f12+f13)+f12(f13)+f21(f22+f23)+f22(f23)+f31(f32+f33)+f32(f33)3×3表NS=f11(f22+f23+f32+f33)+f12(f23+f33)+f21(f32+f33)+f22(f33)=23(55+28+94)+20(28+24)+11(27+24)+55(24)=6003Nd=f13(f22+f21+f32+f31)+f12(f21+f31)+f23(f32+f31)+f22(f31)=4(55+11+27+8)+20(11+8)+28(27+8)+55(8)=2204Ty=f11(f12+f13)+f12(f13)+f21(f22+f23)+f22(f23)+f31(f32+f33)+f32(f33)=23(20+4)+20(4)+11(55+28)+55(28)+8(27+24)+27(24)=4141可見,婆媳沖突與住戶密度呈正相關(guān),即住戶的人口密度越高,婆媳沖突越大。如果以住戶人口密度來預測或估計婆媳沖突的大小,可以消減30.8%的誤差。(四)斯皮爾曼等級相關(guān)系數(shù)rs

D表示每個個案在兩個變量上的等級差異量適用于對稱關(guān)系

rs取值范圍為[-1,+1]rs2具有消減誤差比例的意義Rs=+0.47(五)Kendall’stau系數(shù)三、兩個定距變量:Pearson積差相關(guān)(一)公式(二)r取值范圍[-1,+1](三)計算示例(四)r系數(shù)適用于對稱關(guān)系,也可近似用于非對稱關(guān)系(五)r2具有消減誤差的意義四、定類變量與定距變量:相關(guān)比率E2(一)適用于一個定類變量X為自變量,一個定距變量Y為因變量的情形(二)計算公式(三)E2具有消減誤差比例的意義;E值范圍[0,1]。E2=0.70,E=0.84五、定類變量與定序變量:Lambda,tau-y練習:請分別計算tau-ytau-y1=.138;tau-y2=.224相關(guān)系數(shù)值在相互比較時,更顯出其意義。然而要相互比較,就要盡可能采用同樣的相關(guān)測量法。六、定序變量與定距變量:相關(guān)比率E2練習:請分別計算E2及EE21=0.02,E1=0.14;E22=0.70,E2=0.84七、本章小節(jié)第四章概率與統(tǒng)計推斷第一節(jié)抽樣的意義與問題第二節(jié)抽樣的歷程第三節(jié)隨機與非隨機抽樣法參閱風笑天:《現(xiàn)代社會調(diào)查方法》第四節(jié)概率與抽樣分布推斷統(tǒng)計(inferentialstatistics):通過對樣本數(shù)據(jù)的統(tǒng)計分析,在一定可靠程度上推測相應的總體的數(shù)據(jù)特征及規(guī)律。統(tǒng)計值(statistic):即樣本值參數(shù)值(parameter):即總體值代表性樣本(representativesample):是指可以從這個樣本的數(shù)據(jù)對總體的特征做出準確的、無偏估計的一個樣本。一、二項抽樣分布

二項抽樣分布特征:每次抽樣只有兩種可能結(jié)果;每次抽樣“成功”的概率為P,失敗的概率為Q,P+Q=1,且每次抽樣的概率都相同;每次抽樣相互獨立;抽樣可重復N次;在N次抽樣中,出現(xiàn)“成功”的次數(shù)的概率分布就叫二項分布。二、均值抽樣分布均值抽樣分布特征:如果樣本相當大,則抽樣分布接近正態(tài)分布;抽樣分布的均值就是總體均值,抽樣分布的標準差叫標準誤(standarderror);有95%的樣本均值在M±1.96SE范圍內(nèi),有99%的樣本均值在M±2.58SE范圍內(nèi)。三、參數(shù)估計與假設(shè)檢驗參數(shù)估計:統(tǒng)計值(樣本)→參數(shù)值(總體)假設(shè)檢驗:假設(shè)參數(shù)值,用樣本統(tǒng)計值檢驗參數(shù)值是否正確。第五章參數(shù)估計一、點估計與區(qū)間估計(一)點估計:用樣本統(tǒng)計值來代表總體參數(shù)值。無偏估計與有偏估計(二)區(qū)間估計:估計總體參數(shù)值可能落入的區(qū)間范圍。置信度:總體參數(shù)值落在某一區(qū)間時正確的概率。置信區(qū)間:總體參數(shù)值的區(qū)間范圍。置信區(qū)間與置信度成正比。二、均值的區(qū)間估計α=.05α=.01置信區(qū)間的大小與樣本的大小成反比。例:三、百分比的區(qū)間估計α=.05α=.01例:四、積矩相關(guān)系數(shù)的區(qū)間估計0.489≤r≤0.695第六章假設(shè)檢驗一、研究假設(shè)與虛無假設(shè)研究假設(shè)H1

虛無假設(shè)H0抽樣分布H0為真,則H1為假;H0為假,則H1為真。二、否定域與顯著性水平而顯著水平表示否定域在整個抽樣分布中所占的比例,也即表示樣本的統(tǒng)計值落在否定域內(nèi)的概率。否定域CR就是抽樣分布內(nèi)一端或兩端的小區(qū)域,如何樣本的統(tǒng)計值在此區(qū)域范圍內(nèi),則否定虛無假設(shè)。三、單側(cè)(尾)與雙側(cè)(尾)檢驗四、Ⅰ型錯誤與Ⅱ型錯誤Ⅰ型錯誤:拒絕H0時所犯的錯誤。犯Ⅰ型錯誤的概率通常以α表示,故又稱α型錯誤。Ⅱ型錯誤:接受H0時所犯的錯誤。犯Ⅱ型錯誤的概率通常以β表示,故又稱β型錯誤。α型錯誤與β型錯誤成反比。五、單均值的Z檢驗適用條件樣本是隨機抽取的n≥100或n≥30均值的抽樣分布近似為正態(tài)分布例:從全區(qū)工人中隨機抽取n=120名工人進行一項政治水平的測驗,發(fā)現(xiàn)樣本平均分為=57分,標準差S=18.5??煞褡C明全區(qū)工人該項測驗的平均分M=60分。設(shè)p=0.05。解:n=120,Z>-1.96,故接受H0,即全區(qū)工人該項測驗的平均分為60分。若H1:M<60H0:M=60解:這是單尾檢驗,查表得Z≤-1.65Z<-1.65,故否定H0,接受H1,即全區(qū)工人該項測驗的平均分小于60分。若p=0.01,仍為左側(cè)單尾檢驗,查表得Z≤-2.33,樣本統(tǒng)計值Z=-1.78>-2.33,故接受H0,即該區(qū)工人該項測驗的平均分為60分。例:有人調(diào)查早期教育對兒童智力發(fā)展的影響,從受過良好早期教育的兒童中隨機抽取n=70人進行韋氏兒童智力測驗,結(jié)果樣本平均數(shù)為=103.3,能否認為受過良好早期教育的兒童智力高于一般水平(總體M=100,σ=15)。H1:M>100H0:M=100p=.05查表得:Z≥1.65依題意:Z=1.84≥1.65∴拒絕H0,接受H1,即即受過良好早期教育的兒童的平均智力要優(yōu)于一般兒童的智力。六、單均值的t檢驗適用條件樣本是隨機抽取的n≤30自由度(degreesoffreedom,df):有多少個案的數(shù)值可以隨意變更。自由度是指樣本中獨立的或能自由變化的數(shù)據(jù)的個數(shù)。例:一個樣本n=4,數(shù)據(jù)分別為8、9、11、12,=10

要保證平均數(shù)恒定,只能自由改變3個數(shù)據(jù),如7、15、8,第四個數(shù)必定為10。

對于樣本,由于是固定的,所以df=n-1對于總體,由于μ是未知的,所以df=nt的抽樣分布的形狀(如扁平或高聳的程度)取決于自由度。t分布表(P391,附錄5:t分布)例:一個隨機樣本,n=26,=65,S=10。H1:M>60H0:M=60p≤.05解:df=n-1=26-1=25,查表得:t≥1.708樣本t=2.5>1.708∴拒絕H0,接受H1,即全校學生的平均成績優(yōu)于60分。七、兩個均值差異的Z檢驗H1:M1≠M2orM1-M2≠0H0:M1=M2orM1-M2=0適用條件兩個樣本都是隨機抽樣;兩個總體都是正態(tài)分布;兩個總體的標準差(方差)是相等的(?)大樣本,n1+n2≥100或n≥30例:解:Z=1.31<1.96,故接受H0,即甲乙兩地農(nóng)民請客送禮平均支出無顯著差異(兩樣本均值的差異只是抽樣誤差造成的而已)。

練習:從某地區(qū)的六歲兒童中隨機抽取男生30人,測量身高,平均為=114cm;抽取女生27人,平均身高=112.5cm。根據(jù)以往累積資料,該地區(qū)六歲兒童身高的標準差α1=5cm,女童身高標準差α2=6.5cm,能否根據(jù)這一次抽樣測量的結(jié)果下結(jié)論:該地區(qū)六歲男女兒童身高有顯著差異?參考答案:Z=0.96<1.96,即P>0.05,所以該地區(qū)六歲兒童男女身高差異不顯著。八、兩個均值差異的t檢驗適用條件兩個樣本都是隨機抽樣;兩個總體的標準差(方差)是相等的(?)小樣本,n1+n2<100或n<30例:解:查表得:t=-2.530<-2.528,故否定虛無假設(shè),接受備擇假設(shè),即戒煙運動可顯著減少抽煙量。

例:從某地區(qū)的六歲兒童中隨機抽取男生30人,測量身高,平均為=114cm;抽取女生27人,平均身高=112.5cm。根據(jù)以往累積資料,該地區(qū)六歲兒童身高的標準差α1=5cm,女童身高標準差α2=6.5cm,能否根據(jù)這一次抽樣測量的結(jié)果下結(jié)論:該地區(qū)六歲男女兒童身高有顯著差異?解:查表得:t0.05/2(30+27-2)=t0.05/2(55)=2.00,所以t=0.96<t0.05/2(55)=2.00,即該地區(qū)男女兒童身高差異不顯著。相關(guān)樣本的t檢驗例:某幼兒園在兒童入園時對49名兒童進行比奈智力測驗,結(jié)果平均智商為106,一年后再對同組被試施測,結(jié)果智商平均分為110,已知兩次測驗結(jié)果的相關(guān)系數(shù)為0.74,問能否說隨著年齡的增長與一年的教育,兒童的智商有了顯著提高?例:t=1.667<2.015,故接受虛無假設(shè),即計劃生育宣傳不能達到減少男青年的理想兒女數(shù)目。查表得:例:某幼兒園在兒童入園時對49名兒童進行比奈智力測驗,結(jié)果平均智商為106,一年后再對同組被試施測,結(jié)果智商平均分為110,已知兩次測驗結(jié)果的相關(guān)系數(shù)為0.74,問能否說隨著年齡的增長與一年的教育,兒童的智商有了顯著提高?t0.05(49-1)=t0.05(48)≈1.684t0.01(49-1)=t0.01(48)≈2.423例:某研究者認為哥哥比弟弟更具創(chuàng)造性,故隨機抽取10對兄弟進行創(chuàng)造性測驗,結(jié)果如下,假設(shè)測驗成績符合正態(tài)分布。問兄弟之間的創(chuàng)造性是否有顯著的差異?哥哥:65486352615363706566合計弟弟:61426652475865626469d46-3014-5-281-320d21636901962546419360查表得:t0.05(10-1)=t0.05(9)=2.263SPSS演示與實作九、單百分率與百分率差異的檢驗百分率是均值的一種特殊形式(一)單百分率的Z檢驗當n≥30,且nP≥5&n(1-P)≥5,樣本較大,百分率的抽樣分布近似正態(tài)分布,可用Z作為檢驗統(tǒng)計量。

回憶比較:百分比的區(qū)間估計α=.05α=.01例:一休閑娛樂雜志聲稱其讀者群中女性占80%,為驗證這一說法是否屬實,某研究機構(gòu)抽取了由200人組成的一個隨機樣本,發(fā)現(xiàn)有146個女性經(jīng)常閱讀該雜志。分別取顯著性水平α=0.05和α=0.01,檢驗該雜志讀者群中女性的比例是否為80%。

解:H0=80%,H1≠80%P≤0.05,則|Z|≥1.96檢驗統(tǒng)計量

Z=-2.475<-1.96,故否定H0,接受H1,即該雜志的說法并不屬實,該雜志女性讀者的比例應超過80%。

(二)兩個百分率差異的Z檢驗兩個隨機樣本百分率之差的抽樣分布接近正態(tài)分布,用Z檢驗法。

例:P≤0.001,查表得

Z=6.560≥3.30,故否定H0,接受H1,即兩地小家庭所占比例是不同的。

練習:國際色覺障礙討論會宣布,每12個男子中,有一個是先天性色盲。從某校抽取的1200名男生中有60人是色盲,問該校男子色盲比率與上述比例是否有顯著差異?(答案:Z=1.21<1.96)從甲乙兩校各自隨機抽出學生160名和150名,發(fā)覺體育“達標”人數(shù)分別是115和130,問甲乙兩校學生體育“達標”率是否有顯著差異?(答案:Z=3.196>1.96)

第七章雙變量關(guān)系的假設(shè)檢驗相關(guān)樣本總體E1=[40(100-40)]/100+[50(100-50)]/100+[10(100-10)]/100=58E2=[10(60-10)]+[40(60-40)]+[10(60-10)]/60+[30(40-30)]+[10(40-10)]+[0(40-0)]/40 =45tau-y=(58-40)/58=0.224一、卡方檢驗(chisquaretest)適用條件:(1)隨機樣本;(2)兩個變量都是定類變量或一個定類一個定序變量。實際次數(shù)預期次數(shù)邊緣次數(shù)邊緣次數(shù)條件次數(shù)條件次數(shù)表列聯(lián)表的大小表的大小就是橫行數(shù)目(rows,簡寫r)乘上縱列數(shù)目(columns,簡寫c),即表的大?。絩×c一般用橫行表示因變量,縱列表示自變量。列聯(lián)表的簡單分析性別與四級英語考試通過率的相關(guān)統(tǒng)計表述:統(tǒng)計結(jié)果顯示,當性別取值不同時,通過率變量的取值并未發(fā)生變化,因此性別與考試通過率無關(guān)。通過率變量性別變量性別與四級英語考試通過率的相關(guān)統(tǒng)計表述:統(tǒng)計結(jié)果顯示,當性別取值不同時,通過率變量的取值發(fā)生了變化,因此性別與考試通過率相關(guān)。通過率變量性別變量例:df=(r-1)(c-1)=(2-1)(2-1)=1,查附錄六表得,χ2≥3.841χ2=30.389>3.841,故否定H0,接受H1,即性別與最敬佩父親還是母親有關(guān)。

χ2越大,H0正確的可能性越小,H1正確的可能性越大。SPSS演示及練習P404(八A)前三個問題。

P82,表4-1。P83,表4-2。P85,表4-3。邊緣次數(shù)邊緣次數(shù)條件次數(shù)條件次數(shù)表……P≤0.001,df=4,χ2≥18.465χ2=35.833>18.465,故否定H0,接受H1,即青年人的受教育水平與其最大志愿顯著相關(guān)。Pearson卡方:n≥40,e≥5Continunitycorrection卡方:2×2表(df=1),n≥40,1≤e<5與卡方有關(guān)的相關(guān)測量法:Phi相關(guān)系數(shù)列聯(lián)相關(guān)系數(shù)V相關(guān)系數(shù)Ns=4Nd=3G=(4-3)/(4+3)=+0.14可見,工人積極性與產(chǎn)量成正相關(guān)。然而,二者的相關(guān)程度很弱。若以一個變量來預測另一個變量,只可以消減14%的誤差。回顧兩個定序變量的相關(guān)dy相關(guān)測量法在因變量上的同分對數(shù)Ty:只在因變量上的等級相同的一對個案為1個同分對?!璑s=4Nd=3二、兩個定序變量相關(guān)的檢驗適用條件:(1)隨機樣本;(2)兩個變量都是定序變量;(3)n≥100G=0時,G值的抽樣分布近似正態(tài)分布大樣本n≥30小樣本n<30NS=f11(f22+f23+f32+f33)+f12(f23+f33)+f21(f32+f33)+f22(f33)=23(55+28+94)+20(28+24)+11(27+24)+55(24)=6003Nd=f13(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論