版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
定量資料的分析延時符定量資料的研究分析借助的是各種統(tǒng)計分析方法。按統(tǒng)計分析的性質(zhì)的不同,定量資料的分析可分為描述統(tǒng)計和推斷統(tǒng)計;按統(tǒng)計分析涉及變量的多少,定量資料的分析可分為單變量統(tǒng)計分析、雙變量統(tǒng)計分析和多變量統(tǒng)計分析。延時符描述統(tǒng)計與推斷統(tǒng)計一、描述統(tǒng)計(descriptivestatistics)是用圖形、表格和概括性的數(shù)字對數(shù)據(jù)進行描述的統(tǒng)計方法,即用直觀的圖形、匯總的表格和概括性的數(shù)字(如平均數(shù))表示數(shù)據(jù)的分布、形狀等特征。推斷統(tǒng)計(inferentialstatistics)是指研究如何根據(jù)樣本數(shù)據(jù)去推斷總體數(shù)量特征的方法,它是在對樣本數(shù)據(jù)進行描述的基礎(chǔ)上,對統(tǒng)計總體的未知數(shù)量特征做出以概率形式表述的推斷。延時符描述統(tǒng)計與推斷統(tǒng)計的劃分還反映了統(tǒng)計方法發(fā)展的前后兩個階段和使用統(tǒng)計方法探索客觀事物數(shù)量規(guī)律性的不同過程。統(tǒng)計研究過程的起點是統(tǒng)計數(shù)據(jù),終點是探索出客觀現(xiàn)象內(nèi)在的數(shù)量規(guī)律性。在這一過程中,如果搜集到的是總體數(shù)據(jù)(如普查數(shù)據(jù)),那么運用描述統(tǒng)計就可以達到認識總體數(shù)量規(guī)律性的目的;如果獲得的只是研究總體的一部分數(shù)據(jù)(樣本數(shù)據(jù)),那么要想找到總體的數(shù)量規(guī)律性,就要運用概率論的理論并根據(jù)樣本信息對總體進行科學(xué)的推斷。顯然,描述統(tǒng)計和推斷統(tǒng)計是統(tǒng)計方法的兩個組成部分。延時符描述統(tǒng)計是所有統(tǒng)計分析的基礎(chǔ),推斷統(tǒng)計則是實際工作中定量資料分析的主要內(nèi)容。而且,推斷統(tǒng)計的地位和作用也越來越重要,已成為統(tǒng)計分析的核心內(nèi)容,這是因為在對現(xiàn)實問題的研究中所獲得的數(shù)據(jù)主要是樣本數(shù)據(jù)。但這并不等于說描述統(tǒng)計不重要,如果沒有描述統(tǒng)計搜集可靠的統(tǒng)計數(shù)據(jù)并提供有效的樣本信息,再科學(xué)的統(tǒng)計推斷方法也難以得出切合實際的結(jié)論。從描述統(tǒng)計學(xué)到推斷統(tǒng)計學(xué)反映了統(tǒng)計學(xué)發(fā)展的巨大成就,是統(tǒng)計學(xué)發(fā)展成熟的重要標(biāo)志。延時符單變量、雙變量和多變量統(tǒng)計二、在社會調(diào)查研究中,通常都會涉及多個變量。但是在統(tǒng)計分析中,究竟是進行單變量統(tǒng)計分析,還是進行雙變量統(tǒng)計分析或多變量統(tǒng)計分析,取決于調(diào)查研究者的意圖和目的。延時符單變量統(tǒng)計分析只能進行描述性研究。因為單變量統(tǒng)計分析只涉及一個變量,所以它只能用統(tǒng)計數(shù)值(如平均數(shù)、百分比、標(biāo)準(zhǔn)差等)來描述單個變量的特征,不能對變量之間的關(guān)系做出解釋,而只有雙變量統(tǒng)計分析或多變量統(tǒng)計分析才能進行解釋性研究。因為只有涉及兩個或兩個以上的變量時,才有可能分析它們之間的關(guān)系(包括相關(guān)關(guān)系和因果關(guān)系),才有可能用自變量來解釋因變量。也就是說,如果要進行解釋性研究,就必須進行雙變量統(tǒng)計分析或多變量統(tǒng)計分析。常用的雙變量統(tǒng)計分析方法包括列聯(lián)表分析與χ2檢驗、各種雙變量相關(guān)分析、一元回歸分析等等。延時符當(dāng)一項統(tǒng)計分析涉及三個或三個以上變量(其中至少有一個因變量)時,則稱為多變量或多元統(tǒng)計分析。多變量統(tǒng)計分析是一種更為復(fù)雜的統(tǒng)計分析方法,因而通常稱為高級統(tǒng)計方法。在計算機統(tǒng)計軟件產(chǎn)生之前,多變量統(tǒng)計方法由于技術(shù)太復(fù)雜、計算太困難,應(yīng)用范圍受到很大的限制。在計算機統(tǒng)計軟件產(chǎn)生并推廣應(yīng)用之后,這種情況已完全改變,各種設(shè)計精巧的統(tǒng)計軟件可以讓社會調(diào)查研究者根據(jù)需要進行各種復(fù)雜的多變量統(tǒng)計分析。當(dāng)然,要正確使用統(tǒng)計軟件、正確解釋和使用統(tǒng)計分析結(jié)果,就必須掌握多變量統(tǒng)計分析的基本原理和方法,否則再好的統(tǒng)計軟件也不可能做出正確的統(tǒng)計分析。在社會調(diào)查研究中,多變量統(tǒng)計分析方法有很多,如多元相關(guān)分析、多元回歸分析、因子分析等。延時符
(一)單變量統(tǒng)計分析單變量統(tǒng)計描述分析單變量統(tǒng)計推斷分析單變量統(tǒng)計分析又分為延時符
1.單變量統(tǒng)計描述分析單變量統(tǒng)計描述分析是對單一變量利用描述統(tǒng)計的主要方法進行研究。單變量的統(tǒng)計描述分析在社會調(diào)查研究中很常見,如某城市的家庭結(jié)構(gòu)如何?有多少直系家庭?有多少聯(lián)合家庭?又有多少核心家庭?某城市居民中有多少種民族?其各占比例多少?某企業(yè)有多少女性員工?其年齡結(jié)構(gòu)如何?某學(xué)校教師的文化結(jié)構(gòu)如何?等等。延時符單變量統(tǒng)計描述的分析方法分為集中趨勢分析和離中趨勢分析。(1)集中趨勢分析。集中趨勢是指一組數(shù)據(jù)向其中心值靠攏的傾向和程度。分析集中趨勢就是尋找該組數(shù)據(jù)的代表值或中心值。延時符①眾數(shù)。眾數(shù)是指總體中出現(xiàn)次數(shù)最多的那個標(biāo)志值,用Mo表示。眾數(shù)表示被研究社會經(jīng)濟現(xiàn)象中最普遍最常見的標(biāo)志值,以反映該現(xiàn)象的一般水平。眾數(shù)用得最多的情形是具有明顯偏態(tài)集中趨勢的次數(shù)分布,如對一個地區(qū)的家庭收入分配數(shù)列、工人月工資分配數(shù)列、某種債券息票率分組的行情次數(shù)分布等進行分析。根據(jù)未分組數(shù)據(jù)或分組數(shù)據(jù)計算眾數(shù)時,只需要找出出現(xiàn)次數(shù)最多的變量值即可。延時符某次考試中考生的年齡分別為34,25,41,37,37,29,35,37,30,34,40,求眾數(shù)。解:考生年齡的眾數(shù)即為頻數(shù)最高的年齡37?!纠?1-1】延時符根據(jù)某單位員工職業(yè)資格等級分組資料(見表11-2)求眾數(shù)。表11-2某單位員工職業(yè)資格等級分組表解:經(jīng)觀察發(fā)現(xiàn),職業(yè)資格等級為二級的員工人數(shù)最多,因此眾數(shù)為二級。【例11-2】延時符應(yīng)該注意的是,一組數(shù)據(jù)也許有兩個甚至多個眾數(shù)存在。數(shù)據(jù)中出現(xiàn)兩個次數(shù)最多的變量值時,可稱為復(fù)眾數(shù)。在實際工作中,還可以利用直方圖來確定眾數(shù)的近似值,但要求繪制的直方圖足夠精確,其具體方法不再贅述。眾數(shù)屬于位置平均數(shù),不受極端值的影響。當(dāng)變量數(shù)列為均勻分布、U型分布、J型分布時,不存在眾數(shù)。眾數(shù)缺乏敏感性,這是因為眾數(shù)的計算只利用了部分數(shù)據(jù)的信息,不像均值那樣利用了全部數(shù)據(jù)信息。延時符②中位數(shù)。中位數(shù)是標(biāo)志值按大小順序排列成數(shù)列后,處在該數(shù)列中點位置的標(biāo)志值,以Me表示。確定中位數(shù)時,需要先找出分布數(shù)列的中間位置點。要確定未分組資料的中位數(shù),就要先將總體中各標(biāo)志值按數(shù)值大小排列,如有n個數(shù)值,則確定中位數(shù)的位置點公式為Om=(n+1)/2。如果n是奇數(shù),則居于中間位置的那個標(biāo)志值就是中位數(shù);如果n是偶數(shù),中位數(shù)則是中間兩個位置的標(biāo)志值的算術(shù)平均數(shù)。延時符現(xiàn)從2016年獲得管理學(xué)學(xué)士學(xué)位的畢業(yè)生中隨機抽取了10個人組成一個樣本,他們的月收入如表11-3所示。請確定樣本收入的中位數(shù)。表11-3畢業(yè)生樣本收入數(shù)據(jù)單位:元解:中位數(shù)的位置點Om=(10+1)/2=5.5,也就是說,中位數(shù)在排序后第5、第6個數(shù)據(jù)之間。中位數(shù)Me=(2850+2900)/2=2875元?!纠?1-3】延時符計算表11-4中加工零件數(shù)的中位數(shù)。表11-4工人加工零件數(shù)分組資料【例11-4】延時符中位數(shù)因為不受極端值影響,所以其代表性比均值穩(wěn)定。但中位數(shù)沒有考慮總體的全部變量值,不宜用來推算總體。此外,中位數(shù)還具有一個優(yōu)良的數(shù)學(xué)性質(zhì),就是各變量值與中位數(shù)的離差絕對值之和最小,即該性質(zhì)表明,中位數(shù)與各數(shù)據(jù)的絕對距離之和最短,這在工程設(shè)計、城市規(guī)劃、網(wǎng)點布局等方面有一定的應(yīng)用價值。延時符③分位數(shù)。分位數(shù)是將按標(biāo)志值大小順序排列的各總體單位劃分為數(shù)目相等的若干部分的數(shù)值。中位數(shù)是將統(tǒng)計分布從中間分成面積(即數(shù)據(jù)個數(shù))相等的兩部分,與中位數(shù)性質(zhì)相似的還有四分位數(shù)(quartile)、十分位數(shù)(decile)和百分位數(shù)(percentile)。不難理解,四分位數(shù)就是將數(shù)據(jù)分布四等分的三個數(shù)值,其中中間的四分位數(shù)就是中位數(shù)(Q2),在25%位置上的分位數(shù)稱為下四分位數(shù)(Q1),在75%位置上的分位數(shù)稱為上四分位數(shù)(Q3)。十分位數(shù)和百分位數(shù)分別是將數(shù)據(jù)分布10等分和100等分的數(shù)值。使用Excel軟件可以方便地得出數(shù)據(jù)的四分位數(shù)。延時符根據(jù)例11-3給出的數(shù)據(jù),求畢業(yè)生樣本收入數(shù)據(jù)的上四分位數(shù)和下四分位數(shù)。解:分四步進行解答。新建一Excel工作表,輸入收入數(shù)據(jù),如圖11-2所示?!纠?1-5】圖11-2數(shù)據(jù)輸入延時符在“公式”項下點擊“插入函數(shù)”,并在復(fù)選窗口選擇“統(tǒng)計”,再點選“QUARTILE.EXC”,最后點擊“確定”,如圖11-3所示。圖11-3函數(shù)“QUARTILE.EXC”的調(diào)取延時符在彈出的對話框中,“Array”后選擇要處理的數(shù)據(jù)區(qū)域,“Quart”后填寫1,點擊“確定”,得到這組數(shù)據(jù)的下四分位數(shù)為2675元,如圖11-4所示。圖11-4函數(shù)參數(shù)的輸入及下四分位數(shù)結(jié)果的得出延時符重復(fù)上一步的操作,“Array”后選擇要處理的數(shù)據(jù)區(qū)域,“Quart”后填寫3,點擊“確定”,得到這組數(shù)據(jù)的上四分位數(shù)為3125元,如圖11-5所示。圖11-5函數(shù)參數(shù)的輸入及上四分位數(shù)結(jié)果的得出延時符④算術(shù)平均數(shù)。算術(shù)平均數(shù)亦稱均值,是總體各單位某一數(shù)量標(biāo)志的平均數(shù),它的基本形式是總體各單位某一標(biāo)志值的總和(標(biāo)志總量)除以總體單位總量。其計算公式為利用此公式時應(yīng)注意分子和分母必須屬于同一總體,分子的標(biāo)志總量應(yīng)是分母所有總體單位標(biāo)志值之和,分子與分母的范圍是一致的??傮w標(biāo)志總量是數(shù)量標(biāo)志值的和,由于品質(zhì)標(biāo)志不能相加,因而不能計算算術(shù)平均數(shù)。算術(shù)平均數(shù)是一個有名數(shù),計量單位應(yīng)和標(biāo)志值的計量單位一致。(11-2)延時符根據(jù)所得數(shù)據(jù)的形式不同,算術(shù)平均數(shù)的計算分為簡單算術(shù)平均數(shù)和加權(quán)算術(shù)平均數(shù)兩種形式。簡單算術(shù)平均數(shù)是將總體各單位的標(biāo)志值簡單相加求得標(biāo)志總量,然后除以總體單位總量得到的,其計算公式為式中,x為算術(shù)平均數(shù),xi為各單位標(biāo)志值,n為總體單位數(shù),∑為求和的符號。(11-3)延時符已知某工廠工人的工資情況如表11-5所示,求該工廠工人的月平均工資?!纠?1-7】表11-5某工廠工人工資水平分布情況延時符⑤幾何平均數(shù)。幾何平均數(shù)是各個標(biāo)志值連乘積的項數(shù)方根所得的平均水平。幾何平均數(shù)在計算社會經(jīng)濟問題的平均發(fā)展速度等方面發(fā)揮著重要作用。根據(jù)所得資料的形式不同,幾何平均數(shù)可分為簡單幾何平均數(shù)和加權(quán)幾何平均數(shù)兩種形式。延時符2011—2014年各年我國的國內(nèi)生產(chǎn)總值的發(fā)展速度如表11-6所示。試求這幾年間國內(nèi)生產(chǎn)總值的平均發(fā)展速度?!纠?1-8】表11-62011—2014年我國的國內(nèi)生產(chǎn)總值的發(fā)展速度延時符在資料分組的情況下每個變量值次數(shù)不相同時,計算幾何平均數(shù)應(yīng)采用加權(quán)幾何平均數(shù),公式如下其中f表示各標(biāo)志值出現(xiàn)的次數(shù),∑f表示次數(shù)之和。(11-6)延時符假如某銀行存款按復(fù)利計算,定期存款25年的年利率見表11-7,計算平均年利率?!纠?1-9】表11-7定期存款的年利率資料延時符(2)離中趨勢分析。平均數(shù)是概括數(shù)據(jù)的一種有效方法,但有時用平均數(shù)卻會使人們產(chǎn)生錯誤的認識。例如,一個社區(qū)的平均家庭戶收入可能是每年30萬,但如果這個均值是根據(jù)200戶非常貧困的家庭和20戶極其富有的家庭收入計算得來的,那么這一平均年收入就幾乎沒有代表性。離中趨勢是數(shù)據(jù)分布的另一個重要特征,它反映了各變量值遠離其中心值的程度,也從另一個側(cè)面說明了集中趨勢指標(biāo)的代表程度。延時符①極差。極差又稱全距,是一組數(shù)據(jù)中最大值與最小值之差。其計算公式為極差=最大的標(biāo)志值-最小的標(biāo)志值(11-7)一般說來,如果總體的標(biāo)準(zhǔn)差較大,從中取出的樣本的極差會大一些;如果總體的標(biāo)準(zhǔn)差較小,從中取出的樣本的極差也會小一些。反過來說,若樣本極差較大,表明總體取值較分散;若樣本極差較小,則總體取值相對集中。延時符根據(jù)例11-3中的數(shù)據(jù),計算畢業(yè)生樣本收入的極差。解:極差=最大的標(biāo)志值-最小的標(biāo)志值=3300-2600=700(元)?!纠?1-10】延時符極差是描述離中趨勢的最簡單指標(biāo),計算簡單直觀,也易于理解,但其數(shù)值大小易受極端值的影響,且不反映中間變量值的差異,因而不能準(zhǔn)確描述出數(shù)據(jù)的離中程度。②內(nèi)距。內(nèi)距是兩個四分位數(shù)之差,即內(nèi)距=上四分位數(shù)-下四分位數(shù)=Q3-Q1
(11-8)延時符根據(jù)例11-3中的數(shù)據(jù),計算畢業(yè)生樣本收入的內(nèi)距。解:由例11-5可知,畢業(yè)生樣本收入的上四分位數(shù)Q3=3125元,下四分位數(shù)Q1=2675元,內(nèi)距=上四分位數(shù)-下四分位數(shù)=Q3-Q1=3125-2675=450元。【例11-11】延時符比較極差和內(nèi)距,易發(fā)現(xiàn)極差會受到極端值的影響,而內(nèi)距基本不受極端值的影響。而且內(nèi)距反映的是中間50%數(shù)值大小的差異,顯示出了比極差更多的數(shù)據(jù)差異信息。
③方差與標(biāo)準(zhǔn)差??傮w的方差是總體各單位標(biāo)志值與算術(shù)平均數(shù)離差的平方的算術(shù)平均數(shù),用σ2表示,方差的平方根就是標(biāo)準(zhǔn)差,用σ表示。樣本的方差記做s2,樣本的標(biāo)準(zhǔn)差記做s。標(biāo)準(zhǔn)差是測度離中趨勢、離散程度最常用的指標(biāo)。延時符(11-9)(11-10)a.對于未分組資料,采用簡單平均式??傮w標(biāo)準(zhǔn)差式中,x為總體各個標(biāo)志值,μ為總體的均值,N為總體單位總數(shù)。樣本標(biāo)準(zhǔn)差式中,x為樣本各個標(biāo)志值,x為樣本的均值,n為總體單位總數(shù)。延時符b.對于分組資料,采用加權(quán)平均式??傮w標(biāo)準(zhǔn)差樣本標(biāo)準(zhǔn)差在單項式變量數(shù)列中,x代表各組標(biāo)志值;在組距式數(shù)列中,x代表各組組中值,f為各組對應(yīng)的次數(shù)。(11-11)(11-12)延時符從A社區(qū)中隨機抽取31個家庭組成樣本開展消防安全知識測驗,成績?nèi)绫?1-8所示,求測驗分數(shù)的標(biāo)準(zhǔn)差?!纠?1-12】表11-831個家庭的知識測驗分數(shù)延時符延時符④離散系數(shù)。極差、標(biāo)準(zhǔn)差都是使用絕對數(shù)來說明標(biāo)志值的差異程度或離中趨勢的,它們的大小不僅受離散程度的影響,而且受標(biāo)志值數(shù)列水平的影響,也就是說,同樣大小的變異度對于不同水平的標(biāo)志值數(shù)列來說,其表明的意義是不一樣的。例如,2000元的損失對于月薪4000元和月薪15000元的人來說,影響就大不相同。延時符所以說,對于兩個不同水平的數(shù)列,如果它們的絕對水平相差很大(平均數(shù)不同),就不能根據(jù)計算所得的變異指標(biāo)直接進行比較。另外,對于計量單位不同的數(shù)列,更不能用絕對數(shù)形式的標(biāo)志變異指標(biāo)做比較,因而需要計算其離散程度的相對指標(biāo)——離散系數(shù)。將變異指標(biāo)與代表數(shù)列水平的平均指標(biāo)聯(lián)系起來觀察,才能真正反映不同水平的變量數(shù)列的離散程度。離散系數(shù)的計算公式為
(11-13)延時符假設(shè)對從B社區(qū)抽選的樣本開展的消防安全知識測驗的平均分為70分,標(biāo)準(zhǔn)差為10分,那么根據(jù)例11.12中A社區(qū)的數(shù)據(jù),哪個社區(qū)測驗平均分的代表性更高?【例11-13】延時符
2.單變量統(tǒng)計推斷分析單變量統(tǒng)計推斷分析有兩個方面的工作:一是參數(shù)估計,即由對部分進行觀測取得的數(shù)據(jù)對研究對象整體的數(shù)量特征取值給出估計;二是假設(shè)檢驗,即由對部分進行觀測取得的數(shù)據(jù)對研究對象的數(shù)量規(guī)律性是否具有某種指定特征進行檢驗。(1)參數(shù)估計。所謂參數(shù)估計就是用樣本統(tǒng)計量去估計總體的參數(shù)。例如,用樣本均值x估計總體均值μ,用樣本方差s2估計總體方差σ2,用樣本比例p估計總體比例π等。參數(shù)估計的方法有點估計和區(qū)間估計兩種。延時符①點估計。點估計又稱定值估計,它是直接以樣本指標(biāo)數(shù)值(統(tǒng)計量)推斷總體指標(biāo)數(shù)值(參數(shù))的方法。點估計給出的只是總體縮小的一個估計數(shù)值,即沒有給出估計的精確或準(zhǔn)確程度,也沒有給出估計的可靠程度。因此,在實際推斷中,一般不單獨使用點估計的方法,而多采用區(qū)間估計的方法。但點估計是區(qū)間估計的基礎(chǔ),區(qū)間估計的置信區(qū)間是以點估計的值為中心的。因此在抽樣調(diào)查的估計理論中,點估計的方法與原理也很重要。延時符②區(qū)間估計。區(qū)間估計是指在一定的概率保證下,根據(jù)樣本指標(biāo)和抽樣極限誤差去推斷總體相應(yīng)指標(biāo)所在的可能范圍(置信區(qū)間)的方法。這個可能范圍通常用一個最低限和一個最高限構(gòu)成的區(qū)間來表示,并以一定的概率保證總體指標(biāo)的估計值在這兩個數(shù)值構(gòu)成的區(qū)間之內(nèi)。因此,它是利用樣本指標(biāo)去推斷總體指標(biāo)的主要方法。延時符要想深刻理解區(qū)間估計,就需要從以下3個方面來把握:a.區(qū)間估計是根據(jù)樣本指標(biāo)和抽樣極限誤差去估計總體指標(biāo)所在的范圍的。在區(qū)間估計中,由樣本統(tǒng)計量所構(gòu)造的總體參數(shù)的估計區(qū)間稱為置信區(qū)間。區(qū)間的最小值稱為置信下限,區(qū)間的最大值稱為置信上限。用公式表示為其中Δ為抽樣極限誤差(允許誤差)。(11-14)(11-15)b.區(qū)間估計所表示的是一個可能的范圍,而不是一個絕對可靠的范圍。總體指標(biāo)在這個范圍的判斷是不肯定的,其在一定范圍內(nèi)的判斷會有一定可靠程度,即置信水平、置信度,或者稱有一定概率保證。例如,總體均值落在以樣本均值為中心構(gòu)造的±1.96個抽樣平均誤差范圍之內(nèi)的概率為95%,落在兩個抽樣平均誤差范圍之內(nèi)的概率為95.45%。c.擴大抽樣極限誤差的范圍可以提高推斷的可靠程度,縮小抽樣極限誤差的范圍會降低推斷的可靠程度。即精確程度與推斷的可靠程度此消彼長。延時符如果總體方差未知,那么在大樣本條件下就可以用樣本方差s2代替總體方差σ2,這時總體均值μ在1-α置信水平下的置信區(qū)間可以寫為(11-17)如果是采取不重復(fù)抽樣,而且抽樣比很大時(一般大于5%),則抽樣分布的方差應(yīng)乘以修正系數(shù)
,這時總體均值μ在1-α置信水平下的置信區(qū)間可以寫為某研究機構(gòu)想估計在軟件公司工作的員工每周加班的平均時間,隨機抽取了一個36人的樣本,計算得到樣本的均值為14小時,樣本的標(biāo)準(zhǔn)差為18小時。試以95%的置信水平估計軟件公司員工每周加班時間的置信區(qū)間?!纠?1-14】(2)假設(shè)檢驗。假設(shè)檢驗是除參數(shù)估計之外的另一類重要的統(tǒng)計推斷問題。它是指對未知總體的某種特征提出某種假設(shè),再根據(jù)樣本資料來驗證該假設(shè)是否成立的推斷統(tǒng)計方法。假設(shè)檢驗的基本思想可以用小概率原理來解釋。所謂小概率原理,就是認為小概率事件在一次試驗中是幾乎不可能發(fā)生的。也就是說,如果對于總體的某個假設(shè)是真實的,那么不利于或不可能支持這一假設(shè)的小概率事件A在一次試驗中幾乎是不可能發(fā)生的,要是一次試驗中事件A竟然發(fā)生了,我們就有理由懷疑這一假設(shè)的真實性,從而拒絕這一假設(shè)。假設(shè)檢驗可分為以下4個基本步驟:①提出原假設(shè)和備擇假設(shè)。根據(jù)已知的信息,在經(jīng)過周密考慮之后提出原假設(shè)H0和備擇假設(shè)H1,假設(shè)的設(shè)定依據(jù)是原假設(shè)和備擇假設(shè)的定義。②選擇適當(dāng)?shù)臋z驗統(tǒng)計量,并根據(jù)樣本信息計算檢驗統(tǒng)計量的值。不同的假設(shè)檢驗問題需要選擇不同的統(tǒng)計量作為檢驗統(tǒng)計量。所謂檢驗統(tǒng)計量是根據(jù)樣本觀測結(jié)果計算得到的,并據(jù)以對原假設(shè)和備擇假設(shè)做出決策的某個樣本的統(tǒng)計量。檢驗前必須先確定用于檢驗的統(tǒng)計量,了解其分布特點。③選擇顯著性水平,確定臨界值。假設(shè)檢驗的基本原理就是根據(jù)檢驗統(tǒng)計量建立一個準(zhǔn)則,依據(jù)這個準(zhǔn)則和計算得到的檢驗統(tǒng)計量值,研究者就可以決定是否拒絕原假設(shè)。但統(tǒng)計量的哪些值將導(dǎo)致拒絕原假設(shè)而傾向于接受備擇假設(shè)?這就需要找出能夠拒絕原假設(shè)的統(tǒng)計量的所有可能取值,這些取值的集合稱為拒絕域(否定域)。拒絕域的大小與研究者事先選定的顯著性水平有一定的關(guān)系。在確定了顯著性水平α之后,就可以根據(jù)α值的大小確定出拒絕域的具體邊界值——臨界值。拒絕域的位置取決于檢驗是單側(cè)檢驗還是雙側(cè)檢驗。雙側(cè)檢驗的拒絕域在抽樣分布的兩側(cè)。而在單側(cè)檢驗中,如果備擇假設(shè)具有符號“<”,那么拒絕域就位于抽樣分布的左側(cè),故稱為左側(cè)檢驗;如果備擇假設(shè)具有符號“>”,那么拒絕域就位于抽樣分布的右側(cè),故稱為右側(cè)檢驗。在給定顯著性水平α條件下,拒絕域和臨界值可用圖11-6來表示。圖11-6顯著性水平、拒絕域和臨界值④將檢驗統(tǒng)計量值與臨界值進行比較并做出判斷。拒絕域是由顯著性水平α所圍成的區(qū)域。如果利用樣本觀測結(jié)果計算出來的檢驗統(tǒng)計量的具體數(shù)值落在了拒絕域內(nèi),就拒絕原假設(shè),否則就不能拒絕原假設(shè)。
(二)雙變量統(tǒng)計分析前面所講授的統(tǒng)計方法都屬于單變量的統(tǒng)計方法,即把總體看作一維的隨機變量。但是,構(gòu)成社會現(xiàn)象的研究更多的是指命題,即研究兩個或兩個以上概念間的關(guān)系,用統(tǒng)計語言表達就是研究變量x和變量y之間的關(guān)系。例如,溝通能力與收入的關(guān)系;文化程度與生育意愿的關(guān)系;年齡與人們愛好的關(guān)系;人格與個人事業(yè)成就的關(guān)系;等等,這些都屬于雙變量統(tǒng)計分析的內(nèi)容。由于變量存在不同的測定層次,雙變量統(tǒng)計分析有著不同的研究方法。需要說明的是,由于社會調(diào)查研究中很少能找到只滿足定距要求而不滿足定比要求的變量(除了智商IQ),因此常把定距和定比兩類合并為一類。按照以下三種方式劃分的雙變量的統(tǒng)計分析方法可制成如表11-9所示的二維矩陣。表11-9雙變量統(tǒng)計分析方法矩陣其中每一種(xi,yj)(i=1,2,3;j=1,2,3)的組合,都構(gòu)成了雙變量的一種特定的統(tǒng)計分析方法的討論。下面雙變量統(tǒng)計分析方法的介紹就是根據(jù)以上組合展開的。
1.兩個定類變量的相關(guān)測量如果兩個變量都是定類變量,那么在計算相關(guān)系數(shù)的時候,就可用λ系數(shù)和τ系數(shù)表示。這兩種系數(shù)都具有消減誤差比例的意義。(1)λ系數(shù)。λ系數(shù)的計算需要用到PRE(ProportionalReductioninError)這種方法。所謂PRE,就是減少誤差比例法,即變量間的相關(guān)程度可以用兩個誤差的相對差值的大小進行度量,其中一個誤差為當(dāng)不知道y與x有關(guān)系時,靠y本身的分布預(yù)測y的全部誤差,另一個誤差為當(dāng)知道y與x有關(guān)系時,用x去預(yù)測y的誤差。PRE的值越大,表示y和x的關(guān)系越密切,或者說相關(guān)程度越高。λ的值域在0和1之間。λ系數(shù)的計算分兩種形式:一種是非對稱形式,另一種是對稱形式。假設(shè)有r×c列聯(lián)表(見表11-10),則有表11-10r×c列聯(lián)表①非對稱形式。非對稱形式假設(shè)兩個變量的關(guān)系是非對稱的,即一個是自變量x,一個是因變量y,用自變量x來預(yù)測因變量y時,可以消減的誤差比例是多大,通常以符號λy表示,其計算公式為(11-20)同理,如果y為自變量,x為因變量,用自變量y來預(yù)測因變量x時,可以消減的誤差比例通常以符號λx表示,計算公式為(11-21)②對稱形式。對稱形式即假設(shè)兩個變量的關(guān)系是對稱的,在區(qū)分不出自變量和因變量時,可同時計算λy和λx,并取其平均λ值作為x和y間的相關(guān)程度,其公式是λ值只使用了眾數(shù)的頻次,資料信息使用不充分,如果全部眾數(shù)的頻次集中在交互分類表中的同一列或同一行中,那么λ系數(shù)便會等于0。因此,有些研究者用τ系數(shù)對定類變量的相關(guān)關(guān)系進行測量。(11-22)(2)τ系數(shù)。τ系數(shù)在運用PRE準(zhǔn)則時與λ系數(shù)不同,并有所修正。具體來說,當(dāng)不知x與y有關(guān)系預(yù)測y時,τ系數(shù)要充分考慮到y(tǒng)值邊緣分布所提供的信息,因此不再用眾數(shù)來對y進行預(yù)測,而是用邊緣分布所提供的比例來進行預(yù)測。τ系數(shù)值域在0和1之間。當(dāng)以x為自變量時,用對y的預(yù)測來定義PRE,得的τ值稱作τy,其公式為(11-23)同樣,如果y為自變量,用對x的預(yù)測來定義PRE,所得的τ值稱作τx,其公式為由于τ系數(shù)考慮了全部的次數(shù),所以比λ系數(shù)更可靠。因此,如果是非對稱關(guān)系,最好選用τ系數(shù)簡化兩個定類變量之間的關(guān)系。(11-24)
2.兩個定序變量的相關(guān)測量最常用的簡化兩個定序變量的相關(guān)測量有Gamma系數(shù)(通常用G表示)和d系數(shù)。Gamma系數(shù)適用于對稱關(guān)系,d系數(shù)適用于非對稱關(guān)系。兩者的取值都在-1和1之間,既表示相關(guān)的程度,也表示相關(guān)的方向,并且都具有消減誤差比例的意義。(1)Gamma系數(shù)。計算Gamma系數(shù)(G)的公式如下其中ns表示同序?qū)Φ臄?shù)目,nd表示異序?qū)Φ臄?shù)目。(11-25)同序?qū)κ侵感纬梢粚Φ膬蓚€個案在不同變量上的等級次序是相同的,也就是說其在變量x上的等級高低順序與在變量y上的等級高低相同。如果個案A在x變量上的等級為xa,在y變量上的等級為ya,個案B在x變量上的等級為xb,在y變量上的等級為yb。如果xa>xb,ya>yb,那么就稱個案A和B是同序?qū)?。而異序?qū)t是指某對個案中在不同變量上的等級次序不同,其中一個變量的等級高于對方,另一個變量的等級低于對方。如果個案A在x變量上的等級為xa,在y變量上的等級為ya,個案B在x變量上的等級為xb,在y變量上的等級為yb。如果xa>xb,ya<yb,那么就稱個案A和B是異序?qū)?。?)d系數(shù)。d系數(shù)的計算公式如下其中ns表示同序?qū)?shù);nd表示異序?qū)?shù);ny表示y變量的同分對。這里所說的y變量的同分對指的是在兩個個案中,變量y具有相同的等級。(11-26)由于dy系數(shù)考慮了因變量y的同分對,所以其數(shù)值小于Gamma系數(shù)值。值得說明的是,原則上需要用dy系數(shù)分析非對稱的關(guān)系,用Gamma系數(shù)分析對稱關(guān)系,但在一些研究中,即使區(qū)分了自變量和因變量,也選用Gamma系數(shù),這種做法是可以接受的。除了Gamma系數(shù)和d系數(shù)外,還有一些測量定序變量關(guān)系的方法,如肯德爾(Kendall)的τ系數(shù)和斯皮爾曼(Spearman)的等級相關(guān)系數(shù)rs等,具體可參考相關(guān)文獻。
3.兩個定距或定比變量的相關(guān)測量兩個定距或定比變量之間的相關(guān)關(guān)系可以用系數(shù)r、R2來表達。(1)樣本相關(guān)系數(shù)。相關(guān)系數(shù)是對變量之間密切程度的度量。對兩個定距或定比變量之間線性相關(guān)程度的度量稱為簡單相關(guān)系數(shù)。根據(jù)樣本數(shù)據(jù)計算的相關(guān)系數(shù)叫作樣本相關(guān)系數(shù),記為r。英國統(tǒng)計學(xué)家卡爾?皮爾森(KarlPearson)在1890年提出了一個測定兩變量線性相關(guān)的計算公式,其為相關(guān)系數(shù)r具有下面幾個性質(zhì):①相關(guān)系數(shù)的取值范圍在-1和+1之間,即-1≤r≤1。②若r為正,則表明兩變量為正相關(guān);若r為負,則表明兩變量為負相關(guān)。③│r│的數(shù)值越接近于1,表示相關(guān)系數(shù)越強;越接近于0,表示相關(guān)系數(shù)越弱。當(dāng)r=1或-1時,表示兩個現(xiàn)象完全線性相關(guān)。當(dāng)r=0時,則表示兩個現(xiàn)象完全不相關(guān)(不是直線相關(guān))。④判斷兩變量線性相關(guān)密切程度的具體標(biāo)準(zhǔn)為:若0≤│r│<0.3,則稱為微弱相關(guān);若0.3≤│r│<0.5,則稱為低度相關(guān);若0.5≤│r│<0.8,則稱為顯著相關(guān);若0.8≤│r│<1,則稱為高度相關(guān)。需要說明的是,皮爾森相關(guān)系數(shù)r只能測定兩個定距或定比變量之間存在的線性相關(guān)關(guān)系。也就是說,如果兩個變量之間│r│數(shù)值較大,也只能夠說明兩者之間存在較強的線性關(guān)系。如果兩者之間r為0,并不能說明兩個變量之間不存在除線性形式以外的其他形式的相關(guān)關(guān)系。所以,在計算兩個變量的相關(guān)系數(shù)時,應(yīng)該先使用散點圖觀察兩變量之間的函數(shù)形式,然后再使用相關(guān)系數(shù)來測量相關(guān)關(guān)系的方向和程度的大小。(2)可決系數(shù)(判定系數(shù))??蓻Q系數(shù)R2是對擬合優(yōu)度進行度量的一種方法。所謂擬合優(yōu)度,指的是對所估計出的樣本回歸線考察其對樣本觀測數(shù)據(jù)擬合的優(yōu)劣程度。如果樣本回歸線對樣本觀測值擬合程度越好,各樣本觀測點與回歸線靠得越近,由樣本回歸做出解釋的離差平方和在總離差平方和中占的比重也將越大;反之,擬合程度越差,這部分所占比重就越小??蓻Q系數(shù)R2的公式為(11-29)可決系數(shù)R2有如下特點:①可決系數(shù)R2是非負的統(tǒng)計量。②可決系數(shù)R2取值范圍為0≤R2≤1。③可決系數(shù)R2是樣本觀測值的函數(shù),是隨抽樣而變動的隨機變量。④在一元線性回歸中,可決系數(shù)R2在數(shù)值上是簡單線性相關(guān)系數(shù)的平方:
4.定類變量與定序變量的相關(guān)測量由于定序變量具有定類變量層次的數(shù)學(xué)特征,因此,大部分社會調(diào)查研究者在分析定類變量和定序變量時,都采用λ系數(shù)和τ系數(shù),也就是將定序變量作為定類變量來看待,雖然這種做法會損失定序變量的一些數(shù)學(xué)特質(zhì),但統(tǒng)計起來較為方便。
5.定類變量與定距變量的相關(guān)測量定類變量和定距變量的測量一般采用相關(guān)比率E2表示,它是根據(jù)自變量的每一個值來預(yù)測或估計因變量的均值,具有消減誤差比例的意義,其取值范圍為0~1。相關(guān)比率E2開方后可得到相關(guān)系數(shù)E,因為有一個變量是定類變量,所以E系數(shù)沒有負值。其計算公式如下(11-30)
6.定序變量與定距變量的相關(guān)測量在定序變量和定距變量的測量中,通常也是采用相關(guān)比率E2來進行測量的,也就是把定序變量作定類變量處理。在分析定序變量和定距變量的關(guān)系時,除了采用相關(guān)比率系數(shù)外,社會調(diào)查研究中也會采用積矩相關(guān)系數(shù)甚至線性回歸,其基本的邏輯是定序變量通過賦值作為定距變量進行統(tǒng)計。
(三)多變量統(tǒng)計分析多變量統(tǒng)計分析又稱多元統(tǒng)計分析,是指涉及三個及三個以上變量(其中至少一個因變量)的統(tǒng)計分析方法。社會現(xiàn)象之間的復(fù)雜性使人們認識到正確使用多變量分析,通常會比只進行單變量和雙變量分析更具有解釋力。20世紀(jì)80年代以來,隨著計算機的普及和統(tǒng)計軟件的廣泛應(yīng)用,多變量統(tǒng)計分析方法迅速發(fā)展,現(xiàn)已發(fā)展成為一個各種方法互相交叉、內(nèi)容豐富、層次復(fù)雜的龐大體系。囿于篇幅,下面簡略地介紹幾種比較常用的多變量統(tǒng)計分析方法。
1.多元相關(guān)分析在雙變量分析中,是用一個統(tǒng)計量(如相關(guān)系數(shù)λ、G、r等)反映兩個變量間的相關(guān)關(guān)系的。當(dāng)變量達到三個或三個以上時,相關(guān)關(guān)系的分析就屬于多元相關(guān)分析或多變量相關(guān)分析的范疇了。多元相關(guān)分析也是用一個統(tǒng)計量(如偏相關(guān)系數(shù)、復(fù)相關(guān)系數(shù)等)來簡化和反映多個變量之間的相互依存關(guān)系的,只不過這種關(guān)系更加復(fù)雜。與多元相關(guān)分析直接有關(guān)的方法有偏相關(guān)分析、復(fù)相關(guān)分析和典型相關(guān)分析等。(1)偏相關(guān)分析。偏相關(guān)分析指的是在控制了其他變量影響的情況下,用一個統(tǒng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- JJF 2184-2025電子計價秤型式評價大綱(試行)
- 校園各項消防安全管理工作計劃三篇
- 【可行性報告】2025年防毒面具項目可行性研究分析報告
- 照明工業(yè)刻錄機行業(yè)行業(yè)發(fā)展趨勢及投資戰(zhàn)略研究分析報告
- 音樂一年級下冊教學(xué)計劃
- 開學(xué)典禮演講稿范文15篇
- 志愿者2022工作計劃安排三篇
- 語文教研組工作計劃
- 中航重機驗資報告
- 工作保證書集合15篇
- 軍工合作合同范例
- 2025年中國稀土集團總部部分崗位社會公開招聘管理單位筆試遴選500模擬題附帶答案詳解
- 超市柜臺長期出租合同范例
- 廣東省廣州市2025屆高三上學(xué)期12月調(diào)研測試語文試題(含答案)
- 【8物(科)期末】合肥市第四十五中學(xué)2023-2024學(xué)年八年級上學(xué)期期末物理試題
- 統(tǒng)編版2024-2025學(xué)年三年級語文上冊期末學(xué)業(yè)質(zhì)量監(jiān)測試卷(含答案)
- 從0 開始運營抖?音號sop 文檔
- Module7 Unit2 This little girl can't walk(Period 1) (教學(xué)實錄) -2024-2025學(xué)年外研版(三起)英語五年級上冊
- 2024年01月11190當(dāng)代中國政治制度期末試題答案
- 2024-2025學(xué)年深圳市初三適應(yīng)性考試模擬試卷歷史試卷
- 16J914-1 公用建筑衛(wèi)生間
評論
0/150
提交評論