(最新)分類數(shù)據(jù)分析課件_第1頁
(最新)分類數(shù)據(jù)分析課件_第2頁
(最新)分類數(shù)據(jù)分析課件_第3頁
(最新)分類數(shù)據(jù)分析課件_第4頁
(最新)分類數(shù)據(jù)分析課件_第5頁
已閱讀5頁,還剩84頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、分類數(shù)據(jù)分析PowerPoint統(tǒng)計(jì)學(xué)概 述 第七、八章介紹的估計(jì)和檢驗(yàn)方法僅主要針對(duì)數(shù)值型變量。而列聯(lián)分析是針對(duì)分類變量進(jìn)行分析的方法。第 9 章 分類數(shù)據(jù)分析9.1 分類數(shù)據(jù)與c2統(tǒng)計(jì)量 9.2 擬合優(yōu)度 檢驗(yàn)9.3 列聯(lián)分析:獨(dú)立性檢驗(yàn)9.4 列聯(lián)表中的相關(guān)測(cè)量9.5 列聯(lián)分析中應(yīng)注意的問題學(xué)習(xí)目標(biāo)1.解釋列聯(lián)表進(jìn)行 c2 檢驗(yàn)擬合優(yōu)度檢驗(yàn)獨(dú)立性檢驗(yàn)3.測(cè)度列聯(lián)表中的相關(guān)性9.1 分類數(shù)據(jù)9.1.1 分類數(shù)據(jù)補(bǔ)充:列聯(lián)表的構(gòu)造 列聯(lián)表的分布9.1.2 2統(tǒng)計(jì)量分類數(shù)據(jù)分類變量的取值表現(xiàn)為類別例如:性別 (男, 女)各類別可用符號(hào)或數(shù)字代碼來測(cè)度例如:性別 (男用1表示, 女用0表示)順序

2、數(shù)據(jù)也可以看作分類數(shù)據(jù)原料的質(zhì)量等級(jí):一等品、二等品、三等品數(shù)值型數(shù)據(jù)也可以轉(zhuǎn)化為分類數(shù)據(jù)數(shù)學(xué)期末考試成績是一個(gè)數(shù)值型數(shù)據(jù),可以根據(jù)分?jǐn)?shù)段將成績?yōu)椤皟?yōu)秀”、“良好”、“及格”和“不及格”幾個(gè)類別對(duì)分類數(shù)據(jù)的描述和分析通常使用列聯(lián)表列聯(lián)表的構(gòu)造列聯(lián)表(contingency table)由兩個(gè)以上的變量交叉分類的頻數(shù)分布表行變量的類別用 r 表示, ri 表示第 i 個(gè)類別列變量的類別用 c 表示, cj 表示第 j 個(gè)類別每種組合的觀察頻數(shù)用 fij 表示表中列出了行變量和列變量的所有可能的組合,所以稱為列聯(lián)表一個(gè) R 行 C 列的列聯(lián)表稱為 R C 列聯(lián)表列聯(lián)表的結(jié)構(gòu)(2 2 列聯(lián)表)列(

3、cj )合計(jì)j =1j =1i =1f11f12f11+ f12i =2f21f22f21+ f22合計(jì)f11+ f21f12+ f22n列(cj)行 (ri)列聯(lián)表的結(jié)構(gòu)(r c 列聯(lián)表的一般表示)列(cj)合計(jì)j =1j = 2i =1f11f12r1i = 2f21f22r2:合計(jì)c1c2n列(cj)行(ri)fij 表示第 i 行第 j 列的觀察頻數(shù)列聯(lián)表(例題分析)一分公司二分公司三分公司四分公司合計(jì)贊成該方案68755779279反對(duì)該方案32753331141合計(jì)10012090110420【例】一個(gè)集團(tuán)公司在四個(gè)不同的地區(qū)設(shè)有分公司,現(xiàn)該集團(tuán)公司欲進(jìn)行一項(xiàng)改革,此項(xiàng)改革可能涉及

4、到各分公司的利益,故采用抽樣調(diào)查方式,從四個(gè)分公司共抽取420個(gè)樣本單位(人),了解職工對(duì)此項(xiàng)改革的看法,調(diào)查結(jié)果如下表列聯(lián)表的分布觀察值的分布邊緣頻數(shù)行邊緣分布(頻數(shù))行觀察值的合計(jì)數(shù)的分布例如,贊成改革方案的共有279人,反對(duì)改革方案的141人列邊緣分布(頻數(shù))列觀察值的合計(jì)數(shù)的分布例如,四個(gè)分公司接受調(diào)查的人數(shù)分別為100人,120人,90人,110人條件分布與條件頻數(shù)表中每個(gè)具體的觀察值都是變量 X 條件下變量 Y 的頻數(shù),或在變量 Y 條件下變量 X 的頻數(shù),稱為條件分布(頻數(shù))觀察值的分布(圖示)一分公司二分公司三分公司四分公司合計(jì)贊成該方案68755779279反對(duì)該方案3275

5、3331141合計(jì)10012090110420行邊緣分布列邊緣分布條件頻數(shù)百分比分布(概念要點(diǎn))條件頻數(shù)反映了數(shù)據(jù)的分布,但不適合對(duì)比如二分公司贊成人數(shù)比一分公司多,并不表明二分公司比一分公司更贊成該方案,因?yàn)閮晒菊{(diào)查人數(shù)不同。為在相同的基數(shù)上進(jìn)行比較,可以計(jì)算相應(yīng)的百分比,稱為百分比分布行百分比:行的每一個(gè)觀察頻數(shù)除以相應(yīng)的行合計(jì)數(shù)(fij / ri)列百分比:列的每一個(gè)觀察頻數(shù)除以相應(yīng)的列合計(jì)數(shù)( fij / cj )總百分比:每一個(gè)觀察值除以觀察值的總個(gè)數(shù)( fij / n )百分比分布(圖示)一分公司二分公司三分公司四分公司合計(jì)贊成該方案6875577966.4%24.4%26.9%

6、20.4%28.3%68.0%62.5%63.3571.8%16.2%17.8%13.6%18.8%反對(duì)該方案3245333133.6%22.7%31.9%23.4%22.0%32.0%37.5%36.7%28.2%7.6%10.7%7.9%7.4%合計(jì)23.8%28.6%21.4%26.2%100%總百分比列百分比行百分比列聯(lián)分析是利用列聯(lián)表來研究: ( ) A. 兩個(gè)分類變量的關(guān)系 B . 兩個(gè)數(shù)值型變量的關(guān)系 C. 一個(gè)分類變量和一個(gè)數(shù)值型變量的關(guān)系 D. 兩個(gè)數(shù)值型變量的分布 以下列聯(lián)表中,最右邊一列稱為:( ) A. 列邊緣頻數(shù); B. 行邊緣頻數(shù); C. 條件頻數(shù); D. 總頻數(shù)練

7、 習(xí) (1)AB男學(xué)生女學(xué)生合計(jì)贊成454287反對(duì)10578183合計(jì)150120270(3) 對(duì)于學(xué)生宿舍上網(wǎng)收費(fèi)的新措施,男女學(xué)生的抽樣調(diào)查結(jié)果如下列聯(lián)表所示,在男女生贊成的比例相同的前提下,男女生贊成該措施的期望頻數(shù)分別為: ( ) A. 48和39 B . 102和81 C. 15和14 D. 25和19 A男學(xué)生女學(xué)生合計(jì)贊成454287反對(duì)10578183合計(jì)150120270 統(tǒng)計(jì)量概 述 2檢驗(yàn)(Chi-square test)是現(xiàn)代統(tǒng)計(jì)學(xué)的創(chuàng)始人之一,英國人K . Pearson(1857-1936)于1900年提出的一種具有廣泛用途的統(tǒng)計(jì)方法,因此又稱為Pearson 2

8、檢驗(yàn)??捎糜趦蓚€(gè)或多個(gè)率或構(gòu)成比間的比較,定性資料的關(guān)聯(lián)度分析,擬合優(yōu)度檢驗(yàn)等等。 統(tǒng)計(jì)量用于檢驗(yàn)列聯(lián)表中變量間擬合優(yōu)度和獨(dú)立性檢驗(yàn)統(tǒng)計(jì)量為: 或2統(tǒng)計(jì)量可以看作是檢驗(yàn)真實(shí)值與期望值的接近程度。 統(tǒng)計(jì)量分布與自由度的關(guān)系 9.2 擬合優(yōu)度檢驗(yàn)(goodness of fit test) 統(tǒng)計(jì)量擬合優(yōu)度檢驗(yàn):用于檢驗(yàn)一個(gè)分類變量中各類別的期望頻數(shù)和觀察頻數(shù)是否有顯著差異。其實(shí)際為假設(shè)檢驗(yàn)在原假設(shè)為觀察頻數(shù)和實(shí)際頻數(shù)一致的前提下,有如下檢驗(yàn)統(tǒng)計(jì)量:擬合優(yōu)度檢驗(yàn)的期望頻數(shù)的計(jì)算 若可求出第i行第j列元素的期望概率pij,則一個(gè)實(shí)際頻數(shù) fij 的期望頻數(shù)eij ,是總頻數(shù)的個(gè)數(shù) n 乘以該實(shí)際頻數(shù)

9、fij 的期望概率pij期望頻數(shù)的計(jì)算舉例 舉例:要檢驗(yàn)各分公司對(duì)某項(xiàng)改革方案的看法是否相同?一分公司二分公司三分公司四分公司贊成該方案實(shí)際頻數(shù)68755779反對(duì)該方案實(shí)際頻數(shù)32453331期望頻數(shù)的分布 (例題分析)一分公司二分公司三分公司四分公司贊成該方案實(shí)際頻數(shù)68755779期望頻數(shù)100*66.4%=66150*66.4%=8090*66.4%=60110*66.4%=73反對(duì)該方案實(shí)際頻數(shù)32753331期望頻數(shù)100*33.6%=34150*33.6%=4090*33.6%=30110*33.6%=37在全部420個(gè)樣本中,贊成改革方案的人數(shù)為279,占66.4%;反對(duì)的人數(shù)

10、占33.6%。在各分公司對(duì)改革方案看法相同的前提下,各分公司贊成(反對(duì))這項(xiàng)改革不同態(tài)度的期望頻數(shù)為分公司總樣本數(shù)*66.4%(33.6%)。等價(jià)于檢驗(yàn)各分公司贊成方案的實(shí)際頻數(shù)與期望頻數(shù)是否一致。期望頻數(shù)的分布 (例題分析)A公司B公司其它公司廣告后購買人數(shù)實(shí)際頻數(shù)1028216期望頻數(shù)2000.452000.42000.15 在廣告宣傳戰(zhàn)之前,A公司、B公司和其它公司的市場(chǎng)占有率分別為45%、40%和15%。上表給出了廣告后對(duì)200個(gè)消費(fèi)者購買意愿的調(diào)查的結(jié)果,檢驗(yàn)廣告戰(zhàn)前后各公司的市場(chǎng)占有率是否發(fā)生了變化 ? 等價(jià)于檢驗(yàn)三個(gè)公司的期望購買人數(shù)和實(shí)際購買人數(shù)是否一致。擬合優(yōu)度檢驗(yàn)(例題分析

11、1-1)【例9.1】 1912年4月15日,豪華巨輪泰坦尼克號(hào)與冰山相撞沉沒。當(dāng)時(shí)船上共有共2208人,其中男性1738人,女性470人。海難發(fā)生后,幸存者為718人,其中男性374人,女性344人,以的顯著性水平( 0.05)檢驗(yàn)存活狀況與性別是否有關(guān)。擬合優(yōu)度檢驗(yàn)(例題分析1-2)分析:在這次海難中,幸存者共718人,即總存活比例為718/2208=0.325。若存活狀況與性別無關(guān),則男性存活的期望人數(shù)為:0.3251738565人,女性存活的期望人數(shù)為: 0.325470153人,若男女性期望的存活人數(shù)和實(shí)際的存活人數(shù)非常接近,則可以認(rèn)為存活率與性別無關(guān),反之,則認(rèn)為存狀況與性別相關(guān)。因

12、此可以利用2統(tǒng)計(jì)量來檢驗(yàn)。男女合計(jì)實(shí)際生存人數(shù)374344718總?cè)藬?shù)1738 4702208期望生存人數(shù)17380.3254700.325擬合優(yōu)度檢驗(yàn)(例題分析1-3)H0:生存狀況與性別無關(guān)(觀察頻數(shù)與期望頻數(shù)一致)H1:生存狀況與性別相關(guān)(觀察頻數(shù)與期望頻數(shù)不一致) = 0.05df = (2-1)= 1臨界值(s):統(tǒng)計(jì)量: 在 = 0.05的水平上拒絕H0有較充分的理由認(rèn)為生存狀況與性別相關(guān) 決策:結(jié)論:203.8415 =0.1擬合優(yōu)度檢驗(yàn)(例題分析2-1)【例】 一項(xiàng)統(tǒng)計(jì)結(jié)果聲稱:某市老年人口(年齡在65歲以上)所占的比例為14.7%,該市老年人口研究會(huì)為了檢驗(yàn)該項(xiàng)統(tǒng)計(jì)是否可靠,

13、隨機(jī)抽選了400名居民,發(fā)現(xiàn)其中有57人年齡在65歲以上。調(diào)查結(jié)果是否支持該市老年人口比例為14.7%的說法?(=0.05)。擬合優(yōu)度檢驗(yàn)(例題分析2-2)解:要回答觀察的老年人數(shù)與期望的老年人數(shù)是否一致,檢驗(yàn)如下假設(shè): H0:老年人口比例為14.7%(觀察頻數(shù)與期望頻數(shù)一致) H1:老年人口比例并非14.7%(觀察頻數(shù)與期望頻數(shù)不一致)老年人非老年人實(shí)際人數(shù)57343期望人數(shù)5000.147595000.853341擬合優(yōu)度檢驗(yàn)(例題分析2-3) = 0.05df = (2-1)= 1臨界值(s):注意:教材P223中作的雙側(cè)檢驗(yàn)有誤。統(tǒng)計(jì)量: 在 = 0.05的水平上接受H0有較充分的理由

14、認(rèn)為老年人比比例為14.7%相關(guān) 決策:結(jié)論:203.8415 =0.1擬合優(yōu)度檢驗(yàn)(例題分析2-1)注意:第8章介紹的總體比例檢驗(yàn)只能用于二項(xiàng)分布,而2統(tǒng)計(jì)量可用于多項(xiàng)分布的比例檢驗(yàn)。9.3 列聯(lián)分析:獨(dú)立性檢驗(yàn) 9.3.1 列聯(lián)表(已講)9.3.2 獨(dú)立性檢驗(yàn)兩個(gè)變量的獨(dú)立性檢驗(yàn)獨(dú)立變量檢驗(yàn)(goodness of fit test)檢驗(yàn)兩個(gè)分類變量是否獨(dú)立檢驗(yàn)的步驟提出假設(shè)H0:變量X和Y獨(dú)立j;H1: X和Y 不獨(dú)立 在原假設(shè)成立的前提下,可得到以下檢驗(yàn)統(tǒng)計(jì)量 進(jìn)行決策 根據(jù)顯著性水平和自由度(r-1)(c-1)查出臨界值2 若22,拒絕H0;若2 0.05(4)=9.488故拒絕H0

15、,接受H1 ,即地區(qū)和原料等級(jí)之間存在依賴關(guān)系,原料的質(zhì)量受地區(qū)的影響?yīng)毩⑿詸z驗(yàn)(例題分析2-1)【例】某集團(tuán)公司 欲進(jìn)行一項(xiàng)改革,從所屬的四個(gè)分公司中共隨機(jī)抽取了420名職工,了解它們對(duì)改革方案的態(tài)度(見下表),以=0.1的顯著性水平檢驗(yàn)員工態(tài)度是否受所在分公司的影響。一分公司二分公司三分公司四分公司贊成該方案實(shí)際頻數(shù)68755779反對(duì)該方案實(shí)際頻數(shù)32753331獨(dú)立性檢驗(yàn)(例題分析2-1) 解:若員工態(tài)度不受影響,則所在分公司與對(duì)改革方案的態(tài)度是相互獨(dú)立的??稍O(shè)定原假設(shè)和備擇假設(shè)分別為 (1) 確定假設(shè) H0: 員工所在分公司和對(duì)改革方案的態(tài)度是相互獨(dú)立的 H1:員工所在分公司和對(duì)改革

16、方案的態(tài)度并非相互獨(dú)立獨(dú)立性檢驗(yàn)(例題分析2-3)實(shí)際頻數(shù)(fij)期望頻數(shù)(eij)fij - eij(fij - eij)2(fij- eij)2eij687557793245333166806073344030372-5-36-253-64259364259360.06060.31250.15000.49320.11760.62500.30000.9730(2) 計(jì)算期望頻數(shù)及2統(tǒng)計(jì)量的值獨(dú)立性檢驗(yàn)(例題分析2-4)(3) 作出判斷 0.05(3)=7.8147.故接受H0。即員工所在分公司與其態(tài)度是相互獨(dú)立的。2檢驗(yàn)的實(shí)質(zhì)獨(dú)立性檢驗(yàn)等價(jià)于檢驗(yàn)多個(gè)比例是否相等或由期望的比例算出的期望頻數(shù)

17、與實(shí)際頻數(shù)是否相等。檢驗(yàn)的步驟提出假設(shè)H0:1 =p1, 2 =p2, j=pj; H1 1 =p1, 2 =p2, j=pj至少有一個(gè)不成立原假設(shè)意為在一個(gè)分類變量C的不同取值下,另一個(gè)分類變量R的某一類別的占該R比例是否等于某個(gè)期望比例2檢驗(yàn)的實(shí)質(zhì)在原假設(shè)成立的前提下,可得到以下檢驗(yàn)統(tǒng)計(jì)量若列聯(lián)表中其中一個(gè)分類變量只是考慮的一個(gè)類別的觀測(cè)值,則使用以下統(tǒng)計(jì)量(擬合優(yōu)度檢驗(yàn))進(jìn)行決策 根據(jù)顯著性水平和自由度(r-1)查出臨界值2 若22,拒絕H0;若22,拒絕H0;若22,接受H02檢驗(yàn)舉例(例題分析1-1)【例9.3】某集團(tuán)公司 欲進(jìn)行一項(xiàng)改革,從所屬的四個(gè)分公司中共隨機(jī)抽取了420名職工

18、,了解它們對(duì)改革方案的態(tài)度(見下表),以=0.1的顯著性水平檢驗(yàn)員工態(tài)度是否受所在分公司的影響。一分公司二分公司三分公司四分公司贊成該方案實(shí)際頻數(shù)68755779反對(duì)該方案實(shí)際頻數(shù)327533312檢驗(yàn)舉例(例題分析1-2) 解:若員工對(duì)改革方案的態(tài)度不受所在子公司的影響,四個(gè)分公司對(duì)贊成改革方案的比例是一致的。 ,設(shè)i為第i個(gè)分公司贊成改革方案的百分比)??稍O(shè)定原假設(shè)和備擇假設(shè)分別為: H0: 1= 2= 3= 4 H1: 1,2,3,4 不全相等2檢驗(yàn)舉例(例題分析1-3)實(shí)際頻數(shù)(fij)期望頻數(shù)(eij)fij - eij(fij - eij)2(fij- eij)2eij687557

19、793245333166806073344030372-5-36-253-64259364259360.06060.31250.15000.49320.11760.62500.30000.9730合計(jì):3.0319擬合優(yōu)度檢驗(yàn)(例題分析1-3)H0: 1= 2= 3= 4 H1: 1,2,3,4 不全相等 = 0.1df = (4-1)= 3臨界值(s):統(tǒng)計(jì)量: 在 = 0.1的水平上不能拒絕H0可以認(rèn)為四個(gè)分公司對(duì)改革方案的贊成比例是一致的 決策:結(jié)論:206.2153.0319 =0.12檢驗(yàn)(例題分析2-1)【例】 1912年4月15日,豪華巨輪泰坦尼克號(hào)與冰山相撞沉沒。當(dāng)時(shí)船上共有共

20、2208人,其中男性1738人,女性470人。海難發(fā)生后,幸存者為718人,其中男性374人,女性344人,以的顯著性水平( 0.05)檢驗(yàn)存活狀況與性別是否有關(guān)。男女合計(jì)實(shí)際生存人數(shù)374344718實(shí)際死亡人數(shù)136412614902檢驗(yàn)(例題分析2-2)分析:設(shè)男女存活率分別為1和2 若男女存活率相同,則均為718/2208=0.325 本問題等價(jià)于檢驗(yàn)如下假定: H0: 1=2 H1: 12男女合計(jì)實(shí)際生存人數(shù)374344718總?cè)藬?shù)1738 4702208期望生存人數(shù)17380.3254700.3252檢驗(yàn)(例題分析2-3)H0: 1=2H1: 12 = 0.05df = (2-1)

21、= 1臨界值(s):統(tǒng)計(jì)量: 在 = 0.05的水平上拒絕H0有較充分的理由認(rèn)為生存狀況與性別相關(guān) 決策:結(jié)論:203.8415 =0.1思 考 1問題1: 為什么2檢驗(yàn)采用右單側(cè)檢驗(yàn)而不采用雙邊檢驗(yàn)?答:因?yàn)閼?yīng)用2檢驗(yàn)時(shí),原假設(shè)H0實(shí)際上可以概括為: 觀測(cè)頻數(shù)期望頻數(shù),備擇假設(shè)H1為:觀測(cè)頻數(shù)期望頻數(shù),而2統(tǒng)計(jì)量的值越小,表明觀測(cè)頻率與期望頻率越接近,越因該接受原假設(shè),因此,拒絕域應(yīng)該在2分布的右側(cè),故采用右單側(cè)檢驗(yàn)。思 考 2問題2: 如何解釋2統(tǒng)計(jì)量的自由度為(R-1)(C-1)?C1C2C3C4合計(jì)R1RT1R2RT2R3RT3合計(jì)CT1CT2CT3CT4品質(zhì)數(shù)據(jù)的假設(shè)檢驗(yàn)品質(zhì)數(shù)據(jù)擬合

22、優(yōu)度(比例)檢驗(yàn)獨(dú)立性檢驗(yàn)Z 檢驗(yàn)一個(gè)總體 檢驗(yàn)Z 檢驗(yàn) 檢驗(yàn)兩個(gè)以上總體兩個(gè)總體(1) 對(duì)于學(xué)生宿舍上網(wǎng)收費(fèi)的新措施,男女學(xué)生的抽樣調(diào)查結(jié)果如下列聯(lián)表所示,如果要檢驗(yàn)?zāi)信澇缮暇W(wǎng)的比例( 1 和2 )是否相同,則提出的原假設(shè)為: ( ) A. H0: 1=2= 0.678 B . H0: 1=2= 45 C. H0: 1=2= 0.322 D. H0: 1=2= 42檢驗(yàn)(1)所使用的2統(tǒng)計(jì)量的自由度為( ) 采用( )(左側(cè),右側(cè),雙邊)檢驗(yàn) 練 習(xí) (2)C男學(xué)生女學(xué)生合計(jì)贊成454287反對(duì)10578183合計(jì)1501202701右側(cè)(3) 對(duì)于學(xué)生宿舍上網(wǎng)收費(fèi)的新措施,男女學(xué)生的抽

23、樣調(diào)查結(jié)果如下列聯(lián)表所示,如果要檢驗(yàn)?zāi)信澇缮暇W(wǎng)的比例是否相同,即檢驗(yàn)H0: 1=2= 0.322,若給定=0.05,得出的結(jié)論是: ( ) A. 拒絕原假設(shè) B . 不拒絕原假設(shè) C. 可以拒絕也可以不拒絕原假設(shè) D. 既不拒絕也不接收原假設(shè) B男學(xué)生女學(xué)生合計(jì)贊成454287反對(duì)10578183合計(jì)1501202709.4 列聯(lián)表中的相關(guān)測(cè)量9.4.1 相關(guān)系數(shù)9.4.2 列聯(lián)相關(guān)系數(shù)9.4.3 V 相關(guān)系數(shù)列聯(lián)表中的相關(guān)測(cè)量品質(zhì)相關(guān)對(duì)品質(zhì)數(shù)據(jù)(分類和順序數(shù)據(jù))之間相關(guān)程度的測(cè)度列聯(lián)表變量的相關(guān)屬于品質(zhì)相關(guān)列聯(lián)表相關(guān)測(cè)量的統(tǒng)計(jì)量主要有 相關(guān)系數(shù)列聯(lián)相關(guān)系數(shù)V 相關(guān)系數(shù) 相關(guān)系數(shù)(corr

24、elation coefficient)測(cè)度22列聯(lián)表中數(shù)據(jù)相關(guān)程度對(duì)于22 列聯(lián)表, 系數(shù)的值在01之間 相關(guān)系數(shù)計(jì)算公式為 相關(guān)系數(shù)(原理分析)一個(gè)簡化的 22 列聯(lián)表因素Y因素 X合計(jì)x1x2y1aba + by2cdc + d合計(jì)a + cb + dn 相關(guān)系數(shù) (原理分析)列聯(lián)表中每個(gè)單元格的期望頻數(shù)分別為將各期望頻數(shù)代入 的計(jì)算公式得 相關(guān)系數(shù) (原理分析)將入 相關(guān)系數(shù)的計(jì)算公式得ad 等于 bc , = 0,表明變量X 與 Y 之間獨(dú)立若 b=0 ,c=0,或a=0 ,d=0,意味著各觀察頻數(shù)全部落在對(duì)角線上,此時(shí)| =1,表明變量X 與 Y 之間完全相關(guān), | 越接近1,相關(guān)

25、程度越大,列聯(lián)表中變量的位置可以互換,的符號(hào)沒有實(shí)際意義,故取絕對(duì)值即可 相關(guān)系數(shù)取值范圍 (原理分析)對(duì)22列聯(lián)表,-1 1對(duì)非22列聯(lián)表,故對(duì)非22列聯(lián)表,系數(shù)將隨著R或C的變大而增大,且值沒有上限,故不適合用系數(shù)測(cè)定兩個(gè)變量的相關(guān)程度。列聯(lián)相關(guān)系數(shù)C(coefficient of contingency)列聯(lián)相關(guān)系數(shù)C用于測(cè)度大于22列聯(lián)表中數(shù)據(jù)的相關(guān)程度計(jì)算公式為C 的取值范圍是 ,其中m=min(R, C)C = 0表明列聯(lián)表中的兩個(gè)變量獨(dú)立C 的數(shù)值大小取決于列聯(lián)表的行數(shù)和列數(shù),并隨行數(shù)和列數(shù)的增大而增大列聯(lián)相關(guān)系數(shù)(優(yōu)缺點(diǎn))優(yōu)點(diǎn):計(jì)算簡單,對(duì)總體分布沒有任何要求。缺點(diǎn):根據(jù)不同行

26、和列計(jì)算的列聯(lián)相關(guān)系數(shù)不便于比較。V 相關(guān)系數(shù)(V correlation coefficient)由Gramer提出,計(jì)算公式為 V 的取值范圍是 0V1 V =0表明列聯(lián)表中的兩個(gè)變量獨(dú)立 V =1表明列聯(lián)表中的兩個(gè)變量完全相關(guān)不同行和列的列聯(lián)表計(jì)算的列聯(lián)系數(shù)不便于比較當(dāng)列聯(lián)表中有一維為2,min(r-1),(c-1)=1,此時(shí)V=列聯(lián)表中的相關(guān)測(cè)量(例題分析)【例9.2】一種原料來自三個(gè)不同地區(qū),原料質(zhì)量被分成三個(gè)不同等級(jí)。從這批原料中隨機(jī)抽取500件進(jìn)行檢驗(yàn),結(jié)果如下表。分別計(jì)算系數(shù)、C系數(shù)和V系數(shù),并分析相關(guān)程度(假設(shè)已檢驗(yàn)得到地區(qū)和材料質(zhì)量相關(guān))地區(qū)一級(jí)二級(jí)三級(jí)合計(jì)甲地區(qū)52642

27、4140乙地區(qū)605952171丙地區(qū)506574189合計(jì)162188150500列聯(lián)表中的相關(guān)測(cè)量 (例題分析)解:已知n=500,19.82,列聯(lián)表為33結(jié)論:三個(gè)系數(shù)均不高,表明產(chǎn)地和原料等級(jí)之 間的相關(guān)程度不高、C、V 的比較同一個(gè)列聯(lián)表,、C、V 的結(jié)果會(huì)不同在對(duì)不同列聯(lián)表變量之間的相關(guān)程度進(jìn)行比較時(shí),不同列聯(lián)表中的行與行、列與列的個(gè)數(shù)要相同,并且采用同一種系數(shù)(1) 對(duì)于學(xué)生宿舍上網(wǎng)收費(fèi)的新措施,男女學(xué)生的抽樣調(diào)查結(jié)果如下列聯(lián)表所示,如果要檢驗(yàn)?zāi)信澇缮暇W(wǎng)的比例是否相同,若根據(jù)數(shù)據(jù)計(jì)算得到|=1,則: ( ) A. 男學(xué)生全部贊成,女學(xué)生全部反對(duì) B . 男女學(xué)生全部都贊成 C

28、. 男女學(xué)生全部都反對(duì) D. 男學(xué)生全部贊成,女學(xué)生全部反對(duì);或男學(xué)生全部反對(duì),女學(xué)生全部贊成練 習(xí) (3)D男學(xué)生女學(xué)生合計(jì)贊成454287反對(duì)10578183合計(jì)150120270(2) 以下測(cè)度列聯(lián)表中數(shù)據(jù)的相關(guān)程度的參數(shù),取值范圍有可能不在0,1范圍內(nèi)的是:( ) A. 相關(guān)系數(shù) B . C相關(guān)系數(shù) C. V相關(guān)系數(shù) D. A、B、C都有可能 A9.4 列聯(lián)分析中應(yīng)注意的問題9.4.1 條件百分表的方向9.4.2 2分布的期望值準(zhǔn)則條件百分表的方向(1)列聯(lián)表中行列變量的置放位置習(xí)慣做法:將自變量X放在列頭,因變量Y放在行頭,條件百分比按照自變量的方向計(jì)算 例如:調(diào)查不同職業(yè)的人的價(jià)值

29、取向,職業(yè)看作自變量,價(jià)值取向?yàn)橐蜃兞浚?如左表,從左表數(shù)據(jù)可以看出:從事服務(wù)業(yè)的人更注重人情關(guān)系。價(jià)值取向Y職 業(yè) X制造業(yè)服務(wù)業(yè)物質(zhì)報(bào)酬%105724556人情關(guān)系%40283544合計(jì)件百分表的方向(2)列聯(lián)表中行列變量的置放位置(2) 如果因變量在樣本內(nèi)的分布不能代表其在總體內(nèi)的分布,仍以自變量方向計(jì)算百分比,就有可能歪曲事實(shí)。條件百分表的方向(3)例如:欲研究家庭狀況(自變量)對(duì)青少年犯罪(因變量)的影響。某地區(qū)從未犯罪的青少年有10000名,曾犯罪的青少年150名。如果從未犯罪的青年中抽取100名,從有犯罪記錄的青年中抽取75名,從左表調(diào)查結(jié)果是否可以說在完整家庭中,有29%的青少年犯罪?青少年行為家庭狀況完整家庭離異家庭犯罪%38293782未犯罪%9271818合計(jì)能 ,因?yàn)樵诜缸锴嗄曛谐槿〉臉颖颈壤绕湓诳傮w中的比例大。條件百分表的方向(4)例如:將計(jì)算百分比的方向交換,可得左表。則有:在未犯罪的100位青少年中,92%來自完整家庭,8%來自離異家庭。青少年行為行為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論