應用統(tǒng)計chapter9 列聯(lián)分析_第1頁
應用統(tǒng)計chapter9 列聯(lián)分析_第2頁
應用統(tǒng)計chapter9 列聯(lián)分析_第3頁
應用統(tǒng)計chapter9 列聯(lián)分析_第4頁
應用統(tǒng)計chapter9 列聯(lián)分析_第5頁
已閱讀5頁,還剩58頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第九章:列聯(lián)分析第9章列聯(lián)分析9.1分類數(shù)據(jù)與列聯(lián)表9.2c2

檢驗9.3列聯(lián)表中的相關測量9.4列聯(lián)分析中應注意的問題分類數(shù)據(jù)分類變量的結果表現(xiàn)為類別例如:性別(男,女)各類別用符號或數(shù)字代碼來測度使用分類或順序尺度你吸煙嗎?1.是;2.否你贊成還是反對這一改革方案?1.贊成;2.反對對分類數(shù)據(jù)的描述和分析通常使用列聯(lián)表可使用檢驗9.1

分類數(shù)據(jù)與列聯(lián)表9.1.1分類數(shù)據(jù)9.1.2列聯(lián)表的構造9.1.3列聯(lián)表的分布列聯(lián)表的構造列聯(lián)表

(contingencytable)由兩個以上的變量交叉分類的頻數(shù)分布表行變量的類別用r

表示,ri

表示第i

個類別列變量的類別用c

表示,cj

表示第j

個類別每種組合的觀察頻數(shù)用fij

表示表中列出了行變量和列變量的所有可能的組合,所以稱為列聯(lián)表一個

r行c

列的列聯(lián)表稱為r

c

列聯(lián)表列聯(lián)表的結構

(22列聯(lián)表)列(cj

)合計j=1j=1i=1f11f12f11+f12i=2f21f22f21+f22合計f11+f21f12+f22n列(cj)行(ri)列聯(lián)表的結構

(r

c

列聯(lián)表的一般表示)列(cj)合計j=1j=2…i=1f11f12…r1i=2f21f22…r2:::::合計c1c2…n列(cj)行(ri)fij

表示第i

行第j

列的觀察頻數(shù)列聯(lián)表

(例題分析)一分公司二分公司三分公司四分公司合計贊成該方案68755779279反對該方案32753331141合計10012090110420【例】一個集團公司在四個不同的地區(qū)設有分公司,現(xiàn)該集團公司欲進行一項改革,此項改革可能涉及到各分公司的利益,故采用抽樣調查方式,從四個分公司共抽取420個樣本單位(人),了解職工對此項改革的看法,調查結果如下表列聯(lián)表的分布觀察值的分布邊緣分布行邊緣分布行觀察值的合計數(shù)的分布例如,贊成改革方案的共有279人,反對改革方案的141人列邊緣分布列觀察值的合計數(shù)的分布例如,四個分公司接受調查的人數(shù)分別為100人,120人,90人,110人條件分布與條件頻數(shù)變量X條件下變量Y

的分布,或在變量Y

條件下變量X

的分布每個具體的觀察值稱為條件頻數(shù)觀察值的分布

(圖示)一分公司二分公司三分公司四分公司合計贊成該方案68755779279反對該方案32753331141合計10012090110420行邊緣分布列邊緣分布條件頻數(shù)百分比分布

(概念要點)條件頻數(shù)反映了數(shù)據(jù)的分布,但不適合對比為在相同的基數(shù)上進行比較,可以計算相應的百分比,稱為百分比分布行百分比:行的每一個觀察頻數(shù)除以相應的行合計數(shù)(fij

/ri)列百分比:列的每一個觀察頻數(shù)除以相應的列合計數(shù)(fij

/cj)總百分比:每一個觀察值除以觀察值的總個數(shù)(fij

/n

)百分比分布

(圖示)一分公司二分公司三分公司四分公司合計贊成該方案24.4%26.9%20.4%28.3%66.4%68.0%62.5%63.3571.8%—16.2%17.8%13.6%18.8%—反對該方案22.7%31.9%23.4%22.0%33.6%32.0%37.5%36.7%28.2%—7.6%10.7%7.9%7.4%—合計23.8%28.6%21.4%26.2%100%總百分比列百分比行百分比期望頻數(shù)的分布假定行變量和列變量是獨立的一個實際頻數(shù)fij

的期望頻數(shù)eij

,是總頻數(shù)的個數(shù)n乘以該實際頻數(shù)fij

落入第i

行和第j列的概率,即期望頻數(shù)的分布

(例題分析)由于觀察頻數(shù)的總數(shù)為n

,所以f11

的期望頻數(shù)e11應為例如,第1行和第1列的實際頻數(shù)為f11

,它落在第1行的概率估計值為該行的頻數(shù)之和r1除以總頻數(shù)的個數(shù)n

,即:r1/n;它落在第1列的概率的估計值為該列的頻數(shù)之和c1除以總頻數(shù)的個數(shù)n

,即:c1/n。根據(jù)概率的乘法公式,該頻數(shù)落在第1行和第1列的概率應為期望頻數(shù)的分布

(例題分析)一分公司二分公司三分公司四分公司贊成該方案實際頻數(shù)68755779期望頻數(shù)66806073反對該方案實際頻數(shù)32753331期望頻數(shù)344030379.2

c2檢驗9.2.1統(tǒng)計量9.2.2擬合優(yōu)度檢驗統(tǒng)計量卡方檢驗【非參數(shù)統(tǒng)計】對總體的具體形式不必作任何的限制性假設和不以總體參數(shù)具體數(shù)值估計為目的的推斷統(tǒng)計。能用于定性變量(即定名測定和序列測定的變量);方法直觀,易于理解,運算比較簡單。缺點是檢驗的功效不如參數(shù)檢驗方法。主要方法:χ2檢驗、曼—惠特尼U檢驗、等級相關檢驗、成對比較檢驗、游程檢驗、多個樣本的檢驗。2檢驗2檢驗是運用

2分布作為理論工具,在非參數(shù)統(tǒng)計中可用于對總體的分布或隨機變量的獨立性進行的檢驗。2檢驗是1900年由英國統(tǒng)計學家卡?皮爾生(K.Person)提出的,稱為皮爾生定理。當我們研究K(K>2)

個事件時,可以測定K

個觀察值與相應的理論值之間的差異,為此而構造的統(tǒng)計量稱為2

統(tǒng)計量。2檢驗且服從分布皮爾生定理說明,當樣本容量充分大時,樣本分成K

類,每類實際出現(xiàn)的次數(shù)用f0表示,其理論次數(shù)為fe,則2

統(tǒng)計量為(f0-fe)比較小時,χ2值也較??;(f0-fe)比較大時,χ2也較大。當χ2值大到按χ2分布超過設定的臨界值時,即為小概率事件,就可以認為實際結果與理論假設不一致。

(χ2)k=4α=0.05χ20.05(4)=9.488χ2

02檢驗2分布

(2

distribution)由阿貝(Abbe)

于1863年首先給出,后來由海爾墨特(Hermert)和卡·皮爾遜(K·Pearson)

分別于1875年和1900年推導出來分布的變量值始終為正分布的形狀取決于其自由度n的大小,通常為不對稱的正偏分布,但隨著自由度的增大逐漸趨于對稱,一般當k≥30時,χ2分布可用正態(tài)分布近似計算c2分布

(圖示)不同容量樣本的抽樣分布c2n=1n=4n=10n=20c2分布的使用

2檢驗的功效擬合優(yōu)度檢驗利用樣本信息對總體分布作出推斷,檢驗總體是否服從理論分布(正態(tài)分布或二項分布)。獨立性檢驗用于判斷2組或多組的資料是否彼此關聯(lián)。2擬合優(yōu)度檢驗擬合優(yōu)度檢驗主要是比較總體變量的期望或理論頻數(shù)與分布的觀察或實際的頻數(shù),確定期望值與觀察值之間是否存在差異。例如,航空業(yè)官員也許在理論上認為機票購買者的年齡服從某種特殊的分布。為了接受或拒絕該分布,隨機選取機票購買者年齡的真實樣本,使用擬合優(yōu)度檢驗比較觀察值與期望值。在皮鞋制造業(yè),生產(chǎn)商可以使用擬合優(yōu)度檢驗確定一年當中對其商品的需求是否服從均勻分布。 擬合優(yōu)度檢驗中用來對假設進行檢驗的檢驗統(tǒng)計量的形式如下:其中:觀察值頻數(shù);:期望值頻數(shù);k:類別總數(shù);c:樣本數(shù)據(jù)中的參數(shù)數(shù)量。因為期望頻數(shù)的總數(shù)必須等于觀察頻數(shù)的總數(shù),因此該檢驗丟失了一個自由度,即來自樣本的的觀察總數(shù)被作為期望頻數(shù)總數(shù)的總數(shù)。另外,在有些情況下,總體有參數(shù)。用樣本數(shù)據(jù)估計,以確定期望值的概率分布。每次進行估計,就丟失一個自由度。2擬合優(yōu)度檢驗擬合優(yōu)度檢驗的步驟檢驗步驟(1)對總體分布建立假設H0:總體服從某種理論分布H1:總體不服從該理論分布(2)抽樣并對樣本資料編成頻數(shù)分布(f0)(3)以“原假設H0為真”導出一組期望頻數(shù)(fe)(4)計算檢驗統(tǒng)計量χ2=∑(f0-fe)2/fe(5)χ2=∑(f0-fe)2/fe

給定的α查χ2表,得到臨界值(6)比較χ2值與臨界值作出檢驗判斷注意事項(1)各組理論頻數(shù)fe不得小于5,如不足5,可合并組;(2)為使組數(shù)不致太少,總頻數(shù)n>50;(3)根據(jù)具體情況確定自由度。2擬合優(yōu)度檢驗

(例題分析)【例1】有四家生產(chǎn)同種類型的產(chǎn)品在過去的一年里,市場份額穩(wěn)定在A公司47%,B公司34%,C公司11%,D公司8%.最近各家公司都開發(fā)了各自“新型和改進型”的產(chǎn)品代替當前在市場的產(chǎn)品。因此A公司市場營銷部門想知道這種新產(chǎn)品是否改變了市場份額。于是聘請了一家專門搞市場份額評估的公司。該評估公司組織進行一個抽樣調查:隨機選擇了該城市各大超市購物的207個消費者,以了解他們會選擇哪種產(chǎn)品。結果選用A、B、C、D公司產(chǎn)品的消費者比例如下:從抽樣結果判斷市場份額有沒有發(fā)生變化?

2擬合優(yōu)度檢驗

(例題1分析)步驟一:建立如下假設:

即各公司的市場份額沒有發(fā)生變化

即各公司的市場份額發(fā)生了變化步驟二:使用的檢驗統(tǒng)計量2擬合優(yōu)度檢驗

(例題1分析)步驟三:取。由于擬合優(yōu)度檢驗是單邊檢驗,因為零的表明分布是一致的。與零的任何偏差都是正的,這是因為是由平方和確定的,永遠不會是負值。在此題中,由于k=4,所以k-1=3,即自由度為3,在的條件下,臨界值為決策規(guī)則:如果計算得到的樣本檢驗統(tǒng)計量的值大于7.815,則拒絕原假設。

步驟四:由樣本計算樣本檢驗統(tǒng)計量的值,分以下幾步完成:(1)計算期望值(理論頻數(shù),見表)表:公司份額期望頻數(shù)的計算公司期望比例期望頻數(shù)()A47%(0.47)(207)=97.29B34%(0.34)(207)=70.38C11%(0.11)(207)=22.77D8%(0.08)(207)=16.562擬合優(yōu)度檢驗

(例題1分析)2擬合優(yōu)度檢驗

(例題1分析)(2)計算擬合優(yōu)度檢驗統(tǒng)計量由表=6.252擬合優(yōu)度檢驗

(例題1分析)步驟五:計算出的卡方檢驗統(tǒng)計量的值明顯小于臨界值,所以不拒絕原假設,即認為新產(chǎn)品沒有改變市場份額。

拒絕原假設2擬合優(yōu)度檢驗

(例題分析)

【例2】某消費者協(xié)會想確定市場上5種牌子的啤酒哪一種最受消費者歡迎。該協(xié)會隨機抽取1000名啤酒飲用者作為樣本進行如下的實驗:每個人得到5種牌子的啤酒各一瓶,但都未標明牌子;這5瓶啤酒分別寫著A、B、C、D、E字母的5張紙片隨機確定的順序送給每一個人。下表是根據(jù)樣本資料整理得到的各種牌子啤酒愛好者的頻數(shù)分布。判斷消費者對這幾種牌子的愛好有沒有差別.最喜歡的牌子人數(shù)A210B312C170D85E223合計10002擬合優(yōu)度檢驗

(例題2分析)解:如果沒有差別,那么,我們應該預期啤酒飲用者的人數(shù)呈均勻分布,或者每種牌子啤酒的愛好者占20%。H0:不同牌子飲用者人數(shù)服從均勻分布H1:不同牌子飲用者人數(shù)不服從均勻分布。顯著性水平為0.05,df=5-1=4,2

0.05,4=9.488拒絕域為2>9.488根據(jù)原假設,每種牌子啤酒愛好者人數(shù)的理論頻數(shù)為200由于136.4>9.488,所以拒絕原假設,認為消費者對各啤酒的愛好有差別,均勻分布不是最好的分布列聯(lián)表與獨立性檢驗是利用樣本資料對總體的兩個變量的數(shù)據(jù)是否彼此關聯(lián)的檢驗,如果不關聯(lián),即為獨立。列聯(lián)表形式(r×c)O11O21O31...Or1

O12O22O32...Or2

O13O23O33...Or3

………...… O1cO2cO3c...Orc

O1O2O3...Or

123...r行(r)列(c)1 2 3 … c xy合計

n.1 n.2 n.3 … n.c n 合計X的邊緣頻數(shù)y的邊緣頻數(shù)列聯(lián)表與獨立性檢驗檢驗步驟(1)對總體的兩個變量建立假設H0:兩變量獨立H1:兩變量關聯(lián)(2)將樣本資料編成r×c列聯(lián)表,并列出實際頻數(shù)Oij(3)計算理論頻數(shù)(4)計算檢驗統(tǒng)計量(5)

給定的α查χ2表,得到臨界值(6)比較χ2值與臨界值作出檢驗判斷列聯(lián)表與獨立性檢驗列聯(lián)表

列變量x

行變量y

1

2

L

c

合計

1

11O

12O

L

1cO

1O·(1On·)

2

21O

22O

L

2cO

2O·(2On·)

M

M

M

M

M

r

1rO

2rO

L

rcO

rO·(rOn·)

合計

1O·(1On·)

2O·(2On·)

L

cO·(cOn·)

n

列聯(lián)表與獨立性檢驗列聯(lián)表

列聯(lián)表與獨立性檢驗

(檢驗統(tǒng)計量)檢驗統(tǒng)計量的構造r·k=2×2的列聯(lián)表資料,χ2值簡算公式xy1212abcda+cb+da+bc+d合計合計n列聯(lián)表與獨立性檢驗

(檢驗統(tǒng)計量)列聯(lián)表與獨立性檢驗

(例題分析)【例1】在對某城市家庭的社會經(jīng)濟特征調查中,美國某調查同時想確定家庭的電話擁有量與汽車擁有量是否獨立。該公司對10000戶家庭組成的簡單隨機樣本進行調查,獲得資料如下表。設顯著性水平為0.01.列聯(lián)表與獨立性檢驗

(例題分析)解:建立如下的假設H0:汽車擁有量與電話擁有量是獨立的;H1:汽車擁有量與電話擁有量是不獨立的。列聯(lián)表與獨立性檢驗

(例題分析)列聯(lián)表與獨立性檢驗

(例題分析)將觀察頻數(shù)與理論頻數(shù)排在一起,并將理論頻數(shù)置于括號內,如表。由表計算得到檢驗統(tǒng)計量:由于顯著水平為0.01,(r-1)(k-1)=(3-1)(3-1)=4,查表得20.01,4=13.277<794.3,所以拒絕H0,也即汽車擁有量與電話擁有量不是獨立的。列聯(lián)表與獨立性檢驗

(例題分析)【例2】某啤酒廠生產(chǎn)三種類型的啤酒:淡啤酒、普通啤酒和黑啤酒。公司市場研究小組通過對三種啤酒的市場部分的分析,提出了這樣的問題,在啤酒飲用者中,男性和女性對這三種啤酒的偏好是否存在差異。如果對啤酒的偏好與啤酒飲用者的性別相互獨立,就會針對所有的啤酒進行廣告宣傳??墒?,如果啤酒的偏好與啤酒飲用者的性別相關,公司就會針對不同的市場目標進行促銷活動。于是選擇150名啤酒飲用者作為一個簡單隨機樣本。在品嘗了每種酒后,要求樣本中的每個人說出他們的偏好或第一選擇。研究結果如下表。試根據(jù)表中的數(shù)據(jù)檢驗啤酒飲用者的性別與啤酒的偏好是否相互獨立?列聯(lián)表與獨立性檢驗

(例題分析)表:男女啤酒飲用者的啤酒偏好抽樣結果(觀察頻數(shù))列聯(lián)表與獨立性檢驗

(例題分析)解:提出假設列聯(lián)表與獨立性檢驗

(例題分析)9.3列聯(lián)表中的相關測量9.3.1

相關系數(shù)9.3.2列聯(lián)相關系數(shù)9.3.3V

相關系數(shù)列聯(lián)表中的相關測量品質相關對品質數(shù)據(jù)(分類和順序數(shù)據(jù))之間相關程度的測度列聯(lián)表變量的相關屬于品質相關列聯(lián)表相關測量的統(tǒng)計量主要有相關系數(shù)列聯(lián)相關系數(shù)V

相關系數(shù)

相關系數(shù)

(correlationcoefficient)測度22列聯(lián)表中數(shù)據(jù)相關程度對于22列聯(lián)表,

系數(shù)的值在0~1之間

相關系數(shù)計算公式為

相關系數(shù)

(原理分析)一個簡化的22列聯(lián)表因素Y因素X合計x1x2y1aba+by2cdc+d合計a+cb+dn

相關系數(shù)

(原理分析)列聯(lián)表中每個單元格的期望頻數(shù)分別為將各期望頻數(shù)代入的計算公式得

相關系數(shù)

(原理分析)將入

相關系數(shù)的計算公式得ad等于bc

,=0,表明變量X與Y

之間獨立若b=0

,c=0,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論