版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第9章分類數(shù)據(jù)分析9.1分類數(shù)據(jù)與列聯(lián)表9.2獨(dú)立性檢驗(yàn)9.3列聯(lián)表中的相關(guān)測(cè)量9.4列聯(lián)分析中其他的問(wèn)題12導(dǎo)引——科學(xué)研究
什么是科學(xué)科學(xué)=數(shù)學(xué)?Or科學(xué)=技術(shù)?科學(xué)=計(jì)算機(jī)?上述均為科學(xué)的結(jié)果科學(xué)(EarlBabbie)是一種探索的方法是一種學(xué)習(xí)周圍事物的方法科學(xué)(Science)言之有理,符合邏輯經(jīng)驗(yàn)證據(jù),可以重復(fù)檢驗(yàn)科學(xué)研究科學(xué)研究Research就方法論(methodology)而言,人們從事的研究,不外乎異中求同、及同中求異,前者是在大量資料中發(fā)現(xiàn)其間的共同性(homothetic),而后者則是發(fā)現(xiàn)其間的異質(zhì)性(idiographic)。研究是一門「問(wèn)題」的學(xué)術(shù),旨在發(fā)現(xiàn)(非「創(chuàng)造」)有用的知識(shí)。研究的目的和價(jià)值在發(fā)掘知識(shí)并解決問(wèn)題,解決前人未曾解決的問(wèn)題科學(xué)研究科學(xué)研究目的敘述、預(yù)測(cè)、解釋及控制研究問(wèn)題之現(xiàn)象控制Control解釋Explanation預(yù)測(cè)Prediction敘述Description報(bào)導(dǎo)Reporting理解程度/努力程度最低最高科學(xué)研究科學(xué)研究類型問(wèn)題目標(biāo)&假設(shè)抽樣
實(shí)驗(yàn)
如何測(cè)量?描述知識(shí)基礎(chǔ)數(shù)據(jù)結(jié)論科學(xué)研究流程圖
設(shè)計(jì)要求統(tǒng)計(jì)分析圖形描述模型化估計(jì)和置信區(qū)間統(tǒng)計(jì)檢驗(yàn)引例引例1:禿頭與政治有西方專家研究發(fā)現(xiàn),前蘇聯(lián)最高首腦頭發(fā)多少居然與他們的政治風(fēng)格有關(guān),禿頭的激進(jìn),頭發(fā)濃密的保守,而且激進(jìn)和保守交替出現(xiàn):列寧禿頭,激進(jìn);斯大林發(fā)多,保守;赫魯曉夫禿頭,激進(jìn);勃列日涅夫發(fā)多,保守;安德羅波夫禿頭,激進(jìn);契爾年科夫發(fā)多,保守;戈?duì)柊蛦谭蚨d頭,激進(jìn)葉利欽雖然發(fā)多,卻最激進(jìn),但他不屬于前蘇聯(lián)引例引例3:有名字的奶牛產(chǎn)奶量更高英國(guó)紐卡斯?fàn)柕目茖W(xué)家,凱瑟琳·道格拉斯博士和皮特·羅林森博士表示,給奶牛起名字,并像對(duì)待人一樣去對(duì)待奶牛,這樣牛也高興了,放松了,產(chǎn)奶量也上去了,可以為每個(gè)奶牛場(chǎng)提高500品脫的年產(chǎn)量引例引例4:鸛鳥送子歐洲,人們把一種鳥稱為送子鳥相傳,送子鳥落到誰(shuí)家屋頂造巢,誰(shuí)家就會(huì)喜得貴子,幸福美滿。因此,在歐洲鄉(xiāng)村,你經(jīng)常能看到住家的屋頂煙囪上搭著一個(gè)平臺(tái),那是專為送子鳥準(zhǔn)備的,種神奇的送子鳥就是白鸛三種關(guān)系16三種關(guān)系17相關(guān)關(guān)系函數(shù)關(guān)系因果關(guān)系三種關(guān)系18函數(shù)關(guān)系19世紀(jì)末,德國(guó)數(shù)學(xué)家康托創(chuàng)立了集合論,人們把函數(shù)的定義提升到抽象的層次:設(shè)A,B是非空的集合,f是某一法則,若A中每個(gè)元素x,經(jīng)由法則f,總有集合B中確定的元素y與之對(duì)應(yīng),則稱f是定義在集合A上的一個(gè)函數(shù)圓的面積(S)與半徑之間非關(guān)系可表示為S=R2
;商品的銷售額(y)與銷售量(x)之間的關(guān)系可表示為y=pxp為單價(jià)三種關(guān)系三種關(guān)系因果關(guān)系科學(xué):因果律---力學(xué)規(guī)律描述任何物體的任何運(yùn)動(dòng),都是確定的;量子力學(xué)中位置和動(dòng)量不可以同時(shí)被確定的,但是其中之一是可以被精確地確定的,對(duì)于單個(gè)微觀粒子無(wú)法判斷其真實(shí)位置,但是服從統(tǒng)計(jì)規(guī)律,所以量子力學(xué)的因果律是統(tǒng)計(jì)規(guī)律的因果律宗教:因果報(bào)應(yīng):善惡終有報(bào),不是不報(bào),時(shí)辰未到玄學(xué):生死由命、富貴在天;緣份社會(huì)學(xué):三分天注定、七分靠打拼;陰謀論:MH370…….
虛假相關(guān)虛假相關(guān):相關(guān)不等于因果白血病的例子:生活在高壓線附近的孩子,由于輻射的原因,患白血病的機(jī)率會(huì)增加到平均值的3倍美國(guó)國(guó)家科學(xué)院于1996年發(fā)表了歷經(jīng)3年的研究結(jié)果,認(rèn)為高壓線環(huán)境與白血病發(fā)病率無(wú)關(guān)。美國(guó)國(guó)家癌癥研究所經(jīng)過(guò)歷經(jīng)7年涉及1200人的研究,于1997年發(fā)布了同樣的結(jié)論生活在高壓線附近的家庭通常比較貧困,導(dǎo)致白血病發(fā)病率較高的原因是其較差的生活和衛(wèi)生條件,而與高壓線本身無(wú)關(guān)23虛假相關(guān)虛假相關(guān):相關(guān)不等于因果公雞打鳴與太陽(yáng)升起24相關(guān)類型虛假相關(guān)26記?。航y(tǒng)計(jì)數(shù)據(jù)有相關(guān)性并不意味著兩個(gè)事件具有因果聯(lián)系,而具有因果聯(lián)系的兩件事從統(tǒng)計(jì)數(shù)據(jù)上看有時(shí)也并不相關(guān)我們肯定永遠(yuǎn)不能證明X是Y的原因,僅僅推斷存在一種關(guān)系因果關(guān)系只能被推斷,而不能毫無(wú)疑問(wèn)地加以證明虛假相關(guān)27涂爾干自殺論:信仰新教導(dǎo)致了人們的自殺?有兩個(gè)現(xiàn)象/因素——信仰新教(因素A),自殺率(因素B),統(tǒng)計(jì)表示,他們之間確實(shí)存在正相關(guān)運(yùn)用排除法,分析各種可能影響自殺率的因素(C、D、E、F……),發(fā)現(xiàn):人的自殺率跟他與其他人之間社會(huì)聯(lián)系紐帶的緊密程度(因素C)具有正相關(guān)(因素C影響因素B);也就是說(shuō),一個(gè)人與他人的聯(lián)系越少,就越容易陷入孤獨(dú)、生活上的困境等等而自殺。而新教徒之間的聯(lián)系的紐帶較為松弛;天主教徒之間的聯(lián)系比較緊密(因素C影響因素A)新教信仰并不是導(dǎo)致自殺的原因(證明因素A和因素B之間是虛假相關(guān)維持人和人之間良好的紐帶和溫情脈脈,才是解決現(xiàn)代社會(huì)孤獨(dú)、絕望等很多社會(huì)問(wèn)題的根本途徑虛假相關(guān)28統(tǒng)計(jì)探索:關(guān)于變量間關(guān)系的四個(gè)問(wèn)題從數(shù)據(jù)來(lái)看,變量間有關(guān)系嗎?如果有關(guān)系,關(guān)系有多強(qiáng)?是偶然的嗎?是因果關(guān)系嗎?統(tǒng)計(jì)與變量間關(guān)系解釋與預(yù)測(cè)自變量與因變量Y與X:兩條腿比一條腿有勁閃電和打雷爆米花銷售和垃圾袋使用發(fā)電量和熱天數(shù)廣告時(shí)間和用水量……統(tǒng)計(jì)與變量間關(guān)系不同類型變量的關(guān)系思考:引例中分別屬于?
自變量因變量分類型順序型數(shù)值型
分類型
順序型
數(shù)值型統(tǒng)計(jì)與變量間關(guān)系統(tǒng)計(jì)與變量間關(guān)系Independent(Predictor)VariablesMediatingVariablesDependent(Outcome)VariablesModeratingVariablesControlVariablesSmoking………………causes(bypeoplewithaspecialgene)cellstomutatethatcauses…….Cancer
(whencontrollingforage)
9.1分類數(shù)據(jù)列聯(lián)表分類變量(Categoricalvariable)分類變量的結(jié)果表現(xiàn)為類別,各類別用符號(hào)或數(shù)字代碼來(lái)測(cè)度,使用分類或順序尺度列贊成還是反對(duì)這一改革方案?1.贊成;2.反對(duì)你吸煙嗎?1.是;2.否對(duì)分類數(shù)據(jù)的描述和分析通常使用列聯(lián)表或復(fù)合條形圖分類變量間的關(guān)系列聯(lián)表(contingencytable)由兩個(gè)以上的變量交叉分類的頻數(shù)分布表行變量的類別用r
表示,ri
表示第i
個(gè)類別列變量的類別用c
表示,cj
表示第j
個(gè)類別每種組合的觀察頻數(shù)用fij
表示表中列出了行變量和列變量的所有可能的組合,所以稱為列聯(lián)表一個(gè)
r行c
列的列聯(lián)表稱為r
c
列聯(lián)表分類變量間的關(guān)系二維列聯(lián)表…:………::::nc2c1合計(jì)r2f22f21i=2r1合計(jì)f12j=2j=1f11i=1列(cj)列(cj)行(ri)fij
表示第i
行第j
列的觀察頻數(shù)分類變量間的關(guān)系(續(xù))三維列聯(lián)表
觀點(diǎn):贊成觀點(diǎn):不贊成
低收入中等收入高收入低收入中等收入高收入男201055810女25157279分類變量間的關(guān)系(續(xù))分類變量間的關(guān)系例析廣告公司想要了解觀眾的所得收入與電視節(jié)目收視是否相關(guān),其零假設(shè)為:
H0:電視節(jié)目的選擇與收入無(wú)關(guān)
H1:收入與選擇電視節(jié)目有關(guān)該公司抽取500戶為樣本,先用收入將樣本區(qū)分成高、中、低三類,再以收看電視的種類分成「運(yùn)動(dòng)」、「電影」、「新聞」三類所得資料列聯(lián)表分類變量間的關(guān)系分類變量間的關(guān)系圖示法41分類變量間的關(guān)系圖示法9.2獨(dú)立性檢驗(yàn)500*(250/500)*(250/500)=125500*(150/500)*(50/500)=15基于χ2統(tǒng)計(jì)量的獨(dú)立性檢驗(yàn)Criticalvalue=9.49數(shù)值法:有沒有關(guān)系?基于χ2統(tǒng)計(jì)量的獨(dú)立性檢驗(yàn)9.3列聯(lián)表中的相關(guān)性測(cè)量分類變量的相關(guān)性測(cè)量相關(guān)的強(qiáng)度主要是對(duì)分類(也可對(duì)順序數(shù)據(jù))之間相關(guān)程度的測(cè)度列聯(lián)表相關(guān)測(cè)量的統(tǒng)計(jì)量主要有相關(guān)系數(shù)列聯(lián)相關(guān)系數(shù)V
相關(guān)系數(shù)分類變量的相關(guān)性測(cè)量
相關(guān)系數(shù)(correlationcoefficient)測(cè)度22列聯(lián)表中數(shù)據(jù)相關(guān)程度對(duì)于22列聯(lián)表,
系數(shù)的值在0~1之間
相關(guān)系數(shù)計(jì)算公式為分類變量的相關(guān)性測(cè)量思路:簡(jiǎn)化的22列聯(lián)表為例合計(jì)x1x2y1aba+by2cdc+d合計(jì)a+cb+dn分類變量的相關(guān)性測(cè)量列聯(lián)表中每個(gè)單元格的期望頻數(shù)分別為將各期望頻數(shù)代入的計(jì)算公式得分類變量的相關(guān)性測(cè)量將入
相關(guān)系數(shù)的計(jì)算公式得若ad等于bc,=0,表明變量X與Y之間獨(dú)立;若b=0,c=0,或a=0,d=0,意味著各觀察頻數(shù)全部落在對(duì)角線上,此時(shí)||=1,表明變量X與Y之間完全相關(guān)列聯(lián)表中變量的位置可以互換,的符號(hào)沒有實(shí)際意義,故取絕對(duì)值即可分類變量的相關(guān)性測(cè)量C相關(guān)系數(shù)(coefficientofcontingency)用于測(cè)度大于22列聯(lián)表中數(shù)據(jù)的相關(guān)程度計(jì)算公式為C的取值范圍是0C<1C=0表明列聯(lián)表中的兩個(gè)變量獨(dú)立C的數(shù)值大小取決于列聯(lián)表的行數(shù)和列數(shù),并隨行數(shù)和列數(shù)的增大而增大根據(jù)不同行和列的列聯(lián)表計(jì)算的列聯(lián)系數(shù)不便于比較分類變量的相關(guān)性測(cè)量V相關(guān)系數(shù)(Vcorrelationcoefficient)計(jì)算公式為V的取值范圍是0V1V=0表明列聯(lián)表中的兩個(gè)變量獨(dú)立V=1表明列聯(lián)表中的兩個(gè)變量完全相關(guān)不同行和列的列聯(lián)表計(jì)算的列聯(lián)系數(shù)不便于比較當(dāng)列聯(lián)表中有一維為2,min[(r-1),(c-1)]=1,此時(shí)V=分類變量的相關(guān)性測(cè)量、C、V的比較同一個(gè)列聯(lián)表,、C、V的結(jié)果會(huì)不同不同的列聯(lián)表,、C、V的結(jié)果也不同在對(duì)不同列聯(lián)表變量之間的相關(guān)程度進(jìn)行比較時(shí),不同列聯(lián)表中的行與行、列與列的個(gè)數(shù)要相同,并且采用同一種系數(shù)Chi-SquareTests
ValuedfAsymp.Sig.(2-sided)PearsonChi-Square21.174a4.000LikelihoodRatio19.4694.001NofValidCases500
a.0cells(0.0%)haveexpectedcountlessthan5.Theminimumexpectedcountis10.00.SymmetricMeasuresc
ValueApprox.Sig.NominalbyNominalPhi.206.000Cramer'sV.146.000ContingencyCoefficient.202.000NofValidCases500
c.Correlationstatisticsareavailablefornumericdataonly.分類變量的相關(guān)性測(cè)量559.4列聯(lián)分析中其他的問(wèn)題條件百分比的方向一般自變量放在列,因變量在行但如果擴(kuò)大因變量某項(xiàng)的樣本量,可能會(huì)歪曲真相條件百分比的方向58條件百分比的方向59列聯(lián)分析的樣本量要求χ2分布的期望值準(zhǔn)則如果只有兩個(gè)單元,每個(gè)單元的期望頻數(shù)必須大于等于5如果兩個(gè)以上單元,20%以上的單元期望頻數(shù)大于等于5關(guān)系的掩蓋與扭曲重要的第三變量Simpson’sParadoxAssociationoftwovariableswithoutthethirdleadstoaspecificconclusion.Associationoftwovariableswiththethirdvariableleadstotheoppositeconclusions分類變量間的關(guān)系(續(xù))緣由順序變量比分類
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)學(xué)創(chuàng)新研究探索
- 大學(xué)生就業(yè)協(xié)議書(2篇)
- 2024年跨境電子商務(wù)平臺(tái)建設(shè)與運(yùn)營(yíng)合同
- 2025年電子POS機(jī)租賃及系統(tǒng)維護(hù)一體化合同3篇
- 電梯維保承包合同
- 簡(jiǎn)單的股份轉(zhuǎn)讓協(xié)議書范本
- 2024年麻石欄桿工程監(jiān)理合同
- 1 我們愛整潔 ( 說(shuō)課稿)-2023-2024學(xué)年道德與法治一年級(jí)下冊(cè)統(tǒng)編版
- 2024年版物業(yè)管理服務(wù)合同詳細(xì)條款
- 《勞動(dòng)合同法》87條
- 小學(xué)語(yǔ)文教研組期末考試質(zhì)量分析
- 《五年級(jí)奧數(shù)總復(fù)習(xí)》精編課件
- TS2011-16 帶式輸送機(jī)封閉棧橋圖集
- 校園安全存在問(wèn)題及對(duì)策
- 多聯(lián)機(jī)的施工方案與技術(shù)措施
- 鉆井作業(yè)常見安全隱患
- 新型肥料配方設(shè)計(jì)與加工PPT課件
- 國(guó)際色卡四色模擬專色CMYK色值對(duì)照表
- 裝飾施工階段安全檢查表
- 輥壓成型在汽車輕量化中應(yīng)用的關(guān)鍵技術(shù)及發(fā)展-北方工業(yè)大學(xué)
- 地理信息系統(tǒng)原理全冊(cè)配套完整課件
評(píng)論
0/150
提交評(píng)論