




已閱讀5頁(yè),還剩30頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1,流行病學(xué)數(shù)據(jù)的分析處理方法,山東大學(xué)公共衛(wèi)生學(xué)院 School of Public Health Shandong University,流行病與衛(wèi)生統(tǒng)計(jì)學(xué)研究所,2,流行病學(xué)數(shù)據(jù)分析前的準(zhǔn)備工作,一、原始數(shù)據(jù)的檢查 在數(shù)據(jù)分析前需要對(duì)原始的流行病學(xué)調(diào)查研究數(shù)據(jù)進(jìn)行一次審查,發(fā)現(xiàn)可能存在的錯(cuò)誤、遺漏的研究變量取值和其他問(wèn)題,并采取相應(yīng)的措施進(jìn)行處理。 若在調(diào)查表中發(fā)現(xiàn)有缺失的數(shù)據(jù),可以通過(guò)電話(huà)再次詢(xún)問(wèn)研究對(duì)象、查閱有關(guān)的記錄、應(yīng)用儲(chǔ)存的血液標(biāo)本重新檢測(cè)或再次取樣等措施進(jìn)行補(bǔ)充。 若發(fā)現(xiàn)邏輯錯(cuò)誤,也要及時(shí)改正。需要對(duì)調(diào)查問(wèn)卷進(jìn)行編碼或者對(duì)已編碼的問(wèn)卷進(jìn)行核查,避免重復(fù)和遺漏。,3,二、選擇合適的數(shù)據(jù)管理和數(shù)據(jù)分析軟件 常用的數(shù)據(jù)管理軟件 Microsoft FoxPro、Microsoft Access、Microsoft Excel 這些數(shù)據(jù)管理軟件也具有簡(jiǎn)單的數(shù)據(jù)分析功能,Excel的數(shù)據(jù)分析功能更強(qiáng),不僅可實(shí)現(xiàn)描述性統(tǒng)計(jì),還可以做t檢驗(yàn)、方差分析、相關(guān)回歸分析等 常用的數(shù)據(jù)分析軟件 SAS(Statistical Analysis System)和SPSS(Statistical Package for Social Science),它們均具有很強(qiáng)的數(shù)據(jù)分析和數(shù)據(jù)管理的功能,4,三、數(shù)據(jù)的計(jì)算機(jī)錄入 (編號(hào)、定義變量名、變量數(shù)量化) 編號(hào):給每一個(gè)調(diào)查表或調(diào)查對(duì)象一個(gè)編號(hào)以識(shí)別錄入的數(shù)據(jù)與調(diào)查表或調(diào)查對(duì)象的對(duì)應(yīng)關(guān)系(唯一性) 使用阿拉伯?dāng)?shù)字1、2、3等給每份調(diào)查表按照順序編號(hào),這樣有利于以后對(duì)輸入的數(shù)據(jù)進(jìn)行檢查、核對(duì)與修改錯(cuò)誤。 可以給編號(hào)以時(shí)間、地區(qū)、單位、調(diào)查對(duì)象編號(hào)等,如:200501(濟(jì)南)02(歷下)0001(調(diào)查對(duì)象),5,定義變量名稱(chēng): 命名:可以應(yīng)用中文、拼音、也可以應(yīng)用英文,但以使用拼音或英文為好,這樣可以方便輸入。 注意: 變量名應(yīng)簡(jiǎn)短、易懂易記:如對(duì)性別、年齡、身高、體重可以使用gender, age, height 和weight進(jìn)行命名。對(duì)名稱(chēng)較長(zhǎng)的變量,可以使用簡(jiǎn)寫(xiě),如wt表示weight、ht表示height。 標(biāo)記或說(shuō)明:有些數(shù)據(jù)管理和分析軟件可變量進(jìn)行標(biāo)記或說(shuō)明,避免時(shí)間長(zhǎng)久了而忘記數(shù)據(jù)庫(kù)中的變量名字,如對(duì)上述Wt可標(biāo)記為“weight”。,6,變量數(shù)量化 如果調(diào)查表的設(shè)計(jì)是編碼式的,則此步驟可省略,直接將變量取值編碼的結(jié)果輸入計(jì)算機(jī)。 若不是編碼式的調(diào)查結(jié)果,則需要對(duì)變量的取值結(jié)果進(jìn)行編碼(數(shù)量化)。,7,常見(jiàn)變量的類(lèi)型 1、字符型(character type): 輸入字符如中文或英文 2、數(shù)值型(numerical type): 以數(shù)值的形式輸入 3、日期型(data type): 按照規(guī)定的格式輸入日期數(shù)值 4、邏輯性(logical type):,8,變量數(shù)量化時(shí)應(yīng)注意: (1)除日期型變量外盡量使用數(shù)值型變量 (2)某些數(shù)值變量(numerical variable)可直接輸入變量的取值,如研究對(duì)象的身高、體重、血壓水平等。 (3)分類(lèi)變量(categorical variable)及有 序變量(ordinal variable)則可將其取值進(jìn)行量化,然后再輸入計(jì)算機(jī),9,如:分類(lèi)變量種族 白人1 黑人2 西班牙裔人3 亞太裔4 其它種族5 注意: 分類(lèi)變量在進(jìn)行多因素分析時(shí),必須轉(zhuǎn)換成啞變量(dummy variable),不能直接將前述的取值1、2、3、4、5放入方程中進(jìn)行分析。,10,有序變量的數(shù)量化順序合理,則可以直接進(jìn)行分析 如:教育程度 文盲:0 小學(xué):1 中學(xué):2 高中及中專(zhuān):3 大學(xué):4 碩士及以上:5,11,四、數(shù)據(jù)的檢查與核對(duì) (一)檢查數(shù)據(jù)庫(kù)結(jié)構(gòu) 數(shù)據(jù)庫(kù)樣本數(shù)(觀(guān)測(cè)數(shù))、變量數(shù)、變量名稱(chēng)及定義等。 (二)檢查各變量的取值情況 查看變量取值范圍,有無(wú)邏輯錯(cuò)誤:如性別應(yīng)有兩個(gè)取值,若有2個(gè)以上的取值,說(shuō)明存在錯(cuò)誤 。 對(duì)數(shù)據(jù)變量要檢查其最小值(minimum)、最大值(maximum)、均數(shù)(mean)、中位數(shù)(median),并查看是否有異常取值(outlier),如極小值及極大值。 異常值若影響顯著時(shí)應(yīng)刪除,12,五、數(shù)據(jù)的整理 (一)數(shù)據(jù)分組 分類(lèi)變量: 按其原有的分類(lèi)進(jìn)行分組,若有必要,可將性質(zhì)相近或差別不大的類(lèi)別進(jìn)行合并。如教育程度。 數(shù)值變量: 按照實(shí)際的生理、病理或臨床意義分組,如體重指數(shù):低體重、正常體重、超重和肥胖,13,按使用的方便程度和專(zhuān)業(yè)上慣用的方法分組,如年齡在某一個(gè)合適的范圍內(nèi)每5歲或10歲分成一組。 按分位數(shù)分組,即首先找出四分位數(shù)(quartile)或五分位數(shù)(quintile)的界值,然后應(yīng)用這些界值將研究對(duì)象平均分成4組(每組25%的研究對(duì)象)或5組(每組20%的研究對(duì)象)。,14,(二)數(shù)據(jù)的轉(zhuǎn)換 1、非正態(tài)數(shù)據(jù)的變量轉(zhuǎn)換 原理: 正態(tài)分布 參數(shù)檢驗(yàn)(parametric test) 非正態(tài)數(shù)據(jù)非參數(shù)檢驗(yàn)(non-parametric test) (不是對(duì)原始數(shù)據(jù)檢驗(yàn))如:秩和檢驗(yàn) (是對(duì)原始數(shù)據(jù)的秩次檢驗(yàn)) 檢驗(yàn):正態(tài)性檢驗(yàn)、方差齊性檢驗(yàn) 方法:對(duì)數(shù)變換;平方根變換;倒數(shù)變換,15,2、分類(lèi)變量轉(zhuǎn)換成啞變量 原理: 分類(lèi)變量是二分類(lèi)尺度及順序尺度,則可直接應(yīng)用其原有的數(shù)量化數(shù)值。 名義尺度因?yàn)楦黝?lèi)別間沒(méi)有順序關(guān)系,在進(jìn)行不同分析(包括多元分析、logistic回歸、Cox回歸等)時(shí),不能使用原始的計(jì)算機(jī)錄入數(shù)值,必經(jīng)進(jìn)行變量轉(zhuǎn)換。即將該變量轉(zhuǎn)換成(水平數(shù)-1)個(gè)啞變量,再將這些新轉(zhuǎn)換的變量放入多因素模型中。,16,方法: 例如:將種族原始取值轉(zhuǎn)換成啞變量(新變量) 表1. 分類(lèi)變量轉(zhuǎn)換成啞變量的方法,新變量以白人為參照,X11表示黑人與白人比較,依此類(lèi)推,17,六、確定擬分析的因變量和應(yīng)變量 因(自)變量(independent variable):是指影響疾病的發(fā)生或健康狀況的分布的變量,是原因變量 、已知變量、x變量。 應(yīng)變量(dependent variable):是指隨因變量的變化而發(fā)生變化的變量,是結(jié)果變量、預(yù)測(cè)變量、y變量。 應(yīng)變量是在自變量作用下產(chǎn)生反應(yīng)的變量,18,意義 有助于選擇擬研究的變量:對(duì)調(diào)查表的設(shè)計(jì)具有指導(dǎo)作用 可以指導(dǎo)數(shù)據(jù)分析方法的選擇: 因變量是分類(lèi)變量:采用2檢驗(yàn),logistic回歸分析等。 因變量是數(shù)值變量:采用t檢驗(yàn)、方差分析,協(xié)方差分析、多元回歸等 。 有助于模型的建立 :應(yīng)變量( y )放在模型的左側(cè),因變量(x )放在模型的右側(cè)。,19,例1. 欲評(píng)價(jià)不同治療方法(口服藥物、注射胰島素及膳食控制)對(duì)糖尿病人的治療效果(血糖水平),分析時(shí)要求調(diào)整病人的性別、年齡和病程的影響。 血糖水平(應(yīng)變量y)=治療方法(因變量x)+其它協(xié)變量 (covariate,性別、年齡和病程) 例2. 欲分析脂蛋白(a)與冠心病發(fā)生的關(guān)系。 冠心病(應(yīng)變量y)=脂蛋白(a)(因變量x),20,七、缺失數(shù)據(jù)(missing data)的處理 缺失數(shù)據(jù):是指其測(cè)量結(jié)果缺失。 產(chǎn)生的原因: 問(wèn)卷調(diào)查:遺漏出生日期和年齡,調(diào)查結(jié)束后又無(wú)法補(bǔ)救 實(shí)驗(yàn)室檢測(cè):血脂或血糖因?yàn)檠辶坎蛔慊蜓芯繉?duì)象拒絕采血而致 過(guò)去處理:僅用無(wú)缺失的數(shù)據(jù)進(jìn)行分析損失樣本量 缺失數(shù)據(jù)“合理”賦值人為賦值不一定合理,21,現(xiàn)在處理 數(shù)據(jù)分析處理件軟處理 :SAS自動(dòng)分析處理 如一個(gè)數(shù)據(jù)庫(kù)中有性別和年齡等變量,性別有10個(gè)缺失數(shù)據(jù),年齡有3個(gè)缺失數(shù)據(jù): 分析性別時(shí)不包括性別缺失的10個(gè)個(gè)體 分析年齡時(shí)不包括缺失年齡的3個(gè)個(gè)體 當(dāng)分析中(如多因素分析)共同使用了性別和年齡時(shí),分析的實(shí)際樣本數(shù)量是性別和年齡這兩個(gè)變量均不含缺失數(shù)據(jù)的樣本,22,流行病學(xué)數(shù)據(jù)分析方法的選擇,一、流行病學(xué)數(shù)據(jù)的分析程序 數(shù)值變量 正態(tài)性檢驗(yàn) 正態(tài) 數(shù)據(jù)轉(zhuǎn)換 非正態(tài) 參數(shù)檢驗(yàn) 非參數(shù)檢驗(yàn) 圖1. 數(shù)值變量的分析程序,23,單因素分析 2檢驗(yàn) 分類(lèi)變量 分層分析 多因素分析 logistic回歸分析 Cox回歸分析 其它分析方法 圖2. 分類(lèi)變量的分析程序,24,二、根據(jù)研究設(shè)計(jì)類(lèi)型選擇 (一)成組比較的設(shè)計(jì) 兩組比較:t檢驗(yàn)或2檢驗(yàn) 多組比較:方差分析、行列表2檢驗(yàn) 病例對(duì)照研究:按其分析方法分析 分級(jí)的病列對(duì)照研究:按其分析方法分析 (二)配對(duì)(自身實(shí)驗(yàn)前后)設(shè)計(jì) 配比的t檢驗(yàn)、2檢驗(yàn) 配對(duì)的病例對(duì)照研究方法進(jìn)行數(shù)據(jù),25,(三)重復(fù)測(cè)量的設(shè)計(jì) 在給定一個(gè)處理因素后在不同的時(shí)間重復(fù)測(cè)量某一效應(yīng)變量的改變情況。如欲評(píng)價(jià)生物制品接種后的免疫學(xué)效果,在接種后的2周、4周、6周和8周測(cè)定抗體滴度:重復(fù)測(cè)量的方差分析方法 (四)多因素設(shè)計(jì) 自變量是數(shù)值變量:多元回歸分析方法、協(xié)方差分析方法 自變量分類(lèi)變量:logistic回歸分析方法、判別分析方法、聚類(lèi)分析方法,26,三、根據(jù)變量的類(lèi)型選擇,表2. 不同變量類(lèi)型的數(shù)據(jù)分析方法選擇,27,表3. 不同研究設(shè)計(jì)和數(shù)據(jù)類(lèi)型的數(shù)據(jù)分析方法選擇,28,不同流行病學(xué)研究類(lèi)型的數(shù)據(jù)分析方法,一、描述性研究 (一)現(xiàn)況研究 分布描述:患病率、危險(xiǎn)因素流行率、數(shù)值變量分布 探討因素:相關(guān)回歸分析、2檢驗(yàn)、t檢驗(yàn)、方差分析、多因素分析、人群歸因危險(xiǎn)度 (二)生態(tài)學(xué)研究 同現(xiàn)況研究 (三)篩檢 篩檢試驗(yàn)的真實(shí)性和可靠性 人群中疾病、健康狀況、危險(xiǎn)因素篩選結(jié)果分析方法:同現(xiàn)況研究,29,(一)病例對(duì)照研究 病例對(duì)照研究數(shù)據(jù) 成組設(shè)計(jì) 配比設(shè)計(jì) 粗OR分級(jí)OR劑量反應(yīng) 分層OR 分級(jí)OR劑量反應(yīng) (趨勢(shì)2檢驗(yàn)) (趨勢(shì)2檢驗(yàn) ) 分層OR 混雜與效應(yīng)修飾分析 混雜與效應(yīng)修飾分析 圖3. 病例對(duì)照研究數(shù)據(jù)的分析程序,二、分析性研究的數(shù)據(jù)分析方法,30,(二)隊(duì)列研究 隊(duì)列研究數(shù)據(jù) 人時(shí)、發(fā)病密度/累積發(fā)病率 粗RR、AR、AR%、PAR及PAR% 分層RR、AR、AR%、PAR、PAR% 分級(jí)RR、AR、AR%、PAR、PAR 圖4. 隊(duì)列研究數(shù)據(jù)的分析程序,31,三、實(shí)驗(yàn)研究的數(shù)據(jù)分析方法 干預(yù)組與對(duì)照組某疾病發(fā)病率、危險(xiǎn)因素的暴露率及數(shù)值變量均值水平的差異,檢驗(yàn)方法同前述 效果指數(shù)、保護(hù)率,32,流行病學(xué)數(shù)據(jù)的表達(dá)與報(bào)告,一、數(shù)據(jù)的報(bào)告順序 1、按分析順序 描述性結(jié)果:如人口學(xué)數(shù)據(jù)(性別、年齡、職業(yè)、文化程度,居住地)、某病發(fā)病率/患病率、危險(xiǎn)因素流行率、數(shù)值變量的集中趨勢(shì)及變異情況 單因素分析結(jié)果 多因素的分析結(jié)果 2、按變量的特點(diǎn)及邏輯順序 按某疾病的人群、地區(qū)及時(shí)間的分布特征 按個(gè)人生活方式因素、家族遺傳因素、社會(huì)心理因素、實(shí)驗(yàn)室及體格檢查結(jié)果等順序,33,二、非正態(tài)數(shù)據(jù)的表達(dá)與報(bào)告 1、未進(jìn)行變量轉(zhuǎn)換: 報(bào)告中位數(shù)、最小值及最大值 報(bào)告中位數(shù)、25%分位數(shù)、75%分位數(shù)、最小值及最大值 報(bào)告均值、中位數(shù)再配合以上的變異指標(biāo) 2、進(jìn)行變量轉(zhuǎn)換數(shù)據(jù) 報(bào)告原始值 報(bào)告其轉(zhuǎn)換值,34,三、數(shù)據(jù)表達(dá)與報(bào)告中圖、表及文字的使用 合理 生動(dòng)活潑、簡(jiǎn)潔明了 協(xié)調(diào)好三者關(guān)系 如用盒狀圖(均值、25
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 大五人格與教育政策執(zhí)行力的關(guān)系研究
- 智慧城市防災(zāi)減災(zāi)教育領(lǐng)域的創(chuàng)新與實(shí)踐
- 智慧城市安全防護(hù)新篇章視頻監(jiān)控與大數(shù)據(jù)的融合應(yīng)用
- 教育機(jī)器人在職業(yè)培訓(xùn)中的應(yīng)用和價(jià)值分析
- 教育數(shù)據(jù)分析提升課程設(shè)計(jì)的有效途徑
- 技術(shù)在商業(yè)競(jìng)爭(zhēng)中的關(guān)鍵作用
- 醫(yī)療創(chuàng)新重塑健康管理與醫(yī)療服務(wù)
- 抖音商戶(hù)直播價(jià)格策略審批登記制度
- 公交優(yōu)先策略對(duì)2025年城市交通擁堵治理的影響分析報(bào)告
- 公眾參與視角下環(huán)境影響評(píng)價(jià)信息公開(kāi)策略研究報(bào)告
- T/CCOA 50-2023低菌小麥粉生產(chǎn)技術(shù)規(guī)程
- 安全生產(chǎn)責(zé)任制度完整版
- 2025屆遼寧省大連市高新園區(qū)七年級(jí)數(shù)學(xué)第二學(xué)期期末考試試題含解析
- 2025+NCCN非小細(xì)胞肺癌診療指南解讀
- ECMO治療暴發(fā)性心肌炎
- 2025CSCO乳腺癌診療指南解讀課件
- 社會(huì)單位消防安全評(píng)估導(dǎo)則
- 衛(wèi)生系列高級(jí)職稱(chēng)申報(bào)工作量統(tǒng)計(jì)表(醫(yī)療類(lèi))
- 寵物店聘用合同協(xié)議
- 食堂外人出入管理制度
- 大數(shù)據(jù)驅(qū)動(dòng)設(shè)備優(yōu)化設(shè)計(jì)-全面剖析
評(píng)論
0/150
提交評(píng)論