版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
R語言對BRFSS數(shù)據(jù)的探索摘要
該項目包括探索真實世界的數(shù)據(jù)集-疾病預(yù)防控制中心2013年的行為風(fēng)險因素監(jiān)測系統(tǒng)-并創(chuàng)建了三個學(xué)生選擇的研究問題的報告。
所選擇的研究問題及其各自的結(jié)果如下:
?被訪者對其身體質(zhì)量指數(shù)(BMI)的健康狀況有何看法?性別是否有區(qū)別?
是的,健康知覺與BMI之間有明顯的關(guān)系,也有性別差異。
?作為一名幼兒的父母,如何影響報告的睡眠時間?這在性別上有什么不同的報道?
?作為一個年幼的父母,導(dǎo)致報告的睡眠減少,包括男女之間的差異。
?是否對與一年中調(diào)查時間有關(guān)的一般健康認知做出反應(yīng)?各州之間有什么分歧?
冬季和非冬季的反應(yīng)在國家層面上沒有顯著差異,但是在各州的反應(yīng)方面存在差異。
建立
初始階段包括加載所需的軟件包和數(shù)據(jù)。加載包library(ggplot2)library(dplyr)加載數(shù)據(jù)
數(shù)據(jù)從本地文件加載load("brfss2013.RData")dim(brfss2013)##[1]491775330從上面可以看出,數(shù)據(jù)集由近500,000個觀察值和330個可能的變量組成。
并不是所有的觀測數(shù)據(jù)都包含了所有的變量,因此數(shù)據(jù)質(zhì)量在下面的每個問題上分別進第1部分:數(shù)據(jù)
BRFSS的背景
根據(jù)CDC網(wǎng)站,“行為風(fēng)險因素監(jiān)測系統(tǒng)(BRFSS)是美國首屈一指的與健康有關(guān)的電話調(diào)查系統(tǒng),收集美國居民的健康相關(guān)風(fēng)險行為,慢性健康狀況和使用預(yù)防性服務(wù)。
BRFSS成立于1984年,擁有15個州,現(xiàn)在收集所有50個州,哥倫比亞特區(qū)和三個美國領(lǐng)土的數(shù)據(jù)。
BRFSS每年完成40多萬次成人訪談,成為世界上最大的連續(xù)進行的健康調(diào)查系統(tǒng)?!?/p>
方法
根據(jù)疾病預(yù)防控制中心的數(shù)據(jù),“BRFSS是一項跨部門的電話調(diào)查,國家衛(wèi)生部門每月通過固定電話和移動電話進行一次標準化問卷調(diào)查,并獲得CDC的技術(shù)和方法支持。在進行BRFSS座機電話調(diào)查時,調(diào)查員從一個隨機選擇的家庭成人中收集數(shù)據(jù)。在進行BRFSS調(diào)查問卷的移動電話版本時,調(diào)查員從通過使用移動電話參與并居住在私人住宅或?qū)W院住房的成年人那里收集數(shù)據(jù)。
關(guān)于概化,因果關(guān)系和偏見的觀察
雖然課程材料簡要地提到了更高級的統(tǒng)計內(nèi)容(因果推斷),但考慮到作者對于因果關(guān)系的現(xiàn)有知識,可以做出以下陳述:
?關(guān)于泛化能力的話題:由于調(diào)查的廣度-在美國所有50個州和其他美國領(lǐng)土上,由CDC與各州衛(wèi)生機構(gòu)協(xié)調(diào),-它似乎捕獲了足夠的隨機樣本,使其可歸納為廣泛的美國人口。
?因果關(guān)系:考慮到BRFSS是一種觀察性練習(xí)-沒有明確的隨機分配治療-所有指出的關(guān)系可能表明聯(lián)系,但不是因果關(guān)系。
另外,考慮到BRFSS的方法,對于偏見有一些擔(dān)憂:
?通過電話調(diào)查,有可能低報幾種類型的個人:
?那些無法使用固定電話或手機的人。
?原則上不接受電話調(diào)查的人。
?調(diào)查時沒有調(diào)查的地方。
?由于面試問題的答案沒有得到確認,受訪者可能會以各種方式改變他們的回答:
報告不需要的行為和特征,而低報不受歡迎的行為和特征。
系統(tǒng)地夸大身高或收入等特征。
自從被要求將細節(jié)記憶到30天或更長時間之前,請不要忘記關(guān)鍵信息。
?最后,參與國家機構(gòu)之間的訪談實踐和問題集可能存在不一致之處。詳情請見CDC網(wǎng)站。
為了將來的參考,如果數(shù)據(jù)集包括關(guān)于每次采訪的細節(jié)以及采集的時間,這將是有用的。這將進一步了解那些可能或不可能參與調(diào)查的人。
第2部分:研究問題
研究問題1:
被訪者對其身體質(zhì)量指數(shù)(BMI)的健康狀況有何看法?性別之間有什么區(qū)別?
這是一個很有意思的問題,因為它尋求將自己的健康狀況與客觀的整體健康狀況聯(lián)系起來。
BMI不是沒有爭議(例如見這里),但它被廣泛認可。性別之間的差異也很有趣,因為人們可以梳理出社會內(nèi)部不同的看法和壓力。
分析使用以下變量完成:
genhlth-對應(yīng)于一般健康
?X_bmi5cat-將BMI分為4類的計算變量。
BMI來源于報道的身高和體重。
?性別-報告的性別
研究問題2:
作為一個年幼的孩子的父母如何影響報告的睡眠時間?這在性別上有什么不同的報道?
這是一個很有意思的問題,可以估計作為幼兒的家長對受訪者的影響。了解這一點有助于幫助他人更好地理解父母,并可能同情父母。了解這種影響在男性和女性之間是否明顯不同也是有用的。
分析使用以下變量完成:
?sleptim1-報告每晚睡眠時間
?rcsrltn2-被訪者與同一家庭隨機孩子的關(guān)系
?X_impcage-將兒童年齡分為4個可能類別的推算變量。
?性別-報告的性別
研究問題3:
是否對與一年中調(diào)查時間有關(guān)的一般健康認知做出了回應(yīng)?各州之間有什么分歧?
這個問題看季節(jié)方面可能如何影響反應(yīng)。在這種情況下,感興趣的是冬季月份對整體健康反應(yīng)的潛在影響。作為后續(xù)研究,它考慮了美國各州考慮可能存在的區(qū)域差異。
分析使用以下變量完成:
genhlth-對應(yīng)于一般健康
?imonth-進行面試的月份
?X_state-受訪者的居住狀態(tài)
第3部分:探索性數(shù)據(jù)分析
研究問題1:
被訪者對其身體質(zhì)量指數(shù)(BMI)的健康狀況有何看法?
性別是否有區(qū)別?##從數(shù)據(jù)集中選擇適當?shù)淖兞坎⑹÷訬Asq1<-select(brfss2013,genhlth,sex,X_bmi5cat)%>%na.omit()dim(q1)##[1]4632743prop.table(table(q1$genhlth,q1$X_bmi5cat),2)####UnderweightNormalweightOverweightObese##Excellent0.199902430.260194960.173738870.07933813##Verygood0.263934630.350698680.354012380.26824837##Good0.261495300.246675140.306984510.37088006##Fair0.158311990.097516400.119437590.19913468##Poor0.116355650.044914840.045826650.08239876在初始加載數(shù)據(jù)(超過46萬個觀測值)之后,我們可以初步了解反應(yīng)的頻率,然后考慮它們的比例。
解釋上表的方法是,對于每一欄(“低體重”,“正常體重”,...),表示他們的健康狀況為“優(yōu)秀”,“非常好”的受訪者的比例是多少,換句話說,
列總和為1。
一個更容易的圖形表示可以看到下面:g<-ggplot(q1)+aes(x=X_bmi5cat,fill=genhlth)+geom_bar(position="fill")g<-g+xlab("BMIcategory")+ylab("Proportion")+scale_fill_discrete(name="ReportedHealth")g有一些有趣的趨勢可以觀察到:
?“優(yōu)秀”健康報告的比例從低體重增加到正常體重,然后從正常體重顯著下降到肥胖。
這表明有可能意識到整體健康狀況。
?“優(yōu)秀”減少的幅度似乎比報告“健康欠佳”的人增加了。
這可能表明缺乏對良好健康狀況的認識/教育。
性別的影響呢?g<-ggplot(q1)+aes(x=sex,fill=genhlth)+geom_bar(position="fill")+facet_grid(.~X_bmi5cat)g<-g+xlab("BMIcategoryperGender")+ylab("Proportion")+scale_fill_discrete(name="ReportedHealth")g在這種情況下,我們可以觀察到以下情況:
?當BMI分類為“體重不足”或“正常體重”時,女性的健康狀況比男性高。
這可能意味著健康與苗條的更強關(guān)聯(lián),反映更廣泛的社會意見。
?當BMI分類為“超重”或“肥胖”時,女性健康狀況的比例低于男性。
這可能表明體重過度敏感是整體健康的一個組成部分。
總之,分析似乎表明,考慮到研究問題:是的,健康知覺與BMI之間有明顯的關(guān)系,以及性別差異。但是,鑒于所進行的分析,這些關(guān)系不能用來推斷因果關(guān)系。
研究問題2:
作為一個年幼的孩子的父母如何影響報告的睡眠時間?
這在性別上有什么不同的報道?q2<-select(brfss2013,sleptim1,sex,rcsrltn2,X_impcage)table(q2$sleptim1)####0123456789##122810763496142613343610619714246914110223800##10111213141516171819##1210283336751994473673693516413##2021222324103450##6431043511Theinitialdataloadindicatesthattherearecodingerrorsinthedata.Thecleanupinvolvesremovingreportedsleeptimeslongerthan16hoursperday.Thiswasanarbitrarydecisionbasedonthedata.q2_pop<-select(q2,sex,sleptim1)%>%na.omit()%>%filter(sleptim1<=16)dim(q2_pop)##[1]4840562q2_parent<-na.omit(q2)%>%filter(rcsrltn2=="Parent"&sleptim1<=16)%>%mutate(young=X_impcage%in%c("0-4Yearsold","5-9Yearsold"))dim(q2_parent)##[1]578575Thisdataloadperformstwodataselectionoperations:First,itselectsthepropercolumnsfromtheoriginaldatasetintotheq2dataframe.Itthencreatestwoseparatedataframesforanalysis:q2_pop:forthebroaderpopulation,omittingmiscodedvalues.q2_parent:leveragestheRandomChildSelectionsetofquestionsfromtheBRFSSandselectsthosethatidentifiedthemselvesas“Parents”.Furthermore,itaddsacolumnforidentifyingchildrenlessthan10yearsold.Itisimportanttonotethatwhilethebroadpopulationisapproximately480,000samples,theRandomChildSelectionmoduleoftheBRFSSyieldsalittlelessthan60,000samples.Forthegeneralpopulation,wehavethefollowingreportedsleepdistribution(redlinecorrespondstomean):summarize(q2_pop,avg=mean(sleptim1),sd=sd(sleptim1))##avgsd##17.0427841.431061g<-ggplot(q2_pop)+aes(x=sleptim1)g<-g+geom_histogram(binwidth=1,color="black",fill="white")g<-g+xlab("SleepTime(hrs)")+ylab("ReportedCount")gFortheparentsgroups,thecharacteristicsofthedistributionare:summarize(q2_parent,avg=mean(sleptim1),sd=sd(sleptim1))##avgsd##16.8545211.315791Andforparentsofsmallchildren,thedistributionlookslike:filter(q2_parent,young==TRUE)%>%summarize(avg=mean(sleptim1),sd=sd(sleptim1))##avgsd##16.8477451.31827Finally,lookingatgenderdifferencesforparentsofsmallchildren:filter(q2_parent,young==TRUE)%>%group_by(sex)%>%summarize(avg=mean(sleptim1),sd=sd(sleptim1))###Atibble:2x3##sexavgsd##<fctr><dbl><dbl>##1Male6.7558621.230122##2Female6.9096991.371082Lookingatthecharacteristicsofthedistribution,andtheoriginalresearchquestion,itappearsthattherearedifferencesbetweenthegendersinreportedhoursofsleepbothbetweenthegeneralpopulationandthosethatrespondedasbeingparentsofsmallchildren.Itisexpectedthatfurtherstatisticaltechniqueswillallowustoquantifythesignificanceofsuchdifferences.Researchquesion3:Areresponsestogeneralhealthperceptionrelatedtothetimeofyearofthesurveywasconducted?Howdoanydifferencesshowupacrossstates?#DefineWintermonthswinter<-c("December","January","February")q3<-select(brfss2013,genhlth,imonth,X_state)%>%na.omit()%>%mutate(winter=imonth%in%winter)dim(q3)##[1]4897904prop.table(table(q3$genhlth,q3$winter),2)####FALSETRUE##Excellent0.173930760.17643433##Verygood0.324012810.32724673##Good0.307692720.30641019##Fair0.137051710.13362268##Poor0.057312000.05628606Theinitialdataloadforthisquestionresultedinapproximately490,000samples.Aspertheresearchquestion,thevariablesextractedwerethegeneralhealthreported,themonththeinterviewtookplace,andtherespondent’sstateofresidence.Forthisanalysis,anextracolumnwasaddedindicatingiftheinterviewtookplaceinthemonthstypicallyassociatedwithwinter.Lookingattheproportiontable(lookingdownbothFALSEandTRUEcolumns),thereportedhealthisverysimilarregardlessofstatusof“wintercollection”.Thiscanbealsovisualizedinthefollowingplot:g<-ggplot(q3)+aes(x=winter,fill=genhlth)+geom_bar(position="fill")g<-g+xlab("Winterinterviewperstate")+ylab("Proportion")+scale_fill_discrete(name="ReportedHealth")gInterestingly,whenwelookatstate-specificdata,aslightlydifferentpictureappears.AsampleofUSstateswasselectedforfurtheranalysis:#Definestatesofintereststates<-c("Alaska","California","Massachusetts","NewHampshire","Wyoming")q3_states<-filter(q3,X_state%in%states)dim(q3_states)##[1]436084group_by(q3_states,X_state,winter)%>%summarise(count=n())##Source:localdataframe[10x3]##Groups:X_state[?]####X_statewintercount##<fctr><lgl><int>##1AlaskaFALSE3432##2Alas
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 科技類展會成果評估與科技轉(zhuǎn)化思考
- 供暖服務(wù)運維方案投標方案供暖服務(wù)運維投標方案(技術(shù)方案)
- 二零二五年度存量房買賣合同與裝修工程委托管理服務(wù)合同4篇
- 2025年仁愛科普版九年級地理下冊月考試卷
- 2025年蘇教新版九年級歷史下冊月考試卷
- 2025年人教新起點選修6歷史上冊月考試卷含答案
- 2025年教科新版七年級物理上冊階段測試試卷含答案
- 2025年北師大版八年級生物下冊月考試卷
- 2025年蘇教新版九年級歷史上冊階段測試試卷含答案
- 2025年新世紀版選擇性必修3歷史下冊月考試卷含答案
- 2024年中考語文滿分作文6篇(含題目)
- 第一節(jié)-貨幣資金資料講解
- 如何提高售后服務(wù)的快速響應(yīng)能力
- 北師大版 2024-2025學(xué)年四年級數(shù)學(xué)上冊典型例題系列第三單元:行程問題“拓展型”專項練習(xí)(原卷版+解析)
- 2023年譯林版英語五年級下冊Units-1-2單元測試卷-含答案
- Unit-3-Reading-and-thinking課文詳解課件-高中英語人教版必修第二冊
- 施工管理中的文檔管理方法與要求
- DL∕T 547-2020 電力系統(tǒng)光纖通信運行管理規(guī)程
- 種子輪投資協(xié)議
- 執(zhí)行依據(jù)主文范文(通用4篇)
- 浙教版七年級數(shù)學(xué)下冊全冊課件
評論
0/150
提交評論