R語言對BRFSS數(shù)據(jù)探索回歸數(shù)據(jù)分析報告 附代碼數(shù)據(jù)_第1頁
R語言對BRFSS數(shù)據(jù)探索回歸數(shù)據(jù)分析報告 附代碼數(shù)據(jù)_第2頁
R語言對BRFSS數(shù)據(jù)探索回歸數(shù)據(jù)分析報告 附代碼數(shù)據(jù)_第3頁
R語言對BRFSS數(shù)據(jù)探索回歸數(shù)據(jù)分析報告 附代碼數(shù)據(jù)_第4頁
R語言對BRFSS數(shù)據(jù)探索回歸數(shù)據(jù)分析報告 附代碼數(shù)據(jù)_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

R語言對BRFSS數(shù)據(jù)的探索摘要

該項目包括探索真實世界的數(shù)據(jù)集-疾病預(yù)防控制中心2013年的行為風(fēng)險因素監(jiān)測系統(tǒng)-并創(chuàng)建了三個學(xué)生選擇的研究問題的報告。

所選擇的研究問題及其各自的結(jié)果如下:

?被訪者對其身體質(zhì)量指數(shù)(BMI)的健康狀況有何看法?性別是否有區(qū)別?

是的,健康知覺與BMI之間有明顯的關(guān)系,也有性別差異。

?作為一名幼兒的父母,如何影響報告的睡眠時間?這在性別上有什么不同的報道?

?作為一個年幼的父母,導(dǎo)致報告的睡眠減少,包括男女之間的差異。

?是否對與一年中調(diào)查時間有關(guān)的一般健康認知做出反應(yīng)?各州之間有什么分歧?

冬季和非冬季的反應(yīng)在國家層面上沒有顯著差異,但是在各州的反應(yīng)方面存在差異。

建立

初始階段包括加載所需的軟件包和數(shù)據(jù)。加載包library(ggplot2)library(dplyr)加載數(shù)據(jù)

數(shù)據(jù)從本地文件加載load("brfss2013.RData")dim(brfss2013)##[1]491775330從上面可以看出,數(shù)據(jù)集由近500,000個觀察值和330個可能的變量組成。

并不是所有的觀測數(shù)據(jù)都包含了所有的變量,因此數(shù)據(jù)質(zhì)量在下面的每個問題上分別進第1部分:數(shù)據(jù)

BRFSS的背景

根據(jù)CDC網(wǎng)站,“行為風(fēng)險因素監(jiān)測系統(tǒng)(BRFSS)是美國首屈一指的與健康有關(guān)的電話調(diào)查系統(tǒng),收集美國居民的健康相關(guān)風(fēng)險行為,慢性健康狀況和使用預(yù)防性服務(wù)。

BRFSS成立于1984年,擁有15個州,現(xiàn)在收集所有50個州,哥倫比亞特區(qū)和三個美國領(lǐng)土的數(shù)據(jù)。

BRFSS每年完成40多萬次成人訪談,成為世界上最大的連續(xù)進行的健康調(diào)查系統(tǒng)?!?/p>

方法

根據(jù)疾病預(yù)防控制中心的數(shù)據(jù),“BRFSS是一項跨部門的電話調(diào)查,國家衛(wèi)生部門每月通過固定電話和移動電話進行一次標準化問卷調(diào)查,并獲得CDC的技術(shù)和方法支持。在進行BRFSS座機電話調(diào)查時,調(diào)查員從一個隨機選擇的家庭成人中收集數(shù)據(jù)。在進行BRFSS調(diào)查問卷的移動電話版本時,調(diào)查員從通過使用移動電話參與并居住在私人住宅或?qū)W院住房的成年人那里收集數(shù)據(jù)。

關(guān)于概化,因果關(guān)系和偏見的觀察

雖然課程材料簡要地提到了更高級的統(tǒng)計內(nèi)容(因果推斷),但考慮到作者對于因果關(guān)系的現(xiàn)有知識,可以做出以下陳述:

?關(guān)于泛化能力的話題:由于調(diào)查的廣度-在美國所有50個州和其他美國領(lǐng)土上,由CDC與各州衛(wèi)生機構(gòu)協(xié)調(diào),-它似乎捕獲了足夠的隨機樣本,使其可歸納為廣泛的美國人口。

?因果關(guān)系:考慮到BRFSS是一種觀察性練習(xí)-沒有明確的隨機分配治療-所有指出的關(guān)系可能表明聯(lián)系,但不是因果關(guān)系。

另外,考慮到BRFSS的方法,對于偏見有一些擔(dān)憂:

?通過電話調(diào)查,有可能低報幾種類型的個人:

?那些無法使用固定電話或手機的人。

?原則上不接受電話調(diào)查的人。

?調(diào)查時沒有調(diào)查的地方。

?由于面試問題的答案沒有得到確認,受訪者可能會以各種方式改變他們的回答:

報告不需要的行為和特征,而低報不受歡迎的行為和特征。

系統(tǒng)地夸大身高或收入等特征。

自從被要求將細節(jié)記憶到30天或更長時間之前,請不要忘記關(guān)鍵信息。

?最后,參與國家機構(gòu)之間的訪談實踐和問題集可能存在不一致之處。詳情請見CDC網(wǎng)站。

為了將來的參考,如果數(shù)據(jù)集包括關(guān)于每次采訪的細節(jié)以及采集的時間,這將是有用的。這將進一步了解那些可能或不可能參與調(diào)查的人。

第2部分:研究問題

研究問題1:

被訪者對其身體質(zhì)量指數(shù)(BMI)的健康狀況有何看法?性別之間有什么區(qū)別?

這是一個很有意思的問題,因為它尋求將自己的健康狀況與客觀的整體健康狀況聯(lián)系起來。

BMI不是沒有爭議(例如見這里),但它被廣泛認可。性別之間的差異也很有趣,因為人們可以梳理出社會內(nèi)部不同的看法和壓力。

分析使用以下變量完成:

genhlth-對應(yīng)于一般健康

?X_bmi5cat-將BMI分為4類的計算變量。

BMI來源于報道的身高和體重。

?性別-報告的性別

研究問題2:

作為一個年幼的孩子的父母如何影響報告的睡眠時間?這在性別上有什么不同的報道?

這是一個很有意思的問題,可以估計作為幼兒的家長對受訪者的影響。了解這一點有助于幫助他人更好地理解父母,并可能同情父母。了解這種影響在男性和女性之間是否明顯不同也是有用的。

分析使用以下變量完成:

?sleptim1-報告每晚睡眠時間

?rcsrltn2-被訪者與同一家庭隨機孩子的關(guān)系

?X_impcage-將兒童年齡分為4個可能類別的推算變量。

?性別-報告的性別

研究問題3:

是否對與一年中調(diào)查時間有關(guān)的一般健康認知做出了回應(yīng)?各州之間有什么分歧?

這個問題看季節(jié)方面可能如何影響反應(yīng)。在這種情況下,感興趣的是冬季月份對整體健康反應(yīng)的潛在影響。作為后續(xù)研究,它考慮了美國各州考慮可能存在的區(qū)域差異。

分析使用以下變量完成:

genhlth-對應(yīng)于一般健康

?imonth-進行面試的月份

?X_state-受訪者的居住狀態(tài)

第3部分:探索性數(shù)據(jù)分析

研究問題1:

被訪者對其身體質(zhì)量指數(shù)(BMI)的健康狀況有何看法?

性別是否有區(qū)別?##從數(shù)據(jù)集中選擇適當?shù)淖兞坎⑹÷訬Asq1<-select(brfss2013,genhlth,sex,X_bmi5cat)%>%na.omit()dim(q1)##[1]4632743prop.table(table(q1$genhlth,q1$X_bmi5cat),2)####UnderweightNormalweightOverweightObese##Excellent0.199902430.260194960.173738870.07933813##Verygood0.263934630.350698680.354012380.26824837##Good0.261495300.246675140.306984510.37088006##Fair0.158311990.097516400.119437590.19913468##Poor0.116355650.044914840.045826650.08239876在初始加載數(shù)據(jù)(超過46萬個觀測值)之后,我們可以初步了解反應(yīng)的頻率,然后考慮它們的比例。

解釋上表的方法是,對于每一欄(“低體重”,“正常體重”,...),表示他們的健康狀況為“優(yōu)秀”,“非常好”的受訪者的比例是多少,換句話說,

列總和為1。

一個更容易的圖形表示可以看到下面:g<-ggplot(q1)+aes(x=X_bmi5cat,fill=genhlth)+geom_bar(position="fill")g<-g+xlab("BMIcategory")+ylab("Proportion")+scale_fill_discrete(name="ReportedHealth")g有一些有趣的趨勢可以觀察到:

?“優(yōu)秀”健康報告的比例從低體重增加到正常體重,然后從正常體重顯著下降到肥胖。

這表明有可能意識到整體健康狀況。

?“優(yōu)秀”減少的幅度似乎比報告“健康欠佳”的人增加了。

這可能表明缺乏對良好健康狀況的認識/教育。

性別的影響呢?g<-ggplot(q1)+aes(x=sex,fill=genhlth)+geom_bar(position="fill")+facet_grid(.~X_bmi5cat)g<-g+xlab("BMIcategoryperGender")+ylab("Proportion")+scale_fill_discrete(name="ReportedHealth")g在這種情況下,我們可以觀察到以下情況:

?當BMI分類為“體重不足”或“正常體重”時,女性的健康狀況比男性高。

這可能意味著健康與苗條的更強關(guān)聯(lián),反映更廣泛的社會意見。

?當BMI分類為“超重”或“肥胖”時,女性健康狀況的比例低于男性。

這可能表明體重過度敏感是整體健康的一個組成部分。

總之,分析似乎表明,考慮到研究問題:是的,健康知覺與BMI之間有明顯的關(guān)系,以及性別差異。但是,鑒于所進行的分析,這些關(guān)系不能用來推斷因果關(guān)系。

研究問題2:

作為一個年幼的孩子的父母如何影響報告的睡眠時間?

這在性別上有什么不同的報道?q2<-select(brfss2013,sleptim1,sex,rcsrltn2,X_impcage)table(q2$sleptim1)####0123456789##122810763496142613343610619714246914110223800##10111213141516171819##1210283336751994473673693516413##2021222324103450##6431043511Theinitialdataloadindicatesthattherearecodingerrorsinthedata.Thecleanupinvolvesremovingreportedsleeptimeslongerthan16hoursperday.Thiswasanarbitrarydecisionbasedonthedata.q2_pop<-select(q2,sex,sleptim1)%>%na.omit()%>%filter(sleptim1<=16)dim(q2_pop)##[1]4840562q2_parent<-na.omit(q2)%>%filter(rcsrltn2=="Parent"&sleptim1<=16)%>%mutate(young=X_impcage%in%c("0-4Yearsold","5-9Yearsold"))dim(q2_parent)##[1]578575Thisdataloadperformstwodataselectionoperations:First,itselectsthepropercolumnsfromtheoriginaldatasetintotheq2dataframe.Itthencreatestwoseparatedataframesforanalysis:q2_pop:forthebroaderpopulation,omittingmiscodedvalues.q2_parent:leveragestheRandomChildSelectionsetofquestionsfromtheBRFSSandselectsthosethatidentifiedthemselvesas“Parents”.Furthermore,itaddsacolumnforidentifyingchildrenlessthan10yearsold.Itisimportanttonotethatwhilethebroadpopulationisapproximately480,000samples,theRandomChildSelectionmoduleoftheBRFSSyieldsalittlelessthan60,000samples.Forthegeneralpopulation,wehavethefollowingreportedsleepdistribution(redlinecorrespondstomean):summarize(q2_pop,avg=mean(sleptim1),sd=sd(sleptim1))##avgsd##17.0427841.431061g<-ggplot(q2_pop)+aes(x=sleptim1)g<-g+geom_histogram(binwidth=1,color="black",fill="white")g<-g+xlab("SleepTime(hrs)")+ylab("ReportedCount")gFortheparentsgroups,thecharacteristicsofthedistributionare:summarize(q2_parent,avg=mean(sleptim1),sd=sd(sleptim1))##avgsd##16.8545211.315791Andforparentsofsmallchildren,thedistributionlookslike:filter(q2_parent,young==TRUE)%>%summarize(avg=mean(sleptim1),sd=sd(sleptim1))##avgsd##16.8477451.31827Finally,lookingatgenderdifferencesforparentsofsmallchildren:filter(q2_parent,young==TRUE)%>%group_by(sex)%>%summarize(avg=mean(sleptim1),sd=sd(sleptim1))###Atibble:2x3##sexavgsd##<fctr><dbl><dbl>##1Male6.7558621.230122##2Female6.9096991.371082Lookingatthecharacteristicsofthedistribution,andtheoriginalresearchquestion,itappearsthattherearedifferencesbetweenthegendersinreportedhoursofsleepbothbetweenthegeneralpopulationandthosethatrespondedasbeingparentsofsmallchildren.Itisexpectedthatfurtherstatisticaltechniqueswillallowustoquantifythesignificanceofsuchdifferences.Researchquesion3:Areresponsestogeneralhealthperceptionrelatedtothetimeofyearofthesurveywasconducted?Howdoanydifferencesshowupacrossstates?#DefineWintermonthswinter<-c("December","January","February")q3<-select(brfss2013,genhlth,imonth,X_state)%>%na.omit()%>%mutate(winter=imonth%in%winter)dim(q3)##[1]4897904prop.table(table(q3$genhlth,q3$winter),2)####FALSETRUE##Excellent0.173930760.17643433##Verygood0.324012810.32724673##Good0.307692720.30641019##Fair0.137051710.13362268##Poor0.057312000.05628606Theinitialdataloadforthisquestionresultedinapproximately490,000samples.Aspertheresearchquestion,thevariablesextractedwerethegeneralhealthreported,themonththeinterviewtookplace,andtherespondent’sstateofresidence.Forthisanalysis,anextracolumnwasaddedindicatingiftheinterviewtookplaceinthemonthstypicallyassociatedwithwinter.Lookingattheproportiontable(lookingdownbothFALSEandTRUEcolumns),thereportedhealthisverysimilarregardlessofstatusof“wintercollection”.Thiscanbealsovisualizedinthefollowingplot:g<-ggplot(q3)+aes(x=winter,fill=genhlth)+geom_bar(position="fill")g<-g+xlab("Winterinterviewperstate")+ylab("Proportion")+scale_fill_discrete(name="ReportedHealth")gInterestingly,whenwelookatstate-specificdata,aslightlydifferentpictureappears.AsampleofUSstateswasselectedforfurtheranalysis:#Definestatesofintereststates<-c("Alaska","California","Massachusetts","NewHampshire","Wyoming")q3_states<-filter(q3,X_state%in%states)dim(q3_states)##[1]436084group_by(q3_states,X_state,winter)%>%summarise(count=n())##Source:localdataframe[10x3]##Groups:X_state[?]####X_statewintercount##<fctr><lgl><int>##1AlaskaFALSE3432##2Alas

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論