![多水平模型和關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/14/6f24cb4a-9898-492c-8ef4-984f87ae2c64/6f24cb4a-9898-492c-8ef4-984f87ae2c641.gif)
![多水平模型和關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/14/6f24cb4a-9898-492c-8ef4-984f87ae2c64/6f24cb4a-9898-492c-8ef4-984f87ae2c642.gif)
![多水平模型和關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/14/6f24cb4a-9898-492c-8ef4-984f87ae2c64/6f24cb4a-9898-492c-8ef4-984f87ae2c643.gif)
![多水平模型和關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/14/6f24cb4a-9898-492c-8ef4-984f87ae2c64/6f24cb4a-9898-492c-8ef4-984f87ae2c644.gif)
![多水平模型和關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/14/6f24cb4a-9898-492c-8ef4-984f87ae2c64/6f24cb4a-9898-492c-8ef4-984f87ae2c645.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、多水平模型和關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素 第二軍醫(yī)大學(xué)博士學(xué)位論文多水平模型和關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素姓名:馬修強(qiáng)申請學(xué)位級別:博士專業(yè):流行病與衛(wèi)生統(tǒng)計(jì)學(xué)指導(dǎo)教師:賀佳20090501多水平模型和關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素摘 要研究背景:,以燒心和反酸為主要的胃食管反流病特征性癥狀,在西方國家人群中是一種常見的胃腸疾病。已有研究結(jié)果表明,亞洲人群的發(fā)病率較西方人群低,但目前西方及亞洲人群的發(fā)病率都呈現(xiàn)增長的趨勢。患者不僅容易合并其他食管合并癥,而且患食管腺癌的危險(xiǎn)也大大增加。不僅使患者的生活質(zhì)量受到顯著影響,還給患者造成了較大的經(jīng)濟(jì)負(fù)擔(dān)。因此,西方多個國家的研究
2、者對于發(fā)病情況及其影響因素進(jìn)行了流行病學(xué)調(diào)查研究。然而,在中國,人們對于的認(rèn)知程度還比較低,對其危害還沒有足夠的認(rèn)識;而針對的基于中國一般人群采用國際標(biāo)準(zhǔn)化量表進(jìn)行的高質(zhì)量流行病學(xué)調(diào)查也非常有限。為了調(diào)查在中國一般人群的癥狀患病情況,研究其影響因素的相關(guān)信息,我們在中國大陸進(jìn)行了一項(xiàng)大規(guī)模的流行病學(xué)調(diào)查。本調(diào)查采用多階段分層隨機(jī)抽樣的方法和自填式的問卷調(diào)查方式,共在上海、北京、武漢、西安和廣州五個城市獲得有效調(diào)查問卷份。本調(diào)查收集的資料豐富,且數(shù)據(jù)存在明顯的層次結(jié)構(gòu)特征,并包含一定的缺失值。而傳統(tǒng)統(tǒng)計(jì)方法對于此類數(shù)據(jù)的處理存在明顯的局限性,如要求各觀察值相互獨(dú)立、無缺失值等。研究目的:為了克服
3、傳統(tǒng)統(tǒng)計(jì)方法的局限性,本研究探討了聯(lián)合應(yīng)用關(guān)聯(lián)規(guī)則和多水平模型,以更加科學(xué)、合理的分析和挖掘中國大陸流行病學(xué)調(diào)查資料,研究和篩選的影響因素,以提高人們對的認(rèn)知程度,為的早期預(yù)防和治療提供一定的理論依據(jù)。研究方法:關(guān)聯(lián)規(guī)則挖掘算法作為數(shù)據(jù)挖掘中的一種經(jīng)典算法,具有較強(qiáng)的處理不完整數(shù)據(jù)的能力,可以充分發(fā)現(xiàn)隱藏在數(shù)據(jù)中的未知的、新穎的模式,對數(shù)據(jù)的整體理解和進(jìn)一步分析提供參考。采用關(guān)聯(lián)規(guī)則挖掘算法不僅可以減少缺失值的影響,而且還可以發(fā)現(xiàn)那些潛在的影響因素,及其相互之間的關(guān)系和對的聯(lián)合作用,并為隨后的多水平模型建模時(shí)解釋變量的選擇提供依據(jù)。多水平模型是國外近些年發(fā)展起來的處理多水平數(shù)據(jù)的一種多元統(tǒng)計(jì)方
4、法,己廣泛應(yīng)用于多個領(lǐng)域。多水平數(shù)據(jù)的組群間具有一定的組間異質(zhì)性,即存在一定的組內(nèi)同質(zhì)性,不符合多元線性回歸等傳統(tǒng)統(tǒng)計(jì)方法要求各觀察單位相互獨(dú)立的假設(shè),而多水平模型則克服了傳統(tǒng)統(tǒng)計(jì)方法的局限性,減少了估計(jì)偏倚。因此,本研究在關(guān)聯(lián)規(guī)第二軍醫(yī)大學(xué)博士學(xué)位論文則初步挖掘出的影響因素的基礎(chǔ)上,采用多水平模型建模,以解決傳統(tǒng)統(tǒng)計(jì)方法因忽略數(shù)據(jù)的層次結(jié)構(gòu)所帶來的問題,更科學(xué)的揭示的影響因素。研究結(jié)果:本研究系統(tǒng)總結(jié)了關(guān)聯(lián)規(guī)則挖掘的基本理論和主要算法,以及規(guī)則有趣性的度量方法。然后,利用/中經(jīng)典的算法進(jìn)行了關(guān)聯(lián)規(guī)則挖掘。規(guī)則產(chǎn)生后,首先采用模板匹配的方式進(jìn)行規(guī)則的初步篩選,再通過將可信度的提高倍數(shù)定為.的方
5、法進(jìn)行多項(xiàng)規(guī)則的剪除,最后根據(jù)常用的客觀度量指標(biāo)的相關(guān)性分析結(jié)果,選擇了值、船值、值、函數(shù)、列聯(lián)系數(shù)、確切概率個度量指標(biāo)進(jìn)行規(guī)則有趣性的度量。根據(jù)最終選取的規(guī)則,本研究發(fā)現(xiàn)調(diào)查點(diǎn)、調(diào)查區(qū)域城市、農(nóng)村、性別、年齡、吸煙、飲酒、婚姻狀況、家庭月收入、職業(yè)、健康狀況、文化程度、精神狀況、體力活動或體育鍛煉、胃腸疾病或腫瘤家族史等被調(diào)查者基本信息,部分既往患病史如消化不良、慢性胃炎、風(fēng)濕性關(guān)節(jié)炎、慢性咽喉炎、腹部手術(shù)史等,以及腸易激綜合征、吞氣癥、非特異性腸功能紊亂等現(xiàn)患疾病對胃食管反流癥狀有影響??傊?本研究利用關(guān)聯(lián)規(guī)則挖掘算法,不僅對的影響因素有了初步的了解,而且為后續(xù)的多水平模型建模時(shí)解釋變量的
6、選擇提供了參考。然后,本研究系統(tǒng)回顧了多水平模型的基本理論和建模步驟,以及殘差自助法多水平模型的建模方法。通過對流行病學(xué)調(diào)查數(shù)據(jù)結(jié)構(gòu)特征的分析,最終確定以街道鄉(xiāng)鎮(zhèn)為水平單位,以居民為水平單位,擬合兩水平的多水平模型。本研究通過“擬合空模型一將水平解釋變量“調(diào)查點(diǎn)”納入空模型一采用前進(jìn)法篩選納入水平解釋變量一檢驗(yàn)水平解釋變量的隨機(jī)斜率一檢驗(yàn)跨層交互作用”這五個步驟,建立了本研究的最終模型。另考慮到本研究水平組群數(shù)相對較少,且水平殘差,不服從正態(tài)分布,不符合最大似然法的應(yīng)用假設(shè),故本研究又基于最終模型分別采用非參數(shù)和參數(shù)殘差自助法進(jìn)行模型擬合,以減少模型擬合造成的偏倚。研究結(jié)果表明,非參數(shù)法和參數(shù)
7、法的擬合結(jié)果多數(shù)與原始樣本比較接近,只是參數(shù)法的標(biāo)準(zhǔn)誤相對較非參數(shù)法稍大,尤其是水平殘差方差彥的標(biāo)準(zhǔn)誤遠(yuǎn)遠(yuǎn)大于非參數(shù)法和原始樣本,與我們的理論假設(shè)是一致的。原因在于,原始樣本的水平殘差,不服從正態(tài)分布,非參數(shù)法考慮了這一點(diǎn),而參數(shù)法則假設(shè)其服從正態(tài)分布??傊?多水平模型分析結(jié)果顯示,與廣州相比,上海、北京和西安居民的總評分沒有明顯的差異,而武漢居民的總評分則相對較高,即表示武漢的發(fā)病率在個調(diào)查城市中相對較高;居民的總體健康狀況越差,其總評分越高,且其對總評分的影響受到武漢與廣州之間地域差異的影響:農(nóng)村居民、文化程度越低、精神狀況越差者更容易患;另外,那些有胃腸道疾病或腫瘤家族史,.多水平模型和
8、關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素既往患有胃炎、消化不良、風(fēng)濕性關(guān)節(jié)炎,現(xiàn)患有腸易激綜合征、吞氣癥的人,患的可能性更大,而性別、年齡等因素,本研究未發(fā)現(xiàn)其與有顯著的關(guān)系。而上述結(jié)論中,除了未發(fā)現(xiàn)城市居民和農(nóng)村居民在發(fā)病方面有顯著差異之外,非參數(shù)法和參數(shù)法的其他結(jié)論與原始樣本基本一致。研究結(jié)論:本研究采用國際規(guī)范的標(biāo)準(zhǔn)化量表,在中國大陸進(jìn)行了截至目前為止規(guī)模最大的一次流行病學(xué)調(diào)查,建立了中國大陸流行病學(xué)調(diào)查數(shù)據(jù)庫,并深入分析了的影響因素。結(jié)果表明,在調(diào)查的五個城市中武漢的發(fā)病情況最重:農(nóng)村居民、文化程度越低、健康狀況和精神狀況越差者,以及有胃腸道疾病或腫瘤家族史的人更可能患:而那些既往患有慢性
9、胃炎、消化不良、風(fēng)濕性關(guān)節(jié)炎,現(xiàn)患有腸易激綜合征、吞氣癥的人,同樣也更可能患。而性別、年齡、吸煙、飲酒、家庭收入、婚姻狀況、職業(yè)、體力活動或體育鍛煉等因素,以及慢性咽喉炎、腹部手術(shù)史和非特異性腸功能紊亂等疾病可能也與有關(guān)聯(lián)關(guān)系??傊?本研究首次將關(guān)聯(lián)規(guī)則挖掘技術(shù)和多水平模型聯(lián)合應(yīng)用于流行病學(xué)調(diào)查資料的分析,克服了傳統(tǒng)統(tǒng)計(jì)方法的局限性,更科學(xué)的研究和評價(jià)了的影響因素,提高了人們對于的認(rèn)知程度,為更好地防治提供了一定的理論依據(jù)。而本研究所進(jìn)行的多水平模型和關(guān)聯(lián)規(guī)則挖掘技術(shù)的聯(lián)合應(yīng)用研究對于其他流行病學(xué)調(diào)查資料的分析在方法學(xué)方面亦有一定的參考價(jià)值。關(guān)鍵詞:胃食管反流病,關(guān)聯(lián)規(guī)則,算法,多水平模型,殘
10、差自助法第二軍醫(yī)大學(xué)博士學(xué)位論文 :,. ., ,.,; . ,? , ., .,., , ., . ,.,:,. , .:. , .,.多水平模型和關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素 ,. . ?. ., ,. ,: ., . / , . ,:, , , ,., , , , , , , , ,. ,., , ?.?一第二軍醫(yī)大學(xué)博士學(xué)位論文 一 . 一 : ” “一 ”., ,., ,.;彥.,. 玎 , . , , ,. ;,;,; , 嬲, ,.,., .多水平模型和關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素:,? , .; , , ;, 島, ,., , , , , , ,. , .,.:
11、 , , ,一?軍醫(yī)大學(xué)博士學(xué)位論文縮略詞表縮略詞 英文全稱 具體含義 胃食管反流病統(tǒng)計(jì)分析系統(tǒng)/.企業(yè)挖掘.版本 反流性疾病問卷哐簡化的羅馬組合問卷.健康調(diào)查量表嗜睡量表 疾病控制中心統(tǒng)計(jì)產(chǎn)品和服務(wù)解答可信度支持度列聯(lián)系數(shù)度量體重指數(shù).組內(nèi)相關(guān)系數(shù)池最大似然估計(jì)法 全最大似然法也限制性最大似然法信息標(biāo)準(zhǔn)址有限樣本校正貝葉斯信息標(biāo)準(zhǔn)檢驗(yàn) 似然比檢驗(yàn) 慢性阻塞性肺病結(jié)構(gòu)方程模型多水平結(jié)構(gòu)方程模型.一獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作.除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論
12、文中作了明確的說明并表示謝意。本人承擔(dān)本聲明的法律責(zé)任。學(xué)位論文作槲:鄉(xiāng)磅勁吼砷年沁日學(xué)位論文版權(quán)使用授權(quán)聲明本人完全了解第二軍醫(yī)大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,第二軍醫(yī)大學(xué)有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)第二軍醫(yī)大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。保密的學(xué)位論文在解密后適用本授權(quán)書導(dǎo)師簽名:撇黼鮐嬲%魄卅年月歲日帆叫年名月礦日多水平模型和關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素第一部分前言一、餅艽苜景一胃食管反流病,是一種胃內(nèi)容物反流引胃食管反流病起食管癥狀和并發(fā)癥
13、的疾病,其特征性癥狀是燒心和反酸【。國內(nèi)外研究表明,的發(fā)生發(fā)展是諸如性別、年齡、體重指數(shù)、飲食習(xí)慣、家族遺傳、心理因素、種族等多種因素及心血管、呼吸道等多種疾病相互作用的結(jié)果【弘。在西方國家人群中,是一種常見的胃腸疾病,大概.%的成年人每周至少經(jīng)歷過一次燒心和/或反酸癥狀。有限的研究表明,亞洲人群中的發(fā)病率相對較低,大概為%。但是,近幾年的研究結(jié)果顯示,西方及亞洲人群的發(fā)病率都呈增長趨勢【。患有的人合并其他食管合并癥如的危險(xiǎn)大大增加了,且易患食管腺癌【】。另外,對于患者的生活質(zhì)量有顯著的影響,并且給患者造成了較大的經(jīng)濟(jì)負(fù)擔(dān)【,。對于患者的影響以及其逐漸增長的發(fā)病率使人們對這種疾病進(jìn)行更深入的了
14、解成為必要。尤其是在中國,人們對于的認(rèn)知程度還相對較低,對于與其他食管癥狀之間關(guān)系的了解非常的貧乏;而針對發(fā)病率的基于中國人群的高質(zhì)量流行病學(xué)調(diào)查幾乎沒有,采用經(jīng)過有效驗(yàn)證的國際標(biāo)準(zhǔn)化量表進(jìn)行的研究也非常的有限【】。盡管在中國報(bào)道的發(fā)病率低于西方國家,但卻呈現(xiàn)逐年增長的趨勢。總所周知,通過流行病學(xué)調(diào)查能從總體水平上了解疾病的流行趨勢及相關(guān)的危險(xiǎn)因素,以便為從群體水平上提出對疾病進(jìn)行有效的控制和預(yù)防的策略提供決策依據(jù)【。因此,為了調(diào)查在中國一般人群的患病情況,研究危險(xiǎn)因素及伴發(fā)疾病的相關(guān)信息,我們在中國大陸進(jìn)行了一項(xiàng)大規(guī)模的流行病學(xué)調(diào)查,以期能夠?yàn)楦玫牧私?更好的指導(dǎo)人們進(jìn)行的早期預(yù)防和治療提
15、供科學(xué)的理論依據(jù)。但本調(diào)查與多數(shù)流行病學(xué)調(diào)查一樣,存在著諸如調(diào)查項(xiàng)目多,各因素之間關(guān)系復(fù)雜,存在缺失值,數(shù)據(jù)存在層次結(jié)構(gòu),很難滿足正態(tài)性和獨(dú)立性假設(shè)等問題。而流行病學(xué)研究中常用多元線性回歸、回歸、回歸、回歸等傳統(tǒng)回歸模型篩選疾病危險(xiǎn)因素,這些回歸模型是建立在對象相互間不應(yīng)有聯(lián)系瞄】,即個體觀測值相互獨(dú)立【】的假設(shè)上,因此,采用上述傳統(tǒng)統(tǒng)計(jì)方法對于類似數(shù)據(jù)的處理存在明顯的局限性,模型參數(shù)估計(jì)的標(biāo)準(zhǔn)誤會產(chǎn)生偏倚【,無法對其進(jìn)行有效的處第二軍醫(yī)大學(xué)博士學(xué)位論文理,導(dǎo)致所獲的信息相對較少,或者甚至可能得到完全錯誤的結(jié)論¨。因此,如何采用更加科學(xué)的統(tǒng)計(jì)方法,深入的分析和挖掘本次流行病學(xué)調(diào)查的資
16、料,研究篩選的影響因素,從中提取有益的信息,是當(dāng)前需要迫切探討和研究的問題。而關(guān)聯(lián)規(guī)則 和多水平模型 則可以在一定程度上克服傳統(tǒng)統(tǒng)計(jì)方法的不足。二關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)挖掘是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、先前未知的、對決策有潛在價(jià)值的知識和規(guī)則。它是人工智能和數(shù)據(jù)庫發(fā)展相結(jié)合的產(chǎn)物,是國際上數(shù)據(jù)庫和信息決策系統(tǒng)最前沿的研究方向之一。數(shù)據(jù)挖掘主要的算法有分類模式、關(guān)聯(lián)規(guī)則、決策樹、序列模式、聚類模式分析、神經(jīng)網(wǎng)絡(luò)算法等等【。而關(guān)聯(lián)規(guī)則挖掘算法是數(shù)據(jù)挖掘中的一種經(jīng)典算法,是描述在一個事務(wù)數(shù)據(jù)庫中事件之間同時(shí)出現(xiàn)的規(guī)律的知識發(fā)現(xiàn)模式,目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。關(guān)聯(lián)規(guī)則最初提出的動機(jī)是針對購物
17、籃分析問題。關(guān)聯(lián)規(guī)則挖掘的最大特點(diǎn)是可以發(fā)現(xiàn)數(shù)據(jù)中各種屬性及屬性組合之間的聯(lián)系,不但能發(fā)掘數(shù)據(jù)中各個變量之間的相關(guān)關(guān)系,還能分析多個變量組合之間的相關(guān)關(guān)系,反應(yīng)各變量之間的協(xié)同拮抗作用。而且若將變量的某個屬性值作為關(guān)聯(lián)規(guī)則挖掘時(shí)的一個獨(dú)立的項(xiàng),還能發(fā)現(xiàn)某個變量值對其他變量的影響。尤其對于大樣本、多屬性的數(shù)據(jù),關(guān)聯(lián)規(guī)則挖掘可以充分發(fā)現(xiàn)隱藏在數(shù)據(jù)中的未知的、新穎的模式,對數(shù)據(jù)的整體理解和進(jìn)一步分析提供參考【。目前,關(guān)聯(lián)規(guī)則的主要算法包括算法,以及基于算法改進(jìn)提出的算法、算法、.算法、算法、算法等引。與傳統(tǒng)的統(tǒng)計(jì)分析方法相比,關(guān)聯(lián)規(guī)則挖掘有以下優(yōu)點(diǎn)【】:不需要考慮變量間的復(fù)雜性,其分析結(jié)果不會因?yàn)橘Y
18、料中加入或去掉一個變量而影響已存在的結(jié)果;資料中的變量既是自變量又是目標(biāo)變量,研究者不需要事先確定哪個是目標(biāo)變量,因此易于獲得某些意料之外的、有意義的模式;關(guān)聯(lián)規(guī)則挖掘只考慮某個變量值,而不是對整個變量,故其分析結(jié)果形式與其他方法有較大差異,但是其結(jié)果比較容易理解和解釋;對于處理稀疏和弱相關(guān)的數(shù)據(jù),關(guān)聯(lián)規(guī)則挖掘的效率較高;關(guān)聯(lián)規(guī)則有較強(qiáng)的處理不完整數(shù)據(jù)的能力【】,對于流行病學(xué)調(diào)查資料中不完整數(shù)據(jù)的處理提供了一個很好的解決方法。關(guān)聯(lián)規(guī)則挖掘引起了數(shù)據(jù)庫研究及其應(yīng)用界的極大關(guān)注。目前,關(guān)聯(lián)規(guī)則挖掘在商業(yè)、金融、保險(xiǎn)等領(lǐng)域得到了廣泛的應(yīng)用,在醫(yī)學(xué)和衛(wèi)生領(lǐng)域的研究尚處于起步階段【,而在流行病學(xué)研究中尚
19、未見有關(guān)聯(lián)規(guī)則挖掘算法應(yīng)用的報(bào)道。鑒于影響因素的多樣性和復(fù)雜性,傳統(tǒng)統(tǒng)計(jì)方法基于其局限性無法對數(shù)據(jù)進(jìn)行深入的挖掘,且無法處理缺失數(shù)據(jù),獲得的信息有限。因此,本研究嘗試充分利.多水平模型和關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素用關(guān)聯(lián)規(guī)則挖掘技術(shù)的優(yōu)點(diǎn)以獲得那些未知的、潛在的影響因素及其相互之間的關(guān)系和多個因素對的聯(lián)合作用,初步篩選出的影響因素,并為隨后的多水平模型建模時(shí)因素的選擇提供依據(jù)。三多水平模型多水平模型是英、美等發(fā)達(dá)國家教育學(xué)界二十世紀(jì)年代中后期發(fā)展起來的一種多元統(tǒng)計(jì)分析新技術(shù),可有效處理傳統(tǒng)多元統(tǒng)計(jì)方法難以分析的具有層次結(jié)構(gòu)特征,是目前國際上統(tǒng)計(jì)學(xué)研究中一個新興而重要的數(shù)據(jù)的領(lǐng)域【。多水
20、平模型可將傳統(tǒng)模型中隨機(jī)誤差分解到與數(shù)據(jù)層次結(jié)構(gòu)相應(yīng)的水平上,通過估計(jì)各水平上的方差,并考慮解釋變量對方差的影響,充分利用各水平內(nèi)的聚集信息,從而獲得回歸系數(shù)的有效估計(jì),而且使得個體的隨機(jī)誤差更純,同時(shí)提供了進(jìn)一步擬合研究水平上復(fù)雜誤差結(jié)構(gòu)的可能性瞄,。多水平模型不僅能夠在層次結(jié)構(gòu)數(shù)據(jù)的分析中正確處理模型參數(shù)估計(jì)問題,而且還能同時(shí)分析微觀和宏觀變量的效應(yīng),以及跨層交互作用【。根據(jù)研究者的研究目的和資料的情況,多水平模型可有不同的形式,如二分類離散數(shù)據(jù)多水平模型、多分類離散數(shù)據(jù)多水平模型、重復(fù)測量數(shù)據(jù)多水平模型、多水平交叉分類模型、雙變量多水平模型、非線性多水平模型、多水平時(shí)間序列模型等【,矧。
21、目前多水平模型已廣泛應(yīng)用于心理學(xué)、社會學(xué)、人口學(xué)、教育學(xué)、經(jīng)濟(jì)學(xué)等社會科學(xué),以及醫(yī)學(xué)、流行病學(xué)和公共衛(wèi)生等社會科學(xué)各個領(lǐng)域【,而國內(nèi)對多水平模型的研究和應(yīng)用才剛剛起步。本次中國大陸流行病學(xué)調(diào)查采用了多階段分層隨機(jī)抽樣的方法,因此調(diào)查獲得的數(shù)據(jù)具有典型的層次結(jié)構(gòu)特征,如前所述對于具有層次結(jié)構(gòu)特征的數(shù)據(jù),傳統(tǒng)統(tǒng)計(jì)方法具有一定的局限性,因此本研究擬在關(guān)聯(lián)規(guī)則己篩選出的影響因素的基礎(chǔ)上,采用多水平模型建模,以解決傳統(tǒng)統(tǒng)計(jì)方法因忽略數(shù)據(jù)的層次結(jié)構(gòu)所帶來的問題,更科學(xué)的揭示的影響因素。因此,本研究旨在探討聯(lián)合應(yīng)用關(guān)聯(lián)規(guī)則挖掘技術(shù)和多水平模型,充分利用兩者的優(yōu)點(diǎn),在一定程度上克服傳統(tǒng)統(tǒng)計(jì)方法的局限性,更加科
22、學(xué)、合理的研究和篩選的影響因素。二、研究內(nèi)容與方法一研究內(nèi)容、中國大陸流行病學(xué)調(diào)查的組織實(shí)施和研究數(shù)據(jù)庫的建立首先,組織實(shí)施中國大陸流行病學(xué)調(diào)查,完成問卷資料的現(xiàn)場采集。然后,將調(diào)查資料利用.進(jìn)行雙份錄入和比對,并利用.進(jìn)行數(shù)據(jù)的第二軍醫(yī)大學(xué)博士學(xué)位論文核查和清理,建立中國大陸流行病學(xué)調(diào)查數(shù)據(jù)庫。然后,根據(jù)關(guān)聯(lián)規(guī)則挖掘的需要,利用.將該數(shù)據(jù)庫轉(zhuǎn)換成適合關(guān)聯(lián)規(guī)則挖掘需要的事務(wù)性數(shù)據(jù)庫,以便進(jìn)行關(guān)聯(lián)規(guī)則挖掘。最后,再將數(shù)據(jù)庫轉(zhuǎn)換成多水平數(shù)據(jù),以適應(yīng)多水平模型建模的需要。、關(guān)聯(lián)規(guī)則挖掘理論及在胃食管反流癥狀影響因素分析中的應(yīng)用研究關(guān)聯(lián)規(guī)則挖掘的基本理論和常用算法,了解參數(shù)的設(shè)置和規(guī)則有趣性的度量方法
23、。然后,利用/模塊中經(jīng)典的算法進(jìn)行胃食管反流癥狀影響因素的關(guān)聯(lián)規(guī)則挖掘分析。規(guī)則產(chǎn)生后,研究利用模板匹配等方法進(jìn)行規(guī)則裁剪,以便從海量的規(guī)則中去掉大量的冗余規(guī)則。研究利用各種規(guī)則度量指標(biāo)進(jìn)行初步篩選后規(guī)則有趣性的度量,從中選取有意義的規(guī)則,以便初步分析探索各種可能的、隱藏的影響因素與之間的關(guān)聯(lián)關(guān)系,并為多水平模型建模時(shí)解釋變量的選擇提供依據(jù)。、多水平模型理論及在影響因素研究中的應(yīng)用首先,研究多水平模型基本理論、建模方法和步驟,以及非參數(shù)殘差自助法和參數(shù)殘差自助法多水平模型的建模方法。然后,研究確定本調(diào)查數(shù)據(jù)恰當(dāng)?shù)膶哟谓Y(jié)構(gòu),利用關(guān)聯(lián)規(guī)則挖掘中篩選出的可能與有關(guān)的影響因素,構(gòu)建中國大陸影響因素分析
24、多水平模型。最后,在最終確定的多水平模型基礎(chǔ)上,研究比較參數(shù)法和非參數(shù)法殘差自助法多水平模型的實(shí)際應(yīng)用和優(yōu)劣。、影響因素綜合分析綜合考慮多水平模型研究獲得的與有關(guān)的影響因素,以及關(guān)聯(lián)規(guī)則挖掘得出的有意義的規(guī)則,結(jié)合已有的研究成果,深入分析和評價(jià)的影響因素,為提高人們對的認(rèn)知程度和更好地防治提供一定的理論依據(jù)。二研究方法利用中國大陸流行病學(xué)調(diào)查獲取的資料,建立研究數(shù)據(jù)庫,并分別根據(jù)關(guān)聯(lián)規(guī)則挖掘和多水平模型建模的需要對數(shù)據(jù)庫進(jìn)行相應(yīng)的轉(zhuǎn)換。采用關(guān)聯(lián)規(guī)則挖掘中經(jīng)典的算法,利用/進(jìn)行關(guān)聯(lián)規(guī)則挖掘,探索各種可能的、隱藏的影響因素與之間的關(guān)聯(lián)關(guān)系。在關(guān)聯(lián)規(guī)則挖掘的信息基礎(chǔ)上,構(gòu)建多水平模型進(jìn)行影響因素分析
25、,并研究比較參數(shù)法和非參數(shù)法殘差自助法多水平模型的優(yōu)劣。本研究的技術(shù)路線詳見圖.。.多水平模型和關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素圖.本研究所采用的技術(shù)路線三研究目的與意義、研究目的鑒于傳統(tǒng)統(tǒng)計(jì)方法的局限性,探討聯(lián)合應(yīng)用關(guān)聯(lián)規(guī)則挖掘和多水平模型,充分利用兩者的優(yōu)點(diǎn),以更加科學(xué)、合理的分析和挖掘中國大陸流行病學(xué)調(diào)查資料,研究和篩選山的影響因素,從中提取有益的信息,為的早期預(yù)防和治療提供定的理論依據(jù)。、研究意義本研究以影響因素研究為切入點(diǎn),針對中國大陸流行病學(xué)調(diào)查數(shù)據(jù)的特征及傳統(tǒng)統(tǒng)計(jì)方法的局限性,探討聯(lián)合應(yīng)用多水平模型和關(guān)聯(lián)規(guī)則挖掘技術(shù),科學(xué)研究和評價(jià)了的影響因素,為的防治提供了一定的理論依據(jù)。
26、而第二軍醫(yī)大學(xué)博士學(xué)位論文本研究所進(jìn)行的多水平模型和關(guān)聯(lián)規(guī)則挖掘技術(shù)的聯(lián)合應(yīng)用研究對于其他流行病學(xué)調(diào)查資料的分析在方法學(xué)方面亦有一定的參考價(jià)值。四資料來源、分析工具本研究所需的數(shù)據(jù)都來源于由阿斯利康制藥資助的中國大陸流行病學(xué)調(diào)查,該調(diào)查于年月下旬開始,至年月下旬結(jié)束。.、內(nèi)存和 硬盤的微本課題研究使用了配有機(jī),采用.軟件進(jìn)行數(shù)據(jù)錄入和數(shù)據(jù)管理,采用.進(jìn)行關(guān)聯(lián)規(guī)則挖掘和多水平模型的構(gòu)建。.多水平模型和關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素第二部分 中國大陸流行病學(xué)調(diào)查一、調(diào)查內(nèi)容作為在中國大陸進(jìn)行的截止目前為止規(guī)模最大的一次流行病學(xué)調(diào)查,本次調(diào)查的內(nèi)容豐富,采用了國際上規(guī)范的標(biāo)準(zhǔn)化調(diào)查量表,調(diào)查內(nèi)
27、容主要包括以下九個部分:被調(diào)查者的基本信息;反流性疾病問卷,簡稱;簡化的羅馬組合問卷 ,簡稱;.健康調(diào)查量表,簡稱.;,簡稱;體格檢查問卷;實(shí)驗(yàn)室檢查;嗜睡量表 胃鏡檢查;組織學(xué)活檢。因?yàn)楸敬握{(diào)查人群分為幾個子樣本,故只有前面三個部分的問卷是所有的被調(diào)查者都需要填寫的,而后面六個部分的調(diào)查內(nèi)容只是部分特定的被調(diào)查者才填寫。在本研究中只涉及到了前三部分問卷的調(diào)查資料,因此下面僅對這三個部分問卷的內(nèi)容進(jìn)行一下介紹。一被調(diào)查者的基本信息被調(diào)查者的基本信息,主要包括以下四個部分的內(nèi)容:被調(diào)查者的所屬地區(qū)編碼、身份編碼、調(diào)查員編號、督察員姓名等身份識別和質(zhì)量保證信息;被調(diào)查者的人口統(tǒng)計(jì)學(xué)特征,如性別、年
28、齡、身高、體重、文化程度、婚姻狀況、職業(yè)、家庭月收入、胃腸道疾病或腫瘤家族史等;健康自評情況,如總體健康狀況、精神狀態(tài)等;既往疾病史,如消化不良、肝臟疾病、高血壓、心肌梗塞、心絞痛、腦血管疾病、慢性支氣管炎等。二反流性疾病問卷反流性疾病問卷 ,簡稱為是一種自填式問卷,被用于評估治療的效果,且被認(rèn)為是初級預(yù)防保健中胃食管反流病的一種診斷工具。共包括個條目,分別反應(yīng)了個反流性癥狀的發(fā)生頻率和嚴(yán)重程度,每個條目都被設(shè)計(jì)為一個六等級的刻度,賦值為表示最好的結(jié)果,表示最差的結(jié)果【,】詳見附件。包括四個維度:燒心、反酸和消化不良,見表?。、維度可見維度實(shí)際上包括了燒心和反酸兩個維度,本研究在后面的分析中所
29、用到的總評分即為表.中的、和這八個條目得分的總和。第二軍醫(yī)大學(xué)博士學(xué)位論文表.反流性疾病問卷中包含的維度三簡化的 組合問卷簡化的羅馬組合問卷 ,共,簡稱包括個條目,涵蓋了食道癥狀、胃十二指腸癥狀、排便癥狀和膽囊癥狀。簡化的羅馬組合問卷的詳細(xì)內(nèi)容見附錄。在功能性胃腸道紊亂和功能性腹痛的診斷方面,羅馬診斷標(biāo)準(zhǔn)被廣泛應(yīng)用于科研和臨床實(shí)踐中。功能性腸紊亂和功能性腹痛的羅馬診斷標(biāo)準(zhǔn)為:在過去個月中至少周出現(xiàn)典型癥狀,且排除了器質(zhì)性病變或生化藥物因素的所致。羅馬診斷標(biāo)準(zhǔn)的目的是幫助臨床醫(yī)生和研究者,使他們能夠?qū)δ苄阅c紊亂做出肯定的診斷而不是僅僅排除,使他們能夠了解這些紊亂的病理生理學(xué)變化,以對患者進(jìn)行有
30、效的治療。利用該問卷我們可以診斷諸如功能性消化不良、吞氣癥、功能性嘔吐、腸易激綜合征、功能性腹脹、功能性便秘等疾病閉。二、調(diào)查過程一準(zhǔn)備工作首先,撰寫中國大陸流行病學(xué)調(diào)查方案,然后根據(jù)國內(nèi)外流行病學(xué)專家、臨床醫(yī)生、統(tǒng)計(jì)學(xué)專家的建議,結(jié)合中國的基本國情,確定了抽樣方法、調(diào)查工具等,并最終修改、完成了調(diào)查方案,上報(bào)第二軍醫(yī)大學(xué)倫理委員會批準(zhǔn)。然后,進(jìn)行調(diào)查問卷的印刷,撰寫調(diào)查員培訓(xùn)手冊,并赴各調(diào)查點(diǎn)進(jìn)行調(diào)查員的培訓(xùn)。.;水平模型和聯(lián)規(guī)則聯(lián)合研究日食管反流痛影響因素為了保證調(diào)查的順利實(shí)施。我們提前與各調(diào)查點(diǎn)的疾病控制中心進(jìn)行協(xié)商和溝通,以獲得他們的合作和支持。然后,再由當(dāng)?shù)氐墓ぷ魅藛T與抽中的居村委會
31、聯(lián)系,以便讓居村委會的干部提前在居民中宣傳率次調(diào)查的意義和重要性。我們選擇的調(diào)查員是由當(dāng)?shù)鼐哟逦瘯墓ぷ魅藛T和大學(xué)生組成的,都熟悉當(dāng)?shù)鼐用竦那闆r以及方言,便于調(diào)查的順利展開和進(jìn)行。對這些調(diào)查員的培訓(xùn)都是統(tǒng)一由第二軍醫(yī)大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室經(jīng)驗(yàn)豐富的督察員完成的。通過統(tǒng)一培訓(xùn),阻便使所有相關(guān)人員清楚本次調(diào)查的目的和意義,以及自己在調(diào)查中的角色定位.以確保本歡調(diào)查數(shù)據(jù)具有較高的質(zhì)量。%圖本放調(diào)查在中田大陸避擇的五個調(diào)查點(diǎn)二抽樣根據(jù)預(yù)調(diào)查的結(jié)果,并考慮%的無應(yīng)答率,我們最終確定本次中國大陸流行病學(xué)調(diào)查的樣本量為人。本調(diào)查選擇上海、廣州、西安、北京、武漢五個城市分別代表中國大陸的東、南、西、北、中五個方
32、位見圖.,計(jì)劃在上述五個調(diào)查點(diǎn)分別完成份的問卷調(diào)查。第二軍醫(yī)大學(xué)博士學(xué)位論文、調(diào)查設(shè)計(jì)本次調(diào)查采用了多階段分層隨機(jī)抽樣的方法,整個抽樣過程分為四個階段。各個調(diào)查點(diǎn)先根據(jù)其地理位置和行政區(qū)劃分為城市地區(qū)和農(nóng)村地區(qū),然后在城市地區(qū)按照區(qū)?街道一居委會?居民的次序進(jìn)行多階段分層隨機(jī)抽樣,在農(nóng)村地區(qū)按照縣一鄉(xiāng)鎮(zhèn)?村?居民的次序進(jìn)行多階段分層隨機(jī)抽樣如圖.所示。中國大陸土北京、上海、西安、武漢、廣州城市 農(nóng)村上 上區(qū) 縣上上街道 鎮(zhèn)鄉(xiāng)上 土居委會 村圖.中國大陸胃腸疾病流行病學(xué)調(diào)查抽樣流程圖、抽樣的實(shí)施下面以上海為例,介紹一下本次調(diào)查的抽樣過程,具體過程詳見圖.。上海市是由 個區(qū)和個縣組成的,按照其地理
33、位置被分為城市地區(qū)和農(nóng)村地區(qū)。城市地區(qū)包括長寧區(qū)、虹口區(qū)、黃浦區(qū)、靜安區(qū)、盧灣區(qū)、徐匯區(qū)、楊浦區(qū)和閘北區(qū)共個區(qū):農(nóng)村地區(qū)包括寶山區(qū)、嘉定區(qū)、閔行區(qū)、浦東新區(qū)、南匯區(qū)、奉賢區(qū)、松江區(qū)、金山區(qū)、青浦區(qū)個區(qū)和崇明縣。在城市地區(qū),我們利用軟件隨機(jī)抽取虹口區(qū)作為本次調(diào)查在城市的調(diào)查點(diǎn)。虹口區(qū)共轄有個街道,其中提籃橋街道和?城新村街道被隨機(jī)抽取為調(diào)查點(diǎn)。提籃橋街道下轄有個居委會,晉陽居委和明華坊居委被隨機(jī)抽取作為%樣本所謂%樣本,即被調(diào)查者需要完成調(diào)查問卷中的一六個部分的內(nèi)容的調(diào)查點(diǎn),.多水平模型和關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素而春江居委、惠民居委、西村居委、東大名居委、輔慶居委、懷興居委、蘭村居委
34、、日新居委和舟山居委被隨機(jī)抽取作為%樣本所謂%樣本,即被調(diào)查者需要完成調(diào)查問卷中卜三個部分的內(nèi)容調(diào)查點(diǎn)。?城新村街道下轄有個居委,水電居委和科佳居委被隨機(jī)抽取作為樣本調(diào)查點(diǎn)。最終,在抽取的上述個居委會中,根據(jù)居委會提供的?歲常住人口名單隨機(jī)抽取了人作為本調(diào)查在上海城市地區(qū)的調(diào)查對象。圖上海調(diào)查點(diǎn)的抽取流程圖.第二軍醫(yī)大學(xué)博士學(xué)位論文在農(nóng)村地區(qū),我們隨機(jī)抽取寶山區(qū)作為本次調(diào)查的調(diào)查點(diǎn)。寶山區(qū)共轄有個街道和個鎮(zhèn),最后大場鎮(zhèn)和羅店鎮(zhèn)被隨機(jī)選中。大場鎮(zhèn)下轄有個居委和個村,最后葑村和南大村分別被隨機(jī)抽取作為%和%樣本調(diào)查點(diǎn)。羅店鎮(zhèn)下轄有個居委和個村,最后北金村和南周村被隨機(jī)抽取作為%樣本調(diào)查點(diǎn)。最終,在
35、抽取的上述個村中,根據(jù)村委會提供的?歲常住人口名單隨機(jī)抽取了人作為本調(diào)查在上海農(nóng)村地區(qū)的調(diào)查對象。總之,通過四個階段的隨機(jī)抽樣,最后在上海市共抽取了人作為本調(diào)查的調(diào)查對象,城市和農(nóng)村地區(qū)各人。其他四個調(diào)查點(diǎn)抽樣過程同上海,此處不再一一詳細(xì)描述,其抽樣流程詳見圖.至圖.。圖北京調(diào)查點(diǎn)的抽取流程圖.多水平模型和關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素圖.西安調(diào)查點(diǎn)的抽取流程圖.醫(yī)大學(xué)博士學(xué)位論文圖廣州調(diào)查點(diǎn)的抽取流程圖、現(xiàn)場調(diào)查中國大陸流行病學(xué)現(xiàn)場調(diào)查于年月下旬開始,至年月下旬結(jié)束。調(diào)查采用入戶調(diào)查和集中調(diào)查相結(jié)合的方式,集中調(diào)查地點(diǎn)在當(dāng)?shù)氐纳鐓^(qū)衛(wèi)生服務(wù)中心、居委會或村委會。各地的現(xiàn)場調(diào)查都是由經(jīng)過嚴(yán)
36、格培訓(xùn)的調(diào)查員完成的。被調(diào)查者先簽署知情同意書,然后獨(dú)立完成調(diào)查問卷,調(diào)查員給予必要的解釋和說明。被調(diào)查者完成問卷后,調(diào)查員簽字檢查,然后現(xiàn)場交給來自第二軍醫(yī)大學(xué)的督察員,督察員檢查問卷合格后簽字確認(rèn),然后發(fā)給被調(diào)查者早餐或小禮物。若督察員發(fā)現(xiàn)問題,馬上詢問被調(diào)查者,以對問卷上的缺項(xiàng)或錯誤給予必要的補(bǔ)充或更正。一份有效的問卷,即由督察員簽字確認(rèn)的問卷。由于本調(diào)查采用了督察員在各調(diào)查點(diǎn)現(xiàn)場督察的方法,因此大大降低了本次調(diào)查問卷中的數(shù)據(jù)缺項(xiàng)問題。督察員根據(jù)調(diào)查中發(fā)現(xiàn)的出現(xiàn)頻率較高的問題,還可以對調(diào).多水平模型和關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素查員進(jìn)行再培訓(xùn),以提高后續(xù)調(diào)查的質(zhì)量。最終,經(jīng)過將近
37、十個月的努力,在中國大陸個調(diào)查點(diǎn)共順利完成了人的問卷調(diào)查,其中上海、北京、武漢、西安和廣州分別調(diào)查了、人,應(yīng)答率為.%。各調(diào)查點(diǎn)被調(diào)查對象情況詳見表.。表各調(diào)查點(diǎn)完成的被調(diào)查對象數(shù)量和基本情況上海 北京 武漢 西安 廣州 合計(jì)奠【絲 絲【絲 盟絲. 絲絲 叢絲 叢【絲】調(diào)查地域城市. .農(nóng)村.性別女性.男性. .年齡歲. . . . . .? . . . . . . . . . . . . . .?缶. . . . . . . . . .應(yīng)答率. . . . . .%合計(jì).、數(shù)據(jù)錄入與數(shù)據(jù)整理采用.軟件進(jìn)行數(shù)據(jù)的錄入,且每份調(diào)查問卷都由兩個人采用獨(dú)立雙份錄入的方式進(jìn)行。當(dāng)所有問卷的第一、二次錄
38、入都完成后,利用.軟件進(jìn)行數(shù)據(jù)的雙份比對,不一致的地方查對問卷修改數(shù)據(jù)庫,直到兩個數(shù)據(jù)庫完全一致為止。雙份比對完成后,將數(shù)據(jù)庫導(dǎo)出到 .,利用編程進(jìn)行缺失值核查和邏輯核查。對于查出的問題,進(jìn)行相應(yīng)的修改或做缺失處理。當(dāng)所有的數(shù)據(jù)都正確無誤后,進(jìn)行數(shù)據(jù)庫的鎖定。經(jīng)過核查和整理后,確定有份問卷存在非常嚴(yán)重的邏輯錯誤,被排除出統(tǒng)計(jì)分析之外。因此,最終共有份問卷進(jìn)入了統(tǒng)計(jì)分析,其中上海、北京、武漢、.第醫(yī)大學(xué)博士學(xué)位論文西安和廣州各有、份有效問卷。三質(zhì)量保證機(jī)制在調(diào)查的每個環(huán)節(jié),我們都按照方案的規(guī)定采取了相應(yīng)的質(zhì)量保證措施,確保各調(diào)查點(diǎn)在調(diào)查中嚴(yán)格遵循調(diào)查方案中規(guī)定的標(biāo)準(zhǔn)調(diào)查流程,以盡可能的利用調(diào)查問
39、卷獲得準(zhǔn)確、可靠的信息。在充分吸取預(yù)調(diào)查經(jīng)驗(yàn)的基礎(chǔ)上,我們對調(diào)查問卷的印制進(jìn)行了以下改進(jìn):一是將所有的基本信息都印在調(diào)查問卷的封面,便于督察員和調(diào)查員核查;二是對不同調(diào)查問卷的封面采用不同顏色的紙張,有效的防止了調(diào)查過程中發(fā)生問卷錯亂的現(xiàn)象;三是調(diào)查問卷中相鄰的條目印刷時(shí)采用不同的顏色,跳轉(zhuǎn)的條目用箭頭標(biāo)識跳轉(zhuǎn)的具體方向,從而有效地減少了問卷填寫過程中的漏項(xiàng)和跳轉(zhuǎn)錯誤等問題。在調(diào)查員的選擇方面,我們的調(diào)查員都是由社區(qū)衛(wèi)生服務(wù)中心的醫(yī)生、居委會的工作人員及當(dāng)?shù)蒯t(yī)學(xué)院校的大學(xué)生組成的,基本上都對當(dāng)?shù)氐那闆r比較熟悉,能聽能講當(dāng)?shù)胤窖?能夠與被調(diào)查者進(jìn)行溝通。所有調(diào)查員都接受了第二軍醫(yī)大學(xué)的督察員的統(tǒng)
40、一培訓(xùn),并人手一本調(diào)查員手冊。培訓(xùn)后,在每一個調(diào)查點(diǎn),調(diào)查員之間都相互進(jìn)行了多次演練,發(fā)現(xiàn)問題及時(shí)討論解決。在現(xiàn)場調(diào)查中,每個調(diào)查點(diǎn)都有我們的督察員進(jìn)行現(xiàn)場督察。督察員在現(xiàn)場對調(diào)查員的工作進(jìn)行跟蹤和評估,保證調(diào)查員的工作遵循了調(diào)查方案的要求,并確保所收集信息的正確性和完整性。督察員及時(shí)指出調(diào)查員在調(diào)查過程中存在的問題,保證調(diào)查員在后續(xù)調(diào)查中的質(zhì)量。督察員在每一個調(diào)查點(diǎn)現(xiàn)場檢查所有的調(diào)查問卷,以確認(rèn)是否問卷中的條目被正確的填寫,條目是否正確的跳轉(zhuǎn)跳轉(zhuǎn)條目只是在姬中存在。若發(fā)現(xiàn)問題,馬上請被調(diào)查者更正或填補(bǔ),從而大大提高了問卷的調(diào)查質(zhì)量。一份有效的問卷即由督察員簽字確認(rèn)的問卷。.進(jìn)行數(shù)據(jù)錄入,采用
41、多人雙份錄入的方式,并在數(shù)據(jù)錄入中,采用.進(jìn)行雙份比對和核查,然后再用軟件進(jìn)行數(shù)據(jù)的核查和數(shù)據(jù)清理,用直到所有問題得到更正和處理,保證統(tǒng)計(jì)分析時(shí)數(shù)據(jù)的高質(zhì)量。.多水平模型和關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素第.盎:分 關(guān)聯(lián)規(guī)則挖掘基本理論、實(shí)現(xiàn)及規(guī)則有趣性的度量一、關(guān)聯(lián)規(guī)則挖掘基本理論數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中挖掘有趣知識的過程【】。而關(guān)聯(lián)規(guī)則是最早被提出的數(shù)據(jù)挖掘方法之一,也是數(shù)據(jù)挖掘中的一個重要研究課題【。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)規(guī)則挖掘的目的就是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)
42、,發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系玎。等于年首先提出了挖掘顧客交易數(shù)據(jù)庫中項(xiàng)集間的關(guān)聯(lián)規(guī)則問題。此后,關(guān)聯(lián)規(guī)則挖掘就引起了眾多數(shù)據(jù)庫研究及其應(yīng)用界的極大關(guān)注。關(guān)聯(lián)規(guī)則挖掘的一個典型例子就是著名的購物籃分析,該過程通過發(fā)現(xiàn)顧客放入其購物籃中不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣。例如,在同一次去超級市場,如果顧客購買牛奶,他也購買面包的可能性有多大關(guān)聯(lián)規(guī)則分析可以幫助零售商有選擇地經(jīng)銷和安排貨架,引導(dǎo)銷售。目前,關(guān)聯(lián)規(guī)則挖掘已經(jīng)被廣泛應(yīng)用于諸如金融分析、保險(xiǎn)分析、商業(yè)、生產(chǎn)控制、預(yù)取、電信等很多領(lǐng)域,以及生物醫(yī)學(xué)領(lǐng)域,如用于基因序列識別、醫(yī)療記錄分析等列。一關(guān)聯(lián)規(guī)則挖掘的基本概念設(shè),毛
43、,之,?,是項(xiàng)的集合。設(shè)任務(wù)相關(guān)的數(shù)據(jù)是數(shù)據(jù)庫事務(wù)的集合,其中每個事務(wù)丁是項(xiàng)的集合,使得丁。每一個事務(wù)有一個標(biāo)識符,稱作如表.。設(shè)彳是一個項(xiàng)集,事務(wù)包含當(dāng)且僅當(dāng)彳。關(guān)聯(lián)規(guī)則是形如的蘊(yùn)涵式,其中 , ,并且。規(guī)則 在事務(wù)集中成立,具有支持度,其中是中事務(wù)包含彳即彳和二者的百分比,它是概率。如果中包含彳的事務(wù)同時(shí)也包含曰的百分比是,則規(guī)則 在事務(wù)集中具有可信度,這是條件概率彳。即是:/同時(shí)滿足最小支持度閾值和最小可信度閾值為強(qiáng)規(guī)則。項(xiàng)的集合稱為項(xiàng)集,包含個項(xiàng)的項(xiàng)集稱為缸項(xiàng)集。項(xiàng)集的出現(xiàn)頻率是包含項(xiàng)集的事務(wù)數(shù),簡稱為項(xiàng)集的頻率、支持計(jì)數(shù)或計(jì)數(shù)。項(xiàng)集滿足最小支。持度,則稱它為頻繁項(xiàng)集.的規(guī)則稱.第二軍
44、醫(yī)大學(xué)博士學(xué)位論文關(guān)聯(lián)規(guī)則挖掘?qū)嶋H上是一個兩步的過程,即:找出所有的頻繁項(xiàng)集:根據(jù)定義,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持計(jì)數(shù)一樣;由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則:根據(jù)定義,這些規(guī)則必須滿足最小支持度和最小可信度閩值。表.事務(wù)數(shù)據(jù)庫例子項(xiàng)的列表,屯,如,二關(guān)聯(lián)規(guī)則挖掘的分類購物籃分析只是關(guān)聯(lián)規(guī)則挖掘的一種形式。事實(shí)上,有許多種關(guān)聯(lián)規(guī)則挖掘方法。根據(jù)不同的分類標(biāo)準(zhǔn),關(guān)聯(lián)規(guī)則挖掘有以下幾種分類方法【。、根據(jù)規(guī)則中所處理的數(shù)值類型分類如果規(guī)則考慮的關(guān)聯(lián)是項(xiàng)的在與不在,則它是布爾關(guān)聯(lián)規(guī)則,如上面提到的購物籃分析得到的規(guī)則就是布爾關(guān)聯(lián)規(guī)則。布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、分類的,它顯示了這些變量之間
45、的關(guān)系。如果規(guī)則描述的是量化的。在這種規(guī)項(xiàng)或?qū)傩灾g的關(guān)聯(lián),則它是量化關(guān)聯(lián)規(guī)則則中,項(xiàng)或?qū)傩缘牡牧炕祫澐譃閰^(qū)間,即把其量化屬性離散化。量化關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來,對數(shù)值型字段進(jìn)行處理,將其進(jìn)行動態(tài)的分割,或者直接對原始的數(shù)據(jù)進(jìn)行處理,當(dāng)然量化關(guān)聯(lián)規(guī)則中也可以包含分類變量。、根據(jù)規(guī)則中涉及的數(shù)據(jù)維數(shù)分類如果關(guān)聯(lián)規(guī)則中的項(xiàng)或?qū)傩悦總€只涉及一個維,則稱單維關(guān)聯(lián)規(guī)則。如果規(guī)則涉及兩個或多個維,則稱多維關(guān)聯(lián)規(guī)則 。也就是說,單維關(guān)聯(lián)規(guī)則是處理單個屬性中的一些關(guān)系;多維關(guān)聯(lián)規(guī)則是處理各個屬性之間的某些關(guān)系。、根據(jù)規(guī)則所涉及的抽象層分類如果在給定的規(guī)則集中,規(guī)則不涉及不同抽象層的項(xiàng)或
46、屬性,則該集合包含單。如果規(guī)則涉及不同的抽象層,則稱所挖掘?qū)雨P(guān)聯(lián)規(guī)則.多水平模型和關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素的規(guī)則集由多層關(guān)聯(lián)規(guī)則 組成。例如:臺式機(jī)打印機(jī),是一個細(xì)節(jié)數(shù)據(jù)上的單層關(guān)聯(lián)規(guī)則;臺式機(jī)打印機(jī),是一個較高層次和細(xì)節(jié)層次之間的多層關(guān)聯(lián)規(guī)則。、根據(jù)關(guān)聯(lián)規(guī)則挖掘的各種擴(kuò)充分類關(guān)聯(lián)規(guī)則挖掘可以擴(kuò)充到相關(guān)分析,可以識別是否相關(guān),還可以擴(kuò)充到挖掘最大模式即最大的頻繁模式和頻繁閉項(xiàng)集。最大模式是頻繁模式,使得的任何真超模式若是的子模式,即包含,則稱是的超模式都不是頻繁的。頻繁閉項(xiàng)集是一個頻繁的閉的項(xiàng)集,其中項(xiàng)集是閉的,如果不存在的真超集,使得每個包含的事務(wù)也包含。使用最大模式和頻繁模式閉
47、項(xiàng)集可以顯著地壓縮挖掘所產(chǎn)生的頻繁項(xiàng)集數(shù)。三關(guān)聯(lián)規(guī)則挖掘的主要算法關(guān)聯(lián)規(guī)則挖掘就是要發(fā)現(xiàn)數(shù)據(jù)庫中滿足用戶指定的最小支持度和最小可信度閾值的所有關(guān)聯(lián)規(guī)則。可以把關(guān)聯(lián)規(guī)則挖掘劃分為兩個子問題:根據(jù)最小支持度找出中所有的頻繁項(xiàng)目集;根據(jù)頻繁項(xiàng)目集和最小可信度產(chǎn)生關(guān)聯(lián)規(guī)則。第一個子問題是關(guān)聯(lián)規(guī)則挖掘的中心問題,是衡量關(guān)聯(lián)規(guī)則挖掘算法的標(biāo)準(zhǔn),第二個子問題比較容易、直接。目前所有的關(guān)聯(lián)規(guī)則挖掘算法都是針對第一個子問題而提出的。下面是目前一些主要的關(guān)聯(lián)規(guī)則挖掘算法。、算法算法【,蚓是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,是所有已知算法的基礎(chǔ)。算法使用一種稱作逐層搜索的迭代方法,利用缸項(xiàng)集來探索脅.項(xiàng)
48、集。首先找出頻繁.項(xiàng)集的集合,該集合記作厶,厶用于找頻繁.項(xiàng)集的集合厶,而厶用于找厶,如此下去,直到不能找到頻繁缸項(xiàng)集為止。找每個厶需要一次數(shù)據(jù)庫掃描。該算法主要由連接步和剪枝步兩步過程組成的。連接步:為找丘,通過厶一。與自己連接產(chǎn)生侯選玨項(xiàng)集的集合。該侯選項(xiàng)集的集合記作。設(shè),。和乞是三中的項(xiàng)集,組刀表示的第.,項(xiàng)例如,“七一】表示厶的倒數(shù)第三項(xiàng)。為方便計(jì),假定事務(wù)或項(xiàng)集中的項(xiàng)按字典次序排序。執(zhí)行連接厶一。厶,其中,.的元素是可連接的,如果它們前個項(xiàng)相同,即如果:【】【】【】盤厶【】?】一】則的元素,;是可連接的。條件】是簡單地保證不產(chǎn)生重復(fù)。連接,。和乞產(chǎn)生的結(jié)果項(xiàng)集是】【】.:】。.第二軍
49、醫(yī)大學(xué)博士學(xué)位論文剪枝步:是厶的超集,即其成員可以是也可以不是頻繁的,但所有的頻繁如項(xiàng)集都包含在中。掃描數(shù)據(jù)庫,確定中每個侯選的計(jì)數(shù),從而確定厶即根據(jù)定義,計(jì)數(shù)值不小于最小支持度計(jì)數(shù)的所有侯選是頻繁的。然而,可能很大,這樣所涉及的計(jì)算量就很大。為壓縮,依據(jù)任何非頻繁的.項(xiàng)集都不可能是頻繁.項(xiàng)集的子集的性質(zhì),如果一個侯選缸項(xiàng)集的.子集不在厶一.中,則該侯選也不可能是頻繁的,從而可以由中刪除。這種子集測試可以使所有頻繁項(xiàng)集的散列樹快速完成。算法的兩大缺點(diǎn)是可能產(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫。、算法算法釓由等提出,是一種廣度優(yōu)先搜索、交叉計(jì)數(shù)的算法,它的數(shù)據(jù)集采用了垂直數(shù)據(jù)表示。算法最
50、初是針對處理大數(shù)據(jù)集時(shí)需多次掃描數(shù)據(jù)集,為了提高效率而提出的。算法只需掃描完整的數(shù)據(jù)集兩次,以挖掘頻繁項(xiàng)集。算法引入了局部頻繁項(xiàng)集和全局頻繁項(xiàng)集的概念。在第遍掃描時(shí),它先把數(shù)據(jù)集從邏輯上分成幾個互不相交的的分區(qū),每次單獨(dú)考慮一個分區(qū),并對它生成所有的頻繁項(xiàng)集,稱為局部頻繁項(xiàng)集;各個分區(qū)產(chǎn)生的所有局部頻繁項(xiàng)集的集合,就是全局候選項(xiàng)集。在第遍掃描時(shí),對全局候選項(xiàng)集進(jìn)行部分刪減,去除已知支持度和不可能為全局頻繁項(xiàng)集的全局候選項(xiàng)集,最后計(jì)算這些候選項(xiàng)集的支持度。算法的正確性是由每一個可能的頻繁項(xiàng)集至少在某一個分區(qū)中是頻繁項(xiàng)集來保證的。這種算法也是可以高度并行的。盡管算法是針對大數(shù)據(jù)集提出的一種算法,但
51、是在大規(guī)模數(shù)據(jù)集上,依賴于數(shù)據(jù)集的特征,隨著分區(qū)的增多,可能產(chǎn)生大量的局部頻繁項(xiàng)集,使全局候選項(xiàng)集的集合相當(dāng)大,計(jì)數(shù)階段的冗余計(jì)算成本較高。算法在減少/成本的同時(shí),卻增加了候選項(xiàng)集計(jì)數(shù)的成本,此時(shí)算法的性能要比算法差。可見,盡管算法是針對有效處理大數(shù)據(jù)集提出的一種算法,但在處理大數(shù)據(jù)集時(shí),算法本身的局限性使其無法獲得較好的效果。對算法本身的研究和改進(jìn)并不多,但在算法中提出的數(shù)據(jù)垂直表示和交叉計(jì)數(shù)方式,被證明是相當(dāng)高效的,在后續(xù)的算法中得到很好的利用。、算法算法釧是由提出的一種典型的深度優(yōu)先搜索結(jié)合交叉計(jì)數(shù)的算法,其數(shù)據(jù)集采用垂直數(shù)據(jù)表示。算法在搜索空間中引入了等價(jià)類的概念,具有相一.多水平模型和關(guān)聯(lián)規(guī)則聯(lián)合研究胃食管反流病影響因素同前綴的項(xiàng)集歸屬于同一個等價(jià)類,這一等價(jià)類就由該前綴表示的項(xiàng)集所指代。算法引入等價(jià)類的概念將搜索空間
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度歷史遺跡保護(hù)裝修合同增項(xiàng)條款
- 2025年度智能制造生產(chǎn)線項(xiàng)目管理人員聘用合同
- 2024交通安全的總結(jié)范文(30篇)
- 2024-2025學(xué)年第16課國家出路的探索與列強(qiáng)侵略的加劇-勤徑學(xué)升高中歷史必修上同步練測(統(tǒng)編版2019)
- 2025年典型國際鐵路運(yùn)輸合同
- 2025年中介居間合同示例
- 2025年農(nóng)村基礎(chǔ)設(shè)施優(yōu)化共建協(xié)議
- 2025年住宅按揭貸款協(xié)議書樣本
- 2025年停車場地合同模板
- 2025年渦輪螺槳發(fā)動機(jī)項(xiàng)目立項(xiàng)申請報(bào)告模板
- 2025年中考物理總復(fù)習(xí)《壓強(qiáng)》專項(xiàng)測試卷含答案
- 《智能傳感器技術(shù)》課件
- SaaS服務(wù)具體應(yīng)用合同范本2024版版
- 山東省濰坊市2024-2025學(xué)年高三上學(xué)期1月期末 政治試題(含答案)
- 2025-2030年中國旅居康養(yǎng)行業(yè)全國市場開拓戰(zhàn)略制定與實(shí)施研究報(bào)告
- 知識產(chǎn)權(quán)培訓(xùn)內(nèi)容課件
- 2025年幼兒園年度工作總結(jié)及工作計(jì)劃
- 殘疾人掛靠合作合同協(xié)議書范本
- 《物料擺放規(guī)范》課件
- 寧夏“8·19”較大爆燃事故調(diào)查報(bào)告
- 電池結(jié)構(gòu)及原理
評論
0/150
提交評論