Boosting算法及其在中醫(yī)亞健康數(shù)據(jù)分類(lèi)中的應(yīng)用_第1頁(yè)
Boosting算法及其在中醫(yī)亞健康數(shù)據(jù)分類(lèi)中的應(yīng)用_第2頁(yè)
Boosting算法及其在中醫(yī)亞健康數(shù)據(jù)分類(lèi)中的應(yīng)用_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、    李霞中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院,100872何麗云中國(guó)中醫(yī)科學(xué)院中醫(yī)臨床基礎(chǔ)醫(yī)學(xué)研究所臨床評(píng)價(jià)中心,100700劉超北京航空航天大學(xué)理學(xué)院數(shù)學(xué)系,100083統(tǒng)計(jì)學(xué)習(xí)是當(dāng)前活躍在各個(gè)科研和應(yīng)用領(lǐng)域中的一門(mén)學(xué)科,可以看作是新一代統(tǒng)計(jì)學(xué)的重要分支,它同時(shí)將模型的可解釋性和預(yù)測(cè)準(zhǔn)確性考慮到對(duì)數(shù)據(jù)的建模當(dāng)中,而其中的boosting方法由于其優(yōu)良的預(yù)測(cè)準(zhǔn)確性在近幾年中最為引人注目,因此,本文考慮將其納入本研究當(dāng)中,并同傳統(tǒng)的logistic回歸判別模型進(jìn)行比較。亞健康狀態(tài)是現(xiàn)代社會(huì)的新概念,其發(fā)生受社會(huì)競(jìng)爭(zhēng)加劇,工作壓力加大,心理負(fù)擔(dān)加重及不良情緒干擾等因素的

2、影響而日益增多,不僅影響人們的生活質(zhì)量,也與多種慢性非傳染性疾病的發(fā)生發(fā)展密切相關(guān)。但由于亞健康狀態(tài)概念宏觀(guān)模糊,與正常和疾病狀態(tài)難以明確界定,給臨床研究帶來(lái)困難。本研究應(yīng)用boosting分類(lèi)建模方法,對(duì)亞健康狀態(tài)的流行病學(xué)調(diào)查數(shù)據(jù)進(jìn)行分析,建立了亞健康狀態(tài)判斷模型并對(duì)其臨床特征進(jìn)行了研究,現(xiàn)報(bào)道如下。一、資料與方法(一)資料來(lái)源本組資料來(lái)源于2003年3月到10月對(duì)北京市不同行業(yè)的居民,發(fā)放亞健康狀態(tài)中醫(yī)基本證候流行病學(xué)調(diào)查問(wèn)卷4000份,回收問(wèn)卷3676份,合格問(wèn)卷3624份。(二)研究標(biāo)準(zhǔn)(1)被調(diào)查者納入標(biāo)準(zhǔn):符合本課題的亞健康專(zhuān)家診斷標(biāo)準(zhǔn);年齡3555歲;愿接受調(diào)查者。(2)合格問(wèn)

3、卷的判斷標(biāo)準(zhǔn):一般信息中除地址和聯(lián)系方式外的項(xiàng)目必須填寫(xiě);再次排除有疾病診斷者;全部問(wèn)題條目的缺失和漏填不超過(guò)5%。(3)問(wèn)卷排除標(biāo)準(zhǔn):不符合納入標(biāo)準(zhǔn)者;患有心腦血管、糖尿病、腫瘤等重大疾病者;患非重大疾病但需用藥維持者;不愿合作者。(三)研究目的與方法(1)研究目的亞健康分類(lèi)模型的建立,即從初步分類(lèi)的數(shù)據(jù)集中抽象出一個(gè)分類(lèi)模型,該模型能夠很好地?cái)M合當(dāng)前分類(lèi)結(jié)果并能解釋其意義,對(duì)未知的人群分類(lèi)具有指導(dǎo)作用,具有預(yù)測(cè)意義,這是通用的目的之一。對(duì)亞健康臨床特征進(jìn)行分析,即從亞健康的56個(gè)癥狀變量中篩選出重要的因素,為亞健康診斷研究打下基礎(chǔ),這使得模型必須對(duì)實(shí)踐具有指導(dǎo)和解釋意義。(2)研究的方法基

4、于boosting算法的模型boosting算法是一種用來(lái)提高學(xué)習(xí)算法準(zhǔn)確度的方法,這種方法通過(guò)構(gòu)造一個(gè)預(yù)測(cè)函數(shù)系列,然后以一定的方式將它們組合成一個(gè)預(yù)測(cè)函數(shù),達(dá)到把一弱學(xué)習(xí)算法提升為強(qiáng)學(xué)習(xí)算法的目的。1989年Schapire提出了第一個(gè)可證明的多項(xiàng)式時(shí)間boosting算法,對(duì)這個(gè)問(wèn)題作出了肯定的回答。一年后,F(xiàn)reund設(shè)計(jì)了一個(gè)高效得多的通過(guò)重取樣或過(guò)濾運(yùn)作的boosting-by-majorty算法。這個(gè)算法盡管在某種意義上是優(yōu)化的,但卻有一些實(shí)踐上的缺陷。1995年Freund和Schapire介紹了通過(guò)調(diào)整權(quán)重而運(yùn)作的Ada-Boost算法AdaBoost,AdaBoost1M1

5、,AdaBoost1M2,AdaBoost1R,解決了早期boosting算法很多實(shí)踐上的困難。boosting算法是一種基于其他機(jī)器學(xué)習(xí)算法之上的用來(lái)提高算法精度和性能的方法。當(dāng)用于回歸或分類(lèi)分析時(shí),不需要構(gòu)造一個(gè)擬合精度高、預(yù)測(cè)能力好的算法,只要一個(gè)效果只比隨機(jī)猜測(cè)略好的粗糙算法即可,稱(chēng)之為基算法。通過(guò)不斷地調(diào)用這個(gè)基算法就可以獲得一個(gè)擬合和預(yù)測(cè)誤差都相當(dāng)好的組合預(yù)測(cè)模型。boosting算法可以應(yīng)用于任何的基礎(chǔ)算法,無(wú)論是線(xiàn)性回歸、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、還是SVM方法,都可以有效地提高精度。因此,boosting可以被視為一種通用的增強(qiáng)基礎(chǔ)算法性能的回歸分類(lèi)分析算法。本文的模型訓(xùn)練過(guò)程:首先

6、將全部樣本2613例按7:3的比例隨機(jī)分為訓(xùn)練集(1830例)和測(cè)試集(783例),在訓(xùn)練集上訓(xùn)練模型,在測(cè)試集上對(duì)模型準(zhǔn)確性進(jìn)行測(cè)試。(3)研究輔助工具所有建模過(guò)程均通過(guò)在R中編程實(shí)現(xiàn)。二、過(guò)程及結(jié)果     (2)將上一步求得的導(dǎo)數(shù)看作是偽因變量,用基函數(shù)去擬合這個(gè)因變量,得到基函數(shù)的參數(shù),并同時(shí)得到相應(yīng)的系數(shù):在該算法中,最終得到的實(shí)際上是多個(gè)基函數(shù)的線(xiàn)性組合,在此過(guò)程中除了需要考慮損失函數(shù)L(y,F(xiàn))以外,通常還要選定基函數(shù)h(x)空間,由于決策樹(shù)具有多種優(yōu)點(diǎn),因此在本文中我們考慮使用決策樹(shù)作為基函數(shù)。同時(shí),選擇決策樹(shù)作為基函數(shù)還可以得到預(yù)測(cè)變量

7、的重要性度量。我們可以先從單個(gè)決策樹(shù)入手,假設(shè)樹(shù)的葉節(jié)點(diǎn)有J個(gè),Breiman等人(1984)提出了對(duì)于單個(gè)決策樹(shù)的變量重要性度量,當(dāng)目標(biāo)變量為區(qū)間型時(shí),重要性度量為由節(jié)點(diǎn)到分裂后的節(jié)點(diǎn)間誤差平方和的減少,即:總之,在確定了損失函數(shù)、基函數(shù)、優(yōu)化搜索策略后,就可以使用boosting算法對(duì)一個(gè)分類(lèi)問(wèn)題進(jìn)行建模。在以下的討論中損失函數(shù)我們主要集中在以上提到的兩個(gè)損失函數(shù),基函數(shù)采用決策樹(shù)(深度為3)、最優(yōu)迭代停止次數(shù)通過(guò)5折交叉驗(yàn)證來(lái)設(shè)定。1.bernoulli分布的損失函數(shù)當(dāng)響應(yīng)變量的取值為二分類(lèi)變量時(shí),首先我們考慮使用bernoulli對(duì)數(shù)似然函數(shù)作為損失函數(shù),即: L(y,F(xiàn))=log(1

8、+exp(-yF)在建模過(guò)程中我們使用5折交叉驗(yàn)證對(duì)最優(yōu)迭代次數(shù)進(jìn)行選擇,結(jié)果表明當(dāng)?shù)螖?shù)=3857時(shí),5折交叉驗(yàn)證的損失函數(shù)達(dá)到最小。迭代過(guò)程如圖2右側(cè)圖中所示,豎線(xiàn)的橫坐標(biāo)即為最優(yōu)交叉驗(yàn)證所在的迭代次數(shù),同時(shí)得到變量的相對(duì)重要性度量圖,如圖2左圖中所示。     圖2迭代過(guò)程及變量相對(duì)重要性變量相對(duì)重要性的具體數(shù)值見(jiàn)表1(僅列出前10位的變量):表1變量重要性列表 變量 相對(duì)重要性B02疲乏不易緩解 11.24615831C35睡眠差而感覺(jué)疲勞7.30508878B04頭腦昏沉6.72979097B24氣短5.29293047C48大便酸腐氣4.8

9、5004553B25胸悶4.44894938C44排便困難4.10301871E67工作效率下降3.17515420B01感覺(jué)疲勞3.08082261D62手腳打顫或身上忽冷忽熱3.04978211同時(shí)當(dāng)我們將從訓(xùn)練樣本得到的模型應(yīng)用到測(cè)試數(shù)據(jù)集上時(shí),有關(guān)模型判別的判斷矩陣如表2所示。表2使用基于貝努利分布損失函數(shù)的boosting模型判斷 原結(jié)論 模型判斷 亞健康正常 總數(shù)亞健康515 38 553正常 16214 230總數(shù)531252 783分類(lèi)總正確率為;(515+214)/783=93.10%;誤分率為:(38+16)/783=6.90%。   

10、0; 圖3迭代過(guò)程及變量相對(duì)重要性2.指數(shù)分布的損失函數(shù) loss function=exp(-ygF)同樣在建模中我們使用5折交叉驗(yàn)證對(duì)最優(yōu)迭代次數(shù)進(jìn)行選擇,當(dāng)?shù)螖?shù)=2390時(shí),5折交叉驗(yàn)證的損失函數(shù)達(dá)到最小。迭代過(guò)程如圖3右側(cè)所示,豎線(xiàn)所在的橫坐標(biāo)即為最優(yōu)交叉驗(yàn)證所在的迭代次數(shù)為2390,同時(shí)得到變量的相對(duì)重要性度量圖,見(jiàn)圖3。表3變量重要性列表(僅列出位居前10位的變量) 變量 相對(duì)重要性B02疲乏不易緩解10.65816952B04頭腦昏沉7.43205088C35睡眠差而感覺(jué)疲勞6.35083576B24氣短4.83533831C48大便酸腐氣4.79418747C44排便困難4

11、.45340256B25胸悶4.35412420B01感覺(jué)疲勞3.63297387D62手腳打顫或身上忽冷忽熱3.40385326E67工作效率下降3.22464787應(yīng)用到測(cè)試數(shù)據(jù)集上時(shí),有關(guān)模型判別的判斷結(jié)果矩陣見(jiàn)表4。表4使用基于指數(shù)損失函數(shù)的boosting模型判斷 原結(jié)論 模型判斷 亞健康正常總數(shù)亞健康517 36 553正常 18212 230總數(shù)535248 783分類(lèi)總正確率為;(517+212)/783=93.10%;誤分率為:(36+18)/783=71/783=6.90%。我們發(fā)現(xiàn)本測(cè)試集在采用不同的損失函數(shù)時(shí),總正確率和誤分率是相等的,稍有不同之處在表2和表3的判斷矩陣

12、表格中對(duì)應(yīng)于原先是亞健康狀態(tài)而判斷出亞健康狀態(tài)的人群以及原先是正常狀態(tài)的人群而判斷出是正常狀態(tài)的人群計(jì)數(shù)稍有差異。比較文獻(xiàn)中使用logistic回歸得到的正確率而言,本文所討論的模型判斷準(zhǔn)確率有近3個(gè)百分點(diǎn)的提高,而且誤分類(lèi)率也有較大改進(jìn)。三、討論1.亞健康的研究難點(diǎn)在于人群分類(lèi):亞健康是描述人體沒(méi)有西醫(yī)疾病診斷,但是卻有多種“不適”臨床表現(xiàn)和各種能力顯著減退的總體狀態(tài),本研究的方法是首先排除疾病人群,再將剩余的健康和亞健康兩部分人群通過(guò)模型進(jìn)行分離和分析,本文的分類(lèi)模型便是針對(duì)這兩個(gè)人群的流行病學(xué)調(diào)查數(shù)據(jù)進(jìn)行的。2.本模型的優(yōu)點(diǎn):對(duì)于健康和亞健康人群分類(lèi)的模型,曾經(jīng)有多種方法,有的已經(jīng)發(fā)表,但統(tǒng)計(jì)學(xué)習(xí)方法是近幾年中逐漸在統(tǒng)計(jì)學(xué)領(lǐng)域中興起的一個(gè)分支,對(duì)以高預(yù)測(cè)性能和模型解釋為目的的建模問(wèn)題有著比傳統(tǒng)統(tǒng)計(jì)分析方法更優(yōu)良的特性。在本文中我們通過(guò)分別對(duì)兩種不同的損失函數(shù)下使用boosting算法進(jìn)行建模,在測(cè)試集上都可以得到比文獻(xiàn)中的方法更高的預(yù)測(cè)準(zhǔn)確性,同時(shí)也得到了與亞健康狀態(tài)相關(guān)的重要指標(biāo)排序,從而得到亞健康狀態(tài)主要的臨床特征表現(xiàn)。3.亞健康人群分類(lèi)模型建立意義:目前醫(yī)學(xué)界和社會(huì)學(xué)界對(duì)亞健康研究的重視程度很高,但是具體的研究方法較少,本模型對(duì)于進(jìn)一步研究亞健康臨床特征,診斷亞健康,從而建立恰當(dāng)?shù)念A(yù)防和治療方法有很大應(yīng)用價(jià)值。本文所構(gòu)建的兩個(gè)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論