數據挖掘在體檢代謝綜合征智能甄別中的應用研究_第1頁
數據挖掘在體檢代謝綜合征智能甄別中的應用研究_第2頁
數據挖掘在體檢代謝綜合征智能甄別中的應用研究_第3頁
數據挖掘在體檢代謝綜合征智能甄別中的應用研究_第4頁
數據挖掘在體檢代謝綜合征智能甄別中的應用研究_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據挖掘在體檢代謝綜合征智能甄別中的應用研究數據挖掘在體檢人群代謝綜合征智能甄別中的應用研究目錄Contents內容與方法結果討論前言1243前言1前言內容與方法結果討論研究背景

體檢是“三早”的重要前依端口。

國內外均累積了海量的體檢數據。

如何利用和分析健康體檢數據是一個重要的研究方向。前言內容與方法結果討論研究背景數據冗余體檢數據:數據量大,指標多數據挖掘中,冗余的體檢變量會減緩疾病分類的效率,降低疾病分類性能。體檢數據分析過程中面臨著諸多問題,其中數據冗余,類不平衡逐漸受到關注降維Lasso特征選擇前言內容與方法結果討論研究背景類不平衡指在數據集中陽性類數量遠小于陰性類數量。不平衡類分布下,傳統(tǒng)分類方法傾向于將待分類樣本劃分為陰性,而陽性樣本識別較差。陽性類樣本的正確分類比陰性類樣本的分類更有價值。體檢數據分析過程中面臨著諸多問題,其中數據冗余,類不平衡逐漸受到關注數據層面:數據平衡分類算法層面:數據分類解決途徑傳統(tǒng)分類器改進設計新算法重采樣技術傳統(tǒng)分類器前言內容與方法結果討論

研究意義代謝綜合征(MetabolicSyndrome,MS)是以中心性肥胖、高血壓、糖尿病、高血脂集結于一身的病理狀態(tài)。隨著現代人患肥胖、高血壓、糖尿病、脂肪肝、血脂紊亂等慢性病人數逐漸增加,造成慢性代謝綜合性疾病的全球大流行。代謝綜合征的預防遠比治療更能節(jié)約醫(yī)藥衛(wèi)生資源和改善個體的健康狀態(tài)。體檢作為一級預防階段能較早篩選代謝綜合征患者,幫助患者積極采取干預措施,防止并發(fā)癥發(fā)生。前言內容與方法結果討論研究目的

基于健康體檢大數據,以代謝綜合征智能甄別(分類)為切入點,探討與分析Lasso特征選擇與重采樣技術在醫(yī)療大數據分類診斷中的可行性與應用價值,為解決醫(yī)療大數據挖掘中數據冗余及類不平衡分類問題的研究提供方法學參考。2內容與方法前言內容與方法結果討論Lasso特征選擇通過添加約束條件s≥0對模型系數壓縮,當模型中回歸系數Lasso估計的絕對值小于其最小回歸系數的絕對值時,某些相關度低的變量系數就被壓縮為0,此時所對應的變量將被剔除,達到降維目的。

前言內容與方法結果討論重采樣技術隨機過采樣:隨機欠采樣:混合采樣:假設不平衡數據集中包含陽性類樣本的數量為s,陰性類樣本的數量為n。前言內容與方法結果討論分類方法BP神經網絡C4.5決策樹前言內容與方法結果討論交叉驗證:10-折交叉驗證二分類問題的混淆矩陣真實類型分類器分類患者健康患者TruePositive(TP)FalseNegative(FN)健康FalsePositive(FP)TrueNegative(TN)評價指標(1)(2)(3)前言內容與方法結果討論研究內容1.Lasso特征選擇處理數據冗余未運用Lasso特征選擇運用Lasso特征選擇2.重采樣技術處理不平衡數據(1)不平衡數據集模擬(1,10,50,100)(2)未運用Lasso特征選擇運用Lasso特征選擇3.綜合評價Lasso特征選擇與重采樣技術對分類性能的影響(1)Lasso特征選擇與重采樣技術后評價指標的兩因素方差分析(2)Lasso特征選擇與重采樣技術對分類結果的穩(wěn)健性對分類性能的影響對分類的影響重采樣技術3結果前言內容與方法討論結果

收集烏魯木齊市某體檢機構2014~2016年漢族體檢者信息69267例,經數據清洗后,共54個體檢指標。

根據中華醫(yī)學會糖尿病學分會的代謝綜合征診斷標準,共篩選2735例代謝綜合征患者,患病率約為4%,不平衡比例≈24。前言內容與方法討論結果一、Lasso特征選擇在智能甄別中的應用血小板平均體積高密度脂蛋白膽固醇空腹血糖中性粒細胞百分比年齡圖3Lasso對該數據的特征序列圖前言內容與方法討論結果一、Lasso特征選擇對分類性能的影響表3Lasso特征選擇對代謝綜合征分類性能影響C4.5決策樹F-valueG-meanAUC

未使用Lasso特征選擇0.9750.7940.802

使用Lasso特征選擇0.9790.8170.836BP神經網絡

未使用Lasso特征選擇0.9700.7260.952

使用Lasso特征選擇0.9720.7260.964前言內容與方法討論結果二、重采樣技術對分類性能的影響2.未用Lasso特征選擇原不平衡數據隨機過采樣隨機欠采樣混合采樣3.運用Lasso特征選擇原不平衡數據隨機過采樣隨機欠采樣混合采樣分類(C4.5決策樹、BP神經網絡)分類(C4.5決策樹、BP神經網絡)1.計算機模擬不平衡比例對分類性能的影響前言內容與方法討論結果表4不同不平衡比例的數據集分類結果不平衡比例患病率F-valueG-meanAUCC4.5決策樹11/20.9200.9200.936101/110.9700.8790.921501/510.9930.8420.8941001/1010.9970.8400.892BP神經網絡11/20.9660.9660.984101/110.9830.9470.960501/510.9940.8710.8751001/1010.9970.8470.8271.不同比例的類不平衡數據對分類性能的影響前言內容與方法討論結果表5重采樣技術對分類性能的影響結果分類算法數據集F-valueG-meanAUCC4.5決策樹原不平衡數據0.9750.7940.802

隨機過采樣0.9910.9900.991

隨機欠采樣0.9210.9210.914

混合采樣0.9890.9890.990BP神經網絡原不平衡數據0.9700.7260.952

隨機過采樣0.9650.9640.981

隨機欠采樣0.8900.8900.953

混合采樣0.9580.9570.9792.三種重采樣技術在代謝綜合征智能甄別中的應用前言內容與方法討論結果3.基于Lasso特征選擇三種重采樣技術在代謝綜合征智能甄別的應用表6

Lasso特征選擇聯(lián)合重采樣對分類性能的影響結果分類算法數據集F-valueG-meanAUCC4.5決策樹不平衡數據集0.9790.8170.836

隨機過采樣0.9880.9880.990

隨機欠采樣0.9320.9320.953

混合采樣0.9850.9850.988BP神經網絡不平衡數據集0.9720.7260.964

隨機過采樣0.9320.9320.974

隨機欠采樣0.9320.9320.972

混合采樣0.9320.9310.973前言內容與方法討論結果三、綜合評價Lasso特征選擇與重采樣技術對分類性能的影響2.F-valueG-meanAUCLasso特征選擇

重采樣技術C4.5決策樹Lasso特征選擇重采樣技術樹狀結構圖分類前言內容與方法討論結果1.Lasso特征選擇與重采樣技術分類性能的優(yōu)劣評價前言內容與方法討論結果1.Lasso特征選擇與重采樣技術分類性能的優(yōu)劣評價前言內容與方法討論結果2.Lasso特征選擇與重采樣技術對分類性能的穩(wěn)健性圖5原始不平衡數據樹狀結構圖前言內容與方法討論結果圖6未使用Lasso特征選擇的隨機過采樣樹狀結構圖2.Lasso特征選擇與重采樣技術對分類性能的穩(wěn)健性前言內容與方法討論結果圖7Lasso特征選擇后隨機過采樣樹狀圖2.Lasso特征選擇與重采樣技術對分類性能的穩(wěn)健性4討論前言內容與方法結果討論1.Lasso特征選擇代謝綜合征體檢變量分析Lasso特征選擇的變量是:空腹血糖、高密度脂蛋白膽固醇、年齡、中性粒細胞百分比、血小板平均體積。①②空腹血糖、高密度脂蛋白膽固醇與代謝綜合征的診斷密切相關。隨著年齡增大,人體代謝功能下降,生理系統(tǒng)衰老加速,機體更易受到疾病侵襲。③巨噬細胞活化在代謝功能失調中起關鍵作用,中性粒細胞作為巨噬細胞的代表與代謝綜合征密切相關。④代謝綜合征的低炎性狀態(tài)與血小板存在相互作用。前言內容與方法討論結果2.重采樣技術對類不平衡數據分類性能的影響分析

不平衡數據分類問題受到諸多研究者的關注C4.5決策樹與BP神經網絡在分類性能略有差別BP神經網絡:定量變量;C4.5決策樹:定性變量重采樣分類性能優(yōu)于原不平衡數據

隨機過采樣略

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論