數(shù)學建模醫(yī)保欺詐模型的主動發(fā)現(xiàn).doc_第1頁
數(shù)學建模醫(yī)保欺詐模型的主動發(fā)現(xiàn).doc_第2頁
數(shù)學建模醫(yī)保欺詐模型的主動發(fā)現(xiàn).doc_第3頁
數(shù)學建模醫(yī)保欺詐模型的主動發(fā)現(xiàn).doc_第4頁
數(shù)學建模醫(yī)保欺詐模型的主動發(fā)現(xiàn).doc_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

全國大學生數(shù)學建模競賽選拔賽承 諾 書我們完全明白,在競賽開始后參賽隊員不能以任何方式(包括電話、電子郵件、網(wǎng)上咨詢等)與隊外的任何人(包括指導教師)研究、討論與賽題有關的問題。我們知道,抄襲別人的成果是違反競賽章程和參賽規(guī)則的,如果引用別人的成果或其他公開的資料(包括網(wǎng)上查到的資料),必須按照規(guī)定的參考文獻的表述方式在正文引用處和參考文獻中明確列出。我們鄭重承諾,嚴格遵守競賽章程和參賽規(guī)則,以保證競賽的公正、公平性。如有違反競賽章程和參賽規(guī)則的行為,我們將受到嚴肅處理,并取消參賽資格。我們參賽選擇的題號是(從A/B/C/D中選擇一項填寫): A 參賽隊員 (打印后再手簽)::1. 2. 3. 指導教師或指導教師組負責人 (沒有可不填寫): (論文紙質(zhì)版與電子版中的以上信息必須一致,只是電子版中無需簽名。以上內(nèi)容請仔細核對,提交后將不再允許做任何修改。如填寫錯誤,論文可能被取消評獎資格。) 日期: 2015 年 7 月 29 日醫(yī)保欺詐的主動發(fā)現(xiàn)摘要醫(yī)療保險是關系到國計民生和國家發(fā)展的重大問題,醫(yī)保欺詐問題嚴重威脅醫(yī)保基金安全,妨礙醫(yī)保政策的有效實施,因此醫(yī)保欺詐行為的主動發(fā)現(xiàn)對醫(yī)療保險的發(fā)展、完善和社會穩(wěn)定發(fā)展有重大的意義。本提出了一種基于BP神經(jīng)網(wǎng)絡的識別的鑒別醫(yī)保欺詐行為的方法。對于數(shù)據(jù)的處理,我們選擇了Excel和Access根據(jù)病人ID將表2.1病人資料和表2.2費用明細表進行了匯總和歸一,并剔除了包括記錄不完整、格式錯誤之內(nèi)的無效數(shù)據(jù),在這個過程中我們發(fā)現(xiàn)了所有的消費記錄只是買藥,并且在這個月的消費記錄中只有極少數(shù)病人存在轉(zhuǎn)科室行為,而且一部分病人是自費的,沒有醫(yī)保欺詐嫌疑,還有一些病人存在多人共用醫(yī)保卡的現(xiàn)象,直接確定其為醫(yī)保欺詐,這些病人的消費記錄為我們訓練BP神經(jīng)網(wǎng)絡提供了樣本支持。對于這個問題,我們首先用Excel和Access從大量的數(shù)據(jù)中篩選出了對欺詐識別有用的信息,其中包括病人的年齡,性別,所在科室,當月總消費以及當月消費頻率等等你,又考慮到不同科室的消費情況存在差異因此我們求出了各個科室的平均消費額,并且做出了每個病人當月的消費對對應科室平均消費的相對差。有了這些欺詐因子和自費患者以及共用醫(yī)??ɑ颊叩南M記錄,我們建立了Logistic二元回歸模型,來評估各個欺詐因子對欺詐的可能性大小的影響進而剔除了對欺詐可能性無效的欺詐因子,保留了對欺詐可能性影響顯著的欺詐因子作為輸入向量對BP神經(jīng)進行訓練,并且用訓練后的網(wǎng)絡對醫(yī)保病人進行了欺詐識別。最終我們認為輸出結(jié)果為1的病人具有重大醫(yī)保欺詐嫌疑。關鍵詞醫(yī)保欺詐 Logistic二元回歸 BP神經(jīng)網(wǎng)絡 數(shù)據(jù)一、 問題重述1.1 問題背景醫(yī)療保險是為解決公民或勞動者因為疾病和非因公負傷,喪失勞動能力后的治療費用及服務,給予物質(zhì)幫助的一種社會保險制度。醫(yī)療保險欺詐行為是指違反醫(yī)療保險管理法規(guī)和政策,采用虛構(gòu)事實、隱瞞真相以及其他方法,向醫(yī)保基金管理機構(gòu)騙取醫(yī)?;鸹蜥t(yī)保待遇的行為。這一行為具有兩個基本特征:一是主觀表現(xiàn)為直接故意,并且以非法占有醫(yī)?;鸹蚍欠ǐ@得醫(yī)保待遇為目的,二是實施手段主要是通過虛構(gòu)事實和隱瞞真相,即故意虛構(gòu)未曾發(fā)生的保險事故,或者對發(fā)生的保險事故編造虛假的原因或者夸大損失程度,以達到騙取醫(yī)療保險基金或醫(yī)療保險待遇的目的。我國自城鎮(zhèn)職工醫(yī)療保險和新農(nóng)村合作醫(yī)療制度實施以來,欺騙醫(yī)?;鸬陌讣粩喟l(fā)生,事實上,醫(yī)療保險欺詐在許多國家每年都有數(shù)億美元的損失,對醫(yī)?;鸢踩珮?gòu)成了重大的威脅,妨礙了各國醫(yī)保政策的實施,因此醫(yī)療保險欺詐已成為各國非常重視的社會問題利用數(shù)學建模的方法分析醫(yī)療保險欺詐行為,建立相應的數(shù)學模型可為發(fā)現(xiàn)醫(yī)療保險欺詐問題提供科學有力的依據(jù)。1.2 問題描述醫(yī)療保險欺詐行為具有兩個基本特征:一是主觀表現(xiàn)為直接故意,并且以非法占有醫(yī)?;鸹蚍欠ǐ@得醫(yī)保待遇為目的;二是實施手段主要是通過虛構(gòu)事實和隱瞞真相,即故意虛構(gòu)未曾發(fā)生的保險事故,或者對發(fā)生的保險事故編造虛假的原因或者夸大損失程度,以達到騙取醫(yī)療保險基金或醫(yī)療保險待遇的目的。騙保人進行醫(yī)保欺詐時通常使用的手段有冒用他人醫(yī)療保險證、卡就醫(yī);異地就醫(yī)人員偽造或虛開醫(yī)療票據(jù)回來報銷;“掛床”住院就醫(yī);要求醫(yī)院開具本人不必要的診療項目或藥品,由他人代作或代用等。下面這些情況都有可能是醫(yī)保欺詐:單張?zhí)幏剿庂M特別高,一張卡在一定時間內(nèi)反復多次拿藥等。二、 問題分析BP神經(jīng)網(wǎng)絡是一種按誤差你傳播算法訓練的前饋網(wǎng)絡,學習過程由信號的正向傳播與誤差的逆向傳播兩個過程組成. 正向傳播時, 模式作用于輸入層, 經(jīng)隱層處理后, 傳入誤差的逆向傳播階段, 將輸出誤差按某形式, 通過隱層向輸入層逐層返回, 并“分攤”給各層的所有單元, 從而獲得各層單元的參考誤差或稱誤差信號, 以作為修改各單元權(quán)值的依據(jù). 權(quán)值不斷修改的過程, 也就是網(wǎng)絡學習過程. 此過程一直進行到網(wǎng)絡輸出的誤差準逐漸減少到可接受的程度或達到設定的學習次數(shù)為止。目前BP神經(jīng)網(wǎng)絡已在國內(nèi)外相關經(jīng)濟研究領域得到廣泛應用,在國內(nèi)的證券、銀行等相關領域已有學者開始運用BP網(wǎng)絡進行研究,葉明華將該方法運用到機動車保險欺詐的研究當中,并且嘗試了統(tǒng)計回歸與神經(jīng)網(wǎng)絡的融合,證實了神經(jīng)網(wǎng)絡運用于保險欺詐的識別是可行的,并且通過回歸分析精煉后的識別因子能夠使神經(jīng)網(wǎng)絡具有更好的識別效果。在這個問題中,數(shù)據(jù)量巨大,同時自費患者和欺詐患者(共用醫(yī)保卡)提供了大量的樣本,而這些樣本恰好可以用于BP神經(jīng)網(wǎng)絡的訓練,同時還可以用Logistic二元回歸分析篩選出影響顯著的欺詐因子,將定量與定性相結(jié)合,使結(jié)果更準確。因此,對于這個問題,運用層次分析法和Logistic二元回歸分析相結(jié)合的方法進行醫(yī)保欺詐的識別。三、 模型假設1.自費病人無醫(yī)保欺詐嫌疑2.消費總額和消費數(shù)量為負數(shù)的視為記錄錯誤,取絕對值計算3.忽略這個月內(nèi)極少數(shù)病人轉(zhuǎn)科室治療的情況4.這個月當?shù)貨]有地震等重大災難的發(fā)生四、 模型的建立與求解4.1 預處理數(shù)據(jù)4.1.1 樣本與欺詐因子選取根據(jù)附錄表格2.1和2.2中的病人資料和消費記錄中使用Excel和Access的數(shù)據(jù)處理函數(shù),結(jié)合相關資料,先做出各個科室的平均消費額,然后提取出包括病人科室,病人所在科室的平均消費額,病人當月總費用,當月拿藥頻次,年齡,性別在內(nèi)的6個欺詐因子,并將這些欺詐因子整合到病人ID中,表格見附件1。表4.1 欺詐因子匯總表醫(yī)保病人ID病人科室各科室平均消費額當月拿藥頻次 當月總費用年齡性別36305015220.1960112942220.0529 162769018732.1121484643160.2552 116879915220.1960112961018.2946 2178614203170.46705697510.2496 226497218732.1121484651314.2629 219905618732.1121484661255.1246 252473815220.196011293721.5148 240626015220.196011294643.5248 116730518732.112148466913.2747 133196818732.112148468894.1330 2161213173151.356301953752.6577 16126571095.2881589712354.6832 14.1.2 自費病人與醫(yī)??ü灿貌∪藦念}目表2.1 病人資料醫(yī)??ㄌ栆粰谥泻Y選出醫(yī)??ㄌ枮?的病人,提取出他們的病人ID并確定他們?yōu)樽再M病人。對醫(yī)??ㄌ栆粰谶\用COUNTIF函數(shù)篩選一卡多用病人發(fā)現(xiàn)存在2人共用醫(yī)??ㄒ约?人共用醫(yī)??ǖ默F(xiàn)象,提取出他們的ID并確定其為共用醫(yī)保卡病人。分別根據(jù)自費病人以及醫(yī)保卡共用病人的ID作出如表格4.2的欺詐因子匯總表便于進一步分析。4.2 欺詐因子的精煉運用二元離散選擇模型對選取的6個欺詐因子進行回歸分析,從中獲取具有顯著性的欺詐因子,我們通過IBM SPSS Statistics 19軟件實現(xiàn)樣本數(shù)據(jù)的Logistic二元回歸分析。參數(shù)設定為:方法:Enter步進概率:進入=0.05,刪除=0.1;最大迭代次數(shù): 50Exp(B)的C.I.(X): 95%。表4.2 迭代歷史記錄迭代-2 對數(shù)似然值系數(shù)Constant步驟 017647.606-1.93524584.590-2.93133917.985-3.64543832.549-4.01353829.783-4.09563829.779-4.09873829.779-4.098a. 模型中包括常量。b. 初始 -2 對數(shù)似然值: 3829.779c. 因為參數(shù)估計的更改范圍小于 .001,所以估計在迭代次數(shù) 7 處終止。表4.3為迭代歷史記錄,估計在迭代7次后終止,初始的-2對數(shù)似然值達到43.927。表4.3分類表已觀測已預測欺詐與否百分比校正01步驟 0欺詐與否0225850100.013750.0總計百分比98.4a. 模型中包括常量。b. 切割值為 .500在表4.4中可見在輸入的樣本中有22585例被預測為0,有375例應該為1的也被預測為0,預測正確率98.4%。 表4.4 顯著性檢驗得分dfSig.步驟 0變量相對差1.6241.202當月總費用7.6071.006當月拿藥頻次1.4011.237年齡10.6761.001性別(1)63.6741.000病人科室216.1201.000各科室平均消費額18.7101.000總統(tǒng)計量300.1287.000表4.5是對模型的全局檢驗,為似然比檢驗,共給出七個結(jié)果:sig值0.05表明有統(tǒng)計學意義。從中可見病人當月總費用,年齡,性別,病人所在科室以及病人所在科室的平均消費額對回歸具有顯著影響,而其他因素沒有影響。根據(jù)這個結(jié)論就可以建立醫(yī)保欺詐識別的BP網(wǎng)絡模型。4.3 醫(yī)保欺詐識別的BP網(wǎng)絡模型1)設置初始權(quán)值W(0)為較小的隨機非零值。2)給定輸入/輸出樣本集合,up,dpp 誤差指標Ep=12i(dip-yip)2 總誤差指標Eall=p=1PEp重復下列過程直至滿足收斂條件(Eall)a)對于任意一個樣本p,計算正向過程:反向過程: lip=-(dip-yip)f( lxip) lip=m l+1mp l+1wmif lxip,1lLEp lwij= lipOjp,1lLb)修正權(quán)值 包括兩種學習方式:模式(Pattern)學習方式: 訓練(Epoch)學習方式: 網(wǎng)絡輸入矩陣是由Logistic二元回歸分析獲取的具有模型顯著性的5個欺詐識別因子向量組成,網(wǎng)絡輸出向量矩陣是由是否欺詐(0和1)組成的一維矩陣,0代表該病人沒有欺詐,1代表欺詐。經(jīng)過反復多次試驗,本著誤差最小,訓練時間最短的原則最終確定了有2個隱藏層的BP神經(jīng)網(wǎng)絡模型。設置目標誤差為0.025,最大迭代次數(shù)50000等。圖4.1 BP 神經(jīng)網(wǎng)絡訓練圖從圖4.1中看出我們的BP神經(jīng)網(wǎng)絡經(jīng)過396個迭代周期,歷時2分50秒之后終于達到了目標誤差0.025。訓練過程如圖所示。圖4.2 模擬訓練過程圖4.4 欺詐病人識別根據(jù)訓練好的BP神經(jīng)網(wǎng)絡,對不能確定是否欺詐的病人進行欺詐識別,找到可能的欺詐病人ID,并根據(jù)其欺詐可能性大小進行了排序,排序越靠前欺詐嫌疑越大。最終結(jié)果請看附件5.五、 模型的評價與推廣5.1模型的優(yōu)缺點本文采取采取Logistic回歸和BP神經(jīng)網(wǎng)絡結(jié)合的方法,運用Spss軟件對樣本進行Logistic回歸分析提取具有模型顯著性的識別因子;將所得識別因子作為BP神經(jīng)網(wǎng)絡模型的輸入向量進行訓練,并選取檢驗樣本對模型的有效性進行預測檢驗,證明了模型的準確性和用這種方法用于醫(yī)保欺詐識別的可行性。本模型基于BP神經(jīng)網(wǎng)絡的方法具有很多優(yōu)點:BP神經(jīng)網(wǎng)絡的非線性映射能力強,數(shù)學理論證明三層的神經(jīng)網(wǎng)絡就能夠以任意精度逼近任何非線性連續(xù)函數(shù)。避開了求欺詐因子與欺詐與否之間復雜函數(shù)關系的過程,使問題的解決更加簡單,其次BP神經(jīng)網(wǎng)絡具有一定的容錯能力,BP神經(jīng)網(wǎng)絡在其局部的或者部分的神經(jīng)元受到破壞后對全局的訓練結(jié)果不會造成很大的影響,也就是說即使系統(tǒng)在受到局部損傷時還是可以正常工作的。同時本模型也存在著一定的局限性,BP神經(jīng)網(wǎng)絡是一種局部搜索的優(yōu)化方法,它要解決的是一個復雜非線性化問題,網(wǎng)絡的權(quán)值是通過沿局部改善的方向逐漸進行調(diào)整的,這樣會使算法陷入局部極值,加上BP神經(jīng)網(wǎng)絡對初始網(wǎng)絡權(quán)重非常敏感,以不同的權(quán)重初始化網(wǎng)絡,其往往會收斂于不同的局部極小,這也是我們多次訓練會得到不同結(jié)果的原因。其次, BP神經(jīng)網(wǎng)絡結(jié)構(gòu)的選擇至今尚無一種統(tǒng)一而完整的理論指導,一般只能由經(jīng)驗選定。網(wǎng)絡結(jié)構(gòu)選擇過大,訓練中效率不高,可能出現(xiàn)過擬合現(xiàn)象,造成網(wǎng)絡性能低,容錯性下降,若選擇過小,則又會造成網(wǎng)絡可能不收斂。而網(wǎng)絡的結(jié)構(gòu)直接影響網(wǎng)絡的逼近能力及推廣性質(zhì)。本文中我們采取了多次試驗的方法,確定了網(wǎng)絡的結(jié)構(gòu),具有一定的主觀性。5.2 模型的推廣該模型可有效檢測出醫(yī)保中發(fā)生的詐騙現(xiàn)象,這一模型基于BP神經(jīng)網(wǎng)絡可以很容易地推廣到其他類型的保險行業(yè)中,例如人壽保險,機動車險等。同時本模型雖然給出了具有重大醫(yī)保欺詐嫌疑的病人ID,遺憾的是我們并沒有給出每個病人欺詐的具體概率是多少,這也是我們模型需要改進的地方。我們的結(jié)果可以為醫(yī)保欺詐的識別,提供一份寶貴的可參考的資料。六、 參考文獻1 林源. 國內(nèi)外醫(yī)療保險欺詐研究現(xiàn)狀分析J. INSURANCE STUDIES, 2010, 12(12): 115-1222 劉坤坤,車險保險欺詐識別和測量模型實證研究基于廣東省車險歷史索賠數(shù)據(jù),暨南學報(哲學社會科學版),8:50-55,2012。3 朱大奇,史慧編著.人工神經(jīng)網(wǎng)絡原理及應用M. 科學出版社, 20064 唐萬梅. BP神經(jīng)網(wǎng)絡網(wǎng)絡結(jié)構(gòu)優(yōu)化問題的研究J. 系統(tǒng)工程理論與實踐. 2005(10)5 劉彩紅. BP神經(jīng)網(wǎng)絡學習算法的研究D. 重慶:重慶師范大學, 2008. 1-766 段超霞,田學民. 基于正交最小二乘的傅立葉神經(jīng)網(wǎng)絡結(jié)構(gòu)選取方法J. 石油化工自動化. 2012(06)7 葉飛躍. 數(shù)據(jù)挖掘過程中的模糊聚類方法J. 計算機與現(xiàn)代化. 2003(09)8 王學民編著.應用多元分析M. 上海財經(jīng)大學出版社, 19999 廖寧放,高稚允. BP神經(jīng)網(wǎng)絡用于函數(shù)逼近的最佳隱層結(jié)構(gòu)J. 北京理工大學學報. 1998(04)10 叢爽編著.面向MATLAB工具箱的神經(jīng)網(wǎng)絡理論與應用M. 中國科學技術(shù)大學出版社, 199811 鄧偉妮. 基于BP神經(jīng)網(wǎng)絡的西安市PM10污染預報及其MATLAB實現(xiàn)D. 西安科大學 2008七、附錄7.1 訓練BP程序clc,clear all;%define the input and outputpqz = xlsread(E:數(shù)學數(shù)學建模深圳杯2015題篩選后的BP素材欺詐者的樣本.xlsx,B2:G376);%創(chuàng)建BP網(wǎng)絡和定義訓練函數(shù)pzf = xlsread(E

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論