版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、西北大學研究生數(shù)學建模競賽承諾書我們仔細閱讀了西北大學研究生數(shù)學建模競賽的競賽規(guī)則與賽場紀律。我們完全明白,在競賽開始后參賽隊員不能以任何方式(包括電話、電子郵 件、網(wǎng)上咨詢等)與隊外的任何人研究、討論與賽題有關的問題。我們知道,抄襲別人的成果是違反競賽規(guī)則的,如果引用別人的成果或其他 公開的資料(包括網(wǎng)上查到的資料),必須按照規(guī)定的參考文獻的表述方式在正 文引用處和參考文獻中明確列出。我們鄭重承諾,嚴格遵守競賽規(guī)則,以保證競賽的公正、公平性。如有違反 競賽規(guī)則的行為,我們將受到嚴肅處理。我們參賽的題目是(從A、B、C、D中選擇一項填寫):B參賽隊編號為:1069732所屬院系(請?zhí)顚懲暾娜?/p>
2、名):數(shù)學學院參賽隊員(打印并簽名):1.日期:2015 年5月 4 日評閱編號(由校組委會評閱前進行編號):西北大學研究生數(shù)學建模競賽編號專用頁評閱編號(由校組委會評閱前進行編號):評獎結果:銀行信貸業(yè)務問題摘要隨著經(jīng)濟的快速發(fā)展,銀行越來越重視客戶的分類,對于銀行來說,一個新 客戶的到來,銀行應該針對該客戶的信息,判斷客戶可能的類別,然后采用針對 性較強的銷售策略,以獲得最高的效益。本文就是一個典型的銀行客戶分類問題,第一問我們運用支持向量機模型把 銀行客戶分成有貸款和無貸款的,把附件bankl中的數(shù)據(jù)作為訓練集,將其中的 客戶資料進行量化,構造出分類函數(shù)y = f (x) = sgn(g
3、(x) = sgn(wx + b),把數(shù)據(jù) 帶進去當y = 1時此客戶為有貸款的,當y = -1時此客戶是無貸款的,運用支持向 量機計算出參數(shù)巧和b,再從附件bank-full中隨機抽取10%的數(shù)據(jù)作為檢測集進 行檢驗得到準確率為97.1688%。第二問我們構造決策樹模型對有貸款和無貸款的客戶進行細分,我們把附件 bankl中數(shù)據(jù)分為有貸款和無貸款的,分別建立決策樹。我們只選取年齡、工作、 婚姻狀況、教育程度、信貸違約、年平均余額這六個屬性,把是否信貸違約看做 分類標識,先對數(shù)據(jù)進行量化分類,再分別算出它們的信息增益,根據(jù)算出的信 息增益值的大小,對屬性進行排序確定葉節(jié)點畫出決策樹,把決策樹的
4、每一個從 根到葉節(jié)點的路徑作為一個分類,由此我們把有貸款的無貸款的都細分為六類。第三問分為兩小問來解答:(1)判斷此客戶是否可能購買貸款產(chǎn)品,我們?nèi)?意給出一個客戶資料,把客戶資料量化后代入第一問中的模型得出y = 1,因此 我們判斷此客戶有可能購買貸款產(chǎn)品。(2)建議其購買哪種貸款產(chǎn)品,我們再把 客戶資料代入第二問中的模型判斷出此客戶屬于有貸款中的第二類,由每類客戶 的購買建議,我們推薦他購買短期的擔保貸款。關鍵詞:分類問題 支持向量機 決策樹 信息增益一、問題的重述近年來以來,我國經(jīng)濟獲得了快速增長,銀行的信貸資本在其中發(fā)揮了極其 重要的作用,銀行信貸業(yè)務的發(fā)展是當前擴大我國國內(nèi)需求與促進
5、經(jīng)濟增長的重 要途徑之一。銀行信貸業(yè)務是銀行最基本、最重要的資產(chǎn)業(yè)務,通過發(fā)放銀行貸 款收回本金和利息,扣除成本后獲得利潤。一般來說,銀行信貸業(yè)務是銀行贏利 的重要手段,所以很多銀行都推出了很多新的業(yè)務來滿足更多人士的貸款需求。 從銀行信貸業(yè)務的分類來說,可以分為法人信貸業(yè)務、個人信貸業(yè)務。其中法人 信貸業(yè)務包括項目貸款、流動資金貸款、小企業(yè)貸款、房地產(chǎn)企業(yè)貸款等;個人 信貸業(yè)務包括個人住房貸款、個人消費貸款、個人經(jīng)營貸款等。銀行信貸業(yè)務同時也是風險性較大的一種業(yè)務。按照貸款期限來說,銀行信 貸業(yè)務分為短期貸款,即一年以內(nèi);中期貸款,即一年以上五年以下;長期貸款, 五年以上等三種類型。按保障條
6、件來分,銀行信貸業(yè)務可以分為信用貸款、擔保 貸款和票據(jù)貼現(xiàn)等三個類別。某銀行為了對客戶提供更好的信貸服務,對信用卡客戶進行了詳細的分析和 調(diào)查。調(diào)查主題是對某種家庭和個人背景的用戶成為銀行信貸的潛在客戶的可能 性進行分析與判斷。請考慮以下問題:(1)建立能夠描述有貸款和無貸款的客戶的基本背景數(shù)據(jù)模型;(2)對有貸款和無貸款的客戶群進行細分建模;(3)給定一個客戶的背景,判斷其是否可能購買貸款產(chǎn)品,如果可能的話建 議其購買哪種貸款產(chǎn)品。二、問題的分析本題是一個比較典型的分類問題。問題一是建立能夠描述有貸款和無貸款的客戶的基本背景數(shù)據(jù)模型。對于這 個問題,我們要先建立一個二分類模型,把有貸款和無貸
7、款的客戶資料分開,在 這里我們用支持向量機來解決這個二分類問題,建立一個基于支持向量機的銀行 客戶分類模型,由于不能確定它是否是線性可分的,而線性可分是線性不可分的 一種特殊情況,因此我們把它看做是線性不可分的來處理,即把它看做是非線性 的來處理。用附件bankl中的數(shù)據(jù)作成的訓練集來求解模型,再從bank-full中隨 機選取10%的數(shù)據(jù)作為檢測集來驗證模型是否合理。問題二是在問題一的基礎上對有貸款和無貸款的客戶再進行細分建模,這不 在是一個二分類問題,而是一個多分類問題,因此我們在此問中采取決策樹模型, 先根據(jù)信息增益分別對有貸款和無貸款的客戶資料做出決策樹,在對決策樹進行 調(diào)整,得到一個
8、合理的決策樹,將每一個決策樹的路徑作為一個分類,從而達到 對有貸款和無貸款的客戶群進行細分的目的。問題三是給定一個客戶的背景,判斷其是否可能購買貸款產(chǎn)品,如果可能的 話建議其購買哪種貸款產(chǎn)品。在這一問中我們把它分成兩小問來處理:(1)給定 一個客戶的背景,判斷其是否可能購買貸款產(chǎn)品,給定一個客戶資料把它帶入第 一問建立的模型中得出它是否會購買貸款。(2)我們先把第二問中得到的有貸款 的客戶細分類進行貸款產(chǎn)品的配對,再把此客戶的背景資料帶入第二問建立的模 型中看他是出于哪一類的,給出相應的產(chǎn)品推薦。三、符號的說明T :附件bankl中的數(shù)據(jù)作成的訓練集,x :由年齡、工作、婚姻狀況、教育程度、信
9、貸違約、年平均余額6個屬性組成的向量,y:分類標記,T :原訓練集T轉(zhuǎn)化為Hilbert空間H中的新訓練集,元:由x映射到Hilbert空間H中的向量,g(x): Hilbert空間H中超平面,氣:樣本點,f (x):分類函數(shù),5,:樣本點D =(x,y)到超平面g(X)的間隔,。::樣本點到超平面的距離,即幾何間隔,& :松弛變量,C;懲罰參數(shù),人:拉格朗日乘子,S:分類后的訓練集,I(七,s2,.,七):樣本分類所需的期望信息,E(A): A的信息熵,Gain(A): A的信息增益。四、模型假設1、本模型只考慮年齡、工作、婚姻狀況、受教育程度、信貸違約、年平均余額, 不考慮其他因素。2、只
10、要有房貸或個人貸款中的一樣,我們就認為他是有貸款的。3、不考慮經(jīng)濟波動對本數(shù)據(jù)的影響。4、不考慮屬性間的相互影響。五、模型的建立與求解5.1問題一5.1.1模型的建立本問題采用支持向量機1來進行二分類,由于這個二分類問題究竟是否是 線性可分的尚不能定論,因此不能簡單的認為它是線性可分的而作簡單化處理, 而線性可分是線性不可分的一種特殊情況,故在得出結論前,我們把它看做是線 性不可分的來處理,即非線性的情況。我們解決線性不可分問題的基本思路一一向高維空間轉(zhuǎn)化,使其變得線性可 分。因此我們先把低維的線性不可分的情況轉(zhuǎn)化為高維線性可分的情況,再來建 立線性可分的支持向量機模型67。我們把附件bank
11、l中的數(shù)據(jù)作為訓練集,則訓練集T為 TOC o 1-5 h z T = (x , j ), (x , j ),., (x , j )c(x x Y)m, 1122m m其中x 二(年齡,工作,婚姻狀況,教育程度,信貸違約,年平均余額)e x = R6, x稱為 輸入空間,輸入空間中的每一個點x由6個屬性特征組成,j e Y = -1,1,j為iii分類標記,i = 1,2.m,m為訓練集的數(shù)據(jù)的個數(shù)。我們在解決非線性的情況時引入從輸入空間X到另一個高維的Hilbert空間H的變化x 中,將原輸入空間X的訓練集T = (x , j ), (x , j ),., (x , j )e(X x Y)m
12、 1122m m轉(zhuǎn)化為Hilbert空間H中的新的訓練集T = (x, j ),(x , j ),.,(x , j )=(頓x), j ),(頓x ), j ),.,(頓x ), j ),1122m m1122m m它在Hilbert空間H中線性可分。下面我們在Hilbert空間H中建立線性可分的支持向量機模型4。我們的目的是要找到一個超平面g(x) = wx + b,能把數(shù)據(jù)分到超平面的兩邊,其中w是一個向量,b是一個實數(shù),構造分類函數(shù)j = f (x) = sgn( g (x),將任意一個模式x帶進去即可得到分類。下面我們只需要求得參數(shù)w和b,滿足當 j =1 時,wx + b 1 ;當j
13、 =-1時, wx + b 1,將w i i名 i名 (刊稱為幾何間隔。其中。是樣本集合到分類面的幾何間隔,這是樣本點到超平面的距離,而誤差次數(shù) 1,i = 1,2,.m我們將原訓練集成射到更高維的訓練集時,樣本點D.有可能以下三種情況: 各樣本點分類正確。落在分離段內(nèi),且正確分類即滿足不等式0 j (wx + b) 1。 錯誤分類,即滿足不等式j (wx + b) 0,將上述三種情況歸為同一約束條件,j (wx + b) 1 & ,第一種對應&=0,第二種對應0 & :1,變量&稱為松弛變量。則原來的優(yōu)化問題就變成了 :min J(w) = |w|2 + C&=1s.t y (wx + b)
14、 1& i = 12. m,& 0i = 12.m,其中C0為懲罰參數(shù)是一個常量,C決定了你有多重視離群點帶來的損失,C定的 值越大,對目標函數(shù)的損失也越大??梢越o每一個離群點都使用不同的C,這時 就意味著你對每個樣本的重視程度都不一樣。這就變成了凸規(guī)劃問題,引入拉格朗日函數(shù)表示為L( w b &人,四)=1 w| |2 + C & 沮 y( wx + b) 1 + & 一日&, TOC o 1-5 h z 2ii i iii ii = 1i = 1i = 1對應的KKT條件為dLm _i=1 =。n w =二人:yx,i=1=0 n 工人 y = 0瀝i ii=1ar.靈=0 n C-七-
15、= 0人y (wx + b)一1 + & = 0i i ii嘻=0R 0& 0i = 1,2. m將上述的條件帶入拉格朗日函數(shù)成為wolfe雙重優(yōu)化任務得max出1 尤習采 yyjXX ):2: j i j i j-:=1:=1 j=1s.t 0X C尤人 y = 0i = 12.mi ii = 1求此優(yōu)化問題即可求得人,由此可得出w = *人yx,i=i=1因此原來的g (力變?yōu)間 (x) = wx + b = jw x + b = :: 人 y x x : + b = 人 y :: x x + b, :.:: i 在這里我們選取徑向基函數(shù)做為核函數(shù)K(%)=(甲3)=(xx )則wolfe
16、雙重優(yōu)化任務就成為max(E 1 餌 yyK (x , x )入 i 2i j i j i ji=1i=1 j=1s.t 0X. Cm 人 y = 0, i = 1,2,., m , i i i=1 由此生成的分類函數(shù)為y = f (x) = sgn(g (x) = sgn(m 人 yK (x , x ) + b)i i i ji=15.1.2模型的求解本文僅選用6個屬性值進行確定,各屬性值的取值范圍定義如下: 年齡(age): 1、2、3,(1代表30歲以下,2代表30-50歲,3代表50歲以上); 工作(job): 1、2、3,(1代表管理級別,2代表非管理級別,3代表無業(yè)); 婚姻狀況(
17、marital): 1、2、3(1代表單身,2代表已婚,3代表離異); 教育程度(educatior): 0、1、2、3(0代表未知,1代表初級,2代表中級,3 代表高級); 信貸違約嗎(defalt): 0、1(0代表否,1代表是);年平均余額(balance): 0,1,2, 3(0代表0歐元以下,1代表0-2000,2代表 2000-4000,3 代表 4000 以上);貸款:-1、1(-1代表無貸款,1代表有貸款); 下面我們用svm來求解模型89。(1)把bank_full.csv和bank1.xls數(shù)據(jù)做個預處理,然后分別轉(zhuǎn)化成 bank_full.txt和bank_test.xl
18、s,要查看預處理過的數(shù)據(jù),請查看附件1。(2)編寫MATLAB代碼,第一步導入bank_full.csv數(shù)據(jù),數(shù)據(jù)是4520條記錄, 并且把值賦值給train_label和train_inst變量,如賦值完成后的圖見附錄中的 圖8、圖9。第二步是訓練全部數(shù)據(jù),采用高斯核函數(shù),松弛變量是2,訓練結果如下描 述:*optimization finished, #iter = 65321nu = 0.720202 obj = -19998.737978, rho = -0.373139 nSV = 43018, nBSV = 16696 Total nSV = 43018*得到train_model
19、結構,如下圖所示:Fil train_model 1x1 structField ,Parameters nr_classFil train_model 1x1 structField ,Parameters nr_classMaxLabel svjndicesProbB nSV sv_coef SVsValueMinO;2j3;2;O0224304043040-0.3731-0.37.1;1-143040 x1 doublo126005;170351703543040 x1 doublo-143040 x7 sparse d.43040-0.37.45211260051圖 1: train_
20、model 結構圖第三步是用MATLAB導入測試樣本,樣本數(shù)據(jù)是4521條記錄,并且把值賦值 給test_label和test_inst變量,如賦值完成后的圖見附錄中的圖10、圖11:第四步是給樣本進行測試,測試值精確度能夠達到97.1688%,即Accuracy = 97.1688% (4393/4521) (classification)運行結果如下所示:頓試樣本,精漏度能達到多少p r e di ct_l ab elj accuracjj dec_va.liies = svmp r edi ct (t c st _ 1 ab h lj t cE_inst 5 t rain_n.odel)
21、;Accuracy = 97. 16S8W (4393/4521) (classificatiDn)圖2:樣本測試結果精確度圖結果:accuracy,是一個3維的向量,從上到下分別是:分類準率(分類 問題中用到的參數(shù)指標);平均平方誤差(MSE (mean squared error)(回歸 問題中用到的參數(shù)指標);平方相關系數(shù)(r2 (squared correlation coefficient)(回歸問題中用到的參數(shù)指標)。圖 3: accuracy 圖圖 4: dec_values 圖predict_label是訓練集預測得到的label向量,結果如下圖所示:圖 5: predict_
22、label 圖5.2問題二5.2.1模型的建立在本問題中我們采用決策樹2來對有貸款和無貸款的客戶群進行細分,決 策樹著眼于從一組無次序、無規(guī)則的事物中推理出決策樹表示形式的分類規(guī)則, 它采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點進行屬性的比較,并根據(jù)不同 的屬性判斷從該節(jié)點向下的分支,在決策樹的葉節(jié)點得到結論。所以從根到到葉 節(jié)點就對應著一條合理規(guī)則。運用決策樹分類的基本思想是以信息熵為度量構造一顆熵值下降最快的樹, 到葉子節(jié)點處的熵值為零,此時每個葉節(jié)點中的屬性都屬于同一類。在這里我們 要構造兩個多叉樹分別將有貸款和無貸款的客戶進行細分。在這個問題中S是一個訓練集,訓練集中有s個樣本,我們把
23、S中的數(shù)據(jù)分 為n個類標識,定義n個不同的類G,i 1,2.n,設s.是類C.中的樣本數(shù),那么 任意一個樣本屬于類C的概率是s /S,對一個給定的樣本分類所需的期望信息 由下式得出: . .歹 s S TOC o 1-5 h z HYPERLINK l bookmark81 o Current Document I (S , S ,., S )= 一乙 T log -i 1 2 nS 2 si=1一個有V個值的屬性aq ,a ,.,a 可以將S分成V個子集s ,S ,.,S ,其中12 v12 vS包含S中屬性A上的值為a的樣本,假設S包含類。的s個樣本,則A的熵 jjji ij為E(A) =
24、 S1 j + % + + j(s,,s )S1 j njj=1則A上該劃分的獲得的信息增益為Gain(A)=I(S., S ) - E(A)信息增益越大,熵下降的越多,我們測試每一個屬性的信息增益,選擇信息增益 值最大的屬性作為葉節(jié)點,依次往下遞推進行。但我們在以下幾種情況的時候要 停止對數(shù)據(jù)集的分裂:(1)該節(jié)點包含的數(shù)據(jù)太少不足以分裂;(2)繼續(xù)分裂數(shù)據(jù)集對樹生成的目標沒有貢獻,即對熵的下降沒有貢獻;(3)樹的深度過大不宜再分。5.2.2模型的求解我們先來對有貸款的客戶進行細分,此問中我們也僅選取年齡、工作、婚姻 狀況、受教育程度、信貸違約、年平均余額這6個屬性,我們將是否信貸違約作 為
25、標識類建立一個二叉樹,先對訓練集T中有貸款的客戶數(shù)據(jù)進行處理,將各個 屬性按照以下規(guī)則分類: 年齡(age): 1、2、3,(1代表30歲以下,2代表30-50歲,3代表50歲以上); 工作(job): 1、2、3,(1代表管理級別,2代表非管理級別,3代表無業(yè)); 婚姻狀況(marital): 1、2(1代表單身,2代表已婚)(將離婚歸為單身一類); 教育程度(educatior): 0、1、2、3(0代表未知,1代表初級,2代表中級,3 代表高級); 年平均余額(balance): 1,2,3(1代表2000以下,2代表2000-4000,3代表 4000以上); 將處理過的客戶數(shù)據(jù)帶入上
26、述模型中求得信息熵和信息增益,由此得到下表:表1:有貸款的客戶數(shù)據(jù)處理、序號 特征、0123總人數(shù)信息熵信息增益年齡305209344628441.0900.355工作1002168915328441.2040.625婚姻1046179828441.2850.382教育程度88425159573628443.3920.013年余額235225723528441.4470.822我們根據(jù)所得的信息增益來編排決策樹中屬性的順序,對樹進行調(diào)整減去貢 獻小的分支,得到最終的樹如下圖所示:圖6:有貸款的決策樹年余額#得到最終的樹如下圖所示:圖6:有貸款的決策樹年余額#第一類:年余額小于2000歐元的管理
27、層;第二類:年余額小于2000歐元的非管理層;第三類:年余額小于2000歐元的無業(yè)人員;第四類:年余額在2000-4000歐元的已婚人士;第五類:年余額在2000-4000歐元的單身人士;第六類:年余額在4000以上的客戶。下面我們來對無貸款的客戶資料來建立決策樹,此問中我們也僅選取年齡、 工作、婚姻狀況、受教育程度、信貸違約、年平均余額這6個屬性,我們將是否 信貸違約作為標識類建立一個二叉樹,先對訓練集T中無貸款的客戶數(shù)據(jù)進行處 理,將客戶數(shù)據(jù)按照上述有貸款的分類規(guī)則進行分類,分類后將數(shù)據(jù)帶入所建立 的模型中求得信息熵和信息增益,與有貸款的客戶信息處理方式一樣,由此得到 下表:表2:無貸款的
28、客戶數(shù)據(jù)處理序號 特征、0123總人數(shù)信息熵信息增益年齡176101948116761.2950.221工作62872232616761.5140.005婚姻67799916761.3150.510教育程度9825371161416761.7060.001年余額128119719816761.5340.712我們根據(jù)所得的信息增益來編排決策樹中屬性的順序,對樹進行調(diào)整減去貢 獻小的分支,得到最終的樹如下圖所示:圖7:無圖7:無貸款的決策樹由上圖我們把每一個從根到葉節(jié)點的路徑作為一個分類,這樣我們就把無貸 款的客戶細分為六類:第一類:年余額小于2000歐元的單身;第二類:年余額小于2000歐元的
29、已婚;第三類:年余額在2000-4000歐元30歲以下;第四類:年余額在2000-4000歐元30-50歲;第五類:年余額在2000-4000歐元50歲以上;第六類:年余額在4000以上的客戶。5.3問題三這一問中我們把它分成兩小問來處理:(1)給定一個客戶的背景,判斷其是 否可能購買貸款產(chǎn)品。(2)建議客戶購買哪種貸款產(chǎn)品。我們先把客戶資料帶入第一問構建的模型中判斷他是否能購買貸款產(chǎn)品。我 們?nèi)我馊∫粋€客戶資料如:年齡:33,工作:非管理層,婚姻狀況:已婚,教育 程度:高程度,信貸違約:否,年余額:1400。我們把這組資料按模型一的規(guī)則量化為x = (2,2,2,3,0,1),將它帶入模型一
30、的 分類函數(shù)y = f (x) = sgn(g(x)中,經(jīng)計算的y = 1,故由可知此客戶有可能購買貸 款產(chǎn)品,這樣我們第一小問就解決了。下面我們來解決第二小問,我們將客戶資料帶人第二問的有貸款的客戶的決 策樹中很容易看出他是屬于第二類客戶。按保障條件來分,銀行信貸業(yè)務可以分為信用貸款、擔保貸款和票據(jù)貼現(xiàn)等三個 類別,而這三種類別按安全性排序為擔保貸款票據(jù)貼現(xiàn)用貸款,按收益排序為 票據(jù)貼現(xiàn)擔保貸款信用貸款。由此我們對第二問中的六種客戶分別建議購買不同種類的貸款產(chǎn)品,具體建 議如下:第一類客戶:短期的、票據(jù)貼現(xiàn),第二類客戶:短期的、擔保貸款,第三類客戶:短期的、信用貸款,第四類客戶:中期的、擔保
31、貸款,第五類客戶:中期的、票據(jù)貼現(xiàn), 第六類客戶:長期的、票據(jù)貼現(xiàn)。根據(jù)上述的建議,我們可以建議此客戶購買短期的擔保貸款。六、模型的優(yōu)缺點分析與改進6.1模型的優(yōu)缺點模型的優(yōu)點(1)建立的支持向量機有成熟的理論基礎,有相應的軟件支持,可信度高。(2)建立的決策樹階段明顯,便于理解,可以清晰的顯示哪些字段比較重 要。(3)決策樹列出了決策問題的全部可行方案和可能出現(xiàn)的各種自然狀態(tài),以 及各可行方法在各種不同狀態(tài)下的期望值。模型的缺點(1)我們的模型只適用于銀行信貸業(yè)務問題。(2)模型假設比較理想化,與實際情況存在較大的差距。(3)模型考慮的元素較少,在處理問題時可能存在一些誤差。6.2模型的改進
32、算法的改進:要提高測試樣本的準確率,對于本文來說,也就是要給有貸款和無貸款進行準確的分類,那么我們可以做5方面的改進:1、提高學習數(shù)據(jù)量本,也就是學習樣本越多越好,之前我們學習樣本是4000 多條,結果給測試樣本進行測試,準確率能夠達到67.6926%多,現(xiàn)在給的學習 樣本有45211條,學習增加了時間,但是準確率高達97.1688%,通過這個我們 要增加學習樣本數(shù)據(jù)。2、本文采用高斯核函數(shù),由于時間問題,我們只針對高斯核函數(shù),應該要 給其他核函數(shù)進行測試,看看哪個分類準確率高,核函數(shù)也是我們要改進的地方。3、松弛變量取值會影響到向量W的范數(shù),參考大量的文獻,我們要達到分 類的效果,也就要使向
33、量W的范數(shù)值取最小,并且要滿足約束條件,二本文松弛 變量取值是2,如果想得到更好的分類準確率,可以自己手動調(diào)試松弛變量。4、特征屬性取值范圍盡量大,比如我們之前年余額,低于0歐元用0表示, 高于0歐元低于2000歐元用1表示,高于2000歐元低于4000歐元用2表示, 高于4000歐元用3表示,這很明顯會使得有貸款和無貸款分類變得不準確,后 來我們對年齡不細分,就按人家調(diào)查的直接對特征取值。5、本文特征屬性不多,有六個特征屬性,我們要達到有貸款和無貸款的分 類準確率,我們要更多的特征屬性。參考文獻元昌安,鄧松,李文敬,劉海濤,數(shù)學挖掘原理與SPSS Clementine應用寶 典 , HYPERLINK /view/8b26aad676eeaeaad1f330e5.html /view/8b26aad676eeaeaad1f330e5.html , 2015.4.28;Dark_Scope,決策樹-從原理到實現(xiàn), HYPERLINK /dark_scope/article/details/13168827%ef%bc%8c /dark_scope/article/details/13168827, 2015.4.29;姜啟源,謝金星,葉俊,數(shù)學模型(第四版),北京:高等教育出版社, 2014;Chakarin Vajiramedhin. Featur
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版家屬區(qū)整體改造裝修服務合同3篇
- 江蘇省南通市如皋市 2024-2025學年九年級上學期1月期末道德與法治試題(含答案)
- 二零二五年度企業(yè)并購合同法操作指南3篇
- 保健品批發(fā)商的社區(qū)健康宣傳效果評估考核試卷
- 家居布藝的智能化窗簾控制系統(tǒng)設計與實現(xiàn)考核試卷
- 二零二五年度造紙機械租賃施工合同2篇
- 2025年新能源車位租賃與維護保養(yǎng)一體化服務合同2篇
- 2025年新能源產(chǎn)品銷售業(yè)績達標合同范本2篇
- 2025年信息安全技術協(xié)議
- 2025年度智能設備維修個人勞務合同模板3篇
- 我的家鄉(xiāng)瓊海
- (2025)專業(yè)技術人員繼續(xù)教育公需課題庫(附含答案)
- 《互聯(lián)網(wǎng)現(xiàn)狀和發(fā)展》課件
- 【MOOC】計算機組成原理-電子科技大學 中國大學慕課MOOC答案
- 2024年上海健康醫(yī)學院單招職業(yè)適應性測試題庫及答案解析
- 2024年湖北省武漢市中考語文適應性試卷
- 非新生兒破傷風診療規(guī)范(2024年版)解讀
- EDIFIER漫步者S880使用說明書
- 皮膚惡性黑色素瘤-疾病研究白皮書
- 從心理學看現(xiàn)代家庭教育課件
- C語言程序設計PPT(第7版)高職完整全套教學課件
評論
0/150
提交評論