




已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于決策樹(shù)的薪資結(jié)構(gòu)普查模型研究 摘 要:在對(duì)薪資結(jié)構(gòu)進(jìn)行普查時(shí),由于薪資具有隱私的特性和各種不確定的因素,導(dǎo)致普查過(guò)程越來(lái)越難,精確度、時(shí)效性越來(lái)越低。為了快速、準(zhǔn)確地了解薪資水平與結(jié)構(gòu),該文通過(guò)使用決策樹(shù)模型對(duì)Adult數(shù)據(jù)集進(jìn)行判斷、訓(xùn)練,生成對(duì)應(yīng)的薪資劃分模型,將影響薪資階級(jí)的各個(gè)屬性建立起相應(yīng)的關(guān)聯(lián),可以分析與預(yù)測(cè)人們的生活水平與影響因素,仿真的結(jié)果表明決策樹(shù)模型能夠進(jìn)行真實(shí)預(yù)測(cè)。 關(guān)鍵詞:薪資結(jié)構(gòu)普查;決策樹(shù);薪資劃分模型;數(shù)據(jù)集 中圖分類(lèi)號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)12-0265-02 決策樹(shù)算法的核心是歸納學(xué)習(xí)算法,最基本的特點(diǎn)是運(yùn)算速度快、結(jié)果簡(jiǎn)單、易于理解、方便將得到的模型轉(zhuǎn)換成對(duì)應(yīng)的規(guī)則1。因此決策樹(shù)常常用于預(yù)測(cè)模型的生成2-3,對(duì)未來(lái)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。在薪資調(diào)查中由于個(gè)人隱私以及工作變動(dòng)等問(wèn)題存在,導(dǎo)致直接通過(guò)群眾調(diào)查結(jié)果存在著較大的誤差。希望能夠通過(guò)決策樹(shù)算法對(duì)已擁有的薪資數(shù)據(jù)進(jìn)行訓(xùn)練,得到一個(gè)較為精確的分類(lèi)模型4,進(jìn)一步縮短薪資普查周期、提高數(shù)據(jù)精確度以及真實(shí)度。 1 決策樹(shù)基本原理簡(jiǎn)介 1.1決策樹(shù)算法理論 決策樹(shù)(Decision Tree)是一類(lèi)基于回歸問(wèn)題的對(duì)實(shí)例進(jìn)行分類(lèi)的樹(shù)形結(jié)構(gòu)。決策樹(shù)呈樹(shù)狀結(jié)構(gòu),其模型類(lèi)似于數(shù)據(jù)結(jié)構(gòu)中的樹(shù)形圖5。在分類(lèi)問(wèn)題中,表示基于特征對(duì)實(shí)例進(jìn)行分類(lèi)的過(guò)程。它可以認(rèn)為是if-then規(guī)則的集合,也可以認(rèn)為是定義在特征空間與類(lèi)空間上的條件概率分布,圖1是典型的決策樹(shù): ID3決策樹(shù)(Iterative Dichotomiser 3)算法,是Ross Quinlan發(fā)明的一種決策樹(shù)算法,該算法的特點(diǎn)是簡(jiǎn)潔、運(yùn)用廣泛。它是以?shī)W卡姆剃刀原理為核心,盡量用較少的資源做更多的事情,因此對(duì)于該算法而言,越是小型的決策樹(shù)越優(yōu)于大的決策樹(shù)6-7。 1.2 C4.5決策樹(shù)算法介紹 C4.5決策樹(shù)算法是一種基于ID3決策樹(shù)算法改進(jìn)后的一種算法,其與ID3決策樹(shù)算法最主要的區(qū)別是在于C4.5算法不再使用ID3決策樹(shù)算法的信息增益,而是使用了信息增益率這個(gè)概念。 2 決策樹(shù)在薪資結(jié)構(gòu)普查中的應(yīng)用 2.1數(shù)據(jù)源獲取 本文的數(shù)據(jù)來(lái)源于UCI機(jī)器學(xué)習(xí)庫(kù)的Adult數(shù)據(jù)集,該集合主要包含兩個(gè)部分,訓(xùn)練集adult.data與adult.test。其中adult.data包含了32561調(diào)數(shù)據(jù),總計(jì)有workclass、education、 occupation、relationship等總計(jì)16項(xiàng)屬性。 2.2薪資結(jié)構(gòu)普查決策樹(shù)模型生成方案及流程 薪資結(jié)構(gòu)普查決策樹(shù)算法: Input:DataSet(adult.data),featureList(包含篩選過(guò)后的13個(gè)屬性集合) Output:決策樹(shù)T C4.5(DataSet,featureList) Begin: 創(chuàng)建決策樹(shù)T,令T= 創(chuàng)建根結(jié)點(diǎn)R If:當(dāng)前DataSet中的數(shù)據(jù)都屬于同一類(lèi) 標(biāo)記R的類(lèi)別為該類(lèi),將R加入決策樹(shù)T。并返回T。 End If If:當(dāng)前featureList集合為空 標(biāo)記R的類(lèi)別為當(dāng)前DataSet中樣本最多的類(lèi)別,將R加入決策樹(shù)T。并返回T。 While(如果featureList不為空) 從featureList中選擇屬性F(選擇G_Ratio(DataSet,F(xiàn))最大的屬性) 根據(jù)F的每一個(gè)值V,將DataSet劃分為不同的子集DS,對(duì)于每個(gè)DS: ?創(chuàng)建結(jié)點(diǎn)C ?IF:DS為空 結(jié)點(diǎn)C標(biāo)記為DataSet中樣本最多的類(lèi) ?Else 結(jié)點(diǎn)C=C4.5(DS,featureList-F) ?將結(jié)點(diǎn)C添加為R的子結(jié)點(diǎn) End While Return T 整體方案流程圖: 3 結(jié)果與討論 本算法是基于Python語(yǔ)言,PyCharm開(kāi)發(fā)環(huán)境進(jìn)行實(shí)現(xiàn)的,通過(guò)訓(xùn)練數(shù)據(jù)adult.data對(duì)決策樹(shù)進(jìn)行訓(xùn)練建模,再通過(guò)測(cè)試數(shù)據(jù)對(duì)訓(xùn)練所得的決策樹(shù)模型進(jìn)行檢測(cè),最終通過(guò)測(cè)試到的訓(xùn)練所得的決策樹(shù)模型的正確率。并分別將決策樹(shù)模型與樸素貝葉斯算法(NaiveBayes),最近鄰算法(Nearest-neighbor)的正確率進(jìn)行對(duì)比。 圖3為決策樹(shù)模型的測(cè)試結(jié)果,如圖所示,該程序主要分為三個(gè)部分:模型訓(xùn)練、模型測(cè)試、以及模型正確率檢測(cè),其中模型測(cè)試正確率高達(dá)85.54%,相比其他分類(lèi)模型更為精確。 該算法在構(gòu)建時(shí)易于實(shí)現(xiàn),產(chǎn)生的分類(lèi)規(guī)則容易理解,相對(duì)于其他分類(lèi)算法而言精確率較高。但在決策樹(shù)構(gòu)造過(guò)程當(dāng)中需要進(jìn)行多次的排序,因此需要花費(fèi)大量時(shí)間,導(dǎo)致算法效率較低,并且可能出現(xiàn)過(guò)擬合情況。因此,該算法?m用于非實(shí)時(shí)性的數(shù)據(jù)分析,并可建立所對(duì)應(yīng)分類(lèi)的影響屬性的關(guān)聯(lián)性。 4 結(jié)束語(yǔ) 該模型在訓(xùn)練過(guò)程中表現(xiàn)較好,其正確率優(yōu)于其他傳統(tǒng)的分類(lèi)模型,建立的分類(lèi)規(guī)則通俗易懂,并成功的避免了大規(guī)模的薪資調(diào)查,可以盡量減少對(duì)他人隱私的關(guān)注,能夠合情合理地對(duì)未來(lái)的信息階級(jí)變化進(jìn)行預(yù)測(cè)。但決策樹(shù)模型尚處于研究階段,由于需要對(duì)數(shù)據(jù)集進(jìn)行多次掃描與排序,在部分情況下執(zhí)行效率相對(duì)較低。決策樹(shù)模型能使用于絕大多數(shù)場(chǎng)景,適應(yīng)性較強(qiáng),具有較大的應(yīng)用價(jià)值,特別是在分類(lèi)場(chǎng)合中。相信在未來(lái),隨著決策樹(shù)算法的不斷優(yōu)化,決策樹(shù)算法來(lái)挖掘的數(shù)據(jù)越多,算法的效率和性能越好,算法的優(yōu)越性就越明顯。 參考文獻(xiàn): 1潘琛,杜培軍,張海榮.決策樹(shù)分類(lèi)法及其在遙感圖像處理中的應(yīng)用J.中國(guó)礦業(yè)大學(xué)地理信息與遙感科學(xué)系,測(cè)繪科學(xué),2008,33(1):76-78. 2楊靜,張楠男.決策樹(shù)算法的研究與應(yīng)用J.計(jì)算機(jī)技術(shù)于發(fā)展,2010,22(2):116-120. 3馮少榮.決策樹(shù)算法的研究與改進(jìn)J.廈門(mén)大學(xué)學(xué)報(bào),2007,46(4):496-500. 4于卓.應(yīng)用決策樹(shù)構(gòu)建個(gè)人住房貸款風(fēng)險(xiǎn)評(píng)估模型D.東北財(cái)經(jīng)大學(xué),2007. 5唐
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 第七八單元考試題及答案
- 系統(tǒng)分析師考試綜合課程試題及答案
- 選修3-1試題及答案
- 總包公司質(zhì)量管理制度
- 庫(kù)房衣服儲(chǔ)存管理制度
- 服裝品質(zhì)考核管理制度
- 滕州疫情防控管理制度
- 科室?guī)旆繕?biāo)準(zhǔn)化管理制度
- 建筑公司制訂管理制度
- 接種門(mén)診安全管理制度
- 教師專(zhuān)業(yè)發(fā)展現(xiàn)狀問(wèn)題調(diào)查問(wèn)卷
- 廈門(mén)國(guó)際銀行招聘上岸提分題庫(kù)3套【500題帶答案含詳解】
- 兒科學(xué)教學(xué)課件:1.1胃食管反流
- GB/T 2881-2008工業(yè)硅
- GB/T 10760.2-2003離網(wǎng)型風(fēng)力發(fā)電機(jī)組用發(fā)電機(jī)第2部分:試驗(yàn)方法
- 需要確認(rèn)的過(guò)程特殊過(guò)程確認(rèn)記錄
- 中級(jí)會(huì)計(jì)職稱財(cái)務(wù)管理基礎(chǔ)第3章主要內(nèi)容增量與零基預(yù)算編制方法
- 形式發(fā)票范本
- 《網(wǎng)店運(yùn)營(yíng)》學(xué)習(xí)情境四數(shù)據(jù)分析
- 2022年液氨罐區(qū)重大危險(xiǎn)源評(píng)估報(bào)告
- 地基強(qiáng)夯工程專(zhuān)項(xiàng)施工方案專(zhuān)家論證版
評(píng)論
0/150
提交評(píng)論