數(shù)據(jù)挖掘在人力資源管理中的應用_第1頁
數(shù)據(jù)挖掘在人力資源管理中的應用_第2頁
數(shù)據(jù)挖掘在人力資源管理中的應用_第3頁
數(shù)據(jù)挖掘在人力資源管理中的應用_第4頁
數(shù)據(jù)挖掘在人力資源管理中的應用_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)挖掘在人力資源管理中的應用數(shù)據(jù)挖掘在人力資源管理中應用專業(yè):人力資源管理專業(yè) 學號:B09050136 姓名:閆巧梅數(shù)據(jù)挖掘在人力資源管理中應用【摘要】隨著知識經濟的到來,人們對人力資源管理也有了很深的了解和關注,使人力資源管理被提到了前所未有的高度,現(xiàn)在已經成為企業(yè)管理的重要內容,發(fā)揮著重要的作用。在日益激烈的市場競爭中如何提高企業(yè)核心競爭力,提高企業(yè)人力資源管理水平是關鍵要素。我們知道,企業(yè)的現(xiàn)代化管理離不開人力資源的管理,充分合理利用企業(yè)現(xiàn)有的人力資源離不開現(xiàn)代的管理手段。眾所周知,數(shù)據(jù)挖掘技術在很多領域中的用用,并取得了良好效果和經濟效益。因此,本文引進數(shù)據(jù)挖掘理論的概念和分析方式

2、,根據(jù)人力資源系統(tǒng)數(shù)據(jù)繁多,且又不確定及較難預測判斷的性質,采用粗糙集決策樹,詳細闡述了ID3算法,與人力資源模塊相結合將數(shù)據(jù)挖掘理論應用到人力資源管理系統(tǒng)中去,為企業(yè)人力資源管理提供了可靠基本數(shù)據(jù)信息和人事決策、人事管理的依據(jù)。本文的現(xiàn)在意義在于加深對人力資源管理的認識,提高了人們對于人力資源管理帶來的可觀價值的理解.【關鍵字】數(shù)據(jù)挖掘 決策樹 ID3算法 人力資源管理【目錄】一 。 人力資源管理31.1 人力資源管理的內容及特點31.2 人力資源的管理的重要性41。3 傳統(tǒng)人力資源管理技術及其不足61。4 引進新的人力資源管理方法7二 . 數(shù)據(jù)挖掘82。1 數(shù)據(jù)挖掘理論82。2決策樹方法9

3、三 ?;跀?shù)據(jù)挖掘的人力資源分析93.1ID3算法的決策屬性93。2  ID3算法示例103。3 決策樹的剪枝12四結論13參考文獻13第 14 頁 共 14 頁一 。 人力資源管理1。1 人力資源管理的內容及特點資源包括自然資源、人力資源、原材料資源、機器設備資源等。人力資源是指在一定時間、一定空間范圍內的人口總體所具有的各種能力的總稱,可以作為生產要素投入經濟活動中,是一種經濟資源.人力資源管理是在經濟學與人本思想指導下,通過招聘、甄選、培訓、報酬等管理形式對組織內外相關人力資源進行有效運用,滿足組織當前及未來發(fā)展的需要,保證組織目標實現(xiàn)與成員發(fā)展的最大化.就是月初組織

4、人力資源需求并作出人力需求計劃、招聘選擇人員并進行有效組織、考核績效支付報酬并進行有效激勵、結合組織與個人需要進行有效開發(fā)以便實現(xiàn)最優(yōu)組織績效的全過程.人力資源管理分為六個模塊:人員招聘與培訓管理、崗位設計與培訓、薪酬管理、績效管理、勞動關系管理以及人力資源規(guī)劃。人力資源管理服務于企業(yè)的總體戰(zhàn)略目標,是一系列管理環(huán)節(jié)的綜合體。人力資源管理的主要內容包括以下幾個方面:(1)人力資源戰(zhàn)略規(guī)劃企業(yè)為適應內外環(huán)境的變化,依據(jù)企業(yè)總體發(fā)展戰(zhàn)略,并且充分考慮員工的期望而制定的企業(yè)人力資源管理與開發(fā)的規(guī)劃。人力資源戰(zhàn)略規(guī)劃是企業(yè)人力資源開發(fā)與管理活動的重要指南,是企業(yè)發(fā)展戰(zhàn)略的重要組成部分,也是企業(yè)發(fā)展戰(zhàn)略

5、實施的有效保障。(2)人力資源管理的基本業(yè)務崗位分析與崗位評價是企業(yè)人力資源管理的基本工作。崗位分析是企業(yè)所有工作崗位的特征和任職要求進行界定和說明,崗位分析的結果是形成每一個工作崗位的職位描述、任職資格的要求、崗位業(yè)務規(guī)范:崗位評價對企業(yè)各工作崗位的相對價值進行估計和判斷,崗位評價的結果是形成企業(yè)不同工作崗位的工資體系。崗位分析和崗位評價就好比說明書和產品標價,使員工明明白白工作,清清楚楚拿錢。(3)人力資源管理的核心業(yè)務 包括招聘、培訓、績效考核、薪酬管理.招聘是人力資源管理核心業(yè)務的首要環(huán)節(jié),它是企業(yè)不斷從租住外部吸納人才的過程,它能保證源源不斷的人力資源需求;培訓是企業(yè)人力資源開發(fā)的重

6、要手段,它包括對員工的知識、技能、心理素質、生涯規(guī)劃等方面進行培訓,它是企業(yè)提升員工的重要保障;績效考核是指運用科學的方法和標準對員工完成工作數(shù)量、質量、效率及員工行為模式等方面的綜合評價,從而進行相應的薪酬激勵、人事晉升激勵、崗位調整等,績效考核是實施員工激勵的重要基礎;新手管理是企業(yè)人力資源管理的一個極為重要的方面,它主要包括薪酬制度與結構的設計、員工薪酬的計算與水平的整理、薪酬支付等內容,它是企業(yè)對員工物質激勵的重要手段。(4)人力資源管理的其他工作 企業(yè)人力資源管理還包括其他一些日常事務性業(yè)務內容,如人事統(tǒng)計、員工健康與安全管理、人事考勤、人事檔案管理、員工合同管理等. 但是,現(xiàn)如今對

7、人力資源管理的內容具有多種花劃分,還有一種分法是這樣的:制定人力資源規(guī)劃、人力資源成本會計工作、崗位分析與設計、人力資源的招聘與挑選、雇用管理與勞資關系、入場教育、培訓和發(fā)展、工作績效考核、幫做員工的職業(yè)生涯發(fā)展、員工工資報酬與福利保障設計、保管員工檔案.1。2 人力資源的管理的重要性人力資源管理重要性的主要表現(xiàn)市場競爭中。隨著社會主義市場經濟的快速發(fā)展,人力資源管理在企業(yè)管理中的作用也變得日益明顯。一個企業(yè)能否健康的發(fā)展在很大程度上取決于員工的素質,同時也取決于人力資源管理在企業(yè)管理中的受重視程度。1人力資源管理對企業(yè)管理人員的要求人力資源管理將作為一種重要資源加以開發(fā)、利用和管理,重點是開

8、發(fā)人的潛能、激發(fā)人的活力,使員工能夠積極主動地工作,并進行創(chuàng)造性地工作.對于企業(yè)管理人員來說,要求管理人員在工作中充分發(fā)揮承上啟下上通下達的紐帶作用,幫助企業(yè)處理和協(xié)調各種關系.一要合理的處理好人與事的關系,確保人事匹配;二要恰當?shù)亟鉀Q員工之間的關系,是他們和睦相處;三要充分調動員工的積極性、創(chuàng)造性。使員工為企業(yè)創(chuàng)造更多的利潤;四要對員工進行充分的培訓,以提高員工的綜合素質,保證企業(yè)的良好效益。(2)人力資源管理能夠提高員工的工作績效、根據(jù)企業(yè)目標和員工的個人狀況,企業(yè)運用人力資源管理創(chuàng)造理想的組織氣氛,為員工做好職業(yè)生涯規(guī)劃,通過不斷培訓,進行橫向和縱向職位的調整,量才使用,人盡其才,發(fā)揮個

9、人的特長,體現(xiàn)個人的價值,促使員工形成主人翁的想法,發(fā)揮其創(chuàng)造力,營造和諧向上的工作氣氛。在具體運行中實行員工崗位輪換制,通過輪換發(fā)現(xiàn)員工的最適應的工作種類,確保企業(yè)組織結構和工作分工的合理性及靈活性,從而提高員工的工作績效,全面提高企業(yè)的工作效率.(3)人力資源管理是企業(yè)發(fā)展的需要人是企業(yè)生存和發(fā)展的最根本要素.這是由于企業(yè)管理目標是企業(yè)管理工作者制定、實施和控制的,但在工作過程中,管理者是通過員工的努力來實現(xiàn)工作目標的,這就要求員工必須具備良好的能力素質,掌握市場運作規(guī)律。圓滿貫徹管理者的意圖。只有恰當?shù)倪x擇員工才能實現(xiàn)企業(yè)的目標。人力資源管理能夠創(chuàng)造靈活的組織體系。為員工充分發(fā)揮潛力提供

10、必要的支持,讓員工各盡其能,共同為企業(yè)服務,從而確保企業(yè)反應的靈敏性和強有力的適應性,協(xié)助企業(yè)實現(xiàn)競爭環(huán)境下的具體目標。(4)人力資源管理是企業(yè)核心競爭力的重要要素人是企業(yè)擁有的重要資源,也是企業(yè)的競爭核心所在。目前,人力資源管理桌布被納入到企業(yè)發(fā)展戰(zhàn)略規(guī)劃中,成為企業(yè)謀求發(fā)展壯大的核心因素,也是企業(yè)在市場競爭中立于不敗之地的重要因素.(5)人力資源管理是企業(yè)形成凝聚力和建設內部品牌優(yōu)勢的關鍵當一個企業(yè)獲得穩(wěn)步發(fā)展欣欣向榮時,我們都不難發(fā)現(xiàn),這個企業(yè)的內部入了和諧協(xié)調的合作狀態(tài),這種凝聚力使一個企業(yè)興旺發(fā)達.周所周知,根據(jù)劃分的類型不同可以產生不同的劃分結果,所以我們可以把人力資源的功能劃分為

11、硬功能和軟功能,硬功能包括招聘、培訓與開發(fā)、薪酬、績效、福利等,但是軟功能卻被常常忽視,它包括溝通、沖突、矛盾、協(xié)調等.而實際上人力資源管理是企業(yè)正常運行的潤滑劑,良好的職能運作能使企業(yè)獲得最寶貴的東西:凝聚力和向心力,這種軟功能產生的結果要比那些硬的生產力產生的結果要好得多。在公司內部品牌建設中更多的可以通過人力資源管理提高員工的素質,建立員工的形象,使之成為遵守職業(yè)道德、社會公德的代表,這是企業(yè)內部品牌建設的過程,而人力資源管理是內部品牌建設的先鋒。1。3 傳統(tǒng)人力資源管理技術及其不足人力資源管理是適用性很強的一種管理,除了法律法規(guī)、制度保障和政策指導之外,是必須有一整套的管理技術和方法。

12、到目前為止人力資源管理應用的技術主要有以下四種,(1)、統(tǒng)計技術統(tǒng)計技術是指通過計算概率、總值、均差、方差等統(tǒng)計指標進行數(shù)據(jù)的比較分析。該技術適合于人力資源管理的多個方面,尤其是處理定量數(shù)據(jù)。統(tǒng)計技術的典型應用是薪酬管理部分。(2)、計算經濟學技術計算經濟學技術十一經濟理論為前提,利用數(shù)學、統(tǒng)計技術建設數(shù)學模型,從而發(fā)現(xiàn)變量之間的關系,在人力資源管理中的典型應用是建設人力資源需求模型.他可以根據(jù)企業(yè)一段時間內的產量X(或收入)和員工數(shù)Y建立一元回歸模型Y=a+bX,說明該企業(yè)產量的變化對人力資源需求的影響程度.當企業(yè)要求增加產量時,可以根據(jù)該模型進行預測,并作出決定。(3)、調查技術調查技術是

13、管理者根據(jù)一定的管理目的,通過一定的程序,對人力資源管理活動相關現(xiàn)象進行系統(tǒng)而科學的考察,為認識管理活動的規(guī)律性提供全面材料的方法.問卷調查是人力資源管理著經常采用的方法。在職務分析中也常采用該方法。其優(yōu)點是在于速度款、分析的樣本量大、內容涵蓋面寬。(4)、信息系統(tǒng)技術信息系統(tǒng)技術是指人力資源管理部門通過使用計算機信息系統(tǒng)進行數(shù)據(jù)和工過程的管理.除此之外,信息系統(tǒng)技術可以對人力資源的管理和決策提供支持,功能包括數(shù)據(jù)處理、事務處理和決策支持。計算機的應用是人力資源管理現(xiàn)代化的標志,是人類腦力勞動的重要助手,并幫助人們完成以前所不能按城的工作. 以上四種技術已經在實踐中得到應用并取得可良好的效果,

14、是目前人力資源管理者采用的主要技術。但是,它們讓然不能完全解決人力資源管理領域的現(xiàn)有問題,而這些問題是人力資源管理者不能回避切迫切需要解決的。首先,由于人的特性,人力資源管理的內容多為結構化數(shù)據(jù),而定量數(shù)據(jù)占很小比重。因此,人力資源管理者通常只進行定向分析,對于一些問題的原因不做解釋或者只是進行語言行的描述,沒有充分的數(shù)據(jù)支持。這種偏重于定性分析而忽略定量分析的工作,往往容易造成偏差甚至錯誤,更缺乏有說服力的證據(jù)來充分論證自己的工作內容和業(yè)績.其次,由于定量分析的缺乏,容易造成人力資源管理中主觀因素過多。例如,在對員工進行績效考核時,往往先有管理者確定評價內容和各自的權重,然后再根據(jù)更人的具體

15、情況進行打分或比較,最后得出結論。而權重的大小主要依據(jù)管理者的主觀認知標準。如果管理者人之全面客觀,則評價結果能夠真實地反映實際情況,否則,結果勢必存在一定的偏差??傊瑴p少人力資源管理中的主觀因素十分重要,否則容易降低人力資源管理工作的可喜程度。另外,在目前的人力資源管理理論中,如何高效的建設人力資源的具體模型還是一個空白。這主要由于人本身的復雜性、多樣性和易變性造成的。但是,一個具體的人力資源模型不僅僅可以直觀地反映人力資源狀況,還可以從中發(fā)現(xiàn)其他方法難以察覺的內容.因此,人力模型對管理工作具有指導作用,有待人們的研究。1。4 引進新的人力資源管理方法近年來,數(shù)據(jù)挖掘引起了信息產業(yè)界的極大

16、關注,其主要原因是存在大量數(shù)據(jù),可以廣泛應用,并且迫切需要將這些數(shù)據(jù)轉化成有用的信息和知識。獲得的信息和知識可以廣泛應用雨各種領域,包括商務管理、生產控制、市場分析、工程設計和科學探索等.數(shù)據(jù)挖掘一種比較公認的定義是從數(shù)據(jù)中獲取正確新穎、有潛在價值和最終可理解模式的非平凡的過程.人力資源的管理目標是人,是一個復雜的、一邊的對象,傳統(tǒng)的分析方法已不能滿足管理者的需求。數(shù)據(jù)挖掘在最近幾年剛剛出現(xiàn),它在挖掘已有數(shù)據(jù)中隱含的規(guī)律以及解決具體問題方面,是其他技術所不能比擬的?,F(xiàn)在在實際領域得到廣泛的應用,并且產生了良好的效益.此外數(shù)據(jù)挖掘技術的優(yōu)點:可以集成到具體的MIS系統(tǒng)之中,從而利用已有信息系統(tǒng)存

17、儲的數(shù)據(jù)進行挖掘計算;利用計算機應用程序,把高度復雜的統(tǒng)計技術、挖掘算法封裝起來,是人們不用掌握這些技術也能完成同樣的功能,從而專注于自己所要解決的問題。目前數(shù)據(jù)挖掘技術已經給商業(yè)界、公共服務行業(yè)等眾多行業(yè)帶來了驚人的利潤,同樣數(shù)據(jù)挖掘技術也可以為人力資源管理帶來其他現(xiàn)代管理手段所不能帶來的效益。二 . 數(shù)據(jù)挖掘2。1 數(shù)據(jù)挖掘理論數(shù)據(jù)挖掘是一種新興的信息處理技術,在信息的利用和提取中發(fā)揮著日益重要的作用.數(shù)據(jù)挖掘理論可以用下圖來解釋。活動采集數(shù)據(jù)處理決策應用信息知識現(xiàn)實中人類的社會和經濟活動,總可以用數(shù)據(jù)(數(shù)學或符號)來描述和記錄,經過對這些數(shù)據(jù)的分析,就會產生信息或知識,用這些信息、知識來

18、指導實踐,就可以作出相應的決策,這些決策又引發(fā)了新的一輪的社會和經濟活動。數(shù)據(jù)倉庫的建設和數(shù)據(jù)挖掘模型是數(shù)據(jù)挖掘價值鏈上的兩大技術要點.一般來說,數(shù)據(jù)挖掘有如下方法:描述統(tǒng)計、關聯(lián)和相關、分類和聚類、預測、優(yōu)化和結構方程模型。而最常用的分類方法有有三種技術:粗糙集、回歸、神經網絡.但又因為粗糙集方法比模糊集方法或神經網絡方法在得到的決策規(guī)則和推理過程方面更易于被正式和檢測,所以我們采用決策樹技術來分析人力資源管理.2.2決策樹方法 決策樹技術是用于分類和預測的主要技術,決策樹學習是以實例為基礎的歸納學習算法。它著眼于從一組無次序、無規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則。它采用自上而下的遞

19、推方式,在決策樹的內部節(jié)點進行屬性值的比較并根據(jù)不同屬性判斷從該節(jié)點向下的分支,然后進行剪枝,最后在決策樹的葉節(jié)點得到結論.所以從跟到葉節(jié)點就對應著一條合取規(guī)則,整棵樹就對應著一組析取表達式規(guī)則,基于決策誰的分類有很多實現(xiàn)算法,ID3算法是較早提出并普遍使用的決策樹算法.三 。基于數(shù)據(jù)挖掘的人力資源分析3。1ID3算法的決策屬性 ID3算法的關鍵在于如何選擇一個決策屬性形成決策樹的決策節(jié)點,并從當前節(jié)點生成決策分支.在進行屬性選擇過程中,通常希望所選取的屬性能夠在最大程度上反應訓練樣本數(shù)據(jù)集繁榮分類特征。在ID3算法中,決策節(jié)點屬性的選擇主要是運用了信息論中熵的概念來完成的。這種屬性選擇方法中

20、,選擇具有最大信息增益(或最大熵減方向)的決策屬性作為當前節(jié)點. 通過這種方式選擇的節(jié)點屬性可以保證決策樹具有最小的分枝數(shù)量,使得到的決策樹冗余最小.在ID3算法中,決策屬性信息增益的計算方法如下:設S是訓練樣本數(shù)據(jù)集,S中類別標示屬性有m個獨立的取值,也就是說,定義了m個類ci,i=1,2,m,Ri為數(shù)據(jù)集S中屬于ci類的子集,用ri表示子集Ri中元組的數(shù)量。集合S在分類中的期望信息量可以由以下公式給出:I(r1,r2,,rm)= pilog2(pi) (i=1,2,m)其中,pi是表示任意樣本屬于ci類的概率,pi=ri/S.S為訓練樣本數(shù)據(jù)集中的元組數(shù)量。假設屬性A的取值共有v個不同的取

21、值a1,a2,av,則通過屬性A的取值可將數(shù)據(jù)集S劃分為v個子集,其中,Sj表示在數(shù)據(jù)集S中屬性A的取值為aj的子集,j=1,2,,v.如果A被選擇為決策屬性,則這些子集將對應該節(jié)點的不同分枝。如果用sij表示Sj子集中屬性ci類的元組數(shù)量,則屬性A對于分類ci(i=1,2, ,m)的熵(或稱為屬性A對于分類ci的期望信息量)可由下面公式計算:E(A)=(s1j+smj)/|S|I(s1j, ,smj),(j=1,2,v) 令wj=(s1j+smj)/S|,則wj為Sj子集的權重,表示Sj子集在數(shù)據(jù)集S中的比重,而屬性A的每個取值隊分類cj的期望信息量I(s1j,,smj),可由下式給出:I(

22、s1j, ,smj)=-Pijllog2(pij),(i=1,2,,m)。式中,Pij=sij/Sj|,它表示在Sj子集中屬于cj類的比重。通過上述計算準備,可得到對屬性A作為決策分類屬性的度量值(稱為信息增益),由下式給出:Gain=I(r1,r2,rm)-E(A)該算法需要計算每個決策屬性的信息增益,具有最大信息增量的屬性被選擇作為給定數(shù)據(jù)集S的決策屬性節(jié)點,并通過該屬性的每一個取值建立由該節(jié)點引出的分枝.3.2  ID3算法示例例如某公司人事主管想了解該公司員工的基礎信息及薪金模塊中何為工資范圍的決策屬性,可以通過下列的過程來分析.為了便于分析,將基礎信息中的“年齡”及薪金模塊

23、中的“部門”,“職稱級別"作為決策屬性集,將薪金模塊中的“工資范圍"作為類別標示屬性,從而進行信息增益最大的決策屬性的判定.員工基本信息部門職稱級別年齡工資范圍銷售部高級314041k-55k C2銷售部初級21-3026k40k C3銷售部初級314026k40k C3運營部初級21-3041k-55k C2運營部高級314056K70K C1運營部初級21-3041k-55k C2運營部高級415056K70K C1生產部高級314041k55k C2生產部初級314041k55k C2行政部高級415026k40k C3行政部初級213026k40k C3圖1 

24、60;屬性列表集    通過圖1可以看出其中屬性“年齡”與“工資范圍”已經離散化,屬性“工資范圍”列中還給出了相應元組的類別歸屬.    根據(jù)示例中類別標示屬性的取值,將該示例分為三類(即m=3),分別是c1,2,c3。訓練樣本數(shù)據(jù)集S中,共有11個元組,其中c1,c2,c3類所對應的子集R1,R2,R3中元組的個數(shù)分別為r1=2,r2=5,r3=4.為了計算每一個決策屬性的信息增益,首先利用公式I(r1,r2,rm)= -pilog2(pi) (i=1,2,m)計算得到集合S關于分類的期望信息量:I(r1,r2,r3)=I(2,5,

25、4)=-2/11log2(2/11)5/11log2(5/11)-4/11log2(4/11)=1。495。對每一個決策屬性計算其期望信息量(即熵值)。    對屬性“部門”有:    當部門=“銷售部"時,s11=0,s21=1,s31=2,I(s11,s21,s31)=0。918    當部門=“運營部"時,s12=2,s22=2,s32=0,I(s12,s22,s32)=1    當部門=“生產部"時,s13=0,s23=2,s33=0,I

26、(s13,s23,s33)=0    當部門=“行政部”時,s14=0,s24=1,s34=2,I(s14,s24,s34)=0    由此得出屬性“部門”的熵值:    E(部門)=3/11I(s11,s21,s31)+4/11I(s21,s22,s32)+2/11I(s13,s23,s33)+2/11I(s14,s24,s34)=0。614    因此,屬性“部門"的信息增益為:    Gain(部門)=I(r1,r2,r3)-E(

27、部門)=0。881    同理,可以分別得到屬性“職稱級別”及“年齡”的信息增益:    Gain(職稱級別)=0。243    Gain(年齡)=0。326圖2  決策樹生成    由于屬性“部門"具有最大信息增益值,故選擇該屬性作為決策樹的根節(jié)點.對應每一個分枝,重復上述步驟,例如,對于分枝“屬性部門=銷售部"來說,可以生成圖3給出的子集,對該子集可重復上述屬性選擇操作.依次對其它分枝進行相同操作,可得到一個完整的決策樹,參見圖2。之后,就可

28、以對該決策樹進行剪枝操作。 職位年齡工資銷售部高級314041k55k C2銷售部初級21-3026k40k C3銷售部初級314026k40k C3圖3  決策屬性為“部門”的子集3。3  決策樹的剪枝    在決策樹生成后,決策樹中的許多分枝可能會反映樣本訓練集中存在的噪聲等異常現(xiàn)象,為提高所提取的規(guī)則的可靠性,需要對生成的決策樹進行進一步的處理,這一過程稱為剪枝。樹的剪枝算法主要是針對訓練樣本數(shù)據(jù)集中不適合的數(shù)據(jù)進行的處理。在通常情況下,樹的剪枝可以分為先剪枝和后剪枝兩種方法。先剪枝是指在建樹的過程中終止樹的建立以達到對樹進行剪

29、枝的目的。在這里,終止只是將該節(jié)點變成葉子節(jié)點,該節(jié)點可能包含訓練子集中經常出現(xiàn)的類或這些樣本的可能分布.采用先剪枝對決策樹進行修剪的過程中,通常采用統(tǒng)計顯著性,x²及信息增益等方式來評估樹的分枝的好壞。如果在某個節(jié)點的分枝將會導致其結果低于預先設置好的閾值時,將終止給定子集的進一步劃分.在先剪枝中,選擇合適的閾值是個關鍵問題,同時,也是該處理過程中的一個難點。閾值過高會導致過于簡單的決策樹,而閾值過低又會導致決策樹過細。后剪枝是在決策樹建立之后,對形成的決策樹的分枝進行清理的過程。代價復雜度剪枝算法是典型的后剪枝算法的例子。在代價復雜度剪枝算法中,需要計算生成的決策樹中每個非葉子節(jié)點被剪除后可能產生的期望出錯率,同時,計算保留對應分枝所可能產生的期望出錯率。如果剪除該節(jié)點會產生較大的誤差,該節(jié)點應被保留;否則,該節(jié)點將被剪

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論