基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)信息挖掘技術(shù)研究_第1頁
基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)信息挖掘技術(shù)研究_第2頁
基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)信息挖掘技術(shù)研究_第3頁
基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)信息挖掘技術(shù)研究_第4頁
基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)信息挖掘技術(shù)研究_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)信息挖掘技術(shù)研究

一、采用數(shù)據(jù)挖掘技術(shù)來處理電子檔案的篩選過程中隨著計算機和網(wǎng)絡(luò)的快速發(fā)展和普及,網(wǎng)絡(luò)招聘已成為雇主招聘人才的重要方式。招聘人員越來越多地使用計算機和信息技術(shù)來支持個人人力資源管理系統(tǒng)來處理電子招聘的評估和過濾,這提高了整個人力資源管理體系的效率。數(shù)據(jù)挖掘技術(shù),是解決這一問題的較好方法。本文將數(shù)據(jù)挖掘技術(shù)運用于網(wǎng)絡(luò)電子簡歷的篩選,并比較了決策樹與神經(jīng)網(wǎng)絡(luò)兩種算法的優(yōu)劣。二、網(wǎng)絡(luò)簡歷樣本的獲取和預(yù)處理1.企業(yè)員工招聘工作本文從某人才招聘網(wǎng)站數(shù)據(jù)庫獲得簡歷數(shù)據(jù),選取十個熱門的崗位(會計、銷售工程師、衛(wèi)生醫(yī)療、紡織服裝設(shè)計、司機、建筑/結(jié)構(gòu)工程師管理人員、美術(shù)/圖形設(shè)計、市場經(jīng)理、行政/人事人員),每個崗位中抽取50個招聘職位,每個職位抽取20份簡歷信息,每一份簡歷及其相應(yīng)的招聘職位要求構(gòu)成一個樣本。其中10份為企業(yè)通過招聘網(wǎng)站發(fā)出面試通知的簡歷(簡稱A類樣本),另外10份為沒有被企業(yè)通知面試的簡歷(簡稱B類樣本)。2.基本分類結(jié)果考慮到本研究的挖掘目的,本文選取了以下幾個應(yīng)聘者的屬性與招聘公司的需求進行匹配,在對數(shù)據(jù)進行處理后,再應(yīng)用到數(shù)據(jù)挖掘工作中。所選擇的屬性都需要將招聘企業(yè)的要求和應(yīng)聘者的信息相匹配,再進行數(shù)據(jù)的處理。選擇的輸入屬性是:性別、年齡、籍貫、學(xué)歷、婚姻狀況、工作年限、政治面貌、畢業(yè)院校、計算機水平、專業(yè)、工作經(jīng)驗,輸出屬性是:是否被接受面試。由于原始數(shù)據(jù)庫中的數(shù)據(jù)存在著各種各樣現(xiàn)實中不可避免的缺陷,下面將根據(jù)所選擇的屬性分別詳述對簡歷數(shù)據(jù)所進行的預(yù)處理。(1)性別(R_Sex):不需要復(fù)雜的處理。(2)年齡(R_Age):本文將應(yīng)聘者劃分為三個年齡段:a.小于或等于三十歲;b.三十到五十歲;c.五十歲以上,修改后的數(shù)據(jù)變?yōu)椤?lt;=30”、“30-50”和“>=50”。(3)婚姻狀況(R_Married):婚姻狀況僅僅分為已婚和單身,因此將數(shù)據(jù)修改前的FALSE改為單身,TRUE改為已婚。(4)籍貫(R_Place):本文在預(yù)處理中,將籍貫與招聘單位所在省份一致的應(yīng)聘者籍貫取1,其余的為0。(5)工作年限(R_WorkYear):本文將應(yīng)聘者按照工作年限的長短來劃分,修改后數(shù)據(jù)分別變?yōu)椤?lt;=5”、“5-10”和“>=10”。(6)學(xué)歷(R_Education):大致分為博士后、博士、碩士、本科、大專、高中/中專六類,通過觀察發(fā)現(xiàn)這一屬性中存在一些空缺值,因此對這一屬性的處理僅僅是把空缺值清除。(7)政治面貌(R_Political):本文將是黨員的不做修改,將其他表述一概改為其他。(8)畢業(yè)院校(R_School):本文將應(yīng)聘者的學(xué)校分為五類,并收集了大學(xué)的排名和院校名稱,211重點大學(xué)取為1,一般重點大學(xué)為2,一般本科院校為3,其他??坪兔褶k院校為4,海外大學(xué)為0。(9)專業(yè)(R_Specialty):本文將企業(yè)對專業(yè)的要求提取出來與應(yīng)聘者簡歷中的信息做對比,若兩者專業(yè)相符合則改為符合,否則改為不符合。(10)計算機水平(R_ComputerGrade):本研究將初級程序員用等級1代替,中級用2,高級用3,其余的為0。(11)工作經(jīng)驗(R_Experience):本文提取了招聘者要求中的一些關(guān)鍵字眼與應(yīng)聘者簡歷中的描述來做對比,將應(yīng)聘者的經(jīng)驗劃分為三類:有相關(guān)經(jīng)驗、有實習(xí)經(jīng)驗、無相關(guān)經(jīng)驗。(12)接受(Accept):接受與否屬性是數(shù)據(jù)挖掘中唯一的輸出屬性,A類樣本取作為接受,B類樣本取為拒絕。三、過濾函數(shù)本文主要選取了C5.0決策樹算法和神經(jīng)網(wǎng)絡(luò)算法在數(shù)據(jù)挖掘軟件Clementine中對預(yù)處理后的簡歷樣本數(shù)據(jù)進行分類挖掘。1.公民的不準確性見表1,2.構(gòu)造決策樹的目的是找出屬性和類別間的關(guān)系,用它來預(yù)測將來未知記錄的類別。本文分別抽取了幾個崗位中的部分預(yù)處理后的數(shù)據(jù)作為數(shù)據(jù)挖掘的數(shù)據(jù)測試集,為決策樹算法在招聘簡歷中的數(shù)據(jù)挖掘應(yīng)用做進一步的驗證和解釋。首先在Clementine中建立Excel來源節(jié)點,導(dǎo)入數(shù)據(jù),對其進行讀取和處理,使其符合Clernentine中的挖掘要求,將數(shù)值類型改為讀取,在方向列確定輸入輸出屬性。C5.0算法能產(chǎn)生決策樹或規(guī)則集,并且在決策樹的產(chǎn)生過程中它能自動根據(jù)最大信息增益進行樣本拆分,一直到樣本子集不能再拆分為止。因此本文選擇C5.0算法來產(chǎn)生規(guī)則集,C5.0能支持基于準確性的規(guī)則和基于普遍性的規(guī)則,基于普遍性的規(guī)則會考慮盡可能大的樣本量,而基于準確性的規(guī)則則更傾向于規(guī)則的準確率。如對財務(wù)管理職位進行挖掘,可得到如下分類規(guī)則:(1)基于準確性的十二個拒絕規(guī)則:規(guī)則一:如果Sex=女;并且Education=本科;且School=3;且ComputerGrade<=1;且Experience=無相關(guān)經(jīng)驗;則拒絕。樣本數(shù):19,準確性:95.2%。規(guī)則二:若Sex=男;且WorkYear<=5;且Political=黨員;并且School>2;且Experience=無相關(guān)經(jīng)驗;則拒絕。樣本數(shù):16,準確性:88.9%。規(guī)則三:如果Education=高中/中專;并且CompurerGrade<=1;則拒絕。樣本數(shù):45,準確性:87.2%。規(guī)則四:如果Sex=男;且WorkYear<=5;且Education=本科;并且School>2;并且ComputerGrade<=2;并且Experience=無相關(guān)經(jīng)驗;則拒絕。樣本數(shù):13,準確性:86.7%。規(guī)則五:如果Education=高中/中專;并且Specialty=不符合;則拒絕。樣本數(shù):27,準確性:86.2%。規(guī)則六:如果School<=2;并且Specialty=不符合;并且Experience=無相關(guān)經(jīng)驗;則拒絕。樣本數(shù):16,準確性:83.3%。規(guī)則七:如果Education=大專;并且Specialty=不符合;并且ComputerGrade>1;則拒絕。樣本數(shù):45,準確性:83%。規(guī)則八:如果Education=高中/中專;并且Experience=無相關(guān)經(jīng)驗;則拒絕。樣本數(shù):63,準確性:80%。規(guī)則九:若Sex=女;并且Age<=30;并且Place=不符合;并且School=3;并且ComputerGrade<=2;并且Experience=無相關(guān)經(jīng)驗;則拒絕。樣本數(shù):35,準確性:75.7%。規(guī)則十:如果Education=初中;則拒絕。樣本數(shù):12,準確性:75%。規(guī)則十一:如果Education=大專;并且School>2;并且Experience=無相關(guān)經(jīng)驗;則拒絕。樣本數(shù):35,準確性:75.7%。樣本數(shù):212,準確性:70.6%。規(guī)則十二:如果Place=符合;并且Education=大專;并且School>3;并且ComputerGrader>1;則拒絕。樣本數(shù):68,準確性:68.6%。(2)基于準確性的四個接受規(guī)則規(guī)則一:如果Married=單身;并且WorkYear=5-10;并且Education=本科;則接受。樣本數(shù):8,準確性:90%。規(guī)則二:如果School<=3;并且Experience=有相關(guān)經(jīng)驗;則接受。樣本數(shù):112,準確性:76.3%。規(guī)則三:如果Education=大專;并且School>3;并且Computergrade=1;并且Experience=有相關(guān)經(jīng)驗;則接受。樣本數(shù):56,準確性:72.4%。規(guī)則四:如果Specialty=符合;則接受。樣本數(shù):566,準確性:50.2%。(3)基于普遍性的兩個接受規(guī)則規(guī)則一:如果R_School<=2;并且R_Speciality=符合;則接受。樣本數(shù):69,準確性:80.3%。規(guī)則二:如果Experience=有相關(guān)經(jīng)驗;則接受。樣本數(shù):270,準確性:62.5%。(4)基于普遍性的四個拒絕規(guī)則規(guī)則一:如果R_School<=2;并且R_Speciality=不符合;并且Experience=無相關(guān)經(jīng)驗;則拒絕。樣本數(shù):16,準確性:83.3%。規(guī)則二:如果Education=高中/中專;則拒絕。樣本數(shù):103,準確性:74.3%。規(guī)則三:如果R_School>2;并且Experience=無相關(guān)經(jīng)驗;則拒絕。樣本數(shù):372,準確性:69.5%。規(guī)則四:如果R_Political=其他;并且R_School>3;并且ComputerGrade>1;則拒絕。樣本數(shù):201,準確性:64.7%。2.模型選擇和網(wǎng)絡(luò)選擇相對于決策樹來說,神經(jīng)網(wǎng)絡(luò)算法需要更多的時間,而且對結(jié)果的解釋也相對較困難,而且神經(jīng)網(wǎng)絡(luò)模型只包含一組權(quán)值,了解其中的關(guān)系和為什么有效也比較困難。將數(shù)據(jù)導(dǎo)入Clementine中并與神經(jīng)網(wǎng)絡(luò)模型相連接,其方法與決策樹算法中一樣??紤]到時間和準確性的關(guān)系,本文選擇了修剪方法。另外,為了預(yù)防訓(xùn)練過度,本文選擇了樣本的50%至60%進行訓(xùn)練。本文希望數(shù)據(jù)訓(xùn)練的準確性盡量高一些,因此,在模型選擇中選擇使用最佳網(wǎng)絡(luò)。節(jié)點訓(xùn)練結(jié)束后將會產(chǎn)生一個神經(jīng)網(wǎng)絡(luò)模型。神經(jīng)網(wǎng)絡(luò)算法挖掘的準確性在84%左右。3.算法查準率:f分類算法的分類質(zhì)量一般可以用查全率和查準率來評價。查準率與查全率反應(yīng)了分類質(zhì)量的兩個不同方面,須綜合考慮,通??捎肍1測試值來描述:決策樹算法和神經(jīng)網(wǎng)絡(luò)算法分別對A、B類樣本中部分數(shù)據(jù)集1、2的挖掘情況比較如下所示:測試樣本數(shù):356,訓(xùn)練樣本數(shù):713,查準率:79.8%,查全率:75.1%,F1測試值:0.77,用時:1秒。神經(jīng)網(wǎng)絡(luò)算法測試樣本數(shù):428,訓(xùn)練樣本數(shù):713,查準率:83.95%,查全率:80.59%,F1測試值:0.82,用時:5分9秒。測試樣本數(shù):500,訓(xùn)練樣本數(shù):1000,查準率:81.02%,查全率:79.2%,F1測試值:0.80,用時:1秒。神經(jīng)網(wǎng)絡(luò)算法測試樣本數(shù):600,訓(xùn)練樣本數(shù):1000,查準率:84.56%,查全率:82.34%,F1測試值:0.83,用時:1分33秒。從上文中我們可以知道,決策樹算法的原理相對容易為人力資源管理者所理解,也能夠得到比神經(jīng)網(wǎng)絡(luò)算法更加直觀易懂的分類規(guī)則。決策樹算法計算速度較快,用時較少,神經(jīng)網(wǎng)絡(luò)算法花費時間較長。但神經(jīng)網(wǎng)絡(luò)算法比決策樹算法有更高的整體查準率和查全率,同時F1測試值反映出來的分類質(zhì)量的二者比較中可見,神經(jīng)網(wǎng)絡(luò)算法比決策樹算法分類質(zhì)量要高一些。四、算法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論