技術(shù)報(bào)告基于k-means和關(guān)聯(lián)度分析的網(wǎng)絡(luò)招聘信息數(shù)據(jù)挖掘_第1頁
技術(shù)報(bào)告基于k-means和關(guān)聯(lián)度分析的網(wǎng)絡(luò)招聘信息數(shù)據(jù)挖掘_第2頁
技術(shù)報(bào)告基于k-means和關(guān)聯(lián)度分析的網(wǎng)絡(luò)招聘信息數(shù)據(jù)挖掘_第3頁
技術(shù)報(bào)告基于k-means和關(guān)聯(lián)度分析的網(wǎng)絡(luò)招聘信息數(shù)據(jù)挖掘_第4頁
技術(shù)報(bào)告基于k-means和關(guān)聯(lián)度分析的網(wǎng)絡(luò)招聘信息數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、計(jì)劃類別 項(xiàng)目編號(hào) 項(xiàng)目技術(shù)報(bào)告課題名稱 項(xiàng)目主持人 承擔(dān)單位 題目:基于kmeans和關(guān)聯(lián)度分析的網(wǎng)絡(luò)招聘信息數(shù)據(jù)挖掘本文基于K-means算法對(duì)網(wǎng)絡(luò)招聘數(shù)據(jù)進(jìn)行聚類分析,并運(yùn)用關(guān)聯(lián)規(guī)則對(duì)大數(shù)據(jù)和IT行業(yè)進(jìn)行關(guān)聯(lián)預(yù)測(cè)。從分析結(jié)果可知,學(xué)歷和經(jīng)驗(yàn)直接影響薪資水平,且金融銀行職業(yè)類型的平均薪資水平在所得分類中最高,同時(shí)也得到大數(shù)據(jù)和IT行業(yè)對(duì)學(xué)歷要求較高,其占總體職業(yè)類型比例有增加趨勢(shì)。關(guān)鍵詞:網(wǎng)絡(luò)招聘;數(shù)據(jù)挖掘;聚類算法;關(guān)聯(lián)度分析3.4 聚類分析在完成文本信息向量化處理后,使用統(tǒng)計(jì)分析軟件SAS中IML模塊進(jìn)行矩陣化運(yùn)算5,通過對(duì)K-means聚類算法的研究和應(yīng)用6,7,得到關(guān)于職業(yè)類型的聚

2、類結(jié)果,我們對(duì)經(jīng)過聚類分析的數(shù)據(jù)進(jìn)行挖掘,便可以得到網(wǎng)絡(luò)招聘信息中關(guān)于職業(yè)類型、薪資、地域、學(xué)歷和工作經(jīng)驗(yàn)的知識(shí)模式。4 結(jié)果分析和預(yù)測(cè)(Interpretation of result andprediction)4.1 對(duì)整體數(shù)據(jù)進(jìn)行分析和挖掘(1)通過北上廣職業(yè)分布和大長(zhǎng)福職業(yè)分布詞云圖(圖1和圖2)對(duì)比可以得出:相同點(diǎn):銷售行業(yè)在兩類城市占比最高,依此可以推斷出在全國(guó)范圍內(nèi),銷售行業(yè)仍然占據(jù)主流招聘人群。不同點(diǎn):一線城市中除銷售相關(guān)職業(yè)外,“PHP”“.NET”“JAVA”“UI設(shè)計(jì)師”“iOS”“C+”等詞出現(xiàn)頻數(shù)較大,直接說明了大數(shù)據(jù)和IT相關(guān)職業(yè)在一線城市的興起和熱門,而二線城市

3、各個(gè)行業(yè)需求較銷售都比較小,借此推斷高端技術(shù)的需求量和城市類型有一定關(guān)系。(2)對(duì)比兩類城市的學(xué)歷、經(jīng)驗(yàn)分別與平均薪資的分布圖(圖3和圖4)可以看出,無論是哪類城市,隨著學(xué)歷的提高,薪資水平提高明顯;隨著工作經(jīng)驗(yàn)的豐富,薪資水平同樣提高明顯。所以我們有理由得出:工作經(jīng)驗(yàn)和學(xué)歷都與薪資水平呈正相關(guān)系,即隨著學(xué)歷的提高和經(jīng)驗(yàn)的豐富,薪資水平提高明顯。(3)通過聚類結(jié)果,得到關(guān)于職業(yè)類型和對(duì)應(yīng)的平均薪資待遇的表格(表1)。通過對(duì)上述平均薪資狀況的對(duì)比得知:金融銀行業(yè)相應(yīng)職位平均薪資最高,其次是要求專業(yè)技術(shù)較高的互聯(lián)網(wǎng)通訊行業(yè)平均薪資條件優(yōu)秀,其余產(chǎn)業(yè)薪資水平接近,但是鑒于職位供應(yīng)地區(qū)是一二線城市。所

4、以數(shù)據(jù)顯示薪資水平與實(shí)際相比較為合理。4.2 大數(shù)據(jù)和IT行業(yè)的預(yù)測(cè)鑒于近年來大數(shù)據(jù)和IT行業(yè)的崛起,高精尖產(chǎn)業(yè)和職業(yè)的興起已經(jīng)成為了當(dāng)今社會(huì)的主流走向,所以對(duì)這類行業(yè)進(jìn)行分析更有價(jià)值。(1)通過對(duì)這類專業(yè)招聘信息和總體招聘信息對(duì)比,得出大數(shù)據(jù)相關(guān)職業(yè)所占百分比條形圖(圖5)。通過對(duì)圖表信息的解讀,我們可以得到三點(diǎn)結(jié)論:大數(shù)據(jù)相關(guān)職業(yè)招聘比例在2016年9月開始快速增長(zhǎng),到2017年2月開始放緩增長(zhǎng)速度,但是仍然以一種放緩的趨勢(shì)增長(zhǎng)。根據(jù)上圖所示,大數(shù)據(jù)相關(guān)職業(yè)招聘比例最大的三個(gè)月份是2016年8月、2017年3月和2017年4月,結(jié)合實(shí)際分析,可以得出每年的這兩個(gè)季度是大學(xué)生畢業(yè)求職的高峰期

5、,也是傳統(tǒng)意義上的秋招和春招,側(cè)面說明了大數(shù)據(jù)行業(yè)對(duì)于學(xué)歷要求和能力要求較高。所以集中大學(xué)生畢業(yè)求職期間發(fā)布招聘信息。對(duì)比2016年8月和2017年4月數(shù)據(jù)可以得出,大數(shù)據(jù)行業(yè)正在逐漸增長(zhǎng)所占比重。因此可以認(rèn)為短期內(nèi),大數(shù)據(jù)相關(guān)行業(yè)所占比重在未來短期內(nèi)會(huì)持續(xù)上升。(2)我們針對(duì)從整體數(shù)據(jù)中篩選出的大數(shù)據(jù)和IT行業(yè)的招聘信息數(shù)據(jù)的分析,得到關(guān)于大數(shù)據(jù)和IT行業(yè)的學(xué)歷與經(jīng)驗(yàn)要求柱形圖(圖6和圖7),從圖像中我們可以得到如下結(jié)論:根據(jù)圖6得出,大數(shù)據(jù)和IT行業(yè)需求學(xué)歷更高,半數(shù)以上的最低學(xué)歷要求是本科,??萍耙陨蠈W(xué)歷占據(jù)絕大部分比例。說明這個(gè)行業(yè)對(duì)人才的要求更高,所以相對(duì)應(yīng)聘者來說除專業(yè)適合以外,學(xué)

6、歷要求門檻也較高。根據(jù)圖像可以看出,經(jīng)驗(yàn)要求大部分集中于經(jīng)驗(yàn)三年以下和不限經(jīng)驗(yàn)。參考社會(huì)大背景下,大數(shù)據(jù)和IT行業(yè)較傳統(tǒng)工商業(yè)起步晚,說明現(xiàn)有供給量已經(jīng)無法滿足日益增長(zhǎng)的需求量,基于此原因出現(xiàn)了經(jīng)驗(yàn)要求低的現(xiàn)狀。結(jié)合以上兩點(diǎn),我們大膽預(yù)測(cè)市場(chǎng)急需關(guān)于大數(shù)據(jù)和IT行業(yè)的人才,正處于求大于供的階段,而且學(xué)歷越高、經(jīng)驗(yàn)越多的人才薪資待遇越好。(3)通過對(duì)編碼后各指標(biāo)之間的關(guān)聯(lián)規(guī)則進(jìn)行挖掘,結(jié)果顯示圖如圖8所示。其中編碼對(duì)應(yīng)文本信息為:c1=北京;c2=上海;c3=廣州;c4=大連;c5=長(zhǎng)沙;c6=福州。s1=0-5k;s2=5-10k;s3=10-15k;s4=15-20k;s5=20-25k;s

7、6=25-30k;s7=30k以上。e1=高中以下;e2=大專以下;e3=大專;e4=本科;e5=碩士;e6=不限;e7=其他。w1=一年以下;w2=1-3年;w3=4-5年;w4=5年以上;w5=其他。通過圖8的結(jié)果表示,在所有的大數(shù)據(jù)和IT相關(guān)職位中,存在的關(guān)聯(lián)規(guī)則如下:(1)如果一個(gè)企業(yè)在長(zhǎng)沙,且要求學(xué)歷是大專,工作經(jīng)驗(yàn)一年以下,那么這家企業(yè)95.54%的概率提供平均薪資為05k。(2)如果一個(gè)在北京的企業(yè)提供平均薪資為20k25k,且要求工作經(jīng)驗(yàn)是45年的人才,則有85.7%的概率需要最低學(xué)歷為本科。5 結(jié)論(Conclusion)數(shù)據(jù)挖掘是一項(xiàng)綜合技術(shù),熟悉運(yùn)用數(shù)據(jù)挖掘技術(shù)可以得到許

8、多有價(jià)值的信息,通過對(duì)網(wǎng)絡(luò)招聘信息的分析與挖掘可以得到學(xué)歷和經(jīng)驗(yàn)直接影響薪資水平,各類型職業(yè)的平均薪資狀況,而且有針對(duì)性的對(duì)大數(shù)據(jù)和IT行業(yè)的行業(yè)現(xiàn)狀分析,得出了相關(guān)行業(yè)有較大缺口,正處于求大于供的階段。通過對(duì)大數(shù)據(jù)和IT相關(guān)信息的挖掘,得出在置信度很高的關(guān)聯(lián)規(guī)則下的解讀信息。本文針對(duì)大數(shù)據(jù)和IT行業(yè)著重進(jìn)行分析和挖掘,并沒有得到所有職業(yè)類型數(shù)據(jù)信息,這是本文存在的不足之處,同樣也是我們下一步的研究方向。 參考文獻(xiàn)(References)1 趙鵬.企業(yè)網(wǎng)絡(luò)招聘的現(xiàn)狀與對(duì)策研究J.人力資源,2016,11:145.2 Benites,et al.Evaluation of Hierarchica

9、l Interestingness Measures for Mining Pairwise Generalized Association RulesJ.IEEE TRANSACTIONSON KNOWLEDGE AND DATA ENGINEERING,2014,26(12):3014-3015.3 Erkens,et al.Improving collaborative learning in the classroom:Text mining based grouping and representingJ.International Journal of Computer Suppo

10、rted Collaborative learning,2016,11(4):389-391.4 田瑞.針對(duì)特定主題的短文本向量化J.軟件,2012,33(11):202-203.5 張曉冉.統(tǒng)計(jì)分析及其SAS實(shí)現(xiàn)M.北京:清華大學(xué)出版社,2011.6 Chen,et al.Discriminative Hierarchical K-Means Tree for Large-Scale Image ClassificationJ.IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS,2015,26(9):2200-2202.7 Liu,X

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論