




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)智化人力資源管理主編徐明霞
唐玉潔數(shù)據(jù)挖掘第六章第二篇方法篇1.了解數(shù)據(jù)挖掘的內(nèi)涵、任務(wù)和基本流程2.理解機器學(xué)習(xí)的內(nèi)涵和數(shù)據(jù)建模流程3.理解數(shù)據(jù)挖掘的算法4.了解數(shù)據(jù)挖掘工具及應(yīng)用學(xué)習(xí)目標知識結(jié)構(gòu)圖引導(dǎo)案例沃爾瑪:通過改善搜索引擎提高15%的銷售額創(chuàng)建于1962年的沃爾瑪超市是全球最大的連鎖超市,它在27個國家擁有超過一萬個門店,員工總數(shù)220余萬,每周接待2億人次的顧客。這樣一個雄踞全球零售業(yè)榜首的龐然大物,也有自己難以言明的煩惱。2015年年初,分析師預(yù)言阿里巴巴將很快取代沃爾瑪,成為全球最大的零售企業(yè)。來自中國的威脅固然不可輕視,但美國亞馬遜網(wǎng)站則讓沃爾瑪產(chǎn)生更大的危機感。電商網(wǎng)站能夠給消費者提供價格低廉、種類豐富的產(chǎn)品,沃爾瑪企業(yè)所創(chuàng)辦的沃爾瑪網(wǎng)站固然也有不錯的收益,但隨著線上零售占據(jù)越來越多的零售市場份額,沃爾瑪在沃爾瑪網(wǎng)站上投入了越來越多的精力。沃爾瑪一直秉承“幫顧客省每一分錢”的宗旨,并在進貨渠道、分銷方式,以及營銷費用、行政開支等各方面節(jié)省資金。物美價廉一直是沃爾瑪?shù)囊淮髢?yōu)勢,但不幸的是,亞馬遜平臺在這一方面并不遜色于沃爾瑪。因此,為了反超亞馬遜平臺,沃爾瑪勢必要在用戶體驗方面做出突破。零售業(yè)的用戶體驗法則大多都是關(guān)于貨品擺放規(guī)則的,將牛奶和面包擺在一起,將口香糖擺到收銀臺附近等都是經(jīng)典的貨物擺放規(guī)則,合理的擺放方式能夠替顧客節(jié)省搜尋貨物的時間,提高顧客的用戶體驗。這種規(guī)則同樣適用于電子商務(wù)網(wǎng)站,如果在顧客搜索產(chǎn)品時,能迅速將顧客想要的商品展示出來,用戶體驗想必會大大提高。
沃爾瑪希望通過改善搜索引擎提高15%的銷售額,這意味著搜索引擎必須有質(zhì)的飛躍才能達成這一高遠的目標。沃爾瑪采用的北極星搜索引擎主要模仿了Kosmix的語義搜索技術(shù)和語義分析技術(shù),前者從用戶在社交平臺上發(fā)出的推特及和其他用戶之間的互動行為中挖掘用戶的購物傾向,后者則度量產(chǎn)品之間的相關(guān)度和相似度,包括產(chǎn)品、人物、事件之間的關(guān)聯(lián)。以上兩種技術(shù)使北極星搜索引擎能夠為顧客提供更精準的產(chǎn)品鏈接,此外北極星在確定產(chǎn)品排名時還引入了顧客的搜索記錄。這種解析關(guān)鍵詞和挖掘同義詞的搜索方法可以給顧客提供更合理的產(chǎn)品,從而提升用戶體驗。第一節(jié)數(shù)據(jù)挖掘概述第二節(jié)機器學(xué)習(xí)基礎(chǔ)第三節(jié)數(shù)據(jù)挖掘算法目錄第四節(jié)數(shù)據(jù)挖掘工具第一節(jié)數(shù)據(jù)挖掘概述第六章第二篇方法篇一、數(shù)據(jù)挖掘的解讀數(shù)據(jù)挖掘是伴隨大數(shù)據(jù)時代崛起的一門新興學(xué)科。數(shù)據(jù)挖掘和統(tǒng)計學(xué)有著共同的目標:發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)。數(shù)據(jù)挖掘利用了如下領(lǐng)域的思想:來自統(tǒng)計學(xué)的抽樣、估計和假設(shè)檢驗;(2)人工智能、模式識別和機器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。IT行業(yè)內(nèi)普遍接受的數(shù)據(jù)挖掘的定義是:數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際數(shù)據(jù)中,提取隱含在其中的、人們不知道的、但又是潛在有用的信息和知識的過程。二、數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘的兩個目標是預(yù)測和描述。前者指用一些變量或數(shù)據(jù)庫的若干已知字段預(yù)測其他感興趣的變量的未知值;后者指找到描述數(shù)據(jù)的可理解模式。根據(jù)發(fā)現(xiàn)知識的不同,我們可以將數(shù)據(jù)挖掘任務(wù)歸納為以下幾類。(1)特征規(guī)則(2)區(qū)分規(guī)則(3)分類(4)關(guān)聯(lián)性(5)聚類(6)預(yù)測(7)變化和偏差分析三、數(shù)據(jù)挖掘的基本流程數(shù)據(jù)挖掘的基本流程大致分為三個階段:第一,準備階段首先數(shù)據(jù)中篩選需分析的數(shù)據(jù);其次對數(shù)據(jù)進行處理,最后是數(shù)據(jù)交。第二,挖掘階段數(shù)據(jù)挖掘之前必須提前制訂規(guī)劃,確定數(shù)據(jù)挖掘、數(shù)據(jù)分類等工作的主要方式,同時明確所使用的算法等。第三,數(shù)據(jù)分析階段數(shù)據(jù)分析就是根據(jù)用戶的需求,將所挖掘出的數(shù)據(jù)進行解析和表達,獲取具有利用價值的數(shù)據(jù)。(1)集群化管理人力資源(2)分析員工能力(3)人力資源合理配置(4)分析跳槽概率(5)應(yīng)用于績效考核(6)設(shè)計員工薪酬一是,實時性數(shù)據(jù)。二是,動態(tài)性數(shù)據(jù)。三是,整合性數(shù)據(jù)。四、人力資源數(shù)據(jù)挖掘內(nèi)容與方法人力資源管理中后,其主要挖掘內(nèi)容可以分為三類:人力資源數(shù)據(jù)挖掘技術(shù)應(yīng)用方法:第二節(jié)機器學(xué)習(xí)基礎(chǔ)第六章第二篇方法篇一、數(shù)據(jù)挖掘與機器學(xué)習(xí)機器學(xué)習(xí),引用卡內(nèi)基梅隆大學(xué)機器學(xué)習(xí)研究領(lǐng)域的著名教授TomMitchell的經(jīng)典定義:如果一個程序在使用既有的經(jīng)驗E(Experience)來執(zhí)行某類任務(wù)T(Task)的過程中被認為是“具備學(xué)習(xí)能力的”,那么它一定要展現(xiàn)出:利用現(xiàn)有的經(jīng)驗E,不斷改善其完成既定任務(wù)T的性能(Performance)的特質(zhì)。二、數(shù)據(jù)建模1.什么是數(shù)據(jù)建模2.數(shù)據(jù)模型的分類3.數(shù)據(jù)模型的構(gòu)建全流程(1)數(shù)據(jù)模型,就是在數(shù)據(jù)層面建立起來的一種邏輯關(guān)系的算法集合,該算法集合可以運算未來的同源數(shù)據(jù),并產(chǎn)生可預(yù)期的結(jié)果。(2)數(shù)據(jù)建模是數(shù)據(jù)分析的一部分,數(shù)據(jù)分析是一個數(shù)據(jù)收集、數(shù)據(jù)檢驗清洗、數(shù)據(jù)重構(gòu)、數(shù)據(jù)建模的過程,其目的是發(fā)現(xiàn)數(shù)據(jù)中潛在的信息,得出有建設(shè)性的結(jié)論,輔助決策。(3)數(shù)據(jù)建模,這里指的是業(yè)務(wù)模型和算法模型的構(gòu)建,更多的是算法模型的一個過程,不是指數(shù)據(jù)倉庫相關(guān)的模型構(gòu)建。二、數(shù)據(jù)建模1.什么是數(shù)據(jù)建模2.數(shù)據(jù)模型的分類3.數(shù)據(jù)模型的構(gòu)建全流程(1)業(yè)務(wù)模型(2)算法模型通過分析方法,如對比分析法、RFM分析法、AARRR分析法,從業(yè)務(wù)維度和指標出發(fā),確定模型的分類維度和指標閾值,構(gòu)建業(yè)務(wù)規(guī)則的指標體系,形成業(yè)務(wù)模型,如RFM分析模型、AARRR分析模型、5W2H分析模型等。算法模型是基于機器學(xué)習(xí)等算法構(gòu)建的模型,如常見的算法有相關(guān)、聚類、決策樹(分類)、邏輯回歸、神經(jīng)網(wǎng)絡(luò)、時間序列等,通過這些算法建立的模型基本上分為預(yù)測、聚類、關(guān)聯(lián)和異常檢測四種,如流失預(yù)警模型、購物籃分析模型、消費額預(yù)測模型、消費者群體模型等。二、數(shù)據(jù)建模1.什么是數(shù)據(jù)建模2.數(shù)據(jù)模型的分類3.數(shù)據(jù)模型的構(gòu)建全流程數(shù)據(jù)建模可以分為以下幾個步驟:(1)明確業(yè)務(wù)問題,確定目標(2)數(shù)據(jù)理解和獲取,數(shù)據(jù)描述分析(3)數(shù)據(jù)清洗,數(shù)據(jù)預(yù)處理(4)數(shù)據(jù)規(guī)整(5)描述統(tǒng)計,洞察結(jié)論(6)特征選擇,模型選擇(7)數(shù)據(jù)集劃分,設(shè)定參數(shù),加載算法,構(gòu)建模型(8)模型評估(9)模型調(diào)優(yōu)(10)輸出規(guī)則,模型加載,結(jié)果呈現(xiàn)(11)模型部署(1)監(jiān)督學(xué)習(xí)是從有標記的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)一個模型,然后根據(jù)這個模型對未知樣本進行預(yù)測。(2)無監(jiān)督學(xué)習(xí)又稱為非監(jiān)督式學(xué)習(xí),它的輸入樣本并不需要標記,而是自動從樣本中學(xué)習(xí)特征實現(xiàn)預(yù)測。(3)強化學(xué)習(xí)是通過觀察來學(xué)習(xí)做成什么樣的動作。三、機器學(xué)習(xí)算法機器學(xué)習(xí)算法是一類從數(shù)據(jù)中自動分析獲得規(guī)律,并利用規(guī)律對未知數(shù)據(jù)進行預(yù)測的方法,可以分成下面幾種類別:第三節(jié)數(shù)據(jù)挖掘算法第六章第二篇方法篇一、回歸分析1.線性回歸2.Logistic回歸3.Cox回歸4.Poisson回歸5.Probit回歸6.負二項回歸7.主成分回歸8.嶺回歸9.偏最小二乘回歸10.多項式回歸11.逐步回歸線性回歸通常是人們在學(xué)習(xí)預(yù)測模型時首選的少數(shù)幾種技術(shù)之一。在該技術(shù)中,因變量是連續(xù)的,自變量(單個或多個)可以是連續(xù)的也可以是離散的,回歸線的性質(zhì)是線性的。線性回歸使用最佳的擬合直線(也就是回歸線)建立因變量(Y)和一個或多個自變量(X)之間的聯(lián)系。用一個等式來表示它,即其中,a表示截距,b表示直線的傾斜率,e是誤差項。這個等式可以根據(jù)給定的單個或多個預(yù)測變量來預(yù)測目標變量的值,如圖6-1所示。圖6-1線性回歸擬合圖一元線性回歸和多元線性回歸的區(qū)別在于,多元線性回歸有一個以上的自變量,而一元線性回歸通常只有一個自變量。一、回歸分析1.線性回歸3.Cox回歸4.Poisson回歸5.Probit回歸6.負二項回歸7.主成分回歸8.嶺回歸9.偏最小二乘回歸10.多項式回歸11.逐步回歸2.Logistic回歸Logistic回歸可用于發(fā)現(xiàn)“事件=成功”和“事件=失敗”的概率。當(dāng)因變量的類型屬于二元(1/0、真/假、是/否)變量時,我們就應(yīng)該使用邏輯回歸。這里,Y的取值范圍是從0到1,它可以用下面的等式表示:如上,p表述具有某個特征的概率。在這里我們使用的是二項分布(因變量),我們需要選擇一個最適用于這種分布的連結(jié)函數(shù),它就是Logit函數(shù)。在上述等式中,通過觀測樣本的極大似然估計值來選擇參數(shù),而不是最小化平方和誤差。一、回歸分析1.線性回歸4.Poisson回歸5.Probit回歸6.負二項回歸7.主成分回歸8.嶺回歸9.偏最小二乘回歸10.多項式回歸11.逐步回歸2.Logistic回歸3.Cox回歸Cox回歸的主要作用是發(fā)現(xiàn)風(fēng)險因素并用于探討風(fēng)險因素的強弱。但它的因變量必須同時有兩個,一個代表狀態(tài),必須是分類變量,一個代表時間,應(yīng)該是連續(xù)變量。只有同時具有這兩個變量,才能用Cox回歸分析。Cox回歸主要用于生存資料的分析,生存資料至少有兩個結(jié)局變量,一是死亡狀態(tài),是活著還是死亡;二是死亡時間,如果死亡,什么時間死亡?如果活著,從開始觀察到結(jié)束時有多久了?所以有了這兩個變量,就可以考慮用Cox回歸分析。一、回歸分析1.線性回歸4.Poisson回歸5.Probit回歸6.負二項回歸7.主成分回歸8.嶺回歸9.偏最小二乘回歸10.多項式回歸11.逐步回歸2.Logistic回歸3.Cox回歸通常,如果能用Logistic回歸,通常也可以用Poisson回歸,Poisson回歸的因變量是個數(shù),也就是觀察一段時間后,發(fā)病了多少人或是死亡了多少人等。其實跟Logistic回歸差不多,因為Logistic回歸的結(jié)局是是否發(fā)病,是否死亡,也需要用到發(fā)病例數(shù)、死亡例數(shù)。一、回歸分析1.線性回歸4.Poisson回歸5.Probit回歸6.負二項回歸7.主成分回歸8.嶺回歸9.偏最小二乘回歸10.多項式回歸11.逐步回歸2.Logistic回歸3.Cox回歸Probit回歸是“概率回歸”,用于因變量為分類變量數(shù)據(jù)的統(tǒng)計分析,與Logistic回歸近似。也存在因變量為二分、多分與有序的情況。目前最常用的為二分。醫(yī)學(xué)研究中常見的半數(shù)致死劑量、半數(shù)有效濃度等劑量反應(yīng)關(guān)系的統(tǒng)計指標,現(xiàn)在標準做法就是調(diào)用Probit過程進行統(tǒng)計分析。一、回歸分析1.線性回歸4.Poisson回歸5.Probit回歸6.負二項回歸7.主成分回歸8.嶺回歸9.偏最小二乘回歸10.多項式回歸11.逐步回歸2.Logistic回歸3.Cox回歸對于某些計數(shù)資料,當(dāng)其服從的Poisson分布強度參數(shù)λ服從γ分布時,所得到的復(fù)合分布即為負二項分布,又稱為γ-Poisson分布。在負二項分布中,λ是一個隨機變量,方差λ(1+kλ)遠大于其平均數(shù)。其中,k為非負值,表示計數(shù)資料的離散程度。當(dāng)k趨近于0時,則近似于Poisson分布,過離散是負二項分布相對于Poisson分布的重要區(qū)別和特點,可用拉格朗日算子統(tǒng)計量檢驗資料是否存在過離散。若數(shù)據(jù)服從Poisson分布可以采用Poisson回歸;當(dāng)計數(shù)因變量服從負二項分布時,可采用負二項回歸進行回歸分析,其參數(shù)估計、假設(shè)檢驗與Poisson回歸相似。一、回歸分析1.線性回歸4.Poisson回歸5.Probit回歸6.負二項回歸7.主成分回歸8.嶺回歸9.偏最小二乘回歸10.多項式回歸11.逐步回歸2.Logistic回歸3.Cox回歸主成分回歸分析法作為多元統(tǒng)計分析的一種常用方法在處理多變量問題時具有一定的優(yōu)越性,其降維的優(yōu)勢是明顯的。主成分回歸方法對于一般的多重共線性問題還是適用的,尤其是對共線性較強的變量之間。當(dāng)采取主成分提取了新的變量后,往往這些變量間的組內(nèi)差異小而組間差異大,起到了消除共線性的問題。一、回歸分析1.線性回歸4.Poisson回歸5.Probit回歸6.負二項回歸7.主成分回歸8.嶺回歸9.偏最小二乘回歸10.多項式回歸11.逐步回歸2.Logistic回歸3.Cox回歸嶺回歸分析法實際上是一種改良的最小二乘法,是一種專門用于共線性數(shù)據(jù)分析的有偏估計回歸方法。嶺回歸分析法的基本思想是當(dāng)自變量間存在共線性時,解釋變量的相關(guān)矩陣行列式近似為零,X'X是奇異的,也就是說它的行列式的值也接近于零,此時OLS估計將失效。當(dāng)數(shù)據(jù)之間存在多重共線性(自變量高度相關(guān))時,就需要使用嶺回歸分析。在存在多重共線性時,盡管最小二乘法(OLS)測得的估計值不存在偏差,它們的方差也會很大,從而使得觀測值與真實值相差甚遠。嶺回歸通過給回歸估計值添加一個偏差值,來降低標準誤差。一、回歸分析1.線性回歸4.Poisson回歸5.Probit回歸6.負二項回歸7.主成分回歸8.嶺回歸9.偏最小二乘回歸10.多項式回歸11.逐步回歸2.Logistic回歸3.Cox回歸偏最小二乘回歸也可以用于解決自變量之間高度相關(guān)的問題。但比主成分回歸和嶺回歸更好的一個優(yōu)點是,偏最小二乘回歸可以用于例數(shù)很少的情形,甚至例數(shù)比自變量個數(shù)還少的情形。所以,如果自變量之間高度相關(guān),例數(shù)又特別少,而自變量又很多,那就用偏最小二乘回歸就可以了。一、回歸分析1.線性回歸4.Poisson回歸5.Probit回歸6.負二項回歸7.主成分回歸8.嶺回歸9.偏最小二乘回歸10.多項式回歸11.逐步回歸2.Logistic回歸3.Cox回歸對于一個回歸等式,如果自變量的指數(shù)大于1,那么它就是多項式回歸等式。如下等式所示:在這種回歸技術(shù)中,最佳擬合線不是直線,而是一個用于擬合數(shù)據(jù)點的曲線。多項式回歸要點:(1)雖然存在通過高次多項式得到較低的錯誤的趨勢,但這可能會導(dǎo)致過擬合。需要經(jīng)常畫出關(guān)系圖來查看擬合情況,并確保擬合曲線正確體現(xiàn)了問題的本質(zhì)。(2)須特別注意尾部的曲線,看看這些形狀和趨勢是否合理。更高次的多項式最終可能產(chǎn)生怪異的推斷結(jié)果。一、回歸分析1.線性回歸4.Poisson回歸5.Probit回歸6.負二項回歸7.主成分回歸8.嶺回歸9.偏最小二乘回歸10.多項式回歸11.逐步回歸2.Logistic回歸3.Cox回歸逐步回歸是一種常用的消除多重共線性、選取“最優(yōu)”回歸方程的方法。其做法是逐個引入自變量,引入的條件是該自變量經(jīng)F檢驗是顯著的,每引入一個自變量后,對已選入的變量進行逐個檢驗,如果原來引入的變量由于后面變量的引入而變得不再顯著,那么就將其剔除。這個過程反復(fù)進行,直到既沒有不顯著的自變量選入回歸方程,也沒有顯著自變量從回歸方程中剔除為止。二、分類分析1.樸素貝葉斯2.決策樹樸素貝葉斯是機器學(xué)習(xí)中常見的分類基本算法之一,它是基于貝葉斯定理與條件獨立性假設(shè)的分類方法。貝葉斯方法的特點是結(jié)合先驗概率和后驗概率,即避免了只使用先驗概率的主觀偏見,也避免了單獨使用樣本信息的過擬合現(xiàn)象。該算法的理論核心是貝葉斯定理,基于條件獨立性假設(shè)這個強假設(shè)之下,這是該算法稱為“樸素”的原因。假設(shè)有隨機事件A和B,它們的條件概率關(guān)系可以用以下數(shù)學(xué)公式表達:其中,事件A是要考察的目標事件,P(A)是事件A的初始概率,稱為先驗概率,它是根據(jù)一些先前的觀測或者經(jīng)驗得到的概率。B是新出現(xiàn)的一個事件,它會影響事件A。P(B)表示事件B
發(fā)生的概率。P(B|A)表示當(dāng)A
發(fā)生時B的概率,它是一個條件概率。P(A|B)表示當(dāng)B發(fā)生時A的概率(也是條件概率),它是我們要計算的后驗概率,指在得到一些觀測信息后某事件發(fā)生的概率。貝葉斯公式給出了通過先驗概率和條件概率求出后驗概率的方法。使用樸素貝葉斯算法要滿足一個基本假設(shè):假定給定目標值的各個特征之間是相互獨立的,即條件獨立性。二、分類分析1.樸素貝葉斯2.決策樹決策樹是附加概率結(jié)果的一個樹狀的決策圖,是直觀運用統(tǒng)計概率分析的圖法。決策樹模型常常用來解決分類和回歸問題。
常見的算法包括CART(ClassificationAndRegressionTree)、ID3、C4.5、隨機森林(RandomForest)等。決策樹基本思想是自頂向下,以信息增益(或信息增益比,基尼系數(shù)等)為度量構(gòu)建一根度量標準下降最快的樹,每個內(nèi)部節(jié)點代表一個屬性的測試,直到葉子節(jié)點處只剩下同一類別的樣本。
決策樹由3個主要部分組成,分別為決策節(jié)點、分支和葉子節(jié)點。決策的流程如圖6-2所示。圖6-2購物決策流程圖三、聚類分析數(shù)據(jù)分析和挖掘的首要問題是聚類,這種聚類是跨學(xué)科、跨領(lǐng)域、跨媒體的。大數(shù)據(jù)聚類是數(shù)據(jù)密集型科學(xué)的基礎(chǔ)性、普遍性問題。將物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類。即給定一組數(shù)據(jù)點,可以用聚類算法將每個數(shù)據(jù)點劃分為一個特定的組,理論上同一組中的數(shù)據(jù)點應(yīng)具有相似的屬性或特征,而不同組的數(shù)據(jù)點應(yīng)具有高度不同的屬性或特征。常見的聚類方法有以下幾種。(1)基于劃分聚類算法(2)基于層次聚類算法(CURE)(3)基于密度聚類算法四、文本分析文本是指書面語言的表現(xiàn)形式,從文學(xué)角度說,通常是具有完整、系統(tǒng)含義的一個句子或多個句子的組合。1.什么是文本文本分析是將非結(jié)構(gòu)化文本數(shù)據(jù)轉(zhuǎn)換為有意義的數(shù)據(jù)進行分析的過程,以度量客戶意見、產(chǎn)品評論、反饋,提供搜索工具、情感分析和實體建模,以支持基于事實的決策制定。2.文本分析的場景文本分析如果從智能的維度來分類可以分為以下三大類:第一類:文本統(tǒng)計分析(根據(jù)規(guī)則統(tǒng)計文本)。第二類:文本建模分析(根據(jù)模型監(jiān)督鑒別文本)。第三類:文本語義分析。五、時間序列分析時間序列分析是根據(jù)系統(tǒng)觀測得到的時間序列數(shù)據(jù),通過曲線擬合和參數(shù)估計來建立數(shù)學(xué)模型的理論和方法。1.時間序列2.時間序列的分析模型3.時間序列的分析步驟(1)長期變動趨勢(2)季節(jié)性變動(3)周期性變動(4)不規(guī)則變動(1)自回歸AR(p)模型(2)移動平均MA(q)模型(3)自回歸移動平均ARMA(p,q)模型(4)自回歸綜合移動平均模型(1)確定時間序列的變動因素和變動類型;(2)計算調(diào)整月(季)指數(shù),以測定季節(jié)變動因素的影響程;(3)調(diào)整時間序列的原始指標值,以消除季節(jié)變動因素的
影響;(4)根據(jù)調(diào)整后的時間序列的指標值(簡稱調(diào)整值)擬合
長期趨勢模型;(5)計算趨勢比率或周期余數(shù)比率,以度量周期波動幅度和周期長度;(6)預(yù)測統(tǒng)計指標今后的數(shù)值。第四節(jié)數(shù)據(jù)挖掘工具第六章第二篇方法篇一、數(shù)據(jù)挖掘方法(1)維度歸約(2)數(shù)據(jù)探索(3)關(guān)聯(lián)規(guī)則(4)聚類分析(5)決策樹數(shù)據(jù)挖掘方法二、人力資源數(shù)據(jù)挖掘技術(shù)的應(yīng)用方法數(shù)據(jù)挖掘技術(shù)的應(yīng)用流程中,最為重要的一點便是建立模型??紤]到人力資源工作的內(nèi)容,基于流動率、勞動成本、勞動力規(guī)劃以及雇員開發(fā)等建立相關(guān)模型,是當(dāng)前工作的要點。(1)流動率模型(2)勞動成本模型(3)勞動力規(guī)劃模型(4)雇員開發(fā)模型團隊運行的過程中,雇員出現(xiàn)流動是常見現(xiàn)象,如何將流動率控制在一定范圍內(nèi),是人力資源工作者應(yīng)當(dāng)注意的主要問題。而為了達到這一目的,人力資源工作者,務(wù)必了解雇員流動的原因,同時學(xué)會對流動趨勢進行預(yù)測??梢詮男詣e、年齡以及崗位或工齡等多方面出發(fā),借助數(shù)據(jù)挖掘技術(shù),建立相關(guān)模型。具體如下:離職率=(離職數(shù)/總?cè)藬?shù))×100%新進率=(新進數(shù)/總?cè)藬?shù))×100%上述模型中:總?cè)藬?shù)=(月/年初員工數(shù)+月/年末員工數(shù))/2建立上述模型后,需要對其進行評價??梢詮膱F隊本身所屬的行業(yè)、薪資待遇以及團隊氛圍與文化等方面出發(fā),分析流動率影響因素。二、人力資源數(shù)據(jù)挖掘技術(shù)的應(yīng)用方法數(shù)據(jù)挖掘技術(shù)的應(yīng)用流程中,最為重要的一點便是建立模型??紤]到人力資源工作的內(nèi)容,基于流動率、勞動成本、勞動力規(guī)劃以及雇員開發(fā)等建立相關(guān)模型,是當(dāng)前工作的要點。(1)流動率模型(2)勞動成本模型(3)勞動力規(guī)劃模型(4)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 檔案行政管理辦法規(guī)定
- 地理知識梳理與綜合能力提升策略
- 北京護送車輛管理辦法
- 村民務(wù)工補貼管理辦法
- 因果復(fù)句的歷史演變與語言學(xué)分析
- 廢舊農(nóng)膜回收與處置制度困境與完善路徑探究
- 公共住房資產(chǎn)管理辦法
- 決策咨詢工作管理辦法
- 銀行金融產(chǎn)品的精準營銷策略
- 內(nèi)部孵化項目管理辦法
- 鍋爐澆注料施工方案
- GB/T 17394.1-2014金屬材料里氏硬度試驗第1部分:試驗方法
- GB/T 1606-2008工業(yè)碳酸氫鈉
- 葛的栽培技術(shù)
- 《綠色建筑概論》整套教學(xué)課件
- 山東中醫(yī)藥大學(xué)2020-2021學(xué)年內(nèi)科護理學(xué)試題及答案2
- 2022年綿陽江油市社區(qū)工作者招聘考試模擬試題及答案解析
- 初中道德與法治學(xué)科教學(xué)經(jīng)驗交流
- 工程測量、定位放線控制點復(fù)核記錄表
- 申辦出入境證件的函
- 安全評估收費指導(dǎo)意見
評論
0/150
提交評論