產(chǎn)品數(shù)據(jù)分析建模方案_第1頁
產(chǎn)品數(shù)據(jù)分析建模方案_第2頁
產(chǎn)品數(shù)據(jù)分析建模方案_第3頁
產(chǎn)品數(shù)據(jù)分析建模方案_第4頁
產(chǎn)品數(shù)據(jù)分析建模方案_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、產(chǎn)品數(shù)據(jù)分析建模方案一、概述建設(shè)背景對于企業(yè)在人才管理上的問題:不能有效的發(fā)現(xiàn)自己的人才儲備落后于行業(yè)的發(fā)展,在職員工可能存在上面異常的方面,更好的規(guī)劃薪酬范圍,讓員工在個(gè)人崗位上獲得滿足感。依據(jù)能力制定合理的薪酬范圍。依據(jù)行業(yè)畫像,個(gè)人能力畫像,提供分層數(shù)據(jù),做決策展示。項(xiàng)目經(jīng)理對人才的選拔。建設(shè)目標(biāo)通過建立大數(shù)據(jù)體系下的數(shù)據(jù)挖掘平臺,分析業(yè)務(wù)數(shù)據(jù),為我們的客戶提供更好的決策,并開發(fā)可視化模塊,將結(jié)果展示給我們的客戶,并且確定經(jīng)營方向,做好推廣工作。二、需求分析數(shù)據(jù)來源主要的數(shù)據(jù)來源之一是現(xiàn)有的數(shù)據(jù)庫數(shù)據(jù),接通到大數(shù)據(jù)平臺進(jìn)行分析,還有一部分外部數(shù)據(jù),使用爬蟲爬的數(shù)據(jù),實(shí)時(shí)更新每日的趨勢展示

2、,另外一部分從業(yè)者的信息,能否通過購買其它合作企業(yè)的信息,滿足分析需求。數(shù)據(jù)提取整體思路,算法需求設(shè)計(jì)行業(yè)信息展示的數(shù)據(jù)提取,主要是為了展示某職位在行業(yè)的各個(gè)特征維度下的占比,比方說以地域來劃分行業(yè)對當(dāng)前職業(yè)的需求餅圖。某職位在每個(gè)行業(yè)的每日需求趨勢。每個(gè)行業(yè)對某主要需求的職位的技能詞云統(tǒng)計(jì)。洞悉趨勢薪酬預(yù)測的數(shù)據(jù),需要職位的分類信息,以及每個(gè)分類下的每日整體數(shù)據(jù),包括最大值,最小值,平均值。以預(yù)測這一部分?jǐn)?shù)據(jù)為指導(dǎo),通過數(shù)據(jù)分析是手段,找到相關(guān)的特征信息,比方說,每日上線的從業(yè)者,每日簡歷的更新次數(shù),發(fā)布新需求的企業(yè)個(gè)數(shù)等等作為特征,由數(shù)據(jù)挖掘工程師進(jìn)行抽取。人才傾斜,造成競爭力處于行業(yè)底層

3、客戶畫像展示將從業(yè)者對當(dāng)前行業(yè)投遞的簡歷信息聚合,進(jìn)行多維度的展示,并對聚集的數(shù)據(jù),進(jìn)行算法分層,提供一個(gè)標(biāo)簽輸入欄,輸入標(biāo)簽數(shù)據(jù),獲得從業(yè)者在分層系統(tǒng)??蛻舢?dāng)前的行業(yè)畫像展示,由人才構(gòu)成圖,工資趨勢,行業(yè)的趨勢,每年發(fā)布招聘的行業(yè)個(gè)數(shù)的變化,新公司名稱的個(gè)數(shù)。行業(yè)招的崗位分布情況。三、建設(shè)方案數(shù)據(jù)挖掘算法系統(tǒng)框架圖參考ML5mJfLA1KMransIf6BaT)C皿)(W)0即ffii麗IIIMilr代I|ModelMBTILKVetfflrFeotunEI1及FufttClient機(jī)hwiirMLLnnwAnffJSdwiirPSMvdelUPSVectigrCcwePS。弓L-即orkt

4、rLirhr,Jndsiaif.Qml叫IWoZfJIJGemipPSStrwrUVpdattr3uPiBtasi3CZ。CJNetwork:RJX產(chǎn)品的可視化原型展示集群服務(wù)節(jié)點(diǎn)規(guī)劃機(jī)器1機(jī)器2機(jī)器3機(jī)器4機(jī)器5機(jī)器6機(jī)器7HDFSNameNodeNameNodeDataNodeDataNodeDataNodeDataNodeYARNResourceResourceNodeNodeNodeNodeZOOKEPER ZookeeperZookeeperZookeeperZookeeperZookeeperZookeeper大數(shù)據(jù)算法模型平臺架構(gòu)JAVA,SCALA,PYTHON,R實(shí)時(shí)數(shù)據(jù)處理

5、離線數(shù)據(jù)處理KAFKAKafkaKafkaKafkaHbaseMasterMasterMasterRegionRegionRegionflumeFlumeFlumeFlumeFlumehiveHivemysqlMysqlsparkSparkmongodbmongodb爬蟲Python另外提供爬蟲提取互聯(lián)網(wǎng)數(shù)據(jù)方案。四、算法實(shí)現(xiàn)舉例回歸模型算法設(shè)計(jì)案例薪酬回歸預(yù)測算法構(gòu)建案例(算法方案來自于攜程賽十四個(gè)月出行產(chǎn)品預(yù)測,我們所在的隊(duì)伍榮獲大賽一等獎第一名)回歸預(yù)測的數(shù)據(jù)場景非常的相似,整體的數(shù)據(jù)架構(gòu)和算法評分,都可以進(jìn)行移植。賽題介紹商家信息數(shù)據(jù)預(yù)測X未來14個(gè)月的數(shù)據(jù))(23個(gè)月的歷史數(shù)據(jù)如何使

6、用現(xiàn)有的歷史數(shù)據(jù)與商店信息,預(yù)測出行產(chǎn)品未來14個(gè)月每月的銷量,從而指導(dǎo)產(chǎn)品的庫存管理和定價(jià)策略,這對于收益管理和客戶價(jià)值的提升有著重要作用特征工程F面我將用圖表的形式,向大家展示一下我們數(shù)據(jù)分析的整個(gè)過程。首先,篩選一批從14年一月起就有歷史數(shù)據(jù)的商家,以此為基礎(chǔ),分析每個(gè)月份占全年的比重,為剔出整體增長趨勢的影響,我們采用了以下的方法??傮w每川心勢變化背能.呻選-H時(shí)量和刎上依州的向密,以此為他岫,分析撐TH的甘全那的上限.為叫tii物件也長胞努的蜜噌,枇口果1以卜切屋M14437M1可以看出總體每個(gè)月趨勢變化如下圖所示:總體每月趨勢變化通過對地區(qū)進(jìn)行分析,發(fā)現(xiàn)district_id1中1

7、0201地區(qū)的商家占了97.5%,且Uf。-Wtl-dB-district_id1、district_id2、district_id3、district_id4依次屬于從屬關(guān)系,所以做出以下推斷:district_id1是國家代碼,district_id2是省級代碼,district_id3是市級代碼,district_id4是縣級代碼。并且為了更加細(xì)致分析商家歷史趨勢變換趨勢,同時(shí)又不過多的加入噪聲,我們對市級區(qū)域內(nèi)的商家做了聚類分析。對于同一個(gè)市內(nèi)商家個(gè)數(shù)多于16個(gè)的,歸為一類,對于同一個(gè)市內(nèi)商家個(gè)數(shù)少于16個(gè)的,按省份進(jìn)行歸類,對于國外的商家按同一地區(qū)進(jìn)行歸類,對于都不屬于以上幾種情況的

8、商家,按照坐標(biāo)地址歸屬到最鄰近的地區(qū)。對每個(gè)商家進(jìn)行區(qū)域分類之后,利用分析總體每月趨勢變化的方法,對每個(gè)區(qū)域內(nèi)進(jìn)行單獨(dú)的分析,提取出每個(gè)區(qū)域的歷史變化趨勢。解決框架下面就是第二個(gè)核心部分一一模型。如何學(xué)習(xí)好關(guān)于月份的變化趨勢是本題的一個(gè)重點(diǎn)難點(diǎn),為了更好的學(xué)習(xí)每個(gè)月份的趨勢,我們設(shè)計(jì)一個(gè)分12個(gè)月去單獨(dú)預(yù)測每個(gè)月份這樣的一個(gè)模型。模型框架I如何學(xué)習(xí)好關(guān)丁月份的如何學(xué)習(xí)好關(guān)丁月份的蹙化啟蹙化啟勢是本勢是本題的一題的一個(gè)重點(diǎn)個(gè)重點(diǎn)難點(diǎn)難點(diǎn). .為了更好的學(xué)習(xí)每個(gè)月份的趨為了更好的學(xué)習(xí)每個(gè)月份的趨苗,苗,我們設(shè)計(jì)一個(gè)分我們設(shè)計(jì)一個(gè)分12個(gè)個(gè)月去單獨(dú)預(yù)月去單獨(dú)預(yù)蒯林個(gè)月份這樣的蒯林個(gè)月份這樣的一個(gè)模型

9、。一個(gè)模型。訓(xùn)練繳訓(xùn)練繳百百I言言 胃胃II吾吾I由由3M|片片| | 叵叵| |預(yù)期集:|11u最終預(yù)測熟最終預(yù)測熟S41s|*111=模型模型優(yōu)點(diǎn);優(yōu)點(diǎn);在儺解保證足夠數(shù)據(jù)量的情況下在儺解保證足夠數(shù)據(jù)量的情況下, ,由為每個(gè)月份提供了由為每個(gè)月份提供了更加合適的訓(xùn)更加合適的訓(xùn)練出練出. .起到起到了放大了放大某個(gè)月某個(gè)月份特征的作用,模型缺份特征的作用,模型缺點(diǎn):點(diǎn):增加增加模型模型的訓(xùn)練成本和復(fù)雜度。的訓(xùn)練成本和復(fù)雜度。我們的模型能夠保證足夠多數(shù)據(jù)量的情況下,由為每個(gè)月份提供了更加合適的訓(xùn)練集,起到了放大某個(gè)月份特征的作用。但與此同時(shí)增加模型的訓(xùn)練成本和復(fù)雜度。在分析數(shù)據(jù)時(shí)發(fā)現(xiàn)有500多

10、家商店在2015年11月份之前并沒有歷史銷量,一個(gè)很明的原因是,在此之前,這些商家并沒有與攜程進(jìn)行合作,然而又需要預(yù)測,說明在截止2017年一月這4000商家全部都與攜程進(jìn)行了合作,在不加其他條件下,這個(gè)合作日期應(yīng)該是分布在2015-11到2017-01的一個(gè)均勻分布,而模型并不能學(xué)習(xí)到該先驗(yàn)知識。因此我要對空值部分預(yù)測出來的14個(gè)月乘以了一個(gè)等差數(shù)列,使空值部分未來14個(gè)近似服從一個(gè)等差數(shù)列的分布。并且使預(yù)測月份變化整體變化趨勢可控,我們以的最隹模型xgb預(yù)測值基礎(chǔ),統(tǒng)計(jì)了未來14個(gè)月的變化趨勢,根據(jù)a榜線上得分結(jié)果進(jìn)行微調(diào)取最隹值。在使用gbrt、rf、et預(yù)測時(shí),按月調(diào)整相應(yīng)月份的均值,

11、使得其他模型分布也符合這個(gè)變化趨勢。算法評分用均方誤差(RootMeanSquaredError,RMSE)作為評判標(biāo)準(zhǔn),獲獎隊(duì)伍需超過基準(zhǔn)指標(biāo)(RMSE基準(zhǔn)值為166),多模型組合的上限為28個(gè)最后我們組的得分在上月結(jié)束的“出行產(chǎn)品未來14個(gè)月銷量預(yù)測”比賽中,貝葉斯部落聯(lián)盟團(tuán)隊(duì)以149.081683的高分奪得冠軍。無監(jiān)督算法模型聚類進(jìn)行客戶價(jià)值分析參考利用KMeans聚類進(jìn)行航空公司客戶價(jià)值分析準(zhǔn)確的客戶分類的結(jié)果是企業(yè)優(yōu)化營銷資源的重要依據(jù),本文利用了航空公司的部分?jǐn)?shù)據(jù),利用Kmeans聚類方法,對航空公司的客戶進(jìn)行了分類,來識別出不同的客戶群體,從來發(fā)現(xiàn)有用的客戶,從而對不同價(jià)值的客戶

12、類別提供個(gè)性化服務(wù),指定相應(yīng)的營銷策略。一、分析方法和過程1 .數(shù)據(jù)抽取一一2.數(shù)據(jù)探索與預(yù)處理一一3。建模與應(yīng)用傳統(tǒng)的識別客戶價(jià)值應(yīng)用最廣泛的模型主要通過3個(gè)指標(biāo)(最近消費(fèi)時(shí)間間隔(Recency)、消費(fèi)頻率(Frequency)和消費(fèi)金額(Monetary)來進(jìn)行客戶細(xì)分,識別出價(jià)值高的客戶,簡稱RFC模型。在RFC模型中,消費(fèi)金額表示在一段時(shí)間內(nèi),客戶購買產(chǎn)品的總金額。但是不適用于航空公司的數(shù)據(jù)處理。因此我們用客戶在一段時(shí)間內(nèi)的累計(jì)飛行里程M和客戶在一定時(shí)間內(nèi)乘坐力&位的折扣系數(shù)C代表消費(fèi)金額。再在模型中增加客戶關(guān)系長度L,所以我們用LRFMC模型。因此本次數(shù)據(jù)挖掘的主要步驟:1

13、) .從航空公司的數(shù)據(jù)源中進(jìn)行選擇性抽取與新增數(shù)據(jù)抽取分別形成歷史數(shù)據(jù)和增量數(shù)據(jù)2) .對步驟1)中形成的兩個(gè)數(shù)據(jù)集進(jìn)行數(shù)據(jù)探索分析和預(yù)處理,包括數(shù)據(jù)缺失值和異常值分析。即數(shù)據(jù)屬性的規(guī)約、清洗和變換3).利用步驟2)中的處理的數(shù)據(jù)進(jìn)行建模,利用KMeans方法,進(jìn)行聚類4) .針對模型的結(jié)果進(jìn)行分析。對數(shù)據(jù)進(jìn)行聚類分群的結(jié)果如下表所示:江江在在ZMZC類患數(shù)類患數(shù)目目I0.433548-0799112.483135242423ft030978553374313071637065 -0.57391-053672-0.17M7121111160932 -0.37744-0.08663-0.0945

14、41568915730-0.70029-04151-0.16064-0.16035-0.25816246110.040B16QQQ24423231-0.23667 Z1693064255自定義繪圖函數(shù)進(jìn)行繪制出每個(gè)聚類數(shù)據(jù)的密度圖像:有了模型和圖像后我們就可以給客戶提供分析的依據(jù)。使用嫡值法構(gòu)建簡單的評分系統(tǒng)。嫡值法原理:嫡的概念源于熱力學(xué),是對系統(tǒng)狀態(tài)不確定性的一種度量。在信息論中,信息是系統(tǒng)有序程度的一種度量。而嫡是系統(tǒng)無序程度的一種度量,兩者絕對值相等,但符號相反。根據(jù)此性質(zhì),可以利用評價(jià)中各方案的固有信息,通過嫡值法得到各個(gè)指標(biāo)的信息嫡,信息嫡越小,信息的無序度越低,其信息的效用值越大

15、,指標(biāo)的權(quán)重越大。具體的方法步驟見附圖課件。煽是不確定性的度量,如果用Pj表示的j個(gè)信息不確定度(也即出現(xiàn)的概率)則整個(gè)信息(設(shè)有n個(gè))的不確定度量也可用下式表示:這就是母譏其中K為止常數(shù),節(jié)各個(gè)信息發(fā)七的概率相等時(shí),即Pj=l/n,S取值最大,此舟埔最大,可利用炳信息的概念確定權(quán)重,假設(shè)多屬性決策矩陣如下;4*1】芭2工17E表示第7個(gè)信性下第嗆方案4的貢獻(xiàn)度,口可以用可來表示所有方窠時(shí)屬竹義的貢獻(xiàn)總;kJ1J.=-4印明)其中,常數(shù)K=l/lnm),這常就能保證0=4產(chǎn)1,即E肥關(guān)為匕由式中可以看出.當(dāng)某個(gè)相性下各方案的貢獻(xiàn)度趨于一致時(shí), 身趨于h特別是當(dāng)全相等時(shí).也就可以不考慮該目標(biāo)而屬

16、性在決策中的作用,也即此時(shí)屬性的權(quán)重為零B這樣,可看出屬性值由所有方案*異大小來決定權(quán)系數(shù)的大小*為此可定義0為和屬性下各方案貢獻(xiàn)席珀威性程度.可:/則各屬性權(quán)重監(jiān)如下工JdJF,=-一X當(dāng)q=0時(shí),第j屬性可以贏除,其權(quán)里等于5如果決策者事先已有些經(jīng)驗(yàn)的主觀估計(jì)權(quán)重乙,則可借助上述的回來對(進(jìn)行修正“煽伯法最大的特點(diǎn)是直接利用決策知:陣所能出的苫口iiM權(quán)重,而沒有引入決策者的主觀判斷o就本例而言,每個(gè)車型每個(gè)指標(biāo)的得分與其權(quán)重的乘積之和為其綜合評價(jià)值,這樣求得本田 5.1185.118 分,奧迪 18.3218.32 分,桑塔納 8.2168.216 分,別克 12.49512.495 分

17、。所以綜合評價(jià)排序?yàn)閵W迪、別克、桑塔納、本田0.M0.070A9OU80.040.1浦啤由率n 耶現(xiàn)臚f!#打/胃啕L3EBc孫如;配胃UI*范51.4r357典過qiw75All#tE11b75一丸1223Lfi755I1奧詢111也脩葡1J1期1.五、運(yùn)營計(jì)劃數(shù)據(jù)的供應(yīng)商,獵聘網(wǎng)掌握著商家,給商家提供決策的薪酬范圍,和分布的時(shí)間點(diǎn),甚至修改招聘的要求。向各個(gè)招聘網(wǎng)購買數(shù)據(jù),并和他們合作開發(fā)企業(yè)見面,購買企業(yè)級的發(fā)布費(fèi)用,是否能提成。為何能采用這個(gè)方法,產(chǎn)品做的更加精細(xì),依靠手中已有的商家資源,進(jìn)行推廣,通過推廣,獲得更多的商家支持。如果一家獨(dú)大的情況下,我們考慮為其它的招聘網(wǎng)合作,繼續(xù)推廣

18、我們的服務(wù)。人才需求展示圖人才作用說明業(yè)務(wù)經(jīng)理:該角色對業(yè)務(wù)領(lǐng)域非常了解,并且通常會從客戶提出的需求分析結(jié)果中受益。他可以就項(xiàng)目的背景、成果的價(jià)值,以及項(xiàng)目成果如何實(shí)施向項(xiàng)目團(tuán)隊(duì)提供咨詢和建議。產(chǎn)品經(jīng)理:該角色負(fù)責(zé)項(xiàng)目的發(fā)起工作。他會為項(xiàng)目提供動力和要求,并定義核心業(yè)務(wù)問題。通常情況下,該角色會為項(xiàng)目提供資金,設(shè)置項(xiàng)目事項(xiàng)的優(yōu)先級,然后明確項(xiàng)目預(yù)期結(jié)果,最后評估項(xiàng)目團(tuán)隊(duì)最終成果的價(jià)值。項(xiàng)目經(jīng)理:該角色負(fù)責(zé)項(xiàng)目進(jìn)度和質(zhì)量,確保項(xiàng)目達(dá)到預(yù)期目標(biāo)??梢暬こ處煟涸摻巧钥梢暬囊暯?,基于對數(shù)據(jù)、關(guān)鍵業(yè)務(wù)指標(biāo)以及商業(yè)智能的深入理解來提供業(yè)務(wù)領(lǐng)域的專業(yè)知識和技能。他通常負(fù)責(zé)創(chuàng)建儀表板和報(bào)告,并了解數(shù)據(jù)更新源(datafeeddatafeed) )和來源( (sourcesource) )。大數(shù)據(jù)工程師:該角色負(fù)責(zé)提供和配置大數(shù)據(jù)庫環(huán)境,以支持工作團(tuán)隊(duì)的分析需求。他的工作職責(zé)包括提供對關(guān)鍵數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論