2015微博決賽3一步往上爬_第1頁(yè)
2015微博決賽3一步往上爬_第2頁(yè)
2015微博決賽3一步往上爬_第3頁(yè)
2015微博決賽3一步往上爬_第4頁(yè)
2015微博決賽3一步往上爬_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、新浪互動(dòng)大賽答辯隊(duì)伍介紹一步一步往上爬來(lái)自計(jì)算所的三位樹(shù)蛙小礦工機(jī)器學(xué)習(xí)分布式系統(tǒng)初顯奇數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)分布式系統(tǒng)云計(jì)算隊(duì)伍介紹一步一步往上爬 ?歷史成績(jī)077.34值11111277.32222222222222222223477.377.26677.28877.2677.2177.211077.2477.211277.2277.277.1877.1677.14456789 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33排名成績(jī)outline賽題分析12345數(shù)據(jù)分析特征工程算法框架可用性分析賽題

2、分析博文數(shù)據(jù)粉絲數(shù)據(jù)用戶行為數(shù)據(jù)抽樣用戶的歷史博文數(shù)據(jù)新博文一天后的互動(dòng)情況賽題分析用戶歷史發(fā)博互動(dòng)情況預(yù)測(cè)效果用戶人際關(guān)系網(wǎng)絡(luò)條目本身(內(nèi)容、發(fā)博時(shí)間)準(zhǔn)確率計(jì)算公式數(shù)據(jù)分析樣本極度傾斜采樣 or other?數(shù)Lv1:lv2:lv3:lv4:lv5 = 34.28 : 5 : 5.05 : 1 : 1.23各level數(shù)分布120000001000000080000006000000400000020000001036000515092451526250302139372221012345level分布數(shù)據(jù)分析發(fā)博數(shù)用戶數(shù)小于4001929453大于400且小于80023640大于800且

3、小于等于12005340大于1200且小于等于16002143大于1600且小于等于20001237大于2000且小于等于2400689大于2400且小于等于2800634大于2800且小于等于100002010大于10000536數(shù)據(jù)集構(gòu)造用戶的特征互動(dòng)level內(nèi)容、時(shí)間特征新用戶分布300000284841250000新用戶隨著用戶特征統(tǒng)計(jì)的區(qū)間擴(kuò)大而顯著減少1897602000001489831500001249041000005000001234數(shù)據(jù)集構(gòu)造201503201505201411201502201412201501201504特征用戶特征線下訓(xùn)練集線下驗(yàn)證集線上訓(xùn)練集線上

4、測(cè)試集數(shù)據(jù)集構(gòu)造 5( _ )=i=1preci 5( )i=1簡(jiǎn)單有效的解決權(quán)重問(wèn)題,效果顯著大量數(shù)據(jù)未利用,效果極差方案二: 數(shù)據(jù)按權(quán)重方案一:數(shù)據(jù)按權(quán)重抽樣特征工程符號(hào)特征發(fā)博時(shí)間用戶歷史互動(dòng)情況粉絲對(duì)用戶的行為詞性特征BlogUser用戶社交人脈網(wǎng)絡(luò)用戶本身的特征特征工程用戶歷史特征用戶A2015年2月分布用戶B2015年2月分布2015年3月2015年3月60050045041850040035040030030025020020015010010050000level1level2level3level4level5level1level2level3level4level5338

5、26111 232288特征工程用戶歷史特征計(jì)數(shù)類:5個(gè)level的微博數(shù)目分布類:比值類:5個(gè)level數(shù)目/用戶總微博數(shù)每種level行為數(shù)avg、sigma的特征工程用戶社交人脈關(guān)系網(wǎng)用戶粉絲bigV_1000bigV_2000bigV_3000bigV_5000擁有粉絲數(shù)用戶數(shù)0-504101713251-10094770101-20039648201-50022067501-100080201001-200042962001-300015953001-5000144050002946分級(jí)別大V用戶條件bigV_10001000bigV_20002000bigV_30003000big

6、V_50005000特征工程粉絲對(duì)用戶行為不同用戶在不同時(shí)間段其粉絲行為分布0.9粉絲0.78950.8無(wú)互動(dòng)有互動(dòng)0.70.61310.60.56970.54240.50.46420.39280.40.31360.285240.27910.3Hour0.210520.20.15120.14390.14290.101630.100用戶A用戶B用戶C用戶D用戶Er1_ratior2_ratior3_ratio特征工程用戶本身用戶常發(fā)話題統(tǒng)計(jì)20000001763747173653618000001614671160000014000001200000總用戶數(shù)常發(fā)話題用戶數(shù)100000080000

7、060000040000020000002014.11-2015.012014.12-2015.02時(shí)間區(qū)間2015.01-2015.03用戶數(shù)687246610774463特征工程Uid: 001b4831c4f69cf139a6ece74f4a3c5c用戶本身2014.11-2015.01常發(fā)話題:#數(shù)目:92level1:100%早安#2015.02發(fā)該話題28個(gè),level1:100%特征工程符號(hào)特征發(fā)博時(shí)間用戶歷史互動(dòng)情況粉絲對(duì)用戶的行為詞性特征BlogUser用戶社交人脈網(wǎng)絡(luò)用戶本身的特征特征工程特征一些在各level的idf值level1level2109level3 level4level5876543210晚安打車表示手氣領(lǐng)取份額人民圖早安即可參與更新Idf算法框架TraindataReplic ateRFMResultTestdata模型選擇GBDT回歸GBDT二分類RF二分類RF訓(xùn)練速度快:RF GBDT回歸 RF二分類 GBDT二分類效果好:RF RF二分類 GBDT二分類 GBDT回歸不易過(guò)擬合:訓(xùn)練過(guò)程中的數(shù)據(jù)抽樣和特征選擇模型融合0.02%Linearweighting.ResultRF8RF7RF2RF1模型融合未完成真正的融合方案RF/GBDT/LR.ResultRF8RF7RF2RF1可用性分析單模型R

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論