基于隨機(jī)森林的用戶行為識別模型研究_第1頁
基于隨機(jī)森林的用戶行為識別模型研究_第2頁
基于隨機(jī)森林的用戶行為識別模型研究_第3頁
基于隨機(jī)森林的用戶行為識別模型研究_第4頁
基于隨機(jī)森林的用戶行為識別模型研究_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、    基于隨機(jī)森林的用戶行為識別模型研究    余以勝摘要:以用戶歷史用電量為基礎(chǔ),提出了基于隨機(jī)森林的用戶行為識別模型,井在實(shí)驗(yàn)分析中與多個分類算法進(jìn)行對比。實(shí)驗(yàn)結(jié)果表明,在用戶竊電行為識別問題上,隨機(jī)森林組合模型具有更高良好的識別效果。關(guān)鍵詞:特征提取;用戶行為識別;隨機(jī)森林:tp311 :a :1009-3044(2017)07-0156-02根據(jù)國家電網(wǎng)公司統(tǒng)計,近年因竊電導(dǎo)致的損失達(dá)上千萬元。目前,竊電行為檢測更多還是采用人工現(xiàn)場檢測的方法,該方法效率低、成本高,而且有人為的參與,不利于電力企業(yè)的管理。因此,如何使用科學(xué)的方法實(shí)現(xiàn)智能化的用戶

2、檢測是供電企業(yè)的重要研究內(nèi)容。1基于隨機(jī)森林的用戶行為識別模型(1)特征提取本文以用戶最近一年的用電數(shù)據(jù)為基礎(chǔ),提取用戶行為特征并進(jìn)行用戶行為識別,主要從以下四個方面進(jìn)行特征提取:一是用戶各個月份的用電情況,二是對用電量進(jìn)行分段統(tǒng)計,三是用戶用電的趨勢,四是相鄰月份用電變化情況。用戶行為特征如表1所示。(2)隨機(jī)森林模型隨機(jī)森林是由breiman l于2001年提出的分類預(yù)測算法,目前在個人信貸、機(jī)器用戶識別、用戶流失預(yù)測等分類問題上有著廣泛的應(yīng)用,與單模型相比,隨機(jī)森林具有更強(qiáng)的泛化能力,能夠克服單個模型過擬合的問題。隨機(jī)森林由一組決策樹組成的組合分類器(h(x,k),k=1,2,3k),其

3、中k表示獨(dú)立隨機(jī)變量,k表示決策樹的數(shù)目,在給定x的條件下,隨機(jī)森林由k棵決策樹投票決定最優(yōu)的分類類別。本文在選擇分裂特征時采用gini值測度方法,gini值計算公式為:(1)其中,pi表示該類別i在該節(jié)點(diǎn)處的頻率,gini值越小,表示該節(jié)點(diǎn)的類別越純,當(dāng)該節(jié)點(diǎn)只有一個類別時,gini值為0。隨機(jī)森林一般情況下采用簡單的投票方法進(jìn)行最終的決策,即選擇所有決策樹中得票數(shù)最多的類別作為最終的分類結(jié)果。(2)其中,h(x)表示組合分類模型,hi(x)表示單個決策樹模型,y表示目標(biāo)變量,i(·)為示性函數(shù)。2實(shí)驗(yàn)分析結(jié)果本文以國家電網(wǎng)公司提供的用戶用電行為數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),并與其他算法進(jìn)行對

4、比。本文采用多次隨機(jī)實(shí)驗(yàn)的分類準(zhǔn)確率平均值和方差兩個維度來評估模型的性能。設(shè)分類類別標(biāo)簽y0,1,其中0表示正常用戶,1表示竊電用戶。用tp表示類別為1識別為1的數(shù)目,fp表示類別為0的用戶識別為1的數(shù)目,tn表示類別為0識別為0的數(shù)目,fn表示類別為1識別為0的數(shù)目。預(yù)測準(zhǔn)確率表示為:(3)本文采用50次隨機(jī)實(shí)驗(yàn),每次實(shí)驗(yàn)按照8:2的比例從原始數(shù)據(jù)中隨機(jī)抽取訓(xùn)練集和測試集。每組實(shí)驗(yàn)中,rf算法與以下分類算法進(jìn)行對比:(1)樸素貝葉斯;(2)邏輯回歸(lr);采用u正則化;(3)knn:參數(shù)k=5;(4)cart:使用gini指標(biāo)進(jìn)行最優(yōu)分類特征選取;(5)svm.采用高斯核函數(shù),懲罰項(xiàng)c=1

5、;(6)gbdt:學(xué)習(xí)率為0.01,決策樹深度為3。隨機(jī)森林的模型參數(shù)設(shè)置為;決策樹數(shù)目200,隨機(jī)特征數(shù)m=7。50組實(shí)驗(yàn)的測試結(jié)果如下所示:從表中的結(jié)果可以看出,不同算法的預(yù)測效果差別較大。nb的預(yù)測效果很差,precision只有不到65%。而rf的precision達(dá)到了91.3%,這個結(jié)果與單決策樹相比,準(zhǔn)確率相差超過10%。svm的準(zhǔn)確率也非常高,到達(dá)了86.6%,是單模型中表現(xiàn)最好的算法,但是rf的準(zhǔn)確率仍然要比svm高,而且方差更小性能更加穩(wěn)定。另一個組合分類器gbdt的平均分類準(zhǔn)確率要比較高,達(dá)到了87.5%,但無論在準(zhǔn)確率和穩(wěn)定性上rf都要更勝一籌??傮w而言,與其他幾個分類算法相比,rf在用戶竊電行為識別問題上具有更加優(yōu)秀的識別效果。3結(jié)論本文以用戶歷史數(shù)據(jù)為基礎(chǔ),從四個層面提取用戶竊用電行為特征,并將隨機(jī)森林引入用戶行為識別中,建立基于組合模型的用戶行為識別模型。實(shí)驗(yàn)表明,隨機(jī)森林無論在竊電行為識別的準(zhǔn)確率還是穩(wěn)定性上與其他分類器相比有更好的性能。隨機(jī)森林分類器與單模型相比,不僅分類的準(zhǔn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論