




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、 基于隨機(jī)森林的用戶行為識別模型研究 余以勝摘要:以用戶歷史用電量為基礎(chǔ),提出了基于隨機(jī)森林的用戶行為識別模型,井在實(shí)驗(yàn)分析中與多個分類算法進(jìn)行對比。實(shí)驗(yàn)結(jié)果表明,在用戶竊電行為識別問題上,隨機(jī)森林組合模型具有更高良好的識別效果。關(guān)鍵詞:特征提取;用戶行為識別;隨機(jī)森林:tp311 :a :1009-3044(2017)07-0156-02根據(jù)國家電網(wǎng)公司統(tǒng)計,近年因竊電導(dǎo)致的損失達(dá)上千萬元。目前,竊電行為檢測更多還是采用人工現(xiàn)場檢測的方法,該方法效率低、成本高,而且有人為的參與,不利于電力企業(yè)的管理。因此,如何使用科學(xué)的方法實(shí)現(xiàn)智能化的用戶
2、檢測是供電企業(yè)的重要研究內(nèi)容。1基于隨機(jī)森林的用戶行為識別模型(1)特征提取本文以用戶最近一年的用電數(shù)據(jù)為基礎(chǔ),提取用戶行為特征并進(jìn)行用戶行為識別,主要從以下四個方面進(jìn)行特征提取:一是用戶各個月份的用電情況,二是對用電量進(jìn)行分段統(tǒng)計,三是用戶用電的趨勢,四是相鄰月份用電變化情況。用戶行為特征如表1所示。(2)隨機(jī)森林模型隨機(jī)森林是由breiman l于2001年提出的分類預(yù)測算法,目前在個人信貸、機(jī)器用戶識別、用戶流失預(yù)測等分類問題上有著廣泛的應(yīng)用,與單模型相比,隨機(jī)森林具有更強(qiáng)的泛化能力,能夠克服單個模型過擬合的問題。隨機(jī)森林由一組決策樹組成的組合分類器(h(x,k),k=1,2,3k),其
3、中k表示獨(dú)立隨機(jī)變量,k表示決策樹的數(shù)目,在給定x的條件下,隨機(jī)森林由k棵決策樹投票決定最優(yōu)的分類類別。本文在選擇分裂特征時采用gini值測度方法,gini值計算公式為:(1)其中,pi表示該類別i在該節(jié)點(diǎn)處的頻率,gini值越小,表示該節(jié)點(diǎn)的類別越純,當(dāng)該節(jié)點(diǎn)只有一個類別時,gini值為0。隨機(jī)森林一般情況下采用簡單的投票方法進(jìn)行最終的決策,即選擇所有決策樹中得票數(shù)最多的類別作為最終的分類結(jié)果。(2)其中,h(x)表示組合分類模型,hi(x)表示單個決策樹模型,y表示目標(biāo)變量,i(·)為示性函數(shù)。2實(shí)驗(yàn)分析結(jié)果本文以國家電網(wǎng)公司提供的用戶用電行為數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),并與其他算法進(jìn)行對
4、比。本文采用多次隨機(jī)實(shí)驗(yàn)的分類準(zhǔn)確率平均值和方差兩個維度來評估模型的性能。設(shè)分類類別標(biāo)簽y0,1,其中0表示正常用戶,1表示竊電用戶。用tp表示類別為1識別為1的數(shù)目,fp表示類別為0的用戶識別為1的數(shù)目,tn表示類別為0識別為0的數(shù)目,fn表示類別為1識別為0的數(shù)目。預(yù)測準(zhǔn)確率表示為:(3)本文采用50次隨機(jī)實(shí)驗(yàn),每次實(shí)驗(yàn)按照8:2的比例從原始數(shù)據(jù)中隨機(jī)抽取訓(xùn)練集和測試集。每組實(shí)驗(yàn)中,rf算法與以下分類算法進(jìn)行對比:(1)樸素貝葉斯;(2)邏輯回歸(lr);采用u正則化;(3)knn:參數(shù)k=5;(4)cart:使用gini指標(biāo)進(jìn)行最優(yōu)分類特征選取;(5)svm.采用高斯核函數(shù),懲罰項(xiàng)c=1
5、;(6)gbdt:學(xué)習(xí)率為0.01,決策樹深度為3。隨機(jī)森林的模型參數(shù)設(shè)置為;決策樹數(shù)目200,隨機(jī)特征數(shù)m=7。50組實(shí)驗(yàn)的測試結(jié)果如下所示:從表中的結(jié)果可以看出,不同算法的預(yù)測效果差別較大。nb的預(yù)測效果很差,precision只有不到65%。而rf的precision達(dá)到了91.3%,這個結(jié)果與單決策樹相比,準(zhǔn)確率相差超過10%。svm的準(zhǔn)確率也非常高,到達(dá)了86.6%,是單模型中表現(xiàn)最好的算法,但是rf的準(zhǔn)確率仍然要比svm高,而且方差更小性能更加穩(wěn)定。另一個組合分類器gbdt的平均分類準(zhǔn)確率要比較高,達(dá)到了87.5%,但無論在準(zhǔn)確率和穩(wěn)定性上rf都要更勝一籌??傮w而言,與其他幾個分類算法相比,rf在用戶竊電行為識別問題上具有更加優(yōu)秀的識別效果。3結(jié)論本文以用戶歷史數(shù)據(jù)為基礎(chǔ),從四個層面提取用戶竊用電行為特征,并將隨機(jī)森林引入用戶行為識別中,建立基于組合模型的用戶行為識別模型。實(shí)驗(yàn)表明,隨機(jī)森林無論在竊電行為識別的準(zhǔn)確率還是穩(wěn)定性上與其他分類器相比有更好的性能。隨機(jī)森林分類器與單模型相比,不僅分類的準(zhǔn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 統(tǒng)計學(xué)考試復(fù)習(xí)戰(zhàn)略與技巧試題及答案
- 統(tǒng)計學(xué)調(diào)查研究方法討論試題及答案
- 公務(wù)員省考筆試與面試的準(zhǔn)備策略試題及答案
- 2025進(jìn)出口貿(mào)易合同范本
- 湖南省懷化市新晃侗族自治縣大灣羅中學(xué)2024-2025學(xué)年七年級下學(xué)期3月月考語文試題(無答案)
- 統(tǒng)計學(xué)基礎(chǔ)知識與考題對應(yīng)分析試題及答案
- 2025二手房買賣定金協(xié)議書合同樣本
- 政治經(jīng)濟(jì)學(xué)重點(diǎn)
- 2025新款辦公室租賃合同模板
- 2025中介合同簽訂流程
- 2023年考研數(shù)學(xué)三真題及答案
- 一年級下冊口算題卡大全(50套直接打印版)
- 醫(yī)院公共衛(wèi)生管理制度
- 2024年版-生產(chǎn)作業(yè)指導(dǎo)書SOP模板
- DL-T5508-2015燃?xì)夥植际焦┠苷驹O(shè)計規(guī)范
- 汽車吊裝專項(xiàng)施工方案及流程
- 2024年安徽省合肥市新站區(qū)中考一模數(shù)學(xué)試題
- 智聯(lián)招聘測評題庫2024答案
- 地震應(yīng)急疏散演練方案安全教育
- 無人生還介紹讀后感課件
- 彝族服飾簡要介紹課件
評論
0/150
提交評論