基于隨機(jī)森林的用戶行為識別模型研究

上傳人：伐*** IP屬地：寧夏上傳時間：2021-12-01 格式：DOCX 頁數(shù)：7 大小：286.05KB 積分：10.8 舉報 版權(quán)申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于隨機(jī)森林的用戶行為識別模型研究余以勝摘要：以用戶歷史用電量為基礎(chǔ)，提出了基于隨機(jī)森林的用戶行為識別模型，井在實(shí)驗(yàn)分析中與多個分類算法進(jìn)行對比。實(shí)驗(yàn)結(jié)果表明，在用戶竊電行為識別問題上，隨機(jī)森林組合模型具有更高良好的識別效果。關(guān)鍵詞：特征提取；用戶行為識別；隨機(jī)森林：tp311 ：a ：1009-3044（2017）07-0156-02根據(jù)國家電網(wǎng)公司統(tǒng)計，近年因竊電導(dǎo)致的損失達(dá)上千萬元。目前，竊電行為檢測更多還是采用人工現(xiàn)場檢測的方法，該方法效率低、成本高，而且有人為的參與，不利于電力企業(yè)的管理。因此，如何使用科學(xué)的方法實(shí)現(xiàn)智能化的用戶

2、檢測是供電企業(yè)的重要研究內(nèi)容。1基于隨機(jī)森林的用戶行為識別模型（1）特征提取本文以用戶最近一年的用電數(shù)據(jù)為基礎(chǔ)，提取用戶行為特征并進(jìn)行用戶行為識別，主要從以下四個方面進(jìn)行特征提取：一是用戶各個月份的用電情況，二是對用電量進(jìn)行分段統(tǒng)計，三是用戶用電的趨勢，四是相鄰月份用電變化情況。用戶行為特征如表1所示。（2）隨機(jī)森林模型隨機(jī)森林是由breiman l于2001年提出的分類預(yù)測算法，目前在個人信貸、機(jī)器用戶識別、用戶流失預(yù)測等分類問題上有著廣泛的應(yīng)用，與單模型相比，隨機(jī)森林具有更強(qiáng)的泛化能力，能夠克服單個模型過擬合的問題。隨機(jī)森林由一組決策樹組成的組合分類器（h（x，k），k=1，2，3k），其

3、中k表示獨(dú)立隨機(jī)變量，k表示決策樹的數(shù)目，在給定x的條件下，隨機(jī)森林由k棵決策樹投票決定最優(yōu)的分類類別。本文在選擇分裂特征時采用gini值測度方法，gini值計算公式為：（1）其中，pi表示該類別i在該節(jié)點(diǎn)處的頻率，gini值越小，表示該節(jié)點(diǎn)的類別越純，當(dāng)該節(jié)點(diǎn)只有一個類別時，gini值為0。隨機(jī)森林一般情況下采用簡單的投票方法進(jìn)行最終的決策，即選擇所有決策樹中得票數(shù)最多的類別作為最終的分類結(jié)果。（2）其中，h（x）表示組合分類模型，hi（x）表示單個決策樹模型，y表示目標(biāo)變量，i（·）為示性函數(shù)。2實(shí)驗(yàn)分析結(jié)果本文以國家電網(wǎng)公司提供的用戶用電行為數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)，并與其他算法進(jìn)行對

4、比。本文采用多次隨機(jī)實(shí)驗(yàn)的分類準(zhǔn)確率平均值和方差兩個維度來評估模型的性能。設(shè)分類類別標(biāo)簽y0，1，其中0表示正常用戶，1表示竊電用戶。用tp表示類別為1識別為1的數(shù)目，fp表示類別為0的用戶識別為1的數(shù)目，tn表示類別為0識別為0的數(shù)目，fn表示類別為1識別為0的數(shù)目。預(yù)測準(zhǔn)確率表示為：（3）本文采用50次隨機(jī)實(shí)驗(yàn)，每次實(shí)驗(yàn)按照8：2的比例從原始數(shù)據(jù)中隨機(jī)抽取訓(xùn)練集和測試集。每組實(shí)驗(yàn)中，rf算法與以下分類算法進(jìn)行對比：（1）樸素貝葉斯；（2）邏輯回歸（lr）；采用u正則化；（3）knn：參數(shù)k=5；（4）cart：使用gini指標(biāo)進(jìn)行最優(yōu)分類特征選取；（5）svm.采用高斯核函數(shù)，懲罰項(xiàng)c=1

5、；（6）gbdt：學(xué)習(xí)率為0.01，決策樹深度為3。隨機(jī)森林的模型參數(shù)設(shè)置為；決策樹數(shù)目200，隨機(jī)特征數(shù)m=7。50組實(shí)驗(yàn)的測試結(jié)果如下所示：從表中的結(jié)果可以看出，不同算法的預(yù)測效果差別較大。nb的預(yù)測效果很差，precision只有不到65%。而rf的precision達(dá)到了91.3%，這個結(jié)果與單決策樹相比，準(zhǔn)確率相差超過10%。svm的準(zhǔn)確率也非常高，到達(dá)了86.6%，是單模型中表現(xiàn)最好的算法，但是rf的準(zhǔn)確率仍然要比svm高，而且方差更小性能更加穩(wěn)定。另一個組合分類器gbdt的平均分類準(zhǔn)確率要比較高，達(dá)到了87.5%，但無論在準(zhǔn)確率和穩(wěn)定性上rf都要更勝一籌?？傮w而言，與其他幾個分類算法相比，rf在用戶竊電行為識別問題上具有更加優(yōu)秀的識別效果。3結(jié)論本文以用戶歷史數(shù)據(jù)為基礎(chǔ)，從四個層面提取用戶竊用電行為特征，并將隨機(jī)森林引入用戶行為識別中，建立基于組合模型的用戶行為識別模型。實(shí)驗(yàn)表明，隨機(jī)森林無論在竊電行為識別的準(zhǔn)確率還是穩(wěn)定性上與其他分類器相比有更好的性能。隨機(jī)森林分類器與單模型相比，不僅分類的準(zhǔn)

人人文庫> 全部分類> 生活休閑 > 科普知識

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于隨機(jī)森林的用戶行為識別模型研究

文檔簡介

溫馨提示

最新文檔

評論

基于隨機(jī)森林的用戶行為識別模型研究

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔