基于SOM和ID3算法綜合分析的負(fù)荷特性研究_第1頁
基于SOM和ID3算法綜合分析的負(fù)荷特性研究_第2頁
基于SOM和ID3算法綜合分析的負(fù)荷特性研究_第3頁
基于SOM和ID3算法綜合分析的負(fù)荷特性研究_第4頁
基于SOM和ID3算法綜合分析的負(fù)荷特性研究_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于SOM和ID3算法綜合分析的負(fù)荷特性研究胥威汀1,劉俊勇1,劉友波1(1四川大學(xué)電氣信息學(xué)院,四川 成都 610065)摘要:提出了一個電力用戶負(fù)荷特性表征體系用于對負(fù)荷特性的研究。負(fù)荷定性模塊和負(fù)荷分類模塊構(gòu)成了該體系。負(fù)荷定性模塊使用自組織特征映射(SOM)網(wǎng)絡(luò)和K均值聚類操作創(chuàng)造出一套用戶分組,并取每個分組內(nèi)所有負(fù)荷曲線的均值以標(biāo)識出各組的典型負(fù)荷特性。分類模塊根據(jù)這些訓(xùn)練集的聚類結(jié)果和負(fù)荷曲線形態(tài)指標(biāo)建立出一個ID3分類決策樹,使其能夠把不同的用戶分配到現(xiàn)有的分組中。文章最后用一個真實數(shù)據(jù)算例說明了方法的有效性。關(guān)鍵字:分類;聚類;數(shù)據(jù)挖掘;負(fù)荷特性Abstract:This pa

2、per proposed an electricity consumer characterization framework used to study load characteristics. The load profiling module and the classification module compose this framework. The load profiling module creates a set of consumer classes by using self-organizing maps(SOM) and k-means clustering op

3、eration. The representative load profiles for each class are built by averaging the measured load diagrams in each class. Based on several profile curve indexes, the classification module uses these clusters knowledge to build a ID3 classification decision tree which is able to assign different cons

4、umers to the existing classes. The quality of this framework is illustrated with a case study concerning a real database.Index Terms:Classification; Clustering; Data mining; Load profiles隨著電力工業(yè)的發(fā)展和電力體制改革的深化,電力行業(yè)的管理和電力企業(yè)的運營逐步暴露出一些新的問題。比如電力用戶分類不盡合理,阻礙了市場經(jīng)濟條件下電力資源的優(yōu)化配置。由于用戶的負(fù)荷曲線反映了用戶用電行為的特征和偏好,而不同的用電行為

5、因其對電力系統(tǒng)的生產(chǎn)運行成本影響不同,對電價的形成具有重要影響,因此,利用負(fù)荷曲線的特征對用戶進行特性分析有利于合理電價機制的形成,有助于電力銷售公司制定營銷策略1。另外,由于電力負(fù)荷數(shù)據(jù)量不斷增大,新負(fù)荷指標(biāo)不斷增多,分析變得越來越復(fù)雜,這就給負(fù)荷特性研究帶來了很大的困難。所以,電力負(fù)荷特性分析迫切需要一種能快速處理海量數(shù)據(jù)的技術(shù)支持。這就需要把數(shù)據(jù)挖掘技術(shù)引入到電力用戶負(fù)荷特性的分析中來。基于數(shù)據(jù)挖掘技術(shù)的負(fù)荷特性分析方法應(yīng)運而生2。1 電力用戶負(fù)荷特性表征體系該體系是基于以應(yīng)用于進程中不同的階段的數(shù)據(jù)挖掘(DM)技術(shù)為支撐的數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD)程序的體系3。該體系的結(jié)構(gòu)可見下圖:初始

6、數(shù)據(jù)集數(shù)據(jù)預(yù)處理典型負(fù)荷曲線分類指標(biāo)分類數(shù)目聚類模塊分類模塊負(fù)荷特性決策樹規(guī)則集分組圖1 電力用戶負(fù)荷特性表征體系的結(jié)構(gòu)該系統(tǒng)運行步驟如下:體系首先對輸入的初始數(shù)據(jù)集進行選擇、清理和簡化等預(yù)處理,處理后的數(shù)據(jù)集被轉(zhuǎn)化為每個用戶的典型負(fù)荷曲線。之后,這些曲線與分類指標(biāo)將一并作為聚類模塊和分類模塊的輸入項輸入數(shù)據(jù)挖掘模塊。在聚類模塊中,先要指定分類數(shù)目,經(jīng)過一系列聚類操作,典型負(fù)荷曲線會被聚為數(shù)類,同時獲取到各類負(fù)荷平均化后的負(fù)荷曲線,作為每一類的代表曲線;在分類模塊中,聚類結(jié)果會作為目標(biāo)屬性,分類指標(biāo)作為分類屬性,經(jīng)過先前預(yù)處理得到的用戶負(fù)荷特性曲線作為分類對象,一并輸入分類模塊,訓(xùn)練得到一棵決

7、策樹,以此導(dǎo)出規(guī)則集,作為負(fù)荷特性分類預(yù)測的依據(jù)4。如下圖所示:聚類算法的結(jié)構(gòu)SOM:維度簡化K均值:獲取最終聚類(分組)對同一聚類分組中的用戶典型負(fù)荷特性曲線取平均負(fù)荷特性Som輸出單元權(quán)值向量圖2 負(fù)荷定性模塊的結(jié)構(gòu)負(fù)荷形態(tài)指標(biāo):每一個典型負(fù)荷圖表都將轉(zhuǎn)化為一組對應(yīng)負(fù)荷形態(tài)指標(biāo)的值分類算法的結(jié)構(gòu)使用算法:ID3輸入屬性:每一個用戶的負(fù)荷形態(tài)和商業(yè)指標(biāo)目標(biāo)屬性:用戶分組模型評價:十倍交叉驗證法分類模塊:決策樹規(guī)則集按指標(biāo)離散化:按照以區(qū)間均衡法制定的指標(biāo)進行數(shù)據(jù)離散每一個區(qū)間作為各自分組的標(biāo)簽和名詞屬性圖3 分類模塊的結(jié)構(gòu)2 基于數(shù)據(jù)挖掘技術(shù)的負(fù)荷特性表征體系原理電力用戶負(fù)荷特性表征體系中所

8、用到的數(shù)據(jù)挖掘技術(shù)有:負(fù)責(zé)聚類操作的自組織特征映射(SOM)和K均值聚類,負(fù)責(zé)分類預(yù)測的ID3決策樹。2.1 自組織特征映射(SOM)圖4 SOM網(wǎng)絡(luò)的結(jié)構(gòu)自組織映射學(xué)習(xí)算法包含競爭、合作和更新三個過程5:1) 競爭過程: (1)輸入向量X和權(quán)值向量Wi的歐氏距離最小值勝出。2)合作過程: (2)以在競爭過程中得到的獲勝神經(jīng)元為中心取拓?fù)溧徲?,在鄰域范圍?nèi)的神經(jīng)元為激活神經(jīng)元。3)更新過程: (3)權(quán)值向量的更新。網(wǎng)絡(luò)經(jīng)過以上學(xué)習(xí)訓(xùn)練后,如果訓(xùn)練充分且算法收斂,則自組織特征映射網(wǎng)絡(luò)具有特征映射能力6。2.2 K均值聚類K均值算法的基本思想為7:(1)首先從n個數(shù)據(jù)對象中任意選擇k個對象作為初始

9、聚類中心;(2)根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;(3)再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值); 不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止。一般都采用數(shù)據(jù)庫中所有對象與相應(yīng)聚類中心的均方差之和作為標(biāo)準(zhǔn)測度函數(shù)8: (4)2.3 ID3決策樹ID3是基于信息熵的決策樹分類算法。該算法的核心是在決策樹中各級結(jié)點上對屬性的選擇。使用該屬性將訓(xùn)練樣本集分成子集后,系統(tǒng)的熵值最小,即最大信息增益9。 (5)這樣不斷劃分結(jié)點 ,直到不能再劃分,就作為葉結(jié)點。最終構(gòu)成完整的樹型。這些葉結(jié)點就是分類結(jié)果。訓(xùn)練好的決策樹可以用于對

10、用戶的分類預(yù)測。實際上,能正確分類訓(xùn)練集的決策樹不只一棵。而ID3算法能得出的是結(jié)點信息最小的決策樹。ID3算法總的來說是一個很有實用價值的示例學(xué)習(xí)算法,它的基礎(chǔ)理論清晰,算法較簡單,學(xué)習(xí)能力較強,是數(shù)據(jù)挖掘和機器學(xué)習(xí)領(lǐng)域中一個極好范例10。3 實際算例分析本章節(jié)展示的算例會對一個擁有73個電力用戶信息的數(shù)據(jù)庫進行聚類和分類。這里用到的是某西南省份供電公司提供的用戶日載荷數(shù)據(jù)。該日用戶數(shù)據(jù)集是用戶的每小時電量,這些數(shù)據(jù)集轉(zhuǎn)化為各電力用戶負(fù)荷曲線,經(jīng)預(yù)處理后輸入到前面章節(jié)介紹的電力用戶負(fù)荷特性表征體系中進行操作。其結(jié)果在本章有相應(yīng)展示。3.1 數(shù)據(jù)預(yù)處理每個用戶都會在各自的數(shù)據(jù)集合里被一個唯一的

11、典型負(fù)荷曲線所表述,以此區(qū)別不同的載荷狀態(tài),這些典型負(fù)荷特性曲線就是通過對原始用戶數(shù)據(jù)作平均化處理后得到的。它們需要綜合為相似的規(guī)模以便進行模式比較。要使輸入聚類模塊的特性曲線的形態(tài)具有可比性,需要對用戶數(shù)據(jù)進行歸一化處理。圖5 歸一化處理之后的負(fù)荷曲線歸一化按照以下公式進行: (6)3.2 聚類模塊在該體系中,SOM網(wǎng)絡(luò)首先用輸入數(shù)據(jù)進行網(wǎng)絡(luò)訓(xùn)練。網(wǎng)絡(luò)根據(jù)算法不斷地迭代更新輸入向量與輸出神經(jīng)元、神經(jīng)元與神經(jīng)元之間的權(quán)重值,以形成一個成熟的普遍適用的SOM網(wǎng)絡(luò)。接下來對輸入數(shù)據(jù)進行仿真,得到一系列投射在SOM輸出層的點,這些就是輸入數(shù)據(jù)對應(yīng)的激活神經(jīng)元。激活同一神經(jīng)元的特性曲線自然被歸入同一類

12、別,這樣初步的聚類也就形成了。下面是訓(xùn)練后的SOM網(wǎng)絡(luò)對訓(xùn)練集的仿真結(jié)果:表1 Somout(步數(shù):10000/25)輸入用戶12345678激活神經(jīng)元2811621244542589101112131415161718584836810864365236192021222324252627284949644726321039442930313233343536373821616223516216148394041424344454647481648 725232376419524950515253545556575814746562993242294259606162636465666768

13、436 5842657253364586970717273579336138表2 輸入數(shù)據(jù)對應(yīng)的SOM網(wǎng)絡(luò)二維輸出層12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364將SOM網(wǎng)絡(luò)輸出層的激活神經(jīng)元表示為直角坐標(biāo)系上的坐標(biāo)點,再把這些二維數(shù)據(jù)點輸入K均值聚類函數(shù)進行聚類運算。K均值聚類函數(shù)以各元到各自聚類中心的均方差之和作為標(biāo)準(zhǔn)測度,不斷疊代,至其收斂,其結(jié)果就能在平面上表示為不同的區(qū)域,而每一個區(qū)域內(nèi)的點即是

14、被歸為同一類的SOM激活神經(jīng)元。圖6 K均值聚類結(jié)果(5類)SOM網(wǎng)絡(luò)聚類的結(jié)果為輸入數(shù)據(jù)映射到輸出平面的激活神經(jīng)元,K均值聚類結(jié)果為激活神經(jīng)元在二維平面上按照各元到中心的均方差之和進行迭代收斂操作而得到的5個分類。將SOM網(wǎng)絡(luò)的聚類結(jié)果與K均值的聚類結(jié)果通過對激活神經(jīng)元的操作對應(yīng)聯(lián)系起來,就能把輸入的數(shù)據(jù)集劃分為5類,即得到聚類模塊的輸出結(jié)果:表3 Clustering Module Results類別用戶序號11038401521466722502432355272233036395121433434441455560375658896168174819203459646966714231

15、37491326232529426547547062635146111618272851535773每一類的用戶負(fù)荷特性曲線如下面5張圖表所示:圖7 第一類曲線圖8 第二類曲線圖9 第三類曲線圖10 第四類曲線圖11 第五類曲線上面5張圖表分別表示了屬于5個類別的電力用戶日負(fù)荷特性曲線??梢?3個用戶被很好的分為了5類:同類曲線形態(tài)相近,而不同類的曲線形態(tài)明顯相異。對每一類中的所有用戶曲線進行平均化操作,就可以得到5個具有代表性的特性曲線,這就是用于表征各自類別的典型負(fù)荷曲線:+1類 O2類 3類 4類 *5類圖12 最終聚類結(jié)果如圖所示,對73個用戶的分類效果非常明顯,通過對曲線的分析也能夠

16、挖掘出一些具體的信息:第1類用戶屬于避峰用戶,聚到這一類的用戶一般是在夜間用電,以避開常規(guī)上班和居民生活的用電高峰時段,緩解了供電緊張情況,同時也降低了用電成本;第2類用戶屬于常規(guī)工作用戶,聚為該類的用戶大多是工廠、學(xué)校、公司等按正常上班時間用電的單位;第3類曲線相對比較平緩,可能代表了常設(shè)工作崗位;第4類曲線屬于居民生活用電曲線,歸為這類的用戶大都是下班之后回家,通過下廚、照明等行為用電的居民用戶;第5類用戶曲線比較平緩,夜間用電量稍微低一些,但起伏不大,可能是白天需電量不大的常規(guī)工作單位。3.3 分類模塊表4 規(guī)范化負(fù)荷形態(tài)指標(biāo)參量 定義 定義時段負(fù)荷率 1天峰谷差率 1天曲線走向 上午:

17、210 下午:1523午間載荷率 1天(午間:1113)夜間載荷率 1天(夜間:06以及23)ID3算法要求其分類屬性為名詞性屬性,所以需要先對所有用戶的典型負(fù)荷特性曲線作離散擬合。這里根據(jù)負(fù)荷率、峰谷差率、曲線走向、午間載荷量和夜間載荷量取合適的界定范圍完成屬性擬合。表5 負(fù)荷特性屬性集分類屬性a1負(fù)荷率<0.6低, 0.60.76)中, >=0.76高a2峰谷差率<0.65低, 0.650.9)中, >=0.9高a3曲線走向<-0.1上升, -0.10.1)不明顯, >=0.1下降a4午間載荷量<0.09較低, 0.090.12)適中, >=

18、0.12較高a5夜間載荷量<0.2較低, 0.20.45)適中, >=0.45較高目標(biāo)屬性d1所屬聚類class1,class2,class3,class4,class5每一個名詞性屬性包含3個取值,在接下來的決策樹中就可以作為屬性結(jié)點的3個樹枝,以便對負(fù)荷根據(jù)不同屬性進行分類。這樣擬合后得到的用戶屬性集就可以直接用于構(gòu)造決策樹了。把上述屬性表載入ID3算法程序中進行訓(xùn)練,得到一棵決策樹。夜間載荷量曲線走向曲線走向峰谷差率午間載荷量午間載荷量負(fù)荷率負(fù)荷率222224344無5無121較低適中較高上升不明顯高較低適中較高上升不明顯下降較低適中較高低中高低中下降低中高55圖13 負(fù)荷特

19、性決策樹這里隨機取2個用戶作為例子輸入該決策樹,測試其分類效果。例如,數(shù)據(jù)集中第5個用戶的夜間載荷量“較低”、曲線走向“下降”,則按照樹形理出來的葉結(jié)點為“2”,那么它就歸為第2類用戶;第34個用戶的夜間載荷量“適中”、曲線走向“上升”、午間載荷量“較高”,按其分類屬性值梳理出來的葉結(jié)點是“3”,則第34個用戶屬于第3類用戶。以此類推,每一個用戶都能根據(jù)自己的分類屬性值在決策樹中找到各自所屬的分組。如果訓(xùn)練集足夠大,樣本分布足夠廣,就能夠使決策樹普遍適用,達(dá)到準(zhǔn)確分類預(yù)測的功能。在分類算法的最后,將名詞性屬性還原到連續(xù)值,按照決策樹的根、枝、葉的隸屬、并列等關(guān)系導(dǎo)出一個負(fù)荷特性規(guī)則集,以便于對

20、負(fù)荷分類預(yù)測的實際應(yīng)用。表4-6 負(fù)荷特性規(guī)則集if a5<0.2then class2if a50.20.45) and a3<-0.1 and a4<0.09then class4if a50.20.45) and a3<-0.1 and a40.090.12) and a1<0.76then class4if a50.20.45) and a3<-0.1 and a4>=0.12then class3if a50.20.45) and a3-0.10.1)then class5if a50.20.45) and a3>=0.1 and a1

21、<0.6 and a20.650.9)then class1if a50.20.45) and a3>=0.1 and a1<0.6 and a2>=0.9then class2if a50.20.45) and a3>=0.1 and a1>=0.6then class5if a5>=0.45then class14 結(jié)論與展望本文提出的體系能夠從電力用戶數(shù)據(jù)集中獲取一套表征為各類負(fù)荷特性的用戶分組和一個表征為負(fù)荷特性決策規(guī)則集的分類預(yù)測模型 ,對負(fù)荷特性研究工作非常有幫助,也能支持實際的應(yīng)用。如果該體系能在計算速度、數(shù)據(jù)處理量和魯棒性方面不斷改進和完善,它將可以作為一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論