基于極限學習機的xml文檔分類方法_第1頁
基于極限學習機的xml文檔分類方法_第2頁
基于極限學習機的xml文檔分類方法_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于極限學習機的xml文檔分類方法

1elm相關內容elm是一種基于單層前鞘神經網絡特征的學習算法。在ELM中,隱藏節(jié)點參數被隨機選擇,能夠大大縮短對于訓練文檔的訓練時間。文獻將ELM應用于蛋白質二級結構的分類及預測,并且使用概率方法對ELM的輸出結果進行優(yōu)化。文獻研究了基于支持向量機(SupportVectorMachine,SVM)優(yōu)化方法的ELM,再次論證ELM相對SVM速度更快、參數不敏感且更容易部署。文獻實現將可擴展標記語言(eXtensibleMarkupLanguage,XML)文檔用結構鏈接向量模型(StructuredLinkVectorModel,SLVM)表示,作為神經網絡學習輸入的方法。本文對基于ELM的XML文檔分類方法進行研究,提出一種改進的特征向量模型RS-VSM以及基于投票機制的Voting-ELM算法。2文檔向量展示2.1關鍵特征詞語的特征值的計算無結構文檔通??梢允褂孟蛄靠臻g模型(VectorSpaceModel,VSM)來表示。VSM中的每一維表示每個關鍵詞語的特征值,從而形成一個高維空間:其中,dx表示文檔x的特征向量;n表示文檔不同關鍵特征詞語的個數。dx(i)表示每個詞語的TFIDF(TermFrequencyInverseDocumentFrequency)值:2.2結構約簡向量模型文獻提出基于VSM的擴展向量模型SLVM。SLVM能夠綜合表示文檔結構和內容。整個XML文檔則被量化為一組向量,以一個矩陣來表示。本文在SLVM的基礎上,通過信息增益的特征屬性約簡,產生結構約簡向量空間模型RS-VSM(ReducedStructuredVectorSpaceModel)。RS-VSM不僅能夠針對結構化文檔,表達結構信息,同時還利用屬性維度規(guī)約提高文檔向量表達的精度和效率:其中,d_rs(i)代表通過IG閾值δ約簡產生的n維結構向量中的第i個XML文檔元素的TFIDF特征向量。對于文檔集D,d_rs表示文檔d;εj表示ej的一個單元向量;M表示使用信息增益IG后產生的屬性子集且:3數學模型的表達ELM能夠達到更好的泛化學習性能,而且ELM對用戶指定參數更加不敏感,并且能夠更為便捷地部署應用。給定訓練集和激勵函數g(x),本文用如下數學模型表示標準SLFNs:其中,L為隱藏節(jié)點個數;wi=[wi1,wi2,???,win]T為連接第i個隱藏節(jié)點和輸入節(jié)點的權重向量;βi=[βi1,βi2,???,βim]T為連接第i個隱藏節(jié)點和輸出節(jié)點的權重向量;bi是第i個隱藏節(jié)點的偏倚。ELM學習模型的輸出公式為:其中,基于上面所描述的數學模型和設計思想,ELM算法描述如下:4voling-elm算法本文基于OAO(OneAgainstOne)與投票的思想,提出一種改進的二分ELM實現多分的算法(Voting-ELM)對分類進行優(yōu)化。對于m個類,每2個類之間訓練一個ELM分類器,總共需要m(m-1)/2個ELM分類器。即elm(j,k)只由屬于j類和k類的文檔進行訓練。在最終實際分類時,采用投票策略,輸出為1屬于其中一種類別,如j類;輸出為0屬于另一種類別,如k類。由每個ELM得出投票結果,最終得票最高的類即為最終分類結果。該方法的優(yōu)點在于每個ELM的復雜度低,訓練時間短。Voting-ELM算法代碼如下:在上述算法中,本文假定分類數為m。在將數據集分割為訓練集和驗證集時,驗證集的比例一般小于1/3。本文選取比例為訓練集75%,驗證集25%。從ELM的輸出節(jié)點得到的結果到最終分類結果的決策過程算法代碼如下:該過程基于投票機制,對于每個二分ELM,本文用輸出結果對ELM所代表的2個類進行投票,得到文檔的最終分類結果。5vcting-elm的隱藏層和訓練時間本文的實驗全部基于3.0GHz的雙核Intel處理器、2GB內存的PC機,實驗環(huán)境為VisualStudio2005以及Matlab。原始數據集為INEX2007Corpus中的Chinesetextualcorpus。本文選用的實驗數據集包含14150個文檔以及12個分類問題。本文確定Voting-ELM的隱藏層節(jié)點數為250,多分ELM的隱藏層節(jié)點數為200。在訓練時間方面,因為Voting-ELM利用OAO思想,每個單獨的ELM只負責2個特定類的分類情況,所以對于單個ELM,訓練速度要優(yōu)于多分ELM。但是因為Voting-ELM的單個ELM個數較多,所以總體時間還是大于多分ELM。測試時間亦此,因為Voting-ELM的每個分類測試用例需要通過每個單個ELM進行投票,所以總時間大于多分ELM。但Voting-ELM大于多分ELM時間并沒有超過本身數量級,Voting-ELM的總時間小于多分ELM時間的m(m-1)/2倍。Voting-ELM算法和ELM算法分類結果的性能評估如圖1所示。可以看出,在所有分類結果中,無論是從分類的準確性、召回率還是2項綜合考慮的F1值,Voting-ELM算法的分類性能都明顯優(yōu)于ELM算法。6基于s-vsm和vcting-elm算法的分類算法本文研究基于ELM的XML文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論