基于神經(jīng)網(wǎng)絡(luò)的文本分類器_第1頁
基于神經(jīng)網(wǎng)絡(luò)的文本分類器_第2頁
基于神經(jīng)網(wǎng)絡(luò)的文本分類器_第3頁
基于神經(jīng)網(wǎng)絡(luò)的文本分類器_第4頁
基于神經(jīng)網(wǎng)絡(luò)的文本分類器_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于神經(jīng)網(wǎng)絡(luò)的文本分類器

1深度研究和文本分類數(shù)據(jù)捕獲(dad)通常從大量數(shù)據(jù)中提取或提取知識,數(shù)據(jù)捕獲也被稱為數(shù)據(jù)庫知識發(fā)現(xiàn)(dad)。這是一個(gè)復(fù)雜的過程,從各種數(shù)據(jù)中提取未知和有價(jià)值的知識,并根據(jù)規(guī)則進(jìn)行挖掘?,F(xiàn)在對于數(shù)據(jù)挖掘技術(shù)的研究已經(jīng)相當(dāng)深入,其范圍涉及到關(guān)聯(lián)規(guī)則挖掘、分類規(guī)則挖掘、聚類規(guī)則挖掘、趨勢分析等方面。但是這些研究基本上是基于結(jié)構(gòu)化數(shù)據(jù),比如事物數(shù)據(jù)庫,卻很少有工作研究異質(zhì)、非結(jié)構(gòu)化的數(shù)據(jù)。目前互聯(lián)網(wǎng)上的信息主要以文本形式存在,所以從文本中獲得潛在的知識就成為知識發(fā)現(xiàn)領(lǐng)域中的重要方面。文本挖掘也成為數(shù)據(jù)挖掘的一個(gè)熱點(diǎn)。文本挖掘是一門涉及數(shù)據(jù)挖掘技術(shù)、文本處理技術(shù)、人工智能技術(shù)的綜合學(xué)科。文本挖掘從功能上可以分為總結(jié)、分類、聚類、趨勢預(yù)測等。其中文本分類指按照預(yù)先定義的分類體系,將文檔集合的每個(gè)文檔歸入某個(gè)類別。這樣,用戶不但能夠方便地瀏覽文檔,而且可以通過限制搜索范圍來使文檔的查找更為容易。目前,許多網(wǎng)站如Yahoo仍然是通過人工對Web文檔進(jìn)行分類,這大大限制了其索引頁面的數(shù)目和覆蓋范圍??梢哉f研究文本分類有著廣泛的應(yīng)用前景。文本分類是高效檢索的基礎(chǔ),是海量文本信息庫的一種數(shù)據(jù)組織技術(shù),準(zhǔn)確精細(xì)的文本分類可大大提高檢索的速度和精度,其本身也是一種高效的檢索手段。文本自動分類可節(jié)約大量人力和財(cái)力,避免人工分類帶來的周期長、費(fèi)用高、效率低等諸多缺陷。2神經(jīng)網(wǎng)絡(luò)及其機(jī)制人工神經(jīng)網(wǎng)絡(luò)是基于連接學(xué)說構(gòu)造的智能仿生模型,它是由大量神經(jīng)元組成的非線性動力學(xué)系統(tǒng)。人工神經(jīng)網(wǎng)絡(luò)是算法與結(jié)構(gòu)的統(tǒng)一體,也是硬件與軟件的混合體。具有非線性、非局域性、非定常性和非凸性等特點(diǎn),主要研究非程序的、自適應(yīng)性的和腦膜式的信息處理的本質(zhì)與能力。人工神經(jīng)網(wǎng)絡(luò)的研究與發(fā)展將對人工智能、認(rèn)知科學(xué)、自動控制等學(xué)科產(chǎn)生重大影響。人工神經(jīng)元網(wǎng)絡(luò)是作為信息處理單元來模仿大腦,執(zhí)行特定的任務(wù)或完成感興趣的功能。神經(jīng)網(wǎng)絡(luò)是一種并行的分布式信息處理結(jié)構(gòu),它通過稱為連接的單向信號通路將一些處理單元(具有局部存儲并能執(zhí)行局部信息處理能力)互連而組成。每一個(gè)處理單元都有一個(gè)單輸出到所期望的連接。每一個(gè)處理單元傳送相同的信號———處理單元輸出信號。處理單元的輸出信號可以是一種所要求的數(shù)學(xué)類型。在每一個(gè)處理單元中執(zhí)行的信息處理在它必須完全是局部的限制下可以被任意定義,即它必須只依賴于處理單元所接受的輸入激勵(lì)信號的當(dāng)前值和處理單元本身所存儲記憶的值。近幾年神經(jīng)網(wǎng)絡(luò)模式識別逐漸成為模式識別領(lǐng)域的一個(gè)新的研究方向。由于神經(jīng)網(wǎng)絡(luò)的高速并行處理、分布存貯信息等特性符合人類視覺系統(tǒng)的基本原則,具有很強(qiáng)的自學(xué)習(xí)性、自組織性、容錯(cuò)性、高度非線性、高的魯棒性、聯(lián)想記憶功能和推理意識功能等,能夠?qū)崿F(xiàn)目前基于計(jì)算理論層次上的模式識別理論所無法完成的模式信息處理工作,所以,采用神經(jīng)網(wǎng)絡(luò)進(jìn)行模式識別,突破了傳統(tǒng)模式識別技術(shù)的束縛,開辟了模式識別發(fā)展的新途徑。同時(shí),神經(jīng)網(wǎng)絡(luò)模式識別也成為神經(jīng)網(wǎng)絡(luò)最成功和最有前途的應(yīng)用領(lǐng)域之一。3基于專業(yè)能力模型的分類器訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)是數(shù)據(jù)挖掘中的一種常用技術(shù)方法,作者充分發(fā)揮神經(jīng)網(wǎng)絡(luò)一些固有的優(yōu)勢,并針對它的缺點(diǎn)運(yùn)用新的技術(shù)進(jìn)行彌補(bǔ),構(gòu)造出一個(gè)基于神經(jīng)網(wǎng)絡(luò)的文本分類器。針對現(xiàn)實(shí)工作情況與工作環(huán)境條件,把分類器分成訓(xùn)練和分類兩個(gè)部分,啟動后首先進(jìn)行的是訓(xùn)練。首先根據(jù)工作環(huán)境、工作需求等建立專用詞典;對經(jīng)過人工分類的文本進(jìn)行分析,建立訓(xùn)練語料庫;利用詞典詞條對訓(xùn)練語料庫進(jìn)行詞條切分、詞頻統(tǒng)計(jì)、生成訓(xùn)練語料庫的特征向量表;使用潛在語義索引法,對特征向量矩陣進(jìn)行奇異值分解,實(shí)現(xiàn)降維;運(yùn)用GA(遺傳算法)優(yōu)化權(quán)值,并設(shè)置為ANN(人工神經(jīng)網(wǎng)絡(luò))的初始權(quán)值;對降維后的特征向量矩陣運(yùn)用ANN進(jìn)行訓(xùn)練,達(dá)到滿意效果后,得到固定權(quán)值,作為分類知識存儲在網(wǎng)絡(luò)中。分類器在訓(xùn)練完之后,就可以對待分類文檔進(jìn)行分類了,分類過程和訓(xùn)練過程大致相同,首先利用詞典詞條對待分類文檔進(jìn)行詞條切分、詞頻統(tǒng)計(jì)、生成待分類文檔的特征向量;經(jīng)過和訓(xùn)練時(shí)同樣的潛在語義索引降維轉(zhuǎn)換;由于訓(xùn)練過后網(wǎng)絡(luò)的權(quán)值已經(jīng)固定,不再需要GA優(yōu)化的過程直接運(yùn)用ANN計(jì)算分類結(jié)果,得到已分類文檔。3.1從類別文本中抽取關(guān)鍵詞項(xiàng)在對文檔進(jìn)行特征提取之前,需要先進(jìn)行文本信息的預(yù)處理———特征詞條的選擇。從分類文本中有意義地抽取關(guān)鍵詞項(xiàng)的相關(guān)信息,是非常重要的技術(shù),也是文本處理的基本要求。因此中文文檔的詞條切分處理,也就是漢語的自動分詞成為工作的重要部分,在文中采用的是最長次長匹配分詞方法。3.2不同屬性的隱含層文本分類器可采用一種三層前饋型BP網(wǎng)絡(luò),來進(jìn)行自動知識獲取。BP網(wǎng)絡(luò)有三個(gè)基本層,即輸入層、隱含層和輸出層。每個(gè)層都包含若干節(jié)點(diǎn)(神經(jīng)元)。輸入層的節(jié)點(diǎn)數(shù)通常為矢量的個(gè)數(shù),輸出層節(jié)點(diǎn)數(shù)為輸出矢量的個(gè)數(shù),確定適當(dāng)?shù)碾[含層節(jié)點(diǎn)很重要,它直接影響網(wǎng)絡(luò)的性能,一般是根據(jù)經(jīng)驗(yàn)來確定。層與層之間的每個(gè)連接都有一個(gè)可以調(diào)整的權(quán),權(quán)是根據(jù)訓(xùn)練數(shù)據(jù)不斷調(diào)整所計(jì)算出來的系數(shù),它決定一個(gè)輸入矢量對輸出矢量的影響。3.3基于k維空間的相似度潛在語義索引(LatentSemanticIndexing,簡稱LSI)是信息檢索中的一種常用技術(shù),來源于解決標(biāo)準(zhǔn)向量空間模型中詞匯的同義、多義和近義現(xiàn)象問題。其基本思想是文本中的詞與詞之間存在某種聯(lián)系,即存在某種潛在的語義結(jié)構(gòu),因此采用統(tǒng)計(jì)的方法來尋找該語義結(jié)構(gòu),并且用語義結(jié)構(gòu)來表示詞和文本。這樣的結(jié)果可以達(dá)到消除詞之間的相關(guān)性,化簡文本向量的目的。潛在的語義索引根據(jù)詞匯之間的依賴性,對詞-文檔矩陣(Term-DocumentMatrix)進(jìn)行奇異值分解(SingularValueDecomposition,SVD)把原始空間中的向量壓縮成新的消除依賴性的獨(dú)立維。這種方法的一個(gè)特點(diǎn)是新產(chǎn)生的向量維不像特征選擇和詞聚類一樣可以直接解釋,而是代表一些潛在的語義結(jié)構(gòu),新產(chǎn)生的向量實(shí)際上是原始空間的扭曲,在這個(gè)新的空間里相同概念的詞匯之間互相相鄰。在LSI模型中,一個(gè)文檔庫可以表示為一個(gè)m×n的詞-文檔矩陣A。這里,n表示文檔庫中的文檔數(shù);m表示文檔庫中包含的所有不同的詞的個(gè)數(shù)。L(i,j)表示局部權(quán)值,G(i)表示全局權(quán)值,表1和表2分別是常用的局部值和全局權(quán)值的取值方法。其中,tfij和gfi分別表示詞i在文檔j和整個(gè)文檔庫中的出現(xiàn)頻度;dfi為文檔庫中包含詞的文檔數(shù)目;Nd為文檔庫中的文檔總數(shù);在文中,作者所采用的就是以對數(shù)詞頻法取局部權(quán)值、Entropy法取全局權(quán)值。應(yīng)用奇異值分解對矩陣A進(jìn)行分解,設(shè)m叟n,rank(A)=r,則A的奇異值分解,記成SVD(A),定義為:其中U是m×r的正交矩陣,即UUT=Im,U稱為矩陣A的左奇異向量;V是n×r的正交矩陣,即VVT=Im,V稱為矩陣A的右奇異向量;Σ是r×r的對角陣,Σ被稱為矩陣A的奇異值標(biāo)準(zhǔn)形,Σ的對角元素被稱為矩陣A的奇異值,Σ=diag(σ1,σ2,…,σr),且有σ1叟σ2叟…叟σr>0。其中r為A的秩。對SVD分解有如下定理:設(shè)矩陣A的SVD分解由式(1)給出且r燮p=min(m,n)U=(u1,u2,…,un),則:令k<r且記:Ak是對A的一個(gè)近似,且在某種意義上可以說Ak保持了A中所反映的詞語和文檔之間聯(lián)系的內(nèi)在結(jié)構(gòu)(潛在的語義),但又去掉了因用詞習(xí)慣或語言的多義性帶來的“噪聲”。直觀地說,因k比文檔中總的詞語數(shù)m小得多,詞義上的細(xì)微區(qū)別被忽略掉了。下面討論詞的相似度問題,設(shè)詞ti和詞tj分別對應(yīng)詞語矩陣A的第i行和第j行,在k維空間中,分別對應(yīng)Ak的第i行和第j行。記Ak=骔aij」m×n,則詞ti和詞tj在k維空間中的向量分別為ti′和tj′,其相似度Sim(ti′,tj′)定義為ti′和tj′的點(diǎn)積,即:而對全部m個(gè)詞,其兩兩之間的相似度為:因而Sim(ti′,tj′)可由矩陣UkΣk的第i行和第j行的點(diǎn)積得到。因?yàn)棣瞜是對角陣,對k維空間的坐標(biāo)進(jìn)行適當(dāng)?shù)目s放即可用Uk代替UkΣk來構(gòu)造詞語在k維空間中的向量。因此可以將Uk理解成語義概念空間中的詞語向量。類似詞的相似度,文檔相似度為:因而文檔i和文檔j的相似度可由矩陣ΣkVkT的第i行和第j行的點(diǎn)積得到。同樣因?yàn)棣瞜是對角陣,可用VkT代替ΣkVkT來構(gòu)造詞語在k維空間中的向量。因此可以將VkT理解成語義概念空間中的文檔向量。經(jīng)過以上的分析之后可知把m維的詞-文檔矩陣映射到k維的LSI空間是可行的。給定一個(gè)詞-文檔向量,如何把它轉(zhuǎn)化到k維空間呢?下面是它的推導(dǎo)公式,假設(shè)原始向量是Xq,要確定一個(gè)k維向量Dq,有下式:于是有:因此:其中Σk-1是Σ的逆矩陣。這樣原始向量就被映射到了k維語義概念空間中,分類、查詢等操作都轉(zhuǎn)移到該空間上。3.4偏置神經(jīng)元算法通過對BP網(wǎng)絡(luò)的原理進(jìn)行的研究,針對誤差反向傳播的過程,設(shè)計(jì)下列步驟對網(wǎng)絡(luò)的權(quán)系數(shù)Wij進(jìn)行遞歸求取。假設(shè)第k-1層有n個(gè)神經(jīng)元,對于第k層的第i個(gè)神經(jīng)元,則有n個(gè)權(quán)系數(shù)Wi1,Wi2,…,Win,另外取多一個(gè)Win+1用于表示閥值θi;并且對第k-1層的輸入Xk-1,取Xk-1=(X1k-1,X2k-1,…,Xnk-1,1),多出的一個(gè)神經(jīng)元稱作偏置神經(jīng)元。算法的執(zhí)行的步驟如下:(1)對權(quán)系數(shù)Wij置初值。對各層的權(quán)系數(shù)Wij置一個(gè)較小的非零隨機(jī)數(shù),但其中Win+1=-θi。(2)輸入一個(gè)樣本X1=(X11,X21,…,Xn1,1),以及對應(yīng)期望輸出相應(yīng)為Y=(Y1,Y2,…,Y1)。(3)計(jì)算各層的輸出對于第k層第i個(gè)神經(jīng)元的輸出Xik,有:并且,其中f為非對稱Sigmoid函數(shù)。(4)求各層的學(xué)習(xí)誤差對于輸出層有k=m,有(5)修正權(quán)系數(shù)Wij和閥值θi。(6)當(dāng)求出了各層各個(gè)權(quán)系數(shù)之后,可按給定條件判別是否滿足要求。如果滿足要求,則算法結(jié)束;如果未滿足要求,則返回(3)執(zhí)行。3.5bp算法和b算法對于一個(gè)實(shí)際問題建立神經(jīng)網(wǎng)絡(luò)通常包括下面三個(gè)階段:首先,根據(jù)學(xué)習(xí)任務(wù)設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu),包括處理單元個(gè)數(shù)、各層的組織結(jié)構(gòu)及處理單元之間的聯(lián)結(jié)。第二,根據(jù)已知的網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)任務(wù)用梯度下降學(xué)習(xí)算法,如BP算法來訓(xùn)練聯(lián)結(jié)權(quán)值。最后,研究者以測量到的目標(biāo)性能,如解決特殊問題的能力、學(xué)習(xí)速度和泛化能力對訓(xùn)練過的網(wǎng)絡(luò)進(jìn)行評價(jià)。這個(gè)過程可以不斷重復(fù)以獲得期望的結(jié)果。在文中,先使用GA反復(fù)優(yōu)化神經(jīng)網(wǎng)絡(luò)的權(quán)值,直到平均值不再有意義地增加為止,此時(shí)解碼得到的參數(shù)組合已經(jīng)充分接近最佳參數(shù)組合,在此基礎(chǔ)上再用BP算法對它們進(jìn)行細(xì)調(diào),這種方法的通用性較好。4分類器性能評估對于文本分類系統(tǒng)的性能評估測試,國際上通用的評估指標(biāo),包括查全率(Recall)、查準(zhǔn)率(Precision)和F1評估值三項(xiàng)主要的指標(biāo)。公式如下:查全率:查準(zhǔn)率:F1評估值:其中,Nci是實(shí)際屬于Ci類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論