基于神經(jīng)網(wǎng)絡(luò)的文本分類器

上傳人：1*** IP屬地：廣東上傳時(shí)間：2023-10-26 格式：DOCX 頁數(shù)：5 大?。?1.91KB 積分：12 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于神經(jīng)網(wǎng)絡(luò)的文本分類器

1深度研究和文本分類數(shù)據(jù)捕獲（dad）通常從大量數(shù)據(jù)中提取或提取知識，數(shù)據(jù)捕獲也被稱為數(shù)據(jù)庫知識發(fā)現(xiàn)（dad）。這是一個(gè)復(fù)雜的過程，從各種數(shù)據(jù)中提取未知和有價(jià)值的知識，并根據(jù)規(guī)則進(jìn)行挖掘?，F(xiàn)在對于數(shù)據(jù)挖掘技術(shù)的研究已經(jīng)相當(dāng)深入，其范圍涉及到關(guān)聯(lián)規(guī)則挖掘、分類規(guī)則挖掘、聚類規(guī)則挖掘、趨勢分析等方面。但是這些研究基本上是基于結(jié)構(gòu)化數(shù)據(jù)，比如事物數(shù)據(jù)庫，卻很少有工作研究異質(zhì)、非結(jié)構(gòu)化的數(shù)據(jù)。目前互聯(lián)網(wǎng)上的信息主要以文本形式存在，所以從文本中獲得潛在的知識就成為知識發(fā)現(xiàn)領(lǐng)域中的重要方面。文本挖掘也成為數(shù)據(jù)挖掘的一個(gè)熱點(diǎn)。文本挖掘是一門涉及數(shù)據(jù)挖掘技術(shù)、文本處理技術(shù)、人工智能技術(shù)的綜合學(xué)科。文本挖掘從功能上可以分為總結(jié)、分類、聚類、趨勢預(yù)測等。其中文本分類指按照預(yù)先定義的分類體系，將文檔集合的每個(gè)文檔歸入某個(gè)類別。這樣，用戶不但能夠方便地瀏覽文檔，而且可以通過限制搜索范圍來使文檔的查找更為容易。目前，許多網(wǎng)站如Yahoo仍然是通過人工對Web文檔進(jìn)行分類，這大大限制了其索引頁面的數(shù)目和覆蓋范圍?？梢哉f研究文本分類有著廣泛的應(yīng)用前景。文本分類是高效檢索的基礎(chǔ)，是海量文本信息庫的一種數(shù)據(jù)組織技術(shù)，準(zhǔn)確精細(xì)的文本分類可大大提高檢索的速度和精度，其本身也是一種高效的檢索手段。文本自動分類可節(jié)約大量人力和財(cái)力，避免人工分類帶來的周期長、費(fèi)用高、效率低等諸多缺陷。2神經(jīng)網(wǎng)絡(luò)及其機(jī)制人工神經(jīng)網(wǎng)絡(luò)是基于連接學(xué)說構(gòu)造的智能仿生模型，它是由大量神經(jīng)元組成的非線性動力學(xué)系統(tǒng)。人工神經(jīng)網(wǎng)絡(luò)是算法與結(jié)構(gòu)的統(tǒng)一體，也是硬件與軟件的混合體。具有非線性、非局域性、非定常性和非凸性等特點(diǎn)，主要研究非程序的、自適應(yīng)性的和腦膜式的信息處理的本質(zhì)與能力。人工神經(jīng)網(wǎng)絡(luò)的研究與發(fā)展將對人工智能、認(rèn)知科學(xué)、自動控制等學(xué)科產(chǎn)生重大影響。人工神經(jīng)元網(wǎng)絡(luò)是作為信息處理單元來模仿大腦，執(zhí)行特定的任務(wù)或完成感興趣的功能。神經(jīng)網(wǎng)絡(luò)是一種并行的分布式信息處理結(jié)構(gòu)，它通過稱為連接的單向信號通路將一些處理單元（具有局部存儲并能執(zhí)行局部信息處理能力）互連而組成。每一個(gè)處理單元都有一個(gè)單輸出到所期望的連接。每一個(gè)處理單元傳送相同的信號———處理單元輸出信號。處理單元的輸出信號可以是一種所要求的數(shù)學(xué)類型。在每一個(gè)處理單元中執(zhí)行的信息處理在它必須完全是局部的限制下可以被任意定義，即它必須只依賴于處理單元所接受的輸入激勵(lì)信號的當(dāng)前值和處理單元本身所存儲記憶的值。近幾年神經(jīng)網(wǎng)絡(luò)模式識別逐漸成為模式識別領(lǐng)域的一個(gè)新的研究方向。由于神經(jīng)網(wǎng)絡(luò)的高速并行處理、分布存貯信息等特性符合人類視覺系統(tǒng)的基本原則，具有很強(qiáng)的自學(xué)習(xí)性、自組織性、容錯(cuò)性、高度非線性、高的魯棒性、聯(lián)想記憶功能和推理意識功能等，能夠?qū)崿F(xiàn)目前基于計(jì)算理論層次上的模式識別理論所無法完成的模式信息處理工作，所以，采用神經(jīng)網(wǎng)絡(luò)進(jìn)行模式識別，突破了傳統(tǒng)模式識別技術(shù)的束縛，開辟了模式識別發(fā)展的新途徑。同時(shí)，神經(jīng)網(wǎng)絡(luò)模式識別也成為神經(jīng)網(wǎng)絡(luò)最成功和最有前途的應(yīng)用領(lǐng)域之一。3基于專業(yè)能力模型的分類器訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)是數(shù)據(jù)挖掘中的一種常用技術(shù)方法，作者充分發(fā)揮神經(jīng)網(wǎng)絡(luò)一些固有的優(yōu)勢，并針對它的缺點(diǎn)運(yùn)用新的技術(shù)進(jìn)行彌補(bǔ)，構(gòu)造出一個(gè)基于神經(jīng)網(wǎng)絡(luò)的文本分類器。針對現(xiàn)實(shí)工作情況與工作環(huán)境條件，把分類器分成訓(xùn)練和分類兩個(gè)部分，啟動后首先進(jìn)行的是訓(xùn)練。首先根據(jù)工作環(huán)境、工作需求等建立專用詞典；對經(jīng)過人工分類的文本進(jìn)行分析，建立訓(xùn)練語料庫；利用詞典詞條對訓(xùn)練語料庫進(jìn)行詞條切分、詞頻統(tǒng)計(jì)、生成訓(xùn)練語料庫的特征向量表；使用潛在語義索引法，對特征向量矩陣進(jìn)行奇異值分解，實(shí)現(xiàn)降維；運(yùn)用GA（遺傳算法）優(yōu)化權(quán)值，并設(shè)置為ANN（人工神經(jīng)網(wǎng)絡(luò)）的初始權(quán)值；對降維后的特征向量矩陣運(yùn)用ANN進(jìn)行訓(xùn)練，達(dá)到滿意效果后，得到固定權(quán)值，作為分類知識存儲在網(wǎng)絡(luò)中。分類器在訓(xùn)練完之后，就可以對待分類文檔進(jìn)行分類了，分類過程和訓(xùn)練過程大致相同，首先利用詞典詞條對待分類文檔進(jìn)行詞條切分、詞頻統(tǒng)計(jì)、生成待分類文檔的特征向量；經(jīng)過和訓(xùn)練時(shí)同樣的潛在語義索引降維轉(zhuǎn)換；由于訓(xùn)練過后網(wǎng)絡(luò)的權(quán)值已經(jīng)固定，不再需要GA優(yōu)化的過程直接運(yùn)用ANN計(jì)算分類結(jié)果，得到已分類文檔。3.1從類別文本中抽取關(guān)鍵詞項(xiàng)在對文檔進(jìn)行特征提取之前，需要先進(jìn)行文本信息的預(yù)處理———特征詞條的選擇。從分類文本中有意義地抽取關(guān)鍵詞項(xiàng)的相關(guān)信息，是非常重要的技術(shù)，也是文本處理的基本要求。因此中文文檔的詞條切分處理，也就是漢語的自動分詞成為工作的重要部分，在文中采用的是最長次長匹配分詞方法。3.2不同屬性的隱含層文本分類器可采用一種三層前饋型BP網(wǎng)絡(luò)，來進(jìn)行自動知識獲取。BP網(wǎng)絡(luò)有三個(gè)基本層，即輸入層、隱含層和輸出層。每個(gè)層都包含若干節(jié)點(diǎn)（神經(jīng)元）。輸入層的節(jié)點(diǎn)數(shù)通常為矢量的個(gè)數(shù)，輸出層節(jié)點(diǎn)數(shù)為輸出矢量的個(gè)數(shù)，確定適當(dāng)?shù)碾[含層節(jié)點(diǎn)很重要，它直接影響網(wǎng)絡(luò)的性能，一般是根據(jù)經(jīng)驗(yàn)來確定。層與層之間的每個(gè)連接都有一個(gè)可以調(diào)整的權(quán)，權(quán)是根據(jù)訓(xùn)練數(shù)據(jù)不斷調(diào)整所計(jì)算出來的系數(shù)，它決定一個(gè)輸入矢量對輸出矢量的影響。3.3基于k維空間的相似度潛在語義索引（LatentSemanticIndexing，簡稱LSI）是信息檢索中的一種常用技術(shù)，來源于解決標(biāo)準(zhǔn)向量空間模型中詞匯的同義、多義和近義現(xiàn)象問題。其基本思想是文本中的詞與詞之間存在某種聯(lián)系，即存在某種潛在的語義結(jié)構(gòu)，因此采用統(tǒng)計(jì)的方法來尋找該語義結(jié)構(gòu)，并且用語義結(jié)構(gòu)來表示詞和文本。這樣的結(jié)果可以達(dá)到消除詞之間的相關(guān)性，化簡文本向量的目的。潛在的語義索引根據(jù)詞匯之間的依賴性，對詞-文檔矩陣（Term-DocumentMatrix）進(jìn)行奇異值分解（SingularValueDecomposition,SVD）把原始空間中的向量壓縮成新的消除依賴性的獨(dú)立維。這種方法的一個(gè)特點(diǎn)是新產(chǎn)生的向量維不像特征選擇和詞聚類一樣可以直接解釋，而是代表一些潛在的語義結(jié)構(gòu)，新產(chǎn)生的向量實(shí)際上是原始空間的扭曲，在這個(gè)新的空間里相同概念的詞匯之間互相相鄰。在LSI模型中，一個(gè)文檔庫可以表示為一個(gè)m×n的詞-文檔矩陣A。這里，n表示文檔庫中的文檔數(shù)；m表示文檔庫中包含的所有不同的詞的個(gè)數(shù)。L(i,j）表示局部權(quán)值，G(i）表示全局權(quán)值，表1和表2分別是常用的局部值和全局權(quán)值的取值方法。其中，tfij和gfi分別表示詞i在文檔j和整個(gè)文檔庫中的出現(xiàn)頻度；dfi為文檔庫中包含詞的文檔數(shù)目；Nd為文檔庫中的文檔總數(shù)；在文中，作者所采用的就是以對數(shù)詞頻法取局部權(quán)值、Entropy法取全局權(quán)值。應(yīng)用奇異值分解對矩陣A進(jìn)行分解，設(shè)m叟n,rank(A）=r，則A的奇異值分解，記成SVD(A），定義為：其中U是m×r的正交矩陣，即UUT=Im,U稱為矩陣A的左奇異向量；V是n×r的正交矩陣，即VVT=Im,V稱為矩陣A的右奇異向量；Σ是r×r的對角陣，Σ被稱為矩陣A的奇異值標(biāo)準(zhǔn)形，Σ的對角元素被稱為矩陣A的奇異值，Σ=diag（σ1，σ2，…，σr），且有σ1叟σ2叟…叟σr>0。其中r為A的秩。對SVD分解有如下定理：設(shè)矩陣A的SVD分解由式（1）給出且r燮p=min(m,n)U=（u1,u2，…，un），則：令k<r且記：Ak是對A的一個(gè)近似，且在某種意義上可以說Ak保持了A中所反映的詞語和文檔之間聯(lián)系的內(nèi)在結(jié)構(gòu)（潛在的語義），但又去掉了因用詞習(xí)慣或語言的多義性帶來的“噪聲”。直觀地說，因k比文檔中總的詞語數(shù)m小得多，詞義上的細(xì)微區(qū)別被忽略掉了。下面討論詞的相似度問題，設(shè)詞ti和詞tj分別對應(yīng)詞語矩陣A的第i行和第j行，在k維空間中，分別對應(yīng)Ak的第i行和第j行。記Ak=骔aij」m×n，則詞ti和詞tj在k維空間中的向量分別為ti′和tj′，其相似度Sim(ti′，tj′）定義為ti′和tj′的點(diǎn)積，即：而對全部m個(gè)詞，其兩兩之間的相似度為：因而Sim(ti′，tj′）可由矩陣UkΣk的第i行和第j行的點(diǎn)積得到。因?yàn)棣瞜是對角陣，對k維空間的坐標(biāo)進(jìn)行適當(dāng)?shù)目s放即可用Uk代替UkΣk來構(gòu)造詞語在k維空間中的向量。因此可以將Uk理解成語義概念空間中的詞語向量。類似詞的相似度，文檔相似度為：因而文檔i和文檔j的相似度可由矩陣ΣkVkT的第i行和第j行的點(diǎn)積得到。同樣因?yàn)棣瞜是對角陣，可用VkT代替ΣkVkT來構(gòu)造詞語在k維空間中的向量。因此可以將VkT理解成語義概念空間中的文檔向量。經(jīng)過以上的分析之后可知把m維的詞-文檔矩陣映射到k維的LSI空間是可行的。給定一個(gè)詞-文檔向量，如何把它轉(zhuǎn)化到k維空間呢？下面是它的推導(dǎo)公式，假設(shè)原始向量是Xq，要確定一個(gè)k維向量Dq，有下式：于是有：因此：其中Σk-1是Σ的逆矩陣。這樣原始向量就被映射到了k維語義概念空間中，分類、查詢等操作都轉(zhuǎn)移到該空間上。3.4偏置神經(jīng)元算法通過對BP網(wǎng)絡(luò)的原理進(jìn)行的研究，針對誤差反向傳播的過程，設(shè)計(jì)下列步驟對網(wǎng)絡(luò)的權(quán)系數(shù)Wij進(jìn)行遞歸求取。假設(shè)第k-1層有n個(gè)神經(jīng)元，對于第k層的第i個(gè)神經(jīng)元，則有n個(gè)權(quán)系數(shù)Wi1,Wi2，…，Win，另外取多一個(gè)Win+1用于表示閥值θi；并且對第k-1層的輸入Xk-1，取Xk-1=（X1k-1,X2k-1，…，Xnk-1,1），多出的一個(gè)神經(jīng)元稱作偏置神經(jīng)元。算法的執(zhí)行的步驟如下：(1）對權(quán)系數(shù)Wij置初值。對各層的權(quán)系數(shù)Wij置一個(gè)較小的非零隨機(jī)數(shù)，但其中Win+1=-θi。(2）輸入一個(gè)樣本X1=（X11,X21，…，Xn1,1），以及對應(yīng)期望輸出相應(yīng)為Y=（Y1,Y2，…，Y1）。(3）計(jì)算各層的輸出對于第k層第i個(gè)神經(jīng)元的輸出Xik，有：并且，其中f為非對稱Sigmoid函數(shù)。(4）求各層的學(xué)習(xí)誤差對于輸出層有k=m，有(5）修正權(quán)系數(shù)Wij和閥值θi。(6）當(dāng)求出了各層各個(gè)權(quán)系數(shù)之后，可按給定條件判別是否滿足要求。如果滿足要求，則算法結(jié)束；如果未滿足要求，則返回（3）執(zhí)行。3.5bp算法和b算法對于一個(gè)實(shí)際問題建立神經(jīng)網(wǎng)絡(luò)通常包括下面三個(gè)階段：首先，根據(jù)學(xué)習(xí)任務(wù)設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)，包括處理單元個(gè)數(shù)、各層的組織結(jié)構(gòu)及處理單元之間的聯(lián)結(jié)。第二，根據(jù)已知的網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)任務(wù)用梯度下降學(xué)習(xí)算法，如BP算法來訓(xùn)練聯(lián)結(jié)權(quán)值。最后，研究者以測量到的目標(biāo)性能，如解決特殊問題的能力、學(xué)習(xí)速度和泛化能力對訓(xùn)練過的網(wǎng)絡(luò)進(jìn)行評價(jià)。這個(gè)過程可以不斷重復(fù)以獲得期望的結(jié)果。在文中，先使用GA反復(fù)優(yōu)化神經(jīng)網(wǎng)絡(luò)的權(quán)值，直到平均值不再有意義地增加為止，此時(shí)解碼得到的參數(shù)組合已經(jīng)充分接近最佳參數(shù)組合，在此基礎(chǔ)上再用BP算法對它們進(jìn)行細(xì)調(diào)，這種方法的通用性較好。4分類器性能評估對于文本分類系統(tǒng)的性能評估測試，國際上通用的評估指標(biāo)，包括查全率（Recall）、查準(zhǔn)率（Precision）和F1評估值三項(xiàng)主要的指標(biāo)。公式如下：查全率：查準(zhǔn)率：F1評估值：其中，Nci是實(shí)際屬于Ci類

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 學(xué)術(shù)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于神經(jīng)網(wǎng)絡(luò)的文本分類器

文檔簡介

溫馨提示

最新文檔

評論

基于神經(jīng)網(wǎng)絡(luò)的文本分類器

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔