文本分類中特征向量空間降維方法研究_圖文_第1頁
文本分類中特征向量空間降維方法研究_圖文_第2頁
文本分類中特征向量空間降維方法研究_圖文_第3頁
文本分類中特征向量空間降維方法研究_圖文_第4頁
文本分類中特征向量空間降維方法研究_圖文_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 第二章文本分類基礎(chǔ)除以上介紹的算法之外,支持向量機和神經(jīng)網(wǎng)絡(luò)算法在文本分類系統(tǒng)中應(yīng)用得也較為廣泛,支持向量機的基本思想是使用簡單的線性分類器劃分樣本空間。對于在當(dāng)前特征空間中線性不可分的模式,則使用一個函數(shù)把樣本映射到一個高維空間中,使得樣本能夠線性可分。而神經(jīng)網(wǎng)絡(luò)算法采用感知算法進(jìn)行分類。在這種模型中,分類知識被隱式地存儲在連接的權(quán)值上,使用迭代算法來確定權(quán)值向量。當(dāng)網(wǎng)絡(luò)輸出判別正確時,權(quán)值向量保持不便,否則進(jìn)行調(diào)整,因此也稱為獎懲法。綜上所述,文本分類的過程可以總結(jié)為圖2.1 圖2.1文本分類過程圖2.1形象地說明了文本分類中要經(jīng)歷的兩個主要階段,以及文本的表示和訓(xùn)練/分類算法在文本分類

2、中所處的地位。從圖中可以看出,訓(xùn)練階段的作用是構(gòu)造一個分類器,而分類階段則是利用這個分類器來完成分類。另外,文本的表示是文本分類的基礎(chǔ),在文本分類的兩個階段中都要用到,而本文研究的特征空問降維方法中的一個目的,就是要尋求一種有效的文本表示方法。2.3特征向量表示的有效性評價一個特征向量表示的有效性,即看它是否能較準(zhǔn)確地表示文本,故對一個文本集合用某一分類算法進(jìn)行分類時,通常要比較該表示方法及其它表示方法所獲得的分類結(jié)果。如果該表示方法得到的結(jié)果相對較好,則表明此種方法具有好的表示效力。特征向量的表示效力受兩方面的影響:一是特征詞的粒度選取,二是權(quán)值的計算?!綥ewl992一文中指出:特征集合的

3、一些性質(zhì)對表示方法的效力有很大的影響。很多實驗的結(jié)果也證明了這一點1ow“”】。因此,本節(jié)主要討論特征詞集合對于特征向量表示效力有影響的一些性質(zhì)。1.表示的充分性如果用一個特征集合表示的所有文本都是可以被區(qū)分的,也就是說不同的文本在該特征集合上的表示都是不同的,通常就認(rèn)為它是充分的。否則無論通過什么樣的訓(xùn)練算法也不可 東南大學(xué)碩士學(xué)位論文分類的具體情況,由于用上位概念代替其下位概念會使褥屬于同一大類的小類的類別之間的區(qū)分度減小,較容易判別出它們屬于同一個大類,因此如果類別分得較粗,即都是比較大的類別,則由于上位概念的歸納所帶來的影響會較小,對查對率的影響并不是很大。實驗選取文本分類方面的英文文

4、章50篇,采用本文所提出的方法,將初始得出的特征向量進(jìn)行降維,原來的203個特征詞,被歸納為87個,圖4.6統(tǒng)計了特征詞頻度分布。 圖4.6降維實驗結(jié)果比較圖4.6中橫軸表示該類文本中特征詞平均頻度的對數(shù)值,縱軸表示具有該頻度的特征詞的數(shù)目。從圖中可以看出,與單純統(tǒng)計詞形出現(xiàn)次數(shù)不做降維處理相比,本文方法所得出的結(jié)果低頻特征詞的數(shù)目減少,高頻特征詞增多且頻度得到加強,特征詞總的數(shù)目減少。下面,我們就實驗中所顯示的、算法對特征詞頻度分布的影響及各種情況的產(chǎn)生原因作一說明和分析。經(jīng)本文的所給方法處理之后。特征詞的頻度分布主要有以下四個特點;1.低頻的特征詞的數(shù)目大為減少。由于本文在預(yù)處理(初始特征

5、詞提取中沒有做去除低頻詞的處理,所以預(yù)處理后仍保留了大量的較低頻度的詞,而經(jīng)過本文算法的處理去掉了很多的低頻詞,這說明在下位概念集不能被上位概念替代的情況下,算法選取了具有較高重要度的下位概念,而剔除了那些重要度不高的下位概念,這樣就出現(xiàn)了在圖中橫坐標(biāo)0.9附近的詞數(shù)目比處理前減少很多。而這種情況下的剔除操作是基于對同一層次上的各個概念之間重要度的比較,與單純的基于某一頻度的閥值有本質(zhì)的區(qū)別。2.高頻特征詞頻度得到加強。處理前的高頻詞集中在1.4附近,而經(jīng)過概念歸納后,高頻特征詞集中在1.6附近。這說明本文提出的方法對處理文本包含的語義概念進(jìn)行了有效的融合,使得相關(guān)概念得到不同程度的聚集,.原來的高頻概念的頻度得到更進(jìn)一步地加強,這樣就使得與文本類別相關(guān)的概念更為突出。3.高頻特征詞數(shù)目增多。處理前。高頻詞最高峰是19;而經(jīng)過概念統(tǒng)計和歸納后,高

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論