文本分類綜述1_第1頁
文本分類綜述1_第2頁
文本分類綜述1_第3頁
文本分類綜述1_第4頁
文本分類綜述1_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

本文格式為Word版,下載可任意編輯——文本分類綜述1文本分類綜述

1.引言

1.1文本分類的定義

文本分類用電腦對文本集依照一定的分類體系或標準進行自動分類標記,與文本分類相近的概念是文本聚類。文本聚類是指,由機器將相像的文檔歸在一起。與文本分類的區(qū)別在于,文本分類是監(jiān)視學習,類別是事先規(guī)定好的,文本聚類是無監(jiān)視學習,由計算機把類似文本歸在一起,事先并不劃定好類別。

基于統(tǒng)計的文本分類算法進行文本分類就是由計算機自己來觀測由人提供的訓練文檔集,自己總結出用于判別文檔類別的規(guī)則和依據。

文本分類的基本步驟是:文本表示->特征降維->分類器訓練>文本分類

1.2文本分類的基本思路

文本分類基本方法可以歸結為根據待分類數據的某些特征來進行匹配,選擇最優(yōu)的匹配結果,從而實現分類。

計算機并不認識文檔,因此首先就要設法如何轉化一篇文檔為計算機所接受,轉化方法要與文本有對應關系。對于計算機文本分類而言,這是最重要的步驟。

其次要制定出一定的評判標準,根據文檔表示結果對文本進行分類

1.3文本分類目前的研究熱點

2.文本表示

利用計算機來解決問題,首先就是要找到一種使計算機能夠理解方法來表述問題,對文本分類問題來說,就是要建立一個文檔表示模型。

一般來說,利用文檔中的語義信息來表示文檔比較困難,因此直接采用詞頻來表示文檔,不過也出現了大量利用語義的文檔表示方法。

2.1向量空間模型(VSM)

VSM模型是目前所用的較多的文本表示模型,這種模型把文本看作是一個特征項的集合。特征項可以是詞,也可以是人為所構造的合理的特征。

2.2詞袋模型

詞袋模型是VSM模型在文本分類問題中的一個最簡單的應用。對于一篇文檔,最直觀的方法就是使用詞和短語作為表示文本的特征。對于英文文章來說,各個單詞之間己經用空格分開,可以直接獲取特征詞,不過由于英語中存在詞形的變化,如:名詞的單復數、動詞的時態(tài)變化、詞的前綴和后綴變化等,所以會需要一個抽取詞干的過程。對于中文來說,由于詞和詞之間沒有停頓,所以需要借助于詞典來統(tǒng)計特征詞。對于文本分類來說,常用的方法為TF即詞頻法。

具體操作為:

對文本,北京理工大學計算機專業(yè)創(chuàng)立于1958年,是中國最早設立的計算機專業(yè)的大學之一。對于該文檔,詞袋為{北京、理工、大學、計算機、專業(yè)、創(chuàng)立、1958、中國、最早、設立}相應的向量為{1,1,2,2,2,1,1,1,1},這種統(tǒng)計特征詞詞頻當作文檔特征的方法也稱為TF法,為了防止這種方法統(tǒng)計出的特征使得文本長度影響到分類結果,要把它做歸一化處理,最簡單想到的歸一化做法是除以文本長度。

另外還有另一個指標IDF指標,衡量詞的重要性,一個詞在一篇文本中出現的頻率越高,同時在總的訓練文本中出現的頻率越低,那么這個詞的IDF值越高。

操作:

總文件數目除以包含該詞語之文件的數目,再將得到的商取對數得到,公式表示為

idf?log(|D|)|j:ti?dj|,idf衡量了一個詞的重要程度,因此tf×idf可以更好的來表示文本。

2.3其他模型

3.特征降維

文本所形成的不加處理的特征向量維數很高,以詞袋模型為例,一方面,好多文章只有幾千詞,而一個分詞詞典所包含的詞有數萬個,假使不加處理,把所有詞都表示出來,是極大的浪費,另一方面,若依照分詞詞典建立向量,事實上是無法使用的,因此需要對文檔特征進行降維處理。把不用的特征去掉,保存區(qū)分度高的詞語。特偵降維可以有兩種思路,特征選擇和特征提取,其中,特征選擇是指在原有特征的基礎上,選擇一部分特征來表示文本,特征性質不變,例如

對于詞袋模型,只是從原先的詞袋中選擇一部分區(qū)分度高的詞語,選擇結果依舊是詞。特征抽取是指一種特征通過一定的方法變換,得到的特征與原來的特征完全不同。

3.1特征選擇

對于特征選擇來說,主要是把原先區(qū)分度低的詞去掉。

2.2節(jié)所述的idf方法也可以作為一種特征選擇的方法。除此之外,也有使用方差來篩選特征詞的程序。3.1.1信息增益

在文本分類系統(tǒng)中,關于類別的信息量可以用如下式子來衡量,

H(C)??P(Ci)?log2P(Ci)i?1n其中P(Ci)是指類別Ci出現的概率

信息增益選擇特征這種方法是指,在一個文本分類系統(tǒng)中,對于一個特征t,當考慮t時,文本分類系統(tǒng)的信息量記為H1,當不考慮時記為H2,那么H=H1-H2就稱為t的信息增益,當差值越大,那么說明這個特征越重要。

計算信息增益的公式為

IG(t)???P(Ci)log2P(Ci)?P(t)?P(Ci|t)log2P(Ci|t)?P(t)?P(Ci|t)log2P(Ci|t)i?1i?1i?1nn?n???H(C)?H(C|t)

公式說明:公式目的要計算出系統(tǒng)中特征t存在與否對系統(tǒng)的信息量的影響,所以要取得有無特征t這兩種狀態(tài)的差值即可,系統(tǒng)在存在t時,有兩種可能,t存在和不存在。既式子的最終部分。

具體做法:

P(C1)即是C1所包含的文本數/文本總數,P(C1|t)即C1類中包含t的文本數/包含t的文本總數;最終一項即是C1類中不包含t的文本數/不包含t的文本總數。

3.1.2開方檢驗3.1.3互信息法

互信息用MI(t,Ci)來表示,含義為特征t與類別Ci的相關程度,值越大,

表示相關程度越大。也是特征選擇的目標。互信息的量化方法為下式。

P(t,Ci)MI(t,Ci)?logP(t)P(Ci)由此,為了統(tǒng)一衡量特征t的互信息,其全局互信息可以定義為

MI(t)??P(Ci)?MI(t,Ci)

ni?1說明和操作:

分母為類Ci中出現特征t的文本數除以總文本數,分子中,P(t)是出現特征t的文本數除以總的文本數。P(Ci)是屬于類Ci的文本數除以總的文本數。

3.2特征提取

4.文本分類算法

4.1向量中心算法

這種算法把一個類別里的樣本文檔各項取個平均值(例如把所有“體育〞類文檔中詞匯“籃球〞出現的次數取個平均值,再把“裁判〞取個平均值,依次做下去),可以得到一個新的向量,即一個類別的中心,這個中心就是這個類別最具代表性的向量表示。再有新文檔需要判斷的時候,比較新文檔和中心的距離,從而可以新文檔屬不屬于這個類。

4.2K近鄰算法

一個文本采用TF法來表示,形成一個文本的特征向量,從而一個文本可以用特征空間的一個點來表示,在訓練階段存入一批代表文本的樣本點,對于一個待分類文本,該算法探尋與該文本最接近的k個已知樣本,距離可以使用歐氏距離來算,從而根據這最接近的k個文本所屬的判斷出該未知樣本的分類所屬。

4.3簡樸貝葉斯算法

簡樸貝葉斯算法則是從貝葉斯公式蛻變而來的。假設文本特征表示為(a1,a2,…,an)

前提假設為屬性值之間相互條件獨立,即做出如下假設P(a12,...,an|v)??P(ai|v),aiVmax?argmaxP(Vj|a,a2,?,an)1

argmaxP(Vj|a1,a2,?,an)表示在有特征(a1,a2…an)條件下該文本屬于

Vj的概率。Vj屬于類別集合,Vmax是得到的最可能的分類所屬

P(Vj|a1,a2,?,an)利用貝葉斯公式改寫得

Vmax?argmaxP(a1,a2,?,an/Vj)P(Vj)/P(a1,a2,?,an)

?,an)又由于簡樸貝葉斯分類器默認a1...an他們相互獨立的,所以P(a1,a2,為定值。

V?argmaxP(a1,a2,?,an/Vj)P(Vj

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論