基于貝葉斯分類(lèi)器的朝鮮語(yǔ)文本分類(lèi)研究_第1頁(yè)
基于貝葉斯分類(lèi)器的朝鮮語(yǔ)文本分類(lèi)研究_第2頁(yè)
基于貝葉斯分類(lèi)器的朝鮮語(yǔ)文本分類(lèi)研究_第3頁(yè)
基于貝葉斯分類(lèi)器的朝鮮語(yǔ)文本分類(lèi)研究_第4頁(yè)
基于貝葉斯分類(lèi)器的朝鮮語(yǔ)文本分類(lèi)研究_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于貝葉斯分類(lèi)器的朝鮮語(yǔ)文本分類(lèi)研究

1文本分類(lèi)中的算法文本分類(lèi)是信息處理領(lǐng)域的研究方向之一。朝鮮語(yǔ)在中國(guó)來(lái)說(shuō)是少數(shù)民族語(yǔ)言,它是朝鮮族溝通意圖的主要語(yǔ)言,在民族文化傳承和發(fā)展中起著重要的作用。由于朝鮮語(yǔ)的詞法結(jié)構(gòu)和語(yǔ)法結(jié)構(gòu)與中文有較大的差異,具有其特殊性,因此對(duì)朝鮮語(yǔ)文本的研究具有非常重要的意義。文本分類(lèi)是基于文本內(nèi)容將待定文本劃分到一個(gè)或多個(gè)預(yù)先定義的類(lèi)中的方法,它廣泛應(yīng)用于信息自動(dòng)檢索、文本過(guò)濾和網(wǎng)頁(yè)層次分類(lèi)領(lǐng)域。文本分類(lèi)大致可分為:文本的向量模型表示、文本的特征選擇和分類(lèi)器訓(xùn)練。數(shù)量巨大的訓(xùn)練樣本和過(guò)高的向量維數(shù)是文本分類(lèi)的兩大難點(diǎn)。它們決定文本分類(lèi)問(wèn)題是一個(gè)時(shí)間和空間復(fù)雜度很高的學(xué)習(xí)問(wèn)題。為兼顧運(yùn)算時(shí)間和分類(lèi)精度兩個(gè)方面,不得不進(jìn)行特征選擇,力求在不損傷分類(lèi)性能的同時(shí)來(lái)達(dá)到降維的目的。目前,許多基于統(tǒng)計(jì)理論和機(jī)器學(xué)習(xí)方法的技術(shù)應(yīng)用于文本分類(lèi)中,包括決策樹(shù)、Bayes方法、神經(jīng)網(wǎng)絡(luò)、基于關(guān)聯(lián)的方法、k2最近鄰方法、遺傳算法、粗糙集等方法。本文通過(guò)分析朝鮮語(yǔ)的特征,利用改進(jìn)的基于類(lèi)別分布的特征選擇方法以及權(quán)重計(jì)算方法在朝鮮語(yǔ)文本集上進(jìn)行了研究,并基于樸素貝葉斯分類(lèi)器實(shí)現(xiàn)了對(duì)朝鮮語(yǔ)文本的分類(lèi)。2資源向量文本分類(lèi)的前提是特征向量模型的建立。本文對(duì)朝鮮語(yǔ)文本進(jìn)行分詞后,通過(guò)特征選擇實(shí)現(xiàn)降維,通過(guò)特征加權(quán)提高分類(lèi)的準(zhǔn)確度。2.1基于類(lèi)別分布的特征選擇特征選擇是指從最初的n個(gè)特征中選取t(t<n)個(gè)特征,而這t個(gè)特征可以更簡(jiǎn)潔、更有效地表示文本的內(nèi)容。比較常用的特征選擇方法有:文檔頻率(DocumentFrequency)、信息增益(InformationGain)、互信息(MutualInformation)、期望交叉熵(ExpectedCrossEntropy)、文本證據(jù)權(quán)(theWeightofEvidenceofText)、幾率比(OddsRatio)等。在文本分詞以后得到的特征詞按照出現(xiàn)的頻率可以大致分為四種:少見(jiàn)詞、平凡詞、次關(guān)鍵詞、關(guān)鍵詞。頻率出現(xiàn)過(guò)高或過(guò)低的單詞,其對(duì)分類(lèi)的貢獻(xiàn)度都低,只有出現(xiàn)頻率適中的特征才對(duì)文本分類(lèi)的貢獻(xiàn)度較大。所以,在大多數(shù)類(lèi)別都出現(xiàn)的特征詞,所帶有的類(lèi)信息總是不多的,這樣的特征詞對(duì)分類(lèi)的貢獻(xiàn)度是不大的,有時(shí)候還會(huì)少于那些在某些類(lèi)別中出現(xiàn)次數(shù)較少的特征詞。另外,同樣的,只在某些類(lèi)別中偶爾出現(xiàn)的特征詞,所帶有的類(lèi)信息也是不多的,這樣的特征詞對(duì)分類(lèi)的貢獻(xiàn)度一樣是不大的。在這里,本文把這兩類(lèi)詞稱(chēng)之為少見(jiàn)詞和平凡詞,這兩類(lèi)詞應(yīng)該在特征子集中去除。本文采用一個(gè)基于類(lèi)別分布的特征選擇方法。該方法的基本思想是,對(duì)于那些對(duì)分類(lèi)有很大貢獻(xiàn)的特征詞應(yīng)該是在該類(lèi)文檔中出現(xiàn)頻率足夠高而在其他類(lèi)文檔中出現(xiàn)頻率足夠低的特征詞。那么少見(jiàn)詞和平凡詞在訓(xùn)練集所有文檔分詞后存儲(chǔ)的情況,要么是只有一個(gè)類(lèi)中的詞頻計(jì)數(shù)很少,要么是在大多數(shù)類(lèi)別中出現(xiàn)的很多?;谶@種情況,將分詞后在各個(gè)類(lèi)別中出現(xiàn)特征詞的文檔頻度計(jì)數(shù)和在所有類(lèi)別中出現(xiàn)該特征詞的文檔頻度計(jì)數(shù)總和相比,就可以得到該特征詞在各個(gè)類(lèi)別中出現(xiàn)的分布情況。通過(guò)這個(gè)分布情況,去除那些少見(jiàn)詞和平凡詞,從而保留那些次關(guān)鍵詞、關(guān)鍵詞,達(dá)到特征選擇的目的。對(duì)于少見(jiàn)詞的去除,根據(jù)定義設(shè)置一個(gè)閾值α,如果滿足條件(1)式就將該特征詞歸為少見(jiàn)詞,并予以去除:DFi<α,DFj=0,i=1,2,?,n,j=1,2,?,i?1,i+1,?,n(1)DFi<α,DFj=0,i=1,2,?,n,j=1,2,?,i-1,i+1,?,n(1)在(1)式中將在某類(lèi)中出現(xiàn)的文檔頻度計(jì)數(shù)小于閾值α且在其他類(lèi)別中文檔頻度計(jì)數(shù)為0的特征詞歸為少見(jiàn)詞,其中,DFi表示在i類(lèi)中出現(xiàn)某特征詞的文檔頻度計(jì)數(shù),n表示訓(xùn)練集中出現(xiàn)的類(lèi)別總數(shù)量。如何給定平凡詞,次關(guān)鍵詞的區(qū)分標(biāo)準(zhǔn)是一個(gè)問(wèn)題。到底一個(gè)特征詞在多少個(gè)類(lèi)別中大量出現(xiàn),才算是平凡詞?這里需要設(shè)置一個(gè)閾值D來(lái)加以確定。本文給出一個(gè)判別方法,如下:如果某特征詞滿足條件(2)式,即將該特征歸為平凡詞,并予以刪除。DFi∑iDFi≤γ,DFi≠0,i=1,2,?,n(2)DFi∑iDFi≤γ,DFi≠0,i=1,2,?,n(2)(2)式表示某特征詞在每個(gè)類(lèi)別中出現(xiàn)該詞的文檔頻度計(jì)數(shù)與所有出現(xiàn)的類(lèi)別中出現(xiàn)該詞的文檔頻度計(jì)數(shù)總數(shù)的比例小于等于閾值γ的話,就將該特征詞作為平凡詞。在實(shí)際實(shí)驗(yàn)中,使用條件(2)逆反條件來(lái)進(jìn)行判斷,即只要該特征詞在某個(gè)類(lèi)別中出現(xiàn)該詞的文檔頻度總數(shù)大于閾值γ的話,就可以將該詞作為次關(guān)鍵詞予以保留。本文實(shí)驗(yàn)中,將訓(xùn)練集文本分詞后,將各特征詞在各個(gè)文檔中出現(xiàn)的詞頻計(jì)數(shù)存入文本中,因此容易得到每個(gè)特征詞在每個(gè)類(lèi)別中出現(xiàn)該特征詞的文檔頻度。該方法的具體步驟描述如下:Step1:按照特征子集S中的特征詞,得到每個(gè)特征詞在每個(gè)類(lèi)別中出現(xiàn)該詞的文檔頻度計(jì)數(shù)與所有類(lèi)別中出現(xiàn)該詞的文檔頻度計(jì)數(shù)總數(shù)。Step2:判斷該特征詞是否為少見(jiàn)詞,判斷條件為(1)式,如果是的話,將該特征詞從特征子集S中去除,并轉(zhuǎn)到步驟1,否則轉(zhuǎn)至步驟3。Step3:如果出現(xiàn)該特征詞的類(lèi)別總數(shù)大于閾值β,那么計(jì)算在各個(gè)類(lèi)別中出現(xiàn)該特征詞的文檔頻度計(jì)數(shù)和在所有類(lèi)別中出現(xiàn)該特征詞的文檔頻度計(jì)數(shù)總和的比例di,如果存在一個(gè)di大于閾值,則將該特征詞作為次關(guān)鍵詞保留,如果沒(méi)有任何di大于閾值,就將該特征詞作為平凡詞去除。如果特征子集S中還有特征詞未進(jìn)行特征選擇,則轉(zhuǎn)至步驟1,否則轉(zhuǎn)至步驟4。Step4:最終得到一個(gè)去除掉少見(jiàn)詞和平凡詞的特征子集。經(jīng)過(guò)這種基于類(lèi)別分布的特征選擇后,過(guò)濾掉少見(jiàn)詞和平凡詞,達(dá)到了特征詞維度下降的目的。2.2tk的區(qū)分能力文本特征的權(quán)重全面權(quán)衡反映該特征詞對(duì)標(biāo)識(shí)文本內(nèi)容的貢獻(xiàn)度和區(qū)分文本的能力。不合理的特征權(quán)重估算方法會(huì)使分類(lèi)的效果變差,而好的合理的特征權(quán)重估算方法卻可以使特征詞對(duì)分類(lèi)的作用變得顯著。本文從樸素的貝葉斯分類(lèi)的特點(diǎn)出發(fā),提出一種類(lèi)TF-IDF特征估算方法。P(tk|Ci)=DFikDFk(3)P(tk|Cˉˉˉi)=DFikˉˉˉˉˉˉˉˉDFk(4)Ρ(tk|Ci)=DFikDFk(3)Ρ(tk|Cˉi)=DFikˉDFk(4)公式(3)、(4)分別表示Ci類(lèi)關(guān)于特征詞tk的包含率和不包含率,其中,DFik表示在Ci中包含特征詞tk的文檔數(shù),DFk表示所有類(lèi)別中包含特征詞tk的文檔數(shù),DFikˉˉˉˉˉˉˉˉDFikˉ表示在文檔類(lèi)別除了Ci類(lèi)中包含特征詞tk的文檔數(shù)。利用式(5)來(lái)表示特征詞tk對(duì)Ci類(lèi)的區(qū)分能力。P(tk|Ci)P(tk|Ciˉˉˉˉ)=DFikDFkDFikˉˉˉˉˉˉˉˉˉˉDFk=DFikDFikˉˉˉˉˉˉˉˉ(5)Ρ(tk|Ci)Ρ(tk|Ciˉ)=DFikDFkDFikˉDFk=DFikDFikˉ(5)為保證分母不為零值,對(duì)分母加一個(gè)參數(shù)值L,L的值取0.1,得到公式(6):P(tk|Ci)P(tk|Ciˉˉˉˉ)+L=DFikDFkDFikˉˉˉˉˉˉˉˉˉˉDFk+L=DFikDFikˉˉˉˉˉˉˉˉ+L(6)Ρ(tk|Ci)Ρ(tk|Ciˉ)+L=DFikDFkDFikˉDFk+L=DFikDFikˉ+L(6)對(duì)公式(6)取對(duì)數(shù),那么特征詞tk在第Ci類(lèi)中的權(quán)重估算方法公式如下:Wik={DFik×log(DFikDFikˉˉˉˉˉˉˉˉ+L×N)0DFik≠0DFik=0(7)Wik={DFik×log(DFikDFikˉ+L×Ν)DFik≠00DFik=0(7)在公式(7)中,DFik表示在Ci中包含特征詞tk的文檔數(shù),N為訓(xùn)練集中的文檔總數(shù)。在公式中前半部分DFik表示特征詞tk在第Ci類(lèi)中的重要程度,當(dāng)DFik等于0時(shí),說(shuō)明特征詞tk在Ci類(lèi)中沒(méi)有出現(xiàn),我們將權(quán)值設(shè)為0。當(dāng)DFik不等于0時(shí),公式后半部分的對(duì)數(shù)表示了特征詞tk在訓(xùn)練集中出現(xiàn)的幾個(gè)類(lèi)別里的分布情況。3簡(jiǎn)單貝葉斯分割器3.1訓(xùn)練數(shù)據(jù)的先驗(yàn)概率在機(jī)器學(xué)習(xí)中,通常感興趣的是在給定數(shù)據(jù)集D時(shí),確定假設(shè)空間H中的最佳假設(shè)。所謂最佳假設(shè)是在給定的數(shù)據(jù)集D以及H中不同假設(shè)的先驗(yàn)概率的有關(guān)知識(shí)的最可能假設(shè)。BNC提供了直接計(jì)算這種可能性的方法,其分類(lèi)原理是通過(guò)某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,選擇具有最大后驗(yàn)概率的類(lèi)作為該對(duì)象所屬的類(lèi)。形式化描述為:設(shè)每個(gè)數(shù)據(jù)樣本用一個(gè)n維特征向量來(lái)描述n個(gè)屬性的值,即:A={a1,a2,?,an}A={a1,a2,?,an},則給定一個(gè)未知的數(shù)據(jù)樣本,得到的最可能的目標(biāo)值為:Vmap=argmaxP(Vj|a1,a2,…,an),其中Vj∈V。假定有m個(gè)類(lèi),分別用V1,V2,…,Vm來(lái)表示。給定一個(gè)未知的數(shù)據(jù)樣本X(即沒(méi)有類(lèi)標(biāo)號(hào)),根據(jù)貝葉斯定理,可得:P(Vi|X)=P(X|Vi)P(Vi)P(X)(8)Ρ(Vi|X)=Ρ(X|Vi)Ρ(Vi)Ρ(X)(8)由于P(X)對(duì)于所有類(lèi)為常數(shù),最大后驗(yàn)概率P(Vi|X)可轉(zhuǎn)化為最大化先驗(yàn)概率P(X|Vi)P(Vi)。由于假設(shè)各屬性的取值是相互獨(dú)立的,所以,先驗(yàn)概率p(x1|Vi),p(x2|Vi),…,p(xn|Vi)可以從訓(xùn)練數(shù)據(jù)集中求得。P(X|Vi)=∏k=1np(xk|Vi)(9)Ρ(X|Vi)=∏k=1np(xk|Vi)(9)根據(jù)此方法,對(duì)一個(gè)未知類(lèi)別的樣本X,可以先分別計(jì)算出X屬于每一個(gè)類(lèi)別Vi的概率P(X|Vi)P(Vi),然后選擇其中概率最大的類(lèi)別作為其類(lèi)別。3.2蝦葉斯分類(lèi)器的構(gòu)造文本分類(lèi)流程如圖1所示,具體步驟描述如下:Step1:對(duì)訓(xùn)練樣本集的文檔進(jìn)行分詞,利用本文基于類(lèi)別分類(lèi)的方法進(jìn)行特征選擇,計(jì)算權(quán)重;Step2:利用step1中所得數(shù)據(jù)進(jìn)行樸素貝葉斯分類(lèi)器的構(gòu)造;Step3:測(cè)試分類(lèi)器,其中,測(cè)試樣本集是由剩余的文檔集組成;Step4:輸出分類(lèi)結(jié)果。4實(shí)驗(yàn)結(jié)果和討論本文的語(yǔ)料庫(kù)來(lái)自互聯(lián)網(wǎng)韓國(guó)各網(wǎng)站采集的450個(gè)大小的文檔集,其中包括9個(gè)類(lèi)別,分別是財(cái)經(jīng)、IT、健康、體育、旅游、教育、招聘、文化、軍事,每個(gè)類(lèi)別是由50個(gè)文檔構(gòu)成的文檔集?;谶@些素材,本文在matlab中進(jìn)行了實(shí)驗(yàn)。本文采用查準(zhǔn)率和查全率作為評(píng)估方法,查準(zhǔn)率如公式(10),查全率如公式(11)。Precisioni=TPiTPi+FPi(10)Recalli=TPiTPi+FNi(11)Ρrecisioni=ΤΡiΤΡi+FΡi(10)Recalli=ΤΡiΤΡi+FΝi(11)TPi表示測(cè)試文檔集中本來(lái)屬于類(lèi)別Ci而且分類(lèi)器分類(lèi)到類(lèi)別Ci的文檔數(shù),FPi表示測(cè)試文檔集中本來(lái)不屬于類(lèi)別Ci但被分類(lèi)器錯(cuò)誤分到Ci的文檔數(shù),FNi表示本來(lái)應(yīng)該屬于類(lèi)別Ci但被分類(lèi)器分類(lèi)到其他別的類(lèi)別的文檔數(shù)。由表1的實(shí)驗(yàn)數(shù)據(jù)上看來(lái),采用新的特征選擇方法的本文方法在分類(lèi)效果上比貝

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論