設(shè)計(jì)分類(lèi)就是根據(jù)預(yù)先定義好類(lèi)別按照一定規(guī)則將集合中未知_第1頁(yè)
設(shè)計(jì)分類(lèi)就是根據(jù)預(yù)先定義好類(lèi)別按照一定規(guī)則將集合中未知_第2頁(yè)
設(shè)計(jì)分類(lèi)就是根據(jù)預(yù)先定義好類(lèi)別按照一定規(guī)則將集合中未知_第3頁(yè)
設(shè)計(jì)分類(lèi)就是根據(jù)預(yù)先定義好類(lèi)別按照一定規(guī)則將集合中未知_第4頁(yè)
設(shè)計(jì)分類(lèi)就是根據(jù)預(yù)先定義好類(lèi)別按照一定規(guī)則將集合中未知_第5頁(yè)
已閱讀5頁(yè),還剩22頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(個(gè)學(xué)科,是自然語(yǔ)言處理的一個(gè)重要應(yīng)用領(lǐng)域。目前,越來(lái)越多的統(tǒng)計(jì)分類(lèi)方SVMSVM(QuadrupleProgramming,指目標(biāo)函數(shù)為二次函數(shù),約束條件為線(xiàn)性約束的最越性。SVMSVM訓(xùn)SVM的訓(xùn)練速度ChunkingOsunaSMO法和交互SVM等。SVM分類(lèi)器的優(yōu)點(diǎn)在于通用性較好,且分類(lèi)精度高、分類(lèi)速度快、分類(lèi)速度與訓(xùn)練樣本個(gè)數(shù)無(wú)關(guān),查準(zhǔn)和查全率方面都略?xún)?yōu)于kNN及樸素貝葉如下圖:橫軸上端點(diǎn)ab決策如何選擇特征作為測(cè)試節(jié)點(diǎn)。通常做法是計(jì)算各個(gè)特征的信息增益或者嫡的值,然后根據(jù)這些值的大小順次選這樣的方法建立的決策樹(shù)一般都存在對(duì)訓(xùn)練數(shù)據(jù)過(guò)度(overfittnig)的問(wèn)題,所以大多數(shù)的決策樹(shù)學(xué)習(xí)算法都包含有一個(gè)剪枝過(guò)程所謂過(guò)度擬合(overfitting)問(wèn)題,是指經(jīng)過(guò)過(guò)分訓(xùn)的能最佳往往只是針對(duì)訓(xùn)練集而言,應(yīng)用到非訓(xùn)練集對(duì)象時(shí),分類(lèi)器性能可能會(huì)下降。即訓(xùn)練得到的分類(lèi)器推廣性能不強(qiáng)對(duì)決策樹(shù)剪枝有兩種方法:前剪枝(prepruning)和后剪(postPrunnig決策樹(shù)完全構(gòu)造好后進(jìn)西南交通大學(xué)第9然而由于文本分類(lèi)的性比如一個(gè)文本是否屬于某一類(lèi)別帶有很大的主觀(guān)性,兩個(gè)不同的專(zhuān)家可能將其歸類(lèi)到不同的類(lèi)別中),在本質(zhì)上不能給出一個(gè)形式化的表達(dá),所以要分析性地對(duì)分類(lèi)器進(jìn)行評(píng)價(jià)(比如證明這個(gè)分類(lèi)器是正確的)目前難度較通常對(duì)一個(gè)文本分類(lèi)器進(jìn)行評(píng)價(jià)主要是針對(duì)它的效果(E伍戈itveness)性能(Pedbnr田`e),即這個(gè)分類(lèi)器在多大程度上能夠的不是它的效率(Efficiency有兩種方法:訓(xùn)練測(cè)試法和k折交叉驗(yàn)證法(卜ofdl。orssvali山魷ion)[,4],這兩種方文本分類(lèi)器的評(píng)價(jià)標(biāo)準(zhǔn)在文本分類(lèi)中,對(duì)分類(lèi)器性能的評(píng)價(jià)標(biāo)準(zhǔn),的是經(jīng)驗(yàn)性的,不分析性的P0l。這是因?yàn)橐治鲂缘卦u(píng)價(jià)一個(gè)系統(tǒng),比如證明一性和完備性,必須能夠?qū)@個(gè)系統(tǒng)所要解決的問(wèn)題給出一個(gè)形式化的表述,訓(xùn)練集和測(cè)試現(xiàn)在的文本自動(dòng)分類(lèi),大多采用的是機(jī)器學(xué)習(xí)的方法,機(jī)器學(xué)習(xí)的方分好類(lèi)的文本。文本分類(lèi),即提出一個(gè)把新文本歸類(lèi)到文本所屬類(lèi)別的任務(wù)。為了衡量文本分類(lèi)的效果,我們經(jīng)常把語(yǔ)料庫(kù)分成兩個(gè)不相交的集合,這兩個(gè)集合不一定相等:訓(xùn)練集,這個(gè)集合的目的是用于歸納出各個(gè)類(lèi)別的特性以構(gòu)建分類(lèi)器。測(cè)試集,這個(gè)集合用于測(cè)試分類(lèi)器的分類(lèi)效果。測(cè)試集的每個(gè)文本都通過(guò)分類(lèi)器分類(lèi),然后與正確決策的分類(lèi)結(jié)果相對(duì)比,分類(lèi)器的效果就是比較通過(guò)分類(lèi)器獲得的類(lèi)別與正確決策的類(lèi)別的相符的情向量空間模型的最大優(yōu)點(diǎn)在于它在知識(shí)表示方法上的巨大優(yōu)勢(shì)。在該模型中,文本內(nèi)容被形式化為空間中的一個(gè)點(diǎn),通過(guò)向量的形式給出,把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中向量的運(yùn)算,使問(wèn)題的復(fù)雜性大為降低。而權(quán)重的計(jì)算既可以用規(guī)則的方法手工完成,又可以通過(guò)統(tǒng)計(jì)的方法自動(dòng)完成,便于融合統(tǒng)計(jì)和規(guī)則兩種方法的優(yōu)點(diǎn),也正是因?yàn)榘盐谋疽韵蛄康男问蕉x到實(shí)數(shù)領(lǐng)域中,才使得模式識(shí)別和其他領(lǐng)域中的各種成計(jì)算方法得以應(yīng)用,極大提高了自然語(yǔ)言文本的可計(jì)算性和可操作性。所以說(shuō),文本的形式化表示方法一一向量空間模型是基于文本處理的各種應(yīng)用得以實(shí)現(xiàn)的基礎(chǔ)和前其中:At與文檔c同時(shí)出現(xiàn)的次數(shù);Bt出現(xiàn)c類(lèi)文檔出現(xiàn)的次數(shù);Cc文檔出現(xiàn)而t不出現(xiàn)的次數(shù);N為文檔總數(shù)。如果t與c相互之間獨(dú)立,那么Ml(t,c)為零互信息的缺點(diǎn)是受臨界特征的概率影響較大,從中可以看出當(dāng)征的P(tIc差太大的文本特征互信息值不具有可比性它與期望交叉嫡的本質(zhì)不同在于它沒(méi)有考慮單詞發(fā)生的頻度,這是互信息一個(gè)很大的缺點(diǎn),因?yàn)樗斐闪嘶バ畔⒃u(píng)估函數(shù)經(jīng)常傾向于選擇稀有單詞。在一些特征詞選擇算法的研究中發(fā)現(xiàn)網(wǎng),如果用互信息進(jìn)行特征選擇,它的精度極低(只有約3既),其原因是它刪掉了很多高頻的有用xZ估計(jì)它也用于表征兩個(gè)變量的相關(guān)性。對(duì)特征進(jìn)行打分時(shí),認(rèn)為特tc文檔之間非獨(dú)立關(guān)系,類(lèi)似于具有一維自由度的z的是特征t與c類(lèi)之間的依賴(lài)關(guān)系。特征t與c類(lèi)文檔之間的了統(tǒng)計(jì)(t,c)計(jì)算如下2(t,c)二Nx(AxDCxB)2(3B、CN的含義與前面相互信息M()I所介紹的相應(yīng)參量為特征tc類(lèi)文檔均不出現(xiàn)的次tC之間相互立,那么文本特征t的22估計(jì)值為o。I’估計(jì)與互信息的主要區(qū)別是xZ標(biāo)準(zhǔn)值,因此同類(lèi)中的特征的z“是可比的優(yōu)勢(shì)率西南交通大學(xué)第信息增益的不足之處在于它考慮了單詞未發(fā)生的情況,即在式的。工:_、,P(t,,c,`,、`:二二.,,,山二,,,:`11P(kt,c,)ofg有貢獻(xiàn),但實(shí)驗(yàn)證明網(wǎng),這種貢獻(xiàn)往往遠(yuǎn)小于考慮單詞不出現(xiàn)情況所帶來(lái)的干擾。特別是在類(lèi)分布和特征分布高度不平衡的情況下,絕大多數(shù)類(lèi)都是負(fù)要是信息增 中后一部分(代表單詞不出現(xiàn)情況)大,而非前一部(代表單現(xiàn)情況)大,信息增益的效果就會(huì)大大降低了期望交叉摘(cossentCroEnsstrTx`(`)==p(`p(Cjl`)109P(cj})tp(Cz)(3與信息增益相似35[],期望交叉嫡也是一種基于概率的方法。所信息增益要求計(jì)算所有特征屬性的值,而期望交叉嫡則只計(jì)算出現(xiàn)在文檔中的單詞。其中P(qI)t表示文本中出現(xiàn)t文本Cj的概是類(lèi)別出現(xiàn)的概率。如果詞和類(lèi)別強(qiáng)相關(guān),也就是P(q})t大,且出現(xiàn)概率又小的訊則說(shuō)明詞對(duì)分類(lèi)的影響大,相應(yīng)的函數(shù)值就大,就很可現(xiàn)了某個(gè)特定詞的條件下文本類(lèi)別的概率分布之間的距離,屬性詞t的交叉文本類(lèi)別分布的影響嫡與信息增益唯一的之處在交叉嫡法的精度始終優(yōu)于信息增益法口刀互信息仍在統(tǒng)計(jì)學(xué)中,它用于表征兩個(gè)變量的相關(guān)性,常被用來(lái)作為文本特征相關(guān)的統(tǒng)計(jì)模型及其相關(guān)應(yīng)用恤與c類(lèi)文檔之間的相互c)的定義如下P(t,c)(3常用特征選擇算法及文檔頻率價(jià)它是最簡(jiǎn)單的評(píng)估函數(shù),其值為出現(xiàn)某特征的文檔數(shù)與文檔總數(shù)之比。特征的DF計(jì)算為(出現(xiàn)特征t的文檔數(shù)/文檔總數(shù)):DF較小被忽略DF評(píng)估函數(shù)的理論假設(shè)是稀有單詞要么不含有用信息,要么太而量上比其它評(píng)估函數(shù)小得多,但在實(shí)際運(yùn)用中它的效果卻出奇地好。DF也因?yàn)橄∮袉卧~可能在某一類(lèi)文本中并不稀有,而且包含著重要的判斷信息。我們?cè)趯?shí)際運(yùn)用中一般并不直接使用DF,而常把它作為評(píng)判其它的標(biāo)準(zhǔn)信息增益任信息論角度出發(fā),根據(jù)各特征取值情況來(lái)劃分學(xué)習(xí)樣本空間時(shí),所獲信息增益的多寡,來(lái)選擇相應(yīng)的特征。對(duì)于特征t文檔類(lèi)別。,GI現(xiàn)的文檔頻數(shù)來(lái)衡量對(duì)于c信息增益。特征t對(duì)于文檔類(lèi)別的信增益IG(切)計(jì)算如下:其中:C一類(lèi)文檔集合;t示特征t不出現(xiàn)。西南交通大學(xué)第2頁(yè)、sRati。t,Pos)=109(孕粵單理少?lài)Wl尹妙I(lǐng)Pos)t!月給)(3)其中:pos表示目標(biāo)類(lèi),neg表示非目標(biāo)類(lèi)。優(yōu)勢(shì)率不是象前評(píng)估函數(shù)那樣將所有類(lèi)同等對(duì)待,而是只關(guān)心目標(biāo)類(lèi)值。這使得優(yōu)勢(shì)率特別適而不關(guān)心識(shí)別出負(fù)類(lèi),而實(shí)際的訓(xùn)練集中負(fù)類(lèi)往往占9任湯以上的這時(shí)優(yōu)勢(shì)率對(duì)于其它信息測(cè)度來(lái)說(shuō)有額外的優(yōu)訓(xùn)練過(guò)程描述如下S卻1:輸入訓(xùn)練文本(此時(shí)所有訓(xùn)練文本不區(qū)分類(lèi)別),獲得文本詞,計(jì)算詞頻矩陣(包括詞頻和文檔高頻低頻詞,去.停用詞列表中的詞,用卯血rstenirner算法將詞取詞干(去除前S均P2:根據(jù)詞頻矩陣計(jì)算所得的權(quán)重矩陣計(jì)算預(yù)處理文本的相度,根據(jù)(3一7),(3一8)計(jì)算上一步得到的所有詞分值,根據(jù)分辨值將符合標(biāo)準(zhǔn)的保存SetP3:再次輸入訓(xùn)練文本(此時(shí)按類(lèi)別輸入),對(duì)上一步得到的鍵詞,類(lèi)別計(jì)算詞頻,根據(jù)貝葉斯算法(2一5)計(jì)算屬于類(lèi)概率.將分類(lèi)器特征項(xiàng)屬性表(及其屬于各類(lèi)的概率)輸保存2.分類(lèi)分類(lèi)過(guò)程描述stepl:輸入新文本,進(jìn)行文本預(yù)處理sPetZ:根據(jù)訓(xùn)練過(guò)程得到的特征項(xiàng)屬性表獲得文本中含有的關(guān)鍵詞并計(jì)算其在新文本中的詞s娜3:根據(jù)屬于各類(lèi)概率用(2一5)計(jì)算文本所屬類(lèi)出類(lèi)別s峋時(shí):比較文本的分類(lèi)類(lèi)別和實(shí)際類(lèi)別,計(jì)算分類(lèi)精度s5:使用評(píng)價(jià)函數(shù)對(duì)分類(lèi)精度進(jìn)行評(píng)價(jià),反饋給系統(tǒng)。分類(lèi)過(guò)程如圖.43示。西南交通大學(xué)第24項(xiàng)對(duì)文檔內(nèi)容的貢獻(xiàn),經(jīng)過(guò)多次統(tǒng)計(jì)學(xué)習(xí)完成。我們(217)的征項(xiàng)權(quán)值評(píng)價(jià)函數(shù)來(lái) 理謐=擴(kuò)*甲109(一+u.ul)月其中,嘰表示項(xiàng)kt在文本壓中的文本內(nèi)頻數(shù),其值即詞頻矩陣中d`,N示全部訓(xùn)練集的文本數(shù),”`表示訓(xùn)練文本中出現(xiàn)項(xiàng)kt示項(xiàng)kt在文本Di矩陣后我們利用相似度計(jì)算(2一15)月藝(嘰寶,2、W.)飛f_L名山rr夕一名山r,二計(jì)算出每對(duì)文檔之間的相似度,獲得相似度矩陣。sij是文檔與文Dj之間的相似度,如圖.46相似度矩陣所示根據(jù)文獻(xiàn)[32定義,在文本分類(lèi)中,某一類(lèi)文檔的密度,可用該文的每對(duì)文檔間的相似性總和(3一7)來(lái)表示。麗治下客客mSiD(,,眾,k價(jià)其中,sim(Di,氏)表示文檔Di和文檔認(rèn)的相似度。Q表示該類(lèi)檔類(lèi)的密本系統(tǒng)中,我們根據(jù)計(jì)算得到的相似度矩陣,計(jì)算出類(lèi)的整體密度,然后針對(duì)每一個(gè)單詞,計(jì)算單詞存在類(lèi)中時(shí)類(lèi)的整體密度Q該類(lèi)中時(shí)類(lèi)的整體密度Q,,進(jìn)行前后密度對(duì)比,獲得單詞的分辨值dv(38:)dv,二Q一一個(gè)索引詞區(qū)分文檔的能力,如果可以用該索引詞對(duì)該類(lèi)文檔的相下叨度的貢獻(xiàn)來(lái)代表的話(huà),那么,一個(gè)索引詞的分辨值大小,則可以作為該索引詞的區(qū)分文檔的重要度。所以,在本模塊中,本文根據(jù)以上,通過(guò)計(jì)算單詞的分辨值的大小,選取分辨值大的單詞作為。該模塊最后形成一個(gè)文件并保存到硬盤(pán)中Tl.~.不lee.…、DlTl.…不WZIW22…M勒Dl圖.46相似度矩(Tl,幾,…Tt)是單詞,(dil,咬,…dit)是(TI,幾,…Tt)對(duì)應(yīng)于文檔Di的詞頻,如圖.44詞頻矩陣所示。得到詞頻后,根據(jù)詞頻可計(jì)算單詞權(quán)重。如圖.45重矩陣所幾,…Tt)是單詞,(wi,,啞,…叭)是(T,,幾,…Tt)對(duì)應(yīng)于文檔的據(jù)各特征文本處理模這個(gè)模塊主要是對(duì)文本進(jìn)行預(yù)處理。主要包括獲取有效詞,去除停止詞,的n兇、ehwes分類(lèi)算法,是基于“詞袋”(bgaof認(rèn)心risl)模型,即文檔互無(wú)關(guān)的單詞構(gòu)成的集合,不考慮單詞之間的上下文關(guān)系,單詞出現(xiàn)的順序,位置以及文章的長(zhǎng)度等。在文本分類(lèi)中,對(duì)于分類(lèi)有效的詞通常是名詞。在預(yù)處理過(guò)程,進(jìn)行文法分析后,我們先將有效單詞提取出來(lái),再使用一個(gè)預(yù)先準(zhǔn)備好的停止詞列表過(guò)濾掉對(duì)分類(lèi)沒(méi)有意義的詞,如等副詞,“I”,“丫bu”等常用代詞。在本系統(tǒng)中,我們用專(zhuān)門(mén)的詞和獲取有效英文單詞。該函數(shù)按空格分出各個(gè)單詞,并去除其中的標(biāo)點(diǎn)符號(hào)在自然語(yǔ)言中,有些詞是某些詞干加上一些前綴和后綴,后綴比如gnnier,可以將ner去除,前綴比如~ofssil,抽取其詞干ofssil,總的來(lái)說(shuō),這些詞與其詞干代表相同的意思。在本系統(tǒng)中,我訓(xùn)心rste比止ner入本系統(tǒng),設(shè)計(jì)了一個(gè)引匕n4.2.2特征項(xiàng)提取主要包括計(jì)算詞的分辨力,構(gòu)建文件等小模塊。在該模塊中,本文使用了作者基于類(lèi)別的索引詞選擇方法對(duì)于文本處模塊中獲得在所有文矩陣是文本分類(lèi)算法建立分類(lèi)模型的數(shù)據(jù)基礎(chǔ),訓(xùn)練集通過(guò)文法分析統(tǒng)計(jì)出詞頻矩陣,統(tǒng)計(jì)出該單詞出現(xiàn)的文本頻數(shù),即訓(xùn)練集中出現(xiàn)了該單詞的文本個(gè)7.1樣做文本分類(lèi)的實(shí)驗(yàn)我在這里博士在中文自然語(yǔ)言處理開(kāi)放平臺(tái)上發(fā)布的一份中文文本分類(lèi)語(yǔ)料庫(kù)作為實(shí)驗(yàn)的基本數(shù)。在這個(gè)語(yǔ)料庫(kù)中,有交通、體育、軍事 、政治、教育、境經(jīng)濟(jì)、藝術(shù)和計(jì)算機(jī)十個(gè)類(lèi)別。在訓(xùn)練樣本中每類(lèi)的統(tǒng)7.14山館,莫少?gòu)?qiáng));基于神經(jīng)網(wǎng)絡(luò)優(yōu)化算法的中文自動(dòng)分類(lèi)系統(tǒng)(交通大學(xué),成等);西風(fēng)文本自動(dòng)分類(lèi)系統(tǒng)(西風(fēng))等。在這些眾多的系統(tǒng)中,值得一提是大學(xué)的鄒濤等人運(yùn)用VSM設(shè)計(jì)了一個(gè)中文文檔自動(dòng)分類(lèi)系統(tǒng)CTDCS,封閉性測(cè)試效果最好,準(zhǔn)確率有100%,查全率也有93%,開(kāi)放性測(cè)試的結(jié)果,查全率有96%,查準(zhǔn)率也高達(dá)99%類(lèi)的一些經(jīng)典算法分類(lèi)技術(shù)在各個(gè)方面的于詞或短語(yǔ),同時(shí)還引獲取這些特征還有待進(jìn)盡管著巨大的但是已經(jīng)從可行性探索逐步向?qū)嵱没A段開(kāi)始轉(zhuǎn)變。令人欣喜的是,有的科研成果因此還需要大家共同的努力。幾乎是相同的,唯想實(shí)現(xiàn)中文文本的自動(dòng)分類(lèi),首先需要進(jìn)行中文的分詞處1.3SVM研究現(xiàn)自從Vapnik提出SVM以后,由于其顯著的優(yōu)點(diǎn)和推廣能力,用方面均已取得了很大的進(jìn)展。歸納起來(lái)主要有以下幾個(gè)方:對(duì)于各種SVM方法的研究。標(biāo)準(zhǔn)的SVM方法經(jīng)過(guò)增加函勢(shì)。再者,SVM最初針對(duì)應(yīng)用范圍的擴(kuò)大,置也有很大的差別,因究的問(wèn)題而定具體的模型,這在很大程度上阻礙了SVM能力,這也是SVM法于理論研究的一個(gè)重要原因SVM算法的研究。雖然許多算法在實(shí)際應(yīng)用中十分有效,缺乏理論意義上的證SVM是為了解決兩類(lèi)分類(lèi)問(wèn)題但是我們?cè)趯?shí)際應(yīng)用過(guò)程法的訓(xùn)練時(shí)間,必須采用一種高效的特征樣本的選擇方法。正是因?yàn)镾VM表現(xiàn)出的良好的推廣能力,在應(yīng)用領(lǐng)域得到廣泛目前,對(duì)SVM的研究方向主要有以下五個(gè)方面基

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論