向量空間模型_第1頁(yè)
向量空間模型_第2頁(yè)
向量空間模型_第3頁(yè)
向量空間模型_第4頁(yè)
向量空間模型_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

向量空間模型(vectorspacemodel)向量空間模型概念簡(jiǎn)單,把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,并且它以空間上的相似度表達(dá)語(yǔ)義的相似度,直觀易懂。當(dāng)文檔被表示為文檔空間的向量,就可以通過(guò)計(jì)算向量之間的相似性來(lái)度量文檔間的相似性。文本處理中最常用的相似性度量方式是余弦距離。VSM基本概念:文檔(Document):泛指一般的文本或者文本中的片斷(段落、句群或句子),一般指一篇文章,盡管文檔可以是多媒體對(duì)象,但是以下討論中我們只認(rèn)為是文本對(duì)象,本文對(duì)文本與文檔不加以區(qū)別"。項(xiàng)仃erm):文本的內(nèi)容特征常常用它所含有的基本語(yǔ)言單位(字、詞、詞組或短語(yǔ)等)來(lái)表示,這些基本的語(yǔ)言單位被統(tǒng)稱(chēng)為文本的項(xiàng),即文本可以用項(xiàng)集仃ermList)表示為D(T1,T2,,,,Tn)其中口是項(xiàng),1WkWn"項(xiàng)的權(quán)重仃ermWeight):對(duì)于含有n個(gè)項(xiàng)的文本D(二,厶.,叮,項(xiàng)二.常常被賦予一定的權(quán)重代表示他們?cè)谖谋綝中的重要程度,即D=(匸,二,D,.,二.)。這時(shí)我們說(shuō)項(xiàng)「的權(quán)重為心.(1WkWn)。向量空間模型(VSM):給定一文本D二D(匚,L,厶)由于兀在文本中既可以重復(fù)出現(xiàn)又應(yīng)該有先后次序的關(guān)系,分析起來(lái)有一定困難。為了簡(jiǎn)化分析,暫時(shí)不考慮匚的順序,并要求匚互異,這時(shí)可以把二,二.,二看作是一個(gè)n維的坐標(biāo),而::■:二就是n維坐標(biāo)所對(duì)應(yīng)的值,所以文檔DC」:.:二..:」:.)就可以被看作一個(gè)n維的向量了。(5)相似度(Similarity)兩個(gè)文本D,和DZ之間的(內(nèi)容)相關(guān)程度(DegreeofRelevanee)常常用他們之間的相似度Sim(二,DJ來(lái)度量,當(dāng)文本被表示為向量空間模型時(shí),我們可以借助與向量之間的某種距離來(lái)表示文本間的相似度"常用向量之間的內(nèi)積進(jìn)行計(jì)算:Sim(二,DJ迂二二嚴(yán).或者用夾角的余弦值表示:Sim(:,DJ=_國(guó)忑鴦二皿可以看出,對(duì)向量空間模型來(lái)說(shuō),有兩個(gè)基本問(wèn)題:即特征項(xiàng)的選擇和項(xiàng)的權(quán)重計(jì)算。特征項(xiàng)選擇用來(lái)表示文檔內(nèi)容的項(xiàng)可以是各種類(lèi)別,對(duì)漢語(yǔ)來(lái)說(shuō),有字、詞、短語(yǔ),甚至是句子或句群等更高層次的單位。項(xiàng)也可以是相應(yīng)詞或短語(yǔ)的語(yǔ)義概念類(lèi)。項(xiàng)的選擇必須由處理速度、精度、存儲(chǔ)空間等方面的具體要求來(lái)決定。特征項(xiàng)選取有幾個(gè)原則:一是應(yīng)當(dāng)選取包含語(yǔ)義信息較多,對(duì)文本的表示能力較強(qiáng)的語(yǔ)言單位作為特征項(xiàng);二是文本在這些特征項(xiàng)上的分布應(yīng)當(dāng)有較為明顯的統(tǒng)計(jì)規(guī)律性,這樣將適用于信息檢索、文檔分類(lèi)等應(yīng)用系統(tǒng);三是特征選取過(guò)程應(yīng)該容易實(shí)現(xiàn),其時(shí)間和空間復(fù)雜度都不太大。實(shí)際應(yīng)用中常常采用字、詞或短語(yǔ)作為特征項(xiàng)。由于詞匯是文本最基本的表示項(xiàng),在文本中的出現(xiàn)頻度較高,呈現(xiàn)一定的統(tǒng)計(jì)規(guī)律,在考慮到處理大規(guī)模真實(shí)文本所面臨的困難,一般選擇詞匯或短語(yǔ)作為特征項(xiàng),但是直接選用文本中的詞或詞組作為文本特征項(xiàng)也會(huì)存在以下問(wèn)題:(1)文本中存在一些沒(méi)有實(shí)在意義但使用頻率很高的虛詞和功能詞,如中文中“的”、“把”、“了”等,常常把一些真正有分類(lèi)作用的實(shí)詞淹沒(méi)掉了。解決這個(gè)問(wèn)題的方法是把這些詞組織成一個(gè)禁用詞表,或者進(jìn)行權(quán)重計(jì)算時(shí),使它們的權(quán)重很低,通過(guò)取閥值將它們丟棄。采用禁用詞表時(shí),詞表的選擇很關(guān)鍵,很難全面地包括所有的禁用詞,并且語(yǔ)言是不斷發(fā)展的,禁用詞表也是隨著訓(xùn)練文本集合的不同而不同,某個(gè)詞在這里不是禁用詞,到另外一類(lèi)文本中可能就成了禁用詞。另一方面考慮到,最能代表一篇文章實(shí)際意義的詞,往往是那些實(shí)詞,如形容詞、動(dòng)詞、名詞,而且同一個(gè)詞,當(dāng)處于不同詞性時(shí),可能分別屬于和不屬于禁用詞表。例如:“他高興地走了”(副詞“地”應(yīng)是禁用詞),“地很不平”(名詞“地”不應(yīng)作為禁用詞)"針對(duì)這個(gè)現(xiàn)象,提出了只提取形容詞、動(dòng)詞和名詞作為特征項(xiàng),并嘗試著取代禁用詞表方法.(2)采用詞語(yǔ)作為特征項(xiàng)時(shí)還會(huì)出現(xiàn)所謂的同義現(xiàn)象,同義現(xiàn)象是指:對(duì)于同一個(gè)事物不同的人會(huì)根據(jù)個(gè)人的需要、所處的環(huán)境、知識(shí)水平以及語(yǔ)言習(xí)慣有著不同的表達(dá)方式,因此所采用的詞匯也有很大的不同。所以經(jīng)常出現(xiàn)兩個(gè)文本所用的詞匯有所不同,但實(shí)際上兩者是相似的,這就是詞的同義現(xiàn)象造成的。例如電腦和計(jì)算機(jī)是同一個(gè)概念,應(yīng)該屬于同一個(gè)特征項(xiàng),目前最常用的解決方案是采用概念詞典來(lái)解決這個(gè)問(wèn)題。分詞確定了特征項(xiàng)單位以后,接下來(lái)要做的就是把文本分割成特征項(xiàng)的表示。我們知道,詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分。然而,漢語(yǔ)是以字為基本的書(shū)寫(xiě)單位,文本中詞與詞之間沒(méi)有明確的分隔標(biāo)記,而是連續(xù)的漢字串,顯而易見(jiàn),自動(dòng)識(shí)別詞邊界,將漢字串分為正確的詞串的漢語(yǔ)分詞問(wèn)題無(wú)疑是實(shí)現(xiàn)中文信息處理各項(xiàng)任務(wù)的基礎(chǔ)與關(guān)鍵。中文詞語(yǔ)分析一般包括3個(gè)過(guò)程:預(yù)處理過(guò)程的詞語(yǔ)粗切分、切分排歧與未登陸詞識(shí)別、詞性標(biāo)注。目前中文詞語(yǔ)分析采取的主要步驟是:先采取最大匹配、最短路徑、概率統(tǒng)計(jì)、全切分等方法,得到一個(gè)相對(duì)最好的粗分結(jié)果,然后進(jìn)行排歧、未登陸詞識(shí)別,最后標(biāo)注詞性。在實(shí)際系統(tǒng)中,這三個(gè)過(guò)程可能相互交叉、反復(fù)融合,也可能不存在明顯的先后次序??梢詫F(xiàn)在的分詞算法分為3大類(lèi):基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法?;谧址ヅ涞姆衷~方法這種方法又叫機(jī)械分詞法,它按照一定的策略將待分析的漢字串與機(jī)器字典中的詞條進(jìn)行匹配,若在字典中可以找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。按照掃描方向的不同可以分為正向匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,又可以分為最大(最長(zhǎng))匹配和最小(最短)匹配;按照是否與詞性標(biāo)注過(guò)程相結(jié)合,又可分為單純分詞法和分詞與標(biāo)注相結(jié)合的一體化方法。具體的方法主要有以下幾種:(a)最大匹配法(maximummatchingmethod,MM)在計(jì)算機(jī)中存放一個(gè)已知的詞表,這個(gè)詞表叫底表,從被切分的語(yǔ)料中,按給定的順序截取一個(gè)定長(zhǎng)的字符串,通常為6-8個(gè)漢字,這個(gè)字符串的長(zhǎng)度叫做最大詞長(zhǎng),把這個(gè)具有最大詞長(zhǎng)的字符串與底表中的詞相匹配,如匹配成功,則可確定這個(gè)字符串為詞,然后指針向給定的方向移動(dòng)與已經(jīng)識(shí)別出的詞長(zhǎng)相應(yīng)個(gè)數(shù)的漢字,繼續(xù)進(jìn)行匹配,否則,則把該字符串逐次減一,再與底表中的詞長(zhǎng)進(jìn)行匹配,直到成功為止。MM的原理簡(jiǎn)單,易于在計(jì)算機(jī)上實(shí)現(xiàn),實(shí)現(xiàn)復(fù)雜度比較低。缺點(diǎn)是最大詞長(zhǎng)難以確定,如果定得過(guò)長(zhǎng),則算法復(fù)雜度顯著提高,如果定得太短,則不能切分長(zhǎng)度大于它的詞,導(dǎo)致切分正確率降低。(b)逆向最大匹配法(reversemaximummatchingmethod,RMM)這種方法的原理與MM相同,不同的是切詞的掃描方向,如果MM的方向是從左到右取字符串進(jìn)行匹配,則RMM的切詞方向就是從右到左取字符串進(jìn)行匹配。試驗(yàn)證明RMM的切詞正確率較MM更高一些。但是,RMM要求配置逆序的切詞字典,這種詞典與人們的語(yǔ)言習(xí)慣不同。逐詞遍歷匹配法這種方法把辭典中的詞按由長(zhǎng)到短的順序,逐個(gè)與待切詞的語(yǔ)料進(jìn)行匹配,直到把語(yǔ)料中所有的詞都切分出來(lái)為止。由于這種方法要把辭典中的每個(gè)詞都匹配一遍,需要花費(fèi)很多時(shí)間,算法的時(shí)間復(fù)雜度相應(yīng)增加,效率不高。雙向掃描法這種方法是分別用MM和RMM進(jìn)行正向和逆向掃描完成初步的切分,并將用MM初步切分的結(jié)果與用RMM初步切分結(jié)果進(jìn)行比較,如果兩種結(jié)果一致,則判定正確,否則定為疑點(diǎn),此時(shí)或者結(jié)合上下文信息,或進(jìn)行人工干預(yù),選取一種切分為正確結(jié)果,由于要進(jìn)行雙向掃描,時(shí)間復(fù)雜度增加,而且為了使切分詞典能同時(shí)支持正向與逆向兩種順序的匹配和搜索,詞典的結(jié)構(gòu)比一般的切詞詞典復(fù)雜。最佳匹配法(optimummatchingmethod,0M)這是在切詞詞典中按詞出現(xiàn)頻率的大小排列詞條,高頻詞在前,低頻詞在后,從而縮短了查詢(xún)切詞詞典的時(shí)間,加快切詞的速度,使切詞達(dá)到最佳的效率。這種切詞方法對(duì)于分詞算法沒(méi)有什么改進(jìn),只是改變了分詞詞典的排列順序,它雖然降低了切詞的時(shí)間復(fù)雜度,卻沒(méi)有提高分詞的正確率。設(shè)立切分標(biāo)記法在書(shū)面語(yǔ)中,存在的切分標(biāo)記有兩種:一種是自然的切分標(biāo)志,如標(biāo)點(diǎn)符號(hào),詞不能跨越標(biāo)點(diǎn)符號(hào)而存在,標(biāo)點(diǎn)符號(hào)則是詞的邊界之所在;另一種是非自然的切分標(biāo)志,如只能在詞首出現(xiàn)的詞首字,只能在詞尾出現(xiàn)的詞尾字,沒(méi)有構(gòu)詞能力的單音節(jié)單純?cè)~、多音節(jié)單純?cè)~、擬聲詞等,詞顯然也不能跨越這些標(biāo)志而存在,它們也必然是詞的邊界。如果收集了大量的這種切分標(biāo)志,切詞時(shí),先找到切分標(biāo)志,就可以把句子切分成一些較短的字段,然后再用MM或RMM進(jìn)行進(jìn)一步切分。使用這種方法切詞,要額外消耗時(shí)間,并掃描切分標(biāo)志,還要花費(fèi)存儲(chǔ)空間來(lái)存儲(chǔ)非自然的切分標(biāo)志,使切詞算法的時(shí)間復(fù)雜度和空間復(fù)雜度都大大增加了,而切詞的正確率卻提高的有限,所以采用這種方法的自動(dòng)切詞系統(tǒng)不多。(g)有窮多級(jí)列舉法這種方法把現(xiàn)代漢語(yǔ)中的全部詞分為兩大類(lèi):一類(lèi)是開(kāi)放詞,如名詞、動(dòng)詞、形容詞等,它們的成員幾乎是無(wú)窮的,另一類(lèi)是閉鎖詞,如連詞、助詞、嘆詞等,它們的成員是可以一一枚舉的。切詞時(shí),先切出詞的特殊標(biāo)志的字符串,如阿拉伯?dāng)?shù)字、拉丁字母等,再切出可枚舉的閉鎖詞,最后在逐級(jí)切出開(kāi)放詞。這是完全立足于語(yǔ)言學(xué)的切詞方法,在計(jì)算機(jī)上實(shí)現(xiàn)起來(lái)還是很有困難。由于漢語(yǔ)很少單字成詞的特點(diǎn),正向最小匹配和逆向最小匹配一般很少使用。一般說(shuō)來(lái),逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也很少。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的錯(cuò)誤率為1/245(這可能是因?yàn)闈h語(yǔ)的中心語(yǔ)靠后的特點(diǎn))。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要。由于分詞是一個(gè)智能決策過(guò)程,機(jī)械分詞方法無(wú)法解決分詞階段的兩大基本問(wèn)題:歧義切分問(wèn)題和未登陸詞識(shí)別問(wèn)題。實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種切分手段,還需通過(guò)利用各種其他的語(yǔ)言信息來(lái)進(jìn)一步提高切分的正確率。對(duì)于機(jī)械分詞方法,可以建立一個(gè)通用模型,形式化地表示為ASM(d,a,m)即AutomaticSegmentationModel"其中:d:匹配方向,+1表示正向,一1表示逆向。a:每次匹配失敗后增加/減少字符串長(zhǎng)度(字符數(shù)),+1為增字,一1為減字。m:最大/最小匹配標(biāo)志,+1為最大匹配,一1為最小匹配。例如,ASM(+,-,+)就是正向減字最大匹配法(即MM),ASM(-,-,+)就是逆向減字最大匹配法(即RMM),等等。對(duì)于現(xiàn)代漢語(yǔ)來(lái)說(shuō),只有m=+1是實(shí)用的方法。(2)基于理解的分詞方法通常的分詞系統(tǒng),都力圖在分詞階段消除所有歧義切分現(xiàn)象,有些系統(tǒng)則在后續(xù)過(guò)程中來(lái)處理歧義切分問(wèn)題,其分詞過(guò)程只是整個(gè)語(yǔ)言理解過(guò)程的一個(gè)小部分。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象。它通常包括3個(gè)部分:分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信息來(lái)對(duì)分詞歧義進(jìn)行判斷,即它模擬了人對(duì)句子的理解過(guò)程。這種分詞方法需要使用大量的語(yǔ)言知識(shí)和信息。由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語(yǔ)言信息組織成機(jī)器可直接讀取的形式,因此,目前基于理解的分詞系統(tǒng)還處于試驗(yàn)階段,聯(lián)想回溯法就是其中的一種。聯(lián)想-回溯法(association-backtrackingmethod,AB):要求建立知識(shí)庫(kù)-特征詞詞庫(kù)、實(shí)詞詞庫(kù)和規(guī)則庫(kù)。首先將待切分的漢字字符串序列分割為若干子串,子串可以是詞,也可以是由幾個(gè)詞組合成的詞群,然后就利用實(shí)詞詞庫(kù)和規(guī)則庫(kù)將詞群細(xì)分為詞。切詞時(shí),要利用一定的語(yǔ)法知識(shí),建立聯(lián)想機(jī)制和回溯機(jī)制。聯(lián)想機(jī)制由聯(lián)想網(wǎng)絡(luò)和聯(lián)想推理構(gòu)成,聯(lián)想網(wǎng)絡(luò)描述每個(gè)虛詞的構(gòu)詞能力,聯(lián)想推理利用相應(yīng)的聯(lián)想網(wǎng)絡(luò)來(lái)判定所描述的虛詞究竟是單獨(dú)的詞還是作為其他詞中的構(gòu)成成分。回溯機(jī)制主要用于處理歧義句子的切分。聯(lián)想回溯算法雖然增加了算法的時(shí)間復(fù)雜度和空間復(fù)雜度,但是這種方法的切詞正確率得到了提高,是一種行之有效的方法?;诮y(tǒng)計(jì)的分詞方法從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的詞同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞"因此字與字相鄰共現(xiàn)的頻率或概率能夠較好地反映成詞的可信度??梢詫?duì)語(yǔ)料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。定義兩個(gè)字的互現(xiàn)信息為:M(X,Y)=log(P(X,Y)/P(X)*P(Y))其中P(X,Y)是漢字X,Y的相鄰共現(xiàn)頻率,P(X)、P(Y)分別是X、Y在語(yǔ)料中出現(xiàn)的概率。互現(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)闡值時(shí),便可認(rèn)為此字組可能構(gòu)成一個(gè)詞。這種方法只需要對(duì)語(yǔ)料中字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又稱(chēng)為無(wú)詞典分詞法或統(tǒng)計(jì)取詞方法。但這種方法也有一定的局限性,會(huì)經(jīng)常抽出一些共現(xiàn)頻度高,但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對(duì)常用詞的識(shí)別精度差,時(shí)空開(kāi)銷(xiāo)大。實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新詞,即將串頻統(tǒng)計(jì)和串匹配結(jié)合起來(lái),既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無(wú)詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。常用的有基于詞頻統(tǒng)計(jì)的切詞法和基于期望的切詞法。(a)基于詞頻統(tǒng)計(jì)的切詞法這種方法利用詞頻統(tǒng)計(jì)的結(jié)果幫助在切詞過(guò)程中處理歧義切分字段.這種方法的缺點(diǎn)是:由于只考慮詞頻,出現(xiàn)頻率較低的詞總是被錯(cuò)誤地切分.(b)基于期望的切詞法這種方法認(rèn)為一個(gè)詞的出現(xiàn),它后面緊隨的詞就有一種期望,據(jù)這種期望,在詞典中找到所有的詞從而完成切分.這種方法增加了切詞的空間復(fù)雜度,但在一定程度上提高了切詞的正確率。中文文本自動(dòng)分詞技術(shù)一般以詞典作為分詞依據(jù),使用專(zhuān)門(mén)的分詞算法將文本中出現(xiàn)于詞典中的詞識(shí)別出來(lái)。通過(guò)這種方法獲得的文本特征只能是詞典中出現(xiàn)的詞匯,但是自然語(yǔ)言領(lǐng)域相關(guān)性和隨時(shí)間變化的特性,詞典中不可能包含文本中所有詞匯,因此,對(duì)不同類(lèi)型文本進(jìn)行分類(lèi)時(shí),就需要不斷修整和擴(kuò)充詞典并改進(jìn)分詞技術(shù),才能獲得良好的分類(lèi)性能。針對(duì)基于詞典分詞的分類(lèi)系統(tǒng)存在的弊端,人們提出了一種基于n-gram信息的文本特征提取技術(shù),使文本自動(dòng)分類(lèi)系統(tǒng)擺脫了對(duì)復(fù)雜分詞處理程序?qū)嫶笤~庫(kù)的依賴(lài),實(shí)現(xiàn)了中文文本自動(dòng)分類(lèi)的領(lǐng)域無(wú)關(guān)性和時(shí)間無(wú)關(guān)性。N-gram信息的概念是信息論創(chuàng)始人C.E.Shannon在研究信源編碼時(shí)提出來(lái)的,常被用來(lái)表示信源輸出的連續(xù)n個(gè)字符所組成的字符串。Shannon曾用它來(lái)研究英文文本中字符或字符串的統(tǒng)計(jì)特性,即信息嫡,隨后,n—gram信息被廣泛應(yīng)用于文本壓縮、字符識(shí)別與糾錯(cuò)等領(lǐng)域,是一種直接面向代碼的技術(shù)。采用n-gram信息作為文本特征具有以下特點(diǎn):第一:無(wú)需任何詞典支持;第二:對(duì)輸入文本所需的先驗(yàn)知識(shí)少;第三:無(wú)需進(jìn)行分詞處理;但是n-gram信息獲取技術(shù)的領(lǐng)域無(wú)關(guān)性和時(shí)間無(wú)關(guān)性的實(shí)現(xiàn)是有代價(jià)的.首先,n-gram信息的提取對(duì)系統(tǒng)資源的要求比較高,因?yàn)檫M(jìn)行任何n-gram信息提取時(shí),都會(huì)產(chǎn)生大量的數(shù)據(jù)冗余,占用很大的內(nèi)存空間。相比較于詞典的分詞技術(shù),其實(shí)現(xiàn)效率低,獲取n一gram信息將花費(fèi)較長(zhǎng)的時(shí)間。特征值抽取一篇文章在經(jīng)過(guò)了分詞處理之后,會(huì)產(chǎn)生很多詞條。如果一個(gè)文檔所有詞條都被作為其特征,將會(huì)使特征項(xiàng)異常龐大,而且這樣的特征項(xiàng)會(huì)使得每個(gè)特征項(xiàng)所含信息非常平滑,有用信息反而不會(huì)突出。因此我們需要進(jìn)行特征項(xiàng)選取,把詞條中最能代表某類(lèi)文本信息的詞條挑選出來(lái),作為文本的特征項(xiàng)。實(shí)驗(yàn)結(jié)果表明簡(jiǎn)化特征項(xiàng)不但不會(huì)使分類(lèi)結(jié)果準(zhǔn)確率降低,而且還會(huì)使結(jié)果更加準(zhǔn)確。特征項(xiàng)選擇一般使用統(tǒng)計(jì)方法,利用各種計(jì)算公式,計(jì)算詞代表的信息含量,確定一個(gè)閥值,將低于閥值的詞語(yǔ)過(guò)濾掉。或者確定一個(gè)特征項(xiàng)數(shù)目n,保留處于信息含量在前n位的詞條。特征抽取算法是文本自動(dòng)分類(lèi)中的一項(xiàng)關(guān)鍵技術(shù)和瓶頸技術(shù),如何從原始文本特征集合中選擇最能表示文本主題內(nèi)容的特征子集,是文本特征抽取算法的研究目標(biāo)。目前,有多種特征抽取算法被用于文本自動(dòng)分類(lèi)的研究中,但這些算法都有其優(yōu)點(diǎn)和缺點(diǎn),沒(méi)有公認(rèn)的最優(yōu)方法,需要針對(duì)具體系統(tǒng)進(jìn)行對(duì)比來(lái)確定最優(yōu)方法。特征選擇可以從兩個(gè)方面提高系統(tǒng)性能一是分類(lèi)速度,通過(guò)特征選擇,可以大大減少特征集合中的特征數(shù),降低文本向量的維數(shù),簡(jiǎn)化計(jì)算,防止過(guò)度擬合,提高系統(tǒng)運(yùn)行速度。二是準(zhǔn)確率,通過(guò)適當(dāng)?shù)奶卣鬟x擇,不但不會(huì)降低系統(tǒng)準(zhǔn)確性,反而會(huì)使系統(tǒng)精度提高。在文本處理中,一些常用特征提取評(píng)估函數(shù)有文檔頻數(shù)(documentfrequency)、信息增益(informationgain)、期望交叉熵(expectedcrossentropy)、互信息(mutualinformation)、廠統(tǒng)計(jì)(CHI)、文本證據(jù)權(quán)(theweightofevideneefortext)等。(1)文檔頻數(shù)DF它是最簡(jiǎn)單的評(píng)估函數(shù),值為訓(xùn)練集合中該單詞發(fā)生的文本數(shù)。DF評(píng)估函數(shù)的理論假設(shè)稀有單詞可能不包含有用信息,也可能太少而不足以對(duì)分類(lèi)產(chǎn)生影響,也可能是噪音,因此可以刪去。顯然它在計(jì)算量上比其他評(píng)估函數(shù)小很多,但是實(shí)踐運(yùn)用中它的效果卻很好.DF的缺點(diǎn)是稀有單詞可能在某一類(lèi)文本中并不稀有,也可能包含著重要的判斷信息,錯(cuò)誤的舍棄,可能影響分類(lèi)器的精度。因此,在實(shí)際運(yùn)用中一般并不直接使用DF。(2)信息增益(informationGain)信息增益表示文檔中包含某一特征值時(shí)文檔類(lèi)的平均信息量。它定義為某一特征在文檔中出現(xiàn)前后的信息熵之差。假定c為文檔類(lèi)變量,C為文檔類(lèi)的集合,d為文檔,f為特征(以下各節(jié)同此)。對(duì)于特征f,其信息增量記為IG(f),計(jì)算公式如下:IG(f)=H(C)-H(C|f)特征項(xiàng)賦權(quán)為了兼顧查全率和查準(zhǔn)率,檢索系統(tǒng)在對(duì)特征項(xiàng)進(jìn)行賦權(quán)時(shí),應(yīng)同時(shí)包含提高查全率和查準(zhǔn)率的賦權(quán)因子。特征項(xiàng)賦權(quán)因子由頻率因子(TF)、文檔集因子(DF)和規(guī)格化因子三部分組成。在文檔中頻繁出現(xiàn)的特征項(xiàng)具有較高的權(quán)重,因此檢索系統(tǒng)常使用頻率因子TF(TermFrequency)進(jìn)行特征項(xiàng)賦權(quán),使用高頻特征項(xiàng)進(jìn)行查詢(xún)可以提高系統(tǒng)的查全率。僅使用頻率因子并不能保證系統(tǒng)的查詢(xún)性能,提高查全率時(shí)會(huì)影響檢索系統(tǒng)的查準(zhǔn)率。因此需要引入一個(gè)與文檔集合有關(guān)的因子,加大文檔之間的區(qū)分度。如果特征項(xiàng)在集合中較少的文檔中出現(xiàn),則相應(yīng)的文檔集因子IDF(InverseDocumentFrequency)較大。在文檔總數(shù)為N的集合中,如果包含某特征項(xiàng)的文檔數(shù)為n,則文檔集因子是id仁「:應(yīng)廠二]。(3)當(dāng)文檔較長(zhǎng)時(shí),查詢(xún)式與文檔進(jìn)行匹配的可能性更大,所以長(zhǎng)文檔比短文檔更有可能被提取出來(lái),因此引入規(guī)格化因子來(lái)消除文檔長(zhǎng)度對(duì)匹配結(jié)果的影響。假定丄代表特征項(xiàng)的權(quán)重,最后的規(guī)格化因子定義為:向量空間模型門(mén)限幾或文檔數(shù)wTF-IDF權(quán)重特征項(xiàng)的權(quán)重計(jì)算是文本相似度計(jì)算中的一個(gè)非常重要的環(huán)節(jié)。一篇文本中的特征項(xiàng)數(shù)目眾多,要想得到比較準(zhǔn)確的對(duì)文本內(nèi)容的數(shù)學(xué)化表示,我們需要對(duì)能顯著體現(xiàn)文本內(nèi)容特征的特征項(xiàng)賦予高權(quán)重,而對(duì)不能可以體現(xiàn)文本內(nèi)容特征的特征項(xiàng)賦予低權(quán)重。從效率方面來(lái)說(shuō),特征項(xiàng)權(quán)重的計(jì)算是文本相似度計(jì)算中的主要工作,它的效率也直接影響文本相似度計(jì)算的整體效率。經(jīng)典的TF-IDF權(quán)重是向量空間模型中應(yīng)用最多的一種權(quán)重計(jì)算方法,它以詞語(yǔ)作為文本的特征項(xiàng),每個(gè)特征項(xiàng)的權(quán)重

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論