版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、計(jì)劃類(lèi)別 項(xiàng)目編號(hào) 項(xiàng)目技術(shù)報(bào)告課題名稱(chēng) 項(xiàng)目主持人 承擔(dān)單位 題目:改進(jìn)的TFIDF標(biāo)簽提取算法TFIDF算法作為一種加權(quán)算法,在信息檢索和數(shù)據(jù)挖掘等自然語(yǔ)言處理領(lǐng)域發(fā)揮了巨大的作用。它的計(jì)算模型相對(duì)簡(jiǎn)單,適合大數(shù)據(jù)并行計(jì)算,適用領(lǐng)域廣泛,且擁有很好的解釋性?;谝陨线@些特點(diǎn),本文在TFIDF算法基礎(chǔ)之上,利用監(jiān)督的學(xué)習(xí),并通過(guò)引入加權(quán)因子和詞貢獻(xiàn)度,來(lái)修正TFIDF算法結(jié)果權(quán)值。利用這個(gè)算法可以在自然語(yǔ)言處理中有效地提取特征標(biāo)簽,并且改進(jìn)后的算法在這一細(xì)分領(lǐng)域具有極高準(zhǔn)確度。關(guān)鍵詞:自然語(yǔ)言處理;TFIDF;詞加權(quán)算法;標(biāo)簽提??;監(jiān)督學(xué)習(xí)Abstract:As a word weighti
2、ng algorithm,TFIDF plays an important role in natural language processing such as information retrieval and data mining.TFIDF has relatively simple computational model,suitable for large data parallel computation,applied widely in many fields,and with good explanatory characteristics.Based on the ab
3、ove-mentioned characteristics,this paper proposes to amend the weighted results of TFIDF by means of supervised learning based on TFIDF algorithm as well as by introducing weighting factors and word contribution.This algorithm can effectively extract feature labels in natural language processing,and
4、 improve the degree of accuracy in this segmentation field.Keywords:natural language processing;TFIDF;word weighting algorithm;label extraction;supervised learning1 引言(Introduction)互聯(lián)網(wǎng)每分鐘都會(huì)產(chǎn)生PB級(jí)別的信息。如何從這些信息大數(shù)據(jù)中提取到有用的信息,并結(jié)合快速發(fā)展并日益成熟的人工智能技術(shù)來(lái)改善產(chǎn)品是一個(gè)迫切需要解決的問(wèn)題。移動(dòng)互聯(lián)網(wǎng)時(shí)代,信息所呈現(xiàn)的特征更加個(gè)性化、主體化、終端化。數(shù)據(jù)中存在無(wú)限的價(jià)值,誰(shuí)能從
5、海量的信息數(shù)據(jù)中撅取價(jià)值,誰(shuí)就可以立足于這個(gè)數(shù)據(jù)時(shí)代。20世紀(jì)90年代興起的人工智能科學(xué),成為信息處理相關(guān)從業(yè)者手中的一把利器。在人工智能技術(shù)中,特征提取一直是一個(gè)難點(diǎn),也是一個(gè)痛點(diǎn)。有這么一句話(huà)在業(yè)界廣泛流傳:數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限而已。那么特征工程到底是什么呢?顧名思義,其本質(zhì)是一項(xiàng)工程活動(dòng),目的是最大限度地從原始數(shù)據(jù)中提取特征,以供算法和模型使用。這足以說(shuō)明在人工智能尤其是機(jī)器學(xué)習(xí)中,特征提取是多么重要。為了解決特征標(biāo)簽提取的問(wèn)題,本文將介紹在自然語(yǔ)言處理這個(gè)具體應(yīng)用領(lǐng)域中是如何進(jìn)行特征工程的。為了達(dá)到目的,第一步要對(duì)語(yǔ)句進(jìn)行分詞1。第二步要對(duì)完成分
6、詞的文章中的每個(gè)詞進(jìn)行加權(quán),通過(guò)權(quán)值的大小來(lái)表示詞的重要性2。在自然語(yǔ)言處理方向中,最著名的詞加權(quán)技術(shù)就是TFIDF。TFIDF(詞頻逆文本頻率)是一種對(duì)基于統(tǒng)計(jì)的加權(quán)方法,用以評(píng)估一個(gè)字詞對(duì)于一個(gè)文本或者一個(gè)語(yǔ)料庫(kù)的重要程度。TFIDF已經(jīng)作為一個(gè)成熟的算法廣泛應(yīng)用于自然語(yǔ)言處理的各個(gè)領(lǐng)域,其中最典型的就是搜索引擎。TFIDF雖然得到了廣泛的應(yīng)用,但是存在一定的不足,尤其是在細(xì)分領(lǐng)域,比如關(guān)鍵詞提取3。本文提出了一種基于TFIDF的改進(jìn)加權(quán)技術(shù),使TFIDF在自然語(yǔ)言處理的細(xì)分領(lǐng)域中的關(guān)鍵詞提取應(yīng)用上達(dá)到更好的效果,通過(guò)基礎(chǔ)語(yǔ)料庫(kù)使計(jì)算出的權(quán)值結(jié)果更能表達(dá)詞對(duì)文章的代表程度。2 TFIDF算
7、法與不足(TFIDF algorithm and its defects)Salton在1973年提出了TFIDF(Term Frequency&Inverse; Documentation Frequency)算法。算法提出后,Salton及其他學(xué)者論證了該算法在信息學(xué)中的有效性。TFIDF算法主要分為兩個(gè)部分,分別是詞頻(TF)和逆文本頻率(IDF)4。TF是指文檔中某個(gè)詞出現(xiàn)在文章中的頻率值越大,則表明該詞的重要性越大。逆文本頻率(IDF)是指詞出現(xiàn)的篇幅越多,其重要性就越低。逆文本頻率有效地避免了詞的長(zhǎng)尾效應(yīng)5,使權(quán)值更能準(zhǔn)確地表達(dá)詞的重要程度。TFIDF算法描述為因?yàn)門(mén)FDIF算法容
8、易理解并且算法復(fù)雜度低,可以使用絕大多數(shù)的編程語(yǔ)言計(jì)算出準(zhǔn)確的TFIDF模型。同時(shí)TFIDF具有較好的解釋性和準(zhǔn)確性,這些特性使得TFIDF被廣泛地應(yīng)用,并被應(yīng)用到自然語(yǔ)言處理和推薦系統(tǒng)領(lǐng)域。但在實(shí)踐中人們發(fā)現(xiàn)TFIDF存在很多的問(wèn)題,并不能很好地處理所有的應(yīng)用領(lǐng)域。尤其是在特殊的細(xì)分領(lǐng)域中,TFIDF通常表現(xiàn)得差強(qiáng)人意。本文在自然語(yǔ)言處理領(lǐng)域中的標(biāo)簽提取應(yīng)用中使用改進(jìn)的TFIDF算法該方法有效地提高了文章標(biāo)簽提取的準(zhǔn)確度。3 文本預(yù)處理(Text pre-processing)對(duì)文本進(jìn)行標(biāo)簽提取,首先要對(duì)文本進(jìn)行預(yù)處理。本文所介紹的文本標(biāo)簽提取技術(shù)需要進(jìn)行四個(gè)階段的預(yù)處理。通過(guò)對(duì)文本進(jìn)行預(yù)處
9、理,可以有效地減少算法的運(yùn)算量,提高結(jié)果的精確度。文本預(yù)處理的四個(gè)步驟分別為:第一步,準(zhǔn)備訓(xùn)練集;第二步,對(duì)文本進(jìn)行分詞;第三步,將文本使用向量模型表示6;第四步,對(duì)向量模型進(jìn)行降維7。本文所介紹的算法是給予監(jiān)督學(xué)習(xí)的算法,所以需要準(zhǔn)備一個(gè)足夠豐富的訓(xùn)練集,并且這個(gè)訓(xùn)練集需要人為地進(jìn)行標(biāo)注主題。在自然語(yǔ)言處理中,語(yǔ)料庫(kù)是進(jìn)行監(jiān)督學(xué)習(xí)算法的基礎(chǔ),就像人類(lèi)學(xué)習(xí)寫(xiě)文章一樣,語(yǔ)文老師就像一個(gè)龐大且完善的語(yǔ)料庫(kù),這個(gè)語(yǔ)料庫(kù)會(huì)告訴你每篇文章的類(lèi)型和中心思想,并監(jiān)督你學(xué)習(xí)8。本文在進(jìn)行權(quán)重計(jì)算時(shí)假設(shè)已經(jīng)有一個(gè)完善的語(yǔ)料庫(kù),有很多不同的主題分類(lèi)9,并且涵蓋了所有的分類(lèi)。每個(gè)分類(lèi)的文章盡可能多地收集到不同風(fēng)格和
10、不同作者的文章9。在準(zhǔn)備好訓(xùn)練集后,需要對(duì)每篇文章進(jìn)行分詞2。漢語(yǔ)是一種非形態(tài)語(yǔ)言,缺乏形態(tài)標(biāo)記,語(yǔ)序和虛詞是重要的語(yǔ)法手段。英語(yǔ)語(yǔ)法手段是顯性的,并且英語(yǔ)單詞之間用空格分割,而中文與英文不同,這給中文分詞帶來(lái)了巨大的困難。目前中科院和Jieba開(kāi)源項(xiàng)目提供了針對(duì)于中文的分詞算法,即便如此,對(duì)于某些句子的分詞還是會(huì)扭曲原句的意思10,使關(guān)鍵詞被拆分成單個(gè)漢字。這就需要人為地對(duì)特殊句子進(jìn)行人為的分詞。分詞后,所有的文檔會(huì)形成一個(gè)字典。這個(gè)字典包括了訓(xùn)練集所有的詞匯,詞匯被標(biāo)示成,其中表示詞的位置,表示特定的詞語(yǔ)11。值得注意的是,詞典幾乎囊括了所有的漢語(yǔ)詞匯和詞組,這無(wú)疑加大了特征的緯度,所以在
11、預(yù)處理的步驟中需要去掉停用詞。停用詞是指那些出現(xiàn)頻率高但是表示意義小的詞12,比如文本中的數(shù)字和助動(dòng)詞“的”,它們大量地出現(xiàn)在文本中,但是卻對(duì)文章的主題沒(méi)有任何影響。除了通過(guò)專(zhuān)家進(jìn)行停用詞的挑選,在這里同樣可以借助于IDF逆文本頻率進(jìn)行停用詞的判斷。通過(guò)定義一個(gè)閾值,只要超過(guò)了閾值,那么這個(gè)詞就可以看作是是一個(gè)停用詞,在文本預(yù)處理過(guò)程中就需要將這些詞從詞組中剔除。4 詞貢獻(xiàn)度(Word contribution)每篇文章都有自己的主題和中心思想,主題和中心思想可以近似地代表整篇文章。主題和中心思想同時(shí)又可以由體現(xiàn)文章主旨的詞匯表示,可以由公式表示由文章推出標(biāo)簽特征的過(guò)程11。在以上前提下可以提
12、出一個(gè)叫主題貢獻(xiàn)度的概念13。所謂的詞匯貢獻(xiàn)度就是指根據(jù)潛在語(yǔ)義分析的概念,將詞語(yǔ)放入在不同的主題下的貢獻(xiàn)度記做,那么將一篇文檔詞袋中的詞對(duì)文章的貢獻(xiàn)度記做T表示一個(gè)詞對(duì)文檔的貢獻(xiàn)度,C表示一個(gè)詞出現(xiàn)在文中的次數(shù)。5 計(jì)算詞權(quán)重(Word weighting calculation)第二節(jié)講述了如何分詞并進(jìn)行數(shù)學(xué)表達(dá),第三節(jié)講述了如何進(jìn)行語(yǔ)料庫(kù)的設(shè)計(jì)。本文所介紹的加權(quán)算法就是基于以上兩節(jié)內(nèi)容的基礎(chǔ)。詞袋模型只是將分詞后的數(shù)組按照順序排列,加權(quán)完的詞袋模型具有了新的表達(dá)形式(*,*)(*,*),元祖的key代表字典索引值,元組的value代表字典的權(quán)值。TFIDF作為一個(gè)成熟的算法,有著成熟的應(yīng)
13、用。本文提出的算法在TFIDF的基礎(chǔ)之上,目標(biāo)是更加精確地對(duì)詞進(jìn)行加權(quán),表示一個(gè)詞在文本中出現(xiàn)的頻率,表示一個(gè)逆文檔頻率,在第二節(jié)中的停用詞提取就是用的IDF。表示詞i出現(xiàn)在整個(gè)語(yǔ)料庫(kù)中的篇數(shù)。使用求得文檔的總貢獻(xiàn)度,在語(yǔ)料庫(kù)中取出貢獻(xiàn)度最高主題T,并求出該主題下詞i出現(xiàn)的篇數(shù)。P(i)表示的是一個(gè)詞所代表主題的頻度,所以P(i)是詞i在整篇文章出現(xiàn)的次數(shù)和詞在最高貢獻(xiàn)度主題下的出現(xiàn)次數(shù)的比值并求負(fù)數(shù)。例如在一個(gè)語(yǔ)料庫(kù)中秦始皇這個(gè)詞在歷史中出現(xiàn)了100次,在影視中出現(xiàn)了50次,在其余類(lèi)中總共出現(xiàn)了50詞,那么秦始皇這個(gè)詞P(i)分別為-0.5、-0.25、-0.25、P(i)雖然能夠很好地表示
14、詞的主題相關(guān)性,但是數(shù)值存在差別太大的可能性,因?yàn)槿绻诳倲?shù)很大的情況下,那么很可能出現(xiàn)P(i)的值也過(guò)大,計(jì)算后的誤差也會(huì)變得特別大。所以要對(duì)P(i)進(jìn)行歸一化。利用邏輯回歸函數(shù)進(jìn)行歸一化,其幾何表示如圖1所示。利用邏輯函數(shù)的特性,在區(qū)間內(nèi)的值區(qū)間為(0,1),也就是說(shuō)無(wú)論這個(gè)數(shù)值多么大,它的值區(qū)間都很友好。再對(duì)其變形并帶入P(i)和詞i的貢獻(xiàn)度Ti,經(jīng)過(guò)變換得到。可以看做是一個(gè)影響因子,可以對(duì)進(jìn)行修正,這可以叫做詞i權(quán)修正因子。至此,我們得到了如何加權(quán)的算法。根據(jù)這個(gè)算法我們將算出每個(gè)詞的權(quán)值,并帶入元組列表中。6 結(jié)論(Conclusion)首先通過(guò)介紹TFIDF的算法原理以及對(duì)TFID
15、F算法的加權(quán)結(jié)果的解釋可知,這是一個(gè)偉大的算法,但隨著人工智能和大數(shù)據(jù)的到來(lái),特征提取變得越發(fā)的重要,TFIDF這個(gè)在自然語(yǔ)言處理中近乎萬(wàn)金油的算法模型已經(jīng)不能很好地滿(mǎn)足需要,所以在TFIDF算法的基礎(chǔ)上進(jìn)行改進(jìn)。特征提取是一個(gè)復(fù)雜的過(guò)程,包括多個(gè)步驟,每一步都會(huì)對(duì)結(jié)果進(jìn)行影響,比如分詞。好的分詞方法可以在分詞后不改變?cè)?,讓后面的算法可以有效地提取出文本的特征?biāo)簽。詞典和詞向量和停用詞可以減少模型的時(shí)間復(fù)雜度和空間復(fù)雜度,在監(jiān)督學(xué)習(xí)算法的前提下,模型需要大量的數(shù)據(jù)來(lái)學(xué)習(xí),面對(duì)這些海量的數(shù)據(jù),如果前面幾步處理的不恰當(dāng),很可能導(dǎo)致整個(gè)模型的可用性變得很差。最后針對(duì)TFIDF在自然語(yǔ)言處理特征標(biāo)簽
16、提取應(yīng)用中的不足,對(duì)算法進(jìn)行改正。首先TFIDF體現(xiàn)出自然語(yǔ)言的語(yǔ)義。語(yǔ)義可以說(shuō)是文本最重要的體現(xiàn)形式。根據(jù)TFIDF算法很可能獲取的權(quán)值較高的特征標(biāo)簽中包括多組反義詞,從而導(dǎo)致無(wú)效的結(jié)果。因?yàn)樵谡撟C某一問(wèn)題時(shí)不可能避免地會(huì)使用它的對(duì)立面語(yǔ)義而TFIDF又是忽略語(yǔ)義的,所以引入了詞貢獻(xiàn)度這個(gè)概念可以很好地彌補(bǔ)TFIDF的語(yǔ)義處理上的缺失。最后為了使結(jié)果更加平滑,使用邏輯回歸函數(shù)作為歸一化函數(shù)。本文對(duì)TFIDF的改進(jìn)主要在兩個(gè)方面。一是利用了詞貢獻(xiàn)度,二是根據(jù)詞貢獻(xiàn)度來(lái)得出修正因子,使結(jié)果更加準(zhǔn)確。詞貢獻(xiàn)度可以合理針對(duì)于主題方面對(duì)TFIDF進(jìn)行了改進(jìn),為T(mén)FIDF增加影響因子,力圖使所得到的權(quán)值
17、更加地準(zhǔn)確。參考文獻(xiàn)(References)1 韓冬煦,常寶寶.中文分詞模型的領(lǐng)域適應(yīng)性方法J.計(jì)算機(jī)學(xué)報(bào),2015,38(02):272-281.2 初建崇,劉培玉,王衛(wèi)玲.Web文檔中詞語(yǔ)權(quán)重計(jì)算方法的改進(jìn)J.計(jì)算機(jī)工程與應(yīng)用,2007,17(19):192-194;198.3 劉勘,周麗紅,陳譞.基于關(guān)鍵詞的科技文獻(xiàn)聚類(lèi)研究J.圖書(shū)情報(bào)工作,2012,56(04):6-11.4 施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述J.計(jì)算機(jī)應(yīng)用,2009,29(S1):167-170;180.5 陳力丹,霍仟.互聯(lián)網(wǎng)傳播中的長(zhǎng)尾理論與小眾傳播J.西南民族大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),2013,34(04):148-152;246.6 江大鵬.基于詞向量的短文本分類(lèi)方法研究D.浙江大學(xué), 2015.7 劉欣,佘賢棟,唐永旺,等.基于特征詞向量的短文本聚類(lèi)算法J.數(shù)據(jù)采集與處理,2017,32(05):1052-1060.8 劉建偉,劉媛,羅雄麟.半監(jiān)督學(xué)習(xí)方法J.計(jì)算機(jī)學(xué)報(bào),2015,38(08):1592-1617.9 譚金波,李藝,楊曉江.文本自動(dòng)分類(lèi)的測(cè)評(píng)研究進(jìn)展
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育領(lǐng)域的安全管理創(chuàng)新與實(shí)踐
- 科技助力乳腺疾病早期發(fā)現(xiàn)與干預(yù)
- 2025年度個(gè)人與企業(yè)租車(chē)合作保障協(xié)議3篇
- 2025版?zhèn)€人住宅電梯公寓租賃管理合同
- 2025年度個(gè)人貸款合同解除條件合同范本3篇
- 2025年度個(gè)人住房抵押貸款延期還款合同3篇
- 2025年度個(gè)人土地租賃合同范本7篇
- 學(xué)前兒童科技美術(shù)教育的政策支持與實(shí)施策略
- 2025年新型環(huán)保櫥柜銷(xiāo)售服務(wù)合同范本4篇
- 珠海廣東珠海市公安局交通警察支隊(duì)金灣大隊(duì)招聘輔警2人筆試歷年參考題庫(kù)附帶答案詳解
- 2025年八省聯(lián)考數(shù)學(xué)試題(原卷版)
- 2024年日語(yǔ)培訓(xùn)機(jī)構(gòu)市場(chǎng)供需現(xiàn)狀及投資戰(zhàn)略研究報(bào)告
- 《榜樣9》觀后感心得體會(huì)二
- 歷史-廣東省大灣區(qū)2025屆高三第一次模擬試卷和答案
- 2023新譯林版新教材高中英語(yǔ)必修一重點(diǎn)詞組歸納總結(jié)
- 蘇教版四年級(jí)數(shù)學(xué)下冊(cè)第3單元第2課時(shí)“常見(jiàn)的數(shù)量關(guān)系”教案
- 弘揚(yáng)中華傳統(tǒng)文化課件
- 基于協(xié)同過(guò)濾算法的電影推薦系統(tǒng)設(shè)計(jì)
- 消防應(yīng)急預(yù)案流程圖
- 《數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論》完整版課件(全)
- 人教統(tǒng)編版高中語(yǔ)文必修下冊(cè)第六單元(單元總結(jié))
評(píng)論
0/150
提交評(píng)論