一種非線性詞頻因子關(guān)鍵詞權(quán)值計(jì)算法.doc_第1頁
一種非線性詞頻因子關(guān)鍵詞權(quán)值計(jì)算法.doc_第2頁
一種非線性詞頻因子關(guān)鍵詞權(quán)值計(jì)算法.doc_第3頁
一種非線性詞頻因子關(guān)鍵詞權(quán)值計(jì)算法.doc_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

精品論文一種非線性詞頻因子關(guān)鍵詞權(quán)值計(jì)算法吳詩賢 重慶工商大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院,重慶 (400067) e-mail: 摘要:統(tǒng)計(jì)了 500 篇 cnki 論文關(guān)鍵詞詞頻分布及逆文本頻數(shù)因子分布,發(fā)現(xiàn)傳統(tǒng)的tf-idf 文檔關(guān)鍵詞權(quán)值計(jì)算方法中線性詞頻因子與語言實(shí)際有較大差異,在此基礎(chǔ)上,提 出了一種基于非線性詞頻因子的改進(jìn)關(guān)鍵詞權(quán)重計(jì)算法,該方法的顯著特點(diǎn)是:隨著詞頻的 增大,該詞作為關(guān)鍵詞的可能性也增大,但增長是非線性的,增量逐漸趨近于 0。評(píng)價(jià)實(shí)驗(yàn) 結(jié)果表明該方法具有較高的抽取精度。關(guān)鍵詞:tf-idf;權(quán)值;非線性;詞頻 中圖分類號(hào):tp3911. 引言關(guān)鍵詞抽取技術(shù)可廣泛應(yīng)用于信息檢索、文本分類/聚類、信息過濾、自動(dòng)摘要、自動(dòng) 標(biāo)引等各種智能文本信息處理領(lǐng)域,具有極大的應(yīng)用價(jià)值,已成為中文信息處理技術(shù)的一個(gè) 重要領(lǐng)域,吸引了大量學(xué)者從事相關(guān)研究,提出了許多抽取算法。常用的關(guān)鍵詞抽取技術(shù)大 多基于統(tǒng)計(jì)方法,通過確定候選詞的權(quán)重,從中篩選出權(quán)重較大者作為最終的關(guān)鍵詞。因此, 候選詞權(quán)重的確定就成為文檔關(guān)鍵詞抽取的核心。候選詞的權(quán)重是由它反映文檔主題的重要 性決定的,能夠較好反映文檔主題的詞語將被賦予較大的權(quán)值。目前,在傳統(tǒng)權(quán)值計(jì)算方法 之外,也出現(xiàn)了一些新的基于新型模型的計(jì)算方法,并取得了較好效果。1,2但從實(shí)現(xiàn)的簡單 性、實(shí)用性以及關(guān)鍵詞抽取的精度等綜合來看,關(guān)鍵詞抽取的主要方法還是以tf-idf關(guān)鍵 詞抽取法為代表的依賴詞頻統(tǒng)計(jì)的方法。2. tf-idftf-idf(term frequency -inverse document frequency)的概念被公認(rèn)為信息檢索中最重 要的發(fā)明,它最早由劍橋大學(xué)的斯巴克-瓊斯提出、后經(jīng)著名信息檢索大師康乃爾大學(xué)的薩 爾頓多次寫文章推廣,逐漸成為信息處理領(lǐng)域的基本概念之一。tf-idf的主要思想是:如果某個(gè)詞或短語在一篇文檔中出現(xiàn)的頻次(tf)高,并且在 其他文檔中出現(xiàn)的頻率的倒數(shù)(idf)也高(即在其他文檔中出現(xiàn)的頻率低),則認(rèn)為此詞 或者短語具有很好的文檔主體特征表征能力,這樣的詞或者短語應(yīng)該給它們賦予較高的權(quán) 重,則其作為表征該文檔主題的關(guān)鍵詞的可能性就高。tf-idf方法常用于關(guān)鍵詞抽取以及文檔分類等領(lǐng)域。利用tf-idf概念進(jìn)行關(guān)鍵詞抽取 時(shí),候選詞t重要性(權(quán)值)的基本計(jì)算公式為:n - 1 -wt = tf idf= n(t , d ) log df (t )(1)其中,wt 表示候選詞t的權(quán)重,n( t,d) 表示詞t 在目標(biāo)文檔d中的出現(xiàn)頻次, n 表示訓(xùn)練文 檔集合中總的文檔數(shù), df( t) 表示訓(xùn)練文檔集合中包含t的文檔數(shù)。這樣,以詞頻因子tf和逆文本頻數(shù)因子idf的乘積作為詞t的關(guān)鍵詞權(quán)重,既突出了文檔 中出現(xiàn)頻數(shù)較高的詞,又消去了在各文檔中出現(xiàn)次數(shù)都很高的常用詞的影響,具有簡單直觀, 處理速度快等優(yōu)點(diǎn),但在理論上和實(shí)際運(yùn)用中還有一些局限性。3在tf-idf中,候選詞的權(quán) 值與詞頻之間的關(guān)系按線性關(guān)系來處理,這與語言的實(shí)際情況是存在很大差距的,一般情況下,在同一文檔中出現(xiàn)若干次的詞比出現(xiàn)一次的詞更可能反映文檔主題,但顯然不能說其為主題詞的可能性就是只出現(xiàn)一次詞的若干倍??删唧w用什么關(guān)系來代替基本tf-idf中的簡 單線性關(guān)系呢?為了研究合適的詞頻因子,下面將首先進(jìn)行關(guān)鍵詞詞頻分布統(tǒng)計(jì)研究。3. 非線性詞頻因子統(tǒng)計(jì)方法:從cnki隨機(jī)下載500篇學(xué)術(shù)論文(不算正文中未出現(xiàn)的關(guān)鍵詞,共含關(guān)鍵詞2270個(gè)),統(tǒng)計(jì)在各篇文章正文中出現(xiàn)1次25次及26以上次數(shù)的關(guān)鍵詞數(shù)量,并計(jì)算各頻 次關(guān)鍵詞的平均idf和平均wt,結(jié)果如表1所示。表1 關(guān)鍵詞統(tǒng)計(jì)表詞頻n(t,d)12345678910111213關(guān)鍵詞個(gè)數(shù)17816415714914012695837982556048平均idf100918479827567606156535147平均wt100182252316410450469480549560583612611表1 關(guān)鍵詞統(tǒng)計(jì)表(續(xù))詞頻n(t,d)14151617181920212223242526及以上關(guān)鍵詞個(gè)數(shù)635742413228333824301822426平均idf45514443383740353236283327平均wt630765704731684703800735704828672825注:各詞頻關(guān)鍵詞平均idf是以詞頻為1的關(guān)鍵詞的平均idf為100為基準(zhǔn)歸一處理后的值。對(duì)于各種頻次的關(guān)鍵詞,從統(tǒng)計(jì)意義上說,其平均wt應(yīng)該大致相等,但從表1可以看出, 統(tǒng)計(jì)結(jié)果與此存在相當(dāng)大的差異,由于表1中的平均wt是據(jù)式(1)計(jì)算所得,這實(shí)際上也 反映了利用公式(1)計(jì)算候選詞權(quán)重與語言實(shí)際存在著較大的差距。因此,為了使計(jì)算所 得權(quán)重能更好地反映候選詞表征文檔主題的能力,有必要對(duì)式(1)進(jìn)行改進(jìn)。首先根據(jù)統(tǒng)計(jì)數(shù)據(jù)作出逆文本頻數(shù)因子idf曲線,然后以達(dá)到使wt相等(即tfidf=常 值)為目標(biāo),作出了期望詞頻因子tf曲線,如圖1所示。圖1 期望詞頻因子示意圖從上圖可以看出,期望詞頻因子曲線可以近似擬合成n(01),由此,可將候選詞權(quán) 重計(jì)算公式改進(jìn)為:- 4 - nwt = tf idf = n(t , d ) log ,01(2)df (t )其中,的具體取值與文檔長度相關(guān)聯(lián),文檔越短,取值越大,反之亦然。4. 評(píng)價(jià)實(shí)驗(yàn)從cnki隨機(jī)下載已經(jīng)給出關(guān)鍵詞的50 篇文檔作為測試語料,以公式(1)、公式(2) 兩種權(quán)重計(jì)算方法進(jìn)行測試。公式(2)中取1/3,對(duì)每一篇文檔,設(shè)定抽取的關(guān)鍵詞個(gè)數(shù) 與該文檔作者給出的關(guān)鍵詞個(gè)數(shù)相等。將試驗(yàn)結(jié)果歸為“好”、“可”、“差”3個(gè)等級(jí)進(jìn)行統(tǒng)計(jì)。 其中,“好”表示抽取準(zhǔn)確率達(dá)到80%或以上,“可”表示抽取準(zhǔn)確率達(dá)到40%以上80%以下, 而“差”則表示抽取準(zhǔn)確率低于40%。結(jié)果如表2所示。抽取準(zhǔn)確率的計(jì)算公式為:抽取準(zhǔn)確率 =關(guān)鍵詞命中數(shù) 作者給出的該文檔關(guān)鍵詞數(shù)(3)其中,這里的“關(guān)鍵詞命中”定義為:與作者給出的關(guān)鍵詞完全相同或是同/近義詞。表2 改進(jìn)前后實(shí)驗(yàn)結(jié)果對(duì)比好可差平均抽準(zhǔn)率公式(1)22%(11)36%(18)42%48.3%公式(2)26%(13)38%(19)36%55.6%從上面的實(shí)驗(yàn)結(jié)果可以看出,在取1/3時(shí),改進(jìn)后的關(guān)鍵詞權(quán)重計(jì)算公式較大程度地提高了關(guān)鍵詞自動(dòng)抽取效果:平均抽準(zhǔn)率提高約7個(gè)百分點(diǎn),可接受抽取率(“好”+“可”)提高 了6個(gè)百分點(diǎn)。5. 結(jié)束語本文提出了基于非線性詞頻因子的改進(jìn)tf-idf算法,雖然還未考慮詞的位置等因素, 文檔關(guān)鍵詞的抽取實(shí)驗(yàn)也取得了較好的結(jié)果,當(dāng)然,由于種種原因,統(tǒng)計(jì)及實(shí)驗(yàn)對(duì)象只限于 已給出關(guān)鍵詞的部分學(xué)術(shù)論文,在其它場合效果如何,還有待實(shí)驗(yàn)驗(yàn)證,但已能說明從改善 詞頻影響因子的角度出發(fā)進(jìn)行提高關(guān)鍵詞自動(dòng)抽取效果的研究還有潛力可挖,若進(jìn)一步研究 探索更好的非線性詞頻因子參數(shù)的取值規(guī)律、并多層次地綜合考慮位置、詞性等更多的因 素,關(guān)鍵詞抽取效果應(yīng)該還會(huì)有較大的提高。參考文獻(xiàn)1 yang wenfeng. chinese keyword extraction based on max-duplicated strings of the documents c. proceedin- gs of the 25th annual international acm sigir conference on research and development in information retrieval tampere, finland, 2002: 4394402 李素建等. 關(guān)鍵詞自動(dòng)標(biāo)引的最大熵模型應(yīng)用研究j. 計(jì)算機(jī)學(xué)報(bào), 2004, 27(9): 119211973 j thorsten. a probabilistic analysis of the rocchio algorithm with tf-idf for text categorization. in:proc of the 14th int1 conf on machine learning (icml97), 1997, 143151a keyword weight calculation method based on nonlinearword-frequency factorwu shixiancomputer science and information engineering college, chongqing technology and businessuniversity, chongqing (400067)abstractin this paper, some statistics for keywords of 500 cnki papers is completed, we believe that linearword-frequency factor is one of the reasons of lower keywords extraction precision. on this basis a new keyword extraction method based on nonlinear word-frequency factor is presented, the possibility that candidate word become keyword growing with the word-frequ

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論