![生輝-一種新分詞加權(quán)方法_第1頁](http://file4.renrendoc.com/view/02635a2c578b29c0233cadbf0b095fdc/02635a2c578b29c0233cadbf0b095fdc1.gif)
![生輝-一種新分詞加權(quán)方法_第2頁](http://file4.renrendoc.com/view/02635a2c578b29c0233cadbf0b095fdc/02635a2c578b29c0233cadbf0b095fdc2.gif)
![生輝-一種新分詞加權(quán)方法_第3頁](http://file4.renrendoc.com/view/02635a2c578b29c0233cadbf0b095fdc/02635a2c578b29c0233cadbf0b095fdc3.gif)
![生輝-一種新分詞加權(quán)方法_第4頁](http://file4.renrendoc.com/view/02635a2c578b29c0233cadbf0b095fdc/02635a2c578b29c0233cadbf0b095fdc4.gif)
![生輝-一種新分詞加權(quán)方法_第5頁](http://file4.renrendoc.com/view/02635a2c578b29c0233cadbf0b095fdc/02635a2c578b29c0233cadbf0b095fdc5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
一種新的名詞重要性賦JINZHANGTIENN.:作者提出了一種新的名詞重要性衡量方法,該方法整合了詞頻檢索特點(diǎn),詞頻,文檔整合特點(diǎn),以及名詞的深度和廣度分布特點(diǎn)。介紹了一個新的概念——名詞深度分布,并分析了其在名詞重要性上的影響。作者從變量(參數(shù))對其的影響這個角度分析新名詞的重要性。設(shè)計(jì)了一個實(shí)驗(yàn)來將這種新的方法與兩個流行的其他方法在效率和效益兩個角度進(jìn)行比較。結(jié)果表明新開發(fā)的方法可以得到令人滿意的性能,建議對這個進(jìn)行更進(jìn)一步的研究。:名詞重要性,自動名詞,名詞權(quán)重衡引相關(guān)信息檢索系統(tǒng)的目的是提供給它的客戶滿意的檢索結(jié)果。為了實(shí)現(xiàn)這一目標(biāo),檢索結(jié)果應(yīng)進(jìn)行科學(xué)的量。合理的查全率和檢索結(jié)果查準(zhǔn)率是檢索成功的兩個基本評價標(biāo)準(zhǔn)。達(dá)到一個可接受的查全率和查準(zhǔn)率是一個復(fù)雜和全面的過程,受多種因素影響:分度,特異性和索戶的信息搜索窮盡的專業(yè)知識和質(zhì)量經(jīng)驗(yàn),用戶的領(lǐng)域知識,數(shù)據(jù)庫覆蓋,數(shù)據(jù)庫的組織結(jié)構(gòu),用戶的需求表達(dá),檢索策略的制定,信息檢索系統(tǒng)的功能和特點(diǎn)等的準(zhǔn)確性。其中索引的質(zhì)量是根本,非常重要的。它是信息檢索過程的第一步驟和檢索成功的基礎(chǔ)。這里的索引質(zhì)量是指為一個文檔準(zhǔn)確的選擇和賦權(quán)關(guān)鍵字。沒有高質(zhì)量的索引,就不可能實(shí)現(xiàn)令人滿意的檢索結(jié)果。對名詞重要性的衡量在實(shí)現(xiàn)高質(zhì)量索引的過程中扮演重要角色。此外,它也自動分類,自動索引,自動,搜索反饋技術(shù)和相似性度量的基礎(chǔ)。在衡量名詞重要性方面有多種不同的方法。他們包括理論性的和實(shí)踐性的,包括簡單的和復(fù)雜的。有些采用遺傳算法為名詞分配權(quán)重,有些采用計(jì)劃概念來,一些引入基于文檔來源建模方法來確定名詞的重要性,一些借用統(tǒng)計(jì)理論來計(jì)算名詞的重要性,一些使用人工神經(jīng)元網(wǎng)絡(luò),一些整合了建立索引的潛在性技術(shù),一些應(yīng)用概率理論來解決問題,有的只是用更實(shí)用而簡單的詞頻法。每種方法都有各自的優(yōu)缺點(diǎn)。對現(xiàn)有方法的改變已經(jīng)產(chǎn)生了一些影響。此外,很多關(guān)于權(quán)重計(jì)算方法的比較研究已經(jīng)完成。比較機(jī)器索引和人工索引的研究嘗試探測索引的本質(zhì)顯然,在一個完整文檔中的名詞重要性被次品,文檔類型,上下文,功能,及在文檔中的位置等因素影響。其中,上下文和功能在沒有完全理解整個文檔的意義時是很難確定的,而詞頻是很容易計(jì)算的,詞頻與它的重要性也有很研究文檔中名詞的重要性不應(yīng)該只計(jì)算包含該名詞的單一文檔。普遍認(rèn)為數(shù)據(jù)庫中的文檔相互間并不是獨(dú)立的。他們在數(shù)據(jù)庫中的辨別能力方面互相影響。比如,數(shù)據(jù)庫中很少的文檔提到了某個,這些文檔就很容易在這個上與其他文檔區(qū)分開。然后,如果多個文檔包含相同的,這將降低他們的區(qū)分讀。顯存的算法認(rèn)識到并反映出了文檔在數(shù)據(jù)庫中的分布對名詞的影響。我們注意到在一二數(shù)據(jù)庫中不同的文檔可能提到相同的,但是與這個的相關(guān)程度是不同的。它們提到這個的程度也會影響區(qū)分度。不幸的是,在現(xiàn)存的算法中這一因素被忽略了。新名詞算法希望加上這一新的唯獨(dú)從而讓更為合理。這就是本研究的。作為這一領(lǐng)域的先驅(qū)之一,LUHN(1957)提出僅依靠原始的詞頻來確定名詞重要性的簡單措施:保留高的丟棄低的。這一方法簡單易行。因?yàn)楸A袅烁哳l詞作為索引詞,這很容易保證高查全率。但是查全率和查準(zhǔn)率之間的關(guān)系表查全率往往會導(dǎo)致低查準(zhǔn)率。合理的搜索結(jié)果是保持兩者都在一個可接受的水平,而不是強(qiáng)調(diào)一種而忽略其他的。在這一點(diǎn)上,uhn的方法不能同時保證可接受的查全率和查準(zhǔn)率。我們知道,高查準(zhǔn)率要求文檔中的索引名詞能夠使該文檔明顯區(qū)別與集合中的其他文檔。人們認(rèn)識到文檔中名詞的分布與這種能力緊密相關(guān)。在穩(wěn)定那個集合中越少的文檔包含某一名詞,這個名詞在這個集合中就具有越好的區(qū)分度。在這法的基礎(chǔ)上,Salton和ang提出了一個新的名詞重要性測量方法——逆文檔頻率測量法。假設(shè)dk,fik和N是包含這一名詞k的文檔個數(shù),文檔i中名詞k的原始頻率,文檔集合中文檔的數(shù)量,名詞重要性wik定義為wik=fik?log(N/dk)。我們觀察到,wik隨dk的增大而增大,反之亦然。因?yàn)槠浣Y(jié)合了兩個因素——名詞在特定文檔中的分布(詞頻fik)的另一個版本。這里m是文檔向量空間中的獨(dú)有名詞。變量ij是文檔i中名詞j的詞頻,dj是包含名詞j的文檔數(shù)。如果沒有長度一致性,長文檔會有的名詞,更高的詞頻,從而產(chǎn)生更強(qiáng)的相似度,導(dǎo)致更容易被檢索到關(guān)于這個SpackJones做了一個值得注意的研究。他們討論了不同名詞方法的邏輯,并設(shè)計(jì)實(shí)驗(yàn)來進(jìn)行檢驗(yàn)。他們的研究發(fā)現(xiàn)了一種方式能夠提升性能。讓ik作為文檔i中名詞k的出現(xiàn)次數(shù),pk作為名詞k的出現(xiàn)次數(shù),K是整個集合中名詞的個數(shù)。然后,詞頻wikwikfik?(Klog(pkpk。詞頻fik仍然與Salton的方程中發(fā)揮相同的作用還有一個較早的關(guān)于名詞重要性的研究。他發(fā)現(xiàn)文檔中非常高頻的詞往往含有較少的信息量,比如“的”,“是”等,非常大的文檔集合中較低頻率的詞也有較低的重要性。盡管逆文檔頻率測量法現(xiàn)在是最流行的也是最被接受的,但仍不是完美的。它的一個缺點(diǎn)是,它簡單地采用術(shù)語頻率乘以該文檔的數(shù)字到包含該術(shù)語的文檔的數(shù)量的比率的對數(shù)。由uhn提到的名詞重要性反演特性在這一模式中并沒有提到。此外,用文檔的比例對包含該名詞的文檔數(shù)的對數(shù)來表示區(qū)分度是不完整的。換言之,其只考慮了名詞分布的廣度特性,而沒有考慮名詞分布的深度特性。名詞的廣度和深度特性表明了名詞在整個文檔集合中的分布和在包含它的文檔中的分布。很明顯,這些算法都沒有考慮深度分布因素實(shí)驗(yàn)研設(shè)計(jì)了一個實(shí)驗(yàn)研究來檢測新方法的表現(xiàn)。新方法的表現(xiàn)與兩個流行的方法比較。其中的一個是Salton流行的“逆文檔頻率”方法。我們注意到該實(shí)驗(yàn)中用到的“逆文檔頻率”模式并不是原始的版本,而是加入了長度一致性的版本。作者認(rèn)為加入了長度一致性的版本有更好的性能,因?yàn)樗尤肓宋臋n長度這一能夠影響名詞重要性的因素。該方法在方程(2)中示明。另一個被用來與新方法做比較的方法是方程(3)中的方法。前面已經(jīng)從理論上對新方法進(jìn)行了分析,但是仍需實(shí)驗(yàn)來支持它。實(shí)驗(yàn)的目的是檢驗(yàn)在效率和效益兩方面,新方法是否都比之前的方法有更好的性能。假設(shè)為了檢驗(yàn)新方法的效率,該方法與Salton的方法和SparckJones的方法獨(dú)立檢驗(yàn)。提出假設(shè):H2:新開發(fā)的算法實(shí)現(xiàn)了比 Jones的算法更好的性能實(shí)驗(yàn)為了比較三種算法的效率,必須明確定義關(guān)鍵字檢索準(zhǔn)確性這一指標(biāo)來檢測表現(xiàn)。三種算法被用來從文檔中提取的關(guān)鍵字的個數(shù)相同。盡管可能來自同一文檔,但是三種算法提取的關(guān)鍵字仍可能是不同的。正是這一不同導(dǎo)致了三種算法不同的性能。不同算法中提取的關(guān)鍵字被收集起來并與它們所在的文檔相關(guān)聯(lián)。旁觀者文檔內(nèi)容后,會對該文檔進(jìn)行關(guān)鍵字判斷。這意味著,必須依據(jù)文檔的內(nèi)容來挑選相關(guān)的關(guān)鍵字。這些選出來的關(guān)鍵字被認(rèn)為是文檔最相關(guān)的關(guān)鍵字,并用來計(jì)算沒中名詞算法的關(guān)鍵字提取準(zhǔn)確度。名詞算法的關(guān)鍵字提取準(zhǔn)確率定義為算法提取的關(guān)鍵字和旁觀者提取的關(guān)鍵字的個數(shù)與旁觀者提取關(guān)鍵字總個數(shù)的比例。很明顯,旁觀者選擇的關(guān)鍵字對每個算法來說是相同的,而算法選擇的關(guān)鍵字與旁觀者選擇的的個數(shù)是不同的。很明顯,算法的關(guān)鍵字提取準(zhǔn)確率越高,算法的性能越好。對所有的文檔采用這種方法,并收集三種算法在所有文檔上的關(guān)鍵字提取準(zhǔn)確率。新算法和Salton的算法的性能的比較以及新算法和SpakJones的算法的性能比較是分開用T檢驗(yàn)進(jìn)行的。這里q(M1,M2Mq)互相比較。文檔Di的提取出來的名詞集合是通過下面這種程序產(chǎn)生的。沒中算法都從一個文檔中提取一個關(guān)鍵字集合。方法M1產(chǎn)生了一個文檔Di的名詞集合R1ik11,k12k1n}。方法M2產(chǎn)生了一個文檔Di的名詞集合R2ik21,k22,k2m},等等。然后對所有的Rji做一個并集,就產(chǎn)生了={h1i,...,hti}。注意到一個文檔的標(biāo)準(zhǔn)結(jié)合是其集合的子集從圖表8中可以看到,當(dāng)c在1到1.5之間時,對名詞權(quán)重w的影響比較穩(wěn)定。因此實(shí)驗(yàn)中c取用來衡量不同方法性能的關(guān)鍵字提取準(zhǔn)確率定義為Eki=|Rki∩Si|/|Si|。|S|表示集合S的大小,與一個參與者是20個計(jì)算機(jī)科學(xué),館&信息科學(xué),商學(xué)專業(yè)的學(xué)生,來自Wisconin-Milaukee大學(xué)。旁觀者有自然科學(xué)和社會科學(xué)專業(yè)。實(shí)驗(yàn)中用到的數(shù)據(jù)庫是一個相關(guān)數(shù)據(jù)庫包括的超過600篇。數(shù)據(jù)庫來自于TREC。記錄中的字段包括文檔數(shù)量,標(biāo)題,副標(biāo)題,作者,日期和全文,但是只有全文和標(biāo)題會提供給旁觀者。一個使用三種自動名詞算法的程序被開發(fā)來進(jìn)行關(guān)鍵字提取。程序使用 VC6.0編寫,運(yùn)行在indos1998/2000和T上.實(shí)驗(yàn)過程如下:預(yù)處理數(shù)據(jù):開發(fā)的程序用來解析全文和收集數(shù)據(jù)。為三種不同的名詞算法建立了三個不同的數(shù)據(jù)庫,一邊與后面的關(guān)鍵字相關(guān)判斷分析。為每篇文檔選擇集合:在該實(shí)驗(yàn)中,每篇文檔提取五個關(guān)鍵字。每個算法產(chǎn)生一個關(guān)鍵字列表。表中的每個關(guān)鍵字都有一個相關(guān)的權(quán)重。關(guān)鍵字按權(quán)重排序。五個有最高權(quán)重的關(guān)鍵字被用來當(dāng)作該文檔的關(guān)鍵字。這表明,對所有的文檔來說,并沒有一個恒定的權(quán)重閾值來篩選關(guān)鍵字。每篇文檔可能有不同的權(quán)重閾值,因此是動態(tài)的。為每篇文檔選擇5個關(guān)鍵字的原因是該數(shù)據(jù)庫中的文檔是一些相關(guān)的,具有較強(qiáng)的獨(dú)特性,5個名字足夠涵蓋了。當(dāng)數(shù)據(jù)庫的內(nèi)容改變或者提取的名詞數(shù)量改變時,可能會產(chǎn)生不同的結(jié)果。根據(jù)這種算法,一個低頻詞的權(quán)重很高這種情況不太可能出現(xiàn)。因此,較低頻率的詞被過濾掉了。當(dāng)使用一種方法提取5個關(guān)鍵字后,每個方法對每篇文檔都有 5 個關(guān)鍵字。最后,對三種方法產(chǎn)生的所有關(guān)鍵字進(jìn)行一個并集操作產(chǎn)生每篇文檔的引用集合在大分情下,果三方法生的鍵不是完重合話,檔的集大小大于5的然而,如果大小等于 5,這說明三種算法提取到的關(guān)鍵字是完全一樣的。這種情況下,會接著進(jìn)行一個附加程序:增加取字知不關(guān)。為每篇文檔選擇標(biāo)準(zhǔn)集合:每篇文檔包括一個標(biāo)題,全文,以及關(guān)鍵字的集合。這些被提供給每個旁觀者。每個旁觀者在閱讀了文檔的全部相關(guān)信息后,要選出5個與該文檔最相關(guān)的名詞。這5個關(guān)鍵字被作為這篇文檔的標(biāo)準(zhǔn)集合。性能評價:當(dāng)每篇文檔的標(biāo)準(zhǔn)集合確定后,每個方法的Eki會被計(jì)算出來為所有文檔計(jì)算Eki:持續(xù)進(jìn)行步驟(1)到步驟(4)直到所有的文檔都被處理。數(shù)據(jù)在實(shí)驗(yàn)準(zhǔn)備,設(shè)計(jì),數(shù)據(jù)收集之后,收集到的數(shù)據(jù)被用來檢測新名詞方法的性能。數(shù)據(jù)MINITAB被用來比較三種方法的性能。名詞重要性級別a在這個實(shí)驗(yàn)中被設(shè)置 有兩種判斷實(shí)驗(yàn)結(jié)果的方法:p值方法和檢驗(yàn)統(tǒng)計(jì)量的方法。前法當(dāng)p值大a時被認(rèn)為是相同的,當(dāng)p于a時認(rèn)為更好。后法根據(jù)a值決定假設(shè)成立與否?,F(xiàn)在讓我們分析和檢驗(yàn)假設(shè)H1和H1.新算法比Salton的算法性能更好。實(shí)驗(yàn)結(jié)果表明假設(shè)H1是成立的,因?yàn)閠檢驗(yàn)中p值小于a。表1表明新算法的平均值比Salton的算法要高。新算法的方差比Salton的算法的方差小,表明新算法更穩(wěn)定。H2.新算法性能比SparckJones的算法實(shí)驗(yàn)結(jié)果表明H2不成立,因?yàn)閜值大于a。表2表明新算法的平均數(shù)和SparkJones的算法的平均數(shù)一樣。Spark分析結(jié)果證明新算法相比與Salton的算法達(dá)到了更好的性能,而與SpackJones的算法相比,在性能上沒有太大差異。效率在該實(shí)驗(yàn)中,三種方法的效率性能也被檢測了。為了比較三種方法的效率,每秒鐘提取的關(guān)鍵字個數(shù)被定義并用來測量沒中方法的計(jì)算復(fù)雜度。表3展示了最終的結(jié)果。三種算法在相同的數(shù)據(jù)庫中使用。首先所有的文檔都被處理了,每篇文檔的名詞都被提取了。然后建立了一個名詞特性表。對于表中的每個名詞,包括了它在文檔中的頻率,在數(shù)據(jù)庫中的頻率,包含它的文檔的個數(shù)以及其他相關(guān)信息。最后,用每種算法來計(jì)算名詞權(quán)重。記錄每個算法的處理時間和提取的名詞個數(shù)。文檔數(shù)是636,文檔集合中詞的個數(shù)是300434,提取的名詞個數(shù)是很明顯,在效率方面,SpackJones的方法是三種算法中最好的。新算法在計(jì)算復(fù)雜度方面比Salton的方法要好。說到計(jì)算復(fù)雜度,SpakJones的算法性能最好一點(diǎn)也不讓人奇怪,因?yàn)樗簧婕暗胶唵蔚某朔ê蛯?shù)運(yùn)算。新算法包括了對數(shù)運(yùn)算和相對比較復(fù)雜的指數(shù)運(yùn)算。Salton的算法不僅包括了乘法和對數(shù)運(yùn)算,還包括了一個很復(fù)雜的支配關(guān)系計(jì)算。幸運(yùn)的是,算法效率并不是最重要的,因?yàn)槊~算法只是在數(shù)據(jù)庫建設(shè)時候使用而不是實(shí)時查詢響應(yīng)結(jié)作為信息檢索領(lǐng)域的一個基本方面,名詞重要性評價有理論和實(shí)踐上的重要性。隨著自動反饋技術(shù)和互聯(lián)網(wǎng)搜索引擎的發(fā)展,名詞重要性評價將變得越來越重要。名詞的區(qū)分能力在權(quán)衡其重要性上起到至關(guān)重要的作用。確定及分析影響一個文檔集合中名詞區(qū)分能力的因素在開發(fā)新的名詞重要性評價方法時是至關(guān)重要的。新開發(fā)的名詞重要性評價方法試圖從四個維度定義名詞的重要性(詞頻,詞頻特性,文檔集合特性,名詞深度和廣度分布特性)并將它們結(jié)合到名詞中。在新開發(fā)的名詞重要性評價方法中包括了六個不同的變量和參數(shù)。詞頻,平均詞頻,以及兩者的結(jié)合反映了頻率及頻率特性;文檔集合大小的應(yīng)用是考慮到整個文檔集合的特性;擁有特定名詞的文檔數(shù)量占整個文檔集合的比例表明了名詞的廣度分布特性;擁有該名詞的文檔的全部詞數(shù)量與文檔集合中所有次的數(shù)量的比例表明了名詞的深度分布特性。對名詞重要性評價方法中每個變量和參數(shù)的分析讓用戶清楚的看到變量和參數(shù)間名詞重要性,相互影響,及相互關(guān)系,幫助他們更好地應(yīng)用這一名詞重要性評價方法。異顯著性輪廓的分析讓讀者從另一個完全不同的角度更深入地理解了名詞重要性評價方法的特點(diǎn)。它提供給用戶關(guān)于兩個選定的變量和參數(shù)間相互影響的大量信息。這對于用戶正確地使用他們是及其重要的。研究表明,在Dk和N以及Lk和dkfia和fik,Ndk,Dk和Lk,因?yàn)樗鼈兊谋举|(zhì)和對名詞重要性評價的影響,從而有非常緊密的聯(lián)系。根據(jù)這種想法,我們可以將它們分成三個不同的組來分析,{fia,fik},{N,dt},和{Lk,Dk},fik,dt和Lk是每組的關(guān)鍵變量。常量c的應(yīng)用是用來緩和詞頻對名 的影響。我們發(fā)現(xiàn)當(dāng)c在1.0到1.5之間時,影響相對比較穩(wěn)定這項(xiàng)研究不僅介紹了一種新的名詞方法,而且介紹了一種評估名詞算法的方法。設(shè)計(jì)了一個實(shí)驗(yàn)來檢驗(yàn)新算法相對于其他兩種算法的性能。發(fā)現(xiàn)證明,新房吧性能上比Salton的算法更好,與SparckJones的算法具有相同的很明顯,在性能上,新算法不比SpakJones的算法更好,而在效率上,還不如SpakJones的算法。注意到該實(shí)驗(yàn)只用到了一個較小的文檔集合。從方程3我們知道,參數(shù)K(整個文檔集合中名詞的個數(shù))和名詞在SpakJones的算法中是線性關(guān)系。這說明,如果算法用在一個較小的數(shù)據(jù)集合中(較小的K),詞頻fik和名詞集合頻率pk在方程3中仍然有很重要的作用。然而,一旦SpakJones的算法被用到一個非常大的集合,相比與其他兩個參數(shù),K將變得極大。這種情況下,K在方程3中的影響將變?yōu)橹鲗?dǎo)性的,將掩蓋fik和pk在名詞上的影響。因此,它們的影響將被忽略掉,這也將大幅度降低該算法的性能。而另一方面,因?yàn)?Jones算法的簡單性,它比新算法和Salton的算法都要表現(xiàn)的好從方程4可以得知,常量c在新算法中起到很重要的作用。改變c的值可以用來調(diào)整詞頻和頻率特性對名詞的影響。在該實(shí)驗(yàn)中,只用到了一個c值來計(jì)算名詞提取中的名詞。很明顯,如果選擇不同的c值,算法對名詞的加權(quán)也將不同。如果在本實(shí)驗(yàn)中用到了一組c值而不是一個單一的c值,就能得到一系列不同的三種算法的比較結(jié)果。4中c?(fi?fa)2被1ik?fa)2r1/|fk?ia|根據(jù)新算法在該實(shí)驗(yàn)中的表現(xiàn)的出一般性結(jié)論是不成,因?yàn)閷?shí)驗(yàn)中用到的數(shù)據(jù)庫包括相對較少的相關(guān)的文檔記錄,旁觀者的數(shù)量也不是很大。新算法的性能將隨著數(shù)據(jù)庫大小及內(nèi)容和旁觀者數(shù)量的改變而改變。比如,當(dāng)文檔數(shù)量增加時,將會對SpakJones算法的性能產(chǎn)生巨大的影響。在這種意義上,在大型數(shù)據(jù)集合上運(yùn)用這種新算法將是將來研究的方向。其他關(guān)于本名詞重要性評價算法的未來研究包括:控制模型中參數(shù)的結(jié)合;對多個變量和參數(shù)的結(jié)合飯系;以JournalofInligentInformationSystems,24:1,61–85,2005c2005SpringerScience+BusinessMedia,Inc.ManufacturedinTheJIN TIENN. UniversityofWisconsin-Milwaukee,3200NorthCramerAve,EMSBuilding,Milwaukee,Wisconsin53201ReceivedFebruary14,2001;RevisedApril26,2004;AcceptedApril28,2004.Theauthorspresentanewtermsignificancemeasurethatintegratestermfrequencyretrievalchar-acteristics,termfrequency,collectioncharacteristics,andboththetermdepthandwidthdistributioncharacteristics.Anewconcept,thetermdepthdistribution,isintroducedanditsimpactonthetermsignificanceisyzed.Theauthorsaddressthefeaturesofthenewtermsignificancemeasurefromtheanglesoftheimpactofthevariables(parameters)onitandtheiso-significancecontouryses.Anexperimentalstudywasconductedtocomparethenewlydevelopedapproachwithtwootherpopularapproachesfromthesofbothefficiencyandeffectiveness.Theresultsshowthatthenewlydevelopedapproachachievessatisfactoryperformance.Issuesforfurtherresearchonthistopicaresuggested.:termsignificance,automatictermweighting,termweightingTheobjectiveofaninformationretrievalsystemistoprovideitsclientswithsatisfactoryretrievalresults.Towardthisobjectivearetrievalresultshouldbescientificallymeasured.Reasonablerecallratioandprecisionratioofaretrievalresultaretwoessentialevalua-tioncriteriaforretrievalsuccess.Achievinganacceptablerecallratioorprecisionratioisacomplicatedandcomprehensiveprocess,influencedbynumerousfactors:qualityofindexing,specificityandexhaustivityofindexing,user’sinformationsearchexpertiseandexperience,user’sknowledge,databasecoverage,databaseorganizationstructure,accuracyofusers’needexpression,searchstrategyformulation,aninformationretrievalsystemfunctionalityandfeatures,andsoon.Amongthemqualityofindexingisfunda-mentalandextremelyimportant.Itisthefirststepofinformationretrievalprocessandthefoundationofsuccessfulretrieval.Thequalityofindexingherereferstoaccuracyofselect-ingandweighting toachieveasatisfactorysearchresult.Determinationoftermimportanceplaysaveryim-portantroleinachievinghighqualityindexing.Inaddition,itisalsothebasisofautomaticclassification,automaticindexing,automatic ing,searchfeedbacktechniqueandasimilaritymeasure(DeboleandSebastiani,2003;LaiandWu,2002;Atlametal.,2000;Korfhage,1997;Meadow,1992;Rasmussen,1992;Robertsonetal.,1986;Salton,Awidevarietyofapproacheshavebeenaddressedinweightingtermimportance.Theyrangefromtheapplicabletothetheoretical,fromthesimpletothesophisticated.Someemployageneticalgorithmforassignmentofweightstoterms(RobertsonandWillett,1996),someuseaschemeconceptforweighting(Keen,1991),someintroduceamodelingmethodbasedonsourcesof borrowstatisticaltheoriestocalculatetermsignificance(SparckJones,1972,1973),someemployartificialneuralnetwork(Bogeretal.,2001),someintegratethelatentsemantictechniqueinindexing(GordonandDumais,1998),someapplyprobabilitytheorytosovlethesameproblem(Greiffetal.,2002;Melucci,1998;Ponteetal.,1998;Robertsonetal.,1994;vanRijsbergen,1977),andsomejustuseamorepracticalandsimpletermfrequencymethod(Greiff,1998;SaltonandYang,1973).Eachapproachhasitsdisadvantagesandadvantages.Effectshavebeenmadetoimprovetheexistingweightingapproaches(John,2001;Zobel,1998;Ro,1988).Inaddition,alotofresearchoncomparisonsamongtermweightingapproaches(Jinetal.,2001;SaltonandBuckley,1988)hasbeendone.Studyoncomparisonbetweenmachineindexingandhumanindexingattemptstoprobethenatureofindexing(Andersonetal.,2001a,2001b).Clearly,termsignificancemeasureinafulltextcanbeinfluencedbyitsfrequency,typeofa (forexample,scientificandtechnicalpaper,poetry,etc.),itscontextin ,itsfunction,itspositionin (forinstance,intitle,,introduction,conclusionandsoon),andotherfactors.Amongthem,thecontextandfunctionfactorsarerelatedtoasemanticenvironmentthatisextremelydifficulttodeterminewithoutfullyunderstandingthefulltextwhileatermfrequencycanbeeasilycalculatedandhasacloserelationshiptoitsimportance.Therefore,termfrequencyismostlyappliedtodetermineitssignificanceinautomaticinformationprocessing.MotivationofSignificanceofatermwithina shouldnotbecalculatedonlybasedonthesin- containingthatterm.Itiswidelyrecognizedthat sinadatabasearenotindependentofeachother.Theyaffecteachotherintermsoftheirdiscrimina-tivecapacitiesinthedatabase.Forinstance,ifveryfew saddressatopic(sub-ject)inadatabase,these sarehighlydiscriminativeandtheyareeasilydis-tinguishedfromother sfromthattopic.However,ifmany scoverasametopic,itwilldecreasetheirdiscriminativecapacities.Existingtermweightingalgo-rithmsrecognizeandreflecttheimpactof distributioninadatabaseontermNoticethatmultiple sinadatabasecanaddressasametopicbutthedegreetowhichtheyaddressthetopicmayvary.Theextenttowhichtheyaddressthetopicwouldalsoaffect discriminativecapacity.Unfortunay,thisfactorisignoredinexistingtermweightingalgorithms.Thenewlyproposedtermweightingalgorithmattemptstoaddthisnewdimensiontomeasurementoftermsignificanceandmakethemeasurementmorereasonable.Itisthemotivationoftheresearch.Asonepioneerinthisfield,Luhn(1957)presentedasimplemeasuredependingononlyrawtermfrequencytodeterminetermsignificance:keepthehighanddiscardthelow.Thismethodissimpleandpractical.Iteasilyassuresahighrecallratioduetoretentionofhighfrequencytermsasindexingterms.However,therelationshipbetweenrecallratioandprecisionratioindicatesthatthepenaltyofahighrecallusuallyisarelativelylowprecision.Areasonablesearchresultshouldmaintainbothceptablelevels,thatis,weshouldnotemphasizeoneandignoretheotherinretrievalprocess.Inthiscase,Luhn’sapproachcannotmeettherequirementsforbothreasonablerecallandprecisionratios.Asweknow,ahighprecisionratiorequiresthatindexingtermscanstronglydistinguish fromothersamonga collection.Ithasbeenrecognizedthattermdistributionina collectioncorrespondscloselytothisability.Thesmallerthenumberof scontainingatermina collection,thebetterthattermasadiscriminatorinthecollection.Basedonthisidea,SaltonandYang(1973)cameupwithanewmeasureoftermsignificance,theinverse frequencymeasure.Supposingdk,fikandNaredefinedasthenumberof scontainingtermk,therawfrequencyoftermkinthe i,andthenumberof sina collectionrespectively,termsignificance(orweightoftermkin i)wikisdefinedas:Nwik=fik?
ObservethatinthisequationthevalueofwikdecreasesasdkincreasesandviceSinceitcombinesboththetwofactors—thedistributionofatermwithina(termfrequencyfik)anditsdistributionina collection(logarithmoftheratioofthenumberof stothenumberof scontainingtheterm)—itwasexpectedtogetaniceresultinbothrecallratioandprecisionratioinasearch.NotethatEq.(1)doesnotfactorinthelengthnormalization,whichaddressestheimpactofa ontermsignificance.Toensurethatall swithdifferentlengthshaveanequalchanceofbeingretrieved,anotherversionofEq.(1)consideringthelengthnormalizationwasintroducedbySaltonetal.(1988,1996).w fik?log(N/dkm(fij)2?(log(N/dj
jHeremisthenumberofuniquetermsina vectorspace.Variablefijisdefinedasthefrequencyoftermjin ianddjisdefinedasthenumberof containingtermj.Withoutlengthnormalization,thelonger swithmoreassignedtermsandhighertermfrequencieswouldgeneratehigher similarities,andexhibithigherretrievalpotential,thantheshorter s(Saltonetal.,1996).OnenoteworthystudyofthistopicwasdonebySparckJonesetal.(1973).Theydiscussedthelogicofdifferenttypesoftermweightingapproachanddescribedexperimentstestingweightingschemes.Thefindingsoftheirresearchshowedthatonetypeofweightingresultedinperformanceimprovement.Letfikbethenumberofterm(k)occurrencesin pkthenumberofterm(k)occurrences,andKthenumberoftermsinthewholecollection.Then,termsignificancewikwasdefinedwik=fik?(K?log(pk Themethodexploitstermcollectionfrequencypk.ThetermfrequencyfikstillplaysthesameroleasthatoftheSaltonequation.Anotherexaminationoftermsignificancewasdoneearlier(Luhn,1958).Herecognizedthatveryhigh-frequencytermsinatendedtohavelowerinformation-bearingvalueintermsofinformationretrieval,forexample,“of”,“with”,“in”,“the”andsoon;andverylow-frequencytermsinalargecollectionalsohadlesssignificance.Althoughtheinversefrequencymeasure,asoneofthemostpopularmea-sures,iswidelyaccepted,itisnotperfectyet.Oneofitsweaknessesisthatitsimplyemploysatermfrequencytomultiplythelogarithmoftheratioofthenumberstothenumberofthescontainingtheterm.ThefrequencyretrievalcharacteristicsofthetermsignificancementionedbyLuhn(1958)werenotconsideredintheformula.Furthermore,theapplicationofthelogarithmoftheratioofthenumberstothenumberofscontainingthetermtoindicateitsabilityofdistinguishingitfromothersisnotcomplete.Inotherwords,itconsidersonlythewidthcharacteristicsofthetermdistribution,notthedepthcharacteristicsofthetermdistribution.Thewidthanddepthcharacteristicsofatermdistributionreferrespectivelytoitsdistributionwithinthewholecollection(thenumberofscontainingtheterm)anditsdistributionwithinthescontainingtheterm(thenumberofthetermsintheseItisclearthatneitherofthealgorithms(SparckJonesetal.,1973;Saltonetal.,1988)takesthetermdepthfactorintoconsideration.Figure1isagraphicdisplayofthetermdepthdistribution.Di(i=1,2,3,4,5and6)isacontainingacertainterm.IncreasingthenumberofscontainingaFigure1.Termdepth sareretrieved(Seefigure1,Itisone-dimensionalwithouttheYaxis).Asweknow,itistheimpactofthetermwidthdistributiononitssignificance.Ifweconsideraparagraphorsentencecontainingatermratherthana asabasicretrievalobject,theimpactofthedepthfeatureofthetermonitssignificancecanberecognized.Forafulltext ,notonlythenumberoftermoccurrenceinaisrecordedbutalsoitsposition,e.g.,paragraphnumberand/orsentencenumberisrecorded.Increaseoftermfrequencywithinthe willinevitablyincreasetheprobabilitythatthe isretrievedfromdifferentparagraphsorsentences.Itimpliesthatifthenumberofatermina collectionincreasesandthenumberof containingthetermremainsthesame,theabilityofthetermasadiscriminatordecreases.Itistheeffectoftermdepthdistributionontermsignificance.Obviously,thedepthcharacteristicsoftermdistributioncanaffecttermsignificance.Toillustrate,saythattwowordsAandBhavethesamewidthcharacteristicsoftermdistribution:ndifferent scontainAandthesamberof scontainB;however,thedepthcharacteristicsofthetwotermsAandBarequitedifferent:thefrequenciesofthetermAwithinthen saremuchhigherthanthoseofthetermBinthe s.Thatis,thenumberofthetermAinthe collectionismuchhigherthanthatofthetermBinthen collection.Inthisevent,termsignificanceofthetermsAandBaredefiniynotthesameevenifthenumberof Aisthesameasthatof scontainingB.Unfortunay,noofcurrentsignificancemeasurescanrecognizethis.ThispaperproposesanewtermsignificancemeasuretoweighttermimportancemorereasonablyandmoreaccuraybyfactoringinbothtermdepthandtermwidthIntermsoftheapplicationofweightingtermimportanceininformationretrieval,therearethreebasicscenarios:oneistomeasurea whichcontainsaqueryterm;thesecondistoselecttermsfromaretrieved toexpandaquery,areverseprocessofthefirst;andthelastistochoosesometermsfroma asitssurrogates.Thepresentedmodeladdressesthelastsituation.Theabovediscussionshowsthattoreasonably,scientificallyandaccuraydescribeatermworthyofsubject-indicating,thefollowingdimensionsshouldbetakenintoaccount:(1)Termfrequencyina collection;(2)Frequencyretrievalcharacteristicsoftermsignificance;(3) collectioncharacteristics;and(4)Termdistribution,includingbothitsdepthandwidthcharacteristicsata collectionlevel.Inotherwords,thenewtermsignificancemeasureshouldintegratethefourfactorstosolvetheEquation(4)isthenew
=c?(fik?fia)2?logN? dk?wherefiaisthemiddlevalueoffrequencyrangein i;fikistherawfrequencyoftermkin i;Lkisthenumberoftermkinthe collection;Dkisthenumberofalltermsin scontainingtermk;andWikistermsignificanceoftermk i,itsweight.c(>0)isaconstantusedtoadjusttheimpactoftermfrequenciesontheweight.TheothervariablesaredefinedasthesameasEq.(1).Weassumethatdkisnotequaltozero,therefore,Lkisnotequaltozeroeither;whendkorLkisequaltozero,thecorrespondingWikisdefinedaszero.Inthisway,thephenomenon esmeaninglessisavoidedwhendkorLkisequaltozero.Luhn(1958)suggestedthatthetermslocatedinthemiddleofafrequencyrangehadarelativelystrongerdistinguishingabilitythanthoselocatedinthetwoendsofthefrequencyrange.ThefirstpartofEq.(4)describesthisphenomenon.S1=c?(fik?fia Equation(5)manifeststheeffectoftermfrequencyandfrequencycharacteristicsontermsignificance.Weuseaconstantctothepowerof?(fik?fia)2ratherthan1/(fik?fia)2tosoftentheeffectsofthevariablechangesontermsignificance.Anotherbenefitofusingaconstantcisthatbychangingvalueoftheconstantcitallowsuserstocontrolthedegreetowhichthetermfrequencyandfrequencycharacteristicsimpactontermsignificance.Inaddition,thisstrategycanpreventthemeasurefrommeaninglesswhenfikisequaltofia.Equation(5)showsthattermsinthemiddleofafrequencyrangehavestrongerimpactontermsignificance.S2=logN? dk?InthesecondpartS2,theratioofNtodkandtheratioofDktoLkfairlyreflecttheinfluencesofthetermwidthanddepthdistributioncharacteristics,respectively.Theapplicationsofparameters{N,Dk}inEq.(6)aretheconsiderationsofboththe characteristicsandthecharacteristicsof scontainingtermk,respectively.Thereasonthatweemployalogarithmoftheratioratherthanaratioisthatthisstrategycanmoderatetheinfluenceofvariablechangesontermsignificance.Equation(6)impliesthatthelargerthenumberof scontainingaterm,thelesstheimpactofthetermwidthdistributiononthetermsignificance,andviceversa.Equation(6)alsosuggeststhatthelargeratermoccurrencewithin scontainingit,thelesstheimpactofthetermdepthdistributionontermsignificanceterm,andviceversa;andthelargerthenumberofalltermsin scontainingtheterm,thestrongertheimpactofthetermonitsimportance,andviceversa.Theysesshowthatthesmallerthenumberof containingatermanditstermoccurrenceina collection,thebetterthattermasadiscriminator.Thetermsignificancemodelisbasedontermdistributioncharacteristics.Atermdis-tributioncanbedividedintotwolevels:oneisatwhole collectionlevel(thatisEq.(6))andanotherisatanindividual level(thatisEq.(5)).Thefrequencyretrievalcharacteristicsofatermwithina isoneofthemostimportantfactorsdeterminingitssignificanceatanindividual levelwhilebothitsdepthandwidthcharacteristicsindicatedirectlyitsdistributioncharacteristicsatwhole level.Inotherwords,thetwopartsconsistofacompletetermdistributioninacollection.Theyareintegratedandinfluenceeachotherintermsofinformationretrieval.Inlightofalgorithmefficiency,applicationofexponentialoperationinthenewalgorithmmayaffectitsefficiency.ButtheproposedalgorithmisexpectedtooutperformSalton’salgorithmbecausethelengthnormalizationcomponentoftheSalton’salgorithm(SeethedenominatorinEq.(2))wouldslowdownitsprocessing.Apseudo-codeforthenewalgorithmisdescribedasRepeat iinafull-text-basedParseitsfulltextof Useakeywordstoplisttofilterit;Calculatetermk’sfrequencywithinafulltext(fikCalculatefiathemiddlevalueoffrequencyrange UntilireachestoN(thenumberof sinthedatabase)Establishakeywordlist;Foreachtermkinthekeyword
CalculakthenumberoftermkintheCalculateDkthenumberofalltermsin scontainingtermk;Calculatedkthenumberof scontainingtermk;For iintheForeachtermk CalculatetermweightWikbasedonEq.2.1.ysisoftheimpactsofparametersandvariablesontermNowwewilladdressimpactsofparametersandvariablesinthetermsignificancemeasureontermsignificancewik.Impactoffikandfiaontermsignificance.Inordertoobservetheimpactoffikandfiaontermsignificance,weisolatethevaluesofothervariablesandparameterssothattheycanbeisolated,whereN=10000,Lk=200,Dk=1000,c=1.2(SelectionofcwillbediscussedinSection2.1.4)anddk=400.Whenfikisavariable,thevalueoffiaisequalto10(forfigure2);whenfiaisathevalueoffikisequalto20(forfigure3).FromEq.(4),figures2and3aregenerated(Seefigures2and3).TheYaxisandXaxisaresignificanceandfrequencyofatermrespectivelyinthebothfigures.Figure2lsusthatwhenfikisequaltofia,termsignifi-cancereachesits umvaluewhichdependsonEq.(4),whenfikisgettingfarawayFigure2.ImpactoffikFigure3.Impactoffromfia,termsignificancewikwilldecrease.Thecurveinfigure2exactlyreflectsLuhn’sImpactofNanddkontermsignificance.Forthesamereasonmentionedabove,wefixthefollowingvariables:letfik=20,fia=15,Dk=1000,c=1.2andLk=200.WhenNisusedasavariable,dkisequalto400(seefigure4);whendkisusedasavariable,Nisequalto10000(seefigure5).TheYaxisistermsignificance,theXaxisisNinfigure4anddkinfigure5respectively.Figures4and5exhibitthatwhenNanddkincreaserespectively,thecorrespondingtermsignificancewikwillincreaseanddecreaserespectively.ImpactofLkandDkontermsignificance.Supposefia=15,fik=20,N=10000,c=1.2anddk=400.Figures6and7showtheirchanges.TheYaxisistermsignificance,XaxisisLkandDkinfigures6and7respectively.WhenLkisavariable,Dkisequalto1000;whenDkisavariable,Lkisequalto200.Notethatthecurvesinfigures4and5aresimilartothoseinfigures6and7becausethevariableshavesimilarpositionsinthenewlydevelopedmeasure.Figure4.ImpactofNFigure5.ImpactofdkFigure6.ImpactofDkFigure7.ImpactofLkFigure8.ImpactofImpactofcontermsignificance.Supposefia=15,fik=16,N=Dk=1000,Lk=200,anddk=400.TheYaxisissignificance,theXaxisiscinfigureItisfoundthatwhentheparametercissetfrom1to1.5,theimpactontermisrelativelystable.Ifcisselectedinacertainrange(c<1,forinstance),therewillbenolegitimatetermsignificancevalue.Iso-significancecontourysisisveryimportantforunderstandingthenewmeasurefromdifferents.Itallowsreaderstoinvestigateandobserverelationshipsbetweentwoselectedvariablesorparameterswhentermsignificancevalueremainsonstantlevel.Iso-significancecontourysisbasedonfikandfia.FromEq.(4)wehavethefollowingnewequation:
k
dk
=(fik?ThevariablefiahastwoN
fia=fikfia=fik
dkdk
SupposeN=10000,Dk=1000,Lk=200,c=1.2anddk=400,wehavewik=1(forfia1(x)curves);0.001(forfia2(x)curves);and0.000001(forfia3(x)curves)respectively.Figures9and10aregeneratedbyEqs.(7)and(8)respectively.TheXaxisandYaxisinfigures9and10aretermfrequencyandtermsignificanceFigure9.Iso-significanceysisoffik&fiaFigure10.Iso-significanceysisoffik&fiaFigure11.Iso-significanceysisofdk&LkFigures9and10showfiaandfikhavealinearrelationship;theslopesofthestraightlinesare1regardlessofthevalueofwik.Iso-significancecontourysisbasedonLkanddk.FromEq.L=Dk?N?10?wik?c[fik?fia GivenN=10000,Dk=1000,fik=31,c=1.2andfia=30,wehavewik=0.001(forLk1(x)curve);0.3(forLk2(x)curve);and
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 保險合同范例制定
- 公司合同范例填
- epc建筑項(xiàng)目合同范例
- 借條合同范例寫
- 二手房尾款支付合同范本
- 代養(yǎng)牛羊合同范例
- 借貸質(zhì)押協(xié)議合同范例
- 分手退彩禮合同范例
- 公司返聘員工合同范本
- 借土方合同范例
- 2024電力系統(tǒng)安全規(guī)定
- 脊柱骨折與脊髓損傷護(hù)理課件
- 小學(xué)二年級語文上冊閱讀理解專項(xiàng)訓(xùn)練20篇(含答案)
- 科技論文圖表等規(guī)范表達(dá)
- 高考寫作指導(dǎo)議論文標(biāo)準(zhǔn)語段寫作課件32張
- 2021年普通高等學(xué)校招生全國英語統(tǒng)一考試模擬演練八省聯(lián)考解析
- 華能火力發(fā)電機(jī)組節(jié)能降耗技術(shù)導(dǎo)則(2023年版)
- 基礎(chǔ)知識3500個常用漢字附拼音
- 企業(yè)易制毒化學(xué)品管理培訓(xùn)
- JJF(紡織)072-2018紡織滾筒式烘干機(jī)校準(zhǔn)規(guī)范
- 羊水栓塞的應(yīng)急預(yù)案演練腳本
評論
0/150
提交評論