專利文獻關鍵詞提取方法研究_第1頁
專利文獻關鍵詞提取方法研究_第2頁
專利文獻關鍵詞提取方法研究_第3頁
專利文獻關鍵詞提取方法研究_第4頁
專利文獻關鍵詞提取方法研究_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

專利文獻關鍵詞提取方法研究

0專利文獻關鍵詞抽取研究現(xiàn)狀知識產權關鍵詞對于知識產權文獻非常重要,是所有知識產權文件的高度概括。通過閱讀專利文獻的關鍵詞,可以快速地了解一篇專利文獻要表達的主旨。關鍵詞比摘要更簡練,它是專利文獻分類、聚類、索引和自動文摘的基礎。隨著社會的發(fā)展,人工選擇關鍵詞已經暴露出它的不足:首先,由于標引人員自身的知識和經驗不同,對同一篇專利文獻不同標引人員所標識的關鍵詞存在不一致性;其次,隨著科技的進步和人類知識的不斷豐富,專利文獻數(shù)量急劇增長,采用人工標引方式在速度上無法滿足標引的需要。采用自動的方式進行關鍵詞抽取不僅提取的標準統(tǒng)一,而且標引速度快,能夠讓人們從繁鎖的工作中得到解放。因此,研究專利文獻關鍵詞提取具有重要的應用價值。關鍵詞抽取研究在國外起步比較早,Turney利用遺傳算法和C4.5決策樹機器學習算法設計的GenEx算法進行了關鍵短語抽取,表明GenExt算法比單純的C4.5決策樹學習算法效果要好。Written利用詞典的方法獲取候選關鍵詞,然后利用貝葉斯方法對關鍵詞進行選擇,構建的KEA系統(tǒng)簡單、魯棒性強,具有很好的應用性。Hulth選取語言學規(guī)則應用到機器學習方法中,提取學術論文摘要中的關鍵詞,關鍵詞的召回率達到了66%,取得了很大進步。國內也有大批學者聚焦于關鍵詞抽取研究。主要方法包括:基于PATTree結構獲取新詞的方法、基于機器學習的方法、基于已標引語料方法、基于知識庫的方法和基于統(tǒng)計的方法。其中代表性的工作有:YangWen-Feng基于PATTree結構獲取新詞,并采用互信息等統(tǒng)計方法對文獻的關鍵詞進行標引;李素建等設計采用最大熵模型自動抽取關鍵詞,但由于特征選擇及特征參數(shù)估計不易選定,造成關鍵詞自動抽取應用不夠理想;王軍從已標引的結構化語料庫中元數(shù)據的標題內抽取關鍵詞,正確率較高;索紅光等提出用《知網》知識庫構建詞匯鏈的方法抽取關鍵詞,但由于《知網》詞數(shù)的局限性,只能對《知網》中存在的詞條進行抽取;謝晉采用基于詞跨度的方法提取關鍵詞,但是對于部分關鍵詞出現(xiàn)比較集中的情況不太適用;李靜月等采用改進TF-IDF算法提取網頁關鍵詞,由于需要通過在線輸入相關文獻關鍵詞獲取與文本相關的內容,所以提取效率相對較差;馬力等提出基于小世界模型的方法提取關鍵詞的方法,對文檔語義的理解達到了更好的層面?,F(xiàn)有的方法很少專門針對專利文獻進行關鍵詞抽取,本文從專利文獻特點出發(fā),在現(xiàn)有方法的基礎上,在去除公共詞后,提出綜合運用詞頻、區(qū)域特征、詞素加權和并列懲罰函數(shù)計算詞語對主題的影響度,根據影響度大小最終確定專利文獻的關鍵詞,提高了關鍵詞抽取的準確率。1同構建并列結構的詞對不同種類的關鍵詞抽取專利文獻雖然數(shù)量眾多,但它們存在一些共同的特征:文獻中出現(xiàn)頻次較高的詞成為關鍵詞的可能性較大;出現(xiàn)在專利文獻中的“標題”部分和“技術領域(摘要)”部分中的詞語,成為關鍵詞的可能性較大。專利文獻屬于科技文獻,它除了具有一般文獻的特征外,還具有其固有的特征,經過對專利文獻的分析,其特點如下:a.專利文獻中存在著大量的并列結構,并列結構中的詞一般是對文獻主題的側面描述,不能直接作為關鍵詞,而這類詞語出現(xiàn)的頻次較高,這會對準確抽取關鍵詞產生較大影響。如:一種汽車防光耀眼屏,其特征在于包括分別連接在遮陽板上的表面設置遮光塊的LCD光閥陣列、LCD驅動器……所述光電傳感器、聚焦光學鏡頭和LCD光閥陣列同一朝向布置……操作鍵盤與綜合處理CPU的矩陣IN端電連接,綜合處理器CPU與LCD驅動器電連接,LCD驅動器與LCD光閥陣列電連接,電源電路包括電源插座和一個分別為感光陣列、綜合處理器CPU、LCD光閥驅動、光電傳感器和操作鍵盤供電的供電電路。在上例中,顯然“汽車”、“防光耀眼屏”是本專利的關鍵詞,而在后文的并列結構中“LCD光閥陣列”、“LCD驅動器”等詞語出現(xiàn)的頻次遠高于關鍵詞“汽車”、“防光耀眼屏”出現(xiàn)的頻次。本文通過對617篇汽車相關專利進行統(tǒng)計發(fā)現(xiàn),其中有616篇含有并列結構;在這617篇專利文獻中的總詞數(shù)是437184個,出現(xiàn)在“、”、“和”、“與”并列結構中的總詞數(shù)為167597個,占文獻總詞數(shù)的38.33%。因此,在關鍵詞抽取的過程中,需要對并列結構中的詞進行特殊處理,以降低出現(xiàn)在并列結構中詞語的權值,減少并列結構對關鍵詞抽取的影響。b.專利文獻通常會出現(xiàn)大量的自組詞,這些自組詞之間往往具有相同的詞素(意思或語法功能的最小單位。/view/377642.htm),而具有相同詞素的詞或詞組之間,絕大多數(shù)在意義上存在某種聯(lián)系。同時,自組詞都是經過精心挑選組合的,它們成為關鍵詞的可能性相對較大。如:“外轉子直流電動機”“內轉子直流電動機”具有相同詞素“轉子”“直流”“電動機”。在上述例子中,在同一篇文章中,如果只考慮詞本身,上述兩個詞被識別為關鍵詞的可能性將偏低。因此,在提取關鍵詞的過程中不能忽略相同詞素對不同詞之間的影響,需要在進行加權計算過程中對具有相同詞素的詞進行特殊的處理,以提高兩個詞的權值。2tf-idf相關領域公共詞的領域區(qū)分在專利文獻中,有一類詞,它在多個領域中都出現(xiàn),對領域的主題區(qū)分性不高,本文將這類詞稱為公共詞。雖然公共詞在單一領域內出現(xiàn)的頻次較高,但不具有主題區(qū)分性,所以如果單純按照出現(xiàn)頻次來確定是否為關鍵詞,那么公共詞的存在會給關鍵詞抽取準確性帶來影響。提取關鍵詞之前,為了減少公共詞對提取專利關鍵詞的影響,本文基于TF-IDF提出了公共詞抽取算法,并提出在去除公共詞基礎之上的關鍵詞提取方法。TFIDF的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文檔中很少出現(xiàn),則認為該詞或該短語是關鍵詞的概率比較大,其計算方法公式為:其中,tfik為特征詞頻率;idfk稱為逆文檔頻率;nij是該特征詞在文檔dj中的出現(xiàn)次數(shù);|D|:語料庫中的所有文檔的總條數(shù);{j:termi∈dj}:包含特征詞termi的文檔數(shù)目(即nij≠0的文檔數(shù)目),weight(Tij)為特征Tij在文檔dj中的TF-IDF值。對TF-IDF算法的定義進行分析可知,對于計算某一領域內TF-IDF值較低的詞語一般可劃分為兩類:一類在某一領域分布比較廣,但在其它領域內出現(xiàn)較少或不出現(xiàn),這類詞語可以作為該領域的特征詞,具有一定的領域區(qū)分能力;另一類是各個文檔中出現(xiàn)次數(shù)均較多的詞,并且在各個領域里均具有較高的出現(xiàn)頻次,也即公共詞,它們的領域區(qū)分能力較弱。因此,去除公共詞對識別領域的關鍵詞具有非常重要的作用。根據以上分析,本文提出兩領域間公共詞計算公式:其中,a、b表示兩個領域;w表示目標詞;n、k依次表示領域a和b中文獻總數(shù);δ表示公共詞閾值;f(w,j)表示目標詞w在j領域內TF-IDF值較低的總數(shù);ζ表示TF-IDF低值閾值;m為j領域內文獻總數(shù);t(w,i,j)為詞w的TF-IDF閾值判斷函數(shù),t(w,i,j)=1表示目標詞w在領域j內第i篇文獻中TF-IDF值低于ζ;cw(w,a,b)為公共詞閾值判斷函數(shù),cw(w,a,b)=1表示詞w為公共詞;cw(w,a,b)=0表示詞w不是公共詞。3注釋中屬性加權法3.1專利文獻中加權詞的特征分析文獻[12-13]的關鍵詞提取加權公式中,只考慮了特殊位置的加權,如標題、副標題、摘要等,特殊位置加權方法如下公式所示:其中,w表示當前要加權的詞語;t(w)為加權詞在文章中出現(xiàn)的詞頻;title(w)為文章“標題”部分對詞w的加權;tec(w)表示文章“技術領域(摘要)”部分對詞w的加權;f(w)為詞頻和特殊位置加權函數(shù)。雖然公式(5)在一般文獻中能夠根據詞出現(xiàn)的特殊位置關系有效抽取關鍵詞,但對于專利文獻,需要考慮專利文獻的兩個特點:第一,考慮當前加權詞與同一篇文獻中其它詞之間的相關關系,在專利文獻中,這種詞或詞組間的相關性體現(xiàn)得尤為明顯,最直接的表現(xiàn)是專利文獻中大量出現(xiàn)的具有相同詞素的詞或詞組,當前加權詞與其它詞相關性越大,則當前加權詞對主題的影響越大,成為關鍵詞的概率越高;第二,專利文獻中出現(xiàn)在并列結構中的詞,雖然出現(xiàn)的頻次較高,但這些詞只是用來對主題詞進行描述,一般不能成為關鍵詞,在加權的過程中,需要對其進行適當?shù)慕禉唷?.2加權詞的行為通過對專利文獻特征進行分析,發(fā)現(xiàn)含有相同詞素的兩個不同詞,其相關度比較大,并且含有的相同詞素越多,相關性越大。由此,基于專利文獻的詞素加權計算方法如下所示:其中,wi表示當前加權詞;n表示一篇文章中出現(xiàn)的總詞數(shù);wj表示與加權詞wi在同一篇文章中出現(xiàn)的第j個詞;f(wi,wj)表示wj與wi擁有相同詞素的個數(shù);r(wi)為詞素加權函數(shù)。例如,假設一篇文獻中只出現(xiàn)了三個詞“外轉子直流電動機”“內轉子直流電動機”“直流電動機”,當w1=“外轉子直流電動機”時,w2=“內轉子直流電動機”,此時f(w1,w2)=3;w3=“直流電動機”,此時f(w1,w3)=2,則r(w1)=3+2=5。3.3降低關鍵詞的權值專利文獻中,出現(xiàn)在并列結構中的詞一般用來描述主題,其成為關鍵詞的可能性往往較低,然而這些詞語出現(xiàn)的頻次比較高,這類詞語在關鍵詞的提取過程中,很有可能被識別為關鍵詞。因此,應對這類詞語進行相應的懲罰,降低其權值。據此,基于專利文獻的并列結構的懲罰方法如下所示:其中,wi表示當前加權詞,k表示當前文獻中所有并列結構中詞語的總數(shù);pc(wi)表示詞wi出現(xiàn)在并列結構中的次數(shù);α表示詞wi在并列結構中出現(xiàn)的懲罰系數(shù);β表示詞wi與出現(xiàn)在并列結構中的第j個詞wj擁有相同詞素時的懲罰系數(shù)。3.4對詞語主題影響度計算綜合以上分析,詞語的主題影響度不僅與詞頻相關,還與詞語出現(xiàn)的特殊位置、含有相同詞素的個數(shù)和是否是并列結構有關,結合這些影響因素綜合運用詞頻、詞出現(xiàn)特殊位置加權、詞素相關性加權函數(shù)和并列結構懲罰函數(shù)對詞語進行主題影響度計算,具體影響度計算公式如下:其中,w表示當前要加權的詞語;ε為詞頻和特殊位置加權系數(shù);η為詞素加權系數(shù);λ為并列結構加權系數(shù);wei(w)表示當前詞經加權后的主題影響度?;谝陨戏椒ㄓ嬎阍~語對主題的影響度,根據詞語對主題的影響度大小,確定是否為關鍵詞。4實驗與結果分析4.1tf-idf實驗本文選取了617篇汽車相關專利和131篇印刷相關專利文獻作為實驗語料。在對文本進行預處理之后,由公式(1)分別計算汽車專利領域和印刷專利領域內相關文獻中詞語的TF-IDF權值,然后分別提取兩個領域內TFIDF值較低的詞語,采用公式(2)計算判斷其是否為公共詞,經實驗驗證,選取ζ=10,δ=0.04,再以“、”“和”“與”作為并列結構的特征標識詞進行提取,去除公共詞后,按照公式(10)對抽取的詞語進行加權,多次實驗驗證,選取α實驗過程中采用三種方法進行關鍵詞抽取實驗:實驗1經典TF-IDF。采用經典的TF-IDF算法計算詞語權重抽取關鍵詞。實驗2局部加權TF-IDF。去除公共詞的基礎之上,對詞語采用一般文獻詞語加權方法,即公式(1)先對詞語進行加權,再根據TF-IDF算法進行關鍵詞抽取。實驗3本文方法。采用去除公共詞,通過區(qū)域加權、詞素加權和并列懲罰函數(shù)相結合的方式抽取關鍵詞。4.2加權tf-idf算法局部加權后專利的表現(xiàn)性比較本文采用正確率(P)、召回率(R)兩個指標對上述實驗的效果進行評價,具體計算公式如下:為了統(tǒng)計3種方法的實驗結果,隨機抽取了100篇汽車專利相關文獻進行結果統(tǒng)計,對于每一種方法取10組不同的結果,并將每一種方法的每一組實驗結果抽取的關鍵詞與人工標引的結果進行對比,計算其正確率、召回率、F值。三種方法的正確率統(tǒng)計結果如圖1所示。三種方法召回率的統(tǒng)計結果如圖2所示。三種方法統(tǒng)計結果的F值如圖3所示。從正確率、召回率和F值三個統(tǒng)計圖可以明顯看出,本文所采用的加權方法在抽取關鍵詞個數(shù)大于4時,正確率和召回率都要優(yōu)于局部區(qū)域位置加權后的TF-IDF算法和經典的TF-IDF算法;但是在抽取關鍵詞2-4個時,加權TF-IDF方法要優(yōu)于本文的方法,因為加權TF-IDF方法對“標題”部分和“技術領域(摘要)”部分賦以的權重較高,導致前4個關鍵詞一般都是“標題”部分和“技術領域(摘要)”部分的,這樣對整篇專利的主題表現(xiàn)性不夠豐富。在關鍵詞5-9個的范圍內,關鍵詞對專利文獻的表現(xiàn)性更豐富,比局部加權TF-IDF算法要好。本文所采用的加權算法可以把部分出現(xiàn)頻次較低的關鍵詞的權重提高,把部分出現(xiàn)頻次高但非關鍵詞的權重降低,說明本文提出的相同詞素加權算法和并列結構懲罰算法可以很好地抽取關鍵詞。5算法的分類及改進針對專利文獻,本文提出了公共詞的概念并基于TF-IDF算法思想提出了提取領域公共詞的方法,分析了公共詞在專利文獻主題描述上的作用,將公共詞去除,使得實驗結果有了較大提高;分析傳統(tǒng)詞語加權方法的特點,根據專利文獻的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論