




已閱讀5頁,還剩48頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
摘要 隨著社會的進步和互聯(lián)網(wǎng)技術的發(fā)展,網(wǎng)絡信息量的頻繁劇增,當 今社會面臨著信息大爆炸。當大量的信息像潮水般涌向人們時,傳統(tǒng)人 工處理信息的手段已經(jīng)遠遠不足。為了解決這一問題,科學界提出文摘 自動生成的技術。 自動文摘通常被視為自然語言處理的一項任務。文摘是準確全面地 反映某一文章中心內(nèi)容的簡潔連貫的短文,與索引相比更能滿足信息獲 取的要求。我國對自動文摘技術的研究目前還在初級階段,但此技術所 具有的重要作用是不可低估的,必將在未來的信息處理領域得到廣泛的 應用。 本論文基于現(xiàn)階段的研究現(xiàn)狀下,運用統(tǒng)計自然語言處理方法,首 先對文章進行自動分詞,利用停用詞表對分詞結果進行過濾,并利用知 網(wǎng)( h o w n e t ) 獲得概念,建立概念向量空間模型。通過計算詞語重要度 和句子重要度,系統(tǒng)得到一個粗略的文摘。最后再進行冗余計算,得到 本文章的文摘。 本文在上述研究的基礎上,設計了基于概念向量空間模型的自動文 摘系統(tǒng),實現(xiàn)了機器自動生成文摘的各個模塊的功能,證實了本文利用 概念統(tǒng)計的方法比基于詞頻統(tǒng)計的方法得到的文摘,能更準確含概原文 章的中心內(nèi)容。 關鍵詞:自動文摘知網(wǎng)概念向量空間模型自然語言處理 a b s t r a c t a 1 0 n gw i t ht h ea d v a n c e m e n to fs o c i e t ya n dt e c h n o l o g yo ft h e w o r l d w i d ew 曲i sd e v e l o p i n g t h ei n f o r m a t i o no ft h en e t w o r ki sg r o w i n g e x p o n e n t i a l l y , s o c i e t yi sf a c i n ge x p l o d i n go ft h ei n f o r m a t i o nn o w a d a y s w h e nt h el a r g ev o l l l m eo f j n f o r m a f i o ne m e r g ep e o p i el i k et i d e w a t e r , i ti st o o d e f t e i e n e yt ou s et r a d i t i o nh u m a np r o f e s s i o n a lt od i s p o s et h ei n f o r m a t i o n i n o r d e rt or e s o l v et h i sp r o b l e m , t h es c i e n c ed o m a i na d v a n c et h et e c h n o l o g yo f t e x ta u t o m a t i cs u m m a r i z a t i o n a u t o m a t i es u m m a r i z a t i o nu s u a l l yi sr e g a r d e da sai t e mt a s ko fn a t u r e l a n g u a g e s u m m a r i z a t i o nc a ne x p r e s sac e r t a i na r t i c l e sc e n t e re o n t e n t a c c u r a t e l ya n dw h o l e ,i ti sc o m p o s e db ys o m es u c c i n c ta n dc o h e r e n t s e n t e n c e s c o m p a r ew i t hi n d e x ,s u m m a r i z a t i o nc a ns a r i s f yt h er e q u e go f i n f o r m a t i o n - o b t a i n e d r e s e a r c h i n g t h e t e c h n o l o g y o f a u t o m a t i c s u m m a r i z a t i o no fo u rc o u n t r yi si nae l e m e n t a r yp h a s ey e t ,b u tt h e s i g n i f i c a n tf u n c t i o no ft h i st e c h n o l o g yc a n n o tu n d e r e s t i m a t e ,a n di tm u s tb e e x t e n s i v e l yu s e di nf u t u r ei n f o r m a t i o nd i s p o s a ld o m a i n a i m i n ga t t h ep r e s e n ts i t u a t i o n , t h i s p a p e r u s e ss t a f f s t i c a ln a t u r e l a n g u a g ed i s p o s a lm e t h o d ,i tc a r r y so u ta u t o m a t i cp a r t i c i p l ef i r s t l y , u s e s c e a s ew o r dl i s tt of i l t r a t et h er e s u l to fa u t o m a t i cp a r t i c i p l e a n do b t a i n st h e c o n c e p t i o nb yu s i n gh o w n e t ,t oe s t a b l i s ht h ec o n c e p t u a lv e c t o rs p a c e m o d e l b yc a r r y i n go u tt h ew e i g h to fw o r da n ds e n t e n c e ,s y s t e mc a ng e ta s u m m a r ya b s t r a c t a n di ta c , c o u n t st h er e d u n d a n c yt oo b t a i nt h i sp a p e r s s u m m a r i z a t i o nf i n a l l y t l l i sp a p e l b a s e so nt h er e s e a r c ha b o v e - m e n t i o n e d i td e v i s e sas y r s t e m o fa u t o m a t i cs u m m a r i z a t i o nb a s e do nc o n c e p t u a lv e c t o r 印a c em o d c l ,i t r e a l i z e sc o m p u t e ra u t o m a t i cs u m m a r i z a t i o n sf u n c t i o no f e v e r ym o d u l e a n d t h i sp a p e ra p p r o v e st h a tb a s i n go nc o n c e p t u a ls t a t i s t i c a lm e t h o di sb e t t e r t h a nw o r df r e q u e n c ys t a t i s t i c a lm e t h o d ,i tc a nc o n t a i no r i g i n a lt e x tc e n t e r c o n t e n tm o r ee x a c t l y k e yw o r d s :a u t o m a t i c s u m m a r i z a t i o nh o w n e t c o n c e p t u a l v e c t o rs p a c em o d e ln a t u r el a n g u a g ed i s p o s a l 長春理工大學碩士學位論文原創(chuàng)性聲明 本人鄭重聲明:所呈交的碩士學位論文,自動文摘技術的研究與 應用是本人在指導教師的指導下,獨立進行研究工作所取得的成果。 除文中已經(jīng)注明引用的內(nèi)容外,本論文不包含任何其他個人或集體己經(jīng) 發(fā)表或撰寫過的作品成果。對本文的研究做出重要貢獻的個人和集體, 均已在文中以明確方式標明。本人完全意識到本聲明的法律結果f h 本人 承擔。 作者簽名:盜必釅三月孕日 長春理工大學學位論文版權使用授權書 本學位論文作者及指導教師完全了解“長春理工大學碩士、博士學 位論文版權使用規(guī)定”,同意長春理工大學保留并向國家有關部門或機 構送交學位論文的復印件和電子版,允許論文被查閱和借閱。本人授權 長春理工大學可以將本學位論文的全部或部分內(nèi)容編入有關數(shù)據(jù)庫進 行檢索,也可采用影印、縮印或掃描等復制手段保存和匯編學位論文。 作者簽名:鹽墮歪3 畢三月掣日 指導導師簽 衛(wèi)成4 日 7| 第一章緒論 1 1 自動文摘的研究意義和相關概念 1 1 1 研究意義 隨著信息時代的到來,電子文本的大量涌現(xiàn)和i n t e m e t 網(wǎng)的廣泛使 用,人們在欣然享受著海量信息所帶給我們的資訊震撼的同時,開始逐 漸意識到要想在這信息的海洋中迅速有效地找到滿足自己特定需求的 信息是多么的困難和無助,因而迫切渴望能借助一些有效的工具來應對 這場信息過載危機。信息的過濾、搜集與綜合成為極有潛力的研究課題, 而這些智能業(yè)務中最引人注目的便是自動文摘。它的實現(xiàn)基礎是要構建 一個文本理解系統(tǒng)。本文構建了一個文本理解系統(tǒng),并以系統(tǒng)最后生成 文摘的質量作為評判系統(tǒng)理解能力的依據(jù)。 自動摘要是計算機語言學和情報科學共同關注的課題,其本質是信 息的挖掘和信息的濃縮。從理論上講,對自動摘要的研究將有助于探討 人類理解、概括自然語言文本,并從中獲取知識的認識模型。自動摘要 被認為是計算機實現(xiàn)自然語言理解的重要標志之一。從應用角度講,在 文獻電子化和i n t e r n e t 迅速發(fā)展的今天,自動摘要系統(tǒng)的使用將大幅 度降低編制摘要的成本,縮短文摘的出版周期,為人們廉價、迅速和準 確地獲得所需要的信息提供方便。 信息檢索技術的出現(xiàn)在一定程度上緩解了信息過載的壓力。然而, 鑒于現(xiàn)有的信息檢索技術所能達到的信息查詢的準確率和召回率還差 強人意,與人們的實際需求還相距甚遠。因此,如何能從眾多檢索結果, 尤其是以文本形式存在的成千上萬的檢索結果當中行之有效地找到與 用戶的當前需求最相關的信息便成為了一個眾所關注的熱點問題。 自動文摘作為解決當前信息過載問題的一種輔助手段,正日益受到 國內(nèi)外學術界和工業(yè)界的密切關注,從近年來頻繁召開的有關自動文摘 的專題學術會議、工作組以及評測大賽就可窺見一般。 自動文摘研究之所以如火如荼的開展,關鍵就在于研究人員己經(jīng)充 分意識到它能在一定程度上彌補信息檢索技術在應對信息過載危機時 所表現(xiàn)出來的種種缺憾。這種彌補具體表現(xiàn)在以下兩個方面: 一、質量良好的文摘能在一定程度上取代原始文本的被檢索地位, 作為原始文本的一個替代品參與檢索,從而能有效地縮減檢索信息的時 間; 二、質量良好的文摘能用于檢索結果的可視化,使得用戶無需瀏覽 原始的大量檢索結果便能輕松地取舍信息,從而能有效地節(jié)省信息的瀏 覽時間,提高需求信息的命中率。 由此可見,自動文摘必將為輔助解決當前日趨嚴重的信息過載問題 而提供越來越成熟的技術支持和更加強勁的應用保障。 自動文摘是一類特殊的自然語言理解問題。語言的層面模型觀點指 出,語言具有三個主要層面:結構層面、意義層面和功能層面。由于對 語言各層面的研究至今尚很不充分,自動文摘就難免面臨諸方面難以逾 越的障礙。首先在意義層面上,由于語言可以有許多比喻性用法,對其 意義進行了不同的引申,語句里各詞的詞義不是幾個范疇能包括的,故 準確地把握語言的意義十分困難,其次在功能層面上,由于語言的功能 過于廣泛致使歧義問題十分突出。因此,基于目前的語言研究水平,只 有采取一些避開這些困難的有效對策才能使當前對自動文摘的研究不 至于重蹈j t e l 轍。 1 1 2 文摘相關概念及目的 文摘是準確全面地反映某一文獻中心內(nèi)容的簡潔連貫的短文,與索 引相比更能滿足細心獲取的要求。所謂自動文摘就是利用計算機自動地 從原始文獻中提取文摘m 。 文摘可分為: 1 ) 指示型文摘:對原文內(nèi)容的一種指示性的介紹,不涉及到具體的 細節(jié)內(nèi)容。其目的在于幫助用戶做出是否需要對原文做深入閱讀的判 斷; 2 ) 信息型文摘:提供對原文細節(jié)內(nèi)容的一種濃縮的表達,以幫助用 戶僅通過閱讀文摘便能抓住原文的核心內(nèi)容,從而大大地節(jié)省閱讀的時 間,提高閱讀的效率; 3 ) 評論型文摘:提供對原文內(nèi)容的一種評論,以幫助用戶了解原文 作者想要表達的主觀意圖。 進行自動文摘的主要目的是:( 1 ) 自動文摘是表明文章主題的一 個摘要內(nèi)容。當出現(xiàn)在文章的第一頁或僅以摘要形式被作為一個鏈接 時,它可以明確的表達出文章撰寫的主要目的。這樣可以使讀者很快地 肯定或否定這篇文章是否是他們感興趣的內(nèi)容,而決定是否需要去讀其 中的詳細內(nèi)容;( 2 ) 當文摘被建立索引時,可以讓讀者很快找到自己 真正需要的相關文章,而不必將時間浪費在不相關文章的閱讀上;( 3 ) 當文摘被搜索引擎標記上域信息后,可以使用戶進行的搜索更加高效, 2 以在最短的時間里找到與查詢關鍵字相關內(nèi)容的文檔列表。 1 1 3 國內(nèi)外研究現(xiàn)狀 關于自動文摘的研究,起始于1 9 5 8 年i b m 公司的h el u h n 所做 的工作0 1 。到目前為止,已經(jīng)有國內(nèi)外眾多學者和研發(fā)機構投入到此項 富有市場前景和研究價值的課題中來,并取得了一系列豐碩的成果。國 內(nèi)對自動文摘的研究起始于8 0 年代末,上海交通大學王永成教授領導 的課題組所做的工作是當時的典型代表。1 。目前我國在該領域的研究仍 處于初級階段,尚有很大的發(fā)展空間。 縱觀自動文摘的研究歷程,歸納起來可以分為三個主要的發(fā)展階段 、兩種主流的研究方法以及兩種廣泛采用的評價策略0 1 ,現(xiàn)詳述如下: 1 ) 三個主要的發(fā)展階段 階段一:5 0 年代末- 6 0 年代末 代表性的工作:( l u h n ,1 9 5 8 ) ,( h e e d m u n d s o n ,1 9 6 9 ) 等。 l u h n 于1 9 5 8 年發(fā)表了世界上第一篇關于計算機自動編制文摘的經(jīng) 典論文“t h e a u t o m a t i cc r e a t i o n o f l i t e r a r y a b s t r a c t s ”,從此揭開了自 動文摘研究的序幕0 1 。他提出了一種基于關鍵詞頻率統(tǒng)計的自動文摘方 法,即通過統(tǒng)計文本中的內(nèi)容詞的詞頻來描述內(nèi)容詞的重要度,并利用 文本句子中包含的所有內(nèi)容詞的重要度來給各個句子打分,從中挑選出 得分最高的若干句子構成摘要。他的偉大貢獻在于首次提出了一種基于 文本淺層特征統(tǒng)計的自動文摘方法,并將著名的z i p f 定律成功地應用 到自動文摘研究領域,取得了令人矚目的效果。 1 9 6 9 年,e d m u n d s o n 在l u l m 提出的基于關鍵詞頻率統(tǒng)計的自動文 摘方法的基礎上,進一步提出了一個重要的改進設想。即將文本的關 鍵詞、標題、位置以及提示詞這四種淺層特征聯(lián)合起來考慮,并通過對 它們的綜合統(tǒng)計來給每個句子打分,這個分值就作為句子重要性的度量 值。他還系統(tǒng)地比較了綜合應用這四種特征加權的方式所產(chǎn)生的摘要的 效果,結果發(fā)現(xiàn)標題位置提示詞綜合加權策略取得了最好的摘 要效果,而單純使用關鍵詞加權則效果最差。 總之,在自動文摘研究的早期,單純的基于文本淺層特征的統(tǒng)計學 方法占據(jù)了研究的主導地位,并曾一度統(tǒng)治了相當長一段時期。國內(nèi)上 海交通大學王永成教授所領導的課題組于1 9 9 7 年成功研制出中文自動 文摘系統(tǒng)o a “1 。該系統(tǒng)在原理上就是綜合采用了以上介紹的多種淺層 特征集成的句子打分法,只是它主要針對的是中文文本而非英文文本。 階段- - :7 0 年代初8 0 年代末 代表性的工作“。;( s e h a n k ,1 9 7 4 ) ,( d e j o n g ,1 9 7 9 ) ,( j i t a i t ,1 9 8 2 ) , ( d a n i l o f u m ,1 9 8 2 ) ,( h a h n , 1 9 8 8 ) ,( l i s ae r a u ,1 9 8 9 ) 等。 在1 9 7 4 年,耶魯大學的s c h a n k 研制了s a m 自動文摘系統(tǒng)。該系 統(tǒng)采用腳本來分析簡單的故事,并對故事進行歸納摘要”1 。 耶魯大學的d c j o n g 于1 9 7 9 年研制出了著名的f r u m p 自動文摘系 統(tǒng)。該系統(tǒng)利用語法知識來判定某個預期詞在句子當中的位置,并通過 句法分析來遍歷整個文本以尋找標示為已知腳本的短語,從而建立起各 種故事的梗概“”。 1 9 8 2 年,j i t a i t 對原有的f r u m p 系統(tǒng)進行了改進。他提出將所 有的資料先轉換成概念依存結構,然后再在此基礎上通過分析、推測各 種信息之間的關系來構成摘要“”。 意大利u d i n e 大學的d a n i l o f u m 等研究人員在1 9 8 2 年成功研制出 了s u s y 文摘系統(tǒng)。該系統(tǒng)以一階謂詞邏輯作為文本的機內(nèi)表達形式, 利用綱要產(chǎn)生器和分析縮寫器來裝配出滿足特定需求的摘要“。 德國康斯坦大學的h a h n 等研究人員于1 9 8 8 年研制出t o p i c 自動 文摘系統(tǒng),該系統(tǒng)針對的是微處理器領域的科技文本,它采用框架作為 知識的載體,并通過聯(lián)合語法、語義分析來生成各種長度的文摘。 1 9 8 9 年,美國g e 研發(fā)中心的l i s ae r a u 等科研人員研制出了 s c i s o r 自動文摘系統(tǒng)。該系統(tǒng)利用篇章主題分析以及復雜的句法結構 分析等技術生成與摘要有關的框架概念,并采用某種預期驅動分析器從 所有框架概念當中提取出預期內(nèi)容,構成摘要。該系統(tǒng)主要處理的是“公 司合并”方面的新聞“。 總之,在這個階段,以人工智能技術,深層自然語言處理技術以及 知識工程技術為代表的自動文摘方法逐漸占據(jù)了該領域的主導地位。在 國內(nèi),哈爾濱工業(yè)大學的王開鑄教授領導的課題組于1 9 9 2 年研制出的 中文自動文摘實驗系統(tǒng)m a t a s ,即采用基于了深層自然語言處理的方 法“”。此外,哈爾濱工業(yè)大學的劉挺教授于1 9 9 6 年提出的中文自動文 摘系統(tǒng)的設計方案即是采用上述基于信息抽取的框架知識表達來實現(xiàn) 的“”。北京郵電大學的鐘義信教授領導下的課題組也充分利用了上述基 于自然語言處理和知識工程的方法開發(fā)出了面向特定領域的中文自動 文摘系統(tǒng)模型l a d i e s “,該系統(tǒng)主要處理的是有關計算機病毒方面的中 文文本,并取得了不錯的效果。與之類似的還有東北大學與香港城市理 工大學聯(lián)合開展的有關自動文摘方面的研究,他們提出的中文自動文摘 系統(tǒng)通過腳本來存儲知識,通過用戶交互手段來生成最終的摘要“”。 階段三:9 0 年代初至今 代表性的工作:( s a l t o ne ta l ,1 9 9 4 ) ,( k u p i e ee ta l ,1 9 9 5 ) , ( l i n & h o v y , 1 9 9 7 ) ,( j a i m ec a r b o n e l l & j a d eg o l d s t e i n ,1 9 9 8 ) ,( y i h o n 8 g o n g & x i nl i u , 2 0 0 1 ) ,( c o n r o y & o l e a r y , 2 0 0 1 ) 等。 4 s a l t o n 等研究人員在1 9 9 4 年通過統(tǒng)計文本段落之間的共享詞匯數(shù) 來計算段落之間的語義關聯(lián),構造文本的語篇結構圖來輔助文本話語結 構的自動分析,從而提出了基于語篇話語結構分析的抽取型自動文摘方 法“。國內(nèi)與之類似的工作是南京大學的王繼成等研究人員在2 0 0 3 年 所提出的基于篇章結構指導的中文w e b 文檔自動摘要方法“。 1 9 9 5 年,k u p i e c 等研究人員開創(chuàng)了將機器學習技術用于自動文摘 領域的先河“。他們采用基于樸素b a y e s i o n 理論的機器學習方法從 科技論文和論文摘要的語料庫中提取出對抽取重要句子有貢獻的聯(lián)合 特征,并在此基礎上充分利用已獲得的聯(lián)合特征來從科技文本中抽取一 定數(shù)量的句予以構成摘要。 l i i l 和h o v y 在1 9 9 7 年嘗試了用機器學習方法驗證句子位置這一自 然語言處理領域慣用的淺層特征對文摘句選取質量的影響“。 j a i m ec a r b o n e l l 和j a d eg o l d s t e i n 在1 9 9 8 年探討了如何將文本中包 含的概念多樣性引入到自動文摘的研究當中,從而使產(chǎn)生的摘要能盡可 能地覆蓋原文多個概念并包含較少的冗余。具體做法是通過采用一種稱 為最大邊緣相關( m m r ) 的摘要模型來實現(xiàn)的啪1 。 哈爾濱工業(yè)大學的劉挺等研究人員在1 9 9 9 年提出了種基于篇章 多級依存結構分析的自動文摘方法o ”,并通過實驗驗證了該方法的可行 性和有效性。 h o n gg o n g 和x i nl i u 兩位研究人員在2 0 0 1 年提出了兩種句子抽 取型的自動文摘方法嘲1 。一種是基于相關性度量策略,另一種是基于潛 在語義分析( l s a ) 算法?;谙嚓P性度量的文摘方法,它挑選文摘句的 策略在于:先循環(huán)計算每個句子和文本之間的語義相似度,從中挑選出 相似度最大的那個句子放入摘要。然后從剩余的句子集合中依次去掉已 包含在剛入選摘要的那個句子中的所有詞語,再通過重新計算剩余的句 子和文本之間的語義相似度來選擇出下一個具有最大相似度的句子入 選進最終的摘要。而基于潛在語義分析的文摘方法則通過對句子一詞語 矩陣做s v d 分解,進而挑選出分解結果矩陣的對角線上若干最大特征 值所對應的句子入選最終的摘要。 2 0 0 1 年,c o n r o y 和o l e a r y 兩位研究人員嘗試了將隱馬爾可夫模型 引入自動抽取型摘要的研究當中“”。 2 0 0 1 年,上海交通大學的研究人員還嘗試了以心理語言學為基礎, 構造基于主題敏感詞分析的新聞文獻自動摘要系統(tǒng)o “。 總之,從9 0 年代初至今,自動文摘研究在經(jīng)歷了相當長一段時期 的發(fā)展之后,正朝著面向實用化,面向非受限領域文本處理的方向邁進, 進入到一個前所未有的高潮期。與此同時,各種新穎的研究思想、研究 成果和熱點課題層出不窮。但總的來說,占主導地位的研究方法又逐漸 回歸到以統(tǒng)計學的方法為主,以深層自然語言處理、信息抽取以及基于 本體的知識工程方法為輔的混和型方法上了”。 2 ) 兩種主流研究方法: 方法一:基于抽取的研究方法( e x t r a c t i o nm e t h o d ) 盡管自動文摘的研究是從基于抽取的研究方法開始的,然而目前的 絕大多數(shù)工作仍然采用了基于抽取的方法來從原文本中抽取句子或更 大的語言單元以構成摘要,只是在具體的抽取方法上有所改進。從最初 的單純依靠原文本淺層特征的句子抽取方法逐漸過渡到采用更加復雜 的句子抽取策略,如基于語料庫的機器學習方法”1 ,基于文本主題結構 分析的方法。以及基于文本修飾辭分析的自動文摘方法等。 方法二:基于泛化生成的研究方法( a b s t r a c t i o nm e t h o d ) 近期,基于泛化生成的自動文摘方法獲得了不少研究人員的關注, 并取得了一定的成果。該方法主要利用了信息抽取、信息壓縮、信息融 合等多種泛化生成的核心技術。 信息抽取技術的思路主要表現(xiàn)在;通過預定義信息槽來存放待抽取 信息。如針對計算機病毒類的文章,預定義信息槽往往設計為包括病毒 名、發(fā)作時間、解決辦法等:然后利用計算機自動地在原文本中定位有 關的信息片斷,最后將這些片斷填充到各個對應的槽中以產(chǎn)生結果摘 要。該技術的優(yōu)點在于能產(chǎn)生較高質量的準確摘要,但缺虐也不容冬視, 那就是它的應用領域嚴格受限且開發(fā)這類文摘系統(tǒng)所需的代價c j 貴。 信息壓縮和信息融合技術的特點在于:充分和j , 4 1 了現(xiàn)有的自然語言 產(chǎn)生技術來改造文本中的相關句子,并在一定程度上構造出新的句子。 該技術具有代表性的工作是k n i g h t ,k e v i n 和m a r c u 在2 0 0 0 年所發(fā)布 的研究成果?!啊K麄儾捎昧嘶谄谕畲蠡墓烙嫹椒ㄓ柧毾到y(tǒng)模型中 的參數(shù),然后通過訓練階段所獲得的參數(shù)來產(chǎn)生相關的規(guī)則,并將它們 用于壓縮句子的句法分析樹,從而產(chǎn)生出原文本的一個精簡的文摘版 本,而該版本所包含的每個句子能在最大程度上符合語法規(guī)范。 據(jù)統(tǒng)計,目前絕大多數(shù)的自動文摘方法往往都致力于基于抽取的文 摘方法啪1 ( 即采用e x t r a c t i o n 的文摘方法) ,而非基于泛化生成的文摘方 法o ”( 即采用a b s t r a c t i o n 的文摘方法) 。一方面,這是由理性的自然語言 理解技術和知識工程技術的高度復雜性及其應用領域的嚴重受限性所 造成;另一方面,這也與近年來統(tǒng)計學的研究方法、機器學習的研究方 法以及模式識別的研究方法在自然語言處理一系列應用領域中所取得 的不俗成績密不可分。 基于抽取的文摘方法按抽取辦法的不同可大致分為有指導型和無 指導型。有指導型抽取方法的實現(xiàn)依賴于大量人工做的標準摘要,即業(yè) 類俗稱的金標準“g o l ds t a n d a r d s ”來幫助訓練和確定摘要統(tǒng)計學模型 6 的特征參數(shù)。然而,由于人工摘要的置信度問題至今仍是一個懸而未決 的問題,因而在很大程度上促使了研究人員對無指導型文摘辦法的研 究。而無指導型的文摘辦法,其最大優(yōu)勢就在于:它的實現(xiàn)無需人工摘 要的支持,僅從文本自身出發(fā),利用統(tǒng)計學方法和啟發(fā)式規(guī)則來確定文 本中各個句子的權值并依此來挑選出文摘句。該辦法還可以進一步被細 分為無篇章結構分析型和基于篇章結構分析型。前一種辦法的通常做法 是:先給原文本包含的所有句子打分,然后挑選出得分最高的若干句子, 并按照這些句子在原文中出現(xiàn)的語序先后關系依次輸出它們以構成摘 要。但細心的研究人員很快發(fā)現(xiàn)采用這種方法產(chǎn)生的文摘不僅主題覆蓋 不全而且冗余偏大,它往往只能抽取出文章中分布密度較大的主題,而 忽視了其它主題的存在。針對此問題,南京大學的王繼成等提出了基于 篇章結構分析型的自動文摘方法,他們通過文本中相鄰段落的用詞重疊 統(tǒng)計來計算相鄰段落之間的語義距離,從而得出文章主題的一種劃分。 最后從各個劃分好的主題下抽取出適量的句子來構成摘要。這種方法在 處理篇章結構比較規(guī)范的文本時效果比較好,能有效地解決無篇章結構 分析型文摘方法所凸顯出的上述問題。然而,令人遺憾的是,當文本的 寫作風格比較自由,且主題分布靈活多樣時,即一個主題可能分布在不 相鄰的若千個段落當中。在這種情況下,采用此方法的效果則會大打折 扣。 3 ) 兩種廣泛采用的評價策略 策略一:i n t r i n s i ce v a l u a t i o n 這是基于摘要自身質量的一種直接式的評價策略。 策略- - e x t r i n s i ce v a l u a t i o n 這是一種間接式的評價策略,即讓摘要在自然語言處理的其它應用 當中去取代其對應文本的原始地位,從而通過對該應用效果的影響程度 來間接評價摘要的質量。 自動文摘的評價是一個非常棘手的問題,國內(nèi)外學術界一直在努力 探索著,力求尋找到一種行之有效的解決方案,但到目前為止似乎離預 想中的目標還有相當長的一段距離,不過這也正好促使了對自動文摘的 評價這一經(jīng)典難題的前所未有的關注。一系列自動文摘領域頗具影響力 的評價比賽正在受到越來越多的科研機構和研究人員的大力支持,而這 必將促進自動文摘技術的蓬勃發(fā)展。 美國的s u m m a c ,d u c ,日本的t s c 以及中國的8 6 3 計劃中文信 息處理與智能人機接口技術評測系列之自動文摘任務便是此類評價比 賽中的典型代表。 1 2 本課題研究的內(nèi)容 關于自動文摘系統(tǒng)的研究,主要有基于意義的理解文摘和基于統(tǒng)計 的機械文摘兩種主要的研究方法。關于它的理論的研究遠遠滯后于信息 社會中信息處理的發(fā)展要求。 產(chǎn)生這種現(xiàn)象的主要原因是由于基于意義的理解文摘和基于統(tǒng)計 的機械文摘系統(tǒng)都存在著一些弊端。如對于基于意義的理解文摘,由于 知識庫建立的困難性,知識表示的復雜性,使得它只能面向某一應用領 域,并且文摘質量并不十分令人滿意;對于基于統(tǒng)計的機械文摘,大多 采用的是基于詞形統(tǒng)計的向量空間模型法。這種方法以詞形作基礎,認 為詞形是文章的最小意義單元。但是向量空間模型最基本的假設是向量 各義項之間要正交,也就是意義不相關,而在真實文本中,存在著相當 多的一詞多義與一義多詞現(xiàn)象,使作為義項的詞語之間往往有很大的相 關性。從而導致文摘的質量不高。 為此,我們提出了基于知網(wǎng)( h o w n e t ) 概念獲取算法得到文本的 主題語義概念,建立概念向量空間模型。這樣,可以使得向量空間模型 中各向量義項間保持正交關系,從而提高向量空間模型進行自動文摘的 各項效能。 本課題研究主要內(nèi)容包括文本詞語的計算機處理、詞語所表達概念 的自動獲取和句子語義相似度的計算分析,以及文本主題句的提取的研 究。文本將基于統(tǒng)計的機械文摘、基于h o w n e t 的詞語概念獲取和主題 句和主題語義相似度計算等研究方法結合起來提高了文摘的質量。 1 3 本文內(nèi)容組織 本文各章安排如下: 第一章緒論,概述了文本自動文摘的意義和應用背景,介紹了文本 自動文摘的國內(nèi)外研究現(xiàn)狀,以及研究存在的問題和提出的相關技術。 第二章是文本自動文摘模型的介紹,綜述了當前文本自動文摘領域 幾種重要的模型,并作了相應的比較和分析。 第三章是基于概念向量空間模型的中文自動文摘研究。這一部分是 文論文的核心部分,介紹了詞語概念獲取的主要工具h o w n e t ,闡明了 建立一個穩(wěn)定、可靠、高效的自動文摘系統(tǒng)里面的各項關鍵技術的實現(xiàn)。 第四章是系統(tǒng)實現(xiàn)與試驗分析,介紹了自動文摘系統(tǒng)各模塊以及相 應模塊所實現(xiàn)的功能;此外,對該系統(tǒng)進行了全面的測評,主要是通過 各種不同的方法和測試手段對設計實現(xiàn)的系統(tǒng)進行評估,指出了存在的 問題以及初步的解決方案。 第五章對全文進行總結并展望了未來的工作。 9 第二章自動文摘的相關模型 2 1 向量空間模型 在自然語言處理的各個研究領域,對文本各級語言單元進行形式化 的表達是一個既基礎而又重要的問題。而形式化表達其根本目的就在于 力圖將各種無結構化的文本單元轉換成便于計算機處理的結構化的表 達形式,以支持后續(xù)一系列語言處理應用的需要。 向量空間模型( v e c t o rs p a c em o d e l ) 是2 0 世紀6 0 年代由g e r a r d s a l t o n 等人提出的。主要應用于信息檢索、自動索引、分類、聚類、篇 章分析等。其思想是把文本表示成向量空間中的點( 稱為向量) ,用向量 之間的夾角余弦作為文本間的相似度度量。當向量空間模型用于文本檢 索時,首先要建立文本和用戶查詢的向量表示,然后進行查詢向量和文 本向量問的相似度計算。 2 1 1 文本向量空間表示 對于計算機來說,中文文本就是由漢字和標點符號等晟基本的語言 符號組成的字符串,由字構成詞,由詞構成短語,進而形成句、段、節(jié)、 章、篇等語言結構。用盡量簡單并且準確的方法表示文檔,是進行文本 檢索的前提。 在向量空聞模型f v s m :v e c t o rs p a c em o d e l ) ,文本的各級語言單 元被映射成n 維向量空間中的對應向量,而各個向量則通過文本中的 特征的重要度來形式化表達。值得注意的是,這里所談到的文本中的特 征既可以指文本中所包含的字、詞,也可以是更加復雜的特征,如概念、 句法結構等,至于具體選用什么樣的特征往往與實際的應用需求有關, 不可一概而論。 v s m 表示方法是在文本中提取其特征項組成特征向量,并以某種 方式為特征項賦權,如:文檔d 可表示成d ( t l ,1 2 ,t n ) ,其中t k 是 特征項,1 k n 。由于特征項的重要程度不同,可用附加權重w k 來進 行量化,這樣文檔d 可表示為d ( t l ,w 1 ;t 2 w 2 ;,t n ,w n ) ,簡記為 d ( w l ,w 2 ,w n ) 。這時說項t k 的權重為w k ,1 k n 。如果把t 1 , t 2 ,t n 看成是一個n 維坐標系,而w 1 ,w 2 ,w 。是相應的坐標值, 則d ( w 1 ,w 2 ,w n ) 被看成是n 維空間中的一個向量。稱d ( w l ,w 2 , w n ) 為文本d 的向量表示。 1 0 w l n ) d e ( w n ,w 強,w 知) 圖2 1 文本的向量空間表示 可以看出,對向量空間模型來說,有兩個基本問題:即特征項的選 擇和項的權重計算。 2 1 2 特征項選擇 用來表示文檔內(nèi)容的項可以是各種類別,對漢語來說,有字、詞、 短語,甚至是句子或句群等更高層次的單位。項也可以是相應詞或短語 的語義概念類。 項的選擇必須由處理速度、精度、存儲空間等方面的具體要求來決 定。特征項選取有幾個原則:一是應當選取包含語義信息較多,對文本 的表示能力較強的語言單位作為特征項;二是文本在這些特征項上的分 布應當有較為明顯的統(tǒng)計規(guī)律性,這樣將適用于信息檢索、文檔分類等 應用系統(tǒng);三是特征選取過程應該容易實現(xiàn),其時間和空間復雜度都不 太大。實際應用中常常采用字、詞或短語作為特征項。 2 1 3 特征項權重計算 對于特征項權重的計算,經(jīng)典的t f i d f 蚓方法考慮兩個因素:1 ) 詞 語頻率t f ( t e r mf r e q u e n c y ) ;詞語在文檔中出現(xiàn)的次數(shù):2 ) 詞語倒排文檔 頻率i d f ( i n v e r s ed o c u m e n tf r e q u e n c y ) :該詞語在文檔集合中分布情況的 一種量化,常用的計算方法是l o g :( 仇+ o 0 1 ) ,其中n 為文檔集合中 的文檔數(shù)目,i l k 為出現(xiàn)該詞語的文章數(shù)。 根據(jù)以上兩個因素,可以得出公式: = 吮l o 島( 心+ o 0 1 ) 其中伍k 為詞語t k 在文檔d 。中出現(xiàn)的次數(shù),w i k 為詞語t k 在文檔 d i 中的權值,k = l 2 n l ( m 為詞的個數(shù)) 。 為了計算方便,通常要對向量進行規(guī)一化,最后由: = 吮l 0 9 2 ( n n k + 0 0 1 ) ( 2 1 ) 以上公式的提出是基干這樣一個考慮:對區(qū)別文檔最有意義的特征 詞應該是那些在文檔中出現(xiàn)頻率足夠高恧在文檔集合中的其它文檔中 出現(xiàn)頻率足夠少的詞語。 2 1 4 文本間的相似度度量 向量空間模型中的另一個概念是相似度( s i m i l a r i t y ) :相似度 s i m ( d ,d 2 ) 用于度量兩個文檔d 。和d 2 之間的內(nèi)容相關程度。當文檔被 表示為文檔空間的向量,就可以利用向量之間的距離計算公式來表示文 檔間的相似度。常用的距離有向量的內(nèi)積距離: s i m ( d l ,d 2 ) = 。 = 1 s i r e ( d 1 ,d 2 ) = c o s 0 = 既; ( 2 2 ) ( 2 3 ) 將v s m 應用于不同的領域,其相似度的計算有所不同。例如,對于 信息檢索來講,v s m 采用向量間的某種距離度量來反應文本對查詢的滿 足程度。所有相似度的值最后能與真實情況相符,計算簡便,同時最好 能歸一化到 0 ,1 區(qū)間上,并且分布盡可能的均勻,使閾值的選擇容易 一些。 2 2 存在的問題 從向量空間模型的特點可以看出,在特征項確定的情況下,特征項 的權重計算是文檔分類的關鍵,特征項權重計算常用的方法有布爾函 數(shù)、開根號函數(shù)、對數(shù)函數(shù)、t f i d f 函數(shù)等,其中t f i d f 函數(shù)應用最 為廣泛,其基本思路是使用頻率因子t f ( t e r mf r e q u e n c y ) 進行特征項 的賦權,同時還要考慮文檔集因子i d f ( i n v e r s ed o c u m e n tf r e q u e n c y ) , 體現(xiàn)出查詢內(nèi)容與文檔的相關度大小,一般采用使用出現(xiàn)頻率的倒數(shù)來 計算,i d f = l o g ( 玎,) ,其中n 為文檔集合,n 。為查詢內(nèi)容在文檔中 出現(xiàn)的次數(shù),但是t f i d f 函數(shù)也存在缺點,它雖然考慮了出現(xiàn)特征項 的文本在整個文檔集中的比例,卻不能很好地把握特征項在文本集合中 分布的差異,所以影響了分類的最終效果。 v s m 的第一個問題是由于特征項在文檔中的不同位置會代表不同 的權重,而不同的關鍵詞長度也會影響權重的大小。例如“汽車修理” 一詞在查詢時,如果該詞出現(xiàn)在文檔的標題處,則其權重一定比出現(xiàn)在 文章的摘要中要高,而出現(xiàn)在摘要中的權重一定要比出現(xiàn)在正文中要 高;而且如果文檔d 1 的長度比文檔d 2 長,那么在d 2 中的權重也應該 比d 1 要高,其相似度也應該大一些,對于中文文檔,關鍵詞的長度越 長,則在文檔中出現(xiàn)的機率就越小,所以較長的關鍵詞要比較短的包含 更多的信息。在實際情況中,如果同一特征項在不同文檔中出現(xiàn)的次數(shù) 不同,那么在出現(xiàn)頻率較高的文檔中,其權重應該較高( 而不應該是統(tǒng) 一權重值“1 ”) ,在傳統(tǒng)的t f i d f 函數(shù)中,每增加一個文檔都要重新計 算向量,導致查詢速度降低,同時由于使用頻率因子,在擴大查詢范圍 時,不可避免的會影響到查詢的準確性。 v s m 的另一個問題在于查詢和文檔向量間是依靠鏈接來判斷的, 而且判斷的依據(jù)中簡單的兩者相同關鍵詞的比較,但實際情況是,大量 的關鍵詞具有相同的語義,同一關鍵詞也會有多種語義的解釋描述( 即 產(chǎn)生了語義分歧) 。例如“計算機”一詞,也可以是“電腦”、“微機” 等,對用戶來說所指的可能是一個意思,但在v s m 中這幾個詞是完全 不同的概念。 這里用改進的v s m 方法??梢钥闯?,傳統(tǒng)的v s m 主要的缺陷就 是特征項相互獨立的要求與自然語言多樣性的矛盾。實際上我們主要考 慮兩個方面的改進,一個是關鍵詞的長度和出現(xiàn)在文檔中的位置對權重 的影響;另一個就是要考慮關鍵詞的語義環(huán)境影響。 2 3 加權的v s m 算法改進 為了解決特征項在文本集合中分布的差異,提出改進的加權v s m 算法,公式如下: r ,、t f 矽。= 五i 二- _ + 1l + 衛(wèi)t f , x l o g0 ( 2 4 ) 。 一l n ,7 其中九為位置加權系數(shù),表示文本在文檔不同位置的加權處理參 數(shù),按照文本在文檔中的位置不同,一般分為標題、摘要、關鍵詞、正 文、結論和超鏈接等6 個位置,分別賦予不同的加權系數(shù),由于w e b 文 檔信息都是通過鏈接來完成的,w e b 上的各種標記和鏈接包含了頁面的 結構信息,應該給予足夠的重視和利用。 例如:在鏈接r s 中,r 的連接標記若為文檔d 錨文本 文檔d :其中錨文本對目標u r l = ” h t t p :w 哪c h i n a ”會有比較準確的描述,而文檔d ,d :就次之,所 以對于出現(xiàn)在錨文本和文檔d 。,d 。中的每一個特征項應賦于較高的權重 系數(shù)。 另外一個關鍵的加權位置在一些語義的重點語句位置,如“綜上所 述”、“結束語”、“主要在于”等關鍵語句中,其值可以從輔助主題詞表 中獲取( 具體解釋見后) 。一般位置加權系數(shù) 的計算可以考慮使用各 分部分的頻率與不同位置加權系數(shù)的乘積和來表示。 a = 璣+ 玩 + t f 2 如+ t f , 也+ 璣2 4 + 璣九 其中t f o 為對正文關鍵詞統(tǒng)計的詞頻數(shù);t f ,t f z ,t f 3 ,t f , ,t f s 別為標題、摘要、關鍵詞、超鏈接中的詞頻; 。, 。, 。,入。, s 分 別為其加權系數(shù)。 t f i 為特征項頻率;n 為總文檔數(shù)量;n ,為包含特征項w ,的文檔數(shù); 1 i 為文檔長度,使用一掣來表示文本能夠代表文檔內(nèi)容的能力,例如雖 然“計算機”一詞出現(xiàn)在文檔標題和正文中的頻率相同,但由于標題比 正文文檔長度要小的多,所以我們認為“計算機”一詞在標題中的權重 要比在正文中的權重要大的多。 1 4 第三章基于概念向量空間模型關鍵技術的研究 3 1 自動分詞技術的研究 機器不同于人,它不可能智能地讀懂文章內(nèi)容。當然,我們在讀文 章時,也是從組成這篇文章的基礎詞著手,明白各個句子的的含義,再 概括出各段落的大意,最后得出文章的中心思想。對一篇文章的處理, 我們先從自動分詞開始。下面,現(xiàn)介紹一下自動分詞的算法。 3 1 1 自動分詞算法 我們可以將現(xiàn)有的分詞算法分為三大類:基于字符串匹配的分詞方 法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。 1 、基于字符串匹配的分詞方法 這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢 字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某 個字符串,則匹配成功( 識別出一個詞) 。 按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹 配;按照不同長度優(yōu)先匹配的情況,可以分為最大( 最長) 匹配和最小 ( 最短) 匹配;按照是否與詞性標注過程相結合,又可以分為單純分詞 方法和分詞與標注相結合的一體化方法。常用的幾種機械分詞方法如 下; 1 ) 正向最大匹配 正向最大匹配法是最早提出的自動分詞方法,它的基本思想是先取 一句話的前六個字查字庫,若不是一個詞,則刪除六個字的最后一個字 再查,這樣一直查下去,至找到一個詞為止。句子剩余部分重復此工作, 直到把所有的詞都分出為止。 2 ) 逆向最
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學校派遣工管理制度
- 學校綠化員管理制度
- 學生星級化管理制度
- 學齡前培訓管理制度
- 安全注射室管理制度
- 安徽生育證管理制度
- 宏寶萊公司管理制度
- 實行項目庫管理制度
- 實驗室試樣管理制度
- 室內(nèi)籃球場管理制度
- 融媒體保密管理制度
- 2025江蘇揚州寶應縣“鄉(xiāng)村振興青年人才”招聘67人筆試參考題庫附答案詳解
- 2025年河南高考真題化學試題含答案
- 陜西省榆林市2023-2024學年高二下學期期末質量檢測政治試卷(含答案)
- 2025年高考全國二卷數(shù)學高考真題解析 含參考答案
- 2025年普通高等學校招生全國統(tǒng)一考試數(shù)學試題(全國一卷)(有解析)
- 2025年山西焦煤集團公司招聘筆試參考題庫含答案解析
- 【MOOC】生理學-中南大學 中國大學慕課MOOC答案
- 2024年浙江省中考數(shù)學試題及答案
- MOOC 醫(yī)事法學-西南醫(yī)科大學 中國大學慕課答案
- 綜合布線報價清單范本
評論
0/150
提交評論