廣義虛詞知識庫的建設-畢業(yè)論文-_第1頁
廣義虛詞知識庫的建設-畢業(yè)論文-_第2頁
廣義虛詞知識庫的建設-畢業(yè)論文-_第3頁
廣義虛詞知識庫的建設-畢業(yè)論文-_第4頁
廣義虛詞知識庫的建設-畢業(yè)論文-_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

廣義虛詞知識庫與漢語理解研究俞士汶

朱學鋒

劉云北京大學計算語言學研究所Email:

yusw@2007年2月1日,

云南西雙版納第十一屆全國少數民族語言文字信息處理學術研討會特邀報告973課題“文本內容理解的數據基礎(2004CB318102)”主要內容北京大學計算語言學研究所虛詞對語言理解的影響漢語中的虛詞漢語自動分析中的虛詞廣義虛詞知識庫的建設結語與致謝主要內容北京大學計算語言學研究所虛詞對語言理解的影響漢語中的虛詞漢語自動分析中的虛詞廣義虛詞知識庫的建設結語與致謝關于

“語言”英國《新科學家》周刊2005年4月9日的文章——生命進化的十大奇跡:腦(第3項)和語言(第4項)腦常常被視作進化過程中的最高成就,因為它賦予了人類一些高級特征,例如

語言、智慧、意識。語言是進化的終極發(fā)明。在令人類區(qū)別于動物的特征中,語言處于核心地位。語言也許稱得上是人類的決定性特征之一。我們的祖先如何實現(xiàn)了語言從無到有的飛躍,這也許是科學史上最大的謎。語言是生物進化的最后一筆。這是因為語言令那些掌握了它的動物超越了純生物的范疇。語言系統(tǒng)是動物進化到人的兩大標志之一。人類語言系統(tǒng)的特征:豐富的詞匯、復雜的結構、北京大學計算語言學虛研究詞所的作用文本內容理解與其他數字內容理解的關系北京大學計算語言學研究所嬰兒學習語言離不開對母親(包括家人)的心率、體溫、聲音、形象、動作的感知。人閱讀文本時,語音、影像、經驗對文本理解有著不可分離的巨大作用。文本中的插圖對文本理解也有輔助作用。甚至一張照片所講的故事勝過千言萬語。文本可以超越時空的局限準確地傳達信息(口說無憑,以書為證),記錄邏輯思維產生的創(chuàng)造性成果。戲劇、影視、歌曲等藝術形式的傳情達意也離不開語言(戲文、歌詞、對白)、文字的幫助。多數樂曲的標題、繪畫的題詞對這些藝術的理解有相當明顯的啟示作用。文本內容理解是其他形式的數字內容理解的子課題。文本內容理解和其他數字形式的信息理解需要相互融合。文本內容理解的數據基礎圖像序列內容理解口語化語音信息的分析與識別多源感知信息的融合多媒體信息檢索大規(guī)模文本內容計算北京大學計算語言學研究所在其他信息傳播形式中,言簡意賅的文字往往能起到畫龍點睛的作用鳳凰衛(wèi)視中文臺(2005-7-29)介紹了美國的一幅漫畫————一美元紙幣上的華盛頓頭像扭頭瞧著紙幣左半邊的一行字:“Made

in

China”,一臉無可奈何的表情。一個實例關于自動升降晾衣架的對話妻子:“嘿,過了一年才壞?!闭煞颍骸笆裁囱剑乓荒昃蛪牧恕!闭煞蚶斫饬似拮拥囊馑紗??——背景知識:保修期——知識激活機制?——虛詞詞義:才(數量詞前后,意義不同)北京大學計算語言學研究所虛詞對語義的影響主要內容北京大學計算語言學研究所虛詞對語言理解的影響漢語中的虛詞漢語自動分析中的虛詞廣義虛詞知識庫的建設結語與致謝虛詞不是內容詞,而是功能詞。

虛詞不能充任漢語主要句法結構中的句法成分:主語、謂語、述語、賓語、補語,定語、狀語、中心語。

虛詞對于語句、會話、篇章的完整結構(也是句法功能)和意義的表達卻是不可缺少的。

漢語是典型的分析語,虛詞在漢語中的語法作用不同于屈折語的英語、俄語和黏著語的日語。虛詞研究一直是漢語語法研究的重要組成部分。虛詞基本上是封閉的,詞典中的虛詞數量有限。北京大學計算語言學研究所2.

漢語中的虛詞(1)新的虛詞產生的速度遠遠比不上新的實詞。

盡管詞典中虛詞的數量有限(靜態(tài)出現(xiàn)),但在真實文本中單個虛詞的平均頻度(動態(tài)出現(xiàn))遠遠高于單個實詞的平均頻度。而且虛詞是通用的高頻詞。

虛詞的個性比實詞顯著。助詞是最典型的虛詞,數量很少。同屬助詞的“的”、“得”、“著”、

“了”、“過”、“所”幾乎沒有什么共同的語

法屬性。面向語言信息處理,有必要加大對虛詞研究的力度,有必要建立“廣義虛詞知識庫”。北京大學計算語言學研究所2.

漢語中的虛詞(2)主要內容北京大學計算語言學研究所虛詞對語言理解的影響漢語中的虛詞漢語自動分析中的虛詞廣義虛詞知識庫的建設結語與致謝虛詞的辨析——從文本中識別虛詞——分析線索神經緊張得到了崩潰的程度。神經緊張得到了緩解。漢語自動分析中的虛詞(1)北京大學計算語言學研究所虛詞的句法語義功能及其表述《現(xiàn)代漢語語法信息詞典》依托詞組本位語法體系《現(xiàn)代漢語語義詞典》采用“廣義配價模式”“的”接在動詞后面構成的“的”字結構,體詞性的,功能:可以作定語修飾名詞,即形成“動詞+‘的’+名詞”結構;代替名詞,即可以出現(xiàn)在主賓語的位置上。自指意義,只能出現(xiàn)于(1):“駕駛的技術”,“走的姿勢”轉指意義,可以出現(xiàn)于(2):“走的出發(fā)了”,“有吃的還要進一步給出“動詞+‘的’”表示自指或轉指的條件。配價信息:“走”主體應該是人,“吃”的客體是食物?!凹夹g”、“姿勢”分別是“駕駛”、“走”這些動作或行為本身的屬性,只是自指。虛詞北(京“大的學計”算)語言的學句研法究所語義信息ht不tp:是//能i能cl夠.pk孤u.立e立du描.cn述的,漢語自動分析中的虛詞(2)虛詞的隱現(xiàn)與冗余分配學生一個任務。接受老師一個任務。等價于給學生分配一個任務。從老師(那里)接受一個任務。“的”的作用*分配學生的一個任務。接受老師的一個任務。北京大學計算語言學研究所漢語自動分析中的虛詞(3)主要內容北京大學計算語言學研究所虛詞對語言理解的影響漢語中的虛詞漢語自動分析中的虛詞廣義虛詞知識庫的建設結語與致謝關于一般的自然語言處理系統(tǒng)語言知識庫應用程序---------

---語言知識庫是自然語言處理系統(tǒng)不可或缺的組成部分,語言知識庫的規(guī)模和質量在很大程度上決定了自然語言處理系統(tǒng)的成敗。面向自然語言處理的語言知識庫對語言本體研究和語言教學也有重要意義。自然語言處理系統(tǒng)NLP是世界性難題……北京大學計算語言學研究所語言知識庫與應用系統(tǒng)在語言知識庫搭建的平臺上可以上演威武雄壯生動活潑的應用系統(tǒng)的劇目語言知識庫1語言知識庫2語言知識庫3語言知識庫4……平臺/API……應用程序1北京大學計算語言學研究所應用程序2呂叔湘:“有了形態(tài)變化,語法分析就比較容易進行。沒有嚴格的形態(tài)變化,在語法分析上就比較容易引起問題?!睗h語缺乏形態(tài)變化,缺乏形式標記,自動分析也就缺少可以把握的線索。漢語自動分析如果不比其他的語言更困難,至少不會比其他的語言更容易。漢語信息處理尤其需要大規(guī)模的高質量的語言知識庫的支持。北京大學計算語言學研究所書面漢語特點及其對信息處理的影響北大開發(fā)的現(xiàn)代漢語語言知識庫北京大學計算語言學研究所現(xiàn)代漢語語法信息詞典(8萬詞語)大規(guī)?,F(xiàn)代漢語基本標注語料庫(6000多萬漢字)面向漢英機器翻譯的現(xiàn)代漢語語義詞典(6萬)面向跨語言文本處理的中文概念詞典(10萬概念)句子對齊的雙語語料庫(80萬句對)多個專業(yè)領域的術語庫(35萬術語)現(xiàn)代漢語短語結構規(guī)則庫(600條規(guī)則)用于語言知識庫開發(fā)的各種工具軟件規(guī)模大、種類多、質量上乘,已產生廣泛影響,仍期待發(fā)展與合作虛詞知識庫還是一個空缺“廣義虛詞”之所指《現(xiàn)代漢語語法信息詞典》中的全部虛詞副詞方位詞:“上”、“下”、“中”、“里”┄┄量詞:“個”代詞部分動詞形式動詞

助動詞

補語動詞

趨向動詞形式名詞北京大學計算語言學研究所廣義虛詞知識庫(1)“廣義虛詞知識庫”的主要內容確認每一個廣義虛詞的各個功能語義項ID副詞“都”有3個ID:“總括全部”、“甚至”、

“已經”對每一個ID

,建立判別條件“都”之“總括全部”:表示復數的主語,后面的動詞常是肯定式“甚至”:后面的動詞常是否定式“已經”:句末常有語氣詞“了”虛詞隱現(xiàn)、冗余的條件描述錯誤例句分析北京大學計算語言學研究所廣義虛詞知識庫(2)“廣義虛詞知識庫”的構成一部富含句法、語義信息的虛詞機器詞典(靜態(tài)信息);標注了每個虛詞的確定ID及確定屬性信息的語料庫(訓練語料);基于(1)和(2),抽象出來的(真實語料中)一套虛詞ID以及確定屬性的判別規(guī)則北京大學計算語言學研究所廣義虛詞知識庫(3)“廣義虛詞知識庫”的發(fā)展軌跡2002年俞士汶提出“廣義虛詞知識庫”的建設任務俞士汶、朱學鋒、劉云.《現(xiàn)代漢語廣義虛詞知識庫的建設》第二屆肯特崗漢語語言學圓桌會議(新加坡),2002年11月27日又刊載于《漢語語言與計算學報》,2003年3月,第13卷1期,89-982003年俞士汶、朱學鋒、劉云.《虛詞與漢語理解研究》“第四屆詞匯語義學網絡研討會”,2003年6月23日至7月25日,香港城市大學主辦2004年-2005年

863

中文信息處理應用基礎研究之子課題“廣義虛詞知識庫的建設”劉云(2002年7月-2004年9月,博士后,華中師范大學)主持,重點研究

表征復句關系之虛詞彭爽(2004年7月-2006年3月,博士后,吉林師范大學)重點研究

介詞2004年-2009年973課題“文本內容理解的數據基礎(2004CB318102)之子任務昝紅英(鄭州大學)重點研究

方位詞、副詞等并負責集成北京大學計算語言學研究所廣義虛詞知識庫(4)主要內容北京大學計算語言學研究所虛詞對語言理解的影響漢語中的虛詞漢語自動分析中的虛詞廣義虛詞知識庫的建設結

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論