魯東大學中文信息處理復習資料_第1頁
魯東大學中文信息處理復習資料_第2頁
魯東大學中文信息處理復習資料_第3頁
魯東大學中文信息處理復習資料_第4頁
魯東大學中文信息處理復習資料_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 中文信息處理復習資料一、 填空什么是中文信息處理?它的特點是什么?是語言信息處理的一個重要組成部分,是計算機對語言音、形、義進行處理的學科。它的特點是:1. 漢字的特殊性2. 書面漢語的特殊性3. 漢語語音的特殊性4. 漢語語法的特殊性漢字屬性信息字量、字頻、字序、字形、字音現(xiàn)代漢語用字排列的順序1. 意序法2. 音序法3. 形序法漢字編碼的類型、誤區(qū)、原則是什么?類型:形碼、音碼、音形碼誤區(qū):1.重碼率越低越好 2.速度越快越好 3.詞庫越大越好原則:1.社會學原則 2.文字學原則 3.工程學原則漢字輸出的方式:顯示、打印、語音合成、通信傳輸什么是自動分詞?方法是什么?從漢語信息處理需要出

2、發(fā),由計算機輸入的文本按分詞單位進行劃分,并打上切分標記。方法:1.機械匹配 2.基于統(tǒng)計 3.基于理解最大匹配法:MM法,(最少分詞法),長詞優(yōu)先的原則。最大概率法:一種基于統(tǒng)計的分詞方法?;舅悸罚阂粋€字串有多種切分方式,在對應于多個字串時,通過計算挑選出概率最大的詞串作為切分結果。語言學史上第一個較大語料庫是什么?英語用法調查語料庫什么叫計算機輔助教學?它的教學理論是什么?計算機輔助教學也叫程序教學,簡稱CAI,是一種現(xiàn)代化的教學手段,指采用計算機協(xié)助教學,由計算機充當老師,對學生提問,分析學生作業(yè),肯定學生成績,糾正學生錯誤,幫助學生自學。教學理論:1.行為主義理論 2.認知理論 3.

3、語言教學理論什么是自然語言理解?又叫人機對話,研究如何讓計算機運用人類自然語言,使得計算機懂的自然語言的涵義,并對人給計算機提出的問題,運用對話的方式,用自然語言進行回答,包括:查詢資料、解答問題、摘錄文獻、匯編資料等一些語言加工問題的處理。中文信息處理的基礎研究包括:語法結構、語義系統(tǒng)、概念系統(tǒng)語言知識的形式化表達的三種手段:形式語法、狀態(tài)轉移網(wǎng)絡、特征結構合一什么叫格語法?美國語言學家菲爾莫在60年代中著重探討語法結構與語義結構之間關系的一種語法學和語義學理論。它由三部分組成:基本規(guī)則、詞匯部分、轉化部分二、 判斷漢字結構方式有哪兩種?平面分析法、層次分析法什么是漢字的語音輸入?通過說和聽

4、來和計算機交換信息,利用聲音識別技術,抽取語音特征,實現(xiàn)對語音的自動識別。什么是語料庫?廣義的指任何人出于目的對收集的材料的集合。狹義的指按照一定語言學原則,運用隨機抽樣的方式,收集自然出現(xiàn)的連續(xù)的語言運用文本或話語片斷而建成的具有一定容量的大型電子文庫。什么是語料庫語言學?1,根據(jù)篇章材料對語言的研究稱為語料庫語言學2.一現(xiàn)實生活中人們運用語言的實例為基礎進行的語言研究稱為語料庫語言學3.以語料為語言描寫起點,或以語料為驗證語言假說的方法稱為語料庫語言學三、簡答漢字輸入的方法類型?1. 漢字字形識別輸入2. 漢字語音識別輸入3. 漢字編碼鍵盤輸入漢字義類信息庫收字立條原則一字一條原則一義一條

5、原則義項與詞性相結合原則補充原則詞頻統(tǒng)計的方法與意義?方法:抽樣一定數(shù)量的語料,計算其中各個不同詞語出現(xiàn)的次數(shù)。依靠定量分析計算機統(tǒng)計意義:1.是語言教學中課本編制的基本依據(jù) 2.是語言信息處理中為詞語的分級、詞表詞庫的簡歷提供基本依據(jù) 3.為一定的語言工程奠定初步基礎 4.可以了解詞匯的歷史變化。地區(qū)分布差異、甚至可以從詞匯的統(tǒng)計中研究了解社會的變化漢語統(tǒng)計面臨的三大難題1. 字形信息與語音信息有不同的處理技術要求2. 詞的劃分3. 如何區(qū)分同音詞漢語分詞的基本標準?1. 結構標準:詞和短語劃分主要用擴展法2. 語義標準:看一個結構體的整體意義是否等于部分意義之和3. 音節(jié)標準:現(xiàn)代漢語具有

6、雙音化傾向,因此凡是雙音節(jié)的組合都可寬容地看作是同一個詞,而三音節(jié)或多音節(jié)的則要謹慎4. 頻度標準:人們對詞的使用次數(shù)詞性標注的意義?1. 確定詞的語法功能2. 便于詞性標注語料庫中檢索句法結構3. 為同音字標注,多音字標注和詞義標注提供支持電子詞典的類型和收詞原則?類型:1.按用途分:標注詞典 知識詞典 綜合詞典 2.按內容分:語法詞典 語義詞典 百科知識詞典原則:規(guī)范原則、高頻原則、穩(wěn)定原則、針對性原則、能產原則、語法義項原則、實用原則語料庫的設計原則和選樣原則?設計原則:通用性原則、描述性原則、實用性原則、抽樣原則選樣原則:廣泛性、代表性、平衡性、規(guī)范性。完整性、語料的時代性應有反映什么

7、是樹庫?一種經過了結構標注的語料庫。樹庫的作用?1. 它為基于統(tǒng)計的自動句法分析器提供必要的訓練數(shù)據(jù)和統(tǒng)一的測試平臺2. 它為漢語句法學研究提供真實文本標注素材3. 它是進一步進行句子內部的詞語義項和語義關系標注的基礎知網(wǎng)的特色?1.不是一個在線的詞匯數(shù)據(jù)庫2.所描述的不僅包含同類概念之間的關系,還包含非同類概念間的關系。3.對個別概念進行靜態(tài)的、孤立的描述,最終形成動態(tài)的、相關的知識網(wǎng)。機器翻譯的過程?原文、原文輸入、譯前編輯、詞法分析、句法分析、語義分析、語境分析、內部表示轉換、譯詞選擇、句子生成、詞形變化、譯后編輯、譯文輸出、譯文基于實例的機器翻譯研究的問題?1 正確的進行雙語自動對齊2

8、 建立有效的實例匹配檢索機制3 根據(jù)檢索到的實例生成與原語言句子相對應的譯文短語結構語法的喬姆斯基分類?1. 無約束短語結構語法2. 上下文有關語法3. 上下文無關語法4. 正則語法四、 分析語義角色1. 主體:施事、當事、指事、領事2. 客體:受事、客事、成果、與事3. 系屬:系事、喻事、屬事、分事4. 關涉:同事、參照、范圍、限定5. 因果:原因、依據(jù)、目的、結果6. 情形:方式、工具。程度、數(shù)量7. 時況:時間、期間、久暫、頻度8. 空間:路途、起源、處所、趨向五、論述中文信息處理與漢字語言學的區(qū)別?1.從研究對象來看:中文信息處理包括對所有少數(shù)民族語言的研究,而漢語語言學只研究漢語。2.從研究目標來看:前者要研究出計算機處理大規(guī)模真實的中文信息的理論方法和工具,后者則揭示漢語的結構規(guī)律和運用方式,進而探索人類運用漢語的能力。3.從研究手段來看:前者是實驗性科學,后者是理解性研究。4.從研究方法來看:前者是基于理解和統(tǒng)計的方法,后者是基于描寫觀察和解釋?;诮y(tǒng)計的標注法的局限性?1.難以處理長距離依賴現(xiàn)象2.總是忽略小概率現(xiàn)象3.得出結果的不確定性,給統(tǒng)計方法的改進帶來一定困難語料庫產生原因及理論性意義?產生原因:1.傳統(tǒng)語言學研究的落后性是語料庫語言學產生的內在動力 2.計算機的運行速度和儲存容量的大幅增長是語料庫語言學產生的物質條件 3.語言

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論