中文信息處理與漢語研究—— 現(xiàn)狀和發(fā)展_第1頁(yè)
中文信息處理與漢語研究—— 現(xiàn)狀和發(fā)展_第2頁(yè)
中文信息處理與漢語研究—— 現(xiàn)狀和發(fā)展_第3頁(yè)
中文信息處理與漢語研究—— 現(xiàn)狀和發(fā)展_第4頁(yè)
中文信息處理與漢語研究—— 現(xiàn)狀和發(fā)展_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、中文信息處理與漢語研究 現(xiàn)狀和發(fā)展全國(guó)語言文字信息化工作會(huì)議 湖南 長(zhǎng)沙 2003.10.5 - 10.6 1提 綱中文信息處理研究的格局中文信息處理的現(xiàn)狀和發(fā)展趨勢(shì)語言知識(shí)資源的建設(shè)面向中文信息處理的漢語研究2一 中文信息處理研究的格局信息的兩個(gè)層次:符號(hào)層 中文 / 漢語 / 漢字內(nèi)容層 符號(hào)所承載的意義中文信息處理的兩個(gè)層次:字符處理(輸入、存儲(chǔ)、輸出等)內(nèi)容處理(詞語切分,詞性標(biāo)注,結(jié)構(gòu)分析,意義理解,推理,翻譯等等)(信號(hào) vs. 信息)3符號(hào)層的信息處理拼音文字:小字符集 比較容易非拼音文字:大字符集 難度很大漢字是一個(gè)大字符集說文解字(東漢):9353字玉篇(南朝)收錄16,91

2、7字廣韻(宋代)收字26,194字字匯(明朝)收錄33,197字康熙字典(清朝)收錄47,043字漢語大字典(1992年)5.6萬中華字海( 1994年) 8.6萬 拉丁字母只有26個(gè)符號(hào) 斯拉夫字母只有33個(gè)符號(hào) 阿爾明尼亞字母只有38個(gè)符號(hào) 泰米爾字母只有36個(gè)符號(hào) 緬甸字母只有52個(gè)符號(hào) 泰文字母只有44個(gè)符號(hào) 老撾字母只有27個(gè)符號(hào) 藏文字母只有35個(gè)符號(hào) 韓文字母只有24個(gè)符號(hào) 日文假名只有48個(gè)符號(hào)4符號(hào)層的信息處理漢字輸入自動(dòng)輸入鍵盤輸入字形識(shí)別聲音識(shí)別手寫體識(shí)別印刷體識(shí)別在線手寫脫機(jī)手寫整字鍵盤通用鍵盤主輔式感應(yīng)式形碼音碼形音結(jié)合碼1234567895內(nèi)容層的信息處理形態(tài)豐富的

3、語言(inflecting language):處理難形態(tài)不豐富的語言(analytic language):處理更難漢語英語老師都來了All professors came here.張老師都來了Even Professor Zhang came here.編輯工作很難Editing is very difficult.如何當(dāng)好編輯How to become a good editor6內(nèi)容層的信息處理原文原文輸入譯前編輯詞法分析句法分析語義分析語境分析內(nèi)部表示轉(zhuǎn)換譯詞選擇譯后編輯譯文輸出詞形變化句子生成譯文123456789101112機(jī)器翻譯全過程 需要語言知識(shí)!7內(nèi)容層處理對(duì)符號(hào)層處理

4、的反作用拼音串(無聲調(diào))xue xi dian nao ji shu候選字串雪 系 點(diǎn) 腦 機(jī) 樹共有149841151676895.8億種可能性學(xué) 洗 電 鬧 給 述學(xué) 西 顛 撓 記 書候選詞串學(xué)習(xí) 電腦 級(jí)數(shù)共有21714種可能性血洗 電腦 奇數(shù)血洗 電腦 基數(shù)正確文字串學(xué)習(xí)電腦技術(shù)8內(nèi)容層處理對(duì)符號(hào)層處理的反作用拼音串(無聲調(diào))xue xi dian nao ji shu候選字串雪 系 點(diǎn) 腦 機(jī) 樹共有149841151676895.8億種可能性學(xué) 洗 電 鬧 給 述學(xué) 西 顛 撓 記 書候選詞串學(xué)習(xí) 電腦 級(jí)數(shù)共有21714種可能性血洗 電腦 奇數(shù)血洗 電腦 基數(shù)正確文字串學(xué)習(xí)電腦

5、技術(shù)9內(nèi)容層處理對(duì)符號(hào)層處理的反作用拼音串(無聲調(diào))xue xi dian nao ji shu候選字串雪 系 點(diǎn) 腦 機(jī) 樹共有149841151676895.8億種可能性學(xué) 洗 電 鬧 給 述學(xué) 西 顛 撓 記 書候選詞串學(xué)習(xí) 電腦 級(jí)數(shù)共有21714種可能性血洗 電腦 奇數(shù)血洗 電腦 基數(shù)正確文字串學(xué)習(xí)電腦技術(shù)10內(nèi)容層處理對(duì)符號(hào)層處理的反作用拼音串(無聲調(diào))xue xi dian nao ji shu候選字串雪 系 點(diǎn) 腦 機(jī) 樹共有149841151676895.8億種可能性學(xué) 洗 電 鬧 給 述學(xué) 西 顛 撓 記 書候選詞串學(xué)習(xí) 電腦 級(jí)數(shù)共有21714種可能性血洗 電腦 奇數(shù)血洗

6、 電腦 基數(shù)正確文字串學(xué)習(xí)電腦技術(shù)11二 中文信息處理的現(xiàn)狀和發(fā)展趨勢(shì)現(xiàn)狀符號(hào)層的處理成果已經(jīng)得到廣泛應(yīng)用;中文輸入/字庫(kù)/字處理軟件/排版/內(nèi)容層的處理目前在詞語識(shí)別和詞性標(biāo)注方面已經(jīng)取得重要進(jìn)展,句子結(jié)構(gòu)分析和語義分析方面仍有待探索12系統(tǒng)演示北京大學(xué)現(xiàn)代漢語分詞/詞性標(biāo)注/句法分析系統(tǒng)(孫斌、劉群、常寶寶、詹衛(wèi)東等) (北大計(jì)算語言所網(wǎng)上分詞、標(biāo)注、注音系統(tǒng))13中文信息處理的發(fā)展趨勢(shì)發(fā)展趨勢(shì)信息產(chǎn)品的多樣化網(wǎng)絡(luò)的迅速發(fā)展積累更多基礎(chǔ)資源,開發(fā)更多應(yīng)用系統(tǒng)。內(nèi)容層的處理將受到越來越多的重視信息家電,內(nèi)容計(jì)算,14三 語言知識(shí)資源的建設(shè)現(xiàn)代漢語語法信息詞典基于配價(jià)理論的現(xiàn)代漢語語義詞典現(xiàn)代

7、漢語短語結(jié)構(gòu)信息庫(kù)2700萬字現(xiàn)代漢語分詞與詞性標(biāo)注語料庫(kù)句子對(duì)齊的漢英雙語語料庫(kù)現(xiàn)代漢語樹庫(kù)現(xiàn)代漢語短語結(jié)構(gòu)規(guī)則庫(kù)15資源演示現(xiàn)代漢語語義詞典(詹衛(wèi)東、王惠等)漢英平行語料庫(kù)(常寶寶、柏曉靜等)現(xiàn)代漢語樹庫(kù)(詹衛(wèi)東、常寶寶等)16四 面向中文信息處理的語言學(xué)研究充分重視各個(gè)層次上的語言歧義研究拓展語言現(xiàn)象的研究面強(qiáng)調(diào)研究結(jié)果的可操作性,推動(dòng)語言知識(shí)的形式化、系統(tǒng)化和規(guī)?;?加強(qiáng)語言知識(shí)庫(kù)的工程建設(shè),為中文信息處理(內(nèi)容層的處理)積累更多基礎(chǔ)資源17歧義示例張 店 區(qū) 大 學(xué) 生 不 看 重 大 城 市 戶 口 張店區(qū) 大學(xué)生 不 看 重大 城市 戶口 張店區(qū) 大學(xué)生 不 看重 大 城市 戶口

8、18歧義示例(續(xù))有三百多種樹vmcpqnmpnpvpnpvp有三百多種樹vmcpvnvpvpnpvpvpvp有 三 百 多 種 樹 v m m m q/v n有 三 百 多 種 樹19歧義示例(續(xù))請(qǐng) 轉(zhuǎn)告 李宇明 司長(zhǎng) 下午 三點(diǎn) 出發(fā) v v n n t t v請(qǐng)轉(zhuǎn)告李宇明 司長(zhǎng)下午三點(diǎn)出發(fā)請(qǐng)轉(zhuǎn)告李宇明司長(zhǎng) 下午三點(diǎn)出發(fā)20要讓計(jì)算機(jī)“理解”一個(gè)句子,實(shí)際上要解決下面兩個(gè)核心問題:(1)一個(gè)句子的結(jié)構(gòu)和意義是什么?(2)如何得到一個(gè)句子的結(jié)構(gòu)和意義? 第一個(gè)問題是“What”的問題,這是理論語言學(xué)關(guān)心的問題;第二個(gè)問題是“How”的問題,這是計(jì)算語言學(xué)關(guān)心的問題,也就是面向中文信息處理的

9、語言研究需要關(guān)心的問題。結(jié) 語21參考文獻(xiàn)慈林林 魯元魁,1999,中文信息處理新技術(shù)展望,計(jì)算機(jī)世界1999年第44期“產(chǎn)品與技術(shù)”版“專題報(bào)道”。劉夢(mèng)松,1998,中文信息處理軟件概述,計(jì)算機(jī)世界1998年第26期“技術(shù)專題”版。許嘉璐,2002,現(xiàn)狀和設(shè)想 試論中文信息處理與現(xiàn)代漢語研究,中國(guó)語文2000年第6期。俞士汶,朱學(xué)鋒,2002,關(guān)于漢語信息處理的認(rèn)識(shí)及其研究方略,語言文字應(yīng)用2002年第3期。俞士汶,朱學(xué)鋒,王惠,2001,的新進(jìn)展,中文信息學(xué)報(bào)2001年第1期。詹衛(wèi)東,常寶寶,俞士汶,2002,機(jī)器翻譯與語言研究,語言科學(xué)2002年第1期(創(chuàng)刊號(hào))。詹衛(wèi)東,2000, 80年

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論