版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第六章中文信息處理概述1感謝你的觀賞2019-8-15第六章中文信息處理概述1感謝你的觀賞2019-8-15一、中文信息處理《計算機科學(xué)技術(shù)百科全書》(清華大學(xué)出版社,1998)中文信息處理是用計算機對漢語的音、形、義等語言文字信息進行的加工和操作,包括對字、詞、短語、句、篇章的輸入、輸出、識別、轉(zhuǎn)換、壓縮、存儲、檢索、分析、理解和生成等各方面的處理技術(shù)。中文信息處理分為漢字信息處理與漢語信息處理兩部分中文信息處理是自然語言信息處理的一個分支,是一門與計算機科學(xué)、語言學(xué)、數(shù)學(xué)、信息學(xué)、聲學(xué)等多種學(xué)科相關(guān)聯(lián)的綜合性學(xué)科。2感謝你的觀賞2019-8-15一、中文信息處理《計算機科學(xué)技術(shù)百科全書》(清華大學(xué)出版社,參考文獻《中文信息處理技術(shù)——原理與應(yīng)用》,李寶安等,清華大學(xué)出版社,2005年7月第1版《中文信息處理技術(shù)教程》,朱巧明,清華大學(xué)出版社,2005年版《計算語言學(xué)概論》,俞士汶主編,商務(wù)印書館,2003年9月第1版《計算語言學(xué)》,劉穎,清華大學(xué)出版社,2002年版中國語言文字網(wǎng)/3感謝你的觀賞2019-8-15參考文獻《中文信息處理技術(shù)——原理與應(yīng)用》,李寶安等,清華大4感謝你的觀賞2019-8-154感謝你的觀賞2019-8-15中文信息處理中文信息處理分為漢字信息處理與漢語信息處理兩部分信息的兩個層次:
符號層——
中文/漢語/漢字
內(nèi)容層——
符號所承載的意義
中文信息處理的兩個層次:
字符處理(輸入、存儲、輸出等)
內(nèi)容處理(詞語切分,詞性標(biāo)注,結(jié)構(gòu)分析,意義理解,推理,翻譯……等等)5感謝你的觀賞2019-8-15中文信息處理中文信息處理分為漢字信息處理與漢語信息處理兩部分符號層的信息處理拼音文字:小字符集——
比較容易非拼音文字:大字符集——
難度很大漢字是一個大字符集《說文解字》(東漢):9353字《玉篇》(南朝)收錄16,917字《廣韻》(宋代)收字26,194字《字匯》(明朝)收錄33,197字《康熙字典》(清朝)收錄47,043字《漢語大字典》(1992年)5.6萬《中華字?!罚?994年)8.6萬拉丁字母只有26個符號斯拉夫字母只有33個符號阿爾明尼亞字母只有38個符號泰米爾字母只有36個符號緬甸字母只有52個符號泰文字母只有44個符號老撾字母只有27個符號藏文字母只有35個符號韓文字母只有24個符號日文假名只有48個符號6感謝你的觀賞2019-8-15符號層的信息處理拼音文字:小字符集——比較容易漢字是一個符號層的信息處理漢字輸入自動輸入鍵盤輸入字形識別聲音識別手寫體識別印刷體識別在線手寫脫機手寫整字鍵盤通用鍵盤主輔式感應(yīng)式形碼音碼形音結(jié)合碼1234567897感謝你的觀賞2019-8-15符號層的信息處理漢字輸入自動輸入鍵盤輸入字形識別聲音識別手寫內(nèi)容層的信息處理原文原文輸入譯前編輯詞法分析句法分析語義分析語境分析內(nèi)部表示轉(zhuǎn)換譯詞選擇譯后編輯譯文輸出詞形變化句子生成譯文123456789101112機器翻譯全過程
需要語言知識
?。。?感謝你的觀賞2019-8-15內(nèi)容層的信息處理原文原文輸入譯前編輯詞法分析句法分析語義分析中文信息處理的現(xiàn)狀和發(fā)展趨勢現(xiàn)狀
符號層的處理成果已經(jīng)得到廣泛應(yīng)用;
中文輸入/字庫/字處理軟件/排版/……
內(nèi)容層的處理目前在詞語識別和詞性標(biāo)注方面已經(jīng)取得重要進展,句子結(jié)構(gòu)分析和語義分析方面仍有待探索9感謝你的觀賞2019-8-15中文信息處理的現(xiàn)狀和發(fā)展趨勢現(xiàn)狀
符號層的處理成果已經(jīng)得到廣二、文字信息處理的基本問題文字信息的計算機處理過程要用計算機來處理文字,必須解決如何把文字輸入計算機并在計算機中存儲起來,進行適當(dāng)處理之后再輸出文字等問題。文字信息的輸入文字信息的處理文字信息的輸出10感謝你的觀賞2019-8-15二、文字信息處理的基本問題文字信息的計算機處理過程文字信息的二、文字信息處理的基本問題文字信息處理的實質(zhì),是先把文字信息數(shù)字化,即用一個固定的數(shù)碼代表一個字母或文字。在英文信息中,以26個字母作為文字信息處理的單位,因此要對26個字母逐個地確定代替它的數(shù)碼。漢字一般是以一個整字作為文字信息處理的單位,因此要對每一個整字惟一地確定代表它的數(shù)碼。這一數(shù)碼統(tǒng)稱為代碼(code)在計算機內(nèi)部處理文字信息時,就像處理數(shù)據(jù)一樣對待。處理完畢后,再把替代的數(shù)碼還原成相應(yīng)的字母或文字。利用計算機能夠調(diào)整處理數(shù)據(jù)的性能,使文字信息處理也能夠分享計算機技術(shù)的這一獨特優(yōu)點,從而實現(xiàn)文字信息處理的高效化。11感謝你的觀賞2019-8-15二、文字信息處理的基本問題文字信息處理的實質(zhì),是先把文字信息二、文字信息處理的基本問題英文字符的編碼標(biāo)準(zhǔn)是ASCII碼,即美國信息交換標(biāo)準(zhǔn)代碼。這是七位的二進制代碼,它是美國國家標(biāo)準(zhǔn)學(xué)會(ANSI)為計算機的信息交換提出的標(biāo)準(zhǔn),后來由國際標(biāo)準(zhǔn)組織(ISO)確定為國際標(biāo)準(zhǔn)字符編碼。為了和國際標(biāo)準(zhǔn)兼容,我國根據(jù)它制定了英文字符編碼國家標(biāo)準(zhǔn),即GB1988。其中除了將貨幣符號置換為人民幣符號外,其他都與ASCII碼相同。12感謝你的觀賞2019-8-15二、文字信息處理的基本問題英文字符的編碼標(biāo)準(zhǔn)是ASCII碼,計算機的鍵盤原本就是為英文輸入設(shè)計的,只要按照字母擊鍵,就可以輸入英文。鍵盤的譯碼電路按照所擊的鍵產(chǎn)生英文字符的ASCII碼,輸入到計算機的內(nèi)存中。經(jīng)過編輯的文本仍然以ASCII碼表示。輸出時,這些代碼必須轉(zhuǎn)換成字符字形的點陣,以便顯示或打印。因此,計算機必須存儲每個英文字符、數(shù)碼以及標(biāo)點符號的點陣信息。這些點陣信息構(gòu)成了所謂“字模庫”。字模庫的點陣以有點或無點來表示文字和符號。漢字信息的計算機處理過程與英文信息處理過程是類似的。不過,由于漢字信息的特點,以及要考慮與英文信息處理系統(tǒng)兼容等問題,處理的難度更大。我國經(jīng)過多年的研究,漢字處理的基本問題已經(jīng)解決。漢字信息處理的基本問題13感謝你的觀賞2019-8-15計算機的鍵盤原本就是為英文輸入設(shè)計的,只要按照字母擊鍵,就可三、中文信息處理主要研究對象基礎(chǔ)研究:漢字字頻統(tǒng)計、詞頻統(tǒng)計、漢語自動分詞、句法屬性研究、漢字編碼字符集、通用漢字樣本庫、漢字屬性字典、語料庫等輸入技術(shù):中文輸入法、中文手寫輸入、中文語音輸入、光學(xué)字符識別等。輸出技術(shù):漢字字模技術(shù)(字體庫)、漢字激光照排、漢語語音合成、動態(tài)組字等。外字處理:動態(tài)組字、造字、電子書等。存儲技術(shù):漢字庫標(biāo)準(zhǔn)中文、字符編碼等。轉(zhuǎn)換技術(shù):繁簡轉(zhuǎn)換等14感謝你的觀賞2019-8-15三、中文信息處理主要研究對象基礎(chǔ)研究:漢字字頻統(tǒng)計、詞頻統(tǒng)計三、中文信息處理主要研究對象信息處理:中文情報檢索、中文文本校對、機器翻譯、自然語言理解、中文人機界面、語義網(wǎng)、電子字典、電腦輔助翻譯等中文化:軟件的國際化(internationalization)和本土化(localization)。中文編程:目前有兩種發(fā)展,一種是英文coding直接翻譯,以降低開發(fā)人員的語言學(xué)習(xí)成本;一種是根據(jù)中文特點,發(fā)展出融合中國人思維模式的新的計算機語言。15感謝你的觀賞2019-8-15三、中文信息處理主要研究對象信息處理:中文情報檢索、中文文本為了用0、1代碼串表示漢字,在漢字系統(tǒng)或通信系統(tǒng)之間交換信息,必須給每個漢字規(guī)定一個統(tǒng)一的代碼。這就是漢字的交換碼。1981年5月,我國國家標(biāo)準(zhǔn)總局頒布《信息交換用漢字編碼字符集》(GB2312-80),作為漢字交換碼編碼的國家標(biāo)準(zhǔn),簡稱國家標(biāo)準(zhǔn)漢字編碼,或國標(biāo)碼。收進該標(biāo)準(zhǔn)的字符共有7445個。其中一級漢字3755個,二級漢字3008個,共計6763個。一、二級漢字約占近代文獻漢字累計使用頻度的99.99%。為便于查找,一級漢字按漢語拼音順序排列;二級漢字一般不易熟記它們的發(fā)音,故按部首和筆畫排列。另外還包括常用符號、序號、GB1988圖形字符集、日文假名、希臘字母、俄文字母、漢語拼音、注音字符、制表符號等。四、漢字編碼標(biāo)準(zhǔn)16感謝你的觀賞2019-8-15為了用0、1代碼串表示漢字,在漢字系統(tǒng)或通信系統(tǒng)之間交換信息累計使用頻度不足0.001%的漢字?jǐn)?shù)量接近1萬個。為了滿足計算機實際應(yīng)用的需要,我國在GB2312-80的基礎(chǔ)上擴大收字的范圍,制定了“漢字內(nèi)碼規(guī)范”GBK,包含了20902個漢字,又稱為擴展的國標(biāo)碼。在Windows95/98和其后的Windows2000中,裝入了GBK的全部漢字和符合GBK和GB2312-80的輸入法。由于漢字的字符多,一個字節(jié)八位二進制代碼不足以表示所有的常用的漢字。為了不與西文的ASCII碼混淆,在微型機漢字系統(tǒng)中,國標(biāo)碼的每個符號都用兩個字節(jié)(十六位)代碼來表示,并作為轉(zhuǎn)換為機內(nèi)碼或其他漢字處理代碼的依據(jù)。漢字編碼標(biāo)準(zhǔn)17感謝你的觀賞2019-8-15累計使用頻度不足0.001%的漢字?jǐn)?shù)量接近1萬個。為了滿足計漢字國標(biāo)碼就是GB2312-80為漢字規(guī)定的代碼,也稱為交換碼。國標(biāo)碼是漢字編碼的國家標(biāo)準(zhǔn)。在GB2312-80代碼表中,縱向分為0~93,共94行;橫向也是0~93,共94列。行與列分別用七位二進制碼表示,第一字節(jié)表示行,第二字節(jié)表示列。其值都從0100001到1111110。這正是ASCII碼的可打印字符的編碼。其范圍為十六進制的21~7E。漢字國標(biāo)碼是將第一字節(jié)和第二字節(jié)連寫而得到的。由于二進制形式太長,通常用十六進制表示。例如:漢字第一字節(jié)第二字節(jié)十六進制區(qū)位碼啊0110000
010000130211601
保0110001010001131231703
播0110010010010132251805國標(biāo)碼18感謝你的觀賞2019-8-15漢字國標(biāo)碼就是GB2312-80為漢字規(guī)定的代碼,也稱為交國標(biāo)碼還可以表示成區(qū)位碼的形式。在GB2312-80代碼表中,將行號稱為區(qū)號,列號稱為位號,分別有94個區(qū)和94個位。將漢字置于其中,由區(qū)號與位號標(biāo)識出漢字在代碼表中的位置。區(qū)號與位號都用兩位十進制數(shù)表示,不足兩位的前面補零。每個漢字或符號的區(qū)號和位號連起來就組成這個漢字或符號的區(qū)位碼。這樣,每個漢字或其他符號都可以用4位十進制數(shù)表示。因此,區(qū)位碼可以用來作為漢字輸入的編碼。區(qū)位碼19感謝你的觀賞2019-8-15國標(biāo)碼還可以表示成區(qū)位碼的形式。在GB2312-80代碼表中區(qū)位碼在區(qū)位碼表中,1~9區(qū)為字母、數(shù)字、特殊圖形符號等;10~15區(qū)是未定義的空區(qū);16~55區(qū)為一級漢字區(qū);56~87區(qū)為二級漢字區(qū)。例如,“啊”字的區(qū)位碼是1601,“?!弊值膮^(qū)位碼是1703,“播”字的區(qū)位碼是1805,等等。區(qū)位碼與國標(biāo)碼之間有一定的對應(yīng)關(guān)系:將區(qū)位碼的區(qū)號和位號分別由十進制轉(zhuǎn)換成對應(yīng)的十六進制數(shù),然后加上十六進制數(shù)2020H(H表示2020為十六進制數(shù)碼),就得到對應(yīng)的國標(biāo)碼。例如,“啊”字的區(qū)位碼是1601,分別將區(qū)號和位號轉(zhuǎn)換成對應(yīng)的十六進制數(shù)得1001H,再加上2020H就得到“啊”字的國標(biāo)碼為3021H。20感謝你的觀賞2019-8-15區(qū)位碼在區(qū)位碼表中,1~9區(qū)為字母、數(shù)字、特殊圖形符號等;1漢字機內(nèi)碼是在計算機內(nèi)部實際用來表示漢字的代碼。不同的計算機系統(tǒng)使用的機內(nèi)碼是不同的。在微型機中,多采用兩字節(jié)代碼作為機內(nèi)碼。在大、中型機中,多采用三字節(jié)或四字節(jié)代碼作機內(nèi)碼。制訂機內(nèi)碼必須考慮下列因素:漢字與西文易于區(qū)別;中、西文兼容;碼長短,每個漢字所占字節(jié)數(shù)少;與國標(biāo)碼有較簡單的對應(yīng)關(guān)系,便于信息轉(zhuǎn)換。機內(nèi)碼21感謝你的觀賞2019-8-15漢字機內(nèi)碼是在計算機內(nèi)部實際用來表示漢字的代碼。不同的計算機目前,多數(shù)微機漢字系統(tǒng)的機內(nèi)碼是以國標(biāo)GB2312-80規(guī)定的雙七位代碼為依據(jù),經(jīng)一定轉(zhuǎn)換后用兩個字節(jié)表示一個漢字。每個字節(jié)的最高位均為1,以此作為漢字的標(biāo)記,以便于與ASCII碼編碼的符號相區(qū)別。由國標(biāo)碼轉(zhuǎn)換為機內(nèi)碼的規(guī)則是:將十六進制的國標(biāo)碼加上8080H,就得到對應(yīng)的機內(nèi)碼。如“大”字的區(qū)位碼為2083,國標(biāo)碼為3473H,機內(nèi)碼為3473H+8080H=B4F3H。將B4F3H化為二進制數(shù)得:1011010011110011,這就是在計算機中實際使用的機內(nèi)碼的二進制形式。8080H等于二進制的1000000010000000,國標(biāo)碼加上8080H,可以保證機內(nèi)碼每個字節(jié)首位均為1。機內(nèi)碼22感謝你的觀賞2019-8-15目前,多數(shù)微機漢字系統(tǒng)的機內(nèi)碼是以國標(biāo)GB2312-80規(guī)五、漢字編碼字符集按照一組無歧義的規(guī)則而定義的漢字字匯的有序集合。其中每一個漢字與它的代碼表示之間具有一一對應(yīng)關(guān)系。在信息處理技術(shù)中漢字編碼字符集用于漢字信息的表示、交換、傳輸、處理、存儲、輸入及顯示。在國際標(biāo)準(zhǔn)化組織ISO的定義中,“無歧義的規(guī)則”很重要,制定這些規(guī)則的目的是為了確保編碼的唯一性,避免重碼。23感謝你的觀賞2019-8-15五、漢字編碼字符集按照一組無歧義的規(guī)則而定義的漢字字匯的有序漢字編碼的關(guān)系00FF00FF00FF00FF00FF00FF27484漢字20902漢字6763漢字GB18030-2000GBK-95GB2312-80GB12345-902個擴充的漢字字符集GB2312GBK-95GB18030-2000虛線外的漢字,4字節(jié)表示24感謝你的觀賞2019-8-15漢字編碼的關(guān)系00六、中文信息在計算機內(nèi)的表示在計算機內(nèi)表示中文信息的最早在IBM、富士通、日立等計算機生產(chǎn)廠家的計算機中開始,但采用的編碼形式互不兼容。為了能使?jié)h字能夠在計算機中通行,國際標(biāo)準(zhǔn)組織(ISO)、國際電子電氣工程師協(xié)會(IEEE)以及各個使用漢字的國家和地區(qū),在計算機技術(shù)發(fā)展中,都制定了各種各樣的漢字編碼字符集。ISO/IEC2022定義了七位代碼和八位代碼的空間及其代碼空間擴充的技術(shù)。絕大多數(shù)計算機系統(tǒng)所采用的字符集,都是以ISO/IEC2022為基礎(chǔ)的。一般漢字在計算機內(nèi)部的表示都是通過擴充編碼長度實現(xiàn)的。25感謝你的觀賞2019-8-15六、中文信息在計算機內(nèi)的表示在計算機內(nèi)表示中文信息的最早在IISO/IEC10646一個國際標(biāo)準(zhǔn)編號,國際標(biāo)準(zhǔn)化組織(ISO)1993年正式頒布英文全稱:Informationtechnology-UniversalMultiple-OctetCodedCharacterSet,簡稱UCS
中文全稱:信息技術(shù)--通用多八位編碼字符集,亦稱大字符集宗旨:全球所有文種統(tǒng)一編碼26感謝你的觀賞2019-8-15ISO/IEC10646一個國際標(biāo)準(zhǔn)編號,國際標(biāo)準(zhǔn)化組織(Unicode英文UniversalCode的縮略語統(tǒng)一編碼是對國際標(biāo)準(zhǔn)ISO/IEC10646編碼的一種稱謂是一個企業(yè)聯(lián)盟集團的名稱,由美國的HP、Microsoft、IBM、Apple等幾家知名的大型計算機企業(yè)所組成,成立該集團的宗旨就是要推進多文種的統(tǒng)一編碼就內(nèi)容而言,Unicode和ISO/IEC10646是一致的,并行的27感謝你的觀賞2019-8-15Unicode英文UniversalCode的縮略語27感ISO10646/UnicodeISO10646的第0群組第0字面(群和面的值都為00h)稱
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- WPS 辦公應(yīng)用-教學(xué)大綱、授課計劃
- 2024年汽車熱交換器項目資金申請報告代可行性研究報告
- 有關(guān)追夢演講稿(17篇)
- 文明禮儀伴我行演講稿400(34篇)
- 學(xué)校表彰大會校長致辭
- 河西走廊觀后感600字范文(6篇)
- 珍惜糧食學(xué)生個人倡議書
- 理療師勞務(wù)合同范本
- 疫情期間幼兒工作總結(jié)5篇
- 新教材高考地理二輪專題復(fù)習(xí)單元綜合提升練3地球上的水含答案
- 企業(yè)管理學(xué)宿愷思考題答案
- 2024年新人教版一年級語文上冊全套試卷
- 2024精麻藥品培訓(xùn)知識試題庫及答案(完整版)
- 八年級英語上冊 Unit 4 Whats the best movie theater(第1課時)說課稿
- JTG∕T L80-2014 高速公路改擴建交通工程及沿線設(shè)施設(shè)計細(xì)則
- 2024年全國注冊消防工程師之消防技術(shù)綜合能力考試重點試題(詳細(xì)參考解析)
- Unit 7 Section A(2a-2e)課件人教版2024新教材七年級上冊英語
- 訴求申請書范文
- 《小型水庫雨水情測報和大壩安全監(jiān)測設(shè)施建設(shè)與運行管護技術(shù)指南》
- 建筑施工現(xiàn)場作業(yè)人員應(yīng)急救援培訓(xùn)內(nèi)容
- 2024年中國郵政集團限公司海南省分公司社會招聘124人【重點基礎(chǔ)提升】模擬試題(共500題)附帶答案詳解
評論
0/150
提交評論