察合臺文與現(xiàn)代維吾爾文轉(zhuǎn)寫符號的智能輸入_第1頁
察合臺文與現(xiàn)代維吾爾文轉(zhuǎn)寫符號的智能輸入_第2頁
察合臺文與現(xiàn)代維吾爾文轉(zhuǎn)寫符號的智能輸入_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

察合臺文與現(xiàn)代維吾爾文轉(zhuǎn)寫符號的智能輸入

1察合臺文化中的聲母和超方言查河臺維爾文是雅中亞語中特語部落的拼音文字。它從13世紀(jì)到20世紀(jì)20年代開始寫作文字。20世紀(jì)20年代。通行于中國新疆和中亞外,莫臥兒王國和埃及也曾使用過。察合臺一詞源于以成吉思汗(1162~1227)的次子的名字取名的察合臺汗國。察合臺文有28~32個字母。個別字母專用于拼寫阿拉伯—波斯語源的詞,詞中的元音往往省略。有些輔音用發(fā)音近似重復(fù)的2~4個阿拉伯字母拼寫,有個別的雙字母及清濁音混用字母,有幾個元音用同一個字母(單字母或雙字母)表示,或一個字母在不同音節(jié)中既表示元音又表示輔音的現(xiàn)象。有些輔音字母在阿拉伯文中發(fā)音近似,字形不同,但在察合臺文中發(fā)音相同。除字母外,還有輔助符號。字母分詞首、詞中、詞末、單獨等形式,從右至左橫書。阿拉伯—波斯語源的詞,依阿拉伯—波斯文正字法拼寫;一部分維吾爾語固有詞受阿拉伯—波斯文正字法及回鶻文書寫傳統(tǒng)影響,其音節(jié)僅由輔音構(gòu)成。詞干與某些后綴不連寫,正字法遵循形態(tài)學(xué)原則。察合臺文具有超方言的性質(zhì)。其作品在歷史上從小亞細(xì)亞直至阿爾泰、印度(莫臥兒王朝)使用突厥語的民族中廣為流傳。察合臺文獻(xiàn),除較晚的鉛印本外,多用阿拉伯字母的“納斯塔里克體”(正體字)傳抄(見圖1)?,F(xiàn)代維吾爾文是察合臺文的延續(xù)。察合臺文一直使用到20世紀(jì)初,其傳播使用長達(dá)7個世紀(jì)。早期維吾爾文學(xué)家的許多作品都是用察合臺語言寫成的。最著名的作家有阿塔依、魯提菲、納瓦依等。本文是針對古文獻(xiàn)整理的特需技術(shù)研究中,利用本課題組開發(fā)和提出的古維吾爾文(以下稱察合臺文)支撐環(huán)境的編碼方案和察合臺文輸入技術(shù),把察合臺文智能輸入技術(shù)和轉(zhuǎn)寫工具作為研究目標(biāo),參考國際標(biāo)準(zhǔn)Unicode中的古突厥文符號代碼、阿拉伯文轉(zhuǎn)寫字符編碼、波斯文轉(zhuǎn)寫字符編碼和現(xiàn)代維吾爾文信息處理專家提出的維吾爾文字母轉(zhuǎn)寫符號編碼基礎(chǔ)上進(jìn)行了詳細(xì)分析,提出了察合臺文的轉(zhuǎn)寫符號編碼標(biāo)準(zhǔn)方案,以及察合臺文的智能輸入和轉(zhuǎn)寫工具的設(shè)計與軟件實現(xiàn),功能比較齊全的專用文字處理系統(tǒng)的關(guān)鍵技術(shù)及實現(xiàn)的方法。2信息處理系統(tǒng)的建立首先成功的開發(fā)了基于Unicode4.0版本的Windows2000/XP環(huán)境下的察合臺文信息處理系統(tǒng)。并已經(jīng)向國際標(biāo)準(zhǔn)化組織申請了信息交換用察合臺文Unicode代碼方案。制定的鍵盤布局方案(見圖2和圖3)也得到了相關(guān)專家的認(rèn)可?;赨nicode4.0的察合臺文代碼方案見文獻(xiàn)。3先進(jìn)的拼寫和符號輸入設(shè)計3.1察合臺文智能輸入雖然解決了察合臺文的輸入問題,但是大部分使用察合臺文的學(xué)者錄入速度比較慢,非專業(yè)人員錄入比較困難,容易出錯。因此我們設(shè)計和開發(fā)了察合臺文智能輸入模塊。該模塊具有自學(xué)習(xí)、詞頻統(tǒng)計、校對功能。操作與漢字全拼輸入法類似。根據(jù)正在輸入的字符自動列出最匹配的10條詞語,并根據(jù)用戶的選擇進(jìn)行輸入。模塊流程設(shè)計和實際輸入操作界面如圖4、圖5所示。3.2先進(jìn)輸入方法設(shè)計關(guān)于轉(zhuǎn)寫符號的初步分析目前已經(jīng)整理并出版的察合臺文文獻(xiàn)基本上都用現(xiàn)代維吾爾文翻譯/轉(zhuǎn)寫方式。上文所說的詞典也采用現(xiàn)代維文方式記錄了詞條的轉(zhuǎn)寫。但是目前存在的問題是很多學(xué)者所編著的各種文獻(xiàn)所使用的轉(zhuǎn)寫符號各不相同。沒有通用性。我們分析了這些符號,把維吾爾文信息處理專家提出的LSU(Latin-ScriptUyghur)和UKY(UyghurKomputerYeziqi維吾爾計算機文字)和比較權(quán)威著作中所使用的轉(zhuǎn)寫符號作為主要依據(jù)初步制定了一個方案。如表1所示。合臺文轉(zhuǎn)寫編碼目前國內(nèi)外學(xué)者使用的察合臺文轉(zhuǎn)寫符號也存在不一致性問題。為我們根據(jù)阿拉伯文—波斯文轉(zhuǎn)寫符號和國際突厥語轉(zhuǎn)寫符號,并且在分析大量相關(guān)文獻(xiàn)中所采用的轉(zhuǎn)寫符號的基礎(chǔ)上,分別提出了兩種察合臺文轉(zhuǎn)寫符號方案(見表2和表3)。從表中不難看出部分字母有兩個以上對應(yīng)的轉(zhuǎn)寫符號。這樣轉(zhuǎn)寫時遇到的一對多(1∶N)的對應(yīng)關(guān)系、察合臺文寫法中的的元音脫落習(xí)慣、龐大的動詞的附加成分,雖然人工轉(zhuǎn)寫沒多大問題,但是通過計算機進(jìn)行自動轉(zhuǎn)寫時會出現(xiàn)許多歧義(見圖6)。目前我們研發(fā)的系統(tǒng)采用基于詞典的察合臺轉(zhuǎn)寫生成對應(yīng)現(xiàn)代維吾爾文的詞條的半自動轉(zhuǎn)寫方法,對于出現(xiàn)一對多(1∶N)的對應(yīng)關(guān)系的情況,還的借助人工輔助轉(zhuǎn)寫。要進(jìn)一步解決自動轉(zhuǎn)寫問題還需要建立和完善察合臺文固定搭配和習(xí)慣用語詞典和語義規(guī)則的語法知識庫,這是本課題目前正在進(jìn)一步探討的目標(biāo)。察合臺文轉(zhuǎn)寫符號智能教學(xué)法察合臺文轉(zhuǎn)寫符號比較多,記憶比較難。為此,我們在分析了察合臺文文法習(xí)慣以及固定搭配規(guī)則的基礎(chǔ)上,設(shè)計并開發(fā)了察合臺文轉(zhuǎn)寫符號智能輸入法。該輸入法具有自學(xué)習(xí)、基于詞典校對、根據(jù)用戶習(xí)慣轉(zhuǎn)換其他形式的轉(zhuǎn)寫(需要用戶事先根據(jù)自己的習(xí)慣設(shè)置對應(yīng)的轉(zhuǎn)寫符號轉(zhuǎn)換表)和用戶自定義轉(zhuǎn)寫符號表、與操作系統(tǒng)無關(guān)等功能和特點。其操作類似與中文全拼輸入法。具體操作界面見圖7。4智能計算機軟件察合臺文和轉(zhuǎn)寫符號的智能輸入對古代維吾爾文(察合臺文)文獻(xiàn)數(shù)字化整理系統(tǒng)不可缺少的功能模塊。本文提出的察合臺文智能輸入法和察合臺文轉(zhuǎn)寫符號的智能輸入法是國內(nèi)首創(chuàng)。對該智能輸入法稍加更改可以用于國際上進(jìn)行語言

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論