版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、香港中文大學(xué)圖書(shū)館系統(tǒng)University Library SystemThe Chinese University of Hong Kong香港 Innovative 用戶(hù)協(xié)會(huì)重訂單一碼與CCCII/EACC對(duì)應(yīng)表 第五屆中國(guó)INNOPAC用戶(hù)協(xié)會(huì)年會(huì), 2004年11月9-10日 2004年11月9日1鳴謝重訂工作由 香港Innovative用戶(hù)協(xié)會(huì) (Hong Kong Innovative Users Group) 下的單一碼計(jì)劃工作小組 (HKIUG Working Group on Unicode Project) 負(fù)責(zé)。 小組成員館的代表為:林紀(jì)達(dá)先生 (香港科技大學(xué))黃秉杰先生
2、 (香港城市大學(xué))陳偉明先生 (香港大學(xué))何以業(yè) (香港中文大學(xué))以下的報(bào)告內(nèi)容取材自黃秉杰先生與我在2003年12月第4屆 Hong Kong Innovative Users Group Meeting 中的報(bào)告2報(bào)告梗概背景難題目標(biāo)與方法工序?qū)?Innovatives 的要求尚未解決的問(wèn)題用戶(hù)注意事項(xiàng)將來(lái)31. 背景 漢字編碼字符集多種字符集支援中日韓字(CJK)資料來(lái)源: 林紀(jì)達(dá), “Overview of Chinese Character Encoding”, 字符集名稱(chēng) (character sets)流行范圍GB (國(guó)標(biāo))中國(guó)BIG5 (大五碼)香港,臺(tái)灣等地CCCII (Ch
3、inese Character Code for Information Interchange 中文信息交換碼)圖書(shū)館EACC (East Asian Character Code 東亞字碼)美國(guó)國(guó)會(huì)圖書(shū)館字碼標(biāo)準(zhǔn) (MARC 21 standard) Unicode (單一碼)電腦操作系統(tǒng)廣泛采用,e.g.:Windows 2000, XP41. 背景 字符集支援范圍51. 背景 (代) 碼點(diǎn) (code point)同一個(gè)字形,在不同字符集會(huì)使用不同的碼點(diǎn)61. 背景 內(nèi)存代碼 (internal code)Innopac 以 EACC/CCCII 形式存儲(chǔ) CJK 字符Innopac
4、內(nèi)存代碼不是 Unicode100 1 余秋雨100 1 276076214f29215f5171. 背景 對(duì)應(yīng)表 (mapping table)Innopac 用對(duì)應(yīng)表把內(nèi)存代碼在客戶(hù)端與系統(tǒng)之間往來(lái)轉(zhuǎn)換接口(界面)客戶(hù)端編碼Innopac內(nèi)存代碼Telnet BIG5WebPAC BIG5BIG5 (大五碼)EACC/CCCIIMilleniumWebPAC UTF-8UTF-8 (單一碼)EACC/CCCII82. 難題 (一)復(fù)數(shù)對(duì)應(yīng)難題 1UTF-8對(duì)應(yīng)表 (diac.utf8) 中, 有多個(gè)內(nèi)存代碼對(duì)應(yīng)同一個(gè)客戶(hù)端編碼查詢(xún)用的代碼不一定是所期望的代碼對(duì)應(yīng)次序各館不同,Z39.50查
5、找結(jié)果不定UTF-8表中 臺(tái) 的復(fù)數(shù)變換EACC - 內(nèi)存代碼Unicode - 客戶(hù)端編碼字義283b7d53F0檯的簡(jiǎn)體27605d53F0颱的簡(jiǎn)體21353853F0臺(tái) 本身是正字27542b53F0臺(tái)的簡(jiǎn)體92. 難題 (二)EACC 與 CCCII 重疊難題 2EACC 與 CCCII 用碼不同, 各館內(nèi)存不一,資料交換帶來(lái)麻煩。102. 難題 (三)錯(cuò)誤與缺漏難題 3UTF8 (Release 2002 Phrase 3) 中有小毛病錯(cuò)誤27615F U+53CB 友 該對(duì)應(yīng) U+53D1 發(fā) 缺漏缺 213F30 U+3007 112. 難題 (四)選取不一致難題 4BIG5 和
6、 UTF-8 產(chǎn)生的復(fù)數(shù)對(duì)應(yīng)不一致,香港 Innovative 用戶(hù)協(xié)會(huì)決定進(jìn)行此單一碼計(jì)劃:BIG5客戶(hù)端 對(duì)應(yīng)表選前一個(gè)對(duì)應(yīng)碼UTF8客戶(hù)端 對(duì)應(yīng)表選后頭一個(gè)對(duì)應(yīng)碼122. 難題 (四)選取不一致 (續(xù)) 才 的對(duì)應(yīng)BIG5 (WebPAC 或 Telnet) 對(duì)應(yīng)表選前一個(gè)對(duì)應(yīng)碼內(nèi)存BIG5213f7bA47EBIG5選前一個(gè)28736dA47EUTF-8 (WebPAC 或Millennium) 對(duì)應(yīng)表選后一個(gè)對(duì)應(yīng)碼內(nèi)存UTF-8213f7b624D28736d624D UTF-8選后一個(gè)133. 目標(biāo)與方法 . 香港中文大學(xué)于2003年7月舉行了討論會(huì): ..hk/s
7、eminar/unicode/單一碼計(jì)劃工作小組 (HKIUG Working Group on Unicode Project) 亦于同年7月成立目標(biāo)解決 BIG5 和 UTF-8 選取不一致的難題決定對(duì)應(yīng)表中的那些應(yīng)是 一對(duì)一 或是 多對(duì)一決定對(duì)應(yīng)表 應(yīng)否只用 純粹 EACC 或是 EACC+CCCII清除錯(cuò)誤與缺漏為將來(lái)以單一碼為內(nèi)存的資料庫(kù)做好準(zhǔn)備143. 目標(biāo)與方法 (續(xù)) 單一碼計(jì)劃工作小組研究后提出如下方案: 不再修訂 BIG5 對(duì)應(yīng)表 (因?yàn)? 字符集字量少; 只支援繁體字; 復(fù)數(shù)對(duì)應(yīng)太多. 等等) 建議重訂一張新的 UTF-8 對(duì)應(yīng)表 (diac.utf8)EACCUnico
8、de 以美國(guó)國(guó)會(huì)圖書(shū)館MARC 21為標(biāo)準(zhǔn)尾4碼相同者,容許復(fù)數(shù)對(duì)應(yīng);尾4碼不同者,需決定優(yōu)先選取者;例: 臺(tái) (見(jiàn) 2. 難題1)EACC 與 CCCII 重疊時(shí),刪除CCCII將館內(nèi)以該CCCII為內(nèi)碼的資料轉(zhuǎn)換為對(duì)應(yīng)的 EACC對(duì)應(yīng)表需包括 純粹CCCII以照顧不常用字154. 工序 建成 diac.utf8.hkiug 以下部分直接摘用黃秉杰先生在2003年12月第4屆 Hong Kong Innovative Users Group Meeting報(bào)告內(nèi)的Procedures 部分參見(jiàn):16Proceduresdiac.utf8.hkiugcreated diac.utf8.hkiu
9、gdiac.utf8LC EACC22717EACC/CCCII Subtracted 66 Substitutes for Missing (U+3013)15673EACC7044 pureCCCII+Remapped 287 PUASelected preferences in multi-mapping linked and unlinked casesCorrected LC mappingsprepared list for CCCII to EACC data conversionSubtracted 955 with EACC equivalent15739 EACC merg
10、ed7999 CCCII extracted 17Proceduressource from LCMerged tables from LCs EACC to UCS/Unicode Mappings 18Procedures Included pure CCCII from UTF-8 table (Rel 2002 Phase 3)CCCII with no EACC equivalents (pure CCCII)e.g.217455 坓22483E 洣7,044Added to new tableCCCII with EACC equivalentse.g.213131 (CCCII)
11、 余276076 (EACC) 余955Excluded from new table.Sent to III for data conversionsource from diac.utf819Proceduresre-mapped PUARe-mapped 297 Private User Area (PUA) to suggested alternates20ProceduresSelected preference in multiple mapping EACCMultiple mappingExample# of casesEnhanced indexing?Labeled asP
12、referenceLinkedsame lower order bytes4B3178 倩213178 倩160(320 char)Yesmulti-mapping linkednot matterUnlinkeddifferent lower order bytes283B7D 臺(tái)27605D 臺(tái)213538 臺(tái)27542B 臺(tái)49(108 char)Nomulti-mapping unlinkedselected case by case (based on HKUST study on word frequency & meaning)selected preference21Proce
13、duresLinked cases: HKIUG preference indicatedselected preference (cont)Selected preference in EACC multiple mapping linked22Procedures Unlinked cases: HKIUG preference indicatedselected preference (cont)Selected preference in EACC multiple mapping unlinked23Procedures Updated LC mappingsReferenced f
14、rom other sourcesUnihanOCLCUSMARC Character Set for Chinese, Japanese, Korean (printed)Examples:273C67LC mapped to U+E9D8Remapped to U+5E72 (干)4B3C2bLC mapped to U+E9C7Remapped to U+67C3 (柃)updated LC mapping24ProceduresCCCII with EACC Equivalents- for data conversionCCCIIEACClist for conversionPrep
15、ared list for data conversion255. 對(duì) Innovatives 的要求 .交給Innovatives 的 付項(xiàng)diac.utf8.hkiug 是 HKIUG 設(shè)定的 EACC/CCCIIUTF-8 對(duì)應(yīng)表EACC 15,673純粹CCCII 7,044合共22,717hasEACC.txt CCCII 重疊 EACC 表 (955)單一碼計(jì)劃工作小組的報(bào)告Innovatives 可做的工作 (IUG CN可參照實(shí)行)為各館的 Innopac 安裝 diac.utf8.hkiug 依照 hasEACC.txt 所示, 把圖書(shū)館資料庫(kù)內(nèi)的 CCCII 轉(zhuǎn)換成對(duì)應(yīng)的
16、EACC (各館可自行轉(zhuǎn)換)266. 尚未解決的問(wèn)題 LC的錯(cuò)誤美國(guó)國(guó)會(huì)圖書(shū)館 (LC) MARC 21 標(biāo)準(zhǔn)中有一個(gè)錯(cuò)誤 : 23355CLC MARC21 標(biāo)準(zhǔn)23355C U+86C3蛃USMARC character set for Chinese, Japanese, Korean.Washington, D.C. : Library of Congress, 1986.23355C豣 U+8C63277. 用戶(hù)注意事項(xiàng) 復(fù)數(shù)對(duì)應(yīng)選字復(fù)數(shù)對(duì)應(yīng) : 歷 U+5386請(qǐng)參考香港科技大學(xué)的復(fù)數(shù)對(duì)應(yīng)選擇表: lc-multi-eacc.xls287. 用戶(hù)注意事項(xiàng) 復(fù)數(shù)對(duì)應(yīng)選字(續(xù)1)數(shù)據(jù)正
17、確性書(shū)名: 歷法內(nèi)存代碼備考數(shù)據(jù)正確 ?以字符輸入: 歷27462A與 歷 21462A連結(jié)索引錯(cuò)誤若以代碼輸入: 274349274349與 曆 214349連結(jié)索引正確* 可用附加追尋項(xiàng),以字符輸入:歷27462A與 歷 21462A連結(jié)索引297. 用戶(hù)注意事項(xiàng) 復(fù)數(shù)對(duì)應(yīng)選字(續(xù)2)Millenium editor 暫依 UTF-8 對(duì)應(yīng)表在儲(chǔ)存目錄時(shí)修改內(nèi)碼。這會(huì)使數(shù)據(jù)不正確。此為 Millennium 的軟件缺點(diǎn),由于目錄從 server 交到 client,在 client 重存時(shí),內(nèi)存代碼會(huì)依對(duì)應(yīng)表的優(yōu)先對(duì)應(yīng)的規(guī)定來(lái)改碼。如果只是修改 item, checkin, order,
18、global update 等,由于不會(huì)在 client 重存 bib 目錄,內(nèi)存代碼不會(huì)改變。307. 用戶(hù)注意事項(xiàng) 復(fù)數(shù)對(duì)應(yīng)選字(續(xù)3)Innovatives 打算在 Sliver version 中修正軟件缺點(diǎn)。非優(yōu)先對(duì)應(yīng)的內(nèi)存代碼,會(huì)在Millenium editor 以字符顯示,而且不會(huì)在重存目錄時(shí)修改內(nèi)碼。317. 用戶(hù)注意事項(xiàng) 復(fù)數(shù)對(duì)應(yīng)選字(續(xù)4)暫時(shí)可用 Anzio-Win 作 Telnet client設(shè)定可參考香港中文大學(xué)圖書(shū)館網(wǎng)頁(yè): ..hk/cataw/Internet/System_DIY.pdf上述網(wǎng)頁(yè)提到的 CCCII.UNI , 香港中文大學(xué)愿意提供。但 ANZIO-Win 有缺點(diǎn):CCCII.UNI 為 1 EACC 1 Unicode. 非優(yōu)先對(duì)應(yīng)者,一概不用327. 用戶(hù)注意事項(xiàng) 復(fù)數(shù)對(duì)應(yīng)選字(續(xù)5)EACCdiac.utf8.hkiug 資料Webopac / Millennium 顯示Anzio-Win 顯示備考214857非優(yōu)先對(duì)應(yīng)漢漢由于214857 為非優(yōu)先對(duì)應(yīng),故
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 西京學(xué)院《建筑裝飾材料及施工工藝》2022-2023學(xué)年第一學(xué)期期末試卷
- 西京學(xué)院《國(guó)際商務(wù)談判與禮儀》2022-2023學(xué)年第一學(xué)期期末試卷
- 西京學(xué)院《電工電子學(xué)》2021-2022學(xué)年期末試卷
- 杯弓蛇影英文課件
- 2024-2025學(xué)年高中物理舉一反三系列專(zhuān)題2.3 氣體的等壓變化和等容變化(含答案)
- 電工教程 課件
- 西華師范大學(xué)《普通地質(zhì)學(xué)》2021-2022學(xué)年第一學(xué)期期末試卷
- 西華師范大學(xué)《計(jì)算機(jī)組成原理》2023-2024學(xué)年期末試卷
- 西華師范大學(xué)《大氣污染防治技術(shù)》2021-2022學(xué)年第一學(xué)期期末試卷
- 西昌學(xué)院《英漢翻譯理論與技巧》2022-2023學(xué)年第一學(xué)期期末試卷
- 學(xué)校建設(shè)工程項(xiàng)目自查報(bào)告
- 混凝土結(jié)構(gòu)理論智慧樹(shù)知到答案章節(jié)測(cè)試2023年華南理工大學(xué)
- 超聲引導(dǎo)下腰椎部位穿刺
- 口語(yǔ)交際我們與環(huán)境教案(集合5篇)
- 土地整理項(xiàng)目結(jié)算審計(jì)方案及提供資料清單
- 普通高校本科招生專(zhuān)業(yè)選考科目要求指引(通用版)
- 某文化博物館建設(shè)項(xiàng)目可行性研究報(bào)告
- 二年級(jí)語(yǔ)文質(zhì)量分析ppt課件精選ppt
- JJF 1272-2011阻容法露點(diǎn)濕度計(jì)校準(zhǔn)規(guī)范
- GB/T 39517.2-2020農(nóng)林拖拉機(jī)和機(jī)械農(nóng)用定位與導(dǎo)航系統(tǒng)測(cè)試規(guī)程第2部分:在直線(xiàn)和水平運(yùn)行狀態(tài)下衛(wèi)星自動(dòng)導(dǎo)航系統(tǒng)的測(cè)試
- GB/T 3078-2008優(yōu)質(zhì)結(jié)構(gòu)鋼冷拉鋼材
評(píng)論
0/150
提交評(píng)論