版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
ICS03.080.99:35.240.30雙語平行語料加工服務(wù)基本要求國家市場監(jiān)督管理總局國家標(biāo)準(zhǔn)化管理委員會IGB/T40035—2021 Ⅲ 1 13術(shù)語和定義 1 2 35.1服務(wù)提供方 3 35.3服務(wù)環(huán)境 35.4加工內(nèi)容 35.5加工結(jié)果 35.5.1完整性 35.5.2準(zhǔn)確性 35.5.3可用性 45.5.4規(guī)范性 4 45.6.1可靠性 45.6.2易用性 45.6.2.1本地化界面 45.6.2.2操作功能 45.6.2.3幫助系統(tǒng) 55.6.2.4效率 55.6.3兼容性 5 5 56.1.1語料準(zhǔn)備 56.1.2清洗 56.1.3去重 5 56.2語料對齊 66.3語料審核 6 67.1需求溝通 67.2客戶協(xié)議 67.3項(xiàng)目管理 67.4加工環(huán)節(jié) 6ⅡGB/T40035—20217.5交付內(nèi)容 77.6質(zhì)量保證期 77.7服務(wù)評價(jià)與改進(jìn) 7 78.1數(shù)據(jù)備份 78.2文檔管理與日志 78.3數(shù)據(jù)存儲 7附錄A(資料性)雙語平行語料加工人員的培訓(xùn) 8附錄B(資料性)雙語語料加工的元數(shù)據(jù) 9附錄C(資料性)TXT文件常見編碼格式 附錄E(資料性)文件的命名規(guī)則、編碼格式及文件格式 ⅢGB/T40035—2021本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識別專利的責(zé)任。本文件由全國語言與術(shù)語標(biāo)準(zhǔn)化技術(shù)委員會(SAC/TC62)提出并歸口。言橋信息技術(shù)有限公司、北京百度網(wǎng)訊科技有限公司、沈陽雅譯網(wǎng)絡(luò)技術(shù)有限公司、上海智膳合網(wǎng)絡(luò)科1GB/T40035—2021雙語平行語料加工服務(wù)基本要求3術(shù)語和定義24總則3GB/T40035—20214.4雙語平行語料加工服務(wù)提供方(以下簡稱“服務(wù)提供方”)對譯文不進(jìn)行審核,譯文質(zhì)量由客戶保證。4.5雙語平行語料加工服務(wù)可以采用多個(gè)工具完成,也可以在一個(gè)集成環(huán)境中完成。該環(huán)境應(yīng)集成對5基本要求5.1服務(wù)提供方服務(wù)提供方應(yīng)具備以下條件:b)配備合格的語料加工人員;c)配備穩(wěn)定可用的語料對齊工具及相關(guān)文字處理工具;d)配備可完成語料加工服務(wù)的場所。5.2語料加工人員服務(wù)提供方應(yīng)確保雙語平行語料加工人員具備以下能力:a)閱讀源語言和目標(biāo)語言的能力:能理解源語言和目標(biāo)語言,并能快速閱讀原文和譯文;b)研究和處理文本的能力:能拓展必要的文本處理及專業(yè)知識,并能制定策略來有效利用現(xiàn)有資源;c)技術(shù)能力:利用技術(shù)資源,包括使用工具和信息系統(tǒng)支撐整個(gè)語料加工過程,完成其中的各項(xiàng)技術(shù)任務(wù)。5.3服務(wù)環(huán)境服務(wù)提供方的服務(wù)環(huán)境應(yīng)擁有完成雙語語料加工所需的技術(shù)設(shè)備和辦公設(shè)備,如光學(xué)識別工具、對齊工具等??蛻艨膳c服務(wù)提供方約定加工時(shí)使用的工具名稱和版本。服務(wù)提供方的保密環(huán)境及級別應(yīng)符合客戶對語料保密的要求,按客戶的要求配備保密設(shè)備、進(jìn)行安全加固、為語料加工人員開展保密培訓(xùn)等。5.4加工內(nèi)容雙語語料的加工應(yīng)優(yōu)先選擇數(shù)字化后的雙語語料,尚未數(shù)字化的雙語語料,可通過掃描或拍照等手段,后采用光學(xué)字符識別的方式轉(zhuǎn)換成數(shù)字化形式,或直接通過鍵盤錄入。通過光學(xué)字符識別或鍵盤錄入的雙語語料應(yīng)增加校對環(huán)節(jié)保證內(nèi)容的質(zhì)量。5.5加工結(jié)果在符合客戶數(shù)據(jù)處理要求的前提下,服務(wù)提供方的加工結(jié)果應(yīng)保證原文、譯文及元數(shù)據(jù)的完整性,確保加工結(jié)果無信息丟失。5.5.2準(zhǔn)確性在符合客戶數(shù)據(jù)處理要求的前提下,服務(wù)提供方的加工結(jié)果應(yīng)保證原文和譯文對應(yīng)關(guān)系的準(zhǔn)確性4GB/T40035—2021以及元數(shù)據(jù)的準(zhǔn)確性,確保加工結(jié)果準(zhǔn)確無誤。服務(wù)提供方應(yīng)保證加工結(jié)果符合以下要求:a)能被語料檢索、管理和生產(chǎn)工具解析;b)無亂碼、多余標(biāo)簽等不可用信息;c)無格式混亂或原文譯文不對應(yīng)情況;d)無用戶未要求的多余信息。服務(wù)提供方的加工結(jié)果應(yīng)符合客戶的規(guī)范要求,加工結(jié)果的數(shù)據(jù)格式應(yīng)包括TMX、TXT等,并符合以下要求:a)TMX文件應(yīng)符合翻譯記憶庫交換規(guī)范,包含留存版本號、編碼格式、制作語料的工具名稱、制b)TXT文件應(yīng)采用一種常見的大字符集的編碼格式,如UTF-8。5.6語料加工工具語料對齊是雙語平行語料加工的關(guān)鍵環(huán)節(jié),因此語料對齊工具作為語料加工工具的重要組成部分,應(yīng)滿足以下可靠性、易用性和兼容性三方面要求。語料對齊工具應(yīng)在出現(xiàn)局部功能故障時(shí),不影響其他功能的操作,仍能提供對齊功能。語料對齊工具應(yīng)提供對齊過程數(shù)據(jù)自動(dòng)保存及恢復(fù)功能。5.6.2易用性語料對齊工具應(yīng)支持中文界面。語料對齊工具應(yīng)支持對齊雙語文本所需的操作功能:a)文字編輯:在允許文字輸入的內(nèi)容標(biāo)識區(qū)域,支持b)合并:支持將分布在兩行的文本合并成一行;c)拆分:支持將一行文本切分成兩行;d)上移:支持將文本位置向上移動(dòng);e)下移:支持將文本位置向下移動(dòng);f)插入:支持在某一行文本上方或下方插入一行;g)刪除:支持刪除某行或多行文本;i)對齊:支持文本調(diào)整完成后,執(zhí)行段落或句子級別的對齊;j)導(dǎo)出:支持對齊完成后,導(dǎo)出對齊的雙語文k)保存:支持將對齊過程中的文本進(jìn)行保存。5GB/T40035—2021語料對齊工具應(yīng)提供:遇到問題時(shí)能夠快速獲得相應(yīng)的幫助;應(yīng)從以下方面評價(jià)語料對齊工具的效率:a)響應(yīng)時(shí)間:1)工具啟動(dòng)時(shí)間;3)恢復(fù)作業(yè)時(shí)間:關(guān)閉后再次打開工具時(shí),能快速定位上次作業(yè)位置的時(shí)間。b)便捷度:l)支持快捷鍵操作;2)支持右鍵菜單。語料對齊工具的兼容性要求如下:a)服務(wù)器端的語料對齊工具應(yīng)說明能夠支持的瀏覽器,并避免使用基于特定瀏覽器和特定操作b)服務(wù)器端的語料對齊工具應(yīng)適應(yīng)不同瀏覽器和分辨率的展示,應(yīng)提供至少一種推薦的瀏覽器題的提示信息等內(nèi)容。6加工流程對于圖片格式或掃描版的尚未數(shù)字化的語料,需先通過光學(xué)字符識別或直接通過鍵盤錄入轉(zhuǎn)成可編輯的電子文本語料。對語料中的亂碼及特殊字符等進(jìn)行排查和糾正。6GB/T40035—20216.2語料對齊格式等信息。服務(wù)提供方應(yīng)對加工結(jié)果進(jìn)行抽樣檢查,抽樣數(shù)不少于結(jié)果總條目數(shù)的10%,抽樣數(shù)據(jù)的準(zhǔn)確率不低于99%。7服務(wù)內(nèi)容等因素的影響較大。對于尚未數(shù)字化的語料,服務(wù)提供方應(yīng)與客戶識別或直接通過鍵盤錄入)達(dá)成一致。a)標(biāo)準(zhǔn)級。對原文和譯文執(zhí)行段落或句子級別的對齊,采集基本的元數(shù)據(jù)。應(yīng)就句子拆分的斷句規(guī)則、原文和譯文無法對應(yīng)的處理規(guī)則等情況達(dá)成一致。客戶應(yīng)將相關(guān)規(guī)范(如斷客戶與服務(wù)提供方可對語料的知識產(chǎn)權(quán)歸屬及數(shù)據(jù)保密等要求進(jìn)行協(xié)商約定。和歸檔。7GB/T40035—2021完成所用時(shí)間等信息。提供方需修復(fù)客戶提出的語料加工問題。工流程。對于分批交付的雙語語料,服務(wù)提供方應(yīng)在每批數(shù)據(jù)加工結(jié)果交付后安排專門客服人員進(jìn)行質(zhì)量8數(shù)據(jù)安全8.1數(shù)據(jù)備份信息查詢及客戶跟蹤。8GB/T40035—2021(資料性)A.1對雙語平行語料加工人員進(jìn)行語料加工所需知識和技能的培訓(xùn)可以:a)為雙語平行語料加工人員提供語料加工所需的技能;c)推動(dòng)雙語平行語料加工技術(shù)的發(fā)展和創(chuàng)新。A.2雙語平行語料加工人員的培訓(xùn)可包括:9(資料性)雙語語料加工的元數(shù)據(jù)雙語平行語料加工過程中應(yīng)記錄與雙語語料相關(guān)聯(lián)的元數(shù)據(jù),將其作為加工結(jié)果的一部分。元數(shù)據(jù)內(nèi)容包括但不限于表B.1所列,每一元素均可選,且可重復(fù)。內(nèi)容名稱標(biāo)簽定義注釋identifier標(biāo)識符雙語語料的唯一識別符一般是特定應(yīng)用系統(tǒng)內(nèi)具有唯一識別性的標(biāo)識符號。可由標(biāo)識應(yīng)用系統(tǒng)的前綴(即標(biāo)識符的類型)與一字符串(即標(biāo)識符的值)組成,可由系統(tǒng)產(chǎn)生或由人工賦予sourceLanguage源語言雙語語料中的源語言一般采用ISO639中規(guī)定的語言代碼和ISO3166中規(guī)定的國家代碼的組合標(biāo)識雙語語料中的源語言。例如,使用ZH-CN代表簡體中文targetLanguage目標(biāo)語言雙語語料中的目標(biāo)語言一般采用ISO639中規(guī)定的語言代碼和ISO3166中規(guī)定的國家代碼的組合標(biāo)識雙語語料中的目標(biāo)語言sourceTitle原文標(biāo)題原文的標(biāo)題一般指原文公開的標(biāo)題targetTitle譯文標(biāo)題譯文的標(biāo)題一般指譯文公開的標(biāo)題sourceOfSourceText原文來源原文文本資源的來源一般是用于確定提供所加工的原文文本的單位或個(gè)人sourceOfTargetText譯文來源譯文文本資源的來源一般是用于確定提供所加工的譯文文本的單位或個(gè)人原文出版日期原文文本資源的發(fā)布日期通常采用××××年××月××日的格式,如2018年9月1日譯文出版日期譯文文本資源的發(fā)布日期通常采用××××年××月××日的格式,如2018年9月1日author作者原文的作者編寫原文文本的單位或個(gè)人translator譯者譯文的作者翻譯原文文本的單位或個(gè)人subjectField領(lǐng)域雙語語料的領(lǐng)域一般采用關(guān)鍵詞或分類號來描述,建議使用受控詞表register語域雙語語料的語域一般采用關(guān)鍵詞或分類號來描述,建議使用受控詞表format格式文本資源的數(shù)字表現(xiàn)形式文本資源的內(nèi)容形式,包括資源內(nèi)容和元數(shù)據(jù)的類型GB/T40035—2021內(nèi)容名稱標(biāo)簽定義注釋采集方式雙語資源的采集方式如:OCR,人工錄入識別工具識別文本資源的軟件識別工具的名稱對齊方式雙語資源的對齊方式如:人工對齊,自動(dòng)對齊或自動(dòng)十人工對齊alignmentTool對齊工具對齊時(shí)使用的軟件對齊軟件的名稱字符集雙語平行語料加工結(jié)果采用的字符集的名稱通常采用的編碼為UTF-8,UTF-16,GB18030等日期完成雙語平行語料加工的日期通常采用××××年××月××日的格式,如2018年9月1日GB/T40035—2021(資料性)表C.1列出了TXT文件常見的編碼格式。表C.1TXT文件常見編碼格式編碼格式ASCI標(biāo)準(zhǔn)的單字節(jié)字符編碼方案,用于基于文本的數(shù)據(jù)。ASCII由美國國家標(biāo)準(zhǔn)學(xué)會(AmericanNationalStandardInstitute,ANSI)制定,后被ISO646標(biāo)準(zhǔn)所采用ISO8859-1是單字節(jié)編碼,向下兼容ASCII。ISO8859-1編碼有時(shí)稱Latin-1UnicodeUnicode(中文:萬國碼、國際碼、統(tǒng)一碼、單一碼)是計(jì)算機(jī)科學(xué)領(lǐng)域里的一項(xiàng)業(yè)界標(biāo)準(zhǔn)。Unicode是為了解決傳統(tǒng)的字符編碼方案的局限而產(chǎn)生,為世界上大多數(shù)的常用語言中的字符設(shè)定了統(tǒng)一并且唯一的二進(jìn)制編碼,以滿足跨語言、跨平臺進(jìn)行文本轉(zhuǎn)換、處理的要求UTF-8UTF-8編碼是一種針對Unicode的可變長度字符編碼,也是一種前綴碼。每一個(gè)字符的長度從1~6個(gè)字節(jié)不等。UTF-8編碼一個(gè)很重要的特性就是兼容ISO8859-1編碼GBK/GB2312GBK/GB2312是漢字的國標(biāo)碼,專門用來表示漢字,是雙字節(jié)編碼(資料性)TMX格式規(guī)范元素(TMX>元素包含一個(gè)<HEADER>元素,后跟一個(gè)(BODY)元素?!禩MX>元素有一個(gè)必需屬性:VERSION《HEADER)元素有四個(gè)必需屬性:CREATIONTOOL,SEGTYPE,O-TMF和DATATYPE有七個(gè)可選屬性:O-ENCODING,CREATIONDATE,CREATIONID,CHANGEDATE,CHANGEID,ADMINLANG和SRCLANG屬性:LANG和O-ENCODING。〈PROP)元素用于定義父元素(或在<HEADER)元素中使用(PROP>時(shí)的文件)的各種屬性(UDE>(用戶定義的編碼)元素包含一個(gè)或多個(gè)(MAP>元素。(UDE>元素有一個(gè)必需屬性:NAME。用于指定一組用戶定義的字符和/或從Unicode到用戶定義的編碼的映射(MAP/)元素為空(沒有內(nèi)容且沒有結(jié)束標(biāo)記)。<MAP/)元素有一個(gè)必需屬性:UNICODE和三個(gè)可選屬性:CODE,ENT和SUBST,用于指定用戶定義的字符及其某些屬性(BODY>元素包含主數(shù)據(jù),即組成文件的<TU>集。無屬性(PROP)元素,后跟一個(gè)或多個(gè)(TUV)元素九個(gè)可選屬性:O-ENCODING,DATATYPE,USAGECOUNT,LASTUSAGEDATE,CRE-ATIONTOOL,CREATIONDATE,CREATIONID,CHANGEDATE和CHANGEID每個(gè)(SEG>(段)包含(TUV>的文本。無屬性(NOTE)元素用于注釋,不包含其他元素。(NOTE>元素有兩個(gè)可選屬性:O-ENCODING屬性CREATIONTOOLCREATIONTOOL屬性標(biāo)識創(chuàng)建TMX文檔的工具CREATIONDATECREATIONDATE屬性指定元素創(chuàng)建的日期GB/T40035—2021屬性CREATIONIDCREATIONID屬性指定創(chuàng)建元素的用戶CHANGEDATECHANGEDATE屬性指定元素修改的日期CHANGEIDCHANGEID屬性指定修改元素的用戶O-ENCODINGO-ENCODING屬性指定元素?cái)?shù)據(jù)的原始或首選代碼集,以防在非Unicode代碼集中進(jìn)行編碼O-TMF(原始翻譯記憶庫格式)元素指定從中生成TMX文檔的翻譯記憶庫文件的格式LANG屬性指定元素?cái)?shù)據(jù)的語言或區(qū)域設(shè)置DATATYPEDATATYPE屬性指定元素的數(shù)據(jù)類型SRCLANGSRCLANG屬性指定源語言文本的語言或區(qū)域設(shè)置ADMINLANGADMINLANG屬性在(HEADER)元素中用于指定管理和信息元素<NOTE>,<META/)>和(PROP>的默認(rèn)語言NAMENAME屬性指定(META/>或(PROP>元素的信息類型,或(UDE>元素的名稱REF屬性用于指定(META/>元素的外部參考文檔ID屬性指定<TU>元素的標(biāo)識符USAGECOUNTUSAGECOUNT屬性指定<TU)或(TUV)的使用次數(shù)LASTUSAGEDATELASTUSAGEDATE屬性指定上次使用<TU)或(TUV)的時(shí)間VERSIONVERSION屬性指示文檔的TMX格式版本UNICODEUNICODE屬性指定(MAP/>元素的Unicode字符值CODE屬性指定用戶定義編碼中的代碼點(diǎn)值,該編碼對應(yīng)于給定(MAP/>元素的UNICODE字符ENT屬性指定由給定(MAP/)元素定義的字符的實(shí)體名稱SUBST屬性允許為給定(MAP/>元素中定義的字符指定備用字符串SEGTYPESEGTYPE屬性指定<TU>元素中使用的分段類型(資料性)E.2雙語平行語料加工結(jié)果的文件編碼應(yīng)避免采用非標(biāo)準(zhǔn)的專有字體和格式。雙語平行語料加工結(jié)b)GB
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年新教材高中歷史第1單元從中華文明起源到秦漢統(tǒng)一多民族封建國家的建立與鞏固第1課中華文明的起源與早期國家課后作業(yè)含解析新人教版必修中外歷史綱要上
- 2025年度勞動(dòng)法培訓(xùn)學(xué)習(xí)心得體會及勞動(dòng)保障政策解讀合同3篇
- 商丘學(xué)院《電影賞析》2023-2024學(xué)年第一學(xué)期期末試卷
- 二零二五年度建筑垃圾資源化利用項(xiàng)目施工合同標(biāo)準(zhǔn)3篇
- 二零二五年度鋁材貿(mào)易進(jìn)出口合同4篇
- 二零二五版標(biāo)前協(xié)議書-礦山開采項(xiàng)目3篇
- 二零二五年度林業(yè)產(chǎn)業(yè)結(jié)構(gòu)調(diào)整林權(quán)流轉(zhuǎn)協(xié)議4篇
- 2025年度煤礦井下自動(dòng)化控制系統(tǒng)設(shè)計(jì)與安裝合同4篇
- 二零二五年度鋁材產(chǎn)品環(huán)保標(biāo)準(zhǔn)執(zhí)行與監(jiān)督合同3篇
- 2025年度廠房設(shè)備租賃與人才培養(yǎng)合同3篇
- 新型電力系統(tǒng)簡介演示
- 特種設(shè)備行業(yè)團(tuán)隊(duì)建設(shè)工作方案
- 眼內(nèi)炎患者護(hù)理查房課件
- 肯德基經(jīng)營策略分析報(bào)告總結(jié)
- 買賣合同簽訂和履行風(fēng)險(xiǎn)控制
- 中央空調(diào)現(xiàn)場施工技術(shù)總結(jié)(附圖)
- 水質(zhì)-濁度的測定原始記錄
- 數(shù)字美的智慧工業(yè)白皮書-2023.09
- -安規(guī)知識培訓(xùn)
- 2021-2022學(xué)年四川省成都市武侯區(qū)部編版四年級上冊期末考試語文試卷(解析版)
- 污水處理廠設(shè)備安裝施工方案
評論
0/150
提交評論