版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第五章數(shù)字出版流程和標準本章學習要點●了解數(shù)字出版流程與傳統(tǒng)出版流程的異同;●掌握數(shù)字出版流程再造所需要解決的基本問題和數(shù)字出版流程的基本構成;●了解新技術環(huán)境下數(shù)字出版流程呈現(xiàn)的新特點;●掌握數(shù)字出版標準的定義與類型;●了解我國數(shù)字出版標準發(fā)展狀況。第一節(jié)數(shù)字出版主要流程一、數(shù)字出版流程與傳統(tǒng)出版流程的異同二、數(shù)字出版流程再造的基本問題與解決方案三、數(shù)字出版流程基本構成四、新技術環(huán)境下數(shù)字出版流程新特點五、全媒體流程再造——以煙臺日報傳媒集團為例一、數(shù)字出版流程與傳統(tǒng)出版流程的異同(一)流程再造當出版單位采用了以數(shù)字內容為核心的管理系統(tǒng)以后,傳統(tǒng)的編、印、發(fā)環(huán)節(jié)將被改變,這就是所謂的“流程再造”。(二)數(shù)字出版流程與傳統(tǒng)出版流程的相同之處紙質圖書的出版需要經歷選題策劃、約稿、審稿、編輯加工、發(fā)稿、排版、校對、質檢、印刷、發(fā)行等主要環(huán)節(jié)。同樣,數(shù)字出版產品的創(chuàng)作過程中有些環(huán)節(jié)是必不可少的,如都需進行選題策劃、產品加工制作、校對、發(fā)行等,數(shù)字出版通過兼顧傳統(tǒng)出版流程,進一步提高自身更新和迭代的能力。(三)數(shù)字出版流程與傳統(tǒng)出版流程的不同之處數(shù)字出版不再僅僅是對傳統(tǒng)出版物的數(shù)字化處理,還包括生成多形態(tài)的數(shù)字化產品,主要有電子書、有聲書、網絡視頻、網絡游戲、數(shù)字音樂、數(shù)字報紙等等,其內容資源的管理、資源加工與內容制作、產品發(fā)布都需要數(shù)字化技術做支撐。同時,隨著產品形態(tài)的豐富,企業(yè)在數(shù)字出版生產過程中會更加注重考量產品的受眾范圍,通過利用自建平臺和第三方平臺進行用戶數(shù)據(jù)收集,捕捉用戶瀏覽習慣和喜好,形成用戶畫像,在產品制作與分發(fā)的過程中能夠更具針對性,從而更好地滿足不同用戶的個性化需求,增強用戶黏性。二、數(shù)字出版流程再造的基本問題與解決方案(一)數(shù)字出版流程再造的基本問題基于效率和效益原則,一方面要解決資源集聚整合的效率與成本問題,另一方面要解決產品譜系(矩陣)成本收益率最大化問題。同時還要解決企業(yè)內部資源聚合規(guī)劃效益問題,產品譜系(矩陣)開放度問題,自有平臺渠道和第三方平臺渠道的適配問題,不同格式或開發(fā)序列的敏捷開發(fā)適配問題。(二)數(shù)字出版流程再造四要素數(shù)字出版流程再造包括四個要素:技術、人才、觀念、制度。其中技術創(chuàng)新是圖書數(shù)字化流程再造的核心,人才和觀念創(chuàng)新是圖書數(shù)字化流程再造的支撐,制度創(chuàng)新是圖書數(shù)字化流程再造的保障。1技術互聯(lián)網和人工智能技術的迅猛發(fā)展,一定程度上改變了人們的生產工具和生產方式。2人才數(shù)字出版流程再造離不開出版人才隊伍建設。3觀念編輯人員需要在短時間內轉變傳統(tǒng)的圖書生產觀念,革新理念來落實數(shù)字出版流程再造。4制度健全的管理制度和激勵機制是出版單位開展數(shù)字化流程再造的重要保障。三、數(shù)字出版流程基本構成(一)前期策劃前期策劃是數(shù)字出版物開發(fā)的第一步,策劃設計的內容是否全面、調研是否充分、對產品的思考和規(guī)劃是否到位,與對應產品開發(fā)時的順利程度、最終形成的產品質量息息相關。首先要確定產品的選題,確定其內容和整體風格。同時還需要對產品的受眾范圍進行考量,同時把握社會效益和經濟效益。其次,市場調研是前期策劃中不可缺少的重要部分。(二)素材采集文字材料是組成數(shù)字出版物的基本素材。圖片材料既可以作為數(shù)字出版物的主要內容,也可以是文字內容的輔助素材,使內容的表達更為直觀、生動。圖片可通過相關的資源庫獲得,也能通過相機拍攝、照片掃描獲得,還能通過制圖軟件進行自主創(chuàng)作。表格可以通過多種形態(tài)和色彩來表達含義。音視頻素材也是數(shù)字出版物區(qū)別于傳統(tǒng)出版物之處,通過音視頻素材的插入能夠帶來更為精彩的視聽體驗。不同類型的數(shù)字出版物素材獲取方式也不盡相同,可以根據(jù)產品的內容策劃和框架構想,通過互聯(lián)網檢索、文獻查詢、音視頻創(chuàng)作、采訪調研等多種方式獲得,之后對素材進行加工處理,調整格式和尺寸等。(三)產品制作與檢測產品制作是整個數(shù)字出版流程的核心所在。在進行產品制作時,需要整合所獲得的素材,根據(jù)產品的不同形態(tài)選用適配的創(chuàng)作工具,按照前期策劃設想一步一步地進行產品創(chuàng)作。在進行產品制作時,既要保證質量和產品規(guī)范化,也要確保產品本身符合法律法規(guī)。為了保證產品的質量,在完成數(shù)字出版產品的制作后,還應該在正式發(fā)布前對產品進行系統(tǒng)測試。(四)分發(fā)在完成數(shù)字出版物制作并進行產品檢測與調試后,便可對產品進行發(fā)布,使產品真正到達用戶手中,為用戶所用。數(shù)字出版可以打破時空限制,利用專業(yè)系統(tǒng)對口、聯(lián)機數(shù)據(jù)庫、網絡等手段,在極短的時間內完成傳統(tǒng)出版幾周才能完成的出版物的布貨、上架、推銷等工作,從而實現(xiàn)全世界范圍內的同步發(fā)行。根據(jù)不同數(shù)字出版產品的形態(tài)特征,選用相應的發(fā)布形式,能實現(xiàn)多渠道分發(fā)。四、新技術環(huán)境下數(shù)字出版流程新特點(一)產品形態(tài)更具開放性伴隨著市場和用戶需求的不斷變化,數(shù)字出版產品形態(tài)也日益豐富,具有更強的開放性和包容性。目前,數(shù)字出版的產品形態(tài)大體上可以分為五個類別:一是以電子圖書、電子期刊、有聲讀物為代表的數(shù)字出版物;二是以手機報、手機閱讀為特色的手機出版物;三是針對手持閱讀器、平板電腦等移動終端的數(shù)字出版產品;四是定制開發(fā)的數(shù)據(jù)庫數(shù)字出版增值產品;五是多形態(tài)數(shù)字出版衍生的互動產品。(二)不同類型內容資源的匯編式和序列式開發(fā)近年來,很多出版單位在獲得大眾類型的紙質書的版權之后,對其進行數(shù)字化加工和專業(yè)化配音,推出各種電子書和有聲書產品,憑借其新穎的形式和更好的體驗獲得了大量讀者的青睞。從紙質書、電子書、有聲書三者的版權簽訂和編輯加工等流程上可以看出,形成了一種數(shù)字出版產品的序列式開發(fā)方式,這也是專業(yè)類或知識類聚類型的數(shù)據(jù)庫結構化重組的體現(xiàn)。(三)數(shù)字資源保值增值效率要求提升以基于XML的一體化數(shù)字出版流程為例,其能夠形成各種可重復利用的結構化數(shù)據(jù)文件,為數(shù)據(jù)重復使用、實現(xiàn)多渠道的立體出版提供了基礎,并為跨平臺的數(shù)據(jù)讀取和數(shù)據(jù)交換以及數(shù)據(jù)的重新組織和再利用創(chuàng)造了條件。以上種種都體現(xiàn)出在數(shù)字出版流程再造的過程中,數(shù)字資源的管理效率得到了不斷提升。五、全媒體流程再造——以煙臺日報傳媒集團為例煙臺日報傳媒集團建立在煙臺日報社基礎上,成立于2005年9月,以報刊出版為主業(yè),目前擁有《煙臺日報》《煙臺晚報》以及黃海數(shù)字出版社和水母網等十家媒體。煙臺日報傳媒集團原有的出版流程是:不同媒體機構前往新聞事件發(fā)生地采集素材,并分別回到各自所在的部門進行編輯加工,次日進行出版印刷后,將內容通過水母網進行網絡發(fā)布產生電子報、手機報等。在新時代背景下,原有的出版流程無法適應新媒體傳播的需要,煙臺日報傳媒集團嘗試對原有的出版流程進行改造,向全媒體化的傳媒集團轉型。(一)構建數(shù)字資產管理平臺(二)構建全媒體新聞中心(三)采用全媒體數(shù)字復合出版系統(tǒng)(四)實行全媒體數(shù)字出版復合流程煙臺日報社水母網第二節(jié)數(shù)字出版相關標準一、數(shù)字出版標準概述二、我國數(shù)字出版標準化道路三、國外數(shù)字出版標準化一、數(shù)字出版標準概述(一)標準1定義標準是按照規(guī)定的程序經協(xié)商一致制定,為各種活動或其結果提供規(guī)則、指南或特性,供共同使用和重復使用的文件。標準需要一個編制、發(fā)布、實施的過程,我們稱之為標準化。2分類按照作用范圍,可以將標準分為國際標準、區(qū)域標準、國家標準、行業(yè)標準(專業(yè)、協(xié)會和部門)、地方標準和企業(yè)標準。按照作用種類,標準可以分為基礎標準、產品標準、方法標準、管理標準、衛(wèi)生標準、安全標準、環(huán)境標準等。根據(jù)《中華人民共和國標準化法》的規(guī)定,我國標準分為國家標準、行業(yè)標準、地方標準和團體標準、企業(yè)標準。3作用標準的制定,有利于國家資源的合理利用,便于科學技術成果的推廣,便于在各行各業(yè)形成良好運行秩序,保證產品質量,有利于產品的通用互換及標準的協(xié)調配套等,提高社會效益和經濟效益,保障社會安全和人民安全。(二)數(shù)字出版標準1定義數(shù)字出版標準是在國家范圍內或新聞出版行業(yè)內及相關企業(yè)內經協(xié)商一致制定并由公認機構批準,共同使用和重復使用的一種規(guī)范性文件。我國的數(shù)字出版標準體系主要包括標準整體架構、通用類標準、內容產品類標準、數(shù)據(jù)規(guī)格類標準、平臺傳播類標準、管理類標準、版權類標準七大方面。2我國新聞出版標準化管理體制目前新聞出版業(yè)的標準化技術委員會包括全國新聞出版標準化技術委員會、全國出版物發(fā)行標準化技術委員會、全國印刷標準化技術委員會和全國新聞出版信息標準化技術委員會等。(二)數(shù)字出版標準3我國數(shù)字出版標準發(fā)展情況2009年手機出版標準發(fā)布。2010年,制定了電子書相關基礎標準。2011年,全國新聞出版標準化技術委員會在制定《MPR出版物》(多媒體印刷閱讀出版物)系列國家標準的同時,積極與全國信息技術標準化技術委員會進行溝通。自2013年1月至2014年1月國家新聞出版廣電總局就發(fā)布了37項數(shù)字出版標準,我國數(shù)字出版標準的體系搭建初見規(guī)模。4數(shù)字出版標準的類型(1)數(shù)字出版基礎術語標準。(2)數(shù)字出版資源的分類標準。(3)數(shù)字出版資源的標識標準。(4)數(shù)字出版參與方的標識標準。(5)技術標準。(二)數(shù)字出版標準5我國數(shù)字出版相關標準匯總(1)國家標準。2017—2021年,我國數(shù)字出版相關的國家標準既涵蓋了傳統(tǒng)的數(shù)字出版產品(音像出版物、連續(xù)出版物)領域,也增加了知識服務等新興領域的相關標準。(2)國標計劃。截至2021年底,我國已下達、未批準發(fā)布的數(shù)字出版相關國標計劃主要涉及出版物在線信息交換、聲像數(shù)字出版物技術檢測和印前數(shù)據(jù)交換等方面。(3)行業(yè)標準。2014—2021年,我國數(shù)字出版相關的行業(yè)標準涵蓋音像出版物、電子圖書、網絡游戲、有聲讀物等產品種類,信息采集、資源加工、數(shù)據(jù)傳輸、數(shù)字閱讀、數(shù)據(jù)統(tǒng)計等生產傳播流程,以及物聯(lián)網、AR等相關技術。二、我國數(shù)字出版標準化道路(一)政策層面的宏觀標準設計2016年底,國家新聞出版廣電總局發(fā)布了“首批新聞出版業(yè)科技與標準重點實驗室名單”,里面有些是做標準建設的,諸如CNONIX國家標準、ISLI國家標準等。ISLI即國際標準關聯(lián)標識符(InternationalStandardLinkIdentifier),這是由我國主導制定的,于2015年5月被國際標準化組織全票通過,成為信息與文獻領域發(fā)布的第11項國際標準。2016年8月,ISLI中國國家標準正式發(fā)布。ISLI標志碼及圖標的申領應用示意圖(二)企業(yè)層面的自主參與(1)咪咕數(shù)媒牽頭發(fā)布移動閱讀電子書格式標準。(2)夢想人科技助力《出版物AR技術應用規(guī)范》的制定。新聞出版行業(yè)標準《出版物AR技術應用規(guī)范》于2019年正式發(fā)布,蘇州夢想人軟件科技有限公司全程主導參與了標準的論證、起草與制定,中國大地出版社有限公司、中地數(shù)媒(北京)科技文化有限責任公司、中國新聞出版研究院等單位參與標準的起草制定。(3)校企聯(lián)手牽頭起草《出版物VR技術應用要求》。三、國外數(shù)字出版標準化國際標準和國外先進標準很多是依據(jù)不同需求來制定的,例如數(shù)字出版領域的元數(shù)據(jù)標準就已被發(fā)達國家覆蓋,且各自支持不同的技術方案,存在著相互交叉、重復制定的現(xiàn)象,這也反映出標準化領域的競爭局面。我國的數(shù)字出版標準也需要走國際化道路,在符合有關法律法規(guī)和考慮我國實際情況的前提之下,大力采用國際標準,對我國的相關工作起到促進作用,提高效率,降低成本。同時,還要認真研究國際數(shù)字出版相關標準的變化與發(fā)展,積極參與國際標準的討論和制定,并爭取把我國的標準發(fā)展成國際標準。本章通過分析數(shù)字出版流程與傳統(tǒng)出版流程的異同,梳理了數(shù)字出版流程再造需要解決的基本問題、數(shù)字出版流程的基本構成,分析了新技術環(huán)境下數(shù)字出版流程呈現(xiàn)的新特點。并且,闡明了數(shù)字出版標準的定義、分類,介紹了我國數(shù)字出版標準的發(fā)展情況。本章小結1.簡述數(shù)字出版流程與傳統(tǒng)出版流程的不同之處。2.簡述新技術環(huán)境下數(shù)字出版流程的新特點。3.查找傳統(tǒng)出版單位成功進行數(shù)字化轉型升級的典型案例,并分析其對原有出版流程進行了哪些改造。4.舉例說明數(shù)字出版標準的類型。5.查找2020年至今我國發(fā)布的數(shù)字出版相關標準并簡要分析。6.簡述ISLI的內涵及應用。7.思考我國目前的數(shù)字出版相關標準還存在哪些不足。思考題第六章數(shù)字內容加工、管理技術本章學習要點●掌握數(shù)字內容加工與管理工作內容;●了解數(shù)字內容加工技術及其應用狀況;●了解數(shù)字內容管理技術及其應用狀況。第一節(jié)數(shù)字內容加工與管理概述數(shù)字內容加工與管理是數(shù)字出版的基礎工作。數(shù)字內容加工即按照一定規(guī)范,將數(shù)字內容進行統(tǒng)一生產、制作、修改、拆分、整合,以滿足用戶的使用目的或達到行業(yè)常用標準水平的過程。數(shù)字內容管理即將數(shù)字內容按照一定的邏輯組織方式,進行收集、整理、存貯、利用的過程。數(shù)字內容加工一般要通過系列軟件加以實現(xiàn),如OCR軟件、格式轉換軟件等;數(shù)字內容管理一般依托一個大型的資源管理系統(tǒng),如知識庫、數(shù)據(jù)庫系統(tǒng)等。第二節(jié)數(shù)字內容加工技術數(shù)字內容加工技術包含三種類型:版面理解技術、編輯工具集和XML編輯工具集。而在一些數(shù)字出版實踐中,經常根據(jù)復雜程度將數(shù)字內容加工技術分為初加工深加工兩種類型。國家數(shù)字復合出版系統(tǒng)工程的相關技術可以看作一種理論性技術,而初加工與深加工技術可以看作一種操作技術。一、國家數(shù)字復合出版系統(tǒng)工程的內容加工技術二、數(shù)字出版實踐中常用的相關技術三、數(shù)字內容加工技術的作用一、國家數(shù)字復合出版系統(tǒng)工程的內容加工技術國家數(shù)字復合出版系統(tǒng)工程可以理解為一種理論性、通用性的技術。首先,版面理解技術,主要指文檔資產結構化整理工作;其次,編輯工具集,主要為作者和編輯提供一組專業(yè)化的內容編輯工具;最后,XML編輯工具集,主要用于圖書、期刊和新聞文稿的XML格式轉換和編輯處理過程,包括Word或Excel文件轉換為XML文件之前的整理工作、XML轉換工作、轉換后的XML整理工作和XML編輯工作。在實際應用中,內容加工技術也可以分為以下八種類型:一是文檔編輯工具類二是輔助翻譯工具類三是文件格式轉換工具類四是缺字補字管理工具類五是特征抽取與檢查工具類六是水印處理工具類七是版面理解技術類八是自動標引工具類二、數(shù)字出版實踐中常用的相關技術(一)OCR技術OCR技術主要利用光學技術和計算機技術,通過檢測印刷體字符每個像素的亮、暗模式,將其轉換成一個黑白圖像的文件,然后再使用識別手段將黑白圖像文件轉換成計算機可以識別的文字。其工業(yè)化流程主要包括六個方面:1文件掃描和圖像處理(一)OCR技術1文件掃描和圖像處理首先是掃描前的文件整理環(huán)節(jié)。對紙質文件逐頁檢查并把影響掃描的污損、粘連等問題頁處理好。如果文件可以拆分掃描則要將文件拆分好,并在掃描結束后重新裝訂。接著是文件掃描環(huán)節(jié)。目前的快速掃描技術可以每秒鐘完成50頁A4紙的掃描工作。掃描后的圖片一般會按照設定格式存在規(guī)定存儲設備中,圖片的像素要求一般在300dpi以上。文件掃描常用的圖像格式有TIF、JPEG、PNG等,目前較為通用的是無損壓縮的TIF格式。掃描完成后是圖像處理環(huán)節(jié)。這一環(huán)節(jié)的主要工作是對掃描后的圖像去臟、糾偏,調整版心,使圖像更適合閱讀和識別。圖像處理環(huán)節(jié)可以使用通用圖像處理軟件(Photoshop、InDesign、AI等)或專門工具軟件。(一)OCR技術2版面分析圖像處理后的數(shù)據(jù)在進行OCR識別前需要進行版面分析。版面分析就是標記各類內容區(qū)域并確定其屬性的過程。例如,橫排文本區(qū)、豎排文本區(qū)、公式區(qū)、表格區(qū)和圖像區(qū)等。OCR識別引擎會根據(jù)區(qū)域的屬性識別需要識別的區(qū)域,而公式、分子式等不易識別區(qū)域就會以圖片的方式存儲并應用。版面分析使用專門軟件工具處理,可以自動處理,也可以手動處理。(一)OCR技術3
OCR識別OCR識別是指把圖像中的文字、符號等轉化為計算機編碼的過程。現(xiàn)代OCR識別技術已經可以處理多語種混排、多字體混排、簡繁體混排和表格等復雜的文本類型,同時識別率可達到95%以上。在紙質圖書加工系統(tǒng)中,一般都會采用多個識別技術方案同時識別,再對識別結果進行智能比較,以提高識別率。OCR識別過程是全自動批量處理的。OCR識別后的文本還會有較多的編碼錯誤和格式錯誤,需要人工校對和修改。校對分為橫向校對和縱向校對。(一)OCR技術4縱向校對縱向校對是將文件中的每個字符逐個切分成小圖形,并將程序認為相同的圖形逐一排列。當我們打開這一工序的界面時,屏幕顯示的都是同樣的字符。但在其中會含有一些相似的字符,如漢字中的“土”和“士”,英文中的“X”與“x”等。這就要求操作人員對照原圖形文件。如果是程序轉換錯誤,要根據(jù)圖像加以改正,從而保持與原文一致。由于同一屏幕出現(xiàn)的是同一個字符,因此,如有不同,操作人員極易發(fā)現(xiàn)并加以改正。經過這道工序,可基本完成錯字符的校對修改。(一)OCR技術5橫向校對橫向校對采用類似傳統(tǒng)的人工校對方法,即通過人工逐字逐句地將識別結果與原始圖像進行比對,找到錯誤的地方并修改。基于前道工序(縱向校對)的工作,橫向校對工作是將轉換后的文本文件對照原文件,在版式上加以修正。要求操作時,現(xiàn)有文件盡量保持原版式。操作界面分為上下兩個部分:上半部分是已經轉換完成、需要校對的文本文件,下半部分則是用來對照的原文件的掃描圖像。在上半部分我們同時可以看到一行底色略深的文字,它與下面緊挨的一行內容相同。這是在程序設計時,將當前校對一行的圖像剪切提取,擺放在正在校對一行的上面,便于操作員比照校對,相當于紙件校對的折校。(一)OCR技術6文審與校驗最后要對數(shù)字化的文件進行文審校驗,根據(jù)質檢標準調整數(shù)據(jù)的格式,改正之前未能發(fā)現(xiàn)的錯誤,差錯率一般要求控制在萬分之三以內。OCR技術能夠提供基礎的TXT文件,然后再根據(jù)客戶要求,進行深加工,形成最終數(shù)據(jù)文件。OCR技術對應國家數(shù)字復合出版系統(tǒng)工程中的版面理解技術,是對版面理解技術的深化。多核心(多重)OCR技術則進一步提高了識別效率。多核心OCR技術即利用多個不同OCR系統(tǒng)進行文字識別處理,然后將多個系統(tǒng)的文字識別結果進行比對。通常,經三個系統(tǒng)識別一致的文件,文字差錯率不超過十萬分之一,因此不需要進行人工校對。這樣,多核心的比對過濾掉了大量有錯誤的文字,大大提高了識別和校對效率。(二)XML技術1
XML概念XML(ExtensibleMarkupLanguage),即可擴展標記語言。標記指計算機所能理解的信息符號,可以用來標記數(shù)據(jù)和定義數(shù)據(jù)類型。通過此種標記,計算機可以處理包含各種信息的文本等。(二)XML技術2
XML發(fā)展XML是從標準通用標記語言(SGML)演化而來的。SGML是一種在Web出現(xiàn)之前就早已存在的用標記來描述文檔資料的通用語言。由于SGML比較復雜,人們推出了HTML。隨著Web應用的不斷深入,HTML也難以適應技術發(fā)展需要。于是Web標準化組織W3C建議使用一種精簡的SGML版本——XML。XML與SGML一樣,是一個用來定義其他語言的元語言。與SGML相比,XML開放性強,簡單易懂,是一門既無標簽集也無語法的新一代標記語言。(二)XML技術3
XML功能(1)XML可以從HTML中分離數(shù)據(jù),即能夠在HTML文件之外將數(shù)據(jù)存儲在XML文檔中,這樣可以使開發(fā)者集中精力使用HTML做好數(shù)據(jù)的顯示和布局工作,并確保數(shù)據(jù)改動時不會導致HTML文件也需要改動,從而方便維護頁面。(2)XML可用于數(shù)據(jù)共享。(3)XML可應用于B2B商業(yè)模式中,例如在網絡中交換金融信息。(4)XML可以充分利用數(shù)據(jù)。(5)XML可以用于創(chuàng)建新的語言。比如,WAP和WML語言都由XML發(fā)展而來。(二)XML技術4XML編輯加工的流程對XML的編輯加工即內容結構化加工。首先,根據(jù)不同類型圖書的知識體系特點,通過自動分析和人機交互兩種方式對圖書資源進行元數(shù)據(jù)標引。然后,按照圖書目錄拆分章節(jié)內容,包括章節(jié)下的文本段落、圖片、表格、公式等內容。最后,將標引和拆分完后生成的數(shù)據(jù)導出為XML、PDF、EPUB、Word等文檔格式。圖書的XML加工流程如下:(1)安裝編輯加工軟件;(2)分析文件;(3)制作;(4)設置目錄級別;(5)元數(shù)據(jù)提取;(6)導出XML;(7)使用XML編輯器檢查文件;(8)使用DTD/Schema校驗XML結構規(guī)范。(二)XML技術5
XML數(shù)字出版標準按照2014年國家新聞出版廣電總局數(shù)字出版司發(fā)布的《圖書數(shù)字資源內容標引規(guī)則》,結合圖書的結構建立DTD/Schema。DTD(DocumentTypeDefinition)是一種定義標記語言的語言,它可以定義XML文件使用的標記、屬性和實體以及它們之間的嵌套關系。DTD相當于XML的法律性文件,如果不滿足DTD文件的約束,就不能稱為一個有效的XML文件。(二)XML技術6
XML數(shù)據(jù)轉換一個基于XML的內容深加工系統(tǒng),包含了內容預處理、格式轉換、內容校驗等環(huán)節(jié)。內容前期處理以兼容多種源文件格式的內容預處理系統(tǒng)為核心。該系統(tǒng)采用轉換模板配置的方式,以滿足不同項目對各類排版文件前期預處理的轉換要求。數(shù)據(jù)成品轉換以兼容多項目標準的多格式數(shù)字內容制作系統(tǒng)為核心。該系統(tǒng)采用輸出標準模板配置的方式來滿足各項目多格式產品輸出標準。紙質資源利用掃描識別系統(tǒng)實現(xiàn)高效轉換,電子資源利用排版文件反解技術實現(xiàn)高效轉換。質檢管理以兼容多項目標準的加工數(shù)據(jù)內容校驗系統(tǒng)為核心。該系統(tǒng)可針對XML、HTML、EPUB等格式電子書、圖片、封面等,分別按照各項目標準配置質檢指標,實現(xiàn)批量數(shù)據(jù)一次處理,保障數(shù)據(jù)質檢效果。基于XML的內容加工界面三、數(shù)字內容加工技術的作用數(shù)字內容加工的目標是實現(xiàn)數(shù)字內容產品更好地傳播和利用。目前產業(yè)環(huán)境中,相關技術能夠實現(xiàn)以下目標。(一)高效實現(xiàn)數(shù)據(jù)格式轉換(二)精準實現(xiàn)內容結構標引(一)高效實現(xiàn)數(shù)據(jù)格式轉換數(shù)字出版中的經常性數(shù)據(jù)轉換是將方正書版文件、飛翔文件、WPS文件、InDesign文件和Word文件等排版文件轉換輸出為PDF格式的文件。在實際工作中,會經常出現(xiàn)的問題有文字亂碼、內容缺失、版面錯頁(跑版)、英文單詞間空格丟失等。數(shù)字內容加工工具有效地解決了這些問題。格式轉換后的PDF文件按其中圖片的質量可分為瀏覽級PDF和印刷級PDF,瀏覽級可作為成品數(shù)據(jù)應用到電子圖書產品中。數(shù)字內容也包括圖像及音視頻內容,如圖像處理技術涉及圖像數(shù)字化、圖像增強和復原、圖像數(shù)據(jù)編碼、圖像分割和圖像識別等,音視頻處理技術涉及音視頻的編碼、壓縮、轉換、還原等,這些也屬于廣義的數(shù)據(jù)格式轉換范疇。(二)精準實現(xiàn)內容結構標引傳統(tǒng)出版物的內容標引受限于載體,所以多數(shù)側重于內容的外部特征,例如標題、關鍵詞、作者、作品分類、載體以及出版者等。而數(shù)字內容拓展到了用戶生成內容、專業(yè)生成內容、職業(yè)生成內容(Occupationally
GeneratedContent,OGC)以及設備驅動內容(DeviceGeneratedContent,DGC)等多種內容生成模式。同時,數(shù)字內容既有文字、圖像、音頻、視頻以及AR/VR等不同形式,也有融這些交付形式于一體的綜合形式。借助于當前的標引工具,可以精準地對這些內容進行有序化處理,并利用一定的規(guī)則、技術和方法,通過對內容的深度挖掘,精確表達內容之間的邏輯關系。第三節(jié)數(shù)字內容管理技術一、信息資源管理系統(tǒng)二、出版ERP一、信息資源管理系統(tǒng)(一)信息資源管理系統(tǒng)概述信息資源管理系統(tǒng)是對加工后的數(shù)字內容進行全面管理的系統(tǒng),它對數(shù)字內容進行采集、分類、存儲、發(fā)布等流程化管理。信息資源管理系統(tǒng)的目標是為數(shù)字出版單位提供一整套統(tǒng)一編目、統(tǒng)一存儲、統(tǒng)一管理的平臺,將數(shù)字化的圖書、期刊、圖像、音頻、視頻等多種資源建立關聯(lián)關系,實現(xiàn)數(shù)字資源快速、便捷、高效地調用和產品重組,為出版單位的數(shù)字資源長期保存、檢索、加工、發(fā)布、服務提供數(shù)據(jù)支撐。信息資源管理系統(tǒng)一般由底層數(shù)據(jù)庫及平臺頁面、應用軟件等部分組裝在一起形成完整的平臺。(二)信息資源管理系統(tǒng)運行1數(shù)字內容的采集在信息資源管理系統(tǒng)進行數(shù)字內容采集時,需要內容使用權所有者運用模板采集、標準采集或直接上傳等方式上傳內容。模板采集指上傳者從系統(tǒng)下載符合XML要求的Excel表單,填寫數(shù)字內容的元數(shù)據(jù)信息和資源路徑,然后上傳數(shù)字內容。標準采集指在選定資源類型后,指定文件路徑,系統(tǒng)將數(shù)字內容元數(shù)據(jù)信息、源文件和成品文件同時采集入庫。除了內容上傳之外,還有數(shù)據(jù)轉儲與網絡爬蟲采集等數(shù)字內容采集方式。(二)信息資源管理系統(tǒng)運行2數(shù)字內容的存儲經過分類或者主題標引的數(shù)字內容采集完成后,就進入了存儲環(huán)節(jié)。數(shù)字內容存儲對象包括數(shù)據(jù)流在加工過程中產生的臨時文件或加工過程中需要查找的信息。這些內容以某種格式記錄在計算機內部或外部存儲介質上,如磁盤和磁帶都屬于存儲介質。數(shù)字內容存儲組織方式因存儲介質而異。數(shù)字內容存儲過程中,經常會涉及數(shù)據(jù)遷移和云存儲兩種存儲模式。數(shù)據(jù)遷移,又稱分級存儲管理(HerarchicalStorageManagement),是一種將離線存儲與在線存儲融合的技術。云存儲是一種網上在線存儲的模式,即把數(shù)字內容存放在第三方托管的多臺虛擬服務器(非專屬的服務器)上。(二)信息資源管理系統(tǒng)運行3數(shù)字內容的管理信息資源管理系統(tǒng)采用源文檔庫、中間文檔庫、產品文檔庫的三級庫結構對數(shù)字內容資源實施管理。源文檔庫將存儲所有電子文檔和其他數(shù)字資源,以方便后續(xù)數(shù)字內容產品的編輯工作;中間文檔庫將根據(jù)開發(fā)需求,構建各類素材庫,將加工完成的素材分別存儲于相應素材庫中,以供數(shù)字內容產品研發(fā)使用;產品文檔存儲于用于分發(fā)的第三級文檔庫,如基于電子書的EP
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 規(guī)章制度檢查
- 營業(yè)員的實習報告
- 市場營銷畢業(yè)實習報告15篇
- 從事家政服務公司勞動合同書(3篇)
- 讀書分享會發(fā)言稿
- DB11T 1499-2017 節(jié)水型苗圃建設規(guī)范
- 新疆阿勒泰地區(qū)(2024年-2025年小學五年級語文)人教版階段練習(下學期)試卷及答案
- 反比例函數(shù)教案文檔
- 煤礦人工智能算法評估規(guī)范征求意見稿
- 上海市市轄區(qū)(2024年-2025年小學五年級語文)統(tǒng)編版開學考試(上學期)試卷及答案
- 滴灌安裝工程合同2024年
- 小區(qū)業(yè)主微信群管理規(guī)約
- HG∕T 2469-2011 立式砂磨機 標準
- 2024考研英語二試題及答案解析
- 2023遼寧公務員考試《行測》真題(含答案及解析)
- 《咖啡知識》課件
- 2024年貴州退役軍人事務廳事業(yè)單位筆試真題
- 高中英語校本教材《高中英語寫作指導》校本課程綱要
- 2024年河南中考歷史試卷試題答案解析及備考指導課件
- 河南省鄭州楓楊外國語學校2025屆物理九年級第一學期期中綜合測試模擬試題含解析
- 食品安全與營養(yǎng)健康自查制度(學校食堂)
評論
0/150
提交評論