當(dāng)前檔案大數(shù)據(jù)研究的誤區(qū)與重點(diǎn)研究領(lǐng)域思考_第1頁
當(dāng)前檔案大數(shù)據(jù)研究的誤區(qū)與重點(diǎn)研究領(lǐng)域思考_第2頁
當(dāng)前檔案大數(shù)據(jù)研究的誤區(qū)與重點(diǎn)研究領(lǐng)域思考_第3頁
當(dāng)前檔案大數(shù)據(jù)研究的誤區(qū)與重點(diǎn)研究領(lǐng)域思考_第4頁
當(dāng)前檔案大數(shù)據(jù)研究的誤區(qū)與重點(diǎn)研究領(lǐng)域思考_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、當(dāng)前檔案大數(shù)據(jù)研究的誤區(qū)與重點(diǎn)研究領(lǐng)域思考摘要:本文從大數(shù)據(jù)的概念和檔案發(fā)展規(guī)律入手,認(rèn)為.當(dāng)前檔案大數(shù)據(jù)的發(fā)展方向是基 于數(shù)據(jù)流的實(shí)時信息處理、分析與歸檔,指出當(dāng)前檔案大數(shù)據(jù)研究上存在的誤區(qū),并由此提 出了檔案大數(shù)據(jù)領(lǐng)域亟需研究的重點(diǎn)領(lǐng)域。關(guān)鍵詞:大數(shù)據(jù)檔案數(shù)據(jù)流Abstract: From the concept and development of the law of large data archives, and thinks that the cur? rent direction of big data file is based on real-time in? format

2、ion processing data flow analysis and ar? chiving, pointed out the existence of a large data ar? chive study on the current mi sunderstanding and thereby made archive large data fields need research focus areas and issues.Keywords: Big data: Files: Data stream進(jìn)入21世紀(jì),大數(shù)據(jù)時代的到來已經(jīng)成為信息化發(fā)展的基本趨勢之一,在社會各個領(lǐng)域

3、不斷融入大數(shù)據(jù)思維和引入大數(shù)據(jù)技術(shù),掀起了新變革的浪潮。同樣,“大數(shù)據(jù)”為檔案管理 領(lǐng)域帶來了新技術(shù)、新理念,以及新的機(jī)遇與挑戰(zhàn),檔案大數(shù)據(jù)研究也成為近年來檔案管理 領(lǐng)域的熱點(diǎn)。但也有專家認(rèn)為當(dāng)前檔案大數(shù)據(jù)研究存在一些過度炒作與概念“透支”現(xiàn)象, 認(rèn)為大數(shù)據(jù)的實(shí)時動態(tài)性、決策預(yù)測性特征與檔案信息的滯后靜態(tài)性、證據(jù)解惑性特征相偏 離,提出要讓檔案大數(shù)據(jù)概念理性回歸。1筆者認(rèn)為,當(dāng)前檔案學(xué)領(lǐng)域確實(shí)存在對大數(shù)據(jù)概念過度解讀的現(xiàn)象,進(jìn)而形成了研究熱 潮,但在研究的理念、方式、方法上與大數(shù)據(jù)時代的要求相去甚遠(yuǎn),缺乏深度、廣度與前脂 性。本文對檔案大數(shù)據(jù)研究中存在的誤區(qū)進(jìn)行分析,澄清某些認(rèn)識的同時,提出檔

4、案大數(shù)據(jù) 研究的重點(diǎn)領(lǐng)域,以期起到拋磚引玉的作用,為檔案界大數(shù)據(jù)深入研究提供參考。一、對檔案大數(shù)據(jù)概念的理解什么是“檔案大數(shù)據(jù)”?要正確理解檔案大數(shù)據(jù),有必要對“大數(shù)據(jù)”與“檔案”這兩 個概念進(jìn)行深入剖析。對大數(shù)據(jù)概念的認(rèn)識“大數(shù)據(jù)”描述的是隨著數(shù)據(jù)量和數(shù)據(jù)類型激增而逐漸衍生出來的一種現(xiàn)象,包括大規(guī) 模的、多樣化種類的數(shù)據(jù)集,以及對數(shù)據(jù)集進(jìn)行采集、處理、提取價值的技術(shù)架構(gòu)與技術(shù)過 程。2普遍認(rèn)為“大數(shù)據(jù)”具有“4V”特征,即“數(shù)據(jù)量大”、“速度快”、“類型多”以及“價 值密度低”。拋開數(shù)據(jù)的海量化生產(chǎn)和存儲這種表面現(xiàn)象,由數(shù)據(jù)量變帶來的質(zhì)變之一便體現(xiàn) 在思維方式的轉(zhuǎn)變上。大數(shù)據(jù)時代帶給我們的是

5、一種全新的、顛覆性的思維方式,這種思維 方式體現(xiàn)在:(1)分析全面的數(shù)據(jù):(2)重視數(shù)據(jù)的復(fù)雜性,弱化精確性:(3)關(guān)注數(shù)據(jù)的 相關(guān)性。因此,檔案領(lǐng)域大數(shù)據(jù)研究的重點(diǎn)應(yīng)該放在如何分析和應(yīng)用檔案數(shù)據(jù)的全面性、復(fù) 雜性、相關(guān)性等特點(diǎn)上。(二)對檔案概念的認(rèn)識目前國內(nèi)外對檔案的定義有數(shù)百種之多,其定義角度和具體表達(dá)各不相同。中華人民共 和國檔案法將檔案定義為“過去和現(xiàn)在的國家機(jī)構(gòu)、社會組織以及個人從事政治、經(jīng)濟(jì)、 科學(xué)、技術(shù)、文化、宗教等活動直接形成的對國家和社會有保存價值的各種文字、圖表、聲 像等不同形式的歷史記錄”。通過該定義可以看出,檔案可簡化為“以各種形式承載的有價值 的歷史活動”。其構(gòu)成要

6、素有三個,即“載體”、“價值”和“活動”。隨著社會生產(chǎn)力及科技 文化的發(fā)展,檔案載體實(shí)現(xiàn)了從甲卅、金石、簡牘綠帛、紙墨文書、磁帶、光盤、硬盤、縮 微膠片不斷變化。所謂檔案的“價值”則取決于利用者的目的、方式和方法,是一種受主客 觀因素影響的判斷?!盎顒印钡尼屃x則是“為達(dá)到某種目的而采取的行動”,涉及時間、地點(diǎn)、 事件等諸多因素,其表達(dá)方式也是不斷變化發(fā)展的。由此可見,“檔案”這個概念是一個不斷 發(fā)展變化的過程,我們研究檔案不能局限于紙質(zhì)載體或單個的電子文件,或文本、照片、錄 像、錄音等呈現(xiàn)方式。(三)對檔案大數(shù)據(jù)概念的認(rèn)識大數(shù)據(jù)概念與檔案概念相結(jié)合得到的檔案大數(shù)據(jù),是大數(shù)據(jù)的概念、理論、技術(shù)與

7、方法 在檔案領(lǐng)域的應(yīng)用與實(shí)踐。參考其他領(lǐng)域針對大數(shù)據(jù)研究的成果,我們可以得出檔案大數(shù)據(jù) 在實(shí)質(zhì)上是一種基于發(fā)展的、動態(tài)的、數(shù)據(jù)流的檔案觀:基于海量數(shù)據(jù)的實(shí)時技術(shù)處理和知 識挖掘過程;是一種基于數(shù)據(jù)全而性、復(fù)雜性、相關(guān)性的思維分析方法;是一種顛覆傳統(tǒng)的、 全新的檔案管理模式。二、當(dāng)前檔案大數(shù)據(jù)研究的三個誤區(qū)有人認(rèn)為,大數(shù)據(jù)時代僅僅是''信息時代”“網(wǎng)絡(luò)時代”的一種新提法,而檔案大數(shù)據(jù)就 是檔案信息化。在這種觀念的影響下,當(dāng)前檔案大數(shù)據(jù)研究主要涉及現(xiàn)有管理體制下的檔案 信息化建設(shè)、檔案工作機(jī)制轉(zhuǎn)變、檔案服務(wù)領(lǐng)域擴(kuò)展等方面。筆者認(rèn)為,這些研究以傳統(tǒng)檔 案管理思維方式去理解和解析檔案大

8、數(shù)據(jù),偏離了檔案大數(shù)據(jù)的本質(zhì),存在如下誤區(qū):(一)誤區(qū)一:以紙質(zhì)檔案數(shù)字化為對象進(jìn)行檔案大數(shù)據(jù)的研究當(dāng)前對檔案大數(shù)據(jù)的研究,普遍以紙質(zhì)檔案數(shù)字化為對象,圍繞著紙質(zhì)檔案數(shù)字化生產(chǎn)、 信息系統(tǒng)建設(shè)、服務(wù)領(lǐng)域擴(kuò)展來開展研究。然而,紙質(zhì)檔案所承載的信息本身具有滯后、靜 止、穩(wěn)定等特點(diǎn),這并不是能通過掃描達(dá)到的數(shù)字化可以消除的。這種以紙質(zhì)檔案數(shù)字化為 對象的研究方向忽略了大數(shù)據(jù)的“大”本質(zhì)在于動態(tài)性、實(shí)時性以及其所帶來的數(shù)據(jù)加速度 增長。從檔案的發(fā)展歷程看,檔案記錄的內(nèi)容從文字、聲音、圖像到視頻等,其表現(xiàn)形式越來 越生動,信息容量越來越大、數(shù)據(jù)讀取解析速度越來越快,這種數(shù)字檔案迅疏發(fā)展的趨勢完 全符合大

9、數(shù)據(jù)的“4V”特征。例如,在2014年3月8日馬航MH370失聯(lián)事件中,有關(guān)的運(yùn)行 控制數(shù)據(jù)、空管運(yùn)行數(shù)據(jù)、通話記錄、雷達(dá)監(jiān)控數(shù)據(jù)以及將來可能發(fā)現(xiàn)的“黑匣子”數(shù)據(jù)等 均可視為該事件的數(shù)字檔案。這些海量的、類型繁多的數(shù)據(jù)是分析馬航客機(jī)失聯(lián)原因的重要 依據(jù)??梢灶A(yù)見,未來的數(shù)字檔案將以數(shù)據(jù)流的形式動態(tài)地生成、快速地甄別、實(shí)時地存儲, 數(shù)據(jù)的采集、處理將具有很強(qiáng)的時效性。盡管當(dāng)前檔案的呈現(xiàn)方式還是以紙介質(zhì)載體為主,但從信息技術(shù)和檔案載體的發(fā)展進(jìn)程看,傳統(tǒng)檔案數(shù)字化的數(shù)據(jù)規(guī)模和利用效率將相對變小。 因此,檔案大數(shù)據(jù)的研究應(yīng)以實(shí)時記錄事件的各種數(shù)據(jù)流作為主要研究對象,這才符合大數(shù) 據(jù)時代檔案發(fā)展的客觀規(guī)

10、律。(一)誤區(qū)二:以傳統(tǒng)檔案管理流程為基礎(chǔ)進(jìn)行檔案大數(shù)據(jù) 的研究傳統(tǒng)的檔案管理流程基本上是收集、整理、保管、鑒定、統(tǒng)計與利用,這是一個有著嚴(yán) 格先后順序的檔案管理流程,各個環(huán)fj的處理主要依靠手工或人工方式完成。其弊端是耗費(fèi) 時間長,時間跨度大,時效性弱。如圖1所示。這種管理流程當(dāng)前不但廣泛應(yīng)用于紙質(zhì)檔案的管理,而且普遍應(yīng)用于聲像檔案、電子文 件與電子檔案的管理。以這種流程模式收集、管理的檔案信息具有穩(wěn)定的、靜止的、滯后的 特點(diǎn)。近年來也有很多關(guān)于在線電子文件歸檔方面的研究,但所涉“在線”歸檔的電子文件 內(nèi)容是確定的,所遵循的處理環(huán)節(jié)也與傳統(tǒng)檔案管理流程基本一致,只不過借助網(wǎng)絡(luò)傳輸、 數(shù)據(jù)庫技

11、術(shù)以及計算機(jī)輔助方式進(jìn)行處理。當(dāng)前對檔案大數(shù)據(jù)的研究,潛意識地沿用了這種 流程模式,將檔案的收集、整理、保管、鑒定、統(tǒng)計與利用這些環(huán)行按傳統(tǒng)的處理順序割裂 開來,僅就某一環(huán)節(jié)進(jìn)行研究,未體現(xiàn)出大數(shù)據(jù)處理的時效性特征。筆者認(rèn)為,隨著電子政務(wù)的快速發(fā)展以及各類物理傳感器的廣泛應(yīng)用,數(shù)字檔案將越來 越趨向于以數(shù)據(jù)流的方式產(chǎn)生、處理和歸檔。例如,醫(yī)療檔案按原有的檔案管理模式,需要 等病人完全康復(fù)出院后,經(jīng)過一段時間的收集整理才能形成完整的醫(yī)療檔案:而醫(yī)院使用醫(yī) 療管理信息系統(tǒng)后,從病人掛號開始,在門診、繳費(fèi)、化驗(yàn)、取藥、手術(shù)、住院、出院等各 個環(huán)節(jié),將即時得到電子病歷、處方、化驗(yàn)報告、X透視圖像、費(fèi)用

12、單等數(shù)據(jù)信息,所得的數(shù) 據(jù)均能對下一階段的治療和管理起到參考作用。顯然,這種基于治療環(huán)節(jié)即時生成的醫(yī)療檔 案,完全具有甚至超過傳統(tǒng)紙質(zhì)檔案承載的信息,但信息收集、歸檔與利用的環(huán)行又與紙質(zhì) 檔案截然不同,具有典型事件觸發(fā)生成數(shù)據(jù)流的特點(diǎn)。因此,對檔案數(shù)據(jù)流的分析、處理與 存儲,將是檔案大數(shù)據(jù)研究的重要內(nèi)容。筆者認(rèn)為,基于檔案數(shù)據(jù)流的處理主要有如下特點(diǎn): (1)數(shù)據(jù)的產(chǎn)生或采集是動態(tài)的或?qū)崟r的:(2)數(shù)據(jù)分析與甄別(類似于紙質(zhì)檔案的鑒定) 是實(shí)時的:(3)數(shù)據(jù)是實(shí)時存儲和動態(tài)更新的:(4)數(shù)據(jù)分析和信息挖掘主要由計算機(jī)在各 種規(guī)則庫和知識庫支撐下主動處理,可以包含少量的人工干預(yù):(5)信息挖掘和利

13、用過程中 產(chǎn)生的新規(guī)則或知識將即時更新到規(guī)則庫和知識庫中。檔案數(shù)據(jù)流的管理流程如圖2所示。(三)誤區(qū)三:基于傳統(tǒng)檔案管理體制思維進(jìn)行檔案大數(shù)據(jù)的研究檔案館作為專門管理檔案的社會組織實(shí)體,一直是檔案事業(yè)的主體,在檔案管理中具有 關(guān)鍵性作用。受傳統(tǒng)檔案管理體制思維的影響,當(dāng)前檔案大數(shù)據(jù)的研究主要是圍繞檔案館這 個組織實(shí)體,研究大數(shù)據(jù)時代如何進(jìn)行檔案數(shù)字化,如何建設(shè)檔案館庫,如何轉(zhuǎn)變工作機(jī)制, 如何制定管理規(guī)則制度,如何拓展服務(wù)領(lǐng)域等等。在這種傳統(tǒng)思維的主導(dǎo)下,檔案大數(shù)據(jù)的 研究主要圍繞檔案館各方面的建設(shè)與發(fā)展展開。筆者認(rèn)為,這是對大數(shù)據(jù)概念的一種誤讀。 社會發(fā)展的變革往往是以新模式對舊模式的顛覆性

14、變化來體現(xiàn)的。例如,傳統(tǒng)商務(wù)是以固定 不變的銷售地點(diǎn)和固定不變的銷售時間為特征的店鋪式銷售;而電子商務(wù)徹底顛覆了這兩個 特征,網(wǎng)店購物只需點(diǎn)擊鼠標(biāo),不需當(dāng)而交接貨物,也沒有時間限制,具有全新的時空優(yōu)勢。 同樣,對檔案大數(shù)據(jù)而言,隨著云存儲和云計算技術(shù)的廣泛應(yīng)用,數(shù)據(jù)儲存和計算服務(wù)的網(wǎng) 絡(luò)化使得提供存儲和服務(wù)的實(shí)體變得不確定起來,承擔(dān)著檔案保管基地和檔案史料中心角色 的檔案館,也將相對弱化。數(shù)字檔案將越來越趨于由該檔案原始數(shù)據(jù)生產(chǎn)者進(jìn)行動態(tài)管理與 維護(hù),并向其他社會組織或個人提供訪問服務(wù)。因此,我們研究檔案大數(shù)據(jù),需要打破以檔 案館為主體的傳統(tǒng)檔案管理思維的慣性和禁錮,取而代之的是樹立以數(shù)據(jù)為主

15、體的研究思路, 圍繞檔案數(shù)據(jù)的運(yùn)行流程,展開前瞻性、可行性的研究與論證。三、檔案大數(shù)據(jù)研究的重點(diǎn)領(lǐng)域根據(jù)檔案大數(shù)據(jù)的特點(diǎn)和發(fā)展方向,筆者認(rèn)為需要在以下六個領(lǐng)域進(jìn)行重點(diǎn)研究:(一)檔案學(xué)術(shù)歸約的重建作為一個學(xué)科必須對所研究的對象建立起范疇、概念系統(tǒng)的約定,這就是所謂的'歸約”。 電子文件的興起已經(jīng)改變了傳統(tǒng)的文件處理和檔案管理方法,對當(dāng)今檔案的概念、本質(zhì)性、 管理方法、理論學(xué)說等產(chǎn)生了強(qiáng)烈的沖擊。數(shù)據(jù)流、數(shù)據(jù)庫的出現(xiàn),信息生成與存在形態(tài)上 的變化,則進(jìn)一步動搖和顛覆了現(xiàn)有檔案學(xué)的概念系統(tǒng)和研究范疇。例如,數(shù)據(jù)庫是一種電 子檔案嗎?什么樣的數(shù)據(jù)流才具有檔案特征?文件生命周期理論在信息的實(shí)時

16、采集、即時分 析、動態(tài)更新的環(huán)境中還有意義嗎?為數(shù)據(jù)流實(shí)時分析、模式識別、知識挖掘提供支持的知 識庫與規(guī)則庫屬于檔案概念體系中的什么成分?基于“云”存儲與“云”計算的數(shù)據(jù)檔案存 儲與服務(wù),其實(shí)體邊界和效能如何界定?如果說大數(shù)據(jù)時代的檔案學(xué)正在重建,那么這些問 題都是必須遂慎思考、深入研究的。(二)基于電子檔案的法規(guī)體系研究現(xiàn)有檔案法規(guī)體系是以中華人民共和國檔案法為核心,以檔案局為行政執(zhí)法主體, 該法規(guī)體系建立的基礎(chǔ)是實(shí)體檔案及其管理模式,由此衍生的若干檔案行政法規(guī)、規(guī)章均是 以實(shí)體檔案為管理對象。隨著信息化進(jìn)程的加快,電子文件和電子檔案的管理也被納入其中。 需要注意的是,檔案大數(shù)據(jù)以電子檔案為

17、基礎(chǔ),與傳統(tǒng)檔案有著本質(zhì)區(qū)別。隨著檔案事業(yè)的 發(fā)展,對電子檔案管理和維護(hù)的組織實(shí)體將日益多樣化,因此,必須考慮以大數(shù)據(jù)的思維來 構(gòu)建基于電子檔案的管理利用法規(guī)體系,從數(shù)據(jù)的管理與利用出發(fā),合理規(guī)范檔案數(shù)據(jù)的生 產(chǎn)、儲存、利用,合理界定國家安全、隱私保護(hù)、數(shù)據(jù)權(quán)益等方面的邊界。如何建立有利于 檔案大數(shù)據(jù)管理、利用與發(fā)展的檔案法規(guī)體系,將是檔案大數(shù)據(jù)研究的重要領(lǐng)域。(三)檔案內(nèi)容元數(shù)據(jù)體系的研究所謂元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),是對信息資源的結(jié)構(gòu)化的描述。元數(shù)據(jù)描述了信息資源 或數(shù)據(jù)本身的特征和屬性,規(guī)定了數(shù)字化信息的組織,揭示了數(shù)據(jù)之間的相關(guān)性和依賴性。 大數(shù)據(jù)并非簡單的數(shù)據(jù)量巨大、種類眾多,大數(shù)據(jù)的

18、知識挖掘與利用主要依賴于各類數(shù)據(jù)之 間的相關(guān)性。建立、理順各類檔案數(shù)據(jù)的相關(guān)性將是檔案領(lǐng)域大數(shù)據(jù)應(yīng)用研究的重點(diǎn)。當(dāng)前 檔案管理中存在的缺陷是檔案承載信息的孤立性和冗余性。例如,在綜合檔案館保管的多個 全宗中,某個全宗形成的某些文件也保存在其他全宗中,出現(xiàn)重份甚至多份的現(xiàn)象,進(jìn)而造 成大量資料的重復(fù)。對于電子檔案,通過網(wǎng)絡(luò)可以解決數(shù)據(jù)共享的問題,但要確保檔案信息 準(zhǔn)確、無冗余,還需對各類檔案的數(shù)據(jù)項(xiàng)進(jìn)行分析與歸納,形成可以相互參照的、有明確審 核層級的內(nèi)容元數(shù)據(jù)體系。當(dāng)前,隨著政府執(zhí)政理念從管理到服務(wù)的轉(zhuǎn)變,基于電子政務(wù)的 聯(lián)網(wǎng)辦公、并聯(lián)審批模式正逐步推廣應(yīng)用,對審批內(nèi)容與提交材料的梳理、分類與

19、提煉等工 作正推動著檔案內(nèi)容元數(shù)據(jù)體系的建設(shè)。然而,受行政管理體制條塊分割的影響,覆蓋全國 各層次、各領(lǐng)域的檔案內(nèi)容元數(shù)據(jù)體系尚未形成,難以適應(yīng)大數(shù)據(jù)時代的發(fā)展要求。如何構(gòu) 建、實(shí)施和推廣檔案內(nèi)容元數(shù)據(jù)體系,是一個需要各學(xué)科、各領(lǐng)域?qū)<液凸芾韺佑枰灾匾暫?深入研究的重要課題。 (四)電子檔案信息真實(shí)性的研究檔案的真實(shí)性是檔案的價值所在和利用前提。對電子文件的真實(shí)性、完整性和不可抵賴 性可通過數(shù)字簽名系統(tǒng)予以保障,防止其他人偽造、非法截取和更改文檔,辨識及確認(rèn)電子 文件簽署人身份、資格及文件真?zhèn)巍1M管如此,當(dāng)前電子簽名系統(tǒng)的推廣及應(yīng)用仍存在較多 困難。基于數(shù)據(jù)流的電子檔案,其本身具有動態(tài)性,如何

20、界定和維護(hù)數(shù)據(jù)真實(shí)性、完整性及 不可抵賴性,將面臨更多技術(shù)和法律難題。例如,某轄區(qū)某個時間節(jié)點(diǎn)的居民人數(shù)統(tǒng)計電子 檔案,其是通過轄區(qū)內(nèi)居民數(shù)據(jù)庫統(tǒng)計得到的:若后續(xù)工作中發(fā)現(xiàn)并更新了某個居民信息, 那么原有統(tǒng)計得到的電子檔案是否仍然有效呢?隨著電子檔案的快速發(fā)展與廣泛應(yīng)用,這類 問題將越來越普遍。如何界定電子檔案的真實(shí)有效,并在不影響數(shù)據(jù)處理和利用效率的前提 下,對電子檔案進(jìn)行加密與防偽,是檔案大數(shù)據(jù)研究需要解決的技術(shù)難題。(五)在線數(shù)據(jù)收集與實(shí)時鑒別的研究紙質(zhì)檔案必須經(jīng)過鑒定才能決定其是否具有保管和利用的價值,電子文件在提交、匯總 時也要經(jīng)過鑒定和篩選,符合條件的文件才能成為電子檔案。大數(shù)據(jù)時

21、代下,檔案發(fā)展的方 向是基于數(shù)據(jù)流的電子檔案,在線數(shù)據(jù)收集與實(shí)時鑒別將是其形成、歸檔的關(guān)鍵環(huán)節(jié)。例如, 紙質(zhì)檔案轉(zhuǎn)換成真實(shí)意義的電子檔案也應(yīng)具有數(shù)據(jù)流處理的特征,需要進(jìn)行檔案數(shù)字化掃描、 文字信息識別、版而分析與內(nèi)容理解這些環(huán)節(jié)。目前技術(shù)上已實(shí)現(xiàn)檔案高速掃描和掃描自動 化,但文字信息識別速度和準(zhǔn)確性還有待提高,版而分析還不是很成熟,內(nèi)容理解方面尚在 起步階段。由此可見,電子檔案的在線數(shù)據(jù)收集與實(shí)時鑒別涉及傳感器研發(fā)、人工智能、模 式識別、工作流管理、知識庫建設(shè)等諸多領(lǐng)域,這需要各領(lǐng)域科研工作者的密切合作,共同 攻克難關(guān)。(六)檔案公共服務(wù)模式與領(lǐng)域的研究當(dāng)前,檔案公共服務(wù)是以檔案館為主體,而向公共用戶提供檔案信息資源服務(wù)。例如,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論