大數(shù)據(jù)對檔案工作的影響_第1頁
大數(shù)據(jù)對檔案工作的影響_第2頁
大數(shù)據(jù)對檔案工作的影響_第3頁
大數(shù)據(jù)對檔案工作的影響_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)對檔案工作的影響

“大數(shù)據(jù)”作為一種技術(shù)和概念,對所有社會事務(wù)都產(chǎn)生了重大而深遠的影響。檔案工作作為數(shù)據(jù)工作的重要組成部分,不可避免地將受到其影響。這種影響既有“利”的一面,也有“弊”的一面。這里所說的“利”,是指大數(shù)據(jù)在檔案工作中產(chǎn)生的積極作用與影響,“弊”是指大數(shù)據(jù)給檔案工作帶來的挑戰(zhàn)。在這種“利”與“弊”的相互作用下,檔案工作勢必將發(fā)生變革。檔案工作者的任務(wù)就是在這場變革中興利除弊,順勢而為,應(yīng)用這一技術(shù),傳播這一理念,進而推動檔案工作與“大數(shù)據(jù)”的溶合。一、大數(shù)據(jù)時代的檔案價值創(chuàng)造與挑戰(zhàn)“大數(shù)據(jù)”的到來,對整個世界已經(jīng)產(chǎn)生了巨大影響。雖然相對于商業(yè)、金融、軍事領(lǐng)域,其對檔案工作的影響有明顯的滯后性,但檔案工作遲早也會受到其影響。這一點得到了檔案學(xué)界的一致認(rèn)同,已成共識,只是不同研究者基于不同的觀點或角度,提出的看法不盡相同而已。有研究者認(rèn)為,從整體上講,“在大數(shù)據(jù)時代背景下,檔案館融入智慧城市建設(shè)、電子文件管理、檔案數(shù)據(jù)的存儲與備份、檔案館加入政府2.0的建設(shè)、檔案管理工作從實體管理上升到知識管理等方面都需要引入大數(shù)據(jù)技術(shù)?!彪S著大數(shù)據(jù)在社會的廣泛應(yīng)用,檔案與檔案工作不可避免地會涉及其中,檔案館將不再是只接收和保管政務(wù)檔案的地方,而將作為政府信息化工程中重要信息數(shù)據(jù)的來源、公共服務(wù)基礎(chǔ)信息的匯聚地、居民個人信息的保護中心、區(qū)域性第三方數(shù)據(jù)安全備份的節(jié)點等,參與到大數(shù)據(jù)應(yīng)用之中。這樣一來,困擾基層檔案館室的電子文件管理、檔案數(shù)據(jù)存儲與備份等檔案信息化難題將隨之化解,檔案知識管理將從設(shè)想變?yōu)楝F(xiàn)實。從觀念上看,大數(shù)據(jù)不僅對檔案數(shù)據(jù)的存儲與備份、電子文件管理等產(chǎn)生積極影響,有助于基層檔案信息化難題的破除,還會改變?nèi)藗儗鹘y(tǒng)檔案的認(rèn)知,“促成檔案概念的泛化。”許多檔案工作者認(rèn)為,檔案的價值與形成單位的層級職能有關(guān),單位級別越高、職責(zé)越重要、部門權(quán)力越大,其形成的檔案就越有價值;而越是基層、越是普通、越是具體實施的單位,其形成的檔案價值越低。但在大數(shù)據(jù)的環(huán)境中,這些數(shù)量眾多的基層、普通、具體實施單位形成的全部數(shù)據(jù)之中所蘊含的信息,往往是高層級、高級別、大權(quán)力單位檔案中缺乏的,更確切地說是一種與之互補的重要信息源?!皺n案概念的泛化”將使更多的公眾關(guān)注個人檔案、家庭檔案,更多的企業(yè)與社會組織關(guān)注自身的檔案、關(guān)注公共檔案,進而使社會更加關(guān)注檔案的積累與保管。如果單就大數(shù)據(jù)對檔案管理的積極作用來說,則集中地表現(xiàn)在數(shù)據(jù)挖掘與數(shù)據(jù)處理上。隨著全國各級各類檔案館(室)館(室)藏檔案數(shù)字化的快速推進、增量電子文件的陸續(xù)進館,可供分析與利用的電子檔案數(shù)據(jù)正在匯聚成數(shù)量宏大的海量信息。這種情況下,采用大數(shù)據(jù)的分析方法,從海量檔案資源中挖掘出蘊藏的寶貴信息就不再僅僅是可能,而是實實在在的現(xiàn)實。這個過程就是由檔案資源到知識財富的轉(zhuǎn)變過程,大數(shù)據(jù)就是實現(xiàn)這一轉(zhuǎn)變的“利器”。2.大數(shù)據(jù)給檔案帶來的挑戰(zhàn)“大數(shù)據(jù)”的到來,也給檔案工作帶來了諸多挑戰(zhàn)。蘭祝剛、惠英、李剛等人認(rèn)為,這種挑戰(zhàn)主要來自理論(觀念)、管理技術(shù)手段、業(yè)務(wù)環(huán)節(jié)三個方面。首先,檔案管理理論(觀念)方面看,將從傳統(tǒng)的以文書檔案為主轉(zhuǎn)變以核心業(yè)務(wù)文件為主。未來的檔案觀將呈現(xiàn)兩大趨勢:一是大(泛)檔案觀,即將一切具有保存價值的文件、數(shù)據(jù)、視頻、實物都視為檔案,基于信息系統(tǒng)的電子文件在形成之后即稱為電子檔案;二是大服務(wù)觀,即大數(shù)據(jù)時代的檔案服務(wù)將朝著社會化、多元化、開放性和先進性發(fā)展,檔案服務(wù)以企業(yè)、客戶個性化的需求為導(dǎo)向,提供網(wǎng)絡(luò)化、智慧型的服務(wù)。這里之所以拿文書檔案說事,是因為我們的檔案管理理論是從文書檔案管理理論演化發(fā)展而來的,文書檔案從來就是天經(jīng)地義的檔案,而其它檔案則有一個從記錄、文獻、材料、文件等逐漸正名與轉(zhuǎn)化的過程。在大數(shù)據(jù)環(huán)境下,一切數(shù)據(jù)和記錄都將成為檔案,原有的檔案概念及相關(guān)理論都受到了嚴(yán)峻挑戰(zhàn),如何重新科學(xué)地詮釋和解讀檔案概念,充實完善原有理論體系、或進行理論創(chuàng)新,已經(jīng)是檔案工作者、特別是檔案學(xué)理論研究者的當(dāng)務(wù)之急。而之所以拿服務(wù)說事,一是由檔案工作的根本目的決定的,保管檔案的根本目的就是為了利用,就是向公眾與社會各界提供利用服務(wù);二是由檔案工作的基本矛盾所決定的,而檔案開放利用服務(wù)與檔案信息安全保密是檔案工作的基本矛盾之一。大數(shù)據(jù)環(huán)境下,不會因為數(shù)據(jù)多了、技術(shù)高了、條件好了,檔案工作的根本目的就會自然實現(xiàn),基本矛盾就會自然得到解決。如果不能解決理論問題、觀念轉(zhuǎn)變問題,不僅檔案工作的根本目的難以實現(xiàn),檔案工作基本矛盾的解決仍然會遙遙無期,檔案學(xué)的發(fā)展與創(chuàng)新也只會變得更加艱難。其次,從管理技術(shù)手段看,在傳統(tǒng)的檔案管理條件下,館藏檔案基本是以紙質(zhì)檔案為主,檔案實體管理主要是通過手工方式進行檔案的收集、整理、編目、上架、查閱、銷毀等,這種方式目前在全國多數(shù)縣級檔案館仍然是常態(tài)。進入計算機管理時代,有條件的檔案館在計算機軟件的輔助下對檔案進行管理,館藏檔案是紙質(zhì)檔案、紙質(zhì)檔案電子掃描件和新增電子檔案共存,而“在大數(shù)據(jù)時代,檔案管理將是云平臺上建設(shè)云檔案系統(tǒng),實現(xiàn)云存儲”,將一定空間和時間范圍內(nèi)各類有價值的檔案數(shù)據(jù)資源聚攏、整合、分析、挖掘,形成檔案數(shù)據(jù)的智能分析庫,為社會提供服務(wù)、創(chuàng)造價值。從具體技術(shù)手段上來講,主要集中在數(shù)據(jù)存儲容量、數(shù)據(jù)安全、成本及數(shù)據(jù)源控制四個方面。從數(shù)據(jù)存儲容量上看,由于今后檔案信息的增長會呈“爆炸性”遞增,客觀上就需要足夠大的存儲空間來存儲這些數(shù)據(jù)。大數(shù)據(jù)給檔案館信息管理系統(tǒng)目前使用的傳統(tǒng)數(shù)據(jù)庫架構(gòu)造成沖擊,使我們不得不面對來自兩方面的壓力:“一是數(shù)據(jù)規(guī)模急速增長,現(xiàn)有的共享磁盤架構(gòu)能否適應(yīng)海量數(shù)據(jù)的存儲;二是數(shù)據(jù)結(jié)構(gòu)復(fù)雜多樣,現(xiàn)有的基于結(jié)構(gòu)化數(shù)據(jù)為主體的存儲方式能否兼容無模式的非結(jié)構(gòu)化數(shù)據(jù)?!薄皺n案資源中存在大量的非結(jié)構(gòu)化數(shù)據(jù),例如掃描圖像、傳真、照片、電子表格、演示文稿、語音和視頻文件等?!比绾斡糜邢薜馁Y金添置幾乎無限增長的數(shù)據(jù)存儲硬件,依靠寥寥幾位沒有決定權(quán)的專業(yè)技術(shù)人員來將多種非結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)化,就成為檔案館特別是基層檔案館所要面對的現(xiàn)實。這樣兩個問題不解決,就無法將檔案信息從分散或互不相關(guān)的狀態(tài)整合形成檔案大數(shù)據(jù)。從數(shù)據(jù)安全方面看,大數(shù)據(jù)環(huán)境下的檔案館、檔案室都要面對數(shù)據(jù)損壞、數(shù)據(jù)丟失、信息泄密和數(shù)據(jù)被惡意使用的壓力。我們面臨的任務(wù)之一,就是如何將這種安全風(fēng)險降到最低。因為既便是在靜態(tài)情況下,由于硬件故障或損壞、系統(tǒng)錯誤、軟件漏洞造成的數(shù)據(jù)損壞、數(shù)據(jù)丟失在所難免,硬件越多、系統(tǒng)越龐大、軟件越復(fù)雜,發(fā)生上述問題的概率就越高。我們面臨的任務(wù)之二,是解決所謂的“數(shù)據(jù)隱私問題”。對敏感信息進行分析,有系統(tǒng)內(nèi)部人員的分析,也有外部用戶的分析,而無論是內(nèi)部分析、還是外部分析,都會不可避免地產(chǎn)生信息被貯留在用戶終端,或在讀取利用過程中經(jīng)過網(wǎng)絡(luò)時被截留,這種情況被稱之為“敏感數(shù)據(jù)外泄”。這種“外泄”是不可接受的。這就要求我們在對敏感數(shù)據(jù)進行分析的過程中,設(shè)法保護數(shù)據(jù)隱私,實現(xiàn)信息的保密。我們面臨的第三個任務(wù),就是避免數(shù)據(jù)被惡意使用。所謂數(shù)據(jù)被惡意使用,是指代故意在計算機系統(tǒng)使用合法數(shù)據(jù)來完成惡意任務(wù)。在開放的數(shù)據(jù)環(huán)境下,要防止數(shù)據(jù)被“惡意使用”,就好比要求賣刀具的商家防止買刀具的人惡意傷人一樣,難度非常之大。從成本方面看,除了前面提到的存貯介質(zhì)容量問題之外,還有一個分析成本與效率的問題:一方面,大數(shù)據(jù)需要良好的算法和計算能力,這將對計算平臺提出較高的要求,只有足夠的處理能力和優(yōu)秀的算法,才能夠體現(xiàn)大數(shù)據(jù)的核心預(yù)測能力;另一方面“檔案系統(tǒng)面臨著海量數(shù)據(jù)的處理挑戰(zhàn),傳統(tǒng)的系統(tǒng)技術(shù)架構(gòu)無法滿足需求”;再一方面,就是如何在海量數(shù)據(jù)中查詢到所需要的檔案信息、如何在海量數(shù)據(jù)中抽取和挖掘有用的信息和知識。因為,盲目地購置能力超過需求的計算機,是浪費成本;系統(tǒng)技術(shù)架構(gòu)不當(dāng),無法滿足需求,也是一種成本浪費;由于查詢策略不科學(xué),無法在可接受的時限內(nèi)查到所需信息,同樣是浪費成本。如何控制和減少成本,則是一個長期的任務(wù)。從數(shù)據(jù)源方面看,沒有數(shù)據(jù)源就不能夠得到預(yù)測信息,大數(shù)據(jù)就無從談起。數(shù)據(jù)源是大數(shù)據(jù)的基礎(chǔ),準(zhǔn)確的檔案數(shù)據(jù)來源將成為檔案大數(shù)據(jù)的基本問題。雖然檔案數(shù)據(jù)有著較其它數(shù)據(jù)可靠性高的特性,但如何確保檔案數(shù)據(jù)的高可信度,杜絕參雜某些不可靠的信息,確保最終分析預(yù)測的科學(xué)方向,仍然是我們檔案人要面對的重要挑戰(zhàn)。這其中包括:數(shù)據(jù)量問題、數(shù)據(jù)特征維度問題、數(shù)據(jù)關(guān)系問題、數(shù)據(jù)算法性能問題、數(shù)據(jù)語義理解問題、數(shù)據(jù)解釋問題等。第三,從業(yè)務(wù)環(huán)節(jié)看,大數(shù)據(jù)給檔案的收集、整理、利用“三大環(huán)節(jié)”帶來的挑戰(zhàn)?!霸趥鹘y(tǒng)管理方式下,“收”是各部門移交;“管”是手工管理、手工查詢;“用”是提供被動的查閱服務(wù)。在信息化時代,“收”主要是電子文件的部門移交與系統(tǒng)推送相結(jié)合;“管”主要是電腦代替手工勞動;“用”是利用現(xiàn)代信息技術(shù)進行制作、加工、傳播、轉(zhuǎn)換和二次開發(fā)。而在大數(shù)據(jù)時代,“收”將是實時的數(shù)據(jù)自動歸集;“管”將采用云平臺存儲、計算、分析;“用”則是分析、發(fā)現(xiàn)與預(yù)測,為社會、企業(yè)創(chuàng)造價值?!边@是企業(yè)檔案工作者對大數(shù)據(jù)時代檔案管理“三大環(huán)節(jié)”變革的預(yù)測與期許,其能否成為現(xiàn)實還面臨著巨大挑戰(zhàn)。首先,自上世紀(jì)80年代開始計算機輔助管理檔案到現(xiàn)在,已經(jīng)過去了30多年,但檔案管理“三大環(huán)節(jié)”并沒有根本性的改變。這種情況不會因為社會中的某些地區(qū)、企業(yè)、部門進入了“大數(shù)據(jù)時代”就自動發(fā)生改變,也不會因為整個社會的主體進入了“大數(shù)據(jù)時代”,檔案工作就必然會發(fā)生我們所期許的變革。必須看到,大數(shù)據(jù)在“三大環(huán)節(jié)”的應(yīng)用既不是完全相同,也不是相互隔離毫無關(guān)聯(lián)的,而是既有區(qū)別差異,又互相關(guān)聯(lián)的統(tǒng)一整體。這既是一個技術(shù)問題,也是一個觀念問題。讓這種預(yù)測變成現(xiàn)實,需要我們付出艱巨的努力,也需要我們有特別的耐心。因為,檔案管理“三大環(huán)節(jié)”的變革涉及到檔案工作最基本的工作環(huán)節(jié),具體做起來細微、繁雜、枯燥,遠沒有文章中論述的那樣宏觀、簡單、有趣,它可能是基層檔案工作者今后長時期的工作任務(wù),甚至是一些同志終生的工作狀態(tài)。可見,不付出艱巨的努力,就無法實現(xiàn)我們的預(yù)測;沒有足夠的耐心,同樣也無法實現(xiàn)我們的期許。三、云計算與數(shù)據(jù)挖掘的研究面對大數(shù)據(jù)給檔案工作帶來的影響與挑戰(zhàn),研究者們紛紛提出了自己的觀點。可見,“在大數(shù)據(jù)時代來臨的背景下,值得關(guān)注的問題很多,沖擊將是不可避免的,也是巨大而全面的?!睔w納分析上述觀點,可以發(fā)現(xiàn)大數(shù)據(jù)將使檔案工作在新技術(shù)運用、制度化、業(yè)務(wù)流程重組及服務(wù)理念轉(zhuǎn)變等方面發(fā)生變革。在新技術(shù)運用上研究者們目前關(guān)注最多的就是近幾年炒得火熱的“云計算”和“數(shù)據(jù)挖掘”。在檢索到的31篇樣本文獻中,多數(shù)都提到了“云技術(shù)”“云計算”,更有“計算型云”“存儲型云”“數(shù)據(jù)庫型云”“搜索云”等等。其中,有23篇提及“云”、21篇提及“云計算”、28篇提及“數(shù)據(jù)挖掘”。面對新技術(shù)可能帶來的變革,研究者們以特有的敏感與危機意識在已有的認(rèn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論