




已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于知識(shí)管理的數(shù)字檔案館中的數(shù)據(jù)挖掘數(shù)字檔案館,作為傳統(tǒng)實(shí)體檔案館在信息時(shí)代的新型組織形式,是實(shí)體檔案館在信息時(shí)代不斷創(chuàng)新和發(fā)展的必然,是迎接知識(shí)經(jīng)濟(jì)時(shí)代挑戰(zhàn),拓展傳統(tǒng)實(shí)體檔案館功能,滿足用戶需求,提供個(gè)性化、多樣化服務(wù)的關(guān)鍵,也是提高社會(huì)檔案意識(shí)的新契機(jī)。那么,如何從數(shù)字檔案館浩如煙海的大量數(shù)字化資源中提煉、挖掘出有價(jià)值的,對(duì)數(shù)字檔案館進(jìn)行知識(shí)積累、知識(shí)創(chuàng)新有著數(shù)據(jù)支撐作用的有效信息,這是未來數(shù)字檔案館建設(shè)所面臨的重要課題。數(shù)據(jù)挖掘技術(shù)正是解決這一難題的有效途徑,數(shù)據(jù)挖掘是當(dāng)今計(jì)算機(jī)領(lǐng)域的熱點(diǎn),其成果也廣泛應(yīng)用于圖書情報(bào)領(lǐng)域,筆者受這些研究的啟發(fā),力圖就數(shù)據(jù)挖掘技術(shù)在基于知識(shí)管理的數(shù)字檔案館中的應(yīng)用進(jìn)行探討。 1數(shù)據(jù)挖掘定義與分類 11數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘是一門很廣義的交叉學(xué)科,脫胎于計(jì)算機(jī),雖然已應(yīng)用到諸多領(lǐng)域,圖書、情報(bào)界的實(shí)踐也已經(jīng)充分驗(yàn)證其價(jià)值,但在檔案界,數(shù)據(jù)挖掘仍然被當(dāng)成深?yuàn)W的技術(shù)和理論,很多檔案工作者對(duì)個(gè)這概念還是云霧迷蒙,比較模糊。那么什么是數(shù)據(jù)挖掘呢?數(shù)據(jù)挖掘(Data Ming),就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識(shí)的過程。這個(gè)過程的目的是為了發(fā)現(xiàn)隱藏在大量數(shù)據(jù)泥沙中的 “知識(shí)金礦”,因此,將數(shù)據(jù)挖掘定義為“數(shù)據(jù)中的知識(shí)挖掘”更為恰當(dāng)。所以,數(shù)據(jù)挖掘也被人稱為知識(shí)挖掘、知識(shí)抽取等。 12數(shù)據(jù)挖掘的分類 數(shù)據(jù)挖掘可以根據(jù)挖掘任務(wù)的不同,把數(shù)據(jù)挖掘方法分為概念描述、關(guān)聯(lián)分析、分類分析、聚類分析、偏差檢測(cè)等多種類型,具體如下: 121概念描述(Concept description) 就是通過分析和比較,將某類相互關(guān)聯(lián)的數(shù)據(jù)進(jìn)行匯總,歸納出此類對(duì)象的相關(guān)特征,對(duì)關(guān)于此類的大量信息進(jìn)行描述,這些描述是抽象的,有意義的。它的類型有兩種:特征性描述和區(qū)別性描述。1)特征性描述適用于描述某類對(duì)象的共同之處,例如,某檔案館的檔案數(shù)據(jù)庫(kù)中存在大量的用戶基本信息,其中涉及:姓名、年齡、工作、利用喜好等信息,如果對(duì)歷史研究者進(jìn)行描述,很有可能得出以下結(jié)果:以高校教師、學(xué)生為主,以編修各種志書、撰寫史學(xué)研究文章為目的。2)區(qū)別性描述,用于描述兩個(gè)或多個(gè)類對(duì)象之間的差異,例如,對(duì)企業(yè)用戶和歷史研究者特征進(jìn)行比較,也許能得出以下規(guī)則:主要利用生產(chǎn)管理和科研管理方面的檔案信息,以取得一定經(jīng)濟(jì)效益和社會(huì)效益為目的。 122關(guān)聯(lián)分析(Association analysis) 就是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間存在的相關(guān)特性,即挖掘出隱藏在數(shù)據(jù)項(xiàng)之間的相互關(guān)系,具體來說,若其中兩項(xiàng)數(shù)據(jù)或多項(xiàng)數(shù)據(jù)存在著某種關(guān)聯(lián),其中一項(xiàng)數(shù)據(jù)就能依據(jù)其它數(shù)據(jù)進(jìn)行預(yù)測(cè)。關(guān)聯(lián)分析能發(fā)現(xiàn)用戶利用不同檔案信息之間的關(guān)聯(lián),分析預(yù)測(cè)用戶利用模式。 123分類分析(Classification analysis) 就是將數(shù)據(jù)庫(kù)中的數(shù)據(jù)有序的聚合在一起,有助于人們對(duì)事物的全面把握。分類分析可分為結(jié)構(gòu)化數(shù)據(jù)分類分析,如關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),和非結(jié)構(gòu)化數(shù)據(jù)分類分析,如文本數(shù)據(jù)。分類分析的具體過程為:用一組特征不同的類別為一個(gè)數(shù)據(jù)集合中的數(shù)據(jù)進(jìn)行分類,然后找出描述這些數(shù)據(jù)的模型,并根據(jù)這個(gè)模型將數(shù)據(jù)劃分到不同的類別中,利用這個(gè)模型可以預(yù)測(cè)未知的數(shù)據(jù)。分類分析可以通過已有用戶檔案數(shù)據(jù)庫(kù)中的數(shù)據(jù),揭示用戶特征和用戶利用行為之間的關(guān)系,并按照影響用戶行為的程度對(duì)這些數(shù)據(jù)進(jìn)行分類,用來預(yù)測(cè)未來的用戶行為。 124聚類分析(Clustering analysis) 就是將數(shù)據(jù)庫(kù)中的數(shù)據(jù)劃分為不同數(shù)據(jù)類的過程,它與分類分析不同,前者是在預(yù)先不考慮已知分類模型的情況下,把數(shù)據(jù)放入不同的分類中,聚類的目的是根據(jù)最大化類內(nèi)的相似性,最小化類間的相似性這一原則合理的劃分?jǐn)?shù)據(jù)集合,簡(jiǎn)單來說就是使類內(nèi)的差別最小化,類間的差別最大化,這樣就可以把類似的數(shù)據(jù)組織在一起并導(dǎo)出某種規(guī)則。 125偏差檢測(cè)(Deviation detection) 就是通過發(fā)現(xiàn)數(shù)據(jù)庫(kù)中的異常情況對(duì)偏差的數(shù)據(jù)進(jìn)行分析的過程,重點(diǎn)是發(fā)現(xiàn)數(shù)據(jù)中的異常變化,數(shù)據(jù)庫(kù)中的數(shù)據(jù)變異可能是人為錯(cuò)誤引起的,更有可能是數(shù)據(jù)更新等自然變化的結(jié)果。偏差檢測(cè)的意義在于可以有效排除大量不相關(guān)的數(shù)據(jù)。例如,某檔案館在形成某種編研成果之前,先在用戶信息數(shù)據(jù)庫(kù)中進(jìn)行檢索,并與檔案館數(shù)據(jù)庫(kù)中的已有資源結(jié)合,再用數(shù)據(jù)挖掘技術(shù)將不想關(guān)的用戶利用模型排除,把剩下的作為重點(diǎn),制定有針對(duì)性的編研策略。 2基于知識(shí)管理的數(shù)字檔案館中的數(shù)據(jù)挖掘 前面已經(jīng)介紹了數(shù)據(jù)挖掘的概念及模式,那么基于知識(shí)管理的數(shù)字檔案館的數(shù)據(jù)挖掘應(yīng)該是怎樣的呢?筆者認(rèn)為首先應(yīng)對(duì)數(shù)字檔案館資源、知識(shí)管理和數(shù)據(jù)挖掘的關(guān)系定位。數(shù)字檔案館的知識(shí)資源要被組織和發(fā)現(xiàn),這是數(shù)字檔案館實(shí)現(xiàn)現(xiàn)代化科學(xué)管理,提供快捷、優(yōu)質(zhì)服務(wù)的基礎(chǔ)。對(duì)數(shù)字檔案館實(shí)施知識(shí)管理是應(yīng)對(duì)知識(shí)經(jīng)濟(jì)時(shí)代挑戰(zhàn),最大化數(shù)字檔案館知識(shí)資源潛力,最終實(shí)現(xiàn)數(shù)字檔案館知識(shí)創(chuàng)新的必然要求。沒有實(shí)施知識(shí)管理的數(shù)字檔案館無法滿足未來發(fā)展的需要,缺乏管理對(duì)象的知識(shí)也成了無源之水。數(shù)據(jù)挖掘是組織和發(fā)現(xiàn)數(shù)字檔案館中知識(shí)資源的有效途徑,為數(shù)字檔案館實(shí)施知識(shí)管理創(chuàng)造了條件,是兩者得以無縫鏈接的承上啟下階段。這里的數(shù)據(jù)挖掘不能看成是純粹的信息處理技術(shù),它是對(duì)信息處理技術(shù)集群進(jìn)行協(xié)調(diào)和管理的方法和策略?;谥R(shí)管理的數(shù)字檔案館中的數(shù)據(jù)挖掘是以網(wǎng)絡(luò)和數(shù)字化資源為基礎(chǔ),立足于多種信息技術(shù)的協(xié)調(diào)和配合,以實(shí)施挖掘算法和挖掘模型為手段,以組織和發(fā)現(xiàn)數(shù)字檔案館中已存在的知識(shí)資源,為實(shí)施知識(shí)管理提供管理對(duì)象為目的,讓數(shù)字檔案館有效利用知識(shí),實(shí)現(xiàn)知識(shí)創(chuàng)新的過程。 3基于知識(shí)管理的數(shù)字檔案館中的主要挖掘?qū)ο?31數(shù)字檔案館中的固化資源 這是存在于數(shù)字檔案館中的顯性知識(shí),即記錄于一定物質(zhì)載體上的知識(shí),包括:已數(shù)字化的館藏資源、現(xiàn)行電子文件、檢索工具、編研成果,與數(shù)字檔案館工作相關(guān)的各種法律法規(guī)、規(guī)章制度、行業(yè)標(biāo)準(zhǔn)等,圍繞數(shù)字檔案館建設(shè)所產(chǎn)生的研究成果、技術(shù)資料及有助于數(shù)字檔案館發(fā)展的其它相關(guān)知識(shí)。 32數(shù)字檔案館中的智力資源 這是存在于數(shù)字檔案館中的隱性知識(shí),是存在于檔案館行政管理人員、政策法規(guī)研究人員、信息技術(shù)人員、對(duì)外協(xié)調(diào)人員等頭腦中所儲(chǔ)備的大量非編碼智力資源,包括:各種管理方法、計(jì)算機(jī)處理技術(shù)、處理問題的能力等。由于人是知識(shí)管理的核心,是知識(shí)管理中最活躍的最主動(dòng)的因素,所以對(duì)這部分知識(shí)的挖掘也是數(shù)字檔案館知識(shí)挖掘的重點(diǎn)。 33用戶利用行為信息 用戶的利用行為信息包括兩方面,利用信息和反饋信息。利用信息是用戶為了解決現(xiàn)實(shí)問題,滿足學(xué)術(shù)、科研、生產(chǎn)等需求,在實(shí)施具體利用行為時(shí)所產(chǎn)生的信息,包括:訪問內(nèi)容、訪問頻率、訪問時(shí)間等,它們反映出用戶對(duì)數(shù)字化資源的個(gè)性化、多樣化需求及利用規(guī)律。反饋信息是在檔案利用這一連續(xù)活動(dòng)中,檔案利用者發(fā)現(xiàn)的問題和情況、提出的要求、意見、評(píng)價(jià)和效益等。對(duì)這些數(shù)據(jù)的挖掘,可用于對(duì)用戶未來利用趨勢(shì)的分析預(yù)測(cè),以及提出在此基礎(chǔ)上的管理決策,為提高數(shù)字檔案館的服務(wù)水平提供依據(jù)。 4挖掘過程 如圖所示,在數(shù)字檔案館的運(yùn)行過程中,一旦確定某個(gè)主題,首先就要對(duì)這個(gè)主題進(jìn)行定義,明確數(shù)據(jù)挖掘的要求和目的,在對(duì)問題進(jìn)行定義的同時(shí),對(duì)檔案數(shù)據(jù)庫(kù)中的顯性知識(shí)和隱性知識(shí)進(jìn)行收集提取,并對(duì)其進(jìn)行概念描述歸納出需求的相關(guān)特征,通過聚類分析,按照相似性和差異性形成不同的需求分類模型,并把數(shù)據(jù)放入不同的分類中,通過需求分類模型與用戶利用信息的結(jié)合,進(jìn)行差異分析和偏差檢測(cè),排除大量不相關(guān)的數(shù)據(jù),形成挖掘結(jié)果。之后便對(duì)挖掘結(jié)果進(jìn)行評(píng)價(jià),形成的挖掘結(jié)果有可能存在無關(guān)的數(shù)據(jù),也有可能不滿足需求,如果不符合挖掘要求和目的,整個(gè)數(shù)據(jù)挖掘過程就要退回到數(shù)據(jù)收集階段,并重復(fù)挖掘過程,這可以用“if notthen”規(guī)則來進(jìn)行描述,反之則達(dá)到數(shù)據(jù)挖掘要求,能為數(shù)字檔案館知識(shí)管理所用,并充實(shí)到原有數(shù)據(jù)庫(kù)中,實(shí)現(xiàn)檔案館的知識(shí)創(chuàng)新。 5數(shù)據(jù)挖掘時(shí)應(yīng)注意的問題 51數(shù)據(jù)挖掘方法的選擇 由于數(shù)據(jù)挖掘方法功能的各不相同,所以要針對(duì)挖掘需求和目標(biāo),采用適合的模式和算法,特別是在對(duì)多個(gè)數(shù)字檔案館進(jìn)行跨館、跨庫(kù)挖掘的時(shí)候,各館可能采用不同的數(shù)據(jù)庫(kù)系統(tǒng)內(nèi)核,如ORICLE、SQL SERVER、DBII等等,且各館館藏內(nèi)容也大相徑庭,所以在進(jìn)行數(shù)據(jù)挖掘的時(shí)候應(yīng)立足于所處的數(shù)字化館藏環(huán)境,在方法的選擇上有的放矢,不能一概而論。 52數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性 即對(duì)數(shù)據(jù)挖掘質(zhì)量的控制問題。數(shù)字檔案館數(shù)據(jù)庫(kù)中涉及大量的數(shù)據(jù)信息,在這些海量數(shù)據(jù)面前,不可避免的會(huì)出現(xiàn)冗長(zhǎng),甚至錯(cuò)誤的數(shù)據(jù),所以在進(jìn)行數(shù)據(jù)挖掘時(shí),應(yīng)根據(jù)數(shù)據(jù)挖掘任務(wù)的不同,選擇適合的挖掘類型和算法,并對(duì)出現(xiàn)的錯(cuò)誤數(shù)據(jù)進(jìn)行修正、處理、加工,為檔案館提供科學(xué)合理的各種分析報(bào)告和相關(guān)預(yù)測(cè)信息,指導(dǎo)檔案館工作人員采取正確手段,并為檔案館改進(jìn)服務(wù)、作出決策提供智力支持。 53用戶隱私的保護(hù) 檔案館利用數(shù)據(jù)挖掘技術(shù)優(yōu)化服務(wù),提高管理水平的同時(shí),也不可避免的增加了侵犯用戶隱私權(quán)的可能性,因?yàn)橛脩粼诶脭?shù)字檔案資源的過程中涉產(chǎn)生大量的個(gè)人信息,這些信息包括:用戶的姓名、工作、學(xué)歷、興趣等,它們一旦被其它別有用心的人所獲取,用戶就有可能受到,進(jìn)而造成用戶對(duì)檔案館的反感,影響到用戶的二次利用,所以檔案館應(yīng)該妥善保管這些信息,建立有效的隱私保障機(jī)制,不能在未得到用戶授權(quán)的情況下將他們的個(gè)人隱私泄漏出去。 54人力資源的保障 數(shù)據(jù)挖掘脫胎于計(jì)算機(jī)領(lǐng)域,要在基于知識(shí)管理的數(shù)字檔案館中實(shí)施數(shù)據(jù)挖掘必然離不開優(yōu)秀的計(jì)算機(jī)專業(yè)人員和管理人員,但只強(qiáng)調(diào)專業(yè)技術(shù),忽視對(duì)其業(yè)務(wù)技能的培養(yǎng),也會(huì)制約數(shù)字檔案館的發(fā)展,所以在數(shù)字檔案館建設(shè)過程中,需要加強(qiáng)對(duì)專業(yè)技術(shù)人員的檔案知識(shí)補(bǔ)充,同時(shí)調(diào)整檔案館管理人員的知識(shí)結(jié)構(gòu),使他們盡可能的掌握必要的網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)基礎(chǔ)知識(shí)。從實(shí)體管理到信息管理,從信息管理到知識(shí)管理已是檔案館發(fā)發(fā)展的不可逆轉(zhuǎn)進(jìn)程,基于知識(shí)管理的數(shù)字檔案館是檔案館發(fā)展的必然組織形式。數(shù)據(jù)挖掘可以快速有效地分析和處理來自數(shù)字檔案館內(nèi)外的海量數(shù)據(jù)和信息,使隱性知識(shí)顯性化,顯性知識(shí)結(jié)構(gòu)化,為數(shù)字檔案館的科學(xué)管理和服務(wù)水平的不斷提高提供了有力支持,使檔案館向著知識(shí)化的方向發(fā)展,隨著信息技術(shù)的不斷深入和挖掘算法的不斷改進(jìn),數(shù)據(jù)挖掘必將與數(shù)字檔案館的知識(shí)管理結(jié)合得更加緊密,顯現(xiàn)出更加強(qiáng)大的生命力。注釋: 邵峰等,于忠清.數(shù)據(jù)挖掘原理與算法M. 北京.中國(guó)水利水電出版社,2003 .P2 Jiawei Han, Micheline Kamber .Data Ming Concepts and TechniquesM. Morgan Kaufmann Publishers. 2001. P5 蘇新寧.數(shù)據(jù)挖掘理論與技術(shù) M. 北京.科學(xué)技術(shù)文獻(xiàn)出版社.2003.P25 蘇新寧.數(shù)據(jù)挖掘理論與技術(shù) M. 北京.科學(xué)技術(shù)文獻(xiàn)出版社.2003.P28 徐擁軍,王宏. 論企業(yè)檔案在企業(yè)知識(shí)管理中的作用J.檔案學(xué)通訊.2004.3 李昕.信息管理與知識(shí)管理比較分析J.貴陽(yáng)市委黨校學(xué)報(bào).2006.5 史江,李金峰.檔案利用信息反饋工作的問題與對(duì)策探討J.檔案學(xué)通訊.2007.3參考文獻(xiàn): 邵峰等,于忠清.數(shù)據(jù)挖掘原理與算法M. 北京.中國(guó)水利水電出版社,2003 Jiawei Han, Micheline Kamber .Data Ming Concepts and TechniquesM. Morgan Kaufmann Publishers. 2001 蘇新寧.數(shù)據(jù)挖掘理論與技術(shù) M. 北京.科學(xué)技術(shù)文獻(xiàn)出版社.2003 王預(yù).數(shù)據(jù)挖掘的應(yīng)用研究J.中國(guó)信息導(dǎo)報(bào).2007.1*本文為教育部人文社會(huì)科學(xué)規(guī)劃項(xiàng)目基于知識(shí)管理的數(shù)字檔案館建設(shè)策略研究(項(xiàng)目批
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024成都醫(yī)學(xué)院輔導(dǎo)員招聘筆試真題
- 2025年溶劑型色漿項(xiàng)目合作計(jì)劃書
- 10的認(rèn)識(shí)和加、減法第3課時(shí) 練一練 教案 2025人教版數(shù)學(xué)一年級(jí)上冊(cè)
- 2024年南通市紫瑯第一小學(xué)選聘教師真題
- 2025年柳州市公安機(jī)關(guān)招聘警務(wù)輔助人員考試試題【答案】
- 2025年內(nèi)蒙古自治區(qū)司法廳下屬事業(yè)單位招聘考試筆試試題【答案】
- 2025年TFT-LCD用偏光片項(xiàng)目建議書
- 吉林科技發(fā)展計(jì)劃項(xiàng)目-吉林科技創(chuàng)新服務(wù)平臺(tái)
- 2025年智能變電站自動(dòng)化系統(tǒng)項(xiàng)目建議書
- 2025年航空用玻璃系列項(xiàng)目建議書
- 農(nóng)發(fā)銀行筆試題庫(kù)及答案
- 棗莊滕州市屬國(guó)有企業(yè)招聘考試真題2024
- 防火防爆培訓(xùn)要點(diǎn)
- 法院輔警筆試題及答案
- 2025實(shí)驗(yàn)室管理員聘用合同書
- 民辦學(xué)校托管合同協(xié)議
- 景區(qū)安全生產(chǎn)管理規(guī)章制度大全
- Unit1知識(shí)梳理魯教版(五四制)英語(yǔ)六年級(jí)上冊(cè)
- 2025-2030中國(guó)多西他賽行業(yè)市場(chǎng)深度調(diào)研及發(fā)展趨勢(shì)與投資前景預(yù)測(cè)研究報(bào)告
- 以患者為中心的數(shù)字化腫瘤科管理平臺(tái)建設(shè)
- 客戶受電工程竣工檢驗(yàn)意見書
評(píng)論
0/150
提交評(píng)論