數(shù)據(jù)挖掘在國土資源檔案館中的應(yīng)用-_第1頁
數(shù)據(jù)挖掘在國土資源檔案館中的應(yīng)用-_第2頁
數(shù)據(jù)挖掘在國土資源檔案館中的應(yīng)用-_第3頁
數(shù)據(jù)挖掘在國土資源檔案館中的應(yīng)用-_第4頁
數(shù)據(jù)挖掘在國土資源檔案館中的應(yīng)用-_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著社會(huì)現(xiàn)代化的建設(shè)不斷深入,土地規(guī)劃、國土資源管理迅猛發(fā)展,一方面產(chǎn)生了數(shù)量巨大的、異質(zhì)的文檔信息;另一方面,人們的信息需求呈現(xiàn)出多樣化、高效化、個(gè)性化、專深化等特點(diǎn)。原有的國土資源檔案信息服務(wù)系統(tǒng),僅依靠數(shù)據(jù)庫的查詢檢索機(jī)制和統(tǒng)計(jì)學(xué)方法已經(jīng)不能滿足現(xiàn)實(shí)的需要,迫切需要有效的信息分析工具,才能從大量數(shù)據(jù)庫中抽取有用的信息和知識(shí)。在數(shù)字國土資源檔案館建設(shè)中,如何從海量數(shù)據(jù)中發(fā)掘出有價(jià)值的信息,滿足不同檔案用戶的信息需求,數(shù)據(jù)挖掘技術(shù)將會(huì)起到巨大作用。一、數(shù)據(jù)挖掘的概念及功能1.概念。數(shù)據(jù)挖掘(Data Mining簡(jiǎn)稱DM,又稱數(shù)據(jù)開采,就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用

2、數(shù)據(jù)中,提取隱含其中的、以前未知的、但又具有潛在應(yīng)用價(jià)值的信息和知識(shí)的過程,它是一種決策支持過程。它是從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫(Data Warehouse簡(jiǎn)稱DW中發(fā)現(xiàn)并提取隱藏在其中的信息的一種新技術(shù),主要是為了幫助決策者尋找數(shù)據(jù)間潛在的關(guān)聯(lián),發(fā)現(xiàn)被忽略的要素,對(duì)預(yù)測(cè)和決策行為十分有用。數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database簡(jiǎn)稱KDD的一個(gè)特定步驟,也是其核心部分。2.功能。(1類描述。對(duì)每個(gè)類的匯總的、簡(jiǎn)潔的、精確的描述可以通過數(shù)據(jù)特征化、數(shù)據(jù)區(qū)分和數(shù)據(jù)比較來實(shí)現(xiàn)。(2關(guān)聯(lián)分析。用來發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則揭示屬性一直頻繁地在給定數(shù)據(jù)集中出現(xiàn)的條件

3、。(3分類與預(yù)測(cè)。利用數(shù)據(jù)挖掘算法由計(jì)算機(jī)根據(jù)某種規(guī)則自動(dòng)對(duì)大量數(shù)據(jù)進(jìn)行分類。(4聚類分析。根據(jù)最大化類內(nèi)的相似性、最小化類間的相似性原則對(duì)大量數(shù)據(jù)進(jìn)行類聚或分組,從而產(chǎn)生屬性相近的各個(gè)類。(5孤立點(diǎn)分析。所謂孤立點(diǎn),是指數(shù)據(jù)集合中與多數(shù)數(shù)據(jù)的特征或行為完全不一致的數(shù)據(jù),即利用各種算法找出數(shù)據(jù)之間的規(guī)則。(6演變分析。可以根據(jù)數(shù)據(jù)的特征對(duì)數(shù)據(jù)的發(fā)展變化作出相應(yīng)的預(yù)測(cè)和分析。二、在國土資源檔案館中應(yīng)用數(shù)據(jù)挖掘技術(shù)的可行性1.知識(shí)服務(wù)的需求。國土資源檔案館經(jīng)過多年的業(yè)務(wù)建設(shè),目前已存有大量的檔案信息資源,近幾年更是成倍增長(zhǎng)。如何解決好海量信息的存儲(chǔ)開發(fā)與利用,向檔案用戶提供知識(shí)服務(wù),是關(guān)系到檔案館

4、未來的生存與發(fā)展的重大問題。運(yùn)用數(shù)據(jù)挖掘技術(shù),可以有效管理海量數(shù)據(jù),并針對(duì)用戶特定的需求提供OLAP分析,利用可視化的人機(jī)交互等技術(shù)提供知識(shí)服務(wù)。2.物質(zhì)基礎(chǔ)的形成。一方面,國土資源檔案館經(jīng)過多年的信息化建設(shè),已建立起完善的國土資源檔案信息數(shù)據(jù)庫和各類檔案專題數(shù)據(jù)庫,具備相當(dāng)?shù)奈镔|(zhì)條件和人才儲(chǔ)備,并積累了大量數(shù)據(jù),為數(shù)據(jù)挖掘在國土資源檔案館應(yīng)用奠定了一定的物質(zhì)基礎(chǔ)。另一方面,國土資源檔案館的數(shù)字化發(fā)展是我國國土系統(tǒng)信息化建設(shè)的重要組成部分,國家對(duì)此給予了高度的重視并提供了大量政策上和經(jīng)濟(jì)上的支持,為行業(yè)性數(shù)據(jù)挖掘的實(shí)施提供了良好的政策環(huán)境和經(jīng)濟(jì)保障。3.實(shí)現(xiàn)技術(shù)的成熟。數(shù)據(jù)挖掘經(jīng)過近幾年的發(fā)展

5、,已經(jīng)形成相對(duì)成熟的技術(shù)體系,特別是在數(shù)據(jù)存取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)抽取以及聯(lián)機(jī)分析處理技術(shù)等各方面都取得了很大進(jìn)展,為數(shù)據(jù)挖掘的應(yīng)用奠定了技術(shù)基礎(chǔ)。另外,數(shù)據(jù)挖掘技術(shù)在發(fā)達(dá)國家的電信、制造、醫(yī)療、零售、金融等領(lǐng)域已有較深程度的應(yīng)用,并創(chuàng)造了良好的經(jīng)濟(jì)效益,這些成功應(yīng)用的例子為我們提供了極其寶貴的經(jīng)驗(yàn)。三、數(shù)據(jù)挖掘在國土資源檔案館中的應(yīng)用1.支持國土資源檔案館的決策管理。傳統(tǒng)的國土資源檔案館大多依靠經(jīng)驗(yàn)進(jìn)行決策,存在主觀、片面、盲目等諸多問題,無法適應(yīng)時(shí)代發(fā)展的要求,采用數(shù)據(jù)挖掘技術(shù)能夠?yàn)轭I(lǐng)導(dǎo)層的科學(xué)決策提供強(qiáng)有力的保障。首先,數(shù)據(jù)挖掘能將國土資源檔案信息管理系統(tǒng)的各種內(nèi)部數(shù)據(jù)和外部信息匯集起來,

6、經(jīng)過處理和轉(zhuǎn)換,形成集中統(tǒng)一、隨時(shí)可用的決策信息,防止因信息不足造成的錯(cuò)誤決策。其次,利用數(shù)據(jù)倉庫系統(tǒng)提供的OLAP工具可以對(duì)集成數(shù)據(jù)進(jìn)行多維分析比較,對(duì)決策假設(shè)進(jìn)行審查和驗(yàn)證,提高決策的可靠度和可行性,達(dá)到合理利用有限資金、優(yōu)化國土資源檔案館的資源配置的目的。第三,數(shù)據(jù)挖掘工具可以從歷史數(shù)據(jù)中找出潛在的模式,并在模式的基礎(chǔ)上自動(dòng)作出預(yù)測(cè),這對(duì)啟發(fā)決策者的創(chuàng)新思維、應(yīng)對(duì)信息化社會(huì)的挑戰(zhàn)具有重大意義。2.優(yōu)化國土資源檔案館的檔案信息資源。目前,國土資源檔案館雖然建立了檔案信息數(shù)據(jù)庫,但數(shù)據(jù)是零散的、模糊的。檔案工作者可利用數(shù)據(jù)挖掘技術(shù)優(yōu)化檔案信息資源。利用文本挖掘,運(yùn)用關(guān)聯(lián)、分類、聚類等方法,打

7、破原有的整理體系,從海量檔案信息中按照相關(guān)專題進(jìn)行挖掘、分類、加工、整理和有序化重組,從而建立面向主題的、集成的、穩(wěn)定的數(shù)據(jù)集合,并逐漸建立起國土資源檔案知識(shí)庫;對(duì)Web訪問信息進(jìn)行挖掘,分析出檔案資源的利用率,將利用率高、需求量大的傳統(tǒng)載體檔案優(yōu)先數(shù)字化,對(duì)用戶每次利用的檔案信息進(jìn)行關(guān)聯(lián)分析,發(fā)現(xiàn)各類檔案信息之間的關(guān)聯(lián)規(guī)則或比例關(guān)系,優(yōu)化館藏;利用OLAP和信息挖掘工具從海量數(shù)據(jù)中分析出事物之間的關(guān)聯(lián),挖掘出隱藏于其中的規(guī)律信息,形成滿足用戶需要的深層次信息產(chǎn)品。3.拓展國土資源檔案館的信息服務(wù)方式,提高服務(wù)質(zhì)量。數(shù)據(jù)挖掘技術(shù)可以為國土資源檔案館實(shí)現(xiàn)網(wǎng)絡(luò)信息服務(wù)的智能化、個(gè)性化、精品化提供支

8、持工具。(1檔案信息智能檢索服務(wù)。智能檢索系統(tǒng)可調(diào)用用戶興趣模型,自動(dòng)修正檢索策略,支持概念檢索、模糊檢索、聯(lián)想檢索及多語言檢索;可依用戶興趣將檢索結(jié)果迅速聚摘要本文在論述數(shù)據(jù)挖掘技術(shù)內(nèi)涵及其功能、方法的基礎(chǔ)之上,結(jié)合國土資源檔案館的實(shí)際工作,探討了數(shù)據(jù)挖掘技術(shù)在國土資源檔案館中的應(yīng)用價(jià)值。關(guān)鍵詞數(shù)據(jù)挖掘國土資源web挖掘檔案館蘭臺(tái)世界2007.6理論版11數(shù)據(jù)挖掘在國土資源檔案館中的應(yīng)用廣東省國土資源檔案館曾洪周數(shù)字蘭臺(tái)類和分類,充分挖掘那些隱性主題和語義結(jié)構(gòu)信息,提高查全率和查準(zhǔn)率。(2檔案信息定制與定題服務(wù)。多適用于科研型檔案用戶,例如通過挖掘相關(guān)專家的訪問記錄,通過對(duì)不同專家、不同時(shí)期

9、的檢索實(shí)例的總結(jié)、歸納、學(xué)習(xí),形成專家知識(shí)模型,從而為該專家不間斷地提供其研究領(lǐng)域的檔案資料。(3檔案信息決策服務(wù)。可針對(duì)社會(huì)信息需求或既定任務(wù),充分運(yùn)用數(shù)據(jù)挖掘技術(shù),對(duì)有用的信息內(nèi)容再進(jìn)行深層次分析與挖掘,向用戶提供能夠用于決策支持、科學(xué)研究、解決問題等知識(shí)服務(wù)方面的規(guī)則和模式。(4檔案信息跟蹤與推送服務(wù)。數(shù)據(jù)挖掘可跟蹤記錄用戶訪問信息,及時(shí)更新用戶興趣模型以反映用戶信息需求的變化,推薦相關(guān)專題檔案信息。4.支持國土資源檔案館的未來發(fā)展。國土資源檔案館的未來發(fā)展方向是數(shù)字檔案館,在其長(zhǎng)遠(yuǎn)的發(fā)展進(jìn)程中,如何解決好海量數(shù)據(jù)的壓縮與存儲(chǔ)、分類檢索、組織管理、交互界面等問題,知識(shí)的有效組織與發(fā)現(xiàn),是

10、這一時(shí)期所面臨的重要課題。鑒于數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)的組織與分析、數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)等方面存在的巨大潛力,學(xué)術(shù)界普遍認(rèn)為數(shù)據(jù)挖掘可以為數(shù)字檔案館的建設(shè)提供關(guān)鍵技術(shù)。比如:電子文件的自動(dòng)著錄和標(biāo)引、自動(dòng)分類及智能檢索;元數(shù)據(jù)的界定與自動(dòng)抽取;海量信息的有效存儲(chǔ)和利用、超大規(guī)模分布式數(shù)據(jù)庫的快速存取以及分布式資源庫互操作性的實(shí)現(xiàn)等都能夠借助和參考數(shù)據(jù)挖掘技術(shù)。目前,對(duì)檔案管理人員來說,數(shù)據(jù)挖掘技術(shù)還是個(gè)陌生事物,但是在社會(huì)信息化浪潮的推動(dòng)下,未來的國土資源檔案館與數(shù)據(jù)挖掘技術(shù)的結(jié)合將更加緊密。盡管數(shù)據(jù)挖掘在檔案館領(lǐng)域的應(yīng)用還處于起步階段,但基于其在數(shù)據(jù)的組織、分析和知識(shí)發(fā)現(xiàn)等方面的巨大優(yōu)勢(shì)和對(duì)信息的深

11、層挖掘能力,它必將能夠提高數(shù)據(jù)分析的自動(dòng)化和智能化水平,促進(jìn)檔案信息資源的開發(fā)利用,從而大幅度地提升國土資源檔案館的管理水平及業(yè)務(wù)工作能力,并最終為我國數(shù)字國土資源檔案館的建設(shè)發(fā)揮重要作用。參考文獻(xiàn):1.李朝葵.數(shù)據(jù)挖掘及其在圖書館中的應(yīng)用J.情報(bào)雜志,2002(62.宇然.數(shù)據(jù)挖掘技術(shù)與檔案管理J.蘭臺(tái)世界,2002(83.吳加琪.數(shù)據(jù)倉庫及數(shù)據(jù)挖掘技術(shù)在檔案館中的應(yīng)用J.湖北檔案,2004(1作者郵箱:zenghz_lw(責(zé)編:陳智兵書稿檔案是出版社在編輯、出版圖書過程中形成的,按照一定的規(guī)律收集、整理、保存起來的,具有查考價(jià)值的文件材料(包括文字、圖表、聲音、圖像等,是編輯出版工作的真實(shí)

12、記錄,是國家檔案的一個(gè)重要組成部分。按內(nèi)容劃分,書稿檔案可分為主體材料和背景材料。主體材料包括:選題論證材料及審批材料,如審批、落實(shí)選題過程中的各種請(qǐng)示、報(bào)告,上級(jí)的指示、批復(fù);法律材料,如各種合同書、授權(quán)書、意向書;作品的原稿(手跡;審查材料,如責(zé)任編輯的初審意見、外審意見、會(huì)審意見、編輯室主任及總編輯(副總編輯的復(fù)審終審意見;書稿的加工材料,如責(zé)任編輯加工整理書稿記錄、責(zé)任編輯撰寫的出版說明、對(duì)作品的評(píng)價(jià)、作者對(duì)書稿的修改記錄;裝幀設(shè)計(jì)材料,如封面設(shè)計(jì)、插圖繪制、版式設(shè)計(jì)通知單及設(shè)計(jì)制作記錄;付印材料,如發(fā)稿、發(fā)排通知單、發(fā)稿后的變動(dòng)情況記錄、校對(duì)作業(yè)單及各校次的質(zhì)量記錄、付印清樣、付印及

13、定價(jià)的審批手續(xù)、版權(quán)數(shù)據(jù)文件;結(jié)果材料,如各版次的樣書、稿酬結(jié)算單及支付記錄、經(jīng)濟(jì)效益記錄、版權(quán)貿(mào)易合同、意見書及與之有關(guān)的各種資料。背景材料包括:電話記錄、面洽記錄、會(huì)議記錄、組稿過程記錄,著作權(quán)人及作者、著作權(quán)人代表登記表,責(zé)任編輯與作者就有關(guān)書稿問題的往來信件,對(duì)圖書的宣傳評(píng)論材料、廣告、重要的讀者來信、獲獎(jiǎng)或受查處情況記錄,新書發(fā)布會(huì)資料。一、電子環(huán)境下書稿檔案的特點(diǎn)按照傳統(tǒng)的管理方式,上述材料都要在圖書出版后一個(gè)月內(nèi),對(duì)其進(jìn)行收集、整理、歸檔保管。而電子時(shí)代,傳統(tǒng)的按部就班的管理方式受到了挑戰(zhàn)。書稿檔案從操作方式、載體形式到內(nèi)容形式都發(fā)生了質(zhì)的變化,具有以下幾方面的特點(diǎn):1.隨意性操

14、作。在書稿檔案文件的形成過程中,人們已經(jīng)大量地使用計(jì)算機(jī)網(wǎng)絡(luò)進(jìn)行操作和信息交流。目前,由于沒有統(tǒng)一的規(guī)范,形成書稿檔案文件的操作方式存在很大的隨意性。例如,對(duì)于作品的原稿,大部分作者是用下載的方式形成電子稿,有的作者用打印的方式形成打印稿,個(gè)別作者則用手工的方式形成紙質(zhì)稿。又如,選題時(shí)形成的請(qǐng)示、報(bào)告和上級(jí)的指示、批復(fù),一般都是用計(jì)算機(jī)起草,以網(wǎng)絡(luò)的方式傳遞,但需要本單位領(lǐng)導(dǎo)審查時(shí),還要用打印的方式形成打印件。另外,版權(quán)數(shù)據(jù)文件也都是以網(wǎng)絡(luò)的方式傳遞。再如,法律文件、審查材料、校對(duì)材料、付印材料、結(jié)果材料以及大部分背景材料,都是要用打印的方式形成。這些方式的選擇,很大程度上是約定俗成,并沒有一定之規(guī),操作者覺得哪種方式方便,就采取哪種方式,隨意性很強(qiáng)。2.多種載體共存。由于網(wǎng)絡(luò)傳輸、激光照排、校對(duì)軟件、電子掃描等高新技術(shù)的應(yīng)用以及新型材料的使用,書稿檔案的載體形式發(fā)生很大的變化,出現(xiàn)了多種載體共存的現(xiàn)象。目前的書稿檔案文件,有的是以紙質(zhì)材料為載體,如法律文件中的各種合同書、授權(quán)書、意向書。它們是需要當(dāng)事者雙方簽字才可以生效,在數(shù)字簽名的法律效力沒有得到廣泛承認(rèn)之前,法律文件的載體材料

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論