版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘在學(xué)校圖書館的應(yīng)用廖志平(上海海事大學(xué)高等技術(shù)學(xué)院 上海 200129)摘 要:在當(dāng)前信息量急速增長(zhǎng)的情況下學(xué)校圖書館迫切需要數(shù)據(jù)挖掘的技術(shù)手段對(duì)文獻(xiàn)管 理系統(tǒng)產(chǎn)生的數(shù)據(jù)及大量 Web 信息進(jìn)行統(tǒng)計(jì)和分析工,為讀者提供個(gè)性化服務(wù),以推動(dòng)學(xué)校圖書 館現(xiàn)代化信息服務(wù)水平的不斷提高。關(guān)鍵詞:圖書館 數(shù)據(jù)挖掘 Web 數(shù)據(jù)挖掘中圖分類號(hào):G256 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2012)04(c)-0211-021 數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù) 據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的
2、信息和知識(shí)的過程 1。它可 以幫助人們對(duì)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,并進(jìn)行微觀、 中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,從而利用已有數(shù)據(jù)預(yù)測(cè)未來,從中提取輔助決策的信 息和數(shù)據(jù),幫助提高決策的科學(xué)性和針對(duì)性。數(shù)據(jù)挖掘是一個(gè)從已知數(shù)據(jù)集合中發(fā)現(xiàn)各種模型、概要和導(dǎo)出值的過程 2。為了取得良好 的數(shù)據(jù)挖掘的效果,在數(shù)據(jù)挖掘過程中我們首先要注意避免出現(xiàn)不好的數(shù)據(jù)格式、各個(gè)系統(tǒng)中數(shù) 據(jù)含義的不一致、缺少相應(yīng)可以實(shí)施的功能、挖掘出的結(jié)果缺乏充分的理由等情況。數(shù)據(jù)挖掘 不是用于驗(yàn)證某個(gè)假定的模型的正確性,而是在數(shù)據(jù)庫中自己尋找模型,也就是說數(shù)據(jù)挖掘過程 是一個(gè)歸納的過程。它主
3、要包括確定業(yè)務(wù)對(duì)象、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果分析和知識(shí)的同化 當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在金融(信用分析、客戶欺詐)、電信(客戶分析、客戶欺詐)、 零售(銷售預(yù)測(cè))、電子商務(wù)(營(yíng)銷分析)、電力(系統(tǒng)優(yōu)化)、生物(基因分析)、天體(星體分類) 等方面。近年來,數(shù)據(jù)挖掘也開始被廣泛應(yīng)用于圖書館信息處理,與一系列的信息檢索、文獻(xiàn)加 工、數(shù)據(jù)庫等方法實(shí)現(xiàn)了緊密結(jié)合3。比如美國(guó)科學(xué)家 Sweason 運(yùn)用知識(shí)發(fā)現(xiàn)法,創(chuàng)建了 Arrowsmith 軟件系統(tǒng),用于對(duì) Medline、Biosis、Embase 等數(shù)據(jù)庫中的文獻(xiàn)資料進(jìn)行處理,并且 在醫(yī)學(xué)科學(xué)研究當(dāng)中取得了巨大的成效,為情報(bào)學(xué)界所瞻目。2 數(shù)據(jù)挖
4、掘主要技術(shù)數(shù)據(jù)挖掘經(jīng)常采用的技術(shù)包括:統(tǒng)計(jì)技術(shù)、關(guān)聯(lián)規(guī)則方法、基于歷史的分析 MBR 方法、聚集 檢測(cè)、連接分析、決策樹和規(guī)則推理、神經(jīng)元網(wǎng)絡(luò)、遺傳算法等 2,其性能評(píng)價(jià)如(表 1)。3 數(shù)據(jù)挖掘在圖書館的應(yīng)用圖書館作為學(xué)校信息的聚集地,文獻(xiàn)資源、數(shù)字資源和網(wǎng)絡(luò)資源不斷增加;而目前 Internet 已經(jīng)發(fā)展成為一個(gè)分布廣泛的全球性信息服務(wù)中心。如何從海量數(shù)據(jù)中發(fā)現(xiàn)對(duì)讀者有價(jià)值的信 息或知識(shí),成為一項(xiàng)非常艱巨的任務(wù)。通過對(duì)圖書館文獻(xiàn)管理集成系統(tǒng)及 Internet 網(wǎng)絡(luò)資源的數(shù)據(jù)挖掘可以從海量的數(shù)據(jù)中提取讀者所需的顯性知識(shí)和隱性知識(shí),提升圖書館知識(shí)管理服務(wù)水 3.1 對(duì)圖書館文獻(xiàn)管理集成系統(tǒng)的
5、挖掘文獻(xiàn)管理集成系統(tǒng)主要對(duì)文獻(xiàn)信息資源進(jìn)行科學(xué)的管理、有效的開發(fā)、實(shí)現(xiàn)資源共享,是圖 書館實(shí)現(xiàn)現(xiàn)代化管理的重要內(nèi)容之一。以文獻(xiàn)管理集成系統(tǒng)中的流通管理數(shù)據(jù)為研究主體 ,利用 數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則、決策樹和聚類分析等方法對(duì)其中的讀者信息、書目信息及借閱歷史信 息進(jìn)行分析研究,掌握讀者的借閱規(guī)律,了解讀者的借閱需求,可以為圖書館的館藏建設(shè)和圖書推 薦服務(wù)等工作提供幫助。3.1.1 館藏建設(shè)圖書館館藏建設(shè)主要包括信息采集和館藏布局。傳統(tǒng)圖書館信息采集多由專門采訪人員獨(dú) 自確定或與少數(shù)專家商討決定,不可避免的帶有極大的主觀性以及個(gè)人喜好;而且圖書館每年的 文獻(xiàn)購置費(fèi)是有限的,各門學(xué)科之間如何分配,各種
6、文獻(xiàn)載體形式如何均衡才能使這此經(jīng)費(fèi)最好 地發(fā)揮效益,這是一件令人頭疼的事。而運(yùn)用數(shù)據(jù)挖掘技術(shù)可以通過對(duì)圖書館的借閱流通記錄、 檢索請(qǐng)求進(jìn)行分析、挖掘,按類統(tǒng)計(jì)文獻(xiàn)拒借集和頻繁借閱集,從而有針對(duì)性的補(bǔ)充和豐富信息 資源,并可以籍此分析出文獻(xiàn)的利用率,及時(shí)剔除過時(shí)、老化的文獻(xiàn)信息。通過對(duì)用戶每次借閱 的文獻(xiàn)進(jìn)行關(guān)聯(lián)分析,從中發(fā)現(xiàn)出各類文獻(xiàn)之間的關(guān)聯(lián)規(guī)則或比例關(guān)系 ,進(jìn)而合理進(jìn)行館藏布局。3.1.2 圖書推薦服務(wù)運(yùn)用數(shù)據(jù)挖掘技術(shù),根據(jù)讀者的興趣愛好、研究方向,向讀者推薦相關(guān)專題信息,或主動(dòng)將相 關(guān)信息提供給他們;同時(shí)通過總結(jié)各類用戶的特征,挖掘出圖書館的潛在讀者,逐漸將他們發(fā)展為 圖書館的???運(yùn)用
7、關(guān)聯(lián)規(guī)則對(duì)圖書館借閱數(shù)據(jù)進(jìn)行處理,得到各專業(yè)圖書及資料之間的聯(lián)系,從 而不僅給讀者提供信息,還提供包含著大量用用于解決問題的知識(shí),提供的信息或知識(shí)可能是利 用挖掘出的數(shù)據(jù)組織成的報(bào)表或繪制成的直觀圖形。Web 數(shù)據(jù)挖掘是以 Internet 的數(shù)據(jù)為分析對(duì)象,以抽取有用知識(shí)為目標(biāo),把傳統(tǒng)數(shù)據(jù)挖掘技 術(shù)和 Internet 相結(jié)合的數(shù)據(jù)挖掘的一個(gè)重要分支。 Web 數(shù)據(jù)挖掘是一門交叉性學(xué)科,涉及數(shù)據(jù) 挖掘、機(jī)器學(xué)習(xí)、模式識(shí)別、人工智能、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)語言學(xué)、計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、信息學(xué)等 Web 數(shù)據(jù)挖掘主要包含 Web 內(nèi)容挖掘(Web Content Mining)、Web 結(jié)構(gòu)挖掘(Web St
8、ructure Mining)和Web 日志挖掘(Web Usage Mining)。在實(shí)際應(yīng)用中這三個(gè)研究方向并不是孤立的,而 是相互交叉、相互滲透和相互聯(lián)系的。3.2.1 Web 內(nèi)容挖掘Web 內(nèi)容挖掘主要是針對(duì)網(wǎng)頁中非結(jié)構(gòu)化的數(shù)據(jù),如文本數(shù)據(jù)、音頻數(shù)據(jù)、視頻數(shù)據(jù)、圖形 圖像數(shù)據(jù)等多種數(shù)據(jù)相融合的多媒體數(shù)據(jù)挖掘。它是一種基于網(wǎng)頁內(nèi)容的 Web 挖掘,是從大量的 Web 數(shù)據(jù)中發(fā)現(xiàn)信息、抽取有用知識(shí)的過程。Web 內(nèi)容挖掘的任務(wù)是從用戶的角度出發(fā),主要解決怎樣提高信息質(zhì)量和幫助用戶過濾信息 的問題。學(xué)校圖書館可以通過 Web 內(nèi)容挖掘建立 Web 站點(diǎn)的數(shù)據(jù)模型并加以集成,為讀者提供復(fù) 雜
9、查詢的支持,而不只是簡(jiǎn)單的基于關(guān)鍵詞的搜索 ,大大提升圖書館信息服務(wù)的針對(duì)性和專業(yè)性。3.2.2 Web 結(jié)構(gòu)挖掘Web 結(jié)構(gòu)挖掘是指通過分析不同 Web 頁面之間的超鏈接結(jié)構(gòu),發(fā)現(xiàn)許多蘊(yùn)含在 Web 頁面之外 的對(duì)用戶有潛在價(jià)值的模式和知識(shí)的過程。從站點(diǎn)的組織結(jié)構(gòu)和頁面結(jié)構(gòu)中推導(dǎo)出知識(shí) ,對(duì) Web 頁面間的結(jié)構(gòu)進(jìn)行挖掘,找出數(shù)據(jù)鏈的結(jié)構(gòu)進(jìn)行分類、聚類,從而發(fā)現(xiàn)頁面間的關(guān)系,進(jìn)而提高圖 書館為讀者提供隱性知識(shí)的能力。3.2.3 Web 日志挖掘Web 日志挖掘是對(duì)用戶訪問 Web 時(shí)在服務(wù)器留下的訪問記錄進(jìn)行挖掘,來發(fā)現(xiàn)用戶訪問 Web 頁面的模式,通過分析日志記錄中的規(guī)律,可以識(shí)別用戶對(duì)于
10、各類網(wǎng)頁信息的喜好。通過 Web 數(shù)據(jù)挖掘,圖書館可將 Web 上的文檔進(jìn)行分類、尋找文檔主題、匯總搜索結(jié)果,為 讀者提供更加全面準(zhǔn)確的網(wǎng)絡(luò)信息;利用Web 數(shù)據(jù)挖掘可以對(duì)網(wǎng)上大量文本進(jìn)行表示、特征提取、 內(nèi)容總結(jié)、分類、聚類、關(guān)聯(lián)分析、語義分析以及利用網(wǎng)絡(luò)文本進(jìn)行趨勢(shì)預(yù)測(cè),提高信息檢索的 精度和效率,改善檢索結(jié)果的組織,使圖書館信息推送服務(wù)更符合讀者的需求。4 結(jié)語在互聯(lián)網(wǎng)時(shí)代的今天,各種信息如海潮般涌向我們,從紛繁復(fù)雜信息中收集對(duì)讀者有用信息 的準(zhǔn)確性,是學(xué)校圖書館現(xiàn)代化信息服務(wù)工作水平的體現(xiàn)。時(shí)代的發(fā)展要求我們將以往拉取式獲 取信息改變?yōu)橥扑褪叫畔⒎?wù),數(shù)據(jù)挖掘技術(shù)成功地解決了在主動(dòng)式信息服務(wù)過程中的各種難題, 這在圖書館現(xiàn)代化信息服務(wù)將成為趨勢(shì)的今天,有非?,F(xiàn)實(shí)的意義。參考文獻(xiàn)JiaweiHanMichelineKamber譯.數(shù)據(jù)挖掘概念與技術(shù).北京 : 機(jī)械工業(yè)出版社 2001.8.2Mehmed Kant
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 考前模擬卷A-2023年高考地理一??记澳M卷(江蘇專用)(解析版)
- 2024年房產(chǎn)買賣合同產(chǎn)權(quán)轉(zhuǎn)移
- 2024年度體育賽事組織與推廣合同
- 職場(chǎng)的心得體會(huì)(12篇萬能)
- 2024年體育賽事贊助與廣告授權(quán)合同
- 2024年廣告圍擋工程設(shè)計(jì)與安裝合同
- 幼兒園聽課心得體會(huì)萬能模板(6篇)
- 2024年技術(shù)合同:技術(shù)開發(fā)與合作條款詳解
- 2024年婚姻法律咨詢合同
- 2024年教育費(fèi)用分期付款協(xié)議
- 新部編人教版六年級(jí)下冊(cè)道德與法治全冊(cè)精品教案(教學(xué)設(shè)計(jì))
- 《小小的船》課件
- 《太陽出來喜洋洋》 課件
- 《管理會(huì)計(jì)》課程標(biāo)準(zhǔn)
- 上、下水庫工程庫岸處理施工方案
- 閥門結(jié)構(gòu)和工作原理(下)
- 安全現(xiàn)場(chǎng)文明施工措施費(fèi)用清單
- father knows better說課教案教學(xué)(課堂PPT)
- 防護(hù)欄生命工程監(jiān)理實(shí)施細(xì)則全解
- 環(huán)甲膜穿刺術(shù)PPT課件
- 長(zhǎng)軌運(yùn)輸 - T11長(zhǎng)軌列車收軌作業(yè)
評(píng)論
0/150
提交評(píng)論