大數(shù)據(jù)背景下讀者借閱行為的數(shù)據(jù)挖掘研究課件_第1頁
大數(shù)據(jù)背景下讀者借閱行為的數(shù)據(jù)挖掘研究課件_第2頁
大數(shù)據(jù)背景下讀者借閱行為的數(shù)據(jù)挖掘研究課件_第3頁
大數(shù)據(jù)背景下讀者借閱行為的數(shù)據(jù)挖掘研究課件_第4頁
大數(shù)據(jù)背景下讀者借閱行為的數(shù)據(jù)挖掘研究課件_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)背景下讀者借閱行為的數(shù)據(jù)挖掘研究研究目的 : 在圖書館現(xiàn)有的數(shù)字化系統(tǒng)中,每時每刻都在產(chǎn)生著大量的統(tǒng)計數(shù)據(jù)和表單,如何以“大數(shù)據(jù)”為基礎(chǔ),把這些統(tǒng)計數(shù)據(jù)和表單在進行分析和處理后,其內(nèi)在的信息量可以對圖書館的各種業(yè)務(wù),尤其是采購、館藏、咨詢業(yè)務(wù),起著很強的指導(dǎo)作用。 在圖書館數(shù)字化系統(tǒng)中采用各種數(shù)據(jù)挖掘技術(shù),可以分析讀者借閱行為信息資源的各項指標(biāo),例如圖書館藏資源的利用率、圖書館藏資源的有效率、圖書館藏資源的拒借率等指標(biāo),幫助圖書館加強采購、館藏以及咨詢等服務(wù)業(yè)務(wù),能將被動的為讀者提供圖書資料,轉(zhuǎn)變成主動地為讀者提供可能感興趣的信息資源,更好地為讀者提供個性化的推薦服務(wù)。研究過程:1、數(shù)據(jù)

2、挖掘應(yīng)用于圖書館數(shù)字化系統(tǒng)的技術(shù)分析。2、收集本校圖書館管理系統(tǒng)的后臺數(shù)據(jù),建立數(shù)據(jù)倉庫,選取合適的數(shù)據(jù)挖掘分析工具。3、運用數(shù)據(jù)挖掘技術(shù),對讀者借閱數(shù)據(jù)進行挖掘,分析讀者行為習(xí)慣及特點,發(fā)現(xiàn)借閱行為中隱含的學(xué)科關(guān)聯(lián)、借閱圖書特點等。4、數(shù)據(jù)挖掘技術(shù)在圖書館的讀者借閱行為分析中的具體應(yīng)用。研究內(nèi)容 : 隨著圖書館讀者的信息水平和信息要求的提高,也客觀上要求圖書館能夠為讀者提供的信息服務(wù)能夠更加主動和富于個性化,因此,圖書館要進一步加強對讀者的借閱行為信息的處理和分析能力,并能夠?qū)ψx者借閱行為信息資源進行進一步組織和整合,從海量的表面上龐雜無序的讀者借閱行為信息中提取有價值的內(nèi)在聯(lián)系供圖書館使用

3、,滿足讀者新的更復(fù)雜的借閱需求。 數(shù)據(jù)挖掘(Data mining。DM),就是從大量的,不完全的,有噪聲的,模糊的,隨機的數(shù)據(jù)中,提取隱含在其中的,人們事先不知道的,但又是潛在的有用信息和知識的過程。數(shù)據(jù)挖掘常常也被稱為數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge-Discovery from Databases,KDD),它可以從數(shù)據(jù)庫或數(shù)據(jù)倉庫以及其他各種數(shù)據(jù)庫的大量各種類型數(shù)據(jù)中,自動抽取或發(fā)現(xiàn)有用的模式知識。 數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書館的首要工作,是建立數(shù)據(jù)倉庫。圖書館數(shù)字化系統(tǒng)中的業(yè)務(wù)數(shù)據(jù)很多,數(shù)據(jù)之間存在著復(fù)雜的橫向聯(lián)系,但大而化之,可以將數(shù)據(jù)倉庫中所包含的信息分為主要的三類:讀者信息、圖書

4、信息和讀者借閱流通信息。在構(gòu)建數(shù)據(jù)倉庫時,具體可以按以下步驟進行:第一步,對圖書館各種業(yè)務(wù)數(shù)據(jù)進行數(shù)據(jù)建模,這是一個確定圖書館數(shù)據(jù)倉庫主題的過程;第二步,對所建的數(shù)據(jù)倉庫的數(shù)據(jù)庫進行設(shè)計,并確定數(shù)據(jù)轉(zhuǎn)換的程序;第三步,管理元數(shù)據(jù)。定義圖書館數(shù)據(jù)倉庫的元數(shù)據(jù),對圖書館各種業(yè)務(wù)數(shù)據(jù)進行元數(shù)據(jù)的表示、定義,確定其具體的意義,同時建立數(shù)據(jù)庫系統(tǒng)中各組成部件的相互關(guān)系;第四步,確定數(shù)據(jù)挖掘的數(shù)據(jù)分析工具,在實現(xiàn)和使用數(shù)據(jù)倉庫的基礎(chǔ)上,建立結(jié)構(gòu)化的決策支持查詢,幫助圖書館進行決策,實現(xiàn)圖書館決策支持需求。 利用關(guān)聯(lián)規(guī)則、聚類分析等算法,通過數(shù)據(jù)挖掘分析圖書的實際利用情況。數(shù)據(jù)倉庫中大量的這些讀者信息、圖書

5、信息和讀者借閱流通信息數(shù)據(jù)都屬于結(jié)構(gòu)化數(shù)據(jù),對其進行數(shù)據(jù)挖掘的的算法很多,一般最常用的有兩種:利用關(guān)聯(lián)規(guī)則算法和利用聚類分析算法。1)利用關(guān)聯(lián)規(guī)則算法主要是側(cè)重于借閱歷史數(shù)據(jù)中的分析,通過對信息資源借閱歷史進行關(guān)聯(lián)規(guī)則算法的分析后,例如發(fā)現(xiàn)有大量讀者在閱覽A書同時也對B書進行了閱覽,則圖書館的服務(wù)工作中可以增加一項向閱覽A書的讀者推薦B書的服務(wù),這些規(guī)則的發(fā)現(xiàn),對提高圖書館的圖書資源的利用率和為讀者提供更人性化的服務(wù)很有幫助。2)利用聚類分析算法主要是通過對新近書籍與歷史書籍的聚類分析,以判斷新近書籍對讀者的借閱價值。 根據(jù)圖書館現(xiàn)有的數(shù)字化系統(tǒng)中所產(chǎn)生大量的統(tǒng)計數(shù)據(jù)和表單建立的數(shù)據(jù)倉庫,是真

6、實的。對于圖書館而言,從這些大量的統(tǒng)計數(shù)據(jù)和表單中所發(fā)現(xiàn)的讀者借閱信息和知識是潛在的,圖書館所感興趣的,可理解、可運用的知識正是隱藏在這些大量的讀者信息、圖書信息和讀者借閱流通信息背后。數(shù)據(jù)挖掘分析后的決策 數(shù)據(jù)挖掘分析讀者的借閱行為后進行決策的依據(jù)可以有兩個維度:1)讀者信息維借閱數(shù)量比較對讀者借閱行為數(shù)據(jù)展現(xiàn)中的讀者信息維度借閱數(shù)量進行比較,可以以目標(biāo)群讀者的所有圖書持續(xù)時間為度量值,以讀者群的類別和共計持有時間來進行比較,這樣可以得到按照讀者類別來判斷讀者實際持有時間的分析情況。2)圖書信息維借閱數(shù)量比較在圖書館的圖書分類中,通常是以中圖法為分類依據(jù)的,這樣圖書館在進行決策時可以根據(jù)全體

7、讀者借閱某類書的持有時間來橫向比較,分析得出,哪類書更受讀者歡迎,哪類書更能滿足讀者需求。對圖書館進行統(tǒng)計,就是將圖書信息維分為若干個級別,例如一級類目、二級類目、三級類目和圖書條形碼等級別,然后分析得出受歡迎和不受歡迎的圖書種類,保障圖書館的館藏資源可以得到合理充分的利用。 數(shù)據(jù)挖掘分析圖書的實際利用后的決策,以圖書館為例,其決策樹如圖2。2數(shù)據(jù)挖掘技術(shù)在圖書館的讀者借閱行為分析中的具體應(yīng)用 數(shù)據(jù)倉庫的建立(1)數(shù)據(jù)源:圖書館的歷史借閱日志和還書日志;(2)擁有者:圖書館;(3)記錄的數(shù)目10550條借閱記錄、9875條還書記錄;(4)原始數(shù)據(jù)的格式主要是Excel表,其中借書記錄是l3個字段、還書記錄是15個字段,見表1。 本次分析中,讀者借閱的圖書共有 1246個大類,借閱情況如圖3所示。借閱次數(shù)大于100次的有19種,占總類目的1.52,0次到10次之間的有213種,占總類目的17.09;小于10次的類目為1014種,占總類目的81.38??梢?,在這段時間大量的文獻被讀者借閱次數(shù)很少,如A1馬克思、恩格斯著作大類只被

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論