關(guān)聯(lián)規(guī)則在圖書館流通數(shù)據(jù)中的應(yīng)用_第1頁
關(guān)聯(lián)規(guī)則在圖書館流通數(shù)據(jù)中的應(yīng)用_第2頁
關(guān)聯(lián)規(guī)則在圖書館流通數(shù)據(jù)中的應(yīng)用_第3頁
關(guān)聯(lián)規(guī)則在圖書館流通數(shù)據(jù)中的應(yīng)用_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

關(guān)聯(lián)規(guī)則在圖書館流通數(shù)據(jù)中的應(yīng)用

自21世紀(jì)以來,知識服務(wù)的質(zhì)量已成為提高圖書館服務(wù)的基本功能的重要途徑。知識服務(wù)與現(xiàn)代信息服務(wù)不同,知識服務(wù)是在獲取顯性信息的基礎(chǔ)上,更注重隱含在顯性信息中的各種隱性信息的挖掘,這些數(shù)據(jù)信息除了用于記錄讀者的借閱信息外,還可以用來做一些常規(guī)的業(yè)務(wù)數(shù)據(jù)統(tǒng)計,而現(xiàn)代信息服務(wù)主要是為了發(fā)現(xiàn)和獲取各種顯性的信息不同。對于現(xiàn)在的圖書館,隨著數(shù)據(jù)和數(shù)據(jù)庫的急劇增長,現(xiàn)有的信息管理系統(tǒng)中的數(shù)據(jù)信息服務(wù)已無法適應(yīng)新的需求。因為無論是查詢、統(tǒng)計還是報表,其處理方式都是對數(shù)據(jù)進(jìn)行簡單的數(shù)字處理,而不能對這些數(shù)據(jù)進(jìn)行深層次的處理。因此,在21世紀(jì)的人們希望圖書館能夠提供更高層次的數(shù)據(jù)分析功能,自動和智能地將待處理的數(shù)據(jù)轉(zhuǎn)化為有用的信息和知識。而數(shù)據(jù)挖掘正好為設(shè)計者提供了解決上述問題的有效方法,它通過對海量數(shù)據(jù)的分析,發(fā)現(xiàn)數(shù)據(jù)之間的潛在聯(lián)系,為設(shè)計者提供科學(xué)的決策,更好地為圖書館的管理、科研和教學(xué)服務(wù)。1相關(guān)規(guī)則的總結(jié)1.1用關(guān)系到數(shù)據(jù)的關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的一個重要問題,主要用于發(fā)現(xiàn)在龐大的事物數(shù)據(jù)庫中各數(shù)據(jù)項間可能存在的各種隱含的關(guān)系。該問題最早由R.Agrawal等人于1993年提出,目的是通過對商業(yè)領(lǐng)域中每天產(chǎn)生的大量商品交易數(shù)據(jù)的分析,挖掘出數(shù)據(jù)庫中不同商品之間的聯(lián)系,根據(jù)此聯(lián)系進(jìn)行商品貨架設(shè)計、貨存安排以及根據(jù)購買模式對用戶進(jìn)行分類。關(guān)聯(lián)規(guī)則的基本原理可以表述為:給定某一數(shù)據(jù)集合T,T=f(tl,t2,…tm),其中ti(1≤i≤m)是每筆交易的數(shù)據(jù)記錄,每條記錄ti由若干個數(shù)據(jù)項組成。設(shè)X、Y是任一交易記錄ti中可能出現(xiàn)的數(shù)據(jù)項。若在一個交易記錄中既含有x,又含有Y,則稱x昔Y在此交易中成立,即存在著數(shù)據(jù)項x對數(shù)據(jù)項Y的關(guān)聯(lián)。亦可表示為包括數(shù)據(jù)項x的交易記錄中具有包括數(shù)據(jù)項Y的趨勢。在數(shù)據(jù)挖掘的過程中,通常依據(jù)下述兩個技術(shù)指標(biāo)對滿足要求的關(guān)聯(lián)規(guī)則進(jìn)行篩選——支持度(用s表示)和可信度(用c表示):支持度s用來表示關(guān)聯(lián)規(guī)則xjY在整個交易集合T中出現(xiàn)的普遍程度,其值用同時包含數(shù)據(jù)項x和Y的數(shù)據(jù)記錄在整個交易集合T中所占的百分比s%表示,稱為規(guī)則xjY具有大小為s的支持度;可信度c用于揭示規(guī)則xjY在整個交易集合T中出現(xiàn)的必然程度,其值用同時數(shù)據(jù)項x和Y的記錄與交易集合T中所有包含數(shù)據(jù)項x的比c%表示,稱為規(guī)則xjY在交易集合T中具有大小為c的可信度。通常人們只對超過一定支持度和可信度的關(guān)聯(lián)規(guī)則感興趣。研究證明,單純使用最小支持度和最小可信度這兩個指標(biāo)的組合,在有些情況下會挖掘出錯誤的結(jié)果,甚至得到相互矛盾的規(guī)則,為此,人們又引入了增益度指標(biāo)(1曲。增益度通過將關(guān)聯(lián)規(guī)則x號Y的可信度c與任意情況下出現(xiàn)數(shù)據(jù)項Y的可能性(即包含數(shù)據(jù)項Y的記錄在交易集合T中所占的百分比)相比較,來修剪挖掘出來的關(guān)聯(lián)規(guī)則,以避免產(chǎn)生錯誤的結(jié)果,從而“提高預(yù)測準(zhǔn)確性的程度”。1.2頻繁項集的生成Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。它的基本思想是:首先找出所有的頻集,這些項集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項的所有規(guī)則,其中每一條規(guī)則的右部只有一項,這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推的方法。2圖書館對國內(nèi)外相關(guān)規(guī)則的應(yīng)用研究現(xiàn)狀2.1國際客戶的營銷目前,關(guān)聯(lián)規(guī)則挖掘技術(shù)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中,而在圖書館數(shù)據(jù)挖掘方面才開始起步。在西方金融行業(yè)企業(yè)中,經(jīng)過關(guān)聯(lián)規(guī)則挖掘獲得了這些關(guān)聯(lián)信息,銀行就可以改善自身營銷。國外各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM機的用戶了解。如果數(shù)據(jù)庫中顯示,某個高信用限額的客戶更換了地址,這個客戶很有可能新近購買了一棟更大的住宅,因此會有可能需要更高信用限額,更高端的新信用卡,或者需要一個住房改善貸款,這些產(chǎn)品都可以通過信用卡賬單郵寄給客戶。當(dāng)客戶打電話咨詢的時候,數(shù)據(jù)庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點,同時也可以顯示出顧客會對什么產(chǎn)品感興趣。2.2無法識別和掌握金融資料目前在我國,“數(shù)據(jù)海量,信息缺乏”是商業(yè)銀行在數(shù)據(jù)大集中之后普遍所面對的尷尬。目前金融業(yè)實施的大多數(shù)數(shù)據(jù)庫只能實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等較低層次的功能,卻無法發(fā)現(xiàn)數(shù)據(jù)中存在的各種有用的信息,譬如對這些數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征,然后可能發(fā)現(xiàn)某個客戶、消費群體或組織的金融和商業(yè)興趣,并可觀察金融市場的變化趨勢。可以說,關(guān)聯(lián)規(guī)則挖掘的技術(shù)在我國的研究與應(yīng)用并不是很廣泛深入。3圖書流通數(shù)據(jù)分析在圖書的流通過程中,產(chǎn)生了大量的讀者借閱數(shù)據(jù)。一般來講,讀者在專業(yè)知識學(xué)習(xí)或科研活動中,經(jīng)常需要進(jìn)行某些預(yù)備知識或相關(guān)知識的學(xué)習(xí),這些預(yù)備知識或相關(guān)知識與讀者學(xué)習(xí)或研究的專業(yè)領(lǐng)域既有可能屬于同一領(lǐng)域內(nèi)的不同學(xué)科方向,也有可能根本就不屬于同一個領(lǐng)域。這種學(xué)科相互滲透的現(xiàn)象已十分普遍,尤其是許多交叉學(xué)科本身就跨越多個知識領(lǐng)域。這種專業(yè)領(lǐng)域或?qū)W科之間存在的內(nèi)在的知識關(guān)聯(lián),部分關(guān)聯(lián)對館員來說是—般性常識。如理工專業(yè)的學(xué)習(xí)與研究普遍需要一定程度的計算機專業(yè)知識,經(jīng)濟管理要求數(shù)學(xué)知識,而相當(dāng)一部分知識關(guān)聯(lián)是館員無法判斷和發(fā)現(xiàn)的。這無疑會影響圖書館資源建設(shè)學(xué)科結(jié)構(gòu)的科學(xué)性與合理性。但是,知識間的關(guān)聯(lián)通常會影響讀者的文獻(xiàn)需求,并通過具體的借閱行為反映出來。圖書館每天產(chǎn)生的大量的圖書流通數(shù)據(jù)為研究讀者的借閱行為、發(fā)現(xiàn)知識間的關(guān)聯(lián)提供了突破口??梢酝ㄟ^對不同專業(yè)的讀者群的流通數(shù)據(jù)進(jìn)行挖掘分析,發(fā)現(xiàn)這種隱含的關(guān)聯(lián),以指導(dǎo)圖書館的讀者服務(wù)工作向知識服務(wù)的層面發(fā)展。為了說明問題,下面以咸陽職業(yè)技術(shù)學(xué)院計算機應(yīng)用技術(shù)專業(yè)的學(xué)生的圖書借閱數(shù)據(jù)為例說明具體的數(shù)據(jù)挖掘方法。數(shù)據(jù)來源于該專業(yè)2010級某班的學(xué)生在2010年9月至2011年5月間的圖書借閱統(tǒng)計。筆者把該班5名學(xué)生所借閱過的圖書視為一個集合,其中每一位學(xué)生所借閱的圖書視為集合中的一項記錄。為了使挖掘更具針對性并提高效率,筆者設(shè)定此次挖掘的目標(biāo)在于發(fā)現(xiàn)該班學(xué)生在借閱專業(yè)書籍的同時是否存在閱讀其他專業(yè)書籍的趨勢。具體的步驟如下:1)數(shù)據(jù)的預(yù)處理。因數(shù)據(jù)挖掘是建立在大量的數(shù)據(jù)統(tǒng)計基礎(chǔ)之上的,為了保障效率,在進(jìn)行數(shù)據(jù)分析前,應(yīng)根據(jù)挖掘目標(biāo),對數(shù)據(jù)進(jìn)行“數(shù)據(jù)約束”,即去除對挖掘元任何意義的數(shù)據(jù),并對數(shù)據(jù)依據(jù)一定的標(biāo)準(zhǔn)進(jìn)行歸并。本次挖掘,筆者對數(shù)據(jù)進(jìn)行了如下“拘束”:去除學(xué)生借閱的社科類圖書,按照中圖法的二級分類對數(shù)據(jù)進(jìn)行歸并,并剔除了在整個集合中出現(xiàn)頻率≤2、對挖掘無任何意義的數(shù)據(jù)。經(jīng)過整理后,有效借閱記錄見表1所示。2)找出符合最小支持度和最小可信度標(biāo)準(zhǔn)的關(guān)聯(lián)規(guī)則,如表2所示。設(shè)定最小支持度為40%,根據(jù)Apriori算法,首先產(chǎn)生第1候選項目集C1。由于其他類的支持度小于40%,最終L1頻集如表3和表4所示。根據(jù)Apriori算法,由L1頻集,產(chǎn)生候選2項集C2,剔除掉支持度小于40%的項目集,產(chǎn)生頻繁2項集L2,如表5和表6所示。根據(jù)Apriori算法,由L2頻集,產(chǎn)生候選3項集C3,因為C3的支持度大于40%,所以C3即最大頻繁項目集L3。由最終頻集L3,可得出以下規(guī)則:confidence(英語類=>醫(yī)學(xué)類、習(xí)題類)=40%/80%=50%可以看到借閱醫(yī)學(xué)類圖書的讀者同時也借閱英語類和習(xí)題類的可能性(66.6%)和借閱英語類圖書的讀者同時也借閱醫(yī)學(xué)類和習(xí)題類的可能性(50%)已經(jīng)足夠高了,意味著這是一條有意義的關(guān)聯(lián)規(guī)則。4信息服務(wù)的量化描述。在整個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論