網絡知識挖掘在數(shù)字參考咨詢中的實現(xiàn)_第1頁
網絡知識挖掘在數(shù)字參考咨詢中的實現(xiàn)_第2頁
網絡知識挖掘在數(shù)字參考咨詢中的實現(xiàn)_第3頁
網絡知識挖掘在數(shù)字參考咨詢中的實現(xiàn)_第4頁
網絡知識挖掘在數(shù)字參考咨詢中的實現(xiàn)_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、網絡知識開掘在數(shù)字參考咨詢中的實現(xiàn)【內容提要】文章側重闡述了網絡知識開掘產生的配景及其觀點、技能,探究了網絡知識開掘在數(shù)字參考咨詢辦事中的應用?!菊}】信息需求與辦事【關鍵詞】數(shù)字參考咨詢/數(shù)據(jù)開掘/網絡知識開掘【正文】1網絡知識開掘產生的配景及其觀點、技能對知識開掘的假想始于20世紀80年代末。其時出現(xiàn)了從源數(shù)據(jù)中掘客新信息形式及算法,被稱為數(shù)據(jù)中的知識創(chuàng)造knledgedisveryindatabase,kdd。這種想法的出現(xiàn)是由于此前的信息或知識數(shù)據(jù)庫存在著種種范圍,限定了對數(shù)據(jù)庫中蘊涵知識的有效利用1。知識創(chuàng)造被以為是以后具有緊張影響和應用遠景的關鍵技能。知識創(chuàng)造knledgedis

2、very也稱數(shù)據(jù)開掘dataining,源自人工智能的呆板學習范疇,是在一個狀態(tài)的數(shù)據(jù)集上,通過設定一定的學習算法,從數(shù)據(jù)中獵取所需的知識2。數(shù)據(jù)開掘普及應用于數(shù)據(jù)堆棧和漫衍式數(shù)據(jù)庫中,按照數(shù)據(jù)間的彼此干系舉行數(shù)據(jù)闡發(fā),提取埋伏有效的信息和知識,經開掘后被創(chuàng)造的知識可用于信息辦理、查詢優(yōu)化、科學研究、決議支持、歷程操縱等。現(xiàn)有的數(shù)據(jù)開掘東西有:delquestiner、knledgeseeker、businessiner、ansertree等幾十種。數(shù)據(jù)開掘是網絡知識開掘的基矗網絡知識開掘是指利用數(shù)據(jù)開掘技能,主動地從由異構數(shù)據(jù)構成的網絡文檔中創(chuàng)造和抽取知識,從觀點及相干因素的延伸比力上尋出用

3、戶必要的深條理知識的歷程3。網絡知識開掘可分為網絡內容開掘ebntentining、網絡布局開掘ebnstrutining、網絡利用開掘ebusageining。一樣平常而言,網絡知識開掘的創(chuàng)造技能重要包羅以下幾個方面。1.1途徑闡發(fā)可以用很多曲線圖解法來舉行途徑闡發(fā),一個曲線代表了eb頁面間大概其他事物之間的一些接洽。1.2關聯(lián)規(guī)矩關聯(lián)規(guī)矩用于創(chuàng)造數(shù)據(jù)項之間的接洽,在網絡開掘中就是創(chuàng)造某一主顧的引用頁面和辦事器上多種頁面之間的接洽。1.3序列形式應用序列形式是為了創(chuàng)造一些交互形式,如在一時間段內某一數(shù)據(jù)項反面隨著另一個數(shù)據(jù)項。在辦事器日記文件中,記載了一段時間內客戶的拜候信息,對eb辦事器中

4、拜候日記的序列模子闡發(fā)可以利用企業(yè)猜測用戶拜候形式,幫助告白舉行目的定位,創(chuàng)造在一個時間段內拜候某一文件的全部客戶的雷同特性等。1.4聚類和分類按照一些數(shù)據(jù)項的配合特性來對數(shù)據(jù)庫舉行分類。在網絡開掘中,分類技能可以基于用戶的一些生齒統(tǒng)計信息和拜候形式對拜候某文檔的用戶舉行偏好形貌。聚類闡發(fā)可以將有相似特性的用戶大概數(shù)據(jù)聚攏在一起,聚類eb日記的用戶信息和數(shù)據(jù)可用來訂定將來市場營銷計謀4。2網絡知識開掘與數(shù)字參考咨詢知識庫的創(chuàng)立數(shù)字參考咨詢的觀點劈頭于20世紀80年代的美國,早期的電子郵件咨詢辦事劈頭于1984年的華盛頓大學康健科學圖書館和馬里蘭巴爾迪摩大學康健圖書館5。在美國,圖書館界對數(shù)字圖

5、書館的生長存在兩種見解,此中一種把圖書館看作是一個在圖書館員的幫助下為寬大用戶提供智能辦事的透明的知識網絡。數(shù)字參考臺就是按照這種意見創(chuàng)立起來的對話式的智能辦事體系6。數(shù)字參考咨詢是陪同著數(shù)字圖書館的研究和理論高潮出現(xiàn)的又一大熱門,也是網絡情況以下圖書館參考咨詢辦事的主流生長標的目的。利用網絡知識開掘技能,可以相識用戶拜候圖書館的目的和趨勢,相識用戶的愛好和需求,革新辦事質量,變被動辦事為主動辦事,進步數(shù)字參考咨詢辦事的服從。數(shù)字化信息資源是數(shù)字參考咨詢的物質底子,它由種種知識庫構成。數(shù)字參考咨詢是從積聚知識庫到舉行知識辦事,可以在面劈面與用戶雷同中斷定用戶的實際需求,由此來加深知識辦事層面的

6、深度和廣度。知識庫的建立直接影響到數(shù)字參考咨詢辦事??上攵?,假設沒有知識庫或知識庫內容非常少,僅憑咨詢員小我私家的知識履歷很難滿意差異用戶的種種需求。網絡在提供富厚資源的同時,也給查尋和獵取有效信息帶來了難度。傳統(tǒng)的數(shù)據(jù)開掘涉及的重要是布局化及半布局化的數(shù)據(jù)庫,而網上的信息變革頻仍且具動態(tài)性,是一個宏大而又龐大的異構型數(shù)據(jù)庫,對網上的信息舉行開掘要比面向單個數(shù)據(jù)庫龐大得多。數(shù)字資源的多元性和疏散性,使數(shù)字化信息的知識化開掘和鏈接成為信息辦事所面對的前沿挑釁。因此,對數(shù)據(jù)的進一步加工和內容闡發(fā)顯得越來越緊張。在如許的配景下,網絡知識開掘的新技能應運而生。網絡知識開掘的范例可分為對網絡知識的開掘

7、和對用戶知識的開掘。對網絡知識的開掘重要是指通過對網絡信息的定性定量的增值處置懲罰,尋出信息漫衍的紀律,創(chuàng)造信息內涵的關聯(lián)性,開掘隱蔽在網絡信息中的知識并形成模子。對用戶知識的開掘是指對用戶拜候網絡時的信息和用戶小我私家信息的開掘。網站辦事器會保存用戶的拜候記載,記載關于用戶拜候和交互的信息,對此舉行闡發(fā)和開掘,有助于明白用戶的信息運動,相識用戶的信息需求,從中得出用戶的拜候形式和拜候愛好,從而革新網站的布局,也可以用于為用戶提供本性化的辦事7。此類知識庫創(chuàng)立要領在實際中的應用如復旦大學,復旦大學的及時咨詢提示用戶假設在線咨詢員沒有空閑,可以參考圖書館faq中的一些常見題目的解答;假設用戶的題

8、目仍未辦理,不妨利用電子郵件咨詢辦事,或稍候利用及時在線咨詢辦事。用戶所提的題目及其相應回復大概被收入復旦大學圖書館參考咨詢臺背景知識庫中,在知識庫中用戶的全部小我私家信息都市被刪除,收入數(shù)據(jù)版權歸復旦大學圖書館全部8?;趇nternet建立起來的知識庫,其質量優(yōu)劣直接影響數(shù)字參考咨詢。作為信息資源的知識庫,要形成一定的范圍且檢索便捷、內容新奇,可以或許不竭地更新,以保持數(shù)據(jù)的正確、全面和及時。如當當代界上最大的圖書館網絡l把互聯(lián)網上的信息顛末體系化的整理,通過主題詞即可檢索;且l的rldat數(shù)據(jù)庫隨時更新,每年以200多萬筆記載的速率增長9。l之以是始終保持在高新技能前線,是由于在研究開拓

9、上的大量投資。l均勻每年投資研究與開拓工程達1000萬美元以上,僅在2002-2022財務年度就投資1400萬美元10。以是研究開拓先輩的知識開掘、闡發(fā)和提煉技能,形成一個富厚的知識庫來滿意用戶的需求,進步用戶的滿意度,給用戶更好的辦事,是做好數(shù)字參考咨詢辦事所必須的。3網絡知識開掘為數(shù)字參考咨詢提供技能支持圖書館對新技能尤其是信息技能保持高度敏感。隨著電子技能、盤算機技能和通訊技能的迅猛生長,互聯(lián)網在環(huán)球范疇得到敏捷普及,同時多媒體技能、及時交互技能等與之配套的技能如雨后春筍般出現(xiàn),這為圖書館開展數(shù)字參考咨詢辦事提供了技能保障。顛末幾年的積極,圖書館的數(shù)字化建立與辦事已具備了較好的技能和硬件

10、底子,這也為開展數(shù)字參考咨詢辦事提供了強有力的技能支持。知識開掘的技能底子是統(tǒng)計學與人工智能。知識開掘的重要特點是能對原有的數(shù)據(jù)舉行高度主動闡發(fā)、歸納推理,從中開掘出埋伏的形式,猜測用戶的舉動,幫助決議者調解計謀,作出準確的決議。人工智能是以主動機為本領,通過模擬人類宏不雅外顯的頭腦舉動,從而高服從地辦理實際天下題目的科學和技能??梢钥闯觯斯ぶ悄艿哪康姆浅8?,除必要龐大的算法外還必要特定的呆板。但知識開掘僅僅利用了人工智能中一些已經成熟的算法和技能,如人工神經網絡artifiialneutralnetrks、遺傳算法genetialgriths、決議樹deisintrees、規(guī)矩推理rule

11、indutin即通過統(tǒng)計學要領歸納提取有代價的if-then規(guī)矩,如關聯(lián)規(guī)矩開掘、模糊邏輯fuzzylgi、vs等11。數(shù)字參考咨詢辦事無非是在包管提供切適用戶要求的同時收縮提供時間和提供本性化辦事。數(shù)字參考咨詢辦事的交換方法重要由解答式和交互式兩種。前者是比力開端而簡樸的辦事方法,如faq、非及時的電子郵件、eb表單、bbs和essagebard留言版等;后者重要是指及時性的交互形式,如2002年7月,l與美國國會圖書館協(xié)同研制開拓推出網上團結數(shù)字參考咨詢辦事questinpint。但不管是哪一種,如今的提供方法固然也在鑒戒和應用盤算機的主動處置懲罰,但智能化的程度有待進步。此中最重要的一點

12、是要進步對提問信息的闡發(fā)準確度,怎樣從提問信息中提取最相干的單詞、詞組,并對提取的單詞、詞組在已有知識庫中舉行正確無誤匹配,這就用到詞表技能。如今,詞表技能研究的一個緊張生長趨勢就是與網絡檢索這類應用體系的團結。通過觀點空間詞表界面,用戶可以隨意輸入任何一個單詞或詞組,這時搜刮界面會在一個表現(xiàn)框中表現(xiàn)按與用戶檢索詞相干程度排序的空間詞匯,用戶可以從中選擇合意的詞添加到搜刮框中,從而檢索出用戶所需的信息,更進步檢索的正確度。其次是對檢索效果集的挑選和提煉題目。網絡知識開掘的目的是將用戶從浩如煙海、錯綜龐大的網絡信息源中解放出來,掙脫原始數(shù)據(jù)細節(jié),直接與數(shù)據(jù)所反響的知識打交道,使處置懲罰效果以可讀

13、、簡練、歸納綜合的情勢出現(xiàn)給用戶,利用戶能把重要精神真正用到闡發(fā)本質題目、進步事情服從和資源利用率方面。網絡知識開掘可以或許真正支持起數(shù)字參考咨詢辦事體系的顯性知識與隱性知識全方位開拓計謀。如今對檢索效果的挑選和提煉這個事情環(huán)節(jié)大部門是由人工完成的,固然包管了質量,但隨著以后事情量的日益增長,接納智能處置懲罰是一定趨勢。知識開掘固然仍處在生長的前期,另有很多研究困難,但我們在建立數(shù)字參考咨詢辦事體系的時間,必須思量對知識辦理成效的開拓,預先方案好底層數(shù)據(jù)尺度和二次開拓接口等。4網絡知識開掘在數(shù)字參考咨詢本性化辦事中的應用數(shù)字圖書館的內涵不但僅應表如今其數(shù)字化資源的建立上,更應表如今辦事上。數(shù)字

14、參考咨詢辦事是數(shù)字圖書館建立的一定效果。數(shù)字參考咨詢的用戶需求不但是簡樸的查詢,并且是必要深化內容的信息處置懲罰技能,盼望掙脫表層信息的滋擾,對網絡數(shù)據(jù)作更深條理的闡發(fā)與開掘。這就要求圖書館從紛繁龐大的信息資源中,以面向“小我私家的方法來開掘知識,提取真正有效的信息。這是數(shù)字圖書館建立中要思量的題目之一,是做好數(shù)字參考咨詢的前期基矗本性化辦事是指利用多種數(shù)據(jù)闡發(fā)技能,按照用戶愛好的信息向用戶及時、主動地保舉用戶必要的且以往沒有得到的知識資源信息,并能按照用戶對保舉內容的反響進一步革新保舉效果。本性化辦事是一種高條理的智力技能運動,其緊張的特點是知識增值與智能重組。網絡知識開掘事情運用最新的智能

15、東西來開掘蘊藏于海量顯性信息中的隱性知識,并形成專業(yè)知識庫和知識堆棧,將隱性知識顯性化并賜與辦理、利用,非常切合網絡用戶對本性化、隱性知識的需求。網絡知識開掘在數(shù)字參考咨詢本性化辦事中的應用重要表如今以下兩個方面。4.1網絡與用戶有關的信息,創(chuàng)立用戶信息庫通過種種方法網絡用戶愛好,好比表單、跟蹤日記、體系導入等,從而創(chuàng)立用戶本性化的信息庫。1填寫表單。數(shù)字參考咨詢辦事可以在主頁上提供本性化辦事的注冊入口。在進入頁面,方案一個表單,內容包羅用戶的配景信息,如用戶的學歷、年事、職業(yè)、地區(qū)、要求等和用戶的特別信息,如感愛好的專業(yè)、標的目的,想獵取的信息以及獵取方法和聯(lián)結方法等。2跟蹤日記。數(shù)字參考咨

16、詢辦事可以在用戶進入圖書館網站開始,對用戶的舉動舉行跟蹤,產生日記文件,并將該日記文件并入用戶信息庫。對用戶的eb日記記載舉行開掘可以比力真實地反響其信息需求。從eb日記記載中可以開掘出關聯(lián)形式、序列形式和eb拜候趨勢等,從而明白用戶的反響和動機。3體系導入。通過團結圖書館方法將別的圖書館的用戶信息庫導入,也可以與別的網站互助,導入其用戶數(shù)據(jù)。4.2利用知識開掘技能,闡發(fā)用戶信息庫為了開展本性化辦事,必須相識用戶,相識用戶的信息需求,包羅顯性需求和隱性需求,舉行以下闡發(fā)。1用戶分類。通過對用戶的愛好、愛好、研究范疇、知識布局、利用圖書館的程度和對圖書館提供辦事本領把握的純熟程度等方面,將用戶舉行分類。2用戶舉動闡發(fā)。要將信息主動推送給用戶,必須相識用戶的信息需求,它包羅顯性需求和隱性需求。顯性需求是通過填問答表的方法相識,做到這一點比力輕易,關鍵是怎樣相識用戶的隱性需求。隱性需求重要是體系通過不雅察用戶信息利用舉動,好比用戶拜候的頁面、拜候次數(shù)、停留時間、保存舉動等,以此來正確地獵取用戶的信息必要。要做到這一點,必須美滿相應的人工智能要領和呆板學習等技能。3用戶反響開掘。用戶反響開掘是通過主動聚類技能將用戶相干反響的效果聚類,形成某些條理以形貌用戶信息需求,詳細包羅關聯(lián)聚類、矩陣聚類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論