人物搜索概念在圖書館工作中的應(yīng)用,文獻(xiàn)檢索論文_第1頁
人物搜索概念在圖書館工作中的應(yīng)用,文獻(xiàn)檢索論文_第2頁
人物搜索概念在圖書館工作中的應(yīng)用,文獻(xiàn)檢索論文_第3頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

人物搜索概念在圖書館工作中的應(yīng)用,文獻(xiàn)檢索論文漢語文獻(xiàn)一詞最早見于(論語八佾〕,元代馬端臨將其用作書名編成(文獻(xiàn)通考〕,把文釋成典籍,把獻(xiàn)釋為賢者.由此可見,文獻(xiàn)的產(chǎn)生與傳承是無法脫離人而獨(dú)立存在的,與人的見聞、言論以及他們所熟悉的各種禮儀和本身的經(jīng)歷密切相關(guān)。人,作為社會性的智慧動物,是生產(chǎn)信息的基本單位,若能以人為切入點,進(jìn)行文獻(xiàn)整理與信息資源的組織加工,進(jìn)而提供對象級別的檢索服務(wù),將會為圖書館讀者閱讀服務(wù)提供新的方式方法和思路。當(dāng)前,人物搜索在互聯(lián)網(wǎng)上已有廣泛應(yīng)用,如微軟亞洲研究院2008年推出的人立方、雅虎人物搜索、chinaren中國人同學(xué)錄搜索、百度空間搜人等都屬于人物搜索產(chǎn)品。華而不實人立方和雅虎人物上線較早,是人物搜索的代表產(chǎn)品,人立方憑借微軟強(qiáng)大的檢索技術(shù)和直觀絢麗的視覺展示成為該領(lǐng)域的領(lǐng)軍產(chǎn)品。人物搜索這個年輕卻極具創(chuàng)造性的搜索技術(shù)越來越遭到人們的關(guān)注。然而到當(dāng)前為止,該技術(shù)尚未在圖書館領(lǐng)域引起廣泛重視。筆者以為,將人物搜索概念引入到圖書館工作中,不但為圖書館組織、整合、集成和展示信息資源提供全新方式,而且為圖書館研究讀者行為,收集讀者信息,把握讀者閱讀主題并推行基于作者的書目推薦等服務(wù)工作提供全新方式方法。1人物搜索主流產(chǎn)品的比照1.1人立方人立方根據(jù)搜索本文關(guān)鍵詞語和與其相關(guān)的人名之間的關(guān)聯(lián)度強(qiáng)弱自動的計算每一個人名與本文關(guān)鍵詞語直接的距離、數(shù)據(jù)大小以及詳細(xì)的擺放位置等等,并通過一條標(biāo)明了人際關(guān)系的細(xì)線連接他們,展示其社會化關(guān)系。微軟亞洲研究院研究員聶再清博士介紹,人立方關(guān)系搜索從超過十億的中文網(wǎng)頁中自動的抽取出人名、地名、機(jī)構(gòu)名以及中文短語,并且通過算法自動的計算出它們之間存在關(guān)系的可能性;同時,人立方關(guān)系搜索還索引了支持它們之間關(guān)系的網(wǎng)頁文字。除此之外,人立方關(guān)系搜索還自動的找出人名之間最可能的關(guān)系描繪敘述詞、與人名最可能相關(guān)的稱呼、作品等詞條。人立方關(guān)系搜索從這些中文網(wǎng)頁中自動的識別出人名所對應(yīng)的人物簡介文字,并且根據(jù)這些文字是人物簡介的可能性進(jìn)行排序。人立方關(guān)系搜索引擎深度挖掘互聯(lián)網(wǎng)信息,通過對海量網(wǎng)頁中的人名、地名、機(jī)構(gòu)名的抽取,并對其有關(guān)的信息進(jìn)行相關(guān)度計算并排序,將搜索結(jié)果用直觀、動態(tài)、可視的方式展如今用戶面前。當(dāng)前,人立方提供了展示人的社會關(guān)系的構(gòu)造圖景、描繪敘述人的社會關(guān)系、相關(guān)事件的詳細(xì)內(nèi)容和揭示人的社會關(guān)系的動態(tài)進(jìn)程等核心功能。華而不實社會關(guān)系圖景包括和檢索對象有關(guān)的人物、地點和機(jī)構(gòu)三個類別的關(guān)系信息。人立方運(yùn)用可視化技術(shù)繪制人物關(guān)系圖來直觀顯示各人物之間的關(guān)系情況。如此圖1為本文關(guān)鍵詞語魏大威的人物關(guān)系圖。人立方是將詳細(xì)的人作為信息搜索的邏輯起點,把與此相關(guān)的信息收集起來,通過特殊的算法,將收集的信息根據(jù)相關(guān)的密切程度進(jìn)行級別分類,其檢索結(jié)果力圖展示與搜索對象相關(guān)的各種信息之間的時間與空間關(guān)聯(lián),進(jìn)而描繪敘述出相關(guān)互聯(lián)的人與事在不同時間和空間的存在于變化的真實狀態(tài)。這樣的搜索邏輯,不僅提高著人們收集和查閱信息的有效性,而且啟迪著人們對所需信息的認(rèn)知廣度和深度。1.2雅虎人物雅虎人物搜索以網(wǎng)頁搜索為計算基礎(chǔ),基于傳統(tǒng)搜索的信息挖掘技術(shù),將人和人之間的關(guān)系抽取出來,針對知名人士給出圍繞知名人物的豐富信息,包括人物簡介、人物關(guān)系等娛樂化內(nèi)容。能夠根據(jù)指定關(guān)系查看詳情,點擊人物關(guān)系圈中的一個關(guān)系人,就能夠查到以被點擊的人為中心的關(guān)系圈;假如點擊華而不實一個關(guān)系,能夠查到這個關(guān)系的具體情況。如此圖2為雅虎人物搜索返回的王志庚的人物關(guān)系網(wǎng)絡(luò)。圖2的人際網(wǎng)絡(luò)圖給出了人物關(guān)系,如中國國家圖書館,同時給出雅虎計算得出的同名信息。用戶能夠查看王志庚的個人資料、資訊、圖片等信息,還能夠添加評論。點擊任意人際網(wǎng)的連線,即可獲得連線相關(guān)人物關(guān)于此連線關(guān)系的信息。如此圖3為王志庚和任繼愈的連線關(guān)系信息。雅虎給出此條信息的來源并分析其可信度。關(guān)于雅虎人際網(wǎng)的連線關(guān)系,大多以機(jī)構(gòu)、或共同有聯(lián)絡(luò)的實體名來命名。如此圖4任繼愈的人際網(wǎng)關(guān)系分別為(中國哲學(xué)史〕(永樂大典〕(周易〕等。1.3人立方與雅虎人物的比照〔1〕查全率。實際搜索結(jié)果證明:對于指定的人物,人立方的查全率略高于雅虎。某些在人立方能夠檢索到的人物,如對中國科學(xué)院國家科學(xué)圖書館張智雄教授的檢索,在雅虎沒有返回結(jié)果。此檢索結(jié)果與人立方和雅虎的搜索范圍有關(guān)。人立方的人物關(guān)系檢索是基于10億中文網(wǎng)頁進(jìn)行的,即只要是在互聯(lián)網(wǎng)上公開留下痕跡的人物,都能夠通過人立方檢索獲得該人物的相關(guān)信息,而且給出的是網(wǎng)狀關(guān)系圖,即與檢索對象關(guān)聯(lián)的人物關(guān)系會同時給出。雅虎的人物搜索范圍相對窄些,且只給出與檢索對象有關(guān)聯(lián)的人物的線性關(guān)系?!?〕準(zhǔn)確度。人立方人物關(guān)系圖中每個圓圈表示的人物名字更貼近實際,相比之下雅虎差異略大。如此圖2中顯示的與王志庚有關(guān)系的人包括特藏、庫里等,點擊關(guān)系名字會發(fā)現(xiàn)特藏和庫里只是在某網(wǎng)頁中與王志庚并存,卻被當(dāng)人名提取出來,這與檢索技術(shù)有關(guān)?!?〕展現(xiàn)方式。人立方采用可視化的宇宙圖展現(xiàn)人物關(guān)系,關(guān)系的密切程度及關(guān)系得出的根據(jù)清楚明晰可見。人立方用時間軸動態(tài)展現(xiàn)人物時刻變化著的社會活動信息,跨越空間和時間障礙,真實的反響人類社會活動的全面信息。雅虎的人物關(guān)系能夠動態(tài)反響,未提供以時間軸查看信息的服務(wù)。〔4〕重名問題。人立方當(dāng)前在人名重名的處理上還有待改良。在人立方的關(guān)系圖中,或者只要華而不實一個最知名的人的關(guān)系圖,抑或是兩個或多個一樣的人同時出如今一張關(guān)系圖中。這是由于人物關(guān)系抽取時,人物唯一標(biāo)識沒有能很好處理,只要解決了同名不同人、同人不同名的問題,才能提高人立方的檢索精到準(zhǔn)確度。雅虎在這里方面做了嘗試,力爭在一個人際網(wǎng)中只顯示一個唯一人物的關(guān)系網(wǎng),而將同名信息清楚明晰的顯示在關(guān)系網(wǎng)的下面,如此圖2所示。2圖書館原有人物搜索的含義與缺乏2.1圖書館原有人物搜索的含義圖書館在進(jìn)行讀者服務(wù)時已使用了基本的人物搜索技術(shù),區(qū)別在于圖書館的人物搜索概念相對狹隘,未對文獻(xiàn)全部文字內(nèi)容進(jìn)行索引,僅針對文獻(xiàn)的作者進(jìn)行搜索。隨著全媒體服務(wù)的推進(jìn),讀者利用平板電腦、手機(jī)等移動終端閱讀電子文獻(xiàn)的需求日益加強(qiáng),促使圖書館將傳統(tǒng)圖片格式的電子書轉(zhuǎn)換成文本格式供讀者隨時隨地的閱讀,這種轉(zhuǎn)變也為文獻(xiàn)內(nèi)容牽涉的人物索引提供了條件。隨著數(shù)字圖書館建設(shè)步伐加快,新技術(shù)飛速發(fā)展,圖書館提供的文獻(xiàn)資源服務(wù)遠(yuǎn)遠(yuǎn)超出了館藏目錄的范圍。自建數(shù)據(jù)庫、外購數(shù)據(jù)庫、共建分享的資源乃至互聯(lián)網(wǎng)上的部分資源都正在或即將為讀者所用。面對如此龐大的信息來源,引入人物搜索技術(shù),將諸多文獻(xiàn)的創(chuàng)作者和文獻(xiàn)中記載的人物相關(guān)信息加以組織利用,將產(chǎn)生圖書館資源新的組織整合方式,并為讀者閱讀服務(wù)提供新方式。2.2圖書館原有人物搜索的缺乏傳統(tǒng)的基于文獻(xiàn)作者的檢索服務(wù),包括紙本資源、電子資源和音像資源的檢索,其檢索結(jié)果均為多個獨(dú)立的文獻(xiàn)信息。以紙本資源為例,在檢索框輸入圖書館學(xué),其返回結(jié)果為與檢索詞匹配的著作信息。此類檢索是基于文獻(xiàn)書目數(shù)據(jù)進(jìn)行的,這些數(shù)據(jù)在系統(tǒng)中孤立存在,并未建立起任何聯(lián)絡(luò)。假如讀者想獲取大量的資源,就需要不斷的嘗試新的檢索詞和檢索字段進(jìn)行屢次檢索,即使這樣,搜索得到的文獻(xiàn)也未必能知足讀者的需求。此時,若能智能的分析文獻(xiàn)和作者的聯(lián)絡(luò),分析文獻(xiàn)內(nèi)容中的人物關(guān)系,通過極少次數(shù)的檢索返回盡可能多的文獻(xiàn)信息的檢索服務(wù)便成為用戶最等待的圖書館服務(wù)之一。隨著網(wǎng)絡(luò)技術(shù)飛速發(fā)展,信息量已成幾何級數(shù)增長的今天,各個信息單元已不再孤立,它們相互之間存在著撲朔迷離的聯(lián)絡(luò)。若能以人為切入點,進(jìn)行對象級別的信息搜索,勢必將幫助人們更快、更全面的獲取信息,同時為圖書館組織與整合信息提供新方式。3人物搜索在圖書館中的應(yīng)用舉例3.1人名節(jié)點的引入利用計算機(jī)技術(shù)對圖書館的海量館藏資源進(jìn)行深度的數(shù)據(jù)挖掘、分類、排序,抽取作者、文獻(xiàn)名稱、關(guān)鍵字、內(nèi)容摘要、機(jī)構(gòu)名以及中文短語,并利用智慧的算法自動的計算出它們之間存在關(guān)系的可能性,并對關(guān)系類別進(jìn)行分析;與人立方對網(wǎng)頁進(jìn)行分析類似,圖書館對數(shù)字化資源進(jìn)行全文辨別,對其題名、作者、機(jī)構(gòu)、內(nèi)容摘要、本文關(guān)鍵詞語、以下為參考文獻(xiàn)以及全文進(jìn)行語義分析,并自動的找出作者之間的關(guān)系描繪敘述詞、與人名最可能相關(guān)的稱呼、作品等,自動抽取出人物簡介并根據(jù)相關(guān)性對人名進(jìn)行去重處理,構(gòu)成以人名為節(jié)點的知識網(wǎng)絡(luò),如此圖5所示。圖5以中國科學(xué)院國家科學(xué)圖書館的張智雄教授為例,講明人名節(jié)點的應(yīng)用。在關(guān)系檢索框中輸入張智雄,系統(tǒng)將自動返回張智雄的人物關(guān)系網(wǎng)絡(luò)。如張智雄的導(dǎo)師〔博士導(dǎo)師、碩士導(dǎo)師等〕,張智雄的學(xué)生〔博士,碩士等〕。垂直方向表示他的師生關(guān)系,如沈英為張智雄的博士導(dǎo)師,則沈英的位置在張智雄的垂直正上方;其學(xué)生則在他的垂直正下方顯示,水平方向表示同為學(xué)生的關(guān)系,如曲云鵬、林穎等同為張智雄的學(xué)生,可以根據(jù)需要按時間先后顯示學(xué)生關(guān)系。3.2讀者行為信息收集與利用當(dāng)前,圖書館在辦理讀者卡時已把握了一定的讀者信息,如讀者ID、姓名、性別、年齡、地址信息、學(xué)校、學(xué)歷和號碼等。讀者通過ID認(rèn)證登陸圖書館網(wǎng)站后,會產(chǎn)生一系列的文獻(xiàn)檢索和閱讀行為,如該讀者閱讀過的數(shù)據(jù)庫、知識庫,檢索過的本文關(guān)鍵詞語,下載過哪些文章,閱讀過哪些文獻(xiàn),在Library2.0服務(wù)產(chǎn)品中有過哪些評論和留言等。讀者的這些行為信息非常難得珍貴,假如將讀者在一段時間〔如一個月或半年〕內(nèi)的行為匯總整理,便構(gòu)成個人具體的信息庫。利用計算機(jī)技術(shù),可分析讀者在特定時間段感興趣的文獻(xiàn)主題、文獻(xiàn)類型,了解該讀者的大概閱讀時間段和平均天天的閱讀時間等信息,有助于圖書館根據(jù)讀者的需求有目的的進(jìn)行主題推送服務(wù)。對讀者進(jìn)入圖書館系統(tǒng)的日志信息進(jìn)行深切進(jìn)入的數(shù)據(jù)挖掘,研究讀者關(guān)心哪些人物內(nèi)容或哪些作者的文獻(xiàn),進(jìn)而分析讀者本人的研究背景及領(lǐng)域,為讀者建立自個的檔案信息庫,并采用計算機(jī)智能的自學(xué)習(xí)技術(shù)不斷調(diào)整信息庫的內(nèi)容。充分了解讀者需求,才能有針對性的向讀者提供更好的主題推薦和書目推薦服務(wù)。3.3參照讀者閱讀信息,提供閱讀多樣性服務(wù)通過建立每位讀者檔案庫,我們了解了讀者的閱讀信息。將全部讀者信息庫作為原始數(shù)據(jù)信息,利用計算機(jī)技術(shù)對原始數(shù)據(jù)進(jìn)行組織整理和數(shù)據(jù)挖掘,再利用形式辨別技術(shù)進(jìn)行分類,歸納某類讀者的閱讀行為特點,以指導(dǎo)圖書館的閱讀服務(wù)。如通過計算可得出:多少比例的讀者傾向于經(jīng)典閱讀,一般在什么時間進(jìn)行經(jīng)典閱讀,這些讀者屬于哪個年齡段?把握這些信息,圖書館便可有目的的建立相應(yīng)的經(jīng)典閱讀閱覽室,并結(jié)合閱讀時間和年齡特點提供相應(yīng)的服務(wù)。3.4基于作者的書目推薦服務(wù)書目推薦的一種重要方式是按同一作者或研究領(lǐng)域有直接關(guān)系的作者群的書目推薦服務(wù)。同一作者的研究領(lǐng)域一般較為固定,有直接關(guān)系的作者如師兄弟或?qū)熀蛯W(xué)生關(guān)系的作者,其研究領(lǐng)域較類似。讀者的閱讀主題在一段時間內(nèi)一般較專一,此時向讀者推薦一樣作者的書目或相關(guān)作者的書目,便為讀者提供了極大的便利。4人物搜索對圖書館服務(wù)的意義4.1提供嶄新的資源聚合方式以作者為出發(fā)點,將獨(dú)立的文獻(xiàn)提供變成相互關(guān)聯(lián)的諸多文獻(xiàn)的聯(lián)合展現(xiàn),為圖書館組織文獻(xiàn)創(chuàng)造新方式。傳統(tǒng)圖書館采用主題聚合方式,人物搜索的出現(xiàn),提示我們能夠以人作為信息資源聚合的基本點,為圖書館讀者服務(wù)工作提供了新的考慮范圍。4.2構(gòu)成一樣研究領(lǐng)域圈當(dāng)前的互聯(lián)網(wǎng)技術(shù)越來越強(qiáng)調(diào)圈子的概念,如百度的社區(qū)產(chǎn)品貼吧,百度空間等都屬于這類服務(wù)。通過建立不同的貼吧主題,相應(yīng)的建立了多個不同主題的圈子,網(wǎng)絡(luò)用戶自覺跳進(jìn)自個感興趣的圈子;百度空間的圈子沉淀不如貼吧明顯,其聯(lián)絡(luò)紐帶是作者的blog,對一樣blog內(nèi)容感興趣的人們聚到一起,相互討論交換意見。貼吧和空間是人主動搜索圈子的經(jīng)過,并且他們希望存在這樣的圈子。圖書館的人物搜索實現(xiàn)了諸多領(lǐng)域的圈子的自然構(gòu)成。依靠計算機(jī)技術(shù),自動的進(jìn)行文獻(xiàn)知識挖掘,將同一領(lǐng)域的作者、文獻(xiàn)、領(lǐng)域簡介等知識會聚起來,自然沉淀為一個知識圈子。為讀者提供多維度、更小粒度的領(lǐng)域知識,提高讀者索取文獻(xiàn)的全面性和準(zhǔn)確度。同時也為圖書館全面實踐Library2.0提供廣闊的平臺。4.3促進(jìn)讀者構(gòu)成良好的閱讀習(xí)慣良好的閱讀習(xí)慣有讀者內(nèi)因的作用,同樣也與閱讀環(huán)境有關(guān)。前面介紹的人物搜索在圖書館閱讀服務(wù)中的應(yīng)用,能夠幫助讀者養(yǎng)成良好的閱讀習(xí)慣,通過書目推薦服務(wù),讓讀者更便利的獲取所需資源?;谧x者閱讀信息的閱讀多樣性服務(wù),讓讀者感遭到更貼心的圖書館服務(wù)。還可定期舉辦書友會,為讀者和作者之間架起一道溝通的橋梁,促進(jìn)讀者閱讀的興趣。4.4建立知識體系圖書館的人物搜索對文獻(xiàn)的作者、機(jī)構(gòu)、刊名、本文關(guān)鍵詞語、內(nèi)容內(nèi)容摘要和引證關(guān)系進(jìn)行分析,構(gòu)成清楚明晰的知識脈絡(luò)圖。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論