信息檢索的小_第1頁
信息檢索的小_第2頁
信息檢索的小_第3頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、信息檢索的小信息檢索,是指將信息按一定的方式組織和存儲起來,并根 據信息用戶的需要找出有關的信息過程。以下是小編整理的信息檢索的小,歡迎閱讀。信息檢索的小1圖書情報的信息檢索也就是把信息進行整 理、排序、歸納以及存儲起來,這樣不僅能夠展現情報的內在特 征,還能夠反應情報的外在形式。眾所周知,傳統(tǒng)的圖書情報搜 索模式已不能夠適應現代社會的發(fā)展,現在人們更加的追求智能化的信息檢索方式,在信息檢索的過程中,把高科技的技術以及 方法引入到圖書情報管理工作中,確保圖書情報更加的真實科 學。一、我國信息檢索在圖書情報應用中存在的問題1. 信息檢索技術不完善目前,信息檢索在圖書情報中的應用仍然不是很完善,其

2、 中主要包括以下兩個方面:一方面是知識的獲取和技術的表達存 在一些問題。把復雜多樣的專業(yè)知識形成一個比較系統(tǒng)的、有規(guī)律的模式,往往是比較復雜的。另一方面是由于語言處理方面的 局限,在進行檢索工作的時候, 檢索者的文化素養(yǎng)以及專業(yè)知識 往往直接影響著檢索所出現的結果。因此若想使計算機能夠準確的把握檢索者輸入的各種語言方式,將大大提高檢索的效率,然而在實際的檢索過程中,由于計算機只能夠接收一些簡單的、規(guī)范的語句,大大降低了檢索效率。2. 信息檢索系統(tǒng)本身的障礙檢索者在進行圖書情報檢索的過程中, 容易出現各種問題, 其中信息檢索系統(tǒng)本身就存在一定的局限。首先,信息檢索的用戶往往來自不同的專業(yè)領域,他

3、們知識水平和專業(yè)素質都不相 同,這使得計算機很難對其進行一個合理的定位。其次是圖書情報不僅存在一定的豐富性, 還存在一定的復雜性,而將那么多綜 合復雜的信息整個到一個系統(tǒng)當中,是一件非常困難的事情。 最后是圖書情報檢索專家系統(tǒng)不易建立,一方面是這些專家的經驗和技術不能夠準確的表達,另一方面是不同檢索專家往往具有不 同的觀點,這都對圖書情報檢索專家系統(tǒng)的建立,帶來一定的困難。3我國的情報技術發(fā)展落后眾所周知,相對于國外的情報技術的發(fā)展,我國的情報技 術明顯落后,這嚴重影響了信息檢索在圖書情報中的應用。同時我國在對于信息檢索技術上的人力、財力以及物力的投資也明顯沒有國外高??偠灾?,由于我國對于情

4、報技術的重視程度不高, 在很大程度上影響了信息檢索的發(fā)展。二、信息檢索在圖書情報中應用的幾點建議1. 建立理論基礎,打破傳統(tǒng)思維模式任何一項技術都有理論依據,信息檢索也不例外,然而目 前大多數負責的圖書情報的管理工作人員不能夠很好的理解信 息檢索在圖書情報中的作用, 因此在今后的發(fā)展過程中, 要對信 息檢索建立一定的理論依據, 并且打破傳統(tǒng)的思維模式, 促進信 息檢索的發(fā)展。信息檢索就是要確保圖書情報能夠進行有組織 的、有規(guī)律的分類和歸納,同時也要讓工作人員明白其中的復雜 程度,讓他們認真對待信息檢索在圖書情報中的應用,以提高圖書情報的發(fā)展。2. 圖書情報檢索專家化在圖書情報中推廣信息檢索,可

5、以嘗試成立專門的圖書情報檢索小組,讓信息檢索在圖書情報中受到重視。眾所周知,我 國對于圖書情報的檢索往往不夠重視, 導致了圖書情報檢索工作 停滯不前,因此,在今后的圖書情報檢索發(fā)展的過程中,要建立 由國家情報信息機構牽頭以及各行各業(yè)的專家組成,確保我國圖書情報信息檢索工作在今后的發(fā)展過程中能夠有組織、有計劃, 以此來打破各自為政的發(fā)展方式, 確保我國圖書情報檢索向著統(tǒng) 一化、系統(tǒng)化、智能化的方向發(fā)展。3. 加強自身知識建設,提高專業(yè)水平加強圖書情報教育,要從大學生教育開始。因此在今后的 發(fā)展過程中,要全面的提高學生的基本素質, 培養(yǎng)大學生的情報 信息素養(yǎng),確保他們能夠熟練的運用當代的信息檢索技

6、術進行圖 書情報的獲取。在學習的過程中,圖書情報信息的識別、歸納綜 合處理信息以及傳遞信息等是基本技能,因此一定要確保大學生能夠掌握以上技能。而高水平的檢索者能夠對圖書情報進行一定 分析和判定,善于利用信息檢索,確保信息檢索在圖書情報中能 夠得到很好的應用,讓我國的信息檢索在圖書情報中得到更好的 發(fā)展。眾所周知,未來是一個信息技術發(fā)達的社會,誰先掌握了 技術,誰就能夠主宰這個社會,因此在今后的發(fā)展過程中,要不 斷的學習和發(fā)展人工智能技術,確保我國圖書情報的發(fā)展。三、圖書情報人員必須接受的教育若想確保我國圖書情報的發(fā)展,就必須對圖書情報人員進 行教育和培訓。首先要擴展他們的知識,對圖書情報工作人

7、員不 僅要補充他們的知識,還要確保他們知識結構的合理化。同時還要培養(yǎng)他們的計算機以及外語水平, 確保他們能夠勝任圖書情報 這一工作。其次要對圖書情報工作人員的知識進行更新,現在技術和知識都發(fā)展很整理快,圖書情報工作人員為了能夠更好的掌握圖書情報工作,就要不斷的學習,不斷的更新自己的知識。最 后是培養(yǎng)圖書情報工作人員的科研能力,圖書情報工作人員只有 敢于探索,敢于鉆研,才能夠推動圖書情報工作的發(fā)展??偨Y語綜上所述,目前在我國信息檢索在圖書情報的應用仍然不 夠完善,其中不僅由于技術發(fā)展的落后, 還由于缺乏專業(yè)的圖書 情報工作人員。因此在今后的圖書情報的發(fā)展過程中,相關部門要重視圖書情報工作,不惜投

8、入大量的資金和人力, 以促進我國 圖書情報的發(fā)展。信息檢索的小2引言互聯網的快速發(fā)展和廣泛應用,為人們提供了一個廣闊的 信息空間,也為信息檢索提供了一個廣闊的發(fā)展平臺?;ヂ摼W的開放性和自由性使得網絡信息資源呈現出數量巨大、異構性、分散性和動態(tài)性特征。但由于網絡信息時效性強以及互聯網缺乏必 要的監(jiān)督和質量控制,使得大量垃圾信息混于高質量信息當中, 增加了有效信息獲取的難度,影響檢索效率。因此,使用有效的 檢索工具才能使得網絡信息資源為人們所充分利用。1網絡信息資源點與檢索工具上世紀90年代中期出現的搜索引擎技術目前已經成為檢 索各類網絡信息資源最主要的檢索工具。搜索引擎一般工作流程是借助于網絡自

9、動搜索軟件(Robot、Spider等)訪問瀏覽網頁 并抓取文件,并通過已瀏覽的網頁中的鏈接訪問更多網頁。在抓取網頁的同時對頁面文件進行分析分解以及索引,建立索引數據庫。當用戶在搜索引擎界面輸入搜索詞后,搜索引擎對搜索詞進行處理,按照處理后的搜索詞在索引數據庫中找出所有包含相關 內容的網頁,并更具排名算法計算出排名順序然后按照一定的格式返回到搜索頁面。普通的搜索引擎缺點在于返回的檢索結果數 量巨大,無關和冗余信息較多,用戶必須從中進行篩選。雖然布 爾運算、截詞運算、自然語言檢索等技術使用大大提高了準確率, 但對用戶檢索素養(yǎng)要求很高。針對以上問題,學者把研究對象放到對詞意的挖掘上,探索實現基于概

10、念匹配的檢索技術和方法, 基于本體的語義檢索成為研究重點。2語義檢索基本要素和原理隨著人工智能以及自然語言處理的發(fā)展,尤其是語義網技 術的興起,自上個世紀以來語義檢索研究得到了迅猛的發(fā)展。雖然對于語義檢索在概念上到目前為止沒有統(tǒng)一的界定,但是不同的研究都有一個共同之處就是基于對信息資源的語義處理時限 效率更高的檢索。本體是語義檢索的基礎,其主要任務是對信息 資源進行語義表達。本體(Ontology )原本是一個描述客觀事物本質的哲學概 念,是對客觀存在的一個系統(tǒng)的解釋和說明。如今,本體是一種 能在語義和知識層次上描述概念體系的有效工具,用來描述概念以及概念之間的關系,通過概念之間的管理來描述概

11、念的語義。 本體作為一種最先進的知識表示方式能夠充分的描述所以的數 據結構,是推理和關系數據庫的結合。 概括的講本體能夠在人們 和應用系統(tǒng)之間達成對術語含義的共享和共同理解,通過函數(functions)、關系(relations)、原貝U(axioms)禾口實例(instanceS)、 類(classes這5種元素表達本體中的知識,使其具有邏輯推理 和語義識別功能,幫助檢索系統(tǒng)跨越目前基于關鍵詞的檢索過程 中的上述問題以實現語義檢索。目前實現網絡檢索的技術主要有兩種:第一種,依賴于編碼處理,以分類模式來描述信息資源以 實現檢索的目的;第二種,是通過全文檢索查找文本中包含用戶指定的詞語的信息源

12、。語義檢索的語義信息的提取和處理是基于 語義網方法與技術的查詢處理與文檔標注及索引?;诒倔w的查詢處理包括:查詢消歧和查詢擴展,通過消岐,明確查詢的確切 所指,準確反映用戶的信息意圖,繼而通過加入與其語義相關的其他概念來實施擴展。在對文檔進行語義標注與索引的基礎上, 先進行實例檢索,再據此返回所有以檢出實例標注的文檔信息是 語義標注文檔檢索的一種普遍思路。相對于傳統(tǒng)的網絡檢索,基于本體的語義檢索的優(yōu)勢在于體現語義信息,準確表達用戶的查詢意圖。3常見語義檢索系統(tǒng)介紹3.1 一體化醫(yī)學語言系統(tǒng) (UMLS)UMLS (Unified MedicalLanguage System)作為計算機化的情報

13、檢索語言集成系統(tǒng),是美國國立醫(yī)學圖書館(NLM )主持的一項長期開發(fā)研究計劃。它 不僅是自然語言處理、語言規(guī)范化以及語言翻譯的規(guī)范化工具, 更是實現實現跨數據庫檢測的詞匯轉換系統(tǒng)并且還可以幫助用 戶連接情報源,包括書目數據庫、事實數據庫、計算機化的病案 記錄以及專家系統(tǒng)過程中對于其他的電子式生物醫(yī)學情報的一 體化檢索。UMLS包括情報源圖譜(In formation Sources Map )、 語義網絡(Semantic Network )、專家詞典(SPECIALIST Lexicon)和超級敘詞表(Metathesaurus)四部分。其中超級 敘詞表是術語、生物醫(yī)學概念、等級范疇、詞匯及

14、其涵義的廣泛 集成。1997年第8版的超級敘詞表收錄了 739439個詞匯,這些 詞匯來源于30多種生物醫(yī)學詞表和分類表的能表達33萬多個概念的,詞匯量達到空前規(guī)模。而語義網絡是為超級敘詞表中的所 有概念提供語義類型及相互關系結構的工具, 是為建立概念術語 間相互錯綜復雜關系而設計的。UMLS的語義網絡不僅運用了常規(guī)的語義控制手段,如屬分、相關關系控制、語義等級,同時在語義規(guī)范和語義關系分析、 延伸等多方面有許多創(chuàng)新。3.2語義網(Semantic Web)為了能夠在網絡環(huán)境下也同樣實現語義 檢索的功能進而開發(fā)研究了語義網的W3C項目。W3C項目是將網絡上的數據通過一種方式進行連續(xù)和定義,通過

15、這種定義和連續(xù)可以根據人的不同需求實現計算機將數據自動進行整合以及 再利用,從而達到更有利于人機協作的目的。資源描述框架(Re-source Description Framework,簡稱 RDF)是語義網的核心 構件。在網絡中,一般用元數據對資源進行描述,而RDF則是處理元數據的一個基礎。RDF認為一個具體的元數據是由屬性 值(Statements)、屬性(Properties)和資源(Resources)構成的 三元關系模式,實際上是關于一個特定的資源特定屬性的取值聲 明。使用RDFS語言,元數據的設計者不僅可以定義所描述資源 的類別、屬性以及詞匯,還可以定義這些屬性或者對象的關系以 及

16、對象與屬性之間的相互關系,同時還可以進一步定義這些資源的對象、屬性以及屬性應用類別和取值條件等, 通過這些定義從 而能以計算機理解的標準方式對元數據進行描述語義內容以及 元數據的結構關系。3.3 WordNet WordNet是一種基于認知語言學的英語詞典, 它是由普林斯頓大學的計算機工程師、心理學家和語言學家聯合設計的不僅是把單詞以字母順序排列,并且是按單側的意義組成的一個單詞的網絡”。WordNet將所有的英語詞匯按詞性分為功 能詞、形容詞、動詞、名詞和副詞五類。動詞被組成各種推演關 系;名詞在詞匯記憶中被組成主題的層次;而形容詞和副詞被組織在N維超空間中。根據 WordNet關系分析最大的優(yōu)勢是能在 他的單詞網里通過相關關系消除歧義,因為WordNet分析主要是關系分析。WordNet在名詞的語義消歧率可以超過 60

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論