計算機信息檢索(第3版)PPT完整全套教學(xué)課件_第1頁
計算機信息檢索(第3版)PPT完整全套教學(xué)課件_第2頁
計算機信息檢索(第3版)PPT完整全套教學(xué)課件_第3頁
計算機信息檢索(第3版)PPT完整全套教學(xué)課件_第4頁
計算機信息檢索(第3版)PPT完整全套教學(xué)課件_第5頁
已閱讀5頁,還剩180頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

計算機信息檢索

計算機信息檢索的過程結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化信息資源檢索系統(tǒng)專題數(shù)據(jù)庫、OPAC、一般和多元搜索引擎、智能代理、國際聯(lián)機系統(tǒng),多媒體檢索系統(tǒng)

第一章信息概述信息的特征客觀性:信息是客觀事物運動與狀態(tài)的反映。動態(tài)性:客觀事物的變化是永恒的,持續(xù)斷的。相對性:信息對于信息用戶永遠(yuǎn)是相對的。依存性:必須依附于一定的物質(zhì)形式(聲波、物質(zhì)載體等)??蓚鬟f可干擾:可跨越時空傳遞,但是傳遞過程中時刻被干擾。可加工性:可以被分析、綜合、擴充和濃縮。共享性:信息可以被一個用戶反復(fù)使用、或多個用戶同時使用。信息的類型(按信息表達(dá)形式劃分)文字信息:用文字表達(dá)其內(nèi)容的信息資料,如各種書刊讀物;聲像信息:通過聲頻信號負(fù)載和傳遞的信息,如電影、廣播等;實物信息:通過實物來傳遞的信息,如樣品等;機讀信息:通過計算機閱讀的信息,如磁盤、光盤等;信息的類型(按信息加工的層次劃分)一次信息:以信息制作者的研究成果為依據(jù)創(chuàng)作(撰寫)的,未經(jīng)信息加工的原始信息,如圖書、期刊論文、學(xué)位論文等二次信息:匯集大量的信息,用科學(xué)的方法整序,以簡練的語言揭示信息的內(nèi)容和外部特征,并提供一定的檢索途徑的檢索系統(tǒng),如目錄、索引、文摘、數(shù)據(jù)庫、搜索引擎等三次信息:將大量的一次信息全面系統(tǒng)的再度選擇、分析和綜合,編制成使用目的更明確,效果更理想的檢索系統(tǒng)。如綜述、百科全書、年鑒。零次信息:未經(jīng)記錄或未公開發(fā)表的最原始信息,其本身無法通過載體在較大范圍內(nèi)傳播的信息。如口頭交流、會議文獻(xiàn)、學(xué)位論文、手稿等。一次、零次信息是知識的創(chuàng)造,是信息檢索的對象;二次、三次信息是知識的重組,是信息檢索的工具。信息的價值和作用信息是使人原有的知識結(jié)構(gòu)發(fā)生變化的那一小部分知識:

K(S)+

I=K(S+

S)

一個人原有的知識結(jié)構(gòu)(K[S])在受到某些信息增量(

I)的作用后,便可形成新的知識結(jié)構(gòu)(K[S+

S])信息動機的形成與轉(zhuǎn)化內(nèi)在條件:在生活、學(xué)習(xí)和工作過程中遇到問題時感到缺乏信息的狀態(tài),一旦達(dá)到較強的程度,被用戶意識到,就會轉(zhuǎn)化為信息動機外在條件:施加于個體之上的各種有形或無形的刺激,其中尤以信息環(huán)境和信息意識的影響最為顯著。用戶的信息行為從用戶的角度出發(fā),人的信息行為主要表現(xiàn)為信息查詢行為、信息選擇行為和信息使用行為。穆爾斯定律:易用性和可近性。信息的選擇行為信息選擇是從某一信息集合中把符合用戶需要的一部分(子集合)挑選出來。“符合用戶需要”是信息選擇的基本原則。其核心是:

1)相關(guān)性:(和查全率有關(guān))信息交流過程中來源與終點之間接觸效率的量度,凡是論述同一主題或?qū)儆谕活I(lǐng)域的文獻(xiàn)信息都可以認(rèn)為是相關(guān)的,而不考慮其水平高低;

2)適用性:(和查準(zhǔn)率有關(guān))用戶對查詢結(jié)果的價值判定,它反映了特定時間查詢結(jié)果滿足用戶客觀信息需要的程度,它受選擇順序和時間推移等多種因素作用,其判斷的有效范圍是非常短暫的。計算機信息檢索的原理廣義的信息檢索是指將大量信息進(jìn)行人工、或機器的概念分析,通過標(biāo)引(分類、主題、題名、作者、代碼、字段等),依據(jù)標(biāo)引組織成計算機信息系統(tǒng);信息用戶則利用計算機,依據(jù)標(biāo)引在信息系統(tǒng)中檢索有關(guān)信息。所以它通常被稱為“信息存貯與檢索”。狹義的信息檢索指廣義的信息檢索的后半個過程。如果用最簡潔的文字表達(dá),那么就是信息的“存”和“取”。計算機信息檢索的本質(zhì)就是用戶的信息需求與存儲在計算機檢索系統(tǒng)中的信息進(jìn)行比較和選擇,即匹配(Match)的過程。也就是對計算機信息集合體(系統(tǒng))采用一定的技術(shù)手段,根據(jù)一定的線索與準(zhǔn)確找出(命中)相關(guān)信息。計算機信息檢索的必備條件1物質(zhì)條件從檢索的過程來看,計算機信息檢索的物質(zhì)條件由數(shù)據(jù)庫、通信系統(tǒng)和檢索終端三部分組成。2人員條件

1)對檢索課題的了解的程度;

2)對檢索系統(tǒng)(包括計算機和數(shù)據(jù)庫)的掌握程度;

3)語言(檢索語言、檢索策略調(diào)整以及外語水平)的掌握程度。計算機信息檢索系統(tǒng)的構(gòu)成

1)信息數(shù)據(jù)的選擇、處理、錄入、維護(hù)子系統(tǒng)

2)詞表和標(biāo)引子系統(tǒng)

3)檢索子系統(tǒng)

4)系統(tǒng)用戶接口子系統(tǒng)

計算機信息檢索的類型1根據(jù)檢索的內(nèi)容可以劃分為:

1)數(shù)據(jù)檢索:其檢索結(jié)果為數(shù)據(jù),例如,從統(tǒng)計數(shù)據(jù)庫中檢索人口增長率

2)

事實檢索:其檢索結(jié)果為事實。例如,從《中國科技名人數(shù)據(jù)庫》中查詢某一位科學(xué)家的生平與業(yè)績。

3)文獻(xiàn)檢索:其檢索結(jié)果是能夠滿足用戶需求的文獻(xiàn)線索或全文,例如,從《中國學(xué)位論文數(shù)據(jù)庫(CDDB)》中檢索學(xué)位論文。檢索類型的綜合分析:檢索課題:循證醫(yī)學(xué)信息管理系統(tǒng)的實踐運用分析關(guān)鍵詞:循證醫(yī)學(xué)信息系統(tǒng)循證醫(yī)學(xué)(運用)實踐

1)利用“中國大百科全書”數(shù)據(jù)庫,查詢“循證醫(yī)學(xué)”的概念;

2)利用美國著名的醫(yī)學(xué)數(shù)據(jù)庫(Medline)檢索“循證醫(yī)學(xué)”和傳統(tǒng)醫(yī)學(xué)在治愈率上的比較;

3)利用SpringerLink數(shù)據(jù)庫檢索“循證醫(yī)學(xué)”的論文情況。

手工檢索和計算機檢索的比較信息檢索的本質(zhì)沒有變化,變化的只是檢索手段、檢索對象、信息表示的方式、存儲信息的結(jié)構(gòu)和匹配的方法手工檢索:檢索點少、費時、效率低,但查準(zhǔn)率高,經(jīng)濟等。計算機檢索:檢索點多、省時、效率高,但查準(zhǔn)率低,費用高等。

計算機信息系統(tǒng)的組織

定義:按計算機信息存儲的方法建立起來的、供用戶檢索信息的一種有層次的體系,是表征有序信息特征的集合體。在這個集合體中,對所收錄的信息的外部特征和內(nèi)容特征都按需要有著詳略不同的描述,每條描述記錄(即款目)都標(biāo)明有可供檢索用的標(biāo)識,按一定序列編排,科學(xué)地組織成一個有機的整體,同時應(yīng)具有多種必要的檢索手段。特征:信息集合、信息描述、概念標(biāo)識科學(xué)編排、多檢索途徑類型:OPAC、各類專題、網(wǎng)絡(luò)數(shù)據(jù)庫、搜索引擎、國際聯(lián)機系統(tǒng)等職能:報道信息、存儲信息和檢索信息評估指標(biāo):信息的收錄范圍;信息特征標(biāo)識的詳略;摘錄及標(biāo)引的質(zhì)量;信息報道的時效;檢索功能的完善。信息系統(tǒng)的組織方法字順組織:

音序:根據(jù)漢字的讀音及讀音的符號的順序組織信息;形序:根據(jù)漢字的形體結(jié)構(gòu)的某些共同之處加以排序;號碼組織:按照信息被賦予的號碼次序或大小順序排列的方法;如專利號;自然組織:

時序組織:按信息發(fā)生的時間順序組織信息;

地域組織:按信息發(fā)生的地域、區(qū)劃等地理順序組織信息字段組織:由若干數(shù)據(jù)項組成的記錄來構(gòu)成數(shù)據(jù)庫的文檔,通??煞譃榛咀侄魏洼o助字段,每個字段都可以作為檢索入口。超文本組織:非線性的、聯(lián)想的、跳躍式的、多角度多層次的信息組織方法通過基本機構(gòu)由結(jié)點的鏈組成,把信息中產(chǎn)生聯(lián)想的內(nèi)容組合起來。元數(shù)據(jù)組織:通過對網(wǎng)絡(luò)信息(Web頁面)外部特征和內(nèi)容特征的描述,并按照某一特征的規(guī)則組織信息的方法。

數(shù)據(jù)庫的字段組織

數(shù)據(jù)庫組成:符合某一目的需要的若干文檔的集合

文檔:若干個邏輯記錄構(gòu)成的信息組合

字段:用來描述實體的具體屬性

記錄:對某一實體的全部屬性進(jìn)行描述的結(jié)果

數(shù)據(jù):對具體屬性的表達(dá)

元數(shù)據(jù)信息組織實例:

<html><head><metahttp-equiv=“Content-Type”content=“text/html;charset=gb_2310-80”><metaname=“beginpackage”

content=“DublinCore”><metaname=“DC.Title”

content=“DigitalLibraries:ResourcesandProjects”><metaname=“DC.Creator.Name”

content=“上??莆墓ぷ魇摇?gt;<metaname=“Email”

content=“shuzic@”><metaname=“DC.Subject”

content=“digitallibraries,digitallibrary,virtuallibrary,electroniclibrary,librarie”><metaname=“DC.Publisher”

content=“IFLANETAdministration”><metaname=“DC.Contributors”

content><metaname=“DC.Date”

content=“Beginning:1998-periodicallyupdated”><metaname=“DC.Type”

content=“Bibliography-FindingAid-ElectronicResourceListing”><metaname=“DC.Format”

content=“text/html”><metaname=“DC.Identifier”

content=“http://www./dlib”><metaname=“DC.Source”

content><metaname=“DC.Language”

content=“cn”><metaname=“DC.Relation”

content=“/digilib/”><metaname=“DC.Coverage”

content><metaname=“DC.Right”

content><metaname=“GENERATOR”

content=“MicrosoftFrontPageExpress2.0”><title>元數(shù)據(jù)</title><linkrel=“SCHEMA.dc”

href=“/metadata/dublin_core”></head><body>…[頁面體信息省略]…</body></html>

元數(shù)據(jù)概述即關(guān)于數(shù)據(jù)的數(shù)據(jù),它是對數(shù)據(jù)內(nèi)容的描述。都柏林核心集(DublinCore)通過電子資源提供者對WEB資源屬性信息的描述,依據(jù)規(guī)范的款項對網(wǎng)絡(luò)信息資源內(nèi)容進(jìn)行標(biāo)引,依此提高網(wǎng)絡(luò)資源的檢索效率。

特點:簡易:只有15個元素且都具有一個能夠普遍理解的語義。通用:不針對某個特定的學(xué)科或領(lǐng)域,支持對任何內(nèi)容的資源進(jìn)行描述,增加了跨學(xué)科的語義互操作性的可能兼容:通過內(nèi)嵌在HTML語言中來實現(xiàn)其對Web資源的描述??蓴U展:提供能夠擴展描述的方法,即限定詞的使用。:模式體系(SCHEME)、語言種類(LANG)、類型(TYPE),即所謂的“堪培拉限定詞”。

計算機信息檢索語言定義:精選于自然語言并加以規(guī)范化的詞匯符號,用以對信息內(nèi)容進(jìn)行概括其內(nèi)容或外在特征的概念及其相互關(guān)系的概念標(biāo)識體系。在信息的存儲和檢索過程中,它起著重要的語言保障作用。它既是溝通信息存儲和檢索過程信息標(biāo)引和信息利用橋梁,又是檢索系統(tǒng)表達(dá)信息主題概念和檢索課題概念的人工語言。概念:

1)等同關(guān)系:同義:自行車和腳踏車、單車;斯里蘭卡和錫蘭;準(zhǔn)同義(近義):實驗和試驗;法律制度和司法制度;

2)從屬關(guān)系:經(jīng)濟和工業(yè)、農(nóng)業(yè)經(jīng)濟;文學(xué)和中國文學(xué);

3)相關(guān)關(guān)系:交叉:概念的一部分外延相重合,如市場文化學(xué);

矛盾:概念外延上的互相排斥,它們的外延之和等于其共同上位概念外延的關(guān)系,如女性與男性;

對立:概念外延上的互相排斥,而它們的外延之和不等于其上位概念外延的關(guān)系,如法制和犯罪;并列:是同一上位概念下的幾個下位概念間的關(guān)系檢索語言在表達(dá)各種概念及相互關(guān)系時,普遍地應(yīng)用了上述概念邏輯的原理,并且利用了概念的劃分與概括,概念的分析與綜合這兩種邏輯方法來建立自身的結(jié)構(gòu)體系。檢索語言的類型:分類語言(C912、F715)

反映信息內(nèi)容特征

主題語言(關(guān)鍵詞、敘詞等)

題名、篇名

著者、團體著者

反映信息外部特征出版事項(出版單位、時間等)

代碼、序號(ISBN、專利號等)

其他(區(qū)域、時代、年代等)分類語言定義:建立在科學(xué)分類的基礎(chǔ)上,運用概念劃分與概括的方法,將概念進(jìn)行層層劃分,逐級劃分就產(chǎn)生許多級別的下位類目,層層隸屬,形成一個嚴(yán)格有序、層次分明的知識門類等級體系。每個類目分別以不同的符號作標(biāo)志,每個分類號都是表達(dá)特定知識概念的語詞,即分類語言的語詞,如:

C910社會學(xué)理論C913.1家庭婚姻

C8統(tǒng)計學(xué)C912社會關(guān)系C913.2老年問題

C社科總論C91社會學(xué)C913社會問題

C913.3酗酒

C92人口學(xué)C915社會工作C913.4性問題

C93管理學(xué)C917社會保障C013,5青少年犯罪分

C913.9其他社會問題使用分類語言的檢索步驟1)分析研究所需要查找信息的內(nèi)容主題。

2)判斷該主題在分類法中屬于哪一大類,然后再從大類一級一級往下尋找,直到查到具體類目(或有關(guān)類目),記下類號為止。

3)根據(jù)檢索到的類號在檢索工具中檢索,便可查得所需信息。例如,欲查有關(guān)稅收理論方面的信息。先進(jìn)行分析得出主題是“稅收”。由于專業(yè)范圍窄,概念內(nèi)涵較深,可概括為財政,財政又可概括為經(jīng)濟,然后再層層往下演繹。如:經(jīng)濟

財政金融財政財政理論財政收入與支出稅收,分類號為F810.42。按此號到檢索系統(tǒng)中去查找即得。主題語言定義:用自然語言中的名詞、名詞性詞組描述事物概念的中心語義。也就是說,它以語言文字為基礎(chǔ),以反映特定事物為中心,不論學(xué)科分野和科學(xué)技術(shù)的邏輯序列,直接借助于自然語言的形式,作為信息內(nèi)容的標(biāo)識和檢索依據(jù)的一種以主題字順體系為基本結(jié)構(gòu)的檢索語言。包括關(guān)鍵詞語言、敘詞語言和標(biāo)題詞語言。例如:網(wǎng)絡(luò)資源利用中知識產(chǎn)權(quán)的法律思考主題詞:知識產(chǎn)權(quán)資源利用網(wǎng)絡(luò)資源

監(jiān)獄管理中心理學(xué)實踐的理論分析

主題詞:心理學(xué)實踐(運用)監(jiān)獄管理主題語言包含兩個內(nèi)容:

1)指表達(dá)信息內(nèi)容特征的、經(jīng)過規(guī)范化的名詞術(shù)語;

2)指把這些名詞術(shù)語按字順排列成主題記號表或標(biāo)題詞表,以此作為規(guī)范語詞標(biāo)引和檢索信息的工具。

使用主題語言的檢索步驟

1)對檢索課題進(jìn)行主題分析。如,中國稅收理論方面的信息,其主題概念是中國稅收理論,轉(zhuǎn)換成主題詞:稅收、中國。

2)將所得出的主題概念轉(zhuǎn)換成主題詞;

3)再按查出的主題詞字順去翻檢目錄、索引或輸入計算機數(shù)據(jù)庫

4)注意選取最專指的主題詞,再利用主題詞找出相應(yīng)的主題詞。因為選取上位類,范圍過寬,缺乏查準(zhǔn)率,反之選取下位類,范圍過窄,缺乏查全率。

5)應(yīng)將主標(biāo)題與副標(biāo)題、說明語聯(lián)系起來,如“社會主義空想”,應(yīng)逆讀為“空想社會主義”,“《資本論》傳播”,應(yīng)順讀為“《資本論》的傳播”。

6)使用主題詞檢索信息時,還應(yīng)充分考慮和選擇該詞的同義詞、近義詞作為檢索入口,這樣才能保證查全率。計算機信息檢索的一般技術(shù)1布爾邏輯算符指通過標(biāo)準(zhǔn)的布爾邏輯關(guān)系詞來表達(dá)檢索詞與檢索詞之間邏輯關(guān)系的檢索方法,也是現(xiàn)代信息檢索系統(tǒng)中最常用使用的一種方法。常用的布爾邏輯算符有三種:

邏輯與:算符AND*

示例:刑事犯罪*女性

computerAND

law

釋例:同時含有*前后兩者概念的信息

作用:縮小檢索范圍,提高檢索的查準(zhǔn)率邏輯或:算符OR+

示例:WTO+世貿(mào)組織+世界貿(mào)易組織

carORautomobile

釋例:符合+前后概念其中之一即可

作用:擴大檢索范圍,提高檢索的查全率

邏輯非:算符NOT—示例:知識產(chǎn)權(quán)—

版權(quán)

automobileNOTtruck釋例:滿足前者概念,同時必須剔除后者作用:縮小檢索范圍,提高檢索的查準(zhǔn)率2截詞符(truncation)截詞是指檢索者將檢索詞在合適的地方截斷,局部進(jìn)行檢索的一種方法,即凡滿足這個詞截斷部分中的所有字符(串)的信息,都為命中信息。在西文中,使用截詞方法可以解決一個詞的單復(fù)數(shù)問題,詞干相同而詞尾不同的問題(例如,由同一詞根派生出來的名詞、動名詞、形容詞和副詞等)以及英美單詞拼寫差異等問題。

截詞必須適可而止,截去部分過多會大大增加誤檢率。絕大多數(shù)的檢索工具都支持截詞功能。有的是自動截詞(如Lycos),有的是在一定條件下才能截詞(如Altavista)。使用最多的是右截詞(如comput*),部分支持中截詞(如wom*n),左截詞則少見(如*physics)。后截詞:edit*、computer*

可以檢索到:edit、editing、edition、editor和computerized、computerization等前截詞:*market*physics

可以檢索到:supermarket、internet-market等*physics,可以檢索到astrophysics、biophysics、chemo-physics、geophysics等中截詞:wom*n,可以檢索到:woman、women等。需要注意的是:

按截斷的字符數(shù)量來分開分為有限截斷和無限截斷兩種類型。在不同的檢索系統(tǒng)中對截斷符號的表示具有不同的規(guī)定,例如,Dialog系統(tǒng)使用“?”,而BRS系統(tǒng)使用“$”,Orbit系統(tǒng)使用“#”等。

使用布爾算符需要注意的是:

1)表達(dá)方式有異:

符號型:“

+”、“*”、“

-”;

字母型:“and”、“or”、“andnot(not)”;

菜單型:“matchallterms”、“matchanyterm”;

文字型:“MUSTcontain”、“MUSTNOTcontain”2)部分支持布爾算符如Yahoo!不支持邏輯非、如HotBot、Infoseek等不支持復(fù)合布爾算符,卻允許用戶根據(jù)自己意愿組配布爾算符。3)布爾算符的局限性顯而易見。匹配標(biāo)準(zhǔn)僵化、相關(guān)度難以描述、輸出信息不排序、難以構(gòu)建理想的提問式等。尤其是公共檢索系統(tǒng)更難以面對最終用戶。所以各類系統(tǒng)均出現(xiàn)一系列方法來部分彌補其不足。如英國的Okapi系統(tǒng)采用詞頻加權(quán)模式,部分地彌補布爾算符的不足。3限制檢索:限定檢索的條件多種多樣,主要和常用的是字段限制,它是限定檢索詞必須在數(shù)據(jù)庫記錄中規(guī)定的字段范圍內(nèi)出現(xiàn)。如

Computer/AB(后綴:基本字段使用)、

LA=English(前綴:輔助字段使用)等。其余可以限定的有:

1)限定范圍,即限定關(guān)鍵詞必須是處于頁面中的某個字范圍內(nèi)的。如限定在標(biāo)題、URL、鏈點文字、網(wǎng)頁文字、特定站點等部分;

2)限定網(wǎng)頁深度(即網(wǎng)頁層次);

3)限定在某一專題內(nèi)。如新聞組、黃頁、電郵地址、股票等;

4)限定在某一分類類目內(nèi);如經(jīng)濟、文學(xué)、藝術(shù)、軍事等

5)限定首先在5%最優(yōu)站點范圍內(nèi)檢索;

6)限定網(wǎng)絡(luò)資源類型(網(wǎng)站類型)。如個人網(wǎng)頁、商業(yè)、教育等;

7)限定網(wǎng)絡(luò)資源類型。如文件、聲音、圖像、HTML、編程語句等;

8)限定日期。如特定日期前、后、最近某段時間內(nèi)建立等等;

9)限定地區(qū)或域名。4鄰近檢索

(nW):要求所連接的兩個檢索詞在結(jié)果中相互距離不超過n個詞(中文則不超過n個字),而且前后順序不能顛倒。如:檢索式second(W)world(W)war就只能檢索出那些包含詞組“secondworldwar”的結(jié)果,而不會檢索到包含“secondwarintheworld”

(nN):用途略遜一籌。作用相同,但前后順序可以變換。如:Environment(2N)protection就可檢索出包含

“environmentprotection”

“protectionofforestenvironment”

“protectionoftheenvironment”

“protectionofwaterenvironment”

總的來說,(W)和(N)關(guān)系對提高檢索的查準(zhǔn)率有著不可低估的功用。如果SE能支持更多其他鄰近檢索關(guān)系,如DIALOG的(L)和(F)關(guān)系,查準(zhǔn)率可進(jìn)一步提高。

檢索效果的分析和評估檢索效果:是指計算機信息系統(tǒng)檢索信息的有效程度,反映了數(shù)據(jù)庫系統(tǒng)的檢索能力。檢索效果包括檢索的技術(shù)效果和經(jīng)濟效果。技術(shù)效果:信息系統(tǒng)完成其功能的能力,主要指性能和質(zhì)量。經(jīng)濟效果:信息系統(tǒng)完成其功能的價值確定,主要指成本和時間。查全率:是衡量系統(tǒng)檢索出與課題相關(guān)信息的能力;查準(zhǔn)率:是衡量系統(tǒng)拒絕非相關(guān)信息的能力。兩者結(jié)合起來,即表示信息系統(tǒng)的檢索效率。查全率查準(zhǔn)率

一系列實驗表明:查全和查準(zhǔn)之間存在互逆關(guān)系。同時提高查全率和查準(zhǔn)率是有難度的,對任何一個檢索系統(tǒng),在兩者間存在一個最佳的比例關(guān)系,即查全率在60-70%,查準(zhǔn)率在40-50%。關(guān)于檢索步驟

檢索課題檢索結(jié)果分析研究課題選擇檢索系統(tǒng)確定檢索途徑調(diào)整檢索策略選定檢索方法初步檢索結(jié)果獲取原始文獻(xiàn)制定檢索策略NY關(guān)于檢索詞和關(guān)鍵詞關(guān)鍵詞:就是從檢索課題的題目、摘要和內(nèi)容中抽取出來,能夠充分表達(dá)信息主題內(nèi)容的具有檢索意義的關(guān)鍵性詞匯。例如:檢索課題:計算機領(lǐng)域犯罪心理的剖析關(guān)鍵詞:計算機犯罪犯罪心理(學(xué))

computercrime;criminalpsychology

檢索課題:家庭破裂和社會問題的內(nèi)在聯(lián)系關(guān)鍵詞:離婚社會問題

divorcesocialproblem

檢索課題:監(jiān)獄管理中的社會學(xué)原理運用關(guān)鍵詞:社會學(xué)(原理)監(jiān)獄管理

sociology;prisonmanagement檢索課題關(guān)鍵詞的概念分析1)一般關(guān)鍵詞的分析關(guān)鍵詞分析就是分析出課題所涉及的主要概念,并選擇能代表這些概念的若干個詞或詞組,進(jìn)而分析概念之間的上、下、左、右關(guān)系。尤其值得注意的是對于新學(xué)科、交叉學(xué)科和邊緣學(xué)科的課題,清楚概念關(guān)系就顯得尤為重要。概念分析的結(jié)果應(yīng)以概念組為單元的詞或詞組形式列出,以便制訂檢索策略。例如,檢索課題:網(wǎng)絡(luò)資源的知識產(chǎn)權(quán)保護(hù)關(guān)鍵詞:知識產(chǎn)權(quán)保護(hù)網(wǎng)絡(luò)資源2)隱含關(guān)鍵詞的分析有些課題的實質(zhì)性內(nèi)容往往很難從課題的名稱上反映出來,課題所隱含的概念和相關(guān)的內(nèi)容需要從課題所屬的專業(yè)角度作深入分析,才能提煉出能夠確切反映課題內(nèi)容的關(guān)鍵詞。例如“知識產(chǎn)權(quán)保護(hù)”的概念中就隱含著“版權(quán)”、“著作權(quán)”等概念。3)核心概念的選取有些關(guān)鍵詞已經(jīng)含有的某些概念,在概念分析中應(yīng)予以排除。例如?!吧鐣U稀卑梆B(yǎng)老保險”、“失業(yè)保險”、“醫(yī)療保險”、和“社會救濟”等下位概念及同位概念“社會保險”。所以,如果需要檢索“養(yǎng)老保險”方面的信息,應(yīng)直接使用養(yǎng)老保險做關(guān)鍵詞最確切。如果有些檢索概念已經(jīng)體現(xiàn)在所使用數(shù)據(jù)庫中,這些概念也應(yīng)該予以排除。例如,在使用法律文摘數(shù)據(jù)庫(lawabstracts)時,“法律(law)”這一概念一般可以排除;而computer一詞在計算機數(shù)據(jù)庫(TheComputerDatabase)中一般也應(yīng)予以排除。另外有一些比較泛指、檢索意義不大的概念,如“發(fā)展”、“趨勢”、“現(xiàn)狀”等在不是專門查找綜述類信息時也予以排除。關(guān)鍵詞的判斷和選擇關(guān)鍵詞是表達(dá)用戶信息需求和檢索課題內(nèi)容的基本元素,也是計算機檢索系統(tǒng)進(jìn)行匹配基本單元。正確的主題分析是制定檢索策略的保證,它決定了檢索策略的質(zhì)量和檢索效果的好壞。1)使用通用性的術(shù)語切忌使用國際上并不通用的術(shù)語,例如,“第三世界”、“下崗”等查找國外數(shù)據(jù)庫。要盡量使用本學(xué)科在國際上通用的、國外文獻(xiàn)上出現(xiàn)過的術(shù)語,避免使用冷僻詞和自選詞2)選擇概念表達(dá)最確切的詞語關(guān)鍵詞的選擇不僅從課題名稱中分析,更要從學(xué)科專業(yè)和檢索目的的角度,概括出能夠反映課題實質(zhì)內(nèi)容的檢索詞,以便提高檢索的切題程度。3)從相應(yīng)的規(guī)范詞表中選定所需的關(guān)鍵詞很多數(shù)據(jù)庫都有自己的主題詞表,所以應(yīng)該優(yōu)先選用詞表中的規(guī)范詞,以便能使檢索獲得最佳的效果。在計算機檢索系統(tǒng)中一般都備有聯(lián)機查詢指令供檢索者聯(lián)機確定關(guān)鍵詞使用。關(guān)鍵詞的擴展處理在確定關(guān)鍵詞時,除了要考慮到被選用關(guān)鍵詞的縮寫詞及不同拼法的詞,還要考慮反映主題概念的同義詞、近義詞等相關(guān)詞,以便在編制檢索式時考慮到這些因素,避免漏檢有關(guān)的信息。

1)同義詞的判斷和選擇如:學(xué)名和俗名:激光(鐳射)、馬鈴薯(土豆)、簡稱和全稱:TV(television)、澳州(澳大利亞)、WT

英美方式:“catalog”(catalogue)、“color”(colour)。2)近義詞的判斷和選擇如:合同糾紛(合同爭議)、國際矛盾(國際沖突)跨國公司(跨國企業(yè))、法律監(jiān)督(司法監(jiān)督)等。3)概念為單位,構(gòu)成組面關(guān)鍵詞例如:檢索課題:經(jīng)濟領(lǐng)域犯罪的心理分析關(guān)鍵詞:經(jīng)濟犯罪犯罪心理心理分析關(guān)鍵詞的選取應(yīng)該考慮一些其他因素:例如:關(guān)于經(jīng)濟領(lǐng)域的詐騙行為的心理剖析關(guān)鍵詞:經(jīng)濟詐騙詐騙心理(分析)這里有個概念的重疊和拆分的問題,如果關(guān)鍵詞為“經(jīng)濟領(lǐng)域詐騙行為心理剖析”,顯然沒有達(dá)到簡潔、切題的要求。例如:家庭、婚姻裂變和青少年犯罪的內(nèi)在聯(lián)系關(guān)鍵詞:離婚(單親家庭)青少年(未成年人)犯罪這里有個常用概念、相近概念需要考慮,如果關(guān)鍵詞標(biāo)引為“婚姻裂變青少年犯罪”,檢索結(jié)果的查全率一定將大大降低。檢索點的確認(rèn)課題名稱:1998-2000年度鄧偉志先生在報刊上發(fā)表的有關(guān)社會學(xué)家庭婚姻的論文有多少?檢索點:

1998-2000報刊論文鄧偉志社會學(xué)家庭婚姻(時間)(范圍)(人物)(學(xué)科)(主題)檢索課題的分析和研究

這是指在著手查找信息前對課題進(jìn)行分析,明確學(xué)科或?qū)I(yè)的范圍,弄清檢索的真正意圖及實質(zhì)。它包括了解課題的內(nèi)涵概念范圍和外延概念范圍,以便確定檢索標(biāo)識(檢索詞、分類等);明確課題所需信息的內(nèi)容、出版國別、語種和年限;同時還要在分析的基礎(chǔ)上形成主題概念,包括所需信息的主題概念有幾個?概念的專指度是否合適?哪些是主要的?哪些是次要的等。1)專業(yè)范圍:確定該課題涉及哪些專業(yè)及其相關(guān)的學(xué)科。2)時間范圍:確定該課題需要檢索信息的年代范圍。3)地理范圍:了解課題在哪個國家處于領(lǐng)先地位。4)語種范圍:該課題在哪國占優(yōu)勢,選擇該國母語的檢索工具。5)信息類型:選擇與課題有關(guān)的、針對性強的檢索工具。檢索策略的制定檢索策略,即將課題的提問及其檢索詞與檢索工具的收錄內(nèi)容、編排特點相匹配而確定的檢索方案或程序。制定檢索策略的主要內(nèi)容是,在分析檢索課題的基礎(chǔ)上,確定要利用哪些檢索工具,確定查找年限和專業(yè)范圍的選擇,確定檢索用詞并判明各詞之間的邏輯關(guān)系與查找步驟等事項的科學(xué)安排。如C913.5*G=青少年犯罪*E=2001制定檢索策略的關(guān)鍵環(huán)節(jié)1)對檢索課題的標(biāo)引要準(zhǔn)確。2)選擇收錄全面、年限長、地域廣,學(xué)術(shù)權(quán)威性高,編排方法科學(xué),功能較多,易于使用的檢索系統(tǒng),這樣才能提高檢索效果。3)全面、綜合地考慮選擇檢索途徑,取長補短;

綜上所述,詳盡分析檢索課題,從而確定檢索目標(biāo),是制定良好檢索策略的基礎(chǔ);選擇適當(dāng)?shù)臋z索工具,是使合理的檢索策略得以實施的前提條件;檢索途徑的確定和檢索詞的調(diào)節(jié),是檢索過程的關(guān)鍵環(huán)節(jié)。只有使這些環(huán)節(jié)達(dá)到最優(yōu)化,才能優(yōu)化檢索策略。

選擇檢索系統(tǒng)

要根據(jù)課題要求,選擇與所查課題相適應(yīng)、質(zhì)量較高、檢索手段比較完善的檢索系統(tǒng)須了解和掌握其適用范圍、收錄特點,然后可通過三次信息的選擇和檢索,如“SubjectGuidetoDialogDatabase”、《數(shù)據(jù)庫目錄》等工具指引到二次信息檢索工具。例如,美國E.P.Sheehy編著的《GuidetotheReferenceBooks》,它介紹多種工具書,是目前世界上主要的指導(dǎo)使用工具書的工具書。

在選擇檢索工具時,要考慮的主要問題如下:1)內(nèi)容和時間上,考慮數(shù)據(jù)庫內(nèi)容對課題內(nèi)容的覆蓋面和一致性2)手段和技術(shù)上,機檢具有較高的檢索效率,但查準(zhǔn)率低,缺乏回溯性,選擇時需掌握其收錄信息的年代范圍,才能獲得滿意的結(jié)果;手檢效率低,卻具有良好的查準(zhǔn)率。3)考慮價格和可獲得性,應(yīng)選擇就近容易獲得的檢索系統(tǒng)。

檢索途徑是進(jìn)入檢索的入口。1)反映信息內(nèi)容特征的(主題、分類)途徑:2)反映信息外部特征的(著者、題名、代碼等)途徑。上述兩類途徑構(gòu)成了信息檢索的整個檢索途徑體系。在計算機信息系統(tǒng)中,檢索途徑還有很多,幾乎信息的每一個特征(如出版社、出版年代等)都可作為檢索途徑。顯然,檢索途徑的多少直接關(guān)系到檢索的便利。

每種檢索途徑各有特色,不可偏廢。應(yīng)根據(jù)檢索要求、已知條件、設(shè)備是否齊全等因素,盡量綜合利用各種途徑,取長補短,進(jìn)行優(yōu)化選擇,以提高檢索效果。例如:為了解某一學(xué)科的發(fā)展歷史、研究現(xiàn)狀和發(fā)展趨勢,為了制定戰(zhàn)略決策和進(jìn)行預(yù)測而搜集有關(guān)信息,應(yīng)以分類途徑為主,輔以主題檢索途徑;為研究解決某一具體問題或攻克某一技術(shù)難關(guān),應(yīng)以主題途徑為主,輔以分類途徑;如果已知檢索課題的外部特征,則應(yīng)選擇題名、著者、代碼等檢索途徑;如果已知檢索課題的內(nèi)容特征,則應(yīng)選擇主題途徑或分類途徑。選擇檢索方法(1)追溯法:1)傳統(tǒng)追溯法;2)引文追溯法工具法:1)順查法;2)倒查法;3)抽查法交替法:1)直接交替法;2)間隔交替法檢索方法的選擇原則:1)檢索條件在沒有檢索工具可供利用的前提下,采用追溯法較為實際。雖檢索效率不高,費時費力,但比逐期或逐年翻查原始信息要快得多。在原始信息收藏比較豐富的前提下,可查得一批有用信息;在有檢索工具可利用時,以采用工具法為佳。其檢出率要比追溯法高,所以工具法是最常用的檢索方法。2)檢索要求信息檢索的一般要求是:廣、快、精、準(zhǔn)。若課題檢索的目的在于系統(tǒng)收集信息,進(jìn)行綜合分析和研究,這樣就需要評論性、戰(zhàn)略性信息,以便供決策某一問題參考,即“普查”型檢索。對信息的選擇檢索方法(2)

系統(tǒng)性、全面性要求較高,一般不能有重大遺漏。在檢索時間比較寬裕時,可以采用順查法,利用檢索工具進(jìn)行檢索。如果檢索的目的是解決與某一課題有關(guān)的關(guān)鍵性技術(shù)問題,即“攻關(guān)”型檢索。這種情況要求既“快”,又“準(zhǔn)”地提供關(guān)鍵性信息。由于時間緊迫,無疑不能采用順查法,而宜用倒查法迅速查得最新技術(shù)信息。3)學(xué)科特點要考慮檢索課題的學(xué)科發(fā)展特點。新興學(xué)科,起點年代不長,又有準(zhǔn)確的可供查考的起始年代,可采用順查法,也可采用倒查法;年代久遠(yuǎn)的學(xué)科,只能采用倒查法。但是歷史悠久的傳統(tǒng)學(xué)科,其發(fā)展過程總是波浪起伏地發(fā)展,在興旺時期,信息量多,反之亦然檢索信息時,可重點抽查學(xué)科發(fā)展的高峰時期,當(dāng)然,這種考慮、學(xué)科特點的檢索原則同樣地適用于專業(yè)特點、行業(yè)特點或技術(shù)特點的情況。檢索策略的調(diào)整

檢索過程是一個動態(tài)的隨機過程,在某些檢索環(huán)節(jié)中,會不可避免地產(chǎn)生一些和檢索目標(biāo)相差甚遠(yuǎn)的現(xiàn)象。檢索詞過寬泛或偏窄而造成擴檢和漏檢,檢索詞不規(guī)范而引起的誤檢等。所以有必要在評價檢索效果的基礎(chǔ)上,對檢索效果進(jìn)行信息反饋,便于重新修正檢索策略,調(diào)整檢索手段,進(jìn)行新一輪的循環(huán)檢索,從而實現(xiàn)檢索目標(biāo)的完善。

以SKBK為例:C913.5*G=青少年犯罪*E=2001C913.5*(G=青少年犯罪+G=未成年人犯罪)*(E=2001+E=2002)C913.5*(G=青少年犯罪+G=未成年人犯罪+B=青少年犯罪+B=未成年人犯罪)*(E=2001+E=2002)《SKBK》數(shù)據(jù)庫檢索舉例學(xué)號:123456姓名:XXX檢索課題:現(xiàn)階段青少年犯罪的現(xiàn)象分析關(guān)鍵詞:青少年犯罪(未成年人犯罪)檢索對象:《SKBK》數(shù)據(jù)庫檢索對象簡介:SKBK是《全國報刊索引》電子版。收錄了全國社科期刊,報紙,內(nèi)容涉及社會科學(xué)各個學(xué)科。收錄原則為核心期刊全收、非核心期刊選收的原則,年更新量約20余萬條,為目前國內(nèi)特大型文獻(xiàn)數(shù)據(jù)庫之一。檢索步驟:1)C913.5234(篇)2)C913.5+D917675(篇)3)C913.5+D17+D697.51455(篇)

………………(作業(yè)不能省略)N)(C913.5+D17+D697.5)*(G=青少年犯罪+G=未成年人犯罪)*E=1997–D=北京法制報67(篇)

【序號】1382【分類】D669.5【題名】市場經(jīng)濟的負(fù)效應(yīng)與青少年犯罪【著者】魯雪英【出處】安徽大學(xué)學(xué)報:哲社版.-1997.(3).-61-64【年份】1997【主題】青少年犯罪;市場經(jīng)濟【序號】16962【分類】D669.5【題名】對25名青少年吸毒引發(fā)犯罪的分析【著者】王循【出處】北京檢察.-1997.(5).-31-32【年份】1997【主題】青少年犯罪;吸毒;案例分析

【序號】18343【分類】D669.5【題名】對門頭溝區(qū)未成年人犯罪情況的調(diào)查及預(yù)防對策【著者】吳世芳【出處】北京警院學(xué)報.-1997.(2).-31-35【年份】1997【主題】青少年犯罪;預(yù)防犯罪;調(diào)查報告;北京市

檢索結(jié)果復(fù)制五條打開數(shù)據(jù)庫輸入檢索表達(dá)式在索引詞典文檔中比較和匹配從記錄號倒排文檔中調(diào)取記錄號集合記錄號集合之間的邏輯運算從順排文檔中調(diào)取記錄輸出命中信息結(jié)束檢索另選數(shù)據(jù)庫重新輸入檢索標(biāo)識結(jié)果不匹配篇數(shù)不合要求重新調(diào)整檢索策略記錄內(nèi)容不合要求數(shù)據(jù)庫檢索原理數(shù)據(jù)庫的檢索原理注釋:在輸入檢索詞后,系統(tǒng)主要操作的對象是順排、倒排文檔在輸入單個檢索詞的情況下(如“軟件”),系統(tǒng)首先查找索引詞典倒排文檔,并在顯示器上響應(yīng),給出含有“軟件”一詞的記錄數(shù),同時將這些記錄的地址調(diào)入內(nèi)存。在系統(tǒng)接到用戶顯示命中記錄的指令后,調(diào)用記錄號倒排文檔,根據(jù)記錄號從順序文檔中讀取并顯示記錄。有的系統(tǒng)則在接受用戶檢索詞后,順次搜索索引詞典文檔、記錄號文檔和順排文檔,用戶可同時看到命中的記錄數(shù)和首記錄的全部內(nèi)容。在輸入兩個以上檢索詞的情況下,系統(tǒng)除了進(jìn)行上述操作外,還要對記錄號集合之間進(jìn)行布爾邏輯運算。

以下三種情況,可以通過或者換用其他數(shù)據(jù)庫,或者重新輸入檢索詞,或者調(diào)整檢索策略的辦法予以解決。

1)

對輸入的檢索詞,系統(tǒng)響應(yīng)為“0”,即檢索詞與索引詞典中標(biāo)識詞不匹配;

2)

對輸入的檢索詞,系統(tǒng)響應(yīng)的篇數(shù)或者太多,或者太少;

3)

對輸入的檢索詞,系統(tǒng)最后給出的記錄并不合乎課題要求。數(shù)據(jù)庫檢索的過程介紹例如,檢索課題:計算機在監(jiān)獄事務(wù)方面的運用數(shù)據(jù)庫檢索的具體過程:

1)先把課題編制成檢索策略輸入系統(tǒng),系統(tǒng)中的索引文檔對檢索策略中的“計算機”和“監(jiān)獄事務(wù)”分別與存儲標(biāo)識進(jìn)行匹配,顯示出“計算機”的信息有1299條,“監(jiān)獄事務(wù)”的信息有392條。

2)系統(tǒng)分別到存取號倒排文檔中找出這兩個詞對應(yīng)的地址號(如12和90),同時找到了含有“計算機”和含有“監(jiān)獄事務(wù)”的所有信息的存取號,并把它們調(diào)入內(nèi)存單元進(jìn)行組配運算。

3)組配運算的結(jié)果,有23條信息符合要求,顯示各自的存取號。

4)系統(tǒng)到順排文檔中按存取號調(diào)取命中的三篇記錄,并將記錄打印輸出給用戶。

數(shù)據(jù)庫分類可以將信息數(shù)據(jù)庫劃分為二大類。

1)參考數(shù)據(jù)庫(ReferenceDatabase)還需要進(jìn)一步查找原文或其他資料的一類數(shù)據(jù)庫。它包括書目數(shù)據(jù)庫:向用戶提供信息線索,只能檢索出信息的標(biāo)題、出處、著者、主題等。可分為文摘和索引數(shù)據(jù)庫指南型數(shù)據(jù)庫:能提供用戶參考、指南的各類信息,如企業(yè)、機構(gòu)等名稱、地址電話、人物、出版物、項目、活動等簡要描述信息

2)源數(shù)據(jù)庫(SourceDatabase)數(shù)值型數(shù)據(jù)庫:提供數(shù)據(jù)或數(shù)值類信息。術(shù)語數(shù)據(jù)庫:存儲和檢索名詞術(shù)語信息,如電子詞典等;圖像數(shù)據(jù)庫:存儲和檢索各種圖像或圖形信息及文字說明資料;全文數(shù)據(jù)庫:存儲和檢索文獻(xiàn)全文或其中主要部分的信息;超文本數(shù)據(jù)庫:存儲內(nèi)容分割為若干獨立利用的結(jié)點,使用鏈路連結(jié)點等方式進(jìn)行存取,形成了特殊的存取模式;

高級檢索功能

1加權(quán)檢索

1)類似布爾,即用“+”號或選擇“mustcontain”表示某檢索詞“一定要出現(xiàn)”在檢索結(jié)果中,如“+亞洲+金融風(fēng)暴”,即檢索結(jié)果中必須同時含有“亞洲”和“金融風(fēng)暴”這兩個詞)。即用“-”號或選擇“mustnotcontain”表示某檢索詞“一定不能出現(xiàn)”在檢索結(jié)果中。不加符號或選擇“shouldcontain”表示某個檢索詞“可以出現(xiàn)”在檢索結(jié)果中。

2)加權(quán)(閾值),即對每個檢索詞根據(jù)其重要程度賦予一定的權(quán)值,設(shè)定某閾值,檢索結(jié)果的權(quán)值超越該閾值就算命中如,檢索詞計算機、用戶、軟件,權(quán)值分別為5、8、4。閾值為9。計算機、用戶、軟件權(quán)值和=17大于9,命中。計算機、用戶權(quán)值和=13大于9,命中。計算機、軟件權(quán)值和=9等于9,命中。用戶、軟件權(quán)值和=12大于9,命中。用戶權(quán)值和=8小于9,不命中。2自然語言檢索系統(tǒng)利用非用詞詞表排除非關(guān)鍵詞后檢索。如pleasefindformesomethingaboutautomobilesaleinNewYorkstate,系統(tǒng)會排除“禁用詞”、“檢索提問詞”后將“NewYorkstate”、“automobilesale”作為關(guān)鍵詞進(jìn)行檢索。3相關(guān)信息反饋檢索希望得到類似檢索結(jié)果中某一結(jié)果而采取的方法,如Google中的“類似網(wǎng)頁”,Excite中的“searchformoredocumentslikethisone”,Lycos中的“MoreLikeThis”.4模糊檢索允許被檢索信息和檢索詞之間存在一定的差異。如監(jiān)獄管理、管理監(jiān)獄、監(jiān)獄的管理等。也包括用戶的輸入錯誤,以及格某些詞匯在不同國家的不同形式,例如“catalog”、“catalogue”.5概念檢索借助于一個同義詞表對輸入的檢索詞自動添加同一概念的詞匯集合(同義、近義、廣義和狹義詞等),有助于提高查全率,但不會降低查準(zhǔn)率。例如檢索“automobile”、能同時包含“van”“bus”、“automobile”、“car”、“truck”,等任一詞匯的結(jié)果。又如在檢索“公共交通”這一概念時,有關(guān)“公共汽車”或“地鐵”的信息也能隨之檢索到。例如Excite.需要指出的是:

1)檢索技術(shù)的逐步改善能在一定程度上提高查準(zhǔn)率,卻減弱了檢、索詞的易用性。

2)上述技術(shù)中,布爾檢索、加權(quán)檢索、限制檢索和按相關(guān)度排列檢索結(jié)果是主要的檢索技術(shù)。

3)選擇一定數(shù)量、質(zhì)量高的檢索工具,在各自的檢索結(jié)果中選定10%(結(jié)果羅列前面的),整理去重,無疑是一個提高檢索效果的好辦法。聯(lián)機公共書目檢索(OPAC)聯(lián)機公共書目檢索系統(tǒng)是供讀者查詢館藏數(shù)據(jù)的聯(lián)機檢索系統(tǒng)。特點:數(shù)據(jù)豐富、界面友好、檢索方式靈活、服務(wù)周到。檢索字段選擇檢索字段選擇布爾邏輯舉例檢索符號說明檢索模式選擇搜索引擎概述

隨著因特網(wǎng)的迅猛發(fā)展、WEB信息的增加,用戶要在信息海洋里查找信息,就象大海撈針一樣,搜索引擎技術(shù)恰好解決了這一難題。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的。搜索引擎提供的導(dǎo)航服務(wù)已經(jīng)成為互聯(lián)網(wǎng)上非常重要的網(wǎng)絡(luò)服務(wù),搜索引擎站點也被美譽為“網(wǎng)絡(luò)門戶”。因特網(wǎng)數(shù)據(jù)庫信息用戶搜索引擎搜索引擎的工作原理:雙向的服務(wù)器結(jié)構(gòu)檢索結(jié)果檢索詞檢索軟件搜索所有的網(wǎng)頁搜索相關(guān)的網(wǎng)頁編制進(jìn)數(shù)據(jù)庫RobotSpider

按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類:1.目錄式搜索引擎:以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因為加入了人的智能,所以信息準(zhǔn)確、導(dǎo)航質(zhì)量高,缺點是需要人工介入、維護(hù)量大、信息量少、信息更新不及時。這類搜索引擎的代表是:Yahoo、LookSmart、OpenDirectory、GoGuide等。2.機器人搜索引擎:由一個稱為蜘蛛(Spider)的機器人程序以某種策略自動地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫,并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁的全文檢索服務(wù)。該類搜索引擎的優(yōu)點是信息量大、更新及時、毋需人工干預(yù),缺點是返回信息過多,有很多無關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是:AltaVista、NorthernLight、Excite、Infoseek、Inktomi、FAST、Lycos、Google;國內(nèi)代表為:“天網(wǎng)”、悠游、OpenFind等。多元搜索引擎的信息檢索

用戶在實際使用中,為了滿足搜索的查全率,往往需要同時使用多個具有不同數(shù)據(jù)收集范圍、具有不同搜索特色的搜索引擎。此外,每個搜索引擎都有自己的搜索規(guī)則和使用不同的檢索符號,使得信息用戶必須記住那些繁瑣的檢索符號,為此人們往往只是使用自己最熟悉的搜索引擎。正是在這樣的背景下,為了便于用戶在各個搜索引擎間進(jìn)行靈活快捷的切換,產(chǎn)生了多元搜索引擎。多元搜索引擎沒有自己的網(wǎng)頁索引數(shù)據(jù)庫,只提供一個集成的查詢界面,用戶的查詢要求經(jīng)它加工處理后轉(zhuǎn)發(fā)給相應(yīng)的多個相關(guān)的獨立搜索引擎完成(這個過程可以是自動完成,也可以是由用戶個性化選擇來完成),返回的檢索結(jié)果經(jīng)它處理后以統(tǒng)一的顯示格式提供給用戶。常用的國外多元搜索引擎有:

Mamma、AskJeeves、Search、Profusion、ByteSearchMetaGrawler、SavvySearch等。搜索引擎的選擇對搜索過程的分析展示單個搜索引擎A多元搜索引擎的主頁單個搜索引擎B單個搜索引擎C……單個搜索引擎N

把多個搜索引擎的檢索結(jié)果綜合起來,從中選取與用戶查詢相關(guān)度較大的,排除掉重復(fù)的和相關(guān)度較低的檢索結(jié)果,并將檢索結(jié)果以統(tǒng)一的界面呈現(xiàn)給用戶。

哈!我再以不必為每種搜索引擎不同的搜索規(guī)則而頭痛了!多元搜索引擎的工作原理特點:

1)無需數(shù)據(jù)庫的建立和維護(hù),集中精力投入檢索結(jié)果的處理;

2)避免在多個系統(tǒng)之間的切換、重復(fù)輸入檢索要求;

3)省略各搜索引擎在檢索語法、規(guī)則、顯示格式上的差異;

4)可以根據(jù)自己的檢索習(xí)慣配置成具有個人風(fēng)格的Web檢索工具

5)實現(xiàn)了檢索系統(tǒng)和索引數(shù)據(jù)庫的分離類型:

1)并行處理:將用戶的查詢要求同時轉(zhuǎn)送給它鏈接的多個獨立搜索引擎進(jìn)行查詢處理,可以提高查詢的效率,是主要的模式。

2)串行處理:它將用戶的查詢要求依次轉(zhuǎn)送給所鏈接的每一個獨立的搜索引擎進(jìn)查詢處理。人工智能技術(shù)在信息檢索上的運用引言:信息檢索的基本原理就是要完成對信息集合和需求集合的匹配與選擇。一個完整的信息檢索系統(tǒng),其基礎(chǔ)工作是:1)對信息進(jìn)行采集、標(biāo)引、存貯、處理,形成信息集合體,如數(shù)據(jù)庫等(見圖中“信息處理部分”);2)提供能表達(dá)用戶信息需求的檢索模型機制,便于用戶清楚、準(zhǔn)確地以此來描述自己的信息需求,進(jìn)而形成需求集合,如提供布爾邏輯算符、截詞符、權(quán)值等(見圖中“信息庫部分”);3)

以優(yōu)良的匹配選擇算法完成信息和信息需求的匹配,選擇與匹配機制是信息檢索系統(tǒng)中匹配與查找技術(shù)的集合,經(jīng)過匹配后的結(jié)果提供給用戶(見圖中“選擇與匹配機制部分”);4)表達(dá)用戶信息需求,形成提問模型;把檢索結(jié)果進(jìn)行適當(dāng)加工后送給用戶;用戶對檢出的結(jié)果進(jìn)行相關(guān)性判斷,調(diào)整或修改檢索策略,返回反饋信息,重新檢索,直到檢出滿意的結(jié)果為止(見圖中“人—機接口部分”)。信息處理部分信息源信息標(biāo)引

信息庫部分?jǐn)?shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)庫選擇與匹配機制人—機接口部分構(gòu)造提問模型構(gòu)造提問模型

檢索結(jié)果加工

數(shù)據(jù)庫從以上結(jié)構(gòu)分析中,可以看出傳統(tǒng)信息檢索系統(tǒng)的功能特點1)在文本處理部分所采用的語言是人工標(biāo)引語言,對文本信息也只是特征描述,沒有涉及到語義層次;2)在人—機接口部分,用戶也不能使用自然語言來表達(dá)自己的信息需求,而是使用與所用標(biāo)引語言相符的表達(dá)方式;3)用戶需求的表達(dá)完全依靠用戶本身對自己需求的描述,系統(tǒng)只是被動地、僵硬地執(zhí)行命令;4)在選擇與匹配部分,系統(tǒng)只是機械地把用戶需求與信息集合進(jìn)行相符性比較,無任何創(chuàng)意、變通。反饋

人工智能實質(zhì)上是模仿人的大腦而展開的,其特色在于知識的邏輯推理,即以較完整的推理系統(tǒng)為核心,對知識進(jìn)行組織、再生和利用。基于規(guī)則的推理思想是人工智能的本質(zhì)特征。以人工智能方法所建立的系統(tǒng)的特色就在于對知識的邏輯推理。它以較完整的推理體系為核心,實現(xiàn)對知識的組織、再生和利用?;谝?guī)則的推理思想就是其中的一個典型。兩者的共同點:

檢索系統(tǒng)目前還沒有達(dá)到在知識層次上進(jìn)行加工、處理,但它至少也是在通過間接的途徑實現(xiàn)對知識的處理。兩者在對知識的處理中均以知識的獲取、存儲、利用為其主要研究內(nèi)容,這就為構(gòu)造人工智能技術(shù)與信息檢索技術(shù)相融合提供了結(jié)合點。兩者的差異:主要表現(xiàn)在對知識處理的理論方法和側(cè)重點有所不同。對于信息檢索而言,信息檢索系統(tǒng)具有智能特性,對完成信息檢索系統(tǒng)的最終目標(biāo)——最好地滿足用戶信息需求,將無疑具有質(zhì)的幫助,這也是信息檢索系統(tǒng)的發(fā)展趨勢——智能信息檢索系統(tǒng)。l

智能檢索系統(tǒng)與傳統(tǒng)檢索系統(tǒng)的比較

1)傳統(tǒng)的信息檢索系統(tǒng)要求用戶將其信息需求用規(guī)范化的語言來表達(dá),并以嚴(yán)格的格式輸入系統(tǒng);

而智能信息檢索系統(tǒng)能理解、分析用戶的自然語言提問,并產(chǎn)生合適的提問模型,用戶與系統(tǒng)間可以進(jìn)行自由、充分的反饋交流,直到獲得滿意的結(jié)果。

2)傳統(tǒng)的信息檢索系統(tǒng)中,信息標(biāo)識是根據(jù)詞頻統(tǒng)計得出的,標(biāo)引時只利用了信息的字符形式,未涉及信息的內(nèi)容本身,所以標(biāo)識往往不能反映信息的真實內(nèi)容;

而智能信息檢索系統(tǒng)具有處理自然語言文本的能力,它利用知識庫中的有關(guān)知識進(jìn)行語法、語義分析,從內(nèi)容上真正理解并準(zhǔn)確描述信息所論述的主題。

3)傳統(tǒng)的信息檢索系統(tǒng)不能夠很好地處理主題概念、標(biāo)識之間的各種聯(lián)系和因果關(guān)系;

而智能信息檢索系統(tǒng)則可以在知識庫中使用語義網(wǎng)絡(luò)、框架等各種知識表示方法來充分體現(xiàn)這些關(guān)系。

4)傳統(tǒng)的信息檢索系統(tǒng)的檢索結(jié)果只是一些信息線索,指引用戶去獲得原始信息,

而智能信息檢索系統(tǒng)可以將部分信息內(nèi)容以知識形態(tài)存放于目標(biāo)知識庫中,通過對知識庫的搜索和推理,得出用戶能夠直接加以利用的信息。

5)傳統(tǒng)的信息檢索系統(tǒng)缺乏適當(dāng)?shù)娜藱C交互。這種交互只限于“YES”、“NO”或“菜單式”。信息檢索實質(zhì)上是用戶詢問和信息集合之間的匹配,用戶的參與應(yīng)該是整個信息檢索過程的中心,只有用戶充分地參與了信息檢索過程,才能取得滿意的效果。

而智能信息檢索系統(tǒng)采用自然語言實現(xiàn)人機通訊,檢索過程中用戶和計算機之間可以不斷地進(jìn)行自由、充分、多方面的反饋交流,具有較高的人機交互水平。l

智能信息檢索系統(tǒng)的類型

1)智能接口檢索系統(tǒng)利用人工智能技術(shù),改善現(xiàn)行檢索系統(tǒng)的接口,建立智能接口系統(tǒng)或稱智能中間人系統(tǒng)(見下圖)。對用戶來說,使人—機界面友好,可以主動地幫助用戶選詞、選庫,構(gòu)造提問模型,優(yōu)化檢索策略,并進(jìn)一步根據(jù)用戶的反饋信息調(diào)整檢索策略,以獲得更優(yōu)的檢索效果;對系統(tǒng)標(biāo)引人員來說,可以通過智能接口對原始信息進(jìn)行加工處理,保證信息的質(zhì)量,使其充足且不失真。而完全基于知識表示的智能信息系統(tǒng)則完全拋棄原有的存儲方式,而建立起一種用知識表示為集合的知識庫,系統(tǒng)的服務(wù)項目也不再是間接的知識服務(wù)而是直接的、針對問題或任務(wù)的服務(wù)。該知識庫以其特有的知識庫管理系統(tǒng)作為支持,對它的利用可以是直接的,也可以通過一定的推理來間接地利用。

智能接口檢索系統(tǒng)主要由三部分組成:

智能接口部分智能接口是用戶與系統(tǒng)之間的通道。它的主要功能是對自然語言查詢的處理;作為智能終端建立用戶興趣檔案;加工檢索結(jié)果。

知識庫部分知識庫是智能檢索系統(tǒng)的核心。它也由三個子系統(tǒng)構(gòu)成、知識庫系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、檢索推理系統(tǒng)。

③信息處理部分信息處理系統(tǒng)就是利用計算機自動處理自然語言形式的信息輸入。它利用知識庫中的語言學(xué)知識、科學(xué)知識和其他知識,對信息進(jìn)行語法、語義分析,從內(nèi)容上理解信息所論述的主題,并把它們表示成知識庫中的知識和數(shù)據(jù)庫中的數(shù)據(jù)元素,不斷地豐富目標(biāo)知識庫和數(shù)據(jù)庫。信息處理部分信息源自然語言標(biāo)引

數(shù)據(jù)庫部分?jǐn)?shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)庫推理與檢索機制人機接口部分

數(shù)據(jù)庫

知識庫部分知識庫管理系統(tǒng)數(shù)據(jù)庫知識庫構(gòu)造提問模型檢索結(jié)果加工自然語言反饋人工智能與檢索系統(tǒng)的結(jié)合智能接口系統(tǒng):CANSEARCH系統(tǒng)案例分析這是連接于聯(lián)機檢索系統(tǒng)MEDLINE的中間人系統(tǒng)。它不要求用戶具有特定的知識或經(jīng)過特殊訓(xùn)練,也不需要任何中間人(如圖書館員)的幫助,可供醫(yī)生描述提問,檢索有關(guān)癌癥方面的文獻(xiàn)。

它采用專家系統(tǒng)技術(shù)和抽詞空間原理,應(yīng)用規(guī)則表示法,利用觸感終端與菜單選擇的交互方式,使用PROLOG邏輯程序設(shè)計語言的編程方法,在美國利茲大學(xué)醫(yī)學(xué)圖書館的腫瘤信息服務(wù)部實現(xiàn)。它具有良好的檢索專家的檢索經(jīng)驗與技術(shù),將之納入檢索系統(tǒng),可使具有專業(yè)知識的人無須為檢索知識與技巧而鎖眉,從而使檢索具有高度的友好性與易用性。比如,它能模式化人類專家的查找處理過程,實現(xiàn)許多人類輔助功能,諸如提供主題專門知識、輔助用戶選擇檢索詞、消除檢索詞間的不一致性及其它錯誤,根據(jù)用戶的要求形成查找描述,基于部分結(jié)果和評價,修改查找描述,等等。智能接口系統(tǒng):CANSEARCH系統(tǒng)評價

由于無須改變原有信息系統(tǒng)的存貯方式及結(jié)構(gòu)方式,而只是在原有系統(tǒng)的基礎(chǔ)上,加入一個知識庫及其管理系統(tǒng),通過該知識庫中的檢索專家的知識,并依此展開推理,從而使信息檢索系統(tǒng)具有智能接口的性質(zhì),因此,簡便易行,開發(fā)費用不大,而且能充分利用現(xiàn)有檢索系統(tǒng)的資源,這是其優(yōu)點所在。另一方面,由于這種結(jié)合方式的數(shù)據(jù)來源仍是原有數(shù)據(jù)庫,而這種庫又非智能數(shù)據(jù)庫,故提供給用戶的數(shù)據(jù)也只能是現(xiàn)有數(shù)據(jù)庫中固有的數(shù)據(jù),不可能創(chuàng)造出新數(shù)據(jù)供用戶使用,所以這種信息檢索系統(tǒng)的智能因素是非常有限的。GeneCards-Web網(wǎng)上智能檢索系統(tǒng)案例分析包含有HUGO/GDB(HumanGenomeOrganization/GenomeDatabase)人類基因有關(guān)數(shù)據(jù)的Web網(wǎng)上智能檢索系統(tǒng),由以色列的Weizmann研究所基因組研究中心和生物信息學(xué)中心共同開發(fā),到2002年止,共收錄了近萬種基因的有關(guān)數(shù)據(jù),其特點有以下幾個方面:1)智能檢索接口系統(tǒng)它直接向用戶提供檢索策略的咨詢和檢索后的反饋調(diào)節(jié)如系統(tǒng)在你開始進(jìn)行檢索前,提供檢索示例幫助你確定檢索策略;如你輸入一條檢索條目,在系統(tǒng)中檢索不到任何結(jié)果,系統(tǒng)將進(jìn)一步提供改進(jìn)檢索策略的方案,和/或直接鏈接到其他與你檢索有關(guān)的數(shù)據(jù)庫的檢索引擎,并提供有關(guān)數(shù)據(jù)庫相關(guān)數(shù)據(jù)的簡要說明。例如你檢索有關(guān)乳腺癌(Breastcancer)基因的研究情況,用戶將得到如下服務(wù):1)提供檢索策略示例,供用戶參考當(dāng)用戶進(jìn)入系統(tǒng)(可從http://bioinfor.weizmann.ac.il/cards進(jìn)入)時,系統(tǒng)提供關(guān)于檢索策略的各種示例,供用戶參考,如TP54和BRCA1基因的標(biāo)準(zhǔn)檢索示例,以及“apolipoproteinANDmRNAediting”和“Stupidity”等多種示例供用戶參考;2)輔助用戶選詞、選庫、選擇檢索途徑和構(gòu)造檢索式等例如,當(dāng)用戶輸入“breastcancer”進(jìn)行檢索時,系統(tǒng)將返回該查詢的零匹配的結(jié)果,“GuidanceSystem”提供建議:檢查“cancer”的拼寫方法,并提供相關(guān)的可供擴檢的詞,如“caorcan”等等;系統(tǒng)建議你修改檢索策略后,再進(jìn)一步查詢;3)提供與其它數(shù)據(jù)庫的動態(tài)鏈接如檢索“stupidity”,系統(tǒng)提示GeneCards未檢索到有關(guān)數(shù)據(jù),但它提供了與其它數(shù)據(jù)庫的鏈接,如與NCBI’SMEDLINE的鏈接,如選擇相應(yīng)的項目,將立刻檢索出相應(yīng)的文獻(xiàn),現(xiàn)可檢索到文獻(xiàn)15篇。使用戶在利用多個數(shù)據(jù)庫時,如同使用一個數(shù)據(jù)庫一樣。2)直接提供有關(guān)的知識信息,而不是簡單讓用戶獲得文獻(xiàn)源它利用其具有處理自然語言文本的能力,對從其它數(shù)據(jù)庫中自動提取的文本自動地進(jìn)行語法和語義分析,對有關(guān)基因和相應(yīng)疾病的各個方面進(jìn)行概括性描述,為用戶提供相應(yīng)的知識信息。如你檢索“BRCA1”基因,你將得到有關(guān)該基因的功能和亞細(xì)胞位置,以及該基因相應(yīng)疾病的描述,同時提供該基因的染色體位點,并提供該基因在臨床方面的應(yīng)用介紹。這樣用戶就象翻閱百科全書一樣,可以直接獲得大量的知識信息,而其內(nèi)容又是最新的。3)Web網(wǎng)上多數(shù)據(jù)庫的動態(tài)鏈接當(dāng)用戶進(jìn)行檢索時,該系統(tǒng)自動地與這些數(shù)據(jù)庫進(jìn)行鏈接,同時從這些數(shù)據(jù)庫中提取與檢索提問相匹配的數(shù)據(jù),返回相應(yīng)各種數(shù)據(jù)的概要說明,用戶只需選擇相應(yīng)的說明項,便可獲得

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論