第2章 網(wǎng)絡(luò)學術(shù)資源檢索的基本原理_第1頁
第2章 網(wǎng)絡(luò)學術(shù)資源檢索的基本原理_第2頁
第2章 網(wǎng)絡(luò)學術(shù)資源檢索的基本原理_第3頁
第2章 網(wǎng)絡(luò)學術(shù)資源檢索的基本原理_第4頁
第2章 網(wǎng)絡(luò)學術(shù)資源檢索的基本原理_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、11第2章 網(wǎng)絡(luò)學術(shù)資源檢索的基本原理2.1 信息檢索的基本歷程2.2 信息檢索的途徑與方法2.3 檢索語言2.4 信息檢索技術(shù)2.5 信息檢索的一般程序2信息檢索包括信息存儲和信息檢索兩個相互依存的過程。信息存儲過程就是按照檢索語言(主題詞或分類表)及其使用原則對原始信息進行處理,形成信息特征標識,為檢索提供經(jīng)過整序(形成檢索圖形)的信息集合的過程。具體來說,信息的存儲包括對信息的著錄、標引以及編排正文和所附索引等。3信息檢索過程則是按照同樣的主題詞表(或分類表)及組配原則分析課題,形成檢索提問標識,根據(jù)信息存儲所提供的檢索途徑,從信息集合中查找與檢索提問標識相符的信息特征標識的過程。簡單地

2、講,就是將用戶的檢索提問標識與信息集合中存儲的信息標引標識進行比較,兩者一致或信息標引的標識包括著檢索提問標識則檢索命中。42.1 信息檢索的基本歷程1、涵義:信息檢索是指將信息按一定的方式組織起來,并根據(jù)信息用戶的需要查找出有關(guān)信息的過程。2、發(fā)展時期:手工檢索、機械檢索和計算機檢索三個發(fā)展時期。5手工信息檢索階段傳統(tǒng)式的手工檢索,是指通過手工操作,利用手工檢索系統(tǒng)獲取文獻信息的檢索方式,簡稱手檢。從檢索原理看,手工檢索與自動化檢索是基本一致的,而且自動化檢索就是在手工檢索的基礎(chǔ)上發(fā)展起來的。所以,目前世界上許多著名的檢索工具在出版發(fā)行時,印刷型、磁帶型和縮微型同時發(fā)行,有些還發(fā)行光盤型。前

3、者用于手工檢索,后者用于自動化檢索。6機械信息檢索階段機械檢索最初是從簡單的穿孔卡片逐步發(fā)展起來的,穿孔卡片又分手檢穿孔卡片與機檢穿孔卡片兩種。手檢穿孔卡計約出現(xiàn)于1904年,原意圖是用來避免卡片在卡片盒中誤放。機械信息檢索系統(tǒng)是手工檢索向現(xiàn)代信息檢索的過渡階段。7機械信息檢索主要包括兩種基本類型:機電信息檢索系統(tǒng)這是用諸如打孔機、驗孔機、分類機等機電設(shè)備記錄二次文獻,用電刷作為檢索元件的信息檢索系統(tǒng)。光電信息檢索系統(tǒng)這是用縮微照相記錄二次文獻,以膠卷或膠片邊緣部分若干黑白小方塊的不同組合做檢索標志,利用光電檢索元件查找文獻的系統(tǒng)。8優(yōu)點:機械信息檢索系統(tǒng)利用當時先進的機械裝置改進了信息的存貯

4、和檢索方式,通過控制機械動作,借助機械信息處理機的數(shù)據(jù)識別功能部分代替人腦,促進了信息檢索的自動化。缺點:沒有發(fā)展信息檢索語言,只是采用單一的方法對固定的存貯形式進行檢索,而且過分依賴于設(shè)備,檢索復雜,成本較高,檢索效率和質(zhì)量都不理想。機械信息檢索系統(tǒng)很快被迅速發(fā)展的計算機信息檢索系統(tǒng)取代。9計算機檢索階段計算機信息檢索是在計算機技術(shù)和通信技術(shù)發(fā)展的基礎(chǔ)上建立起來的。它產(chǎn)生于20世紀50年代,整個發(fā)展歷程大體上經(jīng)歷了脫機信息檢索、聯(lián)機信息檢索、光盤信息檢索、網(wǎng)絡(luò)信息檢索4個階段。101、脫機信息檢索階段:在這一時期使用的計算機檢索系統(tǒng)屬于脫機檢索系統(tǒng),其主要工作方式是脫機批處理。(1)脫機批處

5、理檢索是指用戶與機器脫鉤,不直接參與檢索,不介人與機器的對話,由專職人員把許多用戶的檢索課題匯總,批處理檢索提問要求,然后將檢索結(jié)果提供給用戶。11(2)優(yōu)點:可同時進行多項檢索可處理檢索關(guān)系相當復雜的檢索詞匯適用于長期跟蹤某專題的信息檢索服務(wù)12(3)缺點:用戶不能參與檢索過程,無法實時地修改檢索策略,查準率降低用戶不能及時瀏覽結(jié)果以及無法快速地獲取文獻。132、聯(lián)機信息檢索階段定義:聯(lián)機檢索是指用戶利用計算機終端設(shè)備,通過通信網(wǎng)絡(luò)與世界各地的信息檢索系統(tǒng)聯(lián)機,從檢索系統(tǒng)的數(shù)據(jù)庫中查找出所需信息的過程。它允許用戶以人機對話、聯(lián)機會話這樣交互的方式(Interactive)直接訪問檢索系統(tǒng)及數(shù)

6、據(jù)庫,檢索是實時(Real Time)、在線(Online)進行的。14優(yōu)點:檢索速度快、檢索范圍廣、檢索途徑多、檢索精度高、檢索內(nèi)容新、檢索輔助功能完善。缺點:檢索費用高;系統(tǒng)檢索指令復雜,多由掌握檢索技能、熟悉命令的有經(jīng)驗的人員來操作。153、光盤信息檢索階段光盤是一種用激光記錄和讀取信息的盤片,具有信息存取密度高、容量大、讀取速度快、信息類型多、保存時間長、成本低等優(yōu)點,倍受人們的青睞。光盤信息檢索系統(tǒng)的結(jié)構(gòu)比較簡單,任何一臺安裝了光驅(qū)的計算機,只要放上光盤數(shù)據(jù)庫即可進行光盤檢索。16優(yōu)點:光盤存儲信息容量大、耐用、復制費用低;光盤檢索系統(tǒng)比聯(lián)機檢索系統(tǒng)在設(shè)備支持上和通信使用費用方面要求

7、低,尤其適于那些信息服務(wù)預(yù)算少而且比較偏遠地區(qū)的單位使用;光盤檢索可以提供文本、圖形圖像、聲音及動畫等相結(jié)合的檢索界面,它使用菜單檢索方式,比傳統(tǒng)的聯(lián)機檢索界面友好。缺點:信息更新只能定期進行,檢索時效性差;檢索步驟多,需反復操作,檢索費時且開銷大。174、網(wǎng)絡(luò)信息檢索階段以網(wǎng)絡(luò)為平臺的計算機檢索被稱為網(wǎng)絡(luò)信息檢索,這種檢索方式下,用戶可同時使用網(wǎng)上多個主機,甚至所有主機的某種資源而并不需要預(yù)先知道他們的具體地址。這就極大地拓寬了檢索的空間和信息量。通過網(wǎng)絡(luò)檢索所需信息,已成為信息檢索的主導力量和發(fā)展方向。18與其他檢索方式相比,網(wǎng)絡(luò)信息檢索的特點是:信息檢索范圍廣,信息量大,信息檢索的時效性

8、強,但是其處理的信息類型復雜,信息載體形式多樣,尤其是通過搜索引擎進行網(wǎng)絡(luò)信息檢索的結(jié)果的檢準率較低,信息冗余大。192.2 信息檢索的途徑與方法信息檢索途徑定義:檢索途徑由提取信息源的外部與內(nèi)部特征形成的,又稱為檢索點或檢索入口。根據(jù)文獻信息源所具有的物質(zhì)屬性與價值內(nèi)涵,可將信息源特征分為外表特征和內(nèi)容特征。信息源的外表特征是從文獻信息源的載體、符號系統(tǒng)和記錄方式三要素中提取出的特征構(gòu)成的,如出版時間、出版地、責任者、文獻題名及聲像與電子類型等,它們分別構(gòu)成相應(yīng)的檢索途徑。20信息源的內(nèi)容特征是由分析構(gòu)成文獻信息源的信息內(nèi)容要素的特征與學科屬性形成的,主要形成分類、主題兩種途徑,主題途徑中運

9、用較廣的有主題詞途徑和關(guān)鍵詞途徑兩種。文獻信息源的外部特征與文獻是一一對應(yīng)的關(guān)系,而文獻的內(nèi)容特征與文獻源卻是多對多的關(guān)系。21外部特征的檢索途徑1、提名途徑:用書刊名稱或論文篇名編成的索引進行信息檢索的一種途徑。一般較多用于查找圖書、期刊、單篇文獻。2、責任者途徑根據(jù)已知文獻源著者直接或間接(利用著者索引實現(xiàn))查找文獻源的途徑。著者索引包括個人著者索引和機關(guān)團體索引兩種。22特點:專業(yè)研究人員一般各有所長,尤其是某些領(lǐng)域的知名學者、專家,他們發(fā)表的作品具有相當?shù)乃交虼碓擃I(lǐng)域發(fā)展的方向,通過作者線索,可以系統(tǒng)地發(fā)現(xiàn)和掌握他們研究的進展,可以查找某一作者的最新論著。233、號碼途徑:指通過各

10、種專用符號代碼與專用號碼直接或間接(利用代碼索引實現(xiàn))查找文獻的方法。專用號碼包括報告號、專利號、標準號,專用符號代碼如元素符號、分子式、結(jié)構(gòu)式等。244、優(yōu)點:它的排列與檢索方法以字順或數(shù)字為準,比較機械、單純,不易錯檢或漏檢。因而適用于查找已知篇名(書名、刊名)、作者姓名或序號代碼的文獻,可直接判斷該文獻的有或無。25內(nèi)容特征的檢索途徑1、分類途徑分類法:按照信息內(nèi)容的學科屬性,運用概念劃分與歸納的方法形成各級類,從而組織信息形成一種有序化的知識體系,以這種方式組織信息的方法叫分類法。分類途徑:用分類法組織的信息為用戶提供從學科屬性查找的途徑就是分類途徑。26特點:科學、系統(tǒng),滿足“族性檢

11、索”,查全率高。但查找信息的其他屬性和查找知識的橫向聯(lián)系時,此途徑非常不便,分類途徑對用戶的要求較高,這些限制了此途徑的廣泛應(yīng)用。利用此途徑來實現(xiàn)信息的查詢有三種情況:一是用戶首先通過查找各種分類法的分類詳表或類目索引獲得相關(guān)線索(類目或類號)再進一步檢索;二是通過選擇數(shù)據(jù)庫提供的輸人框的下拉菜單分類限制;三是通過瀏覽門戶網(wǎng)站和搜索引擎的分類類目來選擇。272、主題途徑定義:以規(guī)范化的詞匯來表達文獻內(nèi)容的主題,這種詞匯叫主題詞,主題途徑是指用戶根據(jù)所確定的主題詞或關(guān)鍵詞,利用主題詞表和主題索引實施檢索的途徑。特點:通過主題途徑獲得的信息專指性強,但查全率較低,對用戶的檢索知識要求高。28多媒體

12、信息源的檢索途徑多媒體信息源既包括數(shù)字化的文本信息、圖形與圖像信息,又包括數(shù)字化的視頻與音頻信息,這些信息具有與文本信息不同的內(nèi)容特征,從而形成的檢索途徑也不同。用于圖像檢索的途徑主要包括顏色、紋理、形狀和對象。29信息檢索方法信息檢索在實施過程中要受到很多客觀因素的影響,檢索方法有助于改善檢索,但同一檢索方法并非對各種用戶、各種檢索需求都適用,每一種方法都有其使用的范圍與優(yōu)勢。要提高檢索的效率與質(zhì)量,需要不同的檢索用戶在遵循一些基本檢索方法與技巧上養(yǎng)成良好的檢索習慣。在手工檢索和計算機檢索時經(jīng)常用到的方法有常規(guī)法、引文法和綜合法等。301、常規(guī)法:是指直接利用檢索工具檢索文獻信息的方法,是文

13、獻檢索中最常用的一種方法,又分為以下幾種:順查法:按照時間的順序、由遠及近地利用檢索系統(tǒng)進行文獻信息檢索的方法。這種方法能收集到某一課題的系統(tǒng)的文獻,適用于較大課題的文獻檢索。31倒查法:由近及遠、從新到舊、逆著時間的順序利用檢索工具進行文獻檢索的方法。此法的重點是放在近期文獻上。使用這種方法可以最快地獲得最新資料。抽查法:是指針對項目的特點,選擇有關(guān)該項目的文獻信息最可能出現(xiàn)或最多出現(xiàn)的時間段,利用檢索工具進行重點檢索的方法。322、引文法:利用文獻后所附的參考文獻、相關(guān)書目查找相關(guān)文獻的方法就叫引文法。引文法的使用有兩種方式:追溯檢索法即從文獻信息密度較大的幾種期刊的最近兩三年論文中查出一

14、批與檢索課題有關(guān)的文獻,再以這批文獻所附的參考文獻作為線索,找到第二批相關(guān)文獻,以此類推獲得一批與主題相關(guān)的文獻,這種方法的出發(fā)點是從引用論文開始查找。33引文索引法即利用引文索引,從被引論文開始查找引用它的全部論文,通過此方法可得到與來源文獻同一主題的一批相關(guān)文獻。343、綜合法:又稱為循環(huán)法,它是把上述兩種方法加以綜合運用的方法。綜合法既要利用檢索工具進行常規(guī)檢索,又要利用文獻后所附的參考文獻進行追溯引文檢索,分期分段地交替使用這兩種方法。35綜合法的好處是能夠綜合常規(guī)法和引文法的優(yōu)點。其依據(jù)主要有兩點:其一,任何檢索工具書,都有文獻收錄的范圍、主題報道的重點和傾向等,以引文法作為補充,可

15、以擴大文獻線索,發(fā)現(xiàn)更多有價值的文獻信息;其二,文獻引用現(xiàn)象有這樣的規(guī)律,凡是重要的文獻,一般在五年之內(nèi)都會被其他文獻所引用。循環(huán)法是對常規(guī)法和引文法的綜合利用,檢索效率較高,并可克服檢索工具的不齊全的限制,進行連續(xù)的檢索,獲得更多、更切題的文獻信息,是實際中使用較多的方法。362.3 檢索語言檢索語言是根據(jù)文獻信息檢索需要而創(chuàng)造的一種人工語言,是信息檢索系統(tǒng)存貯與檢索所使用的共同語言。它是專門用來描述文獻的內(nèi)容特征、外表特征和表達信息提問的一種人工語言。371、檢索語言的基本要求具有必要的語義和語法規(guī)則具有表達概念的單一性具有文獻檢索標識和提問特征進行比較和識別的方便性另外,檢索語言體系應(yīng)科

16、學合理382、檢索語言的類型根據(jù)是否規(guī)范化,檢索語言可以分為規(guī)范化語言和非規(guī)范化語言。根據(jù)所包括的專業(yè)范圍,可以分為綜合性檢索語言和專業(yè)性檢索語言。根據(jù)描述文獻的特征,可以分為描述文獻外部特征的檢索語言和描述文獻內(nèi)容特征的檢索語言。按標識組配方式,可分為先組式檢索語言和后組式檢索語言。39分類語言按表述信息的內(nèi)容特征,可分為分類語言和主題語言。分類語言的概念:是以學科體系為基礎(chǔ),將各種概念按照學科性質(zhì)進行分類和系統(tǒng)排列,并按分類號編排組織成一個完整的體系。分類語言的特點:以學科為基礎(chǔ)的一種信息檢索語言,能較好地體現(xiàn)學科的系統(tǒng)性,符合人們認識事物的規(guī)律和處理事物的習慣,便于從學科和專業(yè)角度檢索文

17、獻,也便于組織文獻信息的排架,因此,容易為人們熟悉和使用。40采用的檢索標識,是國際上廣泛采用的拉丁字母和阿拉伯數(shù)字,通用性強。能較好地反映學科的縱向關(guān)系,而不容易反映學科間相互交叉滲透的橫向聯(lián)系,因而不易準確標引和檢索交叉學科的文獻。是一種先組式的信息檢索語言,即在檢索之前就已經(jīng)固定好的標識系統(tǒng)。使用分類語言標引和檢索文獻信息時必須對學科的分類體系有較深刻的了解。41主題詞檢索語言1、定義:直接用代表信息主題概念的主題詞作為信息的標識的一種檢索語言。2、特點:可直接使用描述文獻內(nèi)容特征的名詞性術(shù)語作為標識來揭示文獻的內(nèi)容特征把這些標識按字母順序排列成主題詞表,以此作為標引、檢索文獻的工具。4

18、23、主題詞語言的分類標題詞語言敘詞語言關(guān)鍵詞語言引文索引語言4、用主題法查找文獻,要注意以下幾點:注意利用詞表選擇主題詞要把握概念的含義要利用概念之間的屬種關(guān)系和相關(guān)關(guān)系增加檢索線索432.4 信息檢索技術(shù)信息檢索技術(shù)是應(yīng)用于用戶提問與所收集的文獻集合之間的匹配比較的技術(shù)。它經(jīng)歷了手工檢索、脫機檢索、聯(lián)機檢索到基于Internet的網(wǎng)絡(luò)化檢索的過程,同時也從開始時基于關(guān)鍵詞的檢索,發(fā)展到基于概念的檢索,再到如今基于內(nèi)容的檢索,這一演化過程反映了對某一文獻的檢索由對內(nèi)容知識的檢索代替了對關(guān)鍵詞、概念知識的檢索。44布爾邏輯檢索技術(shù)邏輯檢索式一種開發(fā)較早、比較成熟、最為流行的經(jīng)典檢索技術(shù),它具有

19、簡單、易理解、容易在計算機上實現(xiàn)且檢索速度快等優(yōu)點。布爾檢索就是采用布爾表達式來表示用戶提問,通過對文本標識與用戶給出的檢索式進行邏輯比較來檢索文檔。主要的布爾邏輯關(guān)系詞有:邏輯“或”(OR),邏輯“與”(AND),邏輯“非”(NOT)。45截詞檢索截詞:是指檢索者將檢索詞在他認為合適的地方截斷。截詞檢索:用所截斷的詞的一個局部進行的檢索,并認為凡滿足這個詞局部中的所有字符(串)的文獻,都為命中的文獻。截詞方式有多種,按截斷位置來分,截詞檢索有右截斷(前方一致)、左截斷(后方一致)、左右同時截斷(中間一致)、完全一致和指定位數(shù)一致5種,其中前方一致、后方一致和中間一致用的較多。前方一致:指將檢

20、索詞的詞尾部分截斷,要求比較被檢項的前面部分。后方一致:將檢索詞的詞頭部分截斷,要求比較被檢項的后面部分。中間一致:將字根左右詞頭、詞尾部分同是截斷。46全文檢索所謂全文檢索,就是以文本數(shù)據(jù)為主要對象,實現(xiàn)內(nèi)容信息存儲與檢索的技術(shù)。全文檢索目前主要通過以下方式來實現(xiàn):對文本內(nèi)容中的每個檢索項進行位置掃描,然后排序,建立以每個檢索項的離散碼為目標的倒排文檔;采用自由指定的檢索項直接與全文文本的數(shù)據(jù)高速對照,進行檢索;采用超文本模型建立全文數(shù)據(jù)庫,實現(xiàn)超文本檢索。47其他檢索技術(shù)加權(quán)檢索限定檢索詞表檢索智能檢索48492.5 信息檢索的一般程序信息檢索工作是一項實踐性和經(jīng)驗性很強的工作,對于不同的

21、待查課題,將采用不同的檢索程序。信息檢索的全過程大致可以分為分析檢索課題與確定檢索需求、選擇檢索工具、確定檢索途徑和方法、優(yōu)化檢索提問與策略、原文獲取與 評價五個步驟。分析檢索課題與確定檢索需求1、在課題分析中,要明確以下幾個問題:(1)找出課題所涉及的主要內(nèi)容和相關(guān)內(nèi)容,從而形成主要概念和次要概念。(2)盡可能多地列出表達檢索概念的自然語言詞語的同義詞和近義詞。(3)多了解與檢索有關(guān)的背景情況,如該主題內(nèi)容在學科中的發(fā)展狀況等。(4)明確課題需要的文獻類型、語種、出版年代等方面的要求。(5)了解課題對查全、查準、查新方面有無具體要求502、課題分析要從以下幾個方面進行:(1)課題的分類(2)分析“已知”和“欲知”信息(3)分析主題內(nèi)容(4)指定文獻類型和年代51選擇檢索工具選擇檢索工具應(yīng)考慮以下四個方面的因素:其一,學科、專業(yè)范圍其二,信息類型其三,文種其四,課題內(nèi)容對類型相似

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論