第7章 網(wǎng)絡(luò)信息資源檢索基本知識_第1頁
第7章 網(wǎng)絡(luò)信息資源檢索基本知識_第2頁
第7章 網(wǎng)絡(luò)信息資源檢索基本知識_第3頁
第7章 網(wǎng)絡(luò)信息資源檢索基本知識_第4頁
第7章 網(wǎng)絡(luò)信息資源檢索基本知識_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第7章

網(wǎng)絡(luò)信息資源檢索基本知識

學習目標:

(1)了解并掌握信息檢索與網(wǎng)絡(luò)信息檢索的基本原理;(2)了解檢索語言中的分類,分類檢索語言與主題檢索語言的基本概念、特點;(3)了解并能靈活運用主要的檢索方法技術(shù),提高檢索效率;(4)了解并掌握網(wǎng)絡(luò)信息檢索的全部過程,提高檢索的檢準率與檢全率。2023/11/27

信息檢索原理

“信息檢索”概念:從廣義的角度理解,包括了信息的存儲和檢索兩個過程。狹義的角度理解僅僅包括檢索的過程。信息的存儲就是將搜集到的一次信息,經(jīng)過著錄其特征(如題名、著者、主題詞、分類號等)而形成款目,并將這些款目組織起來成為二次信息的過程。信息的檢索是針對已存儲好的二次信息庫進行的,是存儲的逆過程。2023/11/272023/11/27信息檢索原理圖原始文獻信息需求存儲信息特征提取檢索提問特征表達檢索標識系統(tǒng)存儲信息特征標識檢索提問特征標識標識排序標識匹配檢索系統(tǒng)信息存儲(標引)過程信息檢索過程檢索語言1.檢索語言的概念檢索語言又稱情報語言、檢索語言、文獻語言、標引符號、標識系統(tǒng);是根據(jù)文獻檢索的需要而創(chuàng)制的專用人工語言;是表達一系列概括文獻內(nèi)容的概念及其相互關(guān)系的概念標識系統(tǒng);專門用于各種手工的和計算機化的文獻情報存貯檢索系統(tǒng)。2023/11/272023/11/27按檢索標識規(guī)范化來劃分

檢索語言可以分為自然語言檢索標識:著者姓名、題名、會議名稱、機構(gòu)號、標牌號、專利號和關(guān)鍵詞。

規(guī)范語言檢索標識:分類號、類名、標題詞和敘詞。

將信息需求者的自然語言轉(zhuǎn)化成系統(tǒng)規(guī)范化的檢索語言對檢索的成功與否關(guān)系極大。2023/11/27在編制檢索工具時,標引人員要對各種文獻進行分析,把它們所包含的內(nèi)容要點都分析出來,使之形成若干能代表文獻內(nèi)容的概念,并用規(guī)范化的語言如敘詞、標題詞或分類號把這些概念標示出來,納入檢索系統(tǒng)中。檢索時,用戶要對提問進行主題分析,使之形成能代表信息需求的概念,并把這些概念轉(zhuǎn)換成系統(tǒng)能接受的語言,然后才能從系統(tǒng)中得到用這些規(guī)范化語言所標引的文獻。2023/11/27按結(jié)構(gòu)原理劃分

檢索語言可以分為兩大類描述文獻外表特征的檢索語言:著者姓名、題名、報告號、標準號、專利號、檔案號等。

描述文獻內(nèi)容特征的檢索語言:分類號、敘詞、標題詞和關(guān)鍵詞等。表述內(nèi)容特征的語言與表達外表特征的語言相比較,在揭示信息特征與表達情報提問方面更具有深度。

2023/11/272023/11/27分類檢索語言

分類語言是以學科體系為基礎(chǔ),用號碼作為概念標識,按分類編排的檢索語言。是按照知識分類和概念邏輯的方法對信息進行區(qū)分和歸類。分類語言建立在科學分類的基礎(chǔ)上,運用概念劃分與概括的方法,將大大小小的概念進行層層劃分,逐級劃分就產(chǎn)生許多不同級別的類目。所有不同級別的類目,層層隸屬,形成了一個嚴格有序、層次分明的知識門類等級制體系。每一類目分別以不同的符號作標志,每個分類號都是表達特定知識概念的語詞,即分類語言的語詞。這種標志就是分類語言。大多數(shù)分類都是根據(jù)該語言編制而成的。

2023/11/272023/11/27分類語言包括以杜威為代表的等級體系分類語言(體系分類法)以阮岡納贊為代表的分析--綜合分類語言(分面組配分類法)

分面組配分類法:一般只限于一個比較窄小或比較單純的專業(yè)范圍使用。它由若干個面構(gòu)成,這些面都是基本范疇,都可以作為檢索的途徑,而無主次之分。2023/11/271、體系分類法體系分類法定義:是一種直接體現(xiàn)知識分類的等級制概念標識系統(tǒng),是對概括文獻情報內(nèi)容及某些外表特征的概念進行邏輯分類和系統(tǒng)排列而成的。2023/11/27是按學科、專業(yè)集中文獻,并從知識分類角度揭示各類文獻在內(nèi)容上的區(qū)別和聯(lián)系,提供從學科分類檢索文獻情報的途徑。是由成千上萬個類目構(gòu)成的。

所謂“類”,是許多具有某種(或某些)共同屬性的事物的集合。2023/11/27例:《中國圖書館圖書分類法》

簡稱《中圖法》。它是我國大陸地區(qū)使用最廣的圖書分類法,約有90%左右的圖書館使用該分類法。

1973年3月完成初稿,1980年修訂出版了第二版,1990年2月出版了第三版,《中圖法》(第四版)改稱《中國圖書館分類法》,于1999年正式出版。2010年8月國家圖書館出版社出版第五版類號標記是采用字母數(shù)字混合制,即用一個或兩個拉丁字母和一串阿拉伯數(shù)字來代表一個具體的類目。它有5大部類,22個基本大類,6個總論復(fù)分表,30多個專類復(fù)分表,4萬余條類目組成完善的分類體系。

2023/11/272023/11/272、組配分類法組配分類法是體系分類法的發(fā)展,為了克服體系分類法的列舉式列類方法所造成的不能無限容納概念的局限性及它的類目的單線排列方式所造成的“集中與分散”的矛盾。使用組配分類法可以從很高的專指度上來標引一篇文章,也可以從很高的專指度或較低的專指度及從多種角度查到所需要的那篇文章。2023/11/27補充:列類方法(體系分類法中)14個分類:正常列類法、列舉列類法、重點列類法、羅列列類法、對應(yīng)列類法。。列舉列類法:采用某一分類標準列子目,其總和少于被劃分的上位類,未列的入“其他”類概括。復(fù)分表(體系分類法):將一系列類目所具有的相同子目從主表中抽出來單獨編制成的輔表,在進行分類標引時,將主表的分類號與輔表的分類號加以組合,構(gòu)成一個具體的分類號,表達一個具體的概念。例:分類號K9(地理)和世界地區(qū)表中的復(fù)分號313(日本)組合,構(gòu)成“K931.3日本地理”子目----概念的分析與綜合2023/11/27概念及構(gòu)成原理組配——把兩個或多個主題概念,按照一定的規(guī)則組合起來,表達一個更專指的主題概念,叫組配。組配分類法的構(gòu)成:基于概念的可分析性和可綜合性。一個復(fù)雜概念可以分析為為若干簡單概念(或概念因素),若干簡單概念可以綜合成一個復(fù)雜概念。2023/11/27一部有四個面的組配分類表基本主題圖書館類型圖書資料學科圖書資料類型A1圖書館學理論A2圖書館事業(yè)A3圖書館藏書和目錄A4圖書館服務(wù)工作、讀者工作A41閱覽室工作A42借書處工作A43館際借書、郵寄借書A44圖書推廣工作A45圖書宣傳、閱讀輔導A46參考咨詢工作A5圖書館工作組織A6圖書館建筑和設(shè)備B1國家圖書館B2公共圖書館B21?。ㄊ校┳灾螀^(qū)圖書館B22市縣圖書館B23鄉(xiāng)鎮(zhèn)圖書館B3基層圖書館B4科學圖書館、專業(yè)圖書館B5高等學校和中等專業(yè)學校圖書館參考咨詢工作普通學校圖書館B6兒童圖書館B7其他圖書館C1毛澤東思想C2哲學C3社會科學C4自然科學C5醫(yī)藥衛(wèi)生C6農(nóng)業(yè)技術(shù)C7工業(yè)技術(shù)C8綜合圖書資料D1書D2期刊報紙D3特種科技文獻D4工具書D5檢索工具D6兒童讀物D7縮微資料D8視聽資料D9其他類型圖書資料2023/11/27利用組配分類表來標引這10篇文獻,可以實行輪排,從多角度檢索文獻。(1)公共圖書館對馬列主義的宣傳A45B2C1(2)省圖書館的參考咨詢工作A46B21(3)期刊編目法A3D2

(4)縣圖書館中農(nóng)業(yè)期刊的宣傳A45B22C6D2(5)兒童圖書館設(shè)備A6B6

(6)高等學校圖書館的讀者工作A4B5(7)省圖書館期刊閱覽室工作A41B21D2(8)兒童讀者的閱讀輔導A45B6D6(9)省圖書館視聽資料的編目A3B21D8(10)縣圖書館的期刊閱覽工作A41B22D22023/11/272023/11/27主題語言(主題法)主題語言:直接以代表文獻內(nèi)容特征和科學概念的概念詞作為檢索標識(使用詞語標識),并按其外部形式(字順)組織起來的一種檢索語言,又稱主題法。主題語言是一種描述語言,即用自然語言中的名詞、名詞性詞組描述事物概念的中心語義。2023/11/27主題語言包含兩個內(nèi)容:一是指表達信息內(nèi)容特征的、經(jīng)過規(guī)范化了的名詞術(shù)語(包括詞組和短語);二是把這些名詞術(shù)語按字順排列成主題記號表或主題詞表,以此作為規(guī)范語詞標引和檢索信息的工具。主題詞有三個基本特征:①著眼于從事物的特性方面去提示文獻主題;②采用文字符號;③按字母順序排列;2023/11/271、標題詞語言(SubjectHeadingLanguage)

最早使用的一種主題語言。標題詞語言是使用一個或者一組規(guī)范化的自然語言(經(jīng)過標準化處理的名詞術(shù)語)作為檢索標識來直接描述文獻內(nèi)容特征,表達文獻涉及的主題概念,并將全部標識按字母順序排列的標識語言,是一種先組式的詞匯標識系統(tǒng)。在標題下,常常集中了關(guān)于一種事物的許多方面的資料,涉及到相當于分類法中的好多個類目的范圍.如在“羊”這個標題下,就可能包括羊的生理、解剖、遺傳、選種、育種、繁殖、飼養(yǎng)管理、育肥、飼料、放牧、疾病及其防治、用途以及畜牧經(jīng)濟等方面的資料。而這些資料如果集中在同一個標題下而不加以區(qū)分,對檢索也會造成困難,導致甄別量增加,而檢索率降低。2023/11/272、單元詞語言

單元詞是指一個個最小、最基本的,其概念不可再分的詞匯單位,能夠用來描述文獻所論及或涉及的事物的那些單詞,是經(jīng)過規(guī)范化處理的自然語言,無詞表。后組式標識全組配是單元詞法的重要特點。檢索時,根據(jù)檢索課題的需求,選取恰當?shù)膯卧~進行組配檢索。檢索美國化工專利使用的《化學專利單元詞索引》就是一例。

2023/11/274、關(guān)鍵詞語言(KeywordLanguage)關(guān)鍵詞語言是以關(guān)鍵詞(自然語言)作為文獻內(nèi)容標識和檢索入口的一種主題語言。關(guān)鍵詞語言廣泛地用于手工檢索和計算機檢索。

檢索方法與技術(shù)

信息檢索方法1、瀏覽法瀏覽是對信息結(jié)構(gòu)的一種隨意的探查,是發(fā)現(xiàn)信息及信息線索的重要手段,分為文字瀏覽、視頻瀏覽、圖像瀏覽、基于事件和敘事的瀏覽等。通過瀏覽選擇其中所需或相近的內(nèi)容,可作為進一步查詢的依據(jù),或者可以有效地啟動一項需求更明確的檢索。網(wǎng)上瀏覽往往同航行結(jié)合起來操作,即沿著一條條鏈,從一個視圖切換到另一個視圖,通過一系列的查看和選擇操作發(fā)現(xiàn)所需信息。

2023/11/272、查詢法(1)基于關(guān)鍵詞的查詢:如單詞查詢、詞組查詢、近似查詢、布爾查詢、自然語言查詢;(2)

模式匹配:基于模式的概念,允許對某種特性的文本片段進行檢索。(3)

結(jié)構(gòu)查詢:有的信息線索不是包含在文檔的內(nèi)容之中,而是包含在結(jié)構(gòu)之中,如郵件的發(fā)送者、接受者、日期、標題等構(gòu)成一組固定的“域”,用戶可以針對這些域進行搜索,這是固定結(jié)構(gòu)查詢。(4)

基于內(nèi)容的查詢:包括一般屬性查詢(如媒體描述信息)、感知特征查詢(如顏色、紋理、形狀)、概念查詢、時空結(jié)構(gòu)查詢等。2023/11/273、引文法(追蹤法)

文獻之間的引證和被引證關(guān)系揭示了文獻之間存在的某種內(nèi)在聯(lián)系,引文法(也有稱為跟蹤法)就是利用文獻后所附的參考文獻、相關(guān)書目、推薦文章和引文注釋查找相關(guān)文獻的方法。這些材料不僅指明了與讀者需求最密切的文獻線索,而且往往包含了相似的觀點、思路、方法,具有啟發(fā)意義。2023/11/27引文法又可分為兩種,一種是由遠及近地搜尋,即找到一篇有價值的論文后進一步查找該論文被哪些其它文獻引用過,以便了解后人對該論文的評論、是否有人對此作過進一步研究、實踐結(jié)果如何、最新的進展怎樣等等。另一種較為普遍的查法是由近及遠地追溯,這樣由一變十,由十變百地獲取更多相關(guān)文獻,直到滿足要求為止。這種方法適合于歷史研究或?qū)Ρ尘百Y料的查詢,其缺點是越查材料越舊,追溯得到的文獻與現(xiàn)在的研究專題越來越疏遠。2023/11/274、時序法利用常規(guī)檢索工具按照時間順序查找有關(guān)文獻的方法??梢杂庙槻榉?、逆查法和抽查法查找所需信息。

順查法是以課題研究的起始年代為出發(fā)點,利用選定的檢索工具如書目、索引、文摘由遠及近地逐年查找。

逆查法則相反,是由近及遠地查找,起點是從最近發(fā)表的文獻開始,直到設(shè)定終止的年代或查到所需資料為止。

抽查法是基于這樣一個規(guī)律來查文獻的,即任何一門學科的專題研究大體都像波浪起伏般地發(fā)展,時而高潮,時而低潮。由于興旺時期發(fā)表的文獻量大,各種學術(shù)觀點較為集中,如果針對課題研究處于興旺時期的若干年查找,則付出較少的時間可獲得較為滿意的檢索結(jié)果。2023/11/275、排除、限定和合取法

排除法:移植到檢索中就是在時間或空間上極大地收縮檢索范圍。限定法:相對于排除法而言的,排除的結(jié)果必然是限定,即指對查找對象在時間和空間上加以內(nèi)在的肯定。

合取法:如果把不同資料中涉及所需信息的記載都裁取下來,匯集在一起,再經(jīng)過去粗取精、去偽存真的加工,構(gòu)成一個完整的答案。

2023/11/272023/11/27信息檢索技術(shù)1、布爾邏輯(1)邏輯“與”:邏輯“與”可用“AND”或“*”表示,檢索詞用“AND”或“*”相連,含義是檢出的記錄中同時含有所有檢索詞。邏輯“與”運算符的基本作用是對檢索詞加以限定,逐步縮小檢索范圍,減少命中文獻量,提高檢索結(jié)果的查準率,適用于不同概念組面之間以及同一組面內(nèi)不同含義的詞之間的組配。2023/11/27(2)邏輯“或”邏輯“或”可用“OR”或“+”表示,檢索詞用“OR”或“+”相連,含義是檢出的記錄中,至少含有檢索詞中的一個。邏輯“或”算符的基本作用是擴大檢索范圍,增加命中文獻量,防止漏檢,提高檢索結(jié)果的查全率。適用于同義詞或同族概念的組配,如同義詞、近義詞等。2023/11/27(3)邏輯“非”:邏輯“非”可用“NOT”或“-”表示,檢索詞用“NOT”或“-”相連,表示排除“NOT”或“-”算符后的詞語,檢出含有算符前檢索詞的所有記錄。邏輯“非”算符的基本作用是縮小檢索范圍,減少文獻輸出量的作用,但不一定能提高文獻命中的準確率。同時應(yīng)注意在有兩個以上運算符的復(fù)雜邏輯式中,“NOT”出現(xiàn)次數(shù)不能太多,否則檢出結(jié)果極少,影響檢出效果。2023/11/27(2)優(yōu)先處理算符優(yōu)先處理算符用“()”表示,含義是優(yōu)先對()內(nèi)的算符進行邏輯運算,在實際檢索中,有時要調(diào)整邏輯運算符的運算順序,使某些算符優(yōu)先進行邏輯匹配,或者是簡化邏輯算式,在這些情況下,將使用算符“()”。2023/11/273、鄰接算符鄰接算符又稱詞位置邏輯檢索符、全文查找邏輯算符,相鄰度檢索算符,原文檢索符。(1)(W)

W的含義是“With”,其用法為A(W)B,表示(W)前后所連接的A、B兩個檢索詞在檢出結(jié)果中必須緊密相鄰,且詞序不能顛倒。2023/11/27(2)(nW)

W的含義是“Word”,n代表單詞個數(shù),用法為A(nW)B,表示A、B兩詞之間允許插入最多為n個的其他詞語,插入詞可以是實詞或系統(tǒng)禁用詞,同時A、B兩詞的前后順序保持不變。2023/11/27(3)(N)

N的含義是“Near”,用法為A(N)B,表示在檢出結(jié)果中A、B兩詞必須緊密相鄰,并允許詞序發(fā)生顛倒。2023/11/27(4)(nN)

N的含義仍是“Near”,用法為A(nN)B,表示A、B兩詞之間允許插入最多為n個的其他詞語,插入詞可以是實詞或系統(tǒng)禁用詞,兩詞的前后順序可以顛倒。2023/11/274、字段限制在聯(lián)機數(shù)據(jù)庫或光盤數(shù)據(jù)庫檢索系統(tǒng)中,都提供字段限制的檢索功能,其作用是檢索范圍限定在某一字段內(nèi)如題目、作者等。以DIALOG檢索系統(tǒng),基本字段限制為四個:題目(TI)、敘詞(DE)、標引詞(ID)、文摘(AB)。2023/11/275、截詞算法截詞檢索是利用檢索詞的詞干或不完整的詞形查找信息的一種檢索方法。用戶可以在檢索式中用截詞符號(如“*”、“?”或“$”等等)表示檢索詞的某一部分允許有一定的詞形變化,而不必輸入完整的檢索詞。2023/11/27(1)按截斷的字符數(shù)量劃分,截詞檢索可以分為有限截詞和無限截詞。有限截詞,又稱有限截斷,指對詞干以外可以出現(xiàn)的字母數(shù)量進行限定。如:studen??,截詞符“??”表示檢索含有studen和studen后只跟有兩個字母的檢索詞的文獻。無限截詞,又稱無限截斷,指對詞干前后出現(xiàn)的字母數(shù)量不作限定,一切與輸入的詞干相匹配的字符串,不論詞干后或詞干前是什么字符串、有多少字符串都屬于要檢索的信息。2023/11/27(2)按截斷的位置劃分,截詞檢索可以分為前截詞、后截詞、前后截詞和中間截詞。前截詞,又稱左截詞,前截斷,允許檢索詞的前端有一定形式的變化。這實際上是一種后方一致的檢索,對漢語中的復(fù)合詞組的檢索非常方便。后截詞,又稱右截詞,后截斷,允許檢索詞的尾部有若干形式的變化。這實際上是一種前方一致的檢索。2023/11/27前后截詞,又稱前后截斷,檢索詞中間一致,任意一致,檢索詞中只要出現(xiàn)指定的詞干即為合法檢索詞。這實際上是一種比較寬的模糊檢索。中間截詞,又稱嵌入式截詞,中間截斷,嵌入式截斷,指在檢索詞中間嵌入截斷符號(有的系統(tǒng)用?,有的用*),允許檢索詞中間有若干形式的變化。2023/11/276、詞組或短語檢索詞組或短語檢索是一般數(shù)據(jù)庫中最常用的方法。在網(wǎng)絡(luò)信息檢索工具中。在檢索框中輸入兩個或兩個以上的檢索詞,這兩個檢索詞之間又不加任何符號,那么檢索工具會將這兩個檢索詞之間的關(guān)系設(shè)為默認值(有的默認值為AND,有的默認值為OR)。如要將這兩個或多個檢索詞作為一個詞組或短語進行檢索,中間不允許插入任何字符,就必須使用一定的符號來表明這是詞組或短語,最常用的符號是雙引號“”或括號()。2023/11/277、加權(quán)檢索加權(quán)檢索的基本方法是:在每個檢索詞后面給定一個數(shù)值,表示其重要性程度,這個數(shù)值稱為權(quán)值。通過加權(quán)明確了各檢索詞的重要程度,使檢索更有針對性,并且能依據(jù)權(quán)值的大小,對命中記錄的重要性進行排序。檢索時,先查找這些檢索詞在數(shù)據(jù)庫記錄中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論