信息資源組織與原理(第3版):第04章 信息檢索與管理方法_第1頁
信息資源組織與原理(第3版):第04章 信息檢索與管理方法_第2頁
信息資源組織與原理(第3版):第04章 信息檢索與管理方法_第3頁
信息資源組織與原理(第3版):第04章 信息檢索與管理方法_第4頁
信息資源組織與原理(第3版):第04章 信息檢索與管理方法_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、信息資源組織與管理信息資源組織與管理第第 4 4 章信息檢索與管理方法章信息檢索與管理方法2022年4月27日星期三5時55分35秒1/40內(nèi)容提要(內(nèi)容提要(1/3)4.1信息檢索的內(nèi)涵信息檢索的內(nèi)涵4.1.1信息檢索的定義4.1.2信息檢索的分類4.1.3信息檢索的沿革與發(fā)展趨勢4.1.4信息檢索的作用4.2信息檢索的原理與流程信息檢索的原理與流程4.2.1信息檢索的原理4.2.2信息檢索的流程4.2.3信息檢索的途徑2022年4月27日星期三5時55分36秒2/ 40內(nèi)容提要(內(nèi)容提要(2/3)4.3信息檢索的方法和技術(shù)信息檢索的方法和技術(shù)4.3.1信息檢索方法4.3.2信息檢索技術(shù)4.

2、3.3信息檢索技術(shù)發(fā)展的新趨勢4.3.4信息檢索綜合案例分析4.4網(wǎng)絡(luò)信息檢索網(wǎng)絡(luò)信息檢索4.4.1網(wǎng)絡(luò)信息檢索的特點4.4.2網(wǎng)絡(luò)信息檢索工具4.4.3網(wǎng)絡(luò)信息檢索的基本結(jié)構(gòu)和工作原理4.4.4 網(wǎng)絡(luò)信息檢索的發(fā)展趨勢2022年4月27日星期三5時55分36秒3/ 40內(nèi)容提要(內(nèi)容提要(3/3)4.5信息檢索的效果和評價信息檢索的效果和評價4.5.1信息檢索效果的評價指標(biāo)4.5.2提高檢索效果的方法4.5.3工程技術(shù)學(xué)術(shù)資源檢索實例評價作業(yè)(作業(yè)()2022年4月27日星期三5時55分36秒4/ 404.1.1 信息檢索的定義信息檢索的定義1.1.信息檢索定義信息檢索定義信息檢索信息檢索是

3、指將信息按照一定的方式組織和存儲起來,并能根據(jù)信息用戶的需要找出其中相關(guān)信息的過程。2. 信息檢索理解信息檢索理解信息檢索的本質(zhì)是信息用戶的需求和信息集合的比較與選擇,即匹配(match)的過程。從用戶需求出發(fā),對一定的信息集合(系統(tǒng))采用一定的技術(shù)手段,根據(jù)一定的線索與準(zhǔn)則找出(命中)相關(guān)信息的過程,就是信息檢索。2022年4月27日星期三5時55分36秒5/ 404.1.2信息檢索的分類(信息檢索的分類(1/2)1.1.按檢索內(nèi)容分類按檢索內(nèi)容分類(1)數(shù)據(jù)信息檢索(data information retrieval)概念:概念:從文件、數(shù)據(jù)庫或存儲裝置中查找和選取所需數(shù)據(jù)的操作或過程從

4、文件、數(shù)據(jù)庫或存儲裝置中查找和選取所需數(shù)據(jù)的操作或過程案例:案例:某車百公里油耗是多少?某人的年齡有多大?某車百公里油耗是多少?某人的年齡有多大?(2)事實信息檢索(fact information retrieval)概念:概念:以文獻中的事實為對象,檢索某一事件發(fā)生的時間、地點或過程以文獻中的事實為對象,檢索某一事件發(fā)生的時間、地點或過程。案例:案例:李明是李明是A校的學(xué)生嗎?李明學(xué)外語嗎校的學(xué)生嗎?李明學(xué)外語嗎?(3)文獻信息檢索(document information retrieval)概念:概念:將存儲于檢索數(shù)據(jù)庫中的關(guān)于某一主題文獻的信息查找出來的過將存儲于檢索數(shù)據(jù)庫中的關(guān)于某

5、一主題文獻的信息查找出來的過程。程。案例:案例:鐵路大橋的相關(guān)論文?鐵路大橋的相關(guān)論文?2022年4月27日星期三5時55分36秒6/ 404.1.2信息檢索的分類(信息檢索的分類(2/2)1.1.按信息的組織方式分類按信息的組織方式分類(1)全文檢索(full text retrieval)概念:概念:將存儲于檢索數(shù)據(jù)庫中整本書、整篇文章中的任意內(nèi)容查找出來將存儲于檢索數(shù)據(jù)庫中整本書、整篇文章中的任意內(nèi)容查找出來.案例:案例:從超星平臺中檢索著作從超星平臺中檢索著作信息資源組織與管理信息資源組織與管理?(2)超文本檢索(hyper text retrieval)概念:概念:檢索每個結(jié)點中所存

6、信息以及信息鏈構(gòu)成的網(wǎng)絡(luò)中的信息檢索每個結(jié)點中所存信息以及信息鏈構(gòu)成的網(wǎng)絡(luò)中的信息.案例:案例:從某官方網(wǎng)站檢索某領(lǐng)導(dǎo)的基本信息(文本信息)?從某官方網(wǎng)站檢索某領(lǐng)導(dǎo)的基本信息(文本信息)?(3)超媒體檢索(hyper media retrieval)概念:概念:檢索每個結(jié)點中所存儲的文本、圖像、聲音等多種媒體信息。檢索每個結(jié)點中所存儲的文本、圖像、聲音等多種媒體信息。案例:案例:從某官方網(wǎng)站檢索某領(lǐng)導(dǎo)的相關(guān)信息(含文本、圖像、視頻等)?從某官方網(wǎng)站檢索某領(lǐng)導(dǎo)的相關(guān)信息(含文本、圖像、視頻等)?2022年4月27日星期三5時55分36秒7/ 404.1.3 信息檢索的沿革與發(fā)展趨勢信息檢索的沿革

7、與發(fā)展趨勢信息檢索的發(fā)展:經(jīng)歷了信息檢索的發(fā)展:經(jīng)歷了4個階段。個階段。(1)手工檢索階段案例:案例:上世紀(jì)上世紀(jì)80年代,通過年代,通過“圖書索引卡片圖書索引卡片”在圖書館查書或借書。在圖書館查書或借書。(2)機械檢索階段案例案例1(機電信息檢索系統(tǒng)):(機電信息檢索系統(tǒng)):用打孔機、分類機記錄二次文獻,利用電用打孔機、分類機記錄二次文獻,利用電刷作為檢索元件。刷作為檢索元件。案例案例2(光電信息檢索系統(tǒng)):(光電信息檢索系統(tǒng)):用照相縮微技術(shù)記錄二次文獻,利用光電用照相縮微技術(shù)記錄二次文獻,利用光電設(shè)備作為檢索元件。設(shè)備作為檢索元件。(3)計算機檢索階段案例:案例:上個世紀(jì)上個世紀(jì)80年代

8、,年代,“國際查新國際查新”報告。報告。(4)網(wǎng)絡(luò)檢索階段案例:案例:超星平臺、知網(wǎng)平臺、百度平臺等。超星平臺、知網(wǎng)平臺、百度平臺等。2022年4月27日星期三5時55分36秒8/ 404.1.4 信息檢索的作用信息檢索的作用信息檢索的作用:主要有信息檢索的作用:主要有3 3個。個。(1)信息檢索是獲取知識的捷徑科技文獻(含著作、期刊、報紙、論文、會議等)浩如煙海,必須具備科技文獻(含著作、期刊、報紙、論文、會議等)浩如煙海,必須具備一定的信息檢索能力才能查找到有用的科技信息。一定的信息檢索能力才能查找到有用的科技信息。(2)信息檢索是科學(xué)研究的向?qū)Ю眯畔z索,提前了解科學(xué)研究中的相似成果,

9、能夠很好的解決重復(fù)利用信息檢索,提前了解科學(xué)研究中的相似成果,能夠很好的解決重復(fù)勞動的問題,避免重復(fù)研究或者走彎路。勞動的問題,避免重復(fù)研究或者走彎路。(3)信息檢索是終身教育的基礎(chǔ)聯(lián)合國科教文組織提出,教育已擴大到一個人的一生,認為唯有全面的聯(lián)合國科教文組織提出,教育已擴大到一個人的一生,認為唯有全面的終身教育才能夠培養(yǎng)完善的人,才能適應(yīng)當(dāng)代信息社會發(fā)展的需求。終身教育才能夠培養(yǎng)完善的人,才能適應(yīng)當(dāng)代信息社會發(fā)展的需求。通過學(xué)習(xí)信息檢索的方法和原理,可以增強信息意識,提高檢索技巧,通過學(xué)習(xí)信息檢索的方法和原理,可以增強信息意識,提高檢索技巧,不斷更新知識,防止知識老化。不斷更新知識,防止知識

10、老化。2022年4月27日星期三5時55分36秒9/ 404.2.1信信息息檢檢索索的的原原理理2022年4月27日星期三5時55分36秒10/ 404.2.2信信息息檢檢索索的的流流程程2022年4月27日星期三5時55分36秒11/ 404.2.3 信息檢索的途徑(信息檢索的途徑(1/2)1. 1. 內(nèi)部特征途徑內(nèi)部特征途徑(1)分類途徑概念:概念:指按文獻內(nèi)容的學(xué)科分類體系查找文獻信息的途徑。指按文獻內(nèi)容的學(xué)科分類體系查找文獻信息的途徑。特點:特點:收錄的文獻按學(xué)科分類目錄中的排序進行編排,便于按學(xué)科查收錄的文獻按學(xué)科分類目錄中的排序進行編排,便于按學(xué)科查找文獻;找文獻;對于較難分類的新

11、興學(xué)科和邊緣學(xué)科來說,查找不便;對于較難分類的新興學(xué)科和邊緣學(xué)科來說,查找不便;目目前前分類檢索工具普遍使用。分類檢索工具普遍使用。(2)主題途徑概念:概念:根據(jù)表達文獻主題內(nèi)容的主題詞為標(biāo)識查找文獻信息的途徑,根據(jù)表達文獻主題內(nèi)容的主題詞為標(biāo)識查找文獻信息的途徑,特點:特點: 用主題詞作為標(biāo)識,表達概念準(zhǔn)確、靈活、專指度高,可使同用主題詞作為標(biāo)識,表達概念準(zhǔn)確、靈活、專指度高,可使同一主題的文獻集中,檢索效率高;一主題的文獻集中,檢索效率高; 主題索引缺少學(xué)科系統(tǒng)的整體性和主題索引缺少學(xué)科系統(tǒng)的整體性和層次性,因此,難以達到很高的查全率。層次性,因此,難以達到很高的查全率。(3)其他途徑分類

12、主題途徑分類主題途徑等。等。2022年4月27日星期三5時55分36秒12/ 404.2.3 信息檢索的途徑(信息檢索的途徑(2/2)2. 2. 外部特征途徑外部特征途徑(1)著者途徑概念:概念:根據(jù)文獻著(譯、編)者的名稱查找文獻信息的途徑。根據(jù)文獻著(譯、編)者的名稱查找文獻信息的途徑。特點:特點:按著者姓名字順排列,易于利用,又便于編排,也易于信息加工。按著者姓名字順排列,易于利用,又便于編排,也易于信息加工。(2) 序號途徑概念:概念:利用文獻的代碼(如書刊號、專利號、標(biāo)準(zhǔn)號)進行查找的途徑。利用文獻的代碼(如書刊號、專利號、標(biāo)準(zhǔn)號)進行查找的途徑。特點:特點:檢索準(zhǔn)確度高,但必須精準(zhǔn)

13、知曉代碼,如檢索準(zhǔn)確度高,但必須精準(zhǔn)知曉代碼,如13位的位的ISBN(書號)。(書號)。(3)名稱途徑概念:概念:根據(jù)文獻題名查找文獻信息的途徑。根據(jù)文獻題名查找文獻信息的途徑。特點:特點:把文獻題名按照字順排列起來編成索引,其排法簡單易行,易于把文獻題名按照字順排列起來編成索引,其排法簡單易行,易于查檢。查檢。2022年4月27日星期三5時55分36秒13/ 404.3.1 信息檢索方法(信息檢索方法(1/3)1.常規(guī)檢索法常規(guī)檢索法(1)直接檢索法概念:概念:直接利用檢索工具進行信息檢索的方法。直接利用檢索工具進行信息檢索的方法。特點:特點:多用于檢索一些內(nèi)容概念較穩(wěn)定或較成熟、知識性問題

14、多用于檢索一些內(nèi)容概念較穩(wěn)定或較成熟、知識性問題(2)間接檢索法概念:概念:利用檢索工具間接檢索信息資源的方法。利用檢索工具間接檢索信息資源的方法。特點:特點:根據(jù)不同的課題要求,不同的設(shè)備條件,選擇最適當(dāng)?shù)姆桨竵韺嵏鶕?jù)不同的課題要求,不同的設(shè)備條件,選擇最適當(dāng)?shù)姆桨竵韺嵤z索。施檢索。(3) 順查法概念:概念:一種根據(jù)檢索課題的起始年代,利用選定的檢索工具,按照過去一種根據(jù)檢索課題的起始年代,利用選定的檢索工具,按照過去到現(xiàn)在的順序逐年查找的方法。到現(xiàn)在的順序逐年查找的方法。特點:特點:漏檢較少、查全率高,但檢索的工作量大、費時、費力。漏檢較少、查全率高,但檢索的工作量大、費時、費力。202

15、2年4月27日星期三5時55分36秒14/ 404.3.1 信息檢索方法(信息檢索方法(2/3)1.常規(guī)檢索法常規(guī)檢索法(4)倒查法概念:概念:利用檢索工具間接檢索信息資源的方法。利用檢索工具間接檢索信息資源的方法。特點:特點:用于檢索某研究領(lǐng)域最新文獻或研究進展?fàn)顩r。用于檢索某研究領(lǐng)域最新文獻或研究進展?fàn)顩r。(5)抽查法概念:概念:一種利用檢索工具進行重點抽查檢索的方法。一種利用檢索工具進行重點抽查檢索的方法。特點:特點:重點檢索學(xué)科發(fā)展高峰期的文獻,檢索時間短、工作量小。重點檢索學(xué)科發(fā)展高峰期的文獻,檢索時間短、工作量小。2.回溯檢索法回溯檢索法概念:概念:又稱追溯法、引文法、引證法,是一

16、種跟蹤查找的方式,即以文又稱追溯法、引文法、引證法,是一種跟蹤查找的方式,即以文獻后面所附的參考文獻為線索,逐一追溯查找相關(guān)文獻的方法。獻后面所附的參考文獻為線索,逐一追溯查找相關(guān)文獻的方法。特點:特點:有助于對課題的主題背景和立論依據(jù)等內(nèi)容有更深的理解;查全有助于對課題的主題背景和立論依據(jù)等內(nèi)容有更深的理解;查全率往往不高;回溯年代越遠,所獲取的文獻越陳舊。率往往不高;回溯年代越遠,所獲取的文獻越陳舊。2022年4月27日星期三5時55分36秒15/ 404.3.1 信息檢索方法(信息檢索方法(3/3)3.循環(huán)檢索法循環(huán)檢索法概念:概念:又稱交替法、綜合法、分段法,即交替使用回溯法和常規(guī)法來

17、進又稱交替法、綜合法、分段法,即交替使用回溯法和常規(guī)法來進行文獻檢索的綜合檢索方法。行文獻檢索的綜合檢索方法。特點:特點:先利用檢索工具從分類、主題、作者、題名等入手,查找出一批先利用檢索工具從分類、主題、作者、題名等入手,查找出一批文獻信息;然后通過精選,選擇出與檢索課題針對性較強的文獻;再按文獻信息;然后通過精選,選擇出與檢索課題針對性較強的文獻;再按其后所附的參考文獻回溯查找,不斷擴大檢索線索,分期分段地交替進其后所附的參考文獻回溯查找,不斷擴大檢索線索,分期分段地交替進行,循環(huán)下去,直到滿足檢索要求為止。行,循環(huán)下去,直到滿足檢索要求為止。2022年4月27日星期三5時55分36秒16

18、/ 404.3.2 信息檢索技術(shù)(信息檢索技術(shù)(1/3)1. 布爾邏輯檢索技術(shù)(布爾邏輯檢索技術(shù)(Boolean Logical search) 邏輯與(邏輯與(A A* *B B)、邏輯或()、邏輯或(A AB B)、邏輯非()、邏輯非(A-BA-B)。)。2.2.鄰近檢索技術(shù)(鄰近檢索技術(shù)(proximity search)概念:通過檢索式中的專門符號來規(guī)定檢索詞在結(jié)果中的相對位置。案例:()符號,()符號,表示表示兩詞之間不許有其他的詞或字母;兩詞之間不許有其他的詞或字母; (nw)符號,符號,表示此算符兩側(cè)的檢索詞之間允許插入最多表示此算符兩側(cè)的檢索詞之間允許插入最多n個詞;個詞; (

19、n)符號,符號,表示此算符兩側(cè)的檢索詞必須緊密相連,詞序可變;表示此算符兩側(cè)的檢索詞必須緊密相連,詞序可變; (nn)符號,符號,表示此算符兩側(cè)的檢索詞之間允許間隔最多表示此算符兩側(cè)的檢索詞之間允許間隔最多n個詞,且順序可以顛倒;個詞,且順序可以顛倒; (s)符號,符號,表示兩個檢索詞間可插入詞的數(shù)量不限。表示兩個檢索詞間可插入詞的數(shù)量不限。 (f)符號,符號,表示其兩側(cè)的檢索詞必須是在文獻記錄的同一字段。表示其兩側(cè)的檢索詞必須是在文獻記錄的同一字段。2022年4月27日星期三5時55分36秒17/ 404.3.2 信息檢索技術(shù)(信息檢索技術(shù)(2/3)3.3.截詞檢索技術(shù)(截詞檢索技術(shù)(tru

20、ncation search)概念:在檢索式中用專門的符號(截詞符號)表示檢索詞的某一部分,以檢在檢索式中用專門的符號(截詞符號)表示檢索詞的某一部分,以檢索一組概念相關(guān)或同一詞根的詞。索一組概念相關(guān)或同一詞根的詞。案例:截詞符一般用截詞符一般用“?”或或“* *”表示,不同系統(tǒng),不同數(shù)據(jù)庫,其代表表示,不同系統(tǒng),不同數(shù)據(jù)庫,其代表的含義有所不同。計算機在檢索中遇有截詞符時,將不予匹配對比,只要其的含義有所不同。計算機在檢索中遇有截詞符時,將不予匹配對比,只要其他部位字符匹配,即算命中。他部位字符匹配,即算命中。按截詞位置可分為按截詞位置可分為前截詞前截詞、后截詞后截詞、前后截詞前后截詞和和中

21、間截詞中間截詞。4.4.字段限定檢索技術(shù)(字段限定檢索技術(shù)(field-definited search)概念:限定檢索詞必須在數(shù)據(jù)庫記錄中規(guī)定的字段范圍(如限定檢索詞必須在數(shù)據(jù)庫記錄中規(guī)定的字段范圍(如TITI、SUSU、ABAB等)等)內(nèi)出現(xiàn)的文獻方為命中文獻的一種檢索方法。內(nèi)出現(xiàn)的文獻方為命中文獻的一種檢索方法。案例:rice in TIrice in TI,表示只在題名字段中查找相關(guān)文獻;,表示只在題名字段中查找相關(guān)文獻;rice in SUrice in SU,表示只在主題詞中查找相關(guān)文獻;表示只在主題詞中查找相關(guān)文獻;rice in ABrice in AB,表示只在文摘中查找相關(guān)

22、,表示只在文摘中查找相關(guān)文獻。文獻。2022年4月27日星期三5時55分36秒18/ 404.3.2 信息檢索技術(shù)(信息檢索技術(shù)(3/3)5.5.自然語言檢索技術(shù)(自然語言檢索技術(shù)(natural language search)概念:一種直接采用自然語言中的字、詞甚至整個句子作為一種直接采用自然語言中的字、詞甚至整個句子作為提問式進行檢索的方法。提問式進行檢索的方法。案例:用用“信息資源信息資源”來檢索蘊含來檢索蘊含“信息資源信息資源”詞的相關(guān)詞的相關(guān)文獻;文獻;用用“人工智能人工智能”檢索蘊含檢索蘊含“人工智能人工智能”詞的相關(guān)文詞的相關(guān)文獻。獻。2022年4月27日星期三5時55分36秒

23、19/ 404.3.3 信息檢索技術(shù)發(fā)展的新趨勢信息檢索技術(shù)發(fā)展的新趨勢(1/3)1.1.智能檢索智能檢索(1)智能檢索需求傳統(tǒng)檢索技術(shù)(傳統(tǒng)檢索技術(shù)(基于關(guān)鍵詞匹配)進行檢索,存在查不全、查不準(zhǔn)等問基于關(guān)鍵詞匹配)進行檢索,存在查不全、查不準(zhǔn)等問題,難以滿足人們檢索的要求。題,難以滿足人們檢索的要求。(2)智能檢索概念利用分詞詞典、同義詞典、同音詞典來改善檢索效果檢索。利用分詞詞典、同義詞典、同音詞典來改善檢索效果檢索。(3)智能檢索案例檢索檢索“計算機計算機”、“電腦電腦”相關(guān)的信息;檢索水果相關(guān)的信息;檢索水果“蘋果蘋果”、電、電腦腦“蘋果蘋果”相關(guān)信息。相關(guān)信息。2022年4月27日星

24、期三5時55分36秒20/ 404.3.3 信息檢索技術(shù)發(fā)展的新趨勢信息檢索技術(shù)發(fā)展的新趨勢(2/3)2.2.知識挖掘知識挖掘(1)概念通過文本挖掘技術(shù),更好地提取知識,以滿足高層次需要。通過文本挖掘技術(shù),更好地提取知識,以滿足高層次需要。(2)特征技術(shù)自動摘要技術(shù):自動摘要技術(shù):利用計算機自動地從原始文獻中提取文摘。該技術(shù)有助利用計算機自動地從原始文獻中提取文摘。該技術(shù)有助于用戶快速評價檢索結(jié)果。有助于多種形式(如于用戶快速評價檢索結(jié)果。有助于多種形式(如PDA、手機)內(nèi)容分發(fā)。、手機)內(nèi)容分發(fā)。相似性檢索技術(shù):相似性檢索技術(shù):基于文檔內(nèi)容特征檢索與其相似或相關(guān)的文獻,以實基于文檔內(nèi)容特征檢

25、索與其相似或相關(guān)的文獻,以實現(xiàn)用戶個性化需求,如現(xiàn)用戶個性化需求,如“查重查重”、“去重去重”等。等。自動分類技術(shù):自動分類技術(shù):基于統(tǒng)計或規(guī)則基于統(tǒng)計或規(guī)則機器學(xué)習(xí)形成預(yù)定義分類樹機器學(xué)習(xí)形成預(yù)定義分類樹再根據(jù)再根據(jù)文檔的內(nèi)容特征將其歸類。文檔的內(nèi)容特征將其歸類。自動聚類技術(shù):自動聚類技術(shù):根據(jù)文檔內(nèi)容的相關(guān)程度進行分組歸并根據(jù)文檔內(nèi)容的相關(guān)程度進行分組歸并。 2022年4月27日星期三5時55分36秒21/ 404.3.3 信息檢索技術(shù)發(fā)展的新趨勢信息檢索技術(shù)發(fā)展的新趨勢(3/3)3.異構(gòu)信息整合檢索異構(gòu)信息整合檢索異構(gòu)信息概念TEXT、HTML、XML、RTF、MS Office、PDF

26、、PS2/PS、MARC、ISO2709等信息;等信息;多多語種信息;語種信息;結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù);化數(shù)據(jù);關(guān)系數(shù)據(jù)庫檢索的無縫集成以及其他開放檢索接口的集成等。關(guān)系數(shù)據(jù)庫檢索的無縫集成以及其他開放檢索接口的集成等。整合檢索概念整合檢索:整合檢索:支持上述相關(guān)異構(gòu)信息的檢索。支持上述相關(guān)異構(gòu)信息的檢索。4.4.全息檢索全息檢索概念支持一切格式和方式的檢索。支持一切格式和方式的檢索。案例異構(gòu)信息整合檢索、基于自然語言的多媒體信息檢索等。異構(gòu)信息整合檢索、基于自然語言的多媒體信息檢索等。2022年4月27日星期三5時55分36秒22/ 404.3

27、.4 信息檢索綜合案例分析(信息檢索綜合案例分析(1/4)1.1.綜合案例名稱及需求綜合案例名稱及需求名稱:感技術(shù)在土地利用規(guī)劃中的應(yīng)用需求:遙感在土地利用規(guī)劃中主要是利用遙感設(shè)備提供的瞬間成像,掌握地表面一定區(qū)域景觀的真實、客觀的記錄和影像數(shù)據(jù),從而更好的指導(dǎo)和規(guī)劃土地資源的利用及發(fā)展。2.2.該案例的檢索步驟(該案例的檢索步驟(7 7個個)7個步驟:信息需求分析、選擇檢索工具、確定檢索途徑、確定檢索詞、擬定檢索表達式、實施檢索、索取原文。(1)信息需求分析學(xué)科范圍。學(xué)科范圍。主要屬于主要屬于“地球科學(xué)地球科學(xué)”??缍嗫茖W(xué):??缍嗫茖W(xué):a. “遙感遙感” P237、土地規(guī)劃學(xué)、土地規(guī)劃學(xué)F3

28、01.2、自動化技術(shù)、自動化技術(shù)/計算機技術(shù)號計算機技術(shù)號TP7。時間范圍。時間范圍。查找最近查找最近10年的文獻年的文獻文獻類型。文獻類型。圖書、學(xué)位論文、期刊、專利、報紙等文獻類型。圖書、學(xué)位論文、期刊、專利、報紙等文獻類型。語種。語種。先查中文,后查外文先查中文,后查外文2022年4月27日星期三5時55分36秒23/ 404.3.4 信息檢索綜合案例分析(信息檢索綜合案例分析(2/4)(2)選擇檢索工具中文數(shù)據(jù)庫。中文數(shù)據(jù)庫。維普維普中文科技期刊數(shù)據(jù)庫中文科技期刊數(shù)據(jù)庫、清華同方、清華同方CNKI的論文庫、國家科技的論文庫、國家科技圖書文獻中心、萬方公司數(shù)據(jù)庫等。圖書文獻中心、萬方公司

29、數(shù)據(jù)庫等。外文類數(shù)據(jù)庫。外文類數(shù)據(jù)庫。綜合數(shù)據(jù)庫綜合數(shù)據(jù)庫EBSCO的學(xué)術(shù)期刊庫的學(xué)術(shù)期刊庫ASP 、荷蘭、荷蘭ELSEVIER數(shù)據(jù)庫、數(shù)據(jù)庫、Engineering Index(美國(美國工程索引工程索引)、歐洲專利局、美國專利商標(biāo)局數(shù)據(jù)庫、)、歐洲專利局、美國專利商標(biāo)局數(shù)據(jù)庫、搜索引擎搜索引擎Baidu。首選的檢索工具。首選的檢索工具。維普中文期刊數(shù)據(jù)庫,是收錄全國維普中文期刊數(shù)據(jù)庫,是收錄全國1989年以來各類科技期刊最全、年以來各類科技期刊最全、更新速度最快的中文期刊全文數(shù)據(jù)庫。更新速度最快的中文期刊全文數(shù)據(jù)庫。 備選的檢索工具。備選的檢索工具。第一第一是同方或者萬方碩士博士論文數(shù)據(jù)庫

30、,檢索學(xué)位論文;是同方或者萬方碩士博士論文數(shù)據(jù)庫,檢索學(xué)位論文;第二第二類是綜合類類是綜合類EBSCO、ELSEVIER數(shù)據(jù)庫等。數(shù)據(jù)庫等。(3)確定檢索途徑主題(關(guān)鍵詞)主題(關(guān)鍵詞)途徑為主,結(jié)合途徑為主,結(jié)合分類途徑。分類途徑。(4)確定檢索詞首選的檢索詞(中英文)為:首選的檢索詞(中英文)為:土地利用(土地利用(land use)、遙感技術(shù))、遙感技術(shù)RS(Remote Sensing)、規(guī)劃()、規(guī)劃(planning)。)。備選的檢索詞(中英文)為:備選的檢索詞(中英文)為:土地(土地(land、ground、earth、soil)、利用()、利用(use、exploitage、u

31、tilization)、規(guī)劃()、規(guī)劃(plan、program、project)。)。2022年4月27日星期三5時55分36秒24/ 404.3.4 信息檢索綜合案例分析(信息檢索綜合案例分析(3/4)(5)擬定檢索表達式中文科技期刊數(shù)據(jù)庫的檢索式(中文科技期刊數(shù)據(jù)庫的檢索式(如左圖所示如左圖所示) k=遙感遙感*(土地利用(土地利用+土地規(guī)劃土地規(guī)劃+技術(shù))技術(shù))*c=(TP7+F301.2+P237)外文檢索表達式。外文檢索表達式。從西南大學(xué)圖書館的從西南大學(xué)圖書館的“外文數(shù)據(jù)庫外文數(shù)據(jù)庫”進入進入EBSCO數(shù)據(jù)庫,設(shè)數(shù)據(jù)庫,設(shè)置檢索表達式置檢索表達式如右圖所示如右圖所示。2022年4

32、月27日星期三5時55分36秒25/ 404.3.4 信息檢索綜合案例分析(信息檢索綜合案例分析(4/4)(5)擬定檢索表達式搜索引擎百度(搜索引擎百度(Baidu)的檢索表達式。)的檢索表達式。遙感(土地利用遙感(土地利用 OR規(guī)劃)規(guī)劃) OR (Land use planning Remote Sensing),),如下圖所示如下圖所示。(6)實施檢索期刊論文(部分):期刊論文(部分):網(wǎng)絡(luò)論文(部分):網(wǎng)絡(luò)論文(部分):(7)索取原文通過付費等方式獲取原文(通過付費等方式獲取原文(PDF)。)。2022年4月27日星期三5時55分36秒26/ 404.4.1 網(wǎng)絡(luò)信息檢索的特點網(wǎng)絡(luò)信息

33、檢索的特點1檢索主題廣泛,檢索空間拓寬檢索主題廣泛,檢索空間拓寬檢索對象覆蓋整個互聯(lián)網(wǎng),為訪問和獲取廣泛分布在世界各地的成千上萬臺服務(wù)器上的海量信息資源提供了可能。2.2.檢索內(nèi)容新穎實時檢索內(nèi)容新穎實時網(wǎng)絡(luò)信息跟進Internet的步伐,每時每刻都在出現(xiàn)新信息,更新新內(nèi)容,隨時獲取最新信息資訊。例如,百度每天處理的數(shù)據(jù)量將近100個PB,相當(dāng)于5000個國家圖書館的信息量的總和。3.3.信息資源的異構(gòu)式分布信息資源的異構(gòu)式分布網(wǎng)絡(luò)環(huán)境的突出特點之一就是分布式,具備超文本網(wǎng)狀鏈接結(jié)構(gòu),即 “異構(gòu)平臺、異構(gòu)數(shù)據(jù)源”。4. 檢索趨于簡單方便,適合非專業(yè)用戶檢索趨于簡單方便,適合非專業(yè)用戶以萬維網(wǎng)的

34、超文本、超媒體技術(shù)為用戶提供了超鏈接的瀏覽方式,用戶可以使用直接瀏覽的方式,輕松獲取自己所需的信息。自然語言在網(wǎng)絡(luò)檢索中廣泛使用,使用戶無需考慮繁瑣的檢索規(guī)則即可檢索。2022年4月27日星期三5時55分36秒27/ 404.4.2 網(wǎng)絡(luò)信息檢索工具網(wǎng)絡(luò)信息檢索工具1.1.非非Web資源檢索工具資源檢索工具FTP類檢索工具。FTPFTP不用主題來實現(xiàn)相應(yīng)的檢索,只能根據(jù)文件名和目錄名不用主題來實現(xiàn)相應(yīng)的檢索,只能根據(jù)文件名和目錄名進行檢索,如進行檢索,如ArchieArchie。Telnet類檢索工具。通過遠程登錄,即可訪問其對外開放的資源,如通過遠程登錄,即可訪問其對外開放的資源,如Hyte

35、lnet?;诓藛问綑z索工具。將用戶的請求自動轉(zhuǎn)換成將用戶的請求自動轉(zhuǎn)換成FTPFTP或者或者TelnetTelnet命令,在菜單命令,在菜單引導(dǎo)下完成信息資源的檢索,如引導(dǎo)下完成信息資源的檢索,如VeronicaVeronica。 2. Web資源檢索工具資源檢索工具關(guān)鍵詞檢索工具。搜索引擎進行檢索,如搜索引擎進行檢索,如BaiduBaidu、GoogleGoogle。目錄型檢索工具。按某種分類體系進行檢索,如按某種分類體系進行檢索,如YahooYahoo。混合型檢索工具。是一種將關(guān)鍵字檢索與目錄檢索整合在一起的檢索工具,是一種將關(guān)鍵字檢索與目錄檢索整合在一起的檢索工具,即可以直接輸入檢索詞

36、,又可以瀏覽目錄了解特定領(lǐng)域范圍的資源,以增強即可以直接輸入檢索詞,又可以瀏覽目錄了解特定領(lǐng)域范圍的資源,以增強檢索能力,如檢索能力,如BaiduBaidu、GoogleGoogle。 2022年4月27日星期三5時55分36秒28/ 404.4.3 網(wǎng)絡(luò)信息檢索的基本結(jié)構(gòu)和工作原理網(wǎng)絡(luò)信息檢索的基本結(jié)構(gòu)和工作原理1. 網(wǎng)絡(luò)信息檢索的基本結(jié)構(gòu)網(wǎng)絡(luò)信息檢索的基本結(jié)構(gòu)基本原理圖(見下圖),它主要由數(shù)據(jù)采集(從它主要由數(shù)據(jù)采集(從WWWWWW網(wǎng)絡(luò))、數(shù)據(jù)網(wǎng)絡(luò))、數(shù)據(jù)分析與標(biāo)引、數(shù)據(jù)檢索、信息挖掘等功能模塊組成。分析與標(biāo)引、數(shù)據(jù)檢索、信息挖掘等功能模塊組成。2.2.工作原理工作原理數(shù)據(jù)采集:在網(wǎng)絡(luò)環(huán)境

37、下收集在網(wǎng)絡(luò)環(huán)境下收集 網(wǎng)絡(luò)信息資源,建立臨時的網(wǎng)頁數(shù)據(jù)庫。網(wǎng)絡(luò)信息資源,建立臨時的網(wǎng)頁數(shù)據(jù)庫。數(shù)據(jù)分析和標(biāo)引:對信息資源進行頁面對信息資源進行頁面 分類、建立標(biāo)引,構(gòu)建索引數(shù)據(jù)庫。分類、建立標(biāo)引,構(gòu)建索引數(shù)據(jù)庫。搜索引擎:為用戶提供統(tǒng)一的網(wǎng)絡(luò)信息為用戶提供統(tǒng)一的網(wǎng)絡(luò)信息 檢索界面,用戶通過該界面提交檢索請求檢索界面,用戶通過該界面提交檢索請求. .搜索引擎:根據(jù)用戶提供的檢索請求,在索引中查詢相關(guān)語句,并進行必要的邏輯運根據(jù)用戶提供的檢索請求,在索引中查詢相關(guān)語句,并進行必要的邏輯運算操作,然后在索引數(shù)據(jù)庫中查找匹配的網(wǎng)頁。算操作,然后在索引數(shù)據(jù)庫中查找匹配的網(wǎng)頁。檢索結(jié)果:查詢完畢后,將最

38、終的檢索結(jié)果以超文本鏈接等形式顯示給用戶,用戶根查詢完畢后,將最終的檢索結(jié)果以超文本鏈接等形式顯示給用戶,用戶根據(jù)這些鏈接去訪問相關(guān)的信息資源。據(jù)這些鏈接去訪問相關(guān)的信息資源。2022年4月27日星期三5時55分36秒29/ 404.4.4 網(wǎng)絡(luò)信息檢索的發(fā)展趨勢(網(wǎng)絡(luò)信息檢索的發(fā)展趨勢(1/2)1.1.智能化智能化機器利用AI技術(shù),自動化實現(xiàn)用戶的檢索要求。用戶所需做的僅僅是告訴計算機想做什么,至于怎樣實現(xiàn)則無須人工干預(yù),智能化能將從繁瑣的檢索規(guī)則中解脫出來。2.2.可視化可視化利用圖形、圖像來實現(xiàn)用戶的檢索要求。圖像的表達方式生動、形象、準(zhǔn)確、效率更高,能從多角度揭示;而純文字的表達方式是

39、一維的、模糊的。3. 簡單化簡單化利用先進的搜索引擎技術(shù),使檢索更加“傻瓜化”。IT技術(shù)(如網(wǎng)上自動標(biāo)引、自動文摘、自動跟蹤、自動漫游、機器翻譯、多媒體技術(shù)、動態(tài)鏈技術(shù)、數(shù)據(jù)挖掘、信息推拉等)在搜索引擎領(lǐng)域的深入應(yīng)用,會越來越方便用戶及時準(zhǔn)確地檢索信息。2022年4月27日星期三5時55分36秒30/ 404.4.4 網(wǎng)絡(luò)信息檢索的發(fā)展趨勢(網(wǎng)絡(luò)信息檢索的發(fā)展趨勢(2/2)4.4.多樣化多樣化一是檢索形式多樣化如文本、聲音、圖像、動畫等。二是檢索工具多語種化。三是檢索服務(wù)多元化,如提供站點評論、天氣預(yù)報、新聞報道、股票點評、各種黃頁、航班和列車時刻表、地圖等檢索服務(wù)。5.5.個性個性化化體現(xiàn)在

40、內(nèi)容的特色化和服務(wù)的個性化。以用戶為中心,打造個性需求的檢索產(chǎn)品。6. 商業(yè)化商業(yè)化網(wǎng)絡(luò)檢索已成為新的投資熱點產(chǎn)業(yè),其商業(yè)利益成為推動產(chǎn)業(yè)發(fā)展的源動力。搜索引擎公司推出的付費添加服務(wù)是一個正在興起的、前景光明的因特網(wǎng)應(yīng)用領(lǐng)域,相對于目前低迷的在線廣告市場來說,它的發(fā)展?jié)摿κ欠浅>薮蟆?022年4月27日星期三5時55分36秒31/ 404.5.1 信息檢索效果的評價指標(biāo)(信息檢索效果的評價指標(biāo)(1/2)主要評價指標(biāo)(主要評價指標(biāo)(5 5個)個)1. 信息檢索查全率(recall ratio)式中,式中,a為相關(guān)文獻(命中);為相關(guān)文獻(命中);b為不相關(guān)的文獻(噪音)。為不相關(guān)的文獻(噪音)。

41、2. 信息檢索查準(zhǔn)率(pertinency ratio)3. 信息檢索漏檢率(omission ratio)式中,式中,c為相關(guān)文獻(遺漏);為相關(guān)文獻(遺漏);d為不相關(guān)文獻(正確地拒絕)。為不相關(guān)文獻(正確地拒絕)。2022年4月27日星期三5時55分36秒32/ 404.5.1 信息檢索效果的評價指標(biāo)(信息檢索效果的評價指標(biāo)(2/2)4. 信息檢索誤檢率(noise ratio)5. 信息檢索響應(yīng)時間及其他指標(biāo)(1)信息檢索響應(yīng)時間)信息檢索響應(yīng)時間 用戶請求到服務(wù)器的傳送時間。用戶請求到服務(wù)器的傳送時間。 服務(wù)器處理請求的時間。服務(wù)器處理請求的時間。 服務(wù)器的答復(fù)到用戶端的傳送時間。服

42、務(wù)器的答復(fù)到用戶端的傳送時間。 用戶端計算機處理服務(wù)器傳來答復(fù)的時間。用戶端計算機處理服務(wù)器傳來答復(fù)的時間。(2)其他指標(biāo))其他指標(biāo) 收錄范圍。即一個系統(tǒng)收錄的文獻是否齊全。收錄范圍。即一個系統(tǒng)收錄的文獻是否齊全。 工作量。即從系統(tǒng)獲得相關(guān)文獻消耗的精力和工作時間。工作量。即從系統(tǒng)獲得相關(guān)文獻消耗的精力和工作時間。 可用性。即按可靠性、年代與全面性的因素檢出文獻的價值可用性。即按可靠性、年代與全面性的因素檢出文獻的價值 外觀。即檢索結(jié)果的輸出形式。外觀。即檢索結(jié)果的輸出形式。2022年4月27日星期三5時55分36秒33/ 404.5.2 提高檢索效果的方法(提高檢索效果的方法(1/3)1.

43、提高檢索人員素質(zhì)提高檢索人員素質(zhì)(1)提高檢索人員的知識、技能、能力等素質(zhì)知識是指信息學(xué)、信息組織與檢索、信息獲取與數(shù)據(jù)挖掘、計算機應(yīng)用、外語等知知識是指信息學(xué)、信息組織與檢索、信息獲取與數(shù)據(jù)挖掘、計算機應(yīng)用、外語等知識;識;技能是指咨詢解答、信息整序、語言與文字表達等技能;技能是指咨詢解答、信息整序、語言與文字表達等技能;能力是指捕捉信息的能力、超前思維的能力、綜合分析的能力等。能力是指捕捉信息的能力、超前思維的能力、綜合分析的能力等。三者是相輔相成的,其中知識是基礎(chǔ),技能是關(guān)鍵。三者是相輔相成的,其中知識是基礎(chǔ),技能是關(guān)鍵。(2)提高檢索人員的思想素質(zhì)包含職業(yè)道德精神、檢索結(jié)果的辨別分析、

44、檢索觀點的公正等。包含職業(yè)道德精神、檢索結(jié)果的辨別分析、檢索觀點的公正等。2. 優(yōu)選檢索工具和數(shù)據(jù)庫優(yōu)選檢索工具和數(shù)據(jù)庫正確選擇檢索工具正確選擇檢索工具 (如收錄范圍、標(biāo)引語言、排檢方式等。(如收錄范圍、標(biāo)引語言、排檢方式等??茖W(xué)優(yōu)選數(shù)據(jù)庫??茖W(xué)優(yōu)選數(shù)據(jù)庫。2022年4月27日星期三5時55分36秒34/ 404.5.2 提高檢索效果的方法(提高檢索效果的方法(2/3)3. 優(yōu)化檢索策略與步驟優(yōu)化檢索策略與步驟通過優(yōu)化檢索過程與檢索步驟,提高查全和查準(zhǔn)比例,節(jié)省檢索時間與費用。通過優(yōu)化檢索過程與檢索步驟,提高查全和查準(zhǔn)比例,節(jié)省檢索時間與費用。一般是通過布爾邏輯運算符(一般是通過布爾邏輯運算符

45、(or,and,not)、位置運算符()、位置運算符(with,near)、邏輯)、邏輯優(yōu)先級等方法和策略進行優(yōu)化。優(yōu)先級等方法和策略進行優(yōu)化。4. 精選檢索詞精選檢索詞選擇檢索詞時必須從以下6個方面進行考慮:不使用常用詞不使用常用詞避免使用多義詞避免使用多義詞避免使用錯別字避免使用錯別字學(xué)會使用截詞(即通配符學(xué)會使用截詞(即通配符“*”或或“?”)使用大小寫字母使用大小寫字母盡量使用專指性強的詞或短語盡量使用專指性強的詞或短語2022年4月27日星期三5時55分36秒35/ 404.5.2 提高檢索效果的方法(提高檢索效果的方法(3/3)5. 巧構(gòu)檢索提問式巧構(gòu)檢索提問式運用運用邏輯運算符邏

46、輯運算符、位置運算符位置運算符、限定符限定符、通配符及相關(guān)的檢索技巧來巧構(gòu)檢索表達、通配符及相關(guān)的檢索技巧來巧構(gòu)檢索表達式,是提高檢索效果的有效途徑。式,是提高檢索效果的有效途徑。6. 熟悉檢索代碼與符號熟悉檢索代碼與符號利用相應(yīng)的分類表、詞表,選取與檢索工具相匹配的正確代碼與符號。利用相應(yīng)的分類表、詞表,選取與檢索工具相匹配的正確代碼與符號。7. 鑒別檢索結(jié)果鑒別檢索結(jié)果從以下5方面來鑒別檢索結(jié)果的質(zhì)量:信息來源與出版(信息來源與出版(parentage and provenance)權(quán)威性(權(quán)威性(authority)用戶(用戶(audience)網(wǎng)站內(nèi)容(網(wǎng)站內(nèi)容(content)時效性

47、(時效性(currency)2022年4月27日星期三5時55分36秒36/ 404.5.3工程技術(shù)學(xué)術(shù)資源檢索實例評價工程技術(shù)學(xué)術(shù)資源檢索實例評價(1/3)1.1.案例背景案例背景(1)工程技術(shù)包括的領(lǐng)域機械、儀器儀表、電工、航空、航天、自動化、計算機、電子、半導(dǎo)體、計量、郵機械、儀器儀表、電工、航空、航天、自動化、計算機、電子、半導(dǎo)體、計量、郵電、通信、建筑、交通運輸、原子能技術(shù)等。電、通信、建筑、交通運輸、原子能技術(shù)等。(2)檢索案例說明選擇選擇“建筑科學(xué)建筑科學(xué)”中的中的“橋梁建筑橋梁建筑”。2.檢索過程(4個步驟)(1)分析檢索內(nèi)容橋梁建筑涉及橋梁建筑涉及橋梁的結(jié)構(gòu)橋梁的結(jié)構(gòu)、橋梁的設(shè)計橋梁的設(shè)計、建橋用的材料建橋用的材料,以及,以及建筑師建筑師等。等。世界上有許多著名的橋梁,有以古老聞名于世的,有以宏偉著稱的,有以獨特的設(shè)世界上有許多著名的橋梁,有以古老聞名于世的,有以宏偉著稱的,有以獨特的設(shè)計風(fēng)格享譽全球的,等等。計風(fēng)格享譽全球的,等等。因此,查檢有關(guān)橋梁建筑主題的內(nèi)容,應(yīng)全面檢索國內(nèi)外的有關(guān)文獻信息。因此,查檢有關(guān)橋梁建筑主題的內(nèi)容

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論