版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、信息檢索原理與技術(shù)第1章 信息檢索概論(1) 一次文獻信息:是指作者以自己的研究成果為基礎(chǔ)創(chuàng)作或撰寫的、未經(jīng)過加工的原始文獻,如期刊論文、研究報告、學位論文等。(2) 二次文獻信息:是指對一次信息加工整理而成的文獻,如目錄、文摘、索引等各種書目信息,具有匯集性、工具性、綜合性、系統(tǒng)性的特點。(3) 三次文獻信息:是對一、二次信息綜合、分析等深加工的產(chǎn)物,如評論、進展報告、百科全書、期刊書目等。(4) 文獻:記錄有知識的一切載體,即知識信息必須通過文獻載體進行存儲和傳遞。(5) 構(gòu)成文獻的要素:構(gòu)成文獻內(nèi)核的知識信息、負載知識信息的物質(zhì)載體、記錄知識信息的符號和技術(shù)。(6) 文獻的特征:知識性(
2、文獻的本質(zhì),離開知識信息,文獻信息便不復存在);傳遞性(幫助人們克服時間與空間上的障礙,在時空中傳遞人類已有的知識,使人類的知識得以流傳和發(fā)展);動態(tài)性(其所蘊含的知識隨著人類社會和科技的發(fā)展在不斷地、有規(guī)律地運動著)(7) 信息、知識和文獻的聯(lián)系:信息作為物質(zhì)的一種普遍屬性,是生物以及具有自動控制系統(tǒng)的機器通過感覺器官和相應(yīng)的設(shè)備與外界進行交換的一切內(nèi)容,它是有形的、獨立于行動和決策、經(jīng)過處理改變形態(tài)、物質(zhì)產(chǎn)品、與環(huán)境無關(guān)、可以復制的;知識作為信息的一部分,是一種特定的人類信息,也是人類社會實踐經(jīng)驗的總結(jié),是人的主觀世界對于客觀世界的概括和如實反映,它是無形的、與行動和決策相關(guān)、經(jīng)過處理能改
3、變思維、精神產(chǎn)品、環(huán)境改變含義、經(jīng)過學習才能轉(zhuǎn)讓、無法復制的;文獻是知識的一部分,是進入人類社會交流系統(tǒng)的活動著的知識。(8) 文獻信息流有序化階段的三個環(huán)節(jié):替代。描述文獻特征,對一次文獻信息進行不同程度的提煉或壓縮,形成目錄、文摘、索引等二次文獻信息。從文獻信息流的運動角度看,“替代”是文獻信息流的流量、流向得到測度并合理調(diào)節(jié)。改組。從一次文獻信息中提取數(shù)據(jù)、事實和有關(guān)結(jié)論,按照易于查閱的提醒重新組合,其改組的結(jié)果,產(chǎn)生了手冊、名錄、辭典、目錄等類型的文獻信息。其目的是使一次文獻信息更容易被理解和使用。綜合。利用二次文獻對一次文獻所包含的知識加以綜合并融入到現(xiàn)有知識體系中去,成為整個知識體
4、系的有機組成部分,產(chǎn)生的主要成果是不斷再版的百科全書、專著、教科書及綜述、評論性文章。 文獻信息流失一個以研究活動為起點。按順時針的線性順序移動,是一次、二次、三次文獻信息的演變過程。對于“文獻信息鏈”的研究,有利于從整體的角度了解文獻信息的有序化、動態(tài)性特征,從而探索文獻信息的產(chǎn)生、演變規(guī)律及其結(jié)構(gòu)形態(tài)。(9) 信息檢索:廣義理解分為信息的存儲與檢索。信息的存儲主要包括在某一專業(yè)領(lǐng)域范圍內(nèi)的信息選擇的基礎(chǔ)上對信息的內(nèi)外特征進行描述、加工并使其有序化,形成信息集合。信息的檢索是指借助一定的設(shè)備與工具,采用一系列方法與策略從信息集合中查詢所需的信息。狹義的信息檢索僅指該過程的后一部分。存儲是檢索
5、的基礎(chǔ)、檢索是存儲的反過程。信息檢索的本質(zhì)是用戶的信息需求和一定的信息集合的匹配。(10) 信息檢索系統(tǒng):指為了滿足用戶的信息需求而建立的存儲,經(jīng)過加工了的信息集合,擁有一定的輸入、匹配、輸出的技術(shù)設(shè)備,提供一定的檢索服務(wù)功能的一種相對獨立的實體。(11) 信息檢索入口:又稱檢索點或檢索知識,是指用以標識信息的外部特征和內(nèi)容特征的屬性值的集合。檢索知識包括主題詞、分類號、著者、標題、機構(gòu)、代碼等。(12) 信息檢索的一般原理:P7(13) 檢索系統(tǒng)由物理構(gòu)成(硬件、軟件和數(shù)據(jù)庫)和邏輯構(gòu)成(文獻與數(shù)據(jù)的選擇與抽取子系統(tǒng)、詞表子系統(tǒng)、標引子系統(tǒng)、查詢子系統(tǒng)、用戶與系統(tǒng)交互子系統(tǒng)、匹配子系統(tǒng))(1
6、4) 檢索工具的構(gòu)成:編輯說明與凡例、分類表與主題表、正文、輔助索引、資料來源目錄與附錄。(15) 檢索系統(tǒng)的功能:報道功能、存儲功能、檢索功能。(16) 信息檢索理論:標引理論、檢索模型、檢索結(jié)果的可視化。(17) 現(xiàn)代信息檢索技術(shù)與方法:全文檢索、多媒體檢索、超文本及超媒體檢索、聯(lián)機檢索、網(wǎng)絡(luò)信息檢索、智能檢索、跨語言檢索、跨平臺檢索。第2章 信息檢索模型(1) 最初的信息檢索模型是以數(shù)學知識為基礎(chǔ)的原因:第一,數(shù)學是個有幾千年歷史的學科,被大家所熟知,并且通俗易懂。第二,人們的信息有很大的模糊性,甚至用文字不能表達,而文字具有很大程度的抽象性和概括性,這樣就很容易表達出人們信息檢索的需求
7、,能夠很方便快捷地組建信息檢索模型。(2) 信息檢索模型的類型:P18(3) 布爾檢索模型:采用布爾代數(shù)和集合論的方法,用布爾表達式表示用戶提問,通過對文獻標識與提問式的邏輯運算來檢索文獻。(4) 布爾邏輯運算符:邏輯與(AND)、邏輯或(OR)、邏輯非(NOT)(5) 布爾運算的運算次序:P24(6) 傳統(tǒng)布爾檢索模型的優(yōu)缺點: 優(yōu)點:1)邏輯運算符較少,便于用戶學習。2)模式較易構(gòu)造,可以通過簡單的關(guān)系來體現(xiàn)檢索項的聯(lián)系。 3)可以將復雜的檢索過程以簡單的檢索式表達出來。4)檢索提問式較靈活,方便修改。 缺點:1)布爾檢索中的關(guān)鍵詞沒有權(quán)重區(qū)別。2)檢索結(jié)果分輸出沒有重要性是排序。3)查全
8、率很難控制。 4)布爾檢索要求用戶具有很高的素質(zhì)和語義提取能力。(7) 向量空間模型:一種基于統(tǒng)計學方法的數(shù)學模型。(8) 向量空間模型的工作原理:P27(9) 向量空間模型的優(yōu)缺點優(yōu)點:1)采用自動標引技術(shù)與文獻提供標引詞。2) 采用部分匹配策略,使得在算法層面上的基于多值相關(guān)性的判斷處理得以實現(xiàn)。3) 改變了布爾檢索只有兩種情況0和1的簡單判斷,標引詞和文獻的相關(guān)程度可在0和1之間取值,使標引者和檢索者都可以比較靈活地定義標引詞與文獻的關(guān)系深度,改變了布爾檢索模型的僵化的缺點。4) 由于其相似的程度作為檢索的標準,可從量的角度判斷命中與否,從而使檢索結(jié)果更趨合理。5) 檢索結(jié)果可以按照與提
9、問的相關(guān)度排序輸出,便于用戶通過相關(guān)反饋技術(shù)修正提問,控制檢索量。6) 布爾模型的邏輯關(guān)系依然可以使用,保留了直觀性和方便些。7) 向量空間模型的靈活性使它有很好的可擴展性和可改進性,為以后的更加完善奠定了基礎(chǔ)。缺點:1)檢索過程轉(zhuǎn)化為向量的計算方法,不能反映出文獻之間的復雜關(guān)系。2) 由于對于任何一個提問度需要計算全部文獻庫中的每一篇文獻,因此,計算量大,算法復雜性較高。3) 由于標引加權(quán)和檢索加權(quán)是分離的,因此,隨意性較大,難以保證質(zhì)量。4) 有很多是假定的,在實際工作中有時會不能解決。(10) 擴展布爾檢索模型:P31(11) 擴展布爾檢索模型的工作原理:P32(12) 擴展布爾檢索模型
10、的優(yōu)缺點:優(yōu)點:擁有矢量處理的思想,體現(xiàn)了加權(quán)的特點;繼續(xù)保留布爾檢索的直觀的操作符,具有很強的描述能力;對于輸出結(jié)果可以很好的控制和排序;通過調(diào)整權(quán)重參數(shù)的取值,可以靈活選擇并得到不同的檢索結(jié)果;便于區(qū)分強制性短語和嚴格的同義解釋與試探性短語和較不嚴格的同義關(guān)系;與傳統(tǒng)倒排文檔一致,更易接受。缺點:擴展布爾模型由于是集成了兩種經(jīng)典模型的一種改進的“集成化模型”,所以它不可避免的存在著臃腫、不夠自然簡潔的缺點,而且不是很普及,目前在信息檢索領(lǐng)域使用較少。(13) 概率模型:一種基于概率論原理的用以解決相對不確定性的信息檢索的信息檢索模型。(14) 貝葉斯定理:P37(15) 概率模型的優(yōu)缺點:
11、優(yōu)點:文檔可以按照他們相關(guān)概率遞減的順序來計算秩,還可以通過反復反饋結(jié)果和用戶需求,使結(jié)果得到很好的調(diào)整,相對合理得多。缺點:索引詞權(quán)值計算方法沒有考慮到詞頻加權(quán)因素。沿用了索引詞之間相互獨立的基本假設(shè)。開始時需要猜想把文檔分為相關(guān)和不相關(guān)的兩個集合,過程比較煩瑣。(16) 概率模型在處理實際問題時的困難:初始檢索文件閥值比較大,由檢索式檢索的相關(guān)文件數(shù)量相對于精確估計的概率而言太小。(17) 古典邏輯模型的特點:1)邏輯模型不是一個經(jīng)典模型。2)邏輯檢索要借助外部信息進行評價。3)邏輯檢索對關(guān)鍵詞的語境更加重視。4)對信息的聯(lián)想法控制。5)邏輯檢索具有不確定性。6)對多詞一義的把握。7)適應(yīng)
12、信息的不完全性。(18) 邏輯模型的優(yōu)點:邏輯理論具有很強的推理能力,將檢索過程邏輯化可以使人們能從新的角度認識檢索,并在邏輯化的基礎(chǔ)之上建立演繹信息檢索系統(tǒng)。在演繹信息檢索系統(tǒng)中,用戶可以增減可用規(guī)則,可以擴充或者縮小知識庫,可以憎加或減少檢索目標項,從而實現(xiàn)擴檢和縮檢。同時,通過因入更多的謂詞、豐富系統(tǒng)的知識庫、允許查詢目標語句中包含更多的謂詞,演繹信息檢索系統(tǒng)也容易被擴展為用途更廣的專家系統(tǒng),使得信息檢索系統(tǒng)智能化程度更高,功能更強,換句話說,基于邏輯模型,我們可以建立智能化的、提供多種檢索入口的、便于擴展的信息檢索系統(tǒng)、(19) 邏輯模型的缺點:在邏輯模型中,信息的重要程度這一特征并不
13、能很成功地被表達出來?;趯嵸|(zhì)蘊涵的情報檢索古典邏輯模型自然也并不能完全表達出文獻d與信息需求q之間的真實聯(lián)系。它關(guān)注的僅是前后件之間在真假方面的邏輯關(guān)系,而并不關(guān)心前件和后件中所涉及的信息延展性問題。由于查詢是依靠推理來獲得相關(guān)性的文獻,因此推理過程越是不確定,獲得的相關(guān)性文獻就越少,而這樣的現(xiàn)象在傳統(tǒng)的邏輯檢索模型中屢有發(fā)生。(20) 限詞檢索模型:通過限制檢索范圍,達到優(yōu)化檢索結(jié)果的方法。(21) 字段檢索:把檢索詞限定在某個或某些字段中,如果記錄的相應(yīng)字段中含有輸入的檢索詞則為命中記錄,否則檢不中。第3章 自動索引和文檔組織1、索引:著錄書刊中的題名、語詞、主題、人名、地名、事件及其他
14、事物名稱,并把它們按照一定的方式編排起來,指明出處是一種檢索工具。2、索引的發(fā)展歷程:人工索引階段、機輔索引階段、自動索引階段3、索引的功能:檢索功能、分解功能、梳理功能、聚類功能、追蹤功能、導航功能、預(yù)測功能4、常見索引的類型:主題索引、著者索引、名稱索引、地名索引、題名索引、數(shù)字或代碼索引、分類索引5、索引的過程:為了方便查詢而對信息指定索引款目的過程。包括信息采集、信息標引、建立索引。6、索引建立的步驟:選題,建立主索引文件;對主索引關(guān)鍵詞進行抽詞倒排,建立目標格式文件;排序與歸并。7、信息標引分為受控標引和自然語言標引。受控標引指采用受控語言中的標識表達主題概念的標引方式,主要有分類標
15、引和主題標引;自然語言標引是指采用自然語言語詞作為標識來表達主題概念的標引方式。8、分類標引:依據(jù)一定的分類語言,對信息資源的內(nèi)容特征進行分析、判斷和選擇,賦予分類標識的過程。9、分類標引的要求:準確性、充分性、一致性、適用性。10、分類標引規(guī)則:基本標引規(guī)則、一般標引規(guī)則、特殊標引規(guī)則。11、主題標引:對信息內(nèi)容進行主題分析、確定主題概念,然后按照一定的詞匯控制方式,為標引對象賦予恰當?shù)恼Z詞標識的過程。12、標引方式:根據(jù)文獻或信息特點和使用需要確定的標引和揭示主題的形成。包括整體標引、全面標引、對口標引、綜合標引和分析標引等。13、標引方法:標題法、元詞法、敘詞法。14、標引規(guī)則:(1)選
16、用標引詞的基本規(guī)則:正式詞標引規(guī)則;相對專指標引規(guī)則;標引方案優(yōu)先順序規(guī)則;適度標引規(guī)則;一致標引規(guī)則(2)敘詞組配標引的基本規(guī)則:敘詞組配必須是概念組配;組配結(jié)果要求所表達的概念清楚;敘詞組配中要注意次序。15、自然語言標引:是一種采用自然語言作為標識表達主題概念的標引方式。16、漢語語詞的切分方法:詞典分詞法、切分標記的分詞法、基于語法語義理解的分詞方法、基于神經(jīng)網(wǎng)絡(luò)的分詞方法。17、自動標引:指利用計算機從各種文獻信息中自動提取有關(guān)標識的過程。18、層次聚類法:依據(jù)一種事先決定的相似性或非相似性度量和類間距離,經(jīng)過計算建立聚類圖,在根據(jù)聚類圖決定分類結(jié)果。19、文獻自動分類:指首先分析被
17、分類對象中的特征,將其與各種類別中對象所具有的共同特征或一定的分類標準、分類參數(shù)進行比較,然后將被分類對象劃歸為特征最相近的一類,并賦予相應(yīng)的分類好的過程。20、自動分類的基本流程:文本的預(yù)處理、文本特征的選取、分類模型的構(gòu)建等。21、決策樹:P8222、順排文檔(主文檔):按照某一屬性(字段)的字符順序存入了數(shù)據(jù)庫的全部記錄。23、順排文檔的檢索:將用戶檢索表達式與順排文檔中的文獻記錄依次比較,就可以判斷是否有匹配的文獻記錄。檢索可以使順序檢索,也可以使分塊檢索和折半檢索。24、順排文檔組織方法在建立索引的時候結(jié)構(gòu)比較簡單,建立比較方便且易于維護。但在查詢的時候需要對所有的文檔進行掃描以確保
18、沒有遺漏,這樣就使得檢索時間大大延長,檢索效率低下。25、倒排文檔:將主文檔中的可檢字段(如主題詞、著者)抽出,按某種順序重新排列起來所形成的一種索引文檔。26、倒排文檔的建立:索引詞選擇;對抽出的內(nèi)容進行排序,便于歸并相同內(nèi)容;對相同內(nèi)容進行歸并,把合并后的內(nèi)容放入倒排文檔的主鍵字段,統(tǒng)計每一數(shù)據(jù)的頻次作為目長,把每一內(nèi)容后的記錄號順序放于記錄號集合字段。27、倒排文檔的更新:P86第4章 詞匯控制1、詞匯控制:通過對詞形、詞義和詞間關(guān)系等的控制,達到信息源語言、標引語言和檢索語言三者之間的有效溝通,從而實現(xiàn)信息的有效組織以及用戶對信息的有效檢索和利用。2、詞匯控制的原則:正確性、單義性、簡
19、明性、兼容性、系統(tǒng)性、穩(wěn)定性、族性3、詞匯控制的內(nèi)容:(1) 詞量控制:對詞表所收詞匯的數(shù)量的控制。(2) 詞量控制的方法:詞匯組配、詞匯替代、語義分解法、詞匯合理選擇(3) 詞類控制:對詞表所收詞匯的種類的控制。(4) 詞類控制的方法:確定選詞范圍、設(shè)置停用詞表(5) 詞形控制:根據(jù)主題標引和檢索的需要對字面形式不同,但含義相同的詞匯加以控制使一個主題概念只具有一個語詞形式。(6) 詞形控制的方法:控制語詞形體、控制外來語和數(shù)字的用法、控制外文的詞形、控制詞序、控制語詞長度。(7) 詞義控制:對多義詞或同形異義詞加以控制,使其意義明確,含義單一。(8) 詞義控制的方法:加限義詞、加注釋、加定
20、義(9) 詞間關(guān)系控制:對語詞之間的等同關(guān)系、屬分關(guān)系和相關(guān)關(guān)系等加以控制,以形成一個便于揭示詞間關(guān)系的語義網(wǎng)絡(luò)。(10) 先組度控制:對語詞先組程度的控制。(11) 句法關(guān)系控制:按照事先確定的句法關(guān)系,把若干詞匯組合起來表示某一特定的論題,以避免產(chǎn)生語義含混的現(xiàn)象。(12) 句法控制的方法:P944、詞匯控制工具包括分類詞表、主題詞表、分類主題一體化詞表。(1) 分類詞表:杜威十進分類法、國際十進分類法、冒號分類法、中國圖書館分類法(2) 主題詞表:醫(yī)學標題表、漢語主題詞表(3) 分類主題一體化詞表:是指分類系統(tǒng)與主題系統(tǒng)實現(xiàn)完全兼容,既能充分發(fā)揮各自特有的功能,又能互相配合,發(fā)揮最佳的整
21、體效應(yīng)。5、詞表評價體系:P115/6、受控詞表的使用:P119第5章 自動文摘技術(shù)(1)文摘:用濃縮、簡明的短文,描述信息載體的主要內(nèi)容和原始數(shù)據(jù),向使用者報道、傳遞最新信息和信息查詢線索的一種工具。(2)自動文獻:利用計算機自動地從原始文獻中提取文摘。按照文本分析方法的不同,自動文摘分為基于統(tǒng)計分自動文摘、基于理解的自動文摘、基于結(jié)構(gòu)的自動文摘、基于模板的自動文摘。(3)自動文摘的處理過程:第一步是文本分析,這個階段是自動文獻的基礎(chǔ),主要是尋找最能代表原文內(nèi)容的成分;第二步是轉(zhuǎn)化過程,通過摘錄或概括的方法壓縮原文;第三步是重組原文內(nèi)容,生成文摘。(4)基于統(tǒng)計的自動文摘(摘錄型文摘):根據(jù)
22、統(tǒng)計學的方法將權(quán)重高的句子作為文摘句。不足:摘要內(nèi)容不完整;摘要內(nèi)容不簡潔;語句不連貫。(5)基于統(tǒng)計的自動文摘一般步驟:待摘文本信息錄入;詞頻信息統(tǒng)計;計算句子權(quán)重;選取候選句子;加工生成摘要。(6)基于理解的自動文摘:建立在人工智能、自然語言處理的基礎(chǔ)上的,它利用語言學知識對文字進行復雜的語法分析,語義分析和語用分析,獲取語言結(jié)構(gòu),還利用相關(guān)學科領(lǐng)域知識進行分析、推理和判斷,最后生成文摘。優(yōu)點:簡潔精煉、全面準確、可讀性強。不足:語料范圍限制;框架的擬定。P136(7)基于理解的自動文摘步驟:待摘文本信息錄入;文本分析(語法分析、語義分析、運用分析和信息提?。?;文摘初稿形成。(8)基于結(jié)構(gòu)
23、的自動文摘;:將文本信息視為句子的關(guān)聯(lián)網(wǎng)絡(luò),選擇與很多句子都有聯(lián)系的中心句子即可侯成摘要。(9)基于結(jié)構(gòu)的自動文摘不足:P140(10)自動文獻的評價P140(11)自動文獻技術(shù)的研究進展P147第6章 用戶接口(1)用戶接口,全稱是系統(tǒng)-用戶接口,又稱用戶界面、人機界面或人機接口,是指用戶使用計算機系統(tǒng)的綜合操作環(huán)境,它是由人、計算機硬件和軟件三者結(jié)合而成,承擔用戶與系統(tǒng)之間的交流功能,是兩者之間實現(xiàn)通信不可缺少的模塊。(2)用戶接口模塊流程:識別用戶;接收提問;提問校驗;轉(zhuǎn)化問題;檢索;輸出結(jié)果。(3)用戶接口的特征:支持多種類型的用戶;支持多種用戶認證方式;支持靈活的機構(gòu)管理;支持靈活的
24、用戶授權(quán)管理;支持靈活的用戶信息管理;支持對收費用戶的計費。(4)用戶接口的功能:自動登錄功能;訪問多個數(shù)據(jù)庫的功能;數(shù)據(jù)庫選擇功能;幫助功能;檢索式構(gòu)造功能;查詢功擴展;相關(guān)反饋功能;下載和上載功能;用戶視圖定義功能;后處理功能;自然語言處理功能。(5)用戶接口的組成:面向用戶部分(負責直接與用戶交互,也稱外部界面)、面向系統(tǒng)部分(負責與系統(tǒng)內(nèi)部各部分交互,也稱內(nèi)部界面)、轉(zhuǎn)換部分(負責內(nèi)部界面與外部界面之間的信息轉(zhuǎn)換)(6)用戶接口的主要形式:命令語言形式、菜單選擇方式、表格填充方式、直接操縱方式、自然語言的人機對話方式(7)用戶接口設(shè)計的原則:易用性、一致性、易學性、寬容性、有效性、美觀
25、性、針對性(8)用戶接口設(shè)計的內(nèi)容:用戶接口需求分析;用戶接口使用的便利性;用戶向系統(tǒng)提問的查詢方式;查詢中的交互性;用戶查詢接口的簡易型和檢索能力的矛盾;多媒體查詢接口的特殊性。第7章 信息檢索系統(tǒng)的評價(1) 信息檢索的相關(guān)性:檢索系統(tǒng)針對用戶的信息需求從文檔集合中檢出的文檔與用戶需求之間的一種匹配關(guān)系。(2) 相關(guān)性的本質(zhì)特征:關(guān)系;直覺的;多維的;動態(tài)的。(3) 相關(guān)性判斷:指信息檢索中判斷者在某一時刻對某種相關(guān)性的一種賦值操作。(4) 相關(guān)性判斷標準:二元的判斷標準、多元的判斷標準、多維的判斷標準。(5) 相關(guān)性的影響因素:信息源、信息需求的表示、時間與環(huán)境、用戶判斷者的特性。(6)
26、 信息需求的表示的四個層次:真正的信息需求、感覺到的信息需求、查詢請求、查詢表達。(7) 信息檢索系統(tǒng)評價的步驟:確定系統(tǒng)評價對象及目的;選擇系統(tǒng)評價方式;制定系統(tǒng)評價方案;實施系統(tǒng)評價方案;評價結(jié)果生成評價。(8) 檢索試驗評價法的實施過程:抽樣;測試;評價數(shù)據(jù)的收集和記錄;數(shù)據(jù)處理與分析。(9) 查全率:衡量系統(tǒng)在實現(xiàn)某一檢索作業(yè)時檢出相關(guān)文獻能力的一種測量指標。(10) 查準率:衡量系統(tǒng)在實施某一檢索作業(yè)時檢索精確度的一種測度指標。(11) 影響查全率與查準率的因素:相對值的的影響;檢索方式的影響;時限的影響;檢索過程中的影響因素。(12) 涵蓋率:用戶已知的相關(guān)文檔集合中被檢索出的相關(guān)
27、文檔所占比率。(13) 新穎率:用戶檢索出的相關(guān)文檔集合與以前未知的相關(guān)文檔所占比率。(14) 相對查全率:檢索系統(tǒng)檢出的相關(guān)文檔數(shù)量和用戶期望得到的相關(guān)文檔數(shù)量的比率。(15) 查全效果:用戶期望得到的相關(guān)文檔數(shù)量與為了得到這些相關(guān)文檔而在檢索結(jié)果中審查文檔數(shù)量的比率。(16) 搜索引擎的性能評價指標:P203(17) 信息檢索系統(tǒng)評價試驗:P206第8章 聯(lián)機信息檢索1、 聯(lián)機信息檢索:指用戶利用檢索終端,使用一些特定的指令和檢索語詞,提供通信網(wǎng)絡(luò)與存儲大量信息的檢索系統(tǒng)聯(lián)機,以人機對話方式從檢索系統(tǒng)的數(shù)據(jù)庫中查找所需的特定信息的過程。2、 聯(lián)機檢索與其他計算機信息系統(tǒng)相比的特點:信息質(zhì)量
28、好;檢索效率高;多、快、全的檢索功能;檢索功能強大;檢索結(jié)果輸出方式靈活多樣;檢索內(nèi)容新、實時性強。3、 聯(lián)機信息檢索系統(tǒng)的構(gòu)成:檢索終端、通信網(wǎng)絡(luò)、聯(lián)機信息檢索中心。P2264、 聯(lián)機信息檢索系統(tǒng)的服務(wù)范圍:回溯檢索;定題服務(wù);聯(lián)機訂購原始文獻;傳遞電子郵件。5、 DIALOG系統(tǒng)具有的顯著優(yōu)勢:信息量大;數(shù)據(jù)庫的質(zhì)量比較高;檢索迅速方便;具有較強的回溯檢索功能。6、 DIALOG檢索實例:P2427、 聯(lián)機信息檢索系統(tǒng)的新發(fā)展:聯(lián)入Internet、推出光盤產(chǎn)品、調(diào)整收費制度、利用網(wǎng)改進用戶界面。8、 未來的信息檢索系統(tǒng)應(yīng)具有的特征:系統(tǒng)模式客戶機/服務(wù)器化;完善的網(wǎng)絡(luò)通信平臺;智能化人機
29、接口;具有多媒體采集、存儲、加工、檢索、傳遞能力;具有較強的網(wǎng)絡(luò)互聯(lián)能力;提供多種信息服務(wù)功能。第9章 因特網(wǎng)信息檢索1、 因特網(wǎng)信息資源:以數(shù)字化形式記錄的,以多種媒體形式表達的,分布式存儲在因特網(wǎng)不同主機上的,并通話計算機網(wǎng)絡(luò)通信方式進行傳遞的信息資源的集合,是從計算機技術(shù)、通信技術(shù)、多媒體技術(shù)相互融合而形成的、在因特網(wǎng)上可查找、可利用的資源。2、 網(wǎng)絡(luò)信息資源的種類:(1) 按人類信息交流方式分為非正式出版信息、半正式出版信息和正式出版信息。(2) 按時效性分為網(wǎng)上出版物、動態(tài)信息、聯(lián)機館藏書目數(shù)據(jù)庫、國際聯(lián)機數(shù)據(jù)庫。(3) 按IDG Book Word Wide 1996年出版物的WW
30、W指南(4) 日本的戶田慎一把網(wǎng)絡(luò)信息資源分為7類。(5) 按因特網(wǎng)信息資源的組織應(yīng)用形式分為萬維網(wǎng)(WWW)信息資源、電子郵件信息資源、FTP信息資源、Telnet信息資源等3、 因特網(wǎng)信息系統(tǒng)的組織形式:P250優(yōu)勢和劣勢(1) 文件方式:網(wǎng)上數(shù)字化信息資源的一種主要存儲形式,以文件方式組織的網(wǎng)上數(shù)據(jù)化信息主要有文檔文件、圖像文件、音頻文件與視頻文件等四種類型。(2) 超媒體方式:超文本與多媒體技術(shù)的結(jié)合,它將文字、表格、聲音、圖像和視頻等多媒體信息以超文本方式組織起來,使人們可以通過高度鏈接的網(wǎng)絡(luò)結(jié)構(gòu)在各種信息庫自動航行,找到所需要的任何媒體的信息。(3) 數(shù)據(jù)庫方式:就是將因特網(wǎng)信息資
31、源以固定的記錄格式存儲,并提供一些檢索入口。用戶通過檢索入口,就可以找到所需要的信息線索,并利用超級鏈接功能直接鏈接到相關(guān)站點或一次信息本身。(4) 搜索引擎方式:因特網(wǎng)上對網(wǎng)上二次信息進行組織的主要形式,其實質(zhì)是一種報道、存儲網(wǎng)上一次信息的檢索工具,(5) 主題樹方式:將所選定學科領(lǐng)域的所有已獲得的信息資源按照某種事先確定的概念體系結(jié)構(gòu),分門別類地逐層加以組織,用戶通過瀏覽的方式逐層加以選擇,層層遍歷。直到找到所需要的信息線索,進而通過信息線索直接找到相應(yīng)的網(wǎng)絡(luò)信息資源。(6) 圖書館編目方式:圖書館人員搜索、識別和注釋那些對讀者有用的資源,再根據(jù)針對網(wǎng)上資源的選擇政策進行選擇,然后編目成基
32、于MABC格式的記錄,使之成為圖書館集成管理系統(tǒng)的一部分。(7) 數(shù)字圖書館方式:P253(8) 虛擬圖書館方式:P2544、 因特網(wǎng)信息資源的特點:信息存儲與傳遞的數(shù)字化和網(wǎng)絡(luò)化;數(shù)量巨大,增長迅速;內(nèi)容豐富,形式多樣;變化頻繁,價值不一;結(jié)構(gòu)復雜,分布廣泛。5、 因特網(wǎng)信息檢索工具的結(jié)構(gòu):自動索引程序;數(shù)據(jù)庫;檢索代理軟件。6、 網(wǎng)絡(luò)信息檢索工具的原理:P2577、 因特網(wǎng)信息檢索工具的類型:(1) 按網(wǎng)絡(luò)信息資源類型劃分:WWW檢索工具、非WWW檢索工具(2) 按檢索機制劃分:關(guān)鍵詞檢索工具、分類目錄檢索工具、混合型檢索工具(3) 按包含檢索工具數(shù)量劃分:單一型檢索工具;多元型檢索工具(
33、4) 按檢索內(nèi)容劃分:綜合型檢索工具、專題型檢索工具、特殊型信息檢索工具8、 因特網(wǎng)信息檢索工具的功能:(1) 基本檢索功能:布爾檢索、截詞檢索、鄰近檢索與短語檢索、字段檢索、區(qū)分大小寫檢索(2) 高級檢索功能:加權(quán)檢索、自然語言檢索、相關(guān)信息反饋檢索、模糊檢索、概念檢索、智能化檢索9、與檢索相關(guān)的功能:檢索提問的修改與限制;按相關(guān)度排列結(jié)果;檢索與瀏覽相結(jié)合;檢索結(jié)果的翻譯和多語種檢索。10、因特網(wǎng)信息檢索工具的局限性:搜索引擎對信息的標引深度不夠;搜索引擎的信息占有量不足;搜索引擎的查準率不高;搜索引擎自身的技術(shù)局限;檢索功能單一、缺乏靈活性;索引數(shù)據(jù)庫更新困難;大量擠占昂貴的網(wǎng)絡(luò)寬帶和C
34、PU資源;搜索引擎的分工協(xié)作有待加強。11、因特網(wǎng)信息資源檢索工具的發(fā)展方向:WWW檢索工具主流化;搜索引擎的集成化;服務(wù)區(qū)域的全球化;服務(wù)領(lǐng)域的兩極化;檢索語言的一體化;檢索功能的多樣化;檢索內(nèi)容的深入化;系統(tǒng)維護的動態(tài)化;檢索技術(shù)的智能化;用戶界面的友好化。第10章 數(shù)字圖書館的信息檢索1、 跨庫檢索:也稱聯(lián)邦檢索、數(shù)據(jù)庫檢索、集成檢索,是以多個分布式異構(gòu)數(shù)據(jù)源為對象的檢索系統(tǒng),這種系統(tǒng)向用戶提供統(tǒng)一的檢索接口,將用戶的檢索要求轉(zhuǎn)化為不同數(shù)據(jù)源的檢索表達式并發(fā)地檢索本地和廣域網(wǎng)上多個分布式異構(gòu)數(shù)據(jù)源,并對檢索結(jié)果進行整合,在經(jīng)過去重和排序等操作后,以統(tǒng)一結(jié)果呈現(xiàn)給用戶。2、 跨庫檢索的必要
35、性:數(shù)字資源數(shù)量的增加,增加了讀者選擇和熟悉數(shù)據(jù)庫的時間;數(shù)據(jù)庫內(nèi)容的交叉重復,增加了讀者信息鑒別和去重的時間;數(shù)據(jù)庫知識的關(guān)聯(lián)度較低,增加讀者知識銜接的負擔。3、 跨庫檢索的技術(shù)模式與基本原理:運用元搜集引擎的基本原理,即利用數(shù)據(jù)庫的Web客戶端進行統(tǒng)一檢索;通過數(shù)據(jù)庫接口軟件與不同的數(shù)據(jù)庫直接連接,即通過數(shù)據(jù)庫接口軟件直接訪問異構(gòu)數(shù)據(jù)庫;不同數(shù)據(jù)庫間的格式轉(zhuǎn)換,即將不同數(shù)據(jù)庫導入一個新的集成數(shù)據(jù)庫中并提供服務(wù);建立索引庫,即將多個數(shù)據(jù)庫的索引數(shù)據(jù)整合到一個索引庫中;利用SFX實現(xiàn)數(shù)據(jù)庫的無縫鏈接。4、 跨庫檢索的相關(guān)技術(shù):(1)公共網(wǎng)關(guān)接口技術(shù)CGI (2)開放式數(shù)據(jù)庫互聯(lián)網(wǎng)技術(shù)ODBC
36、(3)JAVA數(shù)據(jù)庫互聯(lián)技術(shù)JDBC(4)ASP技術(shù)和JSP技術(shù) (5)CORBA技術(shù) (6)XML中間件技術(shù)5、 跨庫檢索的基本過程:(1) 用戶構(gòu)造并提交檢索式;(2) 提問等待過程,即系統(tǒng)依據(jù)用戶的檢索式對各異構(gòu)數(shù)據(jù)庫進行查詢的過程;(3) 返回結(jié)果的加工策略,首先去除表面相關(guān)而本質(zhì)不相干或相關(guān)度不大的數(shù)據(jù),以提高檢索的精確度;其次去除重復信息;最后對返回的不同格式、結(jié)構(gòu)的數(shù)據(jù)進行處理,并按照統(tǒng)一的、符合用戶需求的方式呈現(xiàn)給用戶。6、 跨庫檢索策略應(yīng)注意的方面:分析檢索目的;選擇信息資源;確定檢索詞;構(gòu)造檢索表達式;檢索策略的轉(zhuǎn)換;個性化服務(wù)的功能。7、 跨庫檢索實例分析:P2818、
37、跨語言信息檢索技術(shù)(CLIR):指用戶以自己所掌握的某一種語言構(gòu)造檢索提問式,計算機根據(jù)用戶的檢索要求在其他不同語種的信息中進行自動搜索,得到的檢索結(jié)果甚至可以翻譯成用戶指定的語種。9、 源語言:在跨語言信息檢索中,用戶用以表達自己的信息需求、構(gòu)造檢索提問式的語言。目標語言:被檢索的信息資源所使用的語言。10、 跨語言信息檢索的類型:雙語言信息檢索、多語言信息檢索、特定領(lǐng)域的跨語言信息檢索、跨語言的多媒體信息檢索。11、 雙語言信息檢索:用戶用某種語言從另外一種語言表達的文獻集中檢索出所需文獻信息的方式。12、 多語言信息檢索:用戶用某種語言從另外多種語言表達的文獻信息集中檢索出所需文獻信息的
38、方式。13、 特定領(lǐng)域的跨語言信息檢索:檢索對象設(shè)定為某一學科或某一主題領(lǐng)域的跨語言信息檢索。14、 跨語言的多媒體信息檢索:如跨語言的語音信息檢索,其內(nèi)容不僅包括文獻信息檢索技術(shù)、跨語言翻譯技術(shù),還有語音識別技術(shù)等。15、 跨語言信息檢索在數(shù)字圖書館應(yīng)用的必要性:數(shù)字圖書館信息資源的多樣性;信息形式的多樣性;用戶的廣泛性;服務(wù)的便捷性。16、 跨語言信息檢索的主要方法:同源匹配、提問式翻譯、文獻翻譯、中間語言技術(shù)、不翻譯。17、 同源匹配:根據(jù)兩種語言的語詞拼寫形式或讀音相似度來判斷其中一種語言語詞的語義,不進行任何翻譯。18、 提問式翻譯:將用戶提交的查詢請求翻譯成系統(tǒng)支持的多種語言,然后
39、對不同語言的信息集進行查詢。19、 提問式翻譯的模式:基于詞典的模式;基于雙語語料庫模式;字典語料庫混合方法;提問式構(gòu)造方法;提問詞再賦權(quán)方法20、 跨語言信息檢索存在的主要問題:原始詢問的歧義性和目標詢問的多義性;提問中詞的切分;檢索結(jié)果的合并;專有名詞的解釋;語言的識別;檢索結(jié)果的充分顯示。21、 數(shù)字圖書館中的跨語言檢索系統(tǒng)模型包括6個模塊:用戶查詢服務(wù)模塊、資源調(diào)度模塊、跨語言檢索模塊、信息資源數(shù)據(jù)庫模塊、信息數(shù)據(jù)加工模塊、元數(shù)據(jù)庫模塊。22、 數(shù)字圖書館中的跨語言檢索系統(tǒng)模型的特點:(1) 元數(shù)據(jù)庫相對集中,提供數(shù)據(jù)標準協(xié)助各模塊完成相應(yīng)的功能。(2) 數(shù)據(jù)加工系統(tǒng)實現(xiàn)對原始圖書文獻
40、資料的采集、整理、數(shù)字化、標準化,最后將標準化多種語種數(shù)字存儲到信息資料數(shù)據(jù)庫中,形成有序的組織。(3) 信息資料數(shù)據(jù)庫中數(shù)據(jù)采用分布式存儲,可以根據(jù)信息語種的不同將整個多語種信息數(shù)據(jù)庫劃分為下一層各語種信息庫,各語種信息庫可以根據(jù)學科或研究領(lǐng)域進一步劃分形成更下一層信息庫。(4) 用戶查詢服務(wù)系統(tǒng)則根據(jù)用戶提交的檢索請求或服務(wù)請求,實現(xiàn)數(shù)字化信息資料的分布和利用。(5) 資源調(diào)度系統(tǒng)則實現(xiàn)網(wǎng)絡(luò)環(huán)境下用戶提問式和數(shù)據(jù)庫中信息資料數(shù)據(jù)的識別統(tǒng)一調(diào)度。(6) 跨語言信息檢索系統(tǒng)通過資源調(diào)度系統(tǒng)得到源自用戶查詢服務(wù)系統(tǒng)的提問檢索式,首先實現(xiàn)提問式源語種的辨析,并選擇合理的翻譯器將提問語種檢索式轉(zhuǎn)化成信息語種提問式,然后在資源調(diào)度系統(tǒng)的調(diào)度下根據(jù)信息搜索引擎從多種語種信息數(shù)據(jù)庫中得到符合要求的結(jié)果提交給用戶,最后根據(jù)用戶的反饋進一步提高翻譯的準確性和完整性,進而得到更有效、更能滿足用戶需求的結(jié)果數(shù)字化信息資料。23、 基于內(nèi)容的檢索技術(shù):利用媒體對象的語義、媒體的視覺特征進行檢索,它利用圖像
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鹽城師范學院《中學思想政治課程標準與教材分析》2022-2023學年第一學期期末試卷
- 2024專利代理合同范本書
- 2024定制家具銷售合同
- 2024晚會設(shè)備租賃合同
- 北京版四年級上冊數(shù)學第六單元 除法 測試卷(必刷)
- 2024三人合作合同范本
- 2024施工合同變更協(xié)議書模板
- TPU熱塑性彈性體與鋼絲復合工業(yè)皮帶生產(chǎn)項目環(huán)評報告表
- 五洞巖風電場2024年電氣作業(yè)專項考試練習卷含答案
- 2024年卡車客車項目合作計劃書
- 老年護理與人文關(guān)懷
- 政務(wù)號短視頻運營方案案例解析
- 《開學第一課:一年級新生入學班會》課件
- 高二期中考試家長會課件
- 凈化維保半年總結(jié)匯報
- 初中數(shù)學八年級上冊 軸對稱與軸對稱圖形 市賽一等獎
- 人工智能行業(yè)職業(yè)生涯發(fā)展規(guī)劃
- 關(guān)聯(lián)交易培訓課件
- 醫(yī)院放射診療中的輻射防護常識學習培訓
- 誡子書綜合測試題及答案
- 2024年基金應(yīng)知應(yīng)會考試試題及答案
評論
0/150
提交評論