信息檢索原理期末重點背誦知識點

上傳人：精*** IP屬地：廣東上傳時間：2020-04-13 格式：DOC 頁數(shù)：12 大?。?82KB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩7頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

精品文檔 1歡迎下載信息檢索 1 信息檢索概念 P1 2 信息檢索的原理一整節(jié)內(nèi)容要自己理解 P3 P4 圖 1 1 要掌握文獻替代和文獻整序的概念要掌握 3 信息檢索在歷史上的不同表現(xiàn) 聯(lián)機檢索光盤檢索網(wǎng)絡(luò)檢索的區(qū)別和特征 P6 P9 4 信息檢索的模型概念 P9 5 布爾模型向量空間模型經(jīng)典概率模型要理解并掌握各自的優(yōu)缺點 P11 P12 6 信息檢索系統(tǒng)的概念 P12 7 檢索效果的評價指標 P15 P16 4 個指標查全率查準率漏檢率誤檢率掌握它們的含義并懂得計算 8 網(wǎng)絡(luò)檢索的表達式布爾邏輯檢索鄰近檢索短語檢索截詞檢索的特點區(qū)別和聯(lián) 系 P17 P21 9 信息檢索的技巧要理解尤其是要掌握及時調(diào)整檢索策略 P33 P36 10 搜索引擎的概念 P37 11 數(shù)據(jù)庫知識實驗內(nèi)容特點 12 引文的概念 13 搜索引擎的分類 P40 41 搜索引擎劃分的類別以及元搜索引擎的概念要掌握 12 CBR 概念 P113 12 多媒體信息檢索的原理和方法 P110 P114 其中要重點理解基于內(nèi)容的多媒體信息檢索的檢索形式可以結(jié)合課件 13 專利的概念 P125 14 專利的類型 P126 理解一下各類型的區(qū)別 15 專利文獻的概念 P127 16 專利文獻的類型 P127 理解一下各類型的區(qū)別 17 灰色文獻的概念 P147 18 會議文獻的概念 P158 19 科技報告的概念 P163 20 查新的概念 P200 21 科技查新的作用 P201 每一個小標題后面要自己展開一段關(guān)于上課講的那幾個數(shù)據(jù)庫大家自己看一下 PPT 掌握一下以上純屬個人觀點題型名詞解釋 5 4 20 簡答題 4 10 40 論述題 2 20 40 考試時間 1 月 8 日上午 9 00 11 00 精品文檔 2歡迎下載 1 1 信息檢索的概念信息檢索的概念 P1 P1 信息檢索有廣義和狹義兩重含義廣義廣義上說信息檢索是指將信息按照一定的方式組織和存儲起來并根據(jù)信息用戶的需求查找相關(guān)信息的過程它包含信息存儲和信息查找兩個過程信息檢索是對信息項進行表示存儲組織和存取狹義狹義的講信息檢索僅僅指信息查找的過程即從信息集合中找出所需信息的過程相當于信息查詢或信息查找文獻替代著錄文獻替代著錄即將表示文獻資源特征的元數(shù)據(jù)替代它指代的資源文獻替代過程實際上是對原始文獻的外表特征包括題名著者出處等和內(nèi)容特征包括分類號主題詞摘要等進行描述的過程這項工作通常稱為著錄著錄的結(jié)果是將原始文獻制成它的替代文獻二次文獻文獻整序文獻整序指的是對替代文獻進行標引給出文獻標識如分類號主題詞等將所有替代文獻按其標識進行有規(guī)律的組織排列形成可檢索的信息資源集合信息檢索系統(tǒng) 信息檢索系統(tǒng) 信息存儲與信息查詢功能的一類信息服務(wù)設(shè)施或工具信息檢索的模型信息檢索的模型就是運用數(shù)學(xué)的語言和工具對信息檢索系統(tǒng)中的信息及其處理的過程加以翻譯和抽象表述為某種數(shù)學(xué)公式再經(jīng)過演繹推理解釋和實際校驗反過來指導(dǎo)信息檢索實踐搜索引擎搜索引擎是一種 Web 上應(yīng)用的軟件系統(tǒng) 它以一定的策略在 Web 上搜集和發(fā)現(xiàn)信息對信息處理組織后為用戶提供 Web 信息查詢服務(wù) 元搜索引擎元搜索引擎又稱多元搜索引擎或集成式搜索引擎是多個獨立搜索引擎的集合無獨立的數(shù)據(jù)庫通過一個統(tǒng)一的用戶界面可以同時對多個搜索引擎進行檢索操作即用戶只需一次輸入檢索式便可檢索一個或多個獨立搜索引擎嚴格來說元搜索引擎只能算是一種用戶代理而不是真正的搜索引擎 CBRCBR 基于內(nèi)容的多媒體信息檢索主要利用計算機自動收集量化和存儲信息內(nèi)容自身的特征如顏色紋理形狀表示成向量空間建立基于內(nèi)容特征的多媒體索引庫用戶在查詢過程中系統(tǒng)會自動將用戶提問轉(zhuǎn)化成向量并與已有信息的向量空間進行相似度匹配計算具有較強的客觀性專利專利即專利權(quán)的簡稱是由專利機構(gòu)依據(jù)發(fā)明申請所頒發(fā)的一種文件這種文件敘述發(fā) 明的內(nèi)容并且產(chǎn)生一種法律狀態(tài) 即該獲得專利的發(fā)明在一般情況下只有得到專利所有人的許可才能利用包括制造使用銷售和進口等專利的保護有時間和地域的限制我國專利法將專利分為三種即發(fā)明實用新型和外觀設(shè)計專利權(quán) 專利技術(shù) 專利說明書專利文獻專利文獻主要是指是實行專利制度的國家及國際專利組織在受理審批注冊專利過程中產(chǎn)生的官方文件及其出版物的總稱就廣義而論專利文獻是指實行專利制度的國家及國際性專利組織在審批專利過程中產(chǎn)生的官方事件及其出版物的總稱主要包括申請說明書專利說明書等各類有關(guān)文件以及專利公報檢索工具和專利分類表等出版物就狹義而言專利文獻通常單指專利說明書灰色文獻灰色文獻通常指不經(jīng)營利性出版商控制而由各級政府科研院所學(xué)術(shù)機構(gòu) 工商業(yè) 界等所發(fā)布的各類印刷版與電子版文獻資料會議文獻會議文獻就是在各種會議上宣讀和交流的論文報告產(chǎn)生的記錄及發(fā)言論述總結(jié) 等各種形式的文獻資料是國際學(xué)術(shù)交流的重要組成部分按其出版方式可分為會前文獻會中文獻和會后文獻新穎性專業(yè)針對性及時性連續(xù)性查全率查全率是指檢出文獻中合乎需要的文獻數(shù)量占數(shù)據(jù)庫存在的合乎該需要的所有文獻的比例用來表示信息系統(tǒng)能滿足用戶需求的完備程度精品文檔 3歡迎下載查準率查準率是指檢出文獻中合乎需要的文獻數(shù)量占檢出文獻全部數(shù)量的比例是衡量信息系統(tǒng)拒絕非相關(guān)信息的能力的量度科技報告科技報告是圍繞某個課題的科技活動所取得的階段性進展或最終性成果的記錄與書面報告是科研生產(chǎn)活動的第一手資料有時又被稱為研究報告它是科技人員交流其研究活動的重要手段是研究單位向為其提供經(jīng)費的部門反映研究情況的正式技術(shù)文件以積累傳播和交流為目的由科技人員按照有關(guān)規(guī)定和格式撰寫真實而完整地反映科研人員所從事科技活動的內(nèi)容和經(jīng)驗查新查新是科技查新的簡稱是指查新機構(gòu)根據(jù)查新委托人提供的需要查證其新穎性的科學(xué) 技術(shù)內(nèi)容按照本規(guī)范操作并作出結(jié)論一信息存儲與檢索原理一信息存儲與檢索原理 1 原理信息檢索的實質(zhì)就是將用戶的檢索提問標識與存儲在信息檢索系統(tǒng)中的信息特征標識進行比較匹配兩者一致或者信息特征標識包含了檢索提問標識則具有該標識的信息就從檢索系統(tǒng)中輸出輸出的信息就是檢索命中的信息通過對大量的分散無序的文獻信息進行搜集加工組織存儲建立各種各樣的檢索系統(tǒng) 并通過一定的方法和手段使存儲與檢索這兩個過程所采用的特征標識達到一致以便有效地獲得和利用信息源其中存儲是檢索的基礎(chǔ) 檢索是存儲的目的信息存儲與檢索的一般過程 2 文獻替代著錄即用表示文獻資源特征的元數(shù)據(jù)替代所指代的資源特征包括外表特征和內(nèi)容特征著錄的結(jié)果是將原始文獻制成二次文獻 3 文獻整序標引對文獻進行標引給出檢索標識如分類號主題詞等將所有替代文獻按照其標識進行有規(guī)律的組織排列形成可檢索的信息資源集合精品文檔 4歡迎下載文獻特征標識與檢索提問標識的匹配二聯(lián)機檢索光盤檢索網(wǎng)絡(luò)信息檢索的特征和區(qū)別二聯(lián)機檢索光盤檢索網(wǎng)絡(luò)信息檢索的特征和區(qū)別 1 聯(lián)機檢索 1965 1990 即信息用戶利用終端設(shè)備通過通信網(wǎng)絡(luò)或通信線路與檢索系統(tǒng)聯(lián)機進行人機對話從檢索中心的數(shù)據(jù)庫查找所需的文獻倍息的過程 1 構(gòu)成聯(lián)機檢索中心通訊設(shè)施檢索終端 2 聯(lián)機檢索的特點 3 優(yōu)點檢索效率高可在幾分鐘內(nèi)完成檢索檢索范圍廣泛全面提供的數(shù)據(jù)量從幾十到幾百個不等檢索內(nèi)容新實時性強可檢索到最新文獻檢索功能強檢索途徑多缺點檢索費用高機時 DU 記錄輸出打印費通信費檢索界面單一檢索技術(shù)和技巧不易掌握 2 光盤檢索 1 由于光盤具有存儲密度高輕便無機械磨損易攜帶耐用等待點從 20 世紀 80 年代中期生產(chǎn)后便很快被廣泛用作信息載體檢索工具 2 光盤按存儲信息的種類可分為激光唱盤激光視盤以及存儲文字數(shù)字等文件資料的數(shù)字光盤按讀寫數(shù)據(jù)的模式可分為只讀光盤寫一次光盤和可擦寫光盤 3 光盤檢索的類型 1 單機 Stand Along 光盤檢索系統(tǒng) 由微機光驅(qū) 光盤數(shù)據(jù)庫等硬件設(shè)備操作程序檢索程序等軟件組成提供單用戶單機的使用系統(tǒng)結(jié)構(gòu)簡單但數(shù)據(jù)量少利用率低 2 聯(lián)機光盤檢索系統(tǒng) 將光盤上網(wǎng) 一般只提供在局域網(wǎng)上的檢索用戶可以分時共享光盤數(shù)據(jù)庫的信息光驅(qū) 常采用光盤塔 Tower 和光盤庫 Jukebox 兩種形式 4 光盤檢索的特點價格低一次購買無限次使用無需聯(lián)機檢索費用存儲容量大而體積較小無需通訊聯(lián)系不受時間限制使用方便易于操作使用壽命長機房設(shè)備無特別要求投資少信息獲取速度和更新頻率較聯(lián)機檢索慢 3 網(wǎng)絡(luò)信息檢索 90 年代至今 1 早期的 Internet 信息服務(wù)模式常見服務(wù) FTP Telnet 郵件新聞組操作復(fù)雜表現(xiàn)形式單調(diào) 信息以文件形式存在 2 網(wǎng)絡(luò)信息檢索 90 年代至今網(wǎng)絡(luò)信息檢索一般指因特網(wǎng)檢索是通過網(wǎng)絡(luò)接口軟件用戶可以在一終端查詢各地上網(wǎng)的信息資源網(wǎng)絡(luò)信息檢索與聯(lián)機信息檢索最根本的不同在于網(wǎng)絡(luò)信息檢索是基于客戶機服務(wù)器的網(wǎng)絡(luò)支撐環(huán)境的客戶機和服務(wù)器是同等關(guān)系只要遵守共同協(xié)議一個服務(wù)器可以被多個用戶訪問一個客戶也可以訪問多個服務(wù)器特點精品文檔 5歡迎下載檢索范圍大覆蓋因特網(wǎng)上幾乎所有的網(wǎng)絡(luò)資源超文本檢索結(jié)合多媒體的全文信息檢索界面友好用戶操作相當方便良好的反饋能力和快速響應(yīng)能力與國際聯(lián)機檢索相比其最大的優(yōu)點在于經(jīng)濟與光盤檢索相比其最大的優(yōu)點在于內(nèi)容更新快網(wǎng)絡(luò)檢索與聯(lián)機檢索和光盤檢索有許多相同之處如需要數(shù)據(jù)庫要制定檢索策略等 1 聯(lián)機檢索的速度快效率高檢索的范圍廣泛全面檢索途徑多方便靈活檢索內(nèi)容新實時性強檢索輔助功能完善但是檢索的費用高對檢索系統(tǒng)及其文檔的收錄標引特點等問題較難了解熟悉檢索技巧和技術(shù)不易掌握 2 光盤檢索其存儲容量大而體積微小使用方便不需要通信聯(lián)系不受時間限制使用方便易于操作價格低使用壽命長用戶易接受機房無特別要求投資少要求設(shè)備簡單可隨地安裝但是光盤檢索的信息獲得比聯(lián)機檢索慢信息更新不及時三信息檢索系統(tǒng)的評價指標三信息檢索系統(tǒng)的評價指標 1 查全率檢全率召回率 Recall Ratio 檢全率檢出相關(guān)文獻量 100 系統(tǒng)中相關(guān)文獻總量 2 漏檢率 Omission factor 漏檢率漏檢相關(guān)文獻量 100 系統(tǒng)中相關(guān)文獻總量 3 查準率檢準率相關(guān)率 Precision Ratio 檢準率檢出相關(guān)文獻量 100 檢出文獻總量 4 誤檢率 Noise Factor 誤檢率誤檢文獻量 100 檢出文獻總量查全率與查準率示例查詢 Q 本應(yīng)該有 100 篇相關(guān)文檔某個系統(tǒng)返回 200 篇文檔其中 80 篇是真正相關(guān)的文檔查全率 80 100 0 8 查準率 80 200 0 4 結(jié)論查全率較高但是查準率較低四布爾模型向量空間模型經(jīng)典概率模型的優(yōu)缺點經(jīng)典信息檢索模型四布爾模型向量空間模型經(jīng)典概率模型的優(yōu)缺點經(jīng)典信息檢索模型 1 基于集合論的模型 Set Theoretic models 精品文檔 6歡迎下載布爾模型擴展布爾模型 2 基于代數(shù)論的模型 Algebraic models 向量空間模型 3 基于概率統(tǒng)計的模型 Probabilistic models 經(jīng)典概率模型 1 布爾模型最簡單的信息檢索模型是基于集合理論和布爾代數(shù)的一種的檢索模型被大多數(shù)檢索系統(tǒng)所采用查詢是由三種布爾邏輯運算符 AND OR NOT 連接索引詞組成的布爾表達式每個索引詞在一篇文檔中只有兩種狀態(tài) 出現(xiàn)或不出現(xiàn) 對應(yīng)權(quán)值為 0 或 1 將查詢表達式與文檔進行匹配單詞文檔矩陣布爾模型的優(yōu)點 1 簡單容易理解經(jīng)過某種訓(xùn)練的用戶可以容易地寫出布爾查詢式 2 通過使用復(fù)雜的布爾表達式可以很方便地控制查詢結(jié)果 3 檢索速度快到目前為止布爾模型是最常用的檢索模型布爾模型的缺點 1 不支持部分匹配而完全匹配會導(dǎo)致太多或者太少的結(jié)果文檔被返回 2 普通用戶構(gòu)造查詢不一定準確容易構(gòu)造錯誤 3 很難對輸出結(jié)果進行排序不考慮索引詞的權(quán)重所有文檔都以相同的方式和查詢相匹配可通過擴展來實現(xiàn)排序的功能即擴展布爾模型 2 擴展布爾模型為了克服布爾檢索模型查詢結(jié)果的無序性引入擴展的布爾檢索模型相似度計算公式若檢索項 Term1 OR Term2 則若 Term1 AND Term2 則 3 向量空間模型通過對檢出文獻按相似度降序排列的方式來實現(xiàn)文獻與查詢的部分匹配向量空間模型的優(yōu)缺點優(yōu)點 1 標引詞 Term 加權(quán)改進了檢索效果 2 支持部分匹配和近似匹配其部分匹配策略運行檢出與查詢條件接近的文獻 3 結(jié)果可以排序 4 可用到相關(guān)領(lǐng)域文本分類相似匹配缺點 1 標引詞獨立的假定損失掉大量的文本結(jié)構(gòu)信息 2 相似度的計算量較大 4 經(jīng)典概率模型核心思想若以往查詢中如果某個文檔和某個詞相關(guān)度大則在以后的查詢中用這個詞查詢時出現(xiàn)該文檔的概率高給定一個用戶提問則檢索系統(tǒng)中存在一個包含所有相關(guān)文檔的集合理想結(jié)果集 R 在此基礎(chǔ)上用戶可以對初始的檢索結(jié)果集合中文檔相關(guān)與否進行判斷在根據(jù)這些反饋信息系統(tǒng)便可以在后續(xù)的檢索處理中不斷做出優(yōu)化和改進精品文檔 7歡迎下載經(jīng)典概率模型的優(yōu)缺點優(yōu)點 1 建立在數(shù)學(xué)模型基礎(chǔ)上理論性較強 2 文檔可以按照他們相關(guān)概率遞減的順序來排序缺點 1 需要最初把文獻分為相關(guān)集合和不相關(guān)集合 2 沒有考慮標引詞在文獻中出現(xiàn)的頻率問題 3 獨立性假設(shè)與現(xiàn)實情況不完全相符 4 計算復(fù)雜度相對較大五布爾邏輯檢索鄰近檢索概述短語檢索概述截詞檢索概述的區(qū)別聯(lián)系五布爾邏輯檢索鄰近檢索概述短語檢索概述截詞檢索概述的區(qū)別聯(lián)系 1 1 布爾邏輯檢索概述布爾邏輯檢索概述 1 將多個檢索詞用布爾運算符組合在一起進行檢索 2 邏輯運算符邏輯與 AND 邏輯或 OR 邏輯非 NOT AND NOT 并非所有數(shù)據(jù)庫都遵循以上算符絕大部分計算機信息檢索系統(tǒng)都支持布爾邏輯檢索 3 3 關(guān)于關(guān)于優(yōu)先級優(yōu)先級問題問題 1 當布爾運算符在一個檢索式中連續(xù)出現(xiàn)時它們的優(yōu)先級通常是不同的 2 大部分數(shù)據(jù)庫規(guī)定優(yōu)先級最高次之最低 2 2 鄰近檢索概述鄰近檢索概述又稱位置限制檢索是用位置運算符來表達檢索詞與檢索詞之間順序和詞間距的檢索支持鄰近檢索的系統(tǒng)包括 ProQuest Dialog ScienceDirect Westlaw 等 ProQuest 的常用位置算符包括 Near Pre 等 1 位置運算符 Near n 查找包含 A 詞和 B 詞且兩詞距離很近的文檔使用數(shù)值 n 來指定兩詞之間相隔的詞數(shù) 2 位置運算符 Pre n 查找包含 A 詞和 B 詞且 A 詞在 B 詞之前出現(xiàn)的文檔使用數(shù)值 n 來指定兩詞之間相隔的詞數(shù) 3 3 短語檢索概述短語檢索概述使用將多個關(guān)鍵詞作為整體檢索又稱精確檢索多用于人名機構(gòu)名地名書名電影名檢索 4 4 截詞檢索概述截詞檢索概述截詞檢索即在檢索詞中保留相同的部分把變化部分用通配符代替 1 一般情況下使用或代表 0 至 1 個字符有限截詞使用或代表 0 至多個字符無限截詞 Google 部分支持檢索 Baidu 不支持通配符檢索詞形變換年代區(qū)間作者同根詞 2 完全匹配任意匹配與前方一致 1 完全匹配要求輸入的檢索詞與數(shù)據(jù)庫中的文獻標識完全相同前后無其他字符才能命中 2 任意匹配前后可包含其他字符相當于輸入檢索詞 3 前方一致精品文檔 8歡迎下載屬于截詞檢索的一種相當于輸入檢索詞 5 5 字段限制檢索字段限制檢索組成數(shù)據(jù)庫的最小單位是記錄一條完整的記錄中的每個著錄項為字段在信息檢索過程中為了提高查全率或查準率需要將檢索范圍限制在特定的字段中即字段限制檢索基本索引字段輔助索引字段 6 6 其他檢索表達式其他檢索表達式 1 括號檢索用于改變運算的先后順序括號內(nèi)的運算優(yōu)先進行思考 2 自然語言檢索直接采用自然語言中的字詞句進行提問式搜索同一般口語一樣特別適合不熟悉網(wǎng)絡(luò)信息檢索技術(shù)的用戶使用 3 多語種檢索提供多種語言的檢索環(huán)境供用戶選擇系統(tǒng)按照用戶選定的語種進行檢索并反饋結(jié)果 4 模糊檢索又稱概念檢索是指使用某一檢索詞進行檢索時能同時對該詞的同義詞近義詞上位詞下位詞進行檢索以達到擴大檢索范圍避免漏檢的目的 5 區(qū)分大小寫檢索對于支持區(qū)分大小寫檢索的工具而言若用戶輸入小寫檢索式搜索工具既匹配大寫又匹配小寫若用戶輸入大寫則只匹配大寫形式結(jié)果大部分搜索引擎對大小寫不敏感六信息檢索的策略與技巧六信息檢索的策略與技巧 1 信息檢索策略信息檢索策略 Retrieval Strategy 是為實現(xiàn)檢索目標而制定的全盤計劃或方案是就一個問題檢索一個或多個數(shù)據(jù)庫所輸入的全部檢索式的集合 2 檢索關(guān)鍵詞的選擇對檢索的概念進行關(guān)鍵詞的切分關(guān)鍵詞的剔除對固定短語盡量使用引號進行精確檢索關(guān)鍵詞應(yīng)盡量簡練可根據(jù)網(wǎng)頁特征選擇查詢詞立足常用詞規(guī)范詞兼顧自由詞旁類以求善用詞的全稱簡稱及縮寫勿忘上下位類詞擴展注意外來詞的譯寫變化 3 擴檢指初始設(shè)定的檢索范圍太小命中文獻不多需擴大檢索范圍的方法擴大檢索范圍提高查全率的技術(shù)方法 1 考慮同義詞或近義詞使用 OR 連接 2 選擇較大檢索范圍的字段如摘要 3 使用截詞符 4 使用上位詞如飛行器航天飛機載人航天飛機 4 縮檢指開始的檢索范圍太大命中文獻太多或查準率太低的一個方法縮小檢索范圍提高查準率的技術(shù)方法 1 使用 AND NOT 等運算符限制檢索范圍 2 使用短語檢索 3 使用位置算符 4 選擇檢索范圍較小的字段 5 使用下位詞 5 充分利用組合檢索除使用布爾檢索表達式外應(yīng)盡可能配合鄰近檢索字段限制檢索等檢索方法有些查新課題的查新點內(nèi)涵很深難以用有限的詞匯準確全面地描述僅用關(guān)鍵詞檢索極易造成漏檢可采用分類主題組合檢索精品文檔 9歡迎下載七搜索引擎的分類七搜索引擎的分類 1 1 按信息內(nèi)容組織方式劃分按信息內(nèi)容組織方式劃分 1 機器人搜索引擎狹義的 Search Engine 不依靠人工發(fā)現(xiàn)和甄別信息由蜘蛛 Spider 以某種策略自動在互聯(lián)網(wǎng)中搜集信息由索引器建立索引由檢索器根據(jù)用戶查詢檢索信息并返回給用戶其優(yōu)點是信息量大更新速度快缺點是返回的信息過多冗余信息較多用戶必須從結(jié)果中進行篩選 2 目錄式搜索引擎以人工或半自動方式搜集信息由編輯人員對資源進行選擇評價編制摘要分類后形成的主題目錄具有信息準確信息質(zhì)量較高等優(yōu)點同時存在收錄網(wǎng)站資源規(guī) 模有限維護量大信息更新不及時等不足代表產(chǎn)品早期 Yahoo 早期 Sohu 網(wǎng)址導(dǎo)航 2 2 按專業(yè)范疇劃分按專業(yè)范疇劃分 1 綜合性搜索引擎內(nèi)容涵蓋各個學(xué)科和生產(chǎn)生活的各個領(lǐng)域可檢索圖片音頻視頻等多種資源類型適用對象廣泛代表產(chǎn)品 Google Yahoo 百度搜狗 2 專業(yè)性搜索引擎垂直搜索引擎收錄某一個或幾個學(xué)科資源的搜索引擎具有專門搜索功能的搜索引擎面向特定的用戶的搜索引擎面向特定學(xué)科行業(yè) 對象或用戶特點專精深 3 3 按檢索功能劃分按檢索功能劃分 1 獨立搜索引擎又稱單一搜索引擎或常規(guī)搜索引擎有自己的數(shù)據(jù)庫搜索時通常只檢索自己的數(shù)據(jù) 庫 2 元搜索引擎 Meta Search Engine 又稱多元搜索引擎或集成式搜索引擎是多個獨立搜索引擎的集合通過統(tǒng)一用戶界面同時檢索多個引擎即用戶只需一次輸入檢索式便可檢索一個或多個獨立搜索引擎無獨立數(shù)據(jù)庫嚴格來說 Meta 搜索引擎只能算是一種用戶代理而不是真正的搜索引擎八多媒體信息檢索八多媒體信息檢索 1 多媒體信息檢索方式 1 基于文本的多媒體信息檢索 2 基于內(nèi)容的多媒體信息檢索 2 基于內(nèi)容的多媒體信息檢索 1 基于內(nèi)容的信息檢索 Content Based Retrieval CBR 利用計算機自動收集量化和存儲信息內(nèi)容特征表示成向量空間建立基于內(nèi)容特征的多媒體索引庫用戶在查詢時將用戶提問轉(zhuǎn)化成向量并與已有信息的向量空間進行相似度匹配計算具有較強的客觀性 2 劣勢特征空間的維度高用戶與系統(tǒng)抽取的信息之間存在語言鴻溝對同一數(shù) 據(jù)的解釋缺乏一致性 3 普及程度局限在較小的數(shù)據(jù)集合實驗室層面有以下幾種 1 基于內(nèi)容的圖像檢索顏色分布法精品文檔 10歡迎下載 1 QBIC Query By Image Content 基于內(nèi)容圖像檢索領(lǐng)域應(yīng)用最早的商用產(chǎn)品由 IBM Almaden 研究中心于 1995 年開發(fā) 為 IBMDB2 數(shù)據(jù)庫提供圖像檢索并支持基于 Web 的圖像檢索服務(wù) 系統(tǒng)結(jié)構(gòu)及所用技術(shù)對后來的視頻檢索有深遠的影響 2 TinEye TinEye 是由加拿大 Id e 公司所開發(fā)的圖像搜索系統(tǒng) 于 2008 年發(fā)布提供用戶依據(jù) URL 或上傳的圖像文件搜索網(wǎng)絡(luò)上近似的圖像與位置主要用途 1 發(fā)現(xiàn)圖片的來源與相關(guān)信

人人文庫> 全部分類> 應(yīng)用文書 > 事務(wù)文書

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

信息檢索原理期末重點背誦知識點

文檔簡介

溫馨提示

最新文檔

評論