信息檢索原理期末重點背誦知識點_第1頁
信息檢索原理期末重點背誦知識點_第2頁
信息檢索原理期末重點背誦知識點_第3頁
信息檢索原理期末重點背誦知識點_第4頁
信息檢索原理期末重點背誦知識點_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

精品文檔 1歡迎下載 信息檢索 1 信息檢索概念 P1 2 信息檢索的原理一整節(jié)內(nèi)容要自己理解 P3 P4 圖 1 1 要掌握 文獻替代和文獻整序的概念要掌握 3 信息檢索在歷史上的不同表現(xiàn) 聯(lián)機檢索 光盤檢索 網(wǎng)絡(luò)檢索的區(qū)別和特征 P6 P9 4 信息檢索的模型概念 P9 5 布爾模型 向量空間模型 經(jīng)典概率模型要理解并掌握各自的優(yōu)缺點 P11 P12 6 信息檢索系統(tǒng)的概念 P12 7 檢索效果的評價指標 P15 P16 4 個指標 查全率 查準率 漏檢率 誤檢率 掌握它們的含義并懂得計算 8 網(wǎng)絡(luò)檢索的表達式 布爾邏輯檢索 鄰近檢索 短語檢索 截詞檢索的特點 區(qū)別和聯(lián) 系 P17 P21 9 信息檢索的技巧要理解尤其是要掌握及時調(diào)整檢索策略 P33 P36 10 搜索引擎的概念 P37 11 數(shù)據(jù)庫知識 實驗內(nèi)容 特點 12 引文的概念 13 搜索引擎的分類 P40 41 搜索引擎劃分的類別以及元搜索引擎的概念要掌握 12 CBR 概念 P113 12 多媒體信息檢索的原理和方法 P110 P114 其中要重點理解基于內(nèi)容的多媒體信息檢索的檢索形式 可以結(jié)合課件 13 專利的概念 P125 14 專利的類型 P126 理解一下各類型的區(qū)別 15 專利文獻的概念 P127 16 專利文獻的類型 P127 理解一下各類型的區(qū)別 17 灰色文獻的概念 P147 18 會議文獻的概念 P158 19 科技報告的概念 P163 20 查新的概念 P200 21 科技查新的作用 P201 每一個小標題后面要自己展開一段 關(guān)于上課講的那幾個數(shù)據(jù)庫大家自己看一下 PPT 掌握一下 以上純屬個人觀點 題型 名詞解釋 5 4 20 簡答題 4 10 40 論述題 2 20 40 考試時間 1 月 8 日 上午 9 00 11 00 精品文檔 2歡迎下載 1 1 信息檢索的概念信息檢索的概念 P1 P1 信息檢索有廣義和狹義兩重含義 廣義廣義上說 信息檢索是指將信息按照一定的方式組織和 存儲起來 并根據(jù)信息用戶的需求查找相關(guān)信息的過程 它包含信息存儲和信息查找兩個 過程 信息檢索是對信息項進行表示 存儲 組織和存取 狹義狹義的講 信息檢索僅僅指信 息查找的過程 即從信息集合中找出所需信息的過程 相當于 信息查詢 或 信息查找 文獻替代 著錄 文獻替代 著錄 即將表示文獻資源特征的元數(shù)據(jù)替代它指代的資源 文獻替代過程實 際上是對原始文獻的外表特征 包括題名 著者 出處等 和內(nèi)容特征 包括分類號 主 題詞 摘要等 進行描述的過程 這項工作通常稱為著錄 著錄的結(jié)果是將原始文獻制成 它的替代文獻 二次文獻 文獻整序 文獻整序 指的是對替代文獻進行標引 給出文獻標識 如分類號 主題詞等 將所有替 代文獻按其標識進行有規(guī)律的組織排列 形成可檢索的信息資源集合 信息檢索系統(tǒng) 信息檢索系統(tǒng) 信息存儲與信息查詢功能的一類信息服務(wù)設(shè)施 或工具 信息檢索的模型 信息檢索的模型 就是運用數(shù)學(xué)的語言和工具 對信息檢索系統(tǒng)中的信息及其處理的過程 加以翻譯和抽象 表述為某種數(shù)學(xué)公式 再經(jīng)過演繹 推理 解釋和實際校驗 反過來指 導(dǎo)信息檢索實踐 搜索引擎 搜索引擎 是一種 Web 上應(yīng)用的軟件系統(tǒng) 它以一定的策略在 Web 上搜集和發(fā)現(xiàn)信息 對 信息處理組織后 為用戶提供 Web 信息查詢服務(wù) 元搜索引擎 元搜索引擎 又稱多元搜索引擎或集成式搜索引擎 是多個獨立搜索引擎的集合 無獨立 的數(shù)據(jù)庫 通過一個統(tǒng)一的用戶界面 可以同時對多個搜索引擎進行檢索操作 即用戶只 需一次輸入檢索式 便可檢索一個或多個獨立搜索引擎 嚴格來說 元搜索引擎只能算是 一種用戶代理 而不是真正的搜索引擎 CBRCBR 基于內(nèi)容的多媒體信息檢索 主要利用計算機自動收集 量化和存儲信息內(nèi)容自身的 特征 如顏色 紋理 形狀 表示成向量空間 建立基于內(nèi)容特征的多媒體索引庫 用戶 在查詢過程中 系統(tǒng)會自動將用戶提問轉(zhuǎn)化成向量 并與已有信息的向量空間進行相似度 匹配計算 具有較強的客觀性 專利 專利 即專利權(quán)的簡稱 是由專利機構(gòu)依據(jù)發(fā)明申請所頒發(fā)的一種文件 這種文件敘述發(fā) 明的內(nèi)容 并且產(chǎn)生一種法律狀態(tài) 即該獲得專利的發(fā)明在一般情況下只有得到專利所有 人的許可才能利用 包括制造 使用 銷售和進口等 專利的保護有時間和地域的限制 我國專利法將專利分為三種 即發(fā)明 實用新型和外觀設(shè)計 專利權(quán) 專利技術(shù) 專利說 明書 專利文獻 專利文獻 主要是指是實行專利制度的國家及國際專利組織在受理 審批 注冊專利過程 中產(chǎn)生的官方文件及其出版物的總稱 就廣義而論 專利文獻是指實行專利制度的國家及 國際性專利組織 在審批專利過程中產(chǎn)生的官方事件及其出版物的總稱 主要包括申請說 明書 專利說明書等各類有關(guān)文件 以及專利公報 檢索工具和專利分類表等出版物 就 狹義而言 專利文獻通常單指專利說明書 灰色文獻 灰色文獻 通常指不經(jīng)營利性出版商控制 而由各級政府 科研院所 學(xué)術(shù)機構(gòu) 工商業(yè) 界等所發(fā)布的各類印刷版與電子版文獻資料 會議文獻 會議文獻 就是在各種會議上宣讀和交流的論文 報告 產(chǎn)生的記錄及發(fā)言 論述 總結(jié) 等各種形式的文獻資料 是國際學(xué)術(shù)交流的重要組成部分 按其出版方式可分為會前文獻 會中文獻和會后文獻 新穎性 專業(yè)針對性 及時性 連續(xù)性 查全率查全率 是指檢出文獻中合乎需要的文獻數(shù)量占數(shù)據(jù)庫存在的合乎該需要的所有文獻的比 例 用來表示信息系統(tǒng)能滿足用戶需求的完備程度 精品文檔 3歡迎下載 查準率查準率 是指檢出文獻中合乎需要的文獻數(shù)量占檢出文獻全部數(shù)量的比例 是衡量信息系 統(tǒng)拒絕非相關(guān)信息的能力的量度 科技報告 科技報告 是圍繞某個課題的科技活動所取得的階段性進展或最終性成果的記錄與書面報 告 是科研生產(chǎn)活動的第一手資料 有時又被稱為研究報告 它是科技人員交流其研究活 動的重要手段 是研究單位向為其提供經(jīng)費的部門反映研究情況的正式技術(shù)文件 以積累 傳播和交流為目的 由科技人員按照有關(guān)規(guī)定和格式撰寫 真實而完整地反映科研人員所 從事科技活動的內(nèi)容和經(jīng)驗 查新 查新 是科技查新的簡稱 是指查新機構(gòu)根據(jù)查新委托人提供的需要查證其新穎性的科學(xué) 技術(shù)內(nèi)容 按照本規(guī)范操作 并作出結(jié)論 一 信息存儲與檢索原理一 信息存儲與檢索原理 1 原理 信息檢索的實質(zhì)就是將用戶的檢索提問標識與存儲在信息檢索系統(tǒng)中的信息特征 標識進行比較 匹配 兩者一致或者信息特征標識包含了檢索提問標識 則具有該標識的 信息就從檢索系統(tǒng)中輸出 輸出的信息就是檢索命中的信息 通過對大量的 分散無序的 文獻信息進行搜集 加工 組織 存儲 建立各種各樣的檢索系統(tǒng) 并通過一定的方法和 手段使存儲與檢索這兩個過程所采用的特征標識達到一致 以便有效地獲得和利用信息源 其中 存儲是檢索的基礎(chǔ) 檢索是存儲的目的 信息存儲與檢索的一般過程 2 文獻替代 著錄 即用表示文獻資源特征的元數(shù)據(jù)替代所指代的資源 特征包括外表特征和內(nèi)容特征 著錄的結(jié)果是將原始文獻制成二次文獻 3 文獻整序 標引 對文獻進行標引 給出檢索標識 如分類號 主題詞等 將所有替代文獻按照其標識進 行有規(guī)律的組織排列 形成可檢索的信息資源集合 精品文檔 4歡迎下載 文獻特征標識與檢索提問標識的匹配 二 聯(lián)機檢索 光盤檢索 網(wǎng)絡(luò)信息檢索的特征和區(qū)別二 聯(lián)機檢索 光盤檢索 網(wǎng)絡(luò)信息檢索的特征和區(qū)別 1 聯(lián)機檢索 1965 1990 即信息用戶利用終端設(shè)備 通過通信網(wǎng)絡(luò)或通信線路與檢索 系統(tǒng)聯(lián)機 進行 人機對話 從檢索中心的數(shù)據(jù)庫查找所需的文獻倍息的過程 1 構(gòu)成 聯(lián)機檢索中心 通訊設(shè)施 檢索終端 2 聯(lián)機檢索的特點 3 優(yōu)點 檢索效率高 可在幾分鐘內(nèi)完成檢索 檢索范圍廣泛全面 提供的數(shù)據(jù)量從幾十到幾百個不等 檢索內(nèi)容新 實時性強 可檢索到最新文獻 檢索功能強 檢索途徑多 缺點 檢索費用高 機時 DU 記錄輸出打印費 通信費 檢索界面單一 檢索技術(shù)和技巧不易掌握 2 光盤檢索 1 由于光盤具有存儲密度高 輕便 無機械磨損 易攜帶耐用等待點 從 20 世紀 80 年代中期生產(chǎn)后便很快被廣泛用作信息載體 檢索工具 2 光盤按存儲信息的種類可分為 激光唱盤 激光視盤以及存儲文字 數(shù)字等文件資 料的數(shù)字光盤 按讀寫數(shù)據(jù)的模式可分為只讀光盤 寫一次光盤和可擦寫光盤 3 光盤檢索的類型 1 單機 Stand Along 光盤檢索系統(tǒng) 由微機 光驅(qū) 光盤數(shù)據(jù)庫等硬件設(shè)備 操作程序 檢索程序等軟件組成 提供單用戶 單機的使用 系統(tǒng)結(jié)構(gòu)簡單 但數(shù)據(jù)量少 利用率低 2 聯(lián)機光盤檢索系統(tǒng) 將光盤上網(wǎng) 一般只提供在局域網(wǎng)上的檢索 用戶可以分時共享光盤數(shù)據(jù)庫的信息 光驅(qū) 常采用光盤塔 Tower 和光盤庫 Jukebox 兩種形式 4 光盤檢索的特點 價格低 一次購買無限次使用 無需聯(lián)機檢索費用 存儲容量大而體積較小 無需通訊聯(lián)系 不受時間限制 使用方便 易于操作 使用壽命長 機房 設(shè)備無特別要求 投資少 信息獲取速度和更新頻率較聯(lián)機檢索慢 3 網(wǎng)絡(luò)信息檢索 90 年代至今 1 早期的 Internet 信息服務(wù)模式 常見服務(wù) FTP Telnet 郵件 新聞組 操作復(fù)雜 表現(xiàn)形式單調(diào) 信息以文件形式存在 2 網(wǎng)絡(luò)信息檢索 90 年代至今 網(wǎng)絡(luò)信息檢索一般指因特網(wǎng)檢索 是通過網(wǎng)絡(luò)接口軟件 用戶可以在一終端查詢各 地上網(wǎng)的信息資源 網(wǎng)絡(luò)信息檢索與聯(lián)機信息檢索最根本的不同在于網(wǎng)絡(luò)信息檢索 是基于客戶機 服務(wù)器的網(wǎng)絡(luò)支撐環(huán)境的 客戶機和服務(wù)器是同等關(guān)系 只要遵守 共同協(xié)議 一個服務(wù)器可以被多個用戶訪問 一個客戶也可以訪問多個服務(wù)器 特點 精品文檔 5歡迎下載 檢索范圍大 覆蓋因特網(wǎng)上幾乎所有的網(wǎng)絡(luò)資源 超文本檢索 結(jié)合多媒體的全文信息檢索 界面友好 用戶操作相當方便 良好的反饋能力和快速響應(yīng)能力 與國際聯(lián)機檢索相比 其最大的優(yōu)點在于經(jīng)濟 與光盤檢索相比 其最大的優(yōu)點在于 內(nèi)容更新快 網(wǎng)絡(luò)檢索與聯(lián)機檢索和光盤檢索有許多相同之處如需要數(shù)據(jù)庫 要制定檢索 策略等 1 聯(lián)機檢索的速度快 效率高 檢索的范圍廣泛 全面 檢索途徑多 方便 靈活 檢索內(nèi)容新 實時性強 檢索輔助功能完善 但是檢索的費用高 對檢索系統(tǒng)及其文檔的 收錄 標引 特點等問題較難了解 熟悉 檢索技巧和技術(shù)不易掌握 2 光盤檢索其存儲容量大而體積微小 使用方便 不需要通信聯(lián)系 不受時間限制 使用方便 易于操作 價格低 使用壽命長 用戶易接受 機房無特別要求 投資少 要 求設(shè)備簡單 可隨地安裝 但是光盤檢索的信息獲得比聯(lián)機檢索慢 信息更新不及時 三 信息檢索系統(tǒng)的評價指標三 信息檢索系統(tǒng)的評價指標 1 查全率 檢全率 召回率 Recall Ratio 檢全率 檢出相關(guān)文獻量 100 系統(tǒng)中相關(guān)文獻總量 2 漏檢率 Omission factor 漏檢率 漏檢相關(guān)文獻量 100 系統(tǒng)中相關(guān)文獻總量 3 查準率 檢準率 相關(guān)率 Precision Ratio 檢準率 檢出相關(guān)文獻量 100 檢出文獻總量 4 誤檢率 Noise Factor 誤檢率 誤檢文獻量 100 檢出文獻總量 查全率與查準率示例 查詢 Q 本應(yīng)該有 100 篇相關(guān)文檔 某個系統(tǒng)返回 200 篇文檔 其中 80 篇是真正相關(guān)的 文檔 查全率 80 100 0 8 查準率 80 200 0 4 結(jié)論 查全率較高 但是查準率較低 四 布爾模型 向量空間模型 經(jīng)典概率模型的優(yōu)缺點 經(jīng)典信息檢索模型 四 布爾模型 向量空間模型 經(jīng)典概率模型的優(yōu)缺點 經(jīng)典信息檢索模型 1 基于集合論的模型 Set Theoretic models 精品文檔 6歡迎下載 布爾模型 擴展布爾模型 2 基于代數(shù)論的模型 Algebraic models 向量空間模型 3 基于概率統(tǒng)計的模型 Probabilistic models 經(jīng)典概率模型 1 布爾模型 最簡單的信息檢索模型 是基于集合理論和布爾代數(shù)的一種的檢索模型 被大多數(shù)檢索系統(tǒng)所采用 查詢是由三種布爾邏輯運算符 AND OR NOT 連接索引詞組成的 布爾表達式 每個索引詞在一篇文檔中只有兩種狀態(tài) 出現(xiàn)或不出現(xiàn) 對應(yīng)權(quán)值為 0 或 1 將查詢表達式與文檔進行匹配 單詞 文檔矩陣 布爾模型的優(yōu)點 1 簡單 容易理解 經(jīng)過某種訓(xùn)練的用戶可以容易地寫出布爾查詢式 2 通過使用復(fù)雜的布爾表達式 可以很方便地控制查詢結(jié)果 3 檢索速度快 到目前為止 布爾模型是最常用的檢索模型 布爾模型的缺點 1 不支持部分匹配 而完全匹配會導(dǎo)致太多或者太少的結(jié)果文檔被返回 2 普通用戶構(gòu)造查詢不一定準確 容易構(gòu)造錯誤 3 很難對輸出結(jié)果進行排序 不考慮索引詞的權(quán)重 所有文檔都以相同的方式和查詢相匹配 可通過擴展來實現(xiàn)排序的功能 即 擴展布爾模型 2 擴展布爾模型 為了克服布爾檢索模型查詢結(jié)果的無序性 引入擴展的布爾檢索模型 相似度計算公式 若檢索項 Term1 OR Term2 則 若 Term1 AND Term2 則 3 向量空間模型 通過對檢出文獻按相似度降序排列的方式來實現(xiàn)文獻與查詢的部分匹 配 向量空間模型的優(yōu)缺點 優(yōu)點 1 標引詞 Term 加權(quán)改進了檢索效果 2 支持部分匹配和近似匹配 其部分匹配策略運行檢出與查詢條件接近的文獻 3 結(jié)果可以排序 4 可用到相關(guān)領(lǐng)域 文本分類 相似匹配 缺點 1 標引詞獨立的假定 損失掉大量的文本結(jié)構(gòu)信息 2 相似度的計算量較大 4 經(jīng)典概率模型 核心思想 若以往查詢中 如果某個文檔和某個詞相關(guān)度大 則在 以后的查詢中 用這個詞查詢時出現(xiàn)該文檔的概率高 給定一個用戶提問 則檢索系統(tǒng)中 存在一個包含所有相關(guān)文檔的集合 理想結(jié)果集 R 在此基礎(chǔ)上 用戶可以對初始的檢索 結(jié)果集合中文檔相關(guān)與否進行判斷 在根據(jù)這些反饋信息 系統(tǒng)便可以在后續(xù)的檢索處理 中不斷做出優(yōu)化和改進 精品文檔 7歡迎下載 經(jīng)典概率模型的優(yōu)缺點 優(yōu)點 1 建立在數(shù)學(xué)模型基礎(chǔ)上 理論性較強 2 文檔可以按照他們相關(guān)概率遞減的順序來排序 缺點 1 需要最初把文獻分為相關(guān)集合和不相關(guān)集合 2 沒有考慮標引詞在文獻中出現(xiàn)的頻率問題 3 獨立性假設(shè)與現(xiàn)實情況不完全相符 4 計算復(fù)雜度相對較大 五 布爾邏輯檢索 鄰近檢索概述 短語檢索概述 截詞檢索概述的區(qū)別 聯(lián)系五 布爾邏輯檢索 鄰近檢索概述 短語檢索概述 截詞檢索概述的區(qū)別 聯(lián)系 1 1 布爾邏輯檢索概述 布爾邏輯檢索概述 1 將多個檢索詞用布爾運算符組合在一起進行檢索 2 邏輯運算符 邏輯與 AND 邏輯或 OR 邏輯非 NOT AND NOT 并非所有數(shù)據(jù)庫都遵循以上算符 絕大部分計算機信息檢索系統(tǒng)都支持布爾邏輯檢索 3 3 關(guān)于 關(guān)于 優(yōu)先級優(yōu)先級 問題問題 1 當布爾運算符在一個檢索式中連續(xù)出現(xiàn)時 它們的優(yōu)先級通常是不同的 2 大部分數(shù)據(jù)庫規(guī)定 優(yōu)先級最高 次之 最低 2 2 鄰近檢索概述 鄰近檢索概述 又稱位置限制檢索 是用位置運算符來表達檢索詞與檢索詞之間順序和詞間距的檢索 支持鄰近檢索的系統(tǒng)包括 ProQuest Dialog ScienceDirect Westlaw 等 ProQuest 的 常用位置算符包括 Near Pre 等 1 位置運算符 Near n 查找包含 A 詞和 B 詞且兩詞距離很近的文檔 使用數(shù)值 n 來指定兩詞之間相隔的詞數(shù) 2 位置運算符 Pre n 查找包含 A 詞和 B 詞且 A 詞在 B 詞之前出現(xiàn)的文檔 使用數(shù)值 n 來指定兩詞之間相隔的詞數(shù) 3 3 短語檢索概述 短語檢索概述 使用 將多個關(guān)鍵詞作為整體檢索 又稱精確檢索 多用于人名 機構(gòu)名 地名 書名 電影名檢索 4 4 截詞檢索概述 截詞檢索概述 截詞檢索即在檢索詞中保留相同的部分 把變化部分用通配符代替 1 一般情況下 使用 或 代表 0 至 1 個字符 有限截詞 使用 或 代表 0 至多個字符 無限截詞 Google 部分支持 檢索 Baidu 不支持通配符檢索 詞形變換 年代區(qū)間 作者 同根詞 2 完全匹配 任意匹配與前方一致 1 完全匹配 要求輸入的檢索詞 與數(shù)據(jù)庫中的文獻標識完全相同 前后無其他字符 才能命中 2 任意匹配 前后可包含其他字符 相當于輸入 檢索詞 3 前方一致 精品文檔 8歡迎下載 屬于截詞檢索的一種 相當于輸入 檢索詞 5 5 字段限制檢索 字段限制檢索 組成數(shù)據(jù)庫的最小單位是記錄 一條完整的記錄中的每個著錄項為字 段 在信息檢索過程中 為了提高查全率或查準率 需要將檢索范圍 限制在特定的字段中 即字段限制檢索 基本索引字段 輔助索引 字段 6 6 其他檢索表達式 其他檢索表達式 1 括號檢索 用于改變運算的先后順序 括號內(nèi)的運算優(yōu)先進行思考 2 自然語言檢索 直接采用自然語言中的字 詞 句進行提問式搜索 同一般口語一樣 特別適合不熟悉網(wǎng)絡(luò)信息檢索技術(shù)的用戶使用 3 多語種檢索 提供多種語言的檢索環(huán)境供用戶選擇 系統(tǒng)按照用戶選定的語種進 行檢索并反饋結(jié)果 4 模糊檢索 又稱概念檢索 是指使用某一檢索詞進行檢索時 能同時對該詞的同 義詞 近義詞 上位詞 下位詞進行檢索 以達到擴大檢索范圍 避免漏檢的目 的 5 區(qū)分大小寫檢索 對于支持區(qū)分大小寫檢索的工具而言 若用戶輸入小寫檢索式 搜索工具既匹配大寫又匹配小寫 若用戶輸入大寫 則只匹配大寫形式結(jié)果 大 部分搜索引擎對大小寫不敏感 六 信息檢索的策略與技巧六 信息檢索的策略與技巧 1 信息檢索策略 信息檢索策略 Retrieval Strategy 是為實現(xiàn)檢索目標而制 定的全盤計劃或方案 是就一個問題檢索一個或多個數(shù)據(jù)庫所輸入的 全部檢索式的集合 2 檢索關(guān)鍵詞的選擇 對檢索的概念進行關(guān)鍵詞的切分 關(guān)鍵詞的剔除 對固定 短語 盡量使用引號進行精確檢索 關(guān)鍵詞應(yīng)盡量簡練 可根據(jù)網(wǎng)頁 特征選擇查詢詞 立足常用詞 規(guī)范詞 兼顧自由詞 旁類以求 善 用詞的全稱 簡稱及縮寫 勿忘上下位類詞擴展 注意外來詞的譯寫 變化 3 擴檢 指初始設(shè)定的檢索范圍太小 命中文獻不多 需擴大檢索范圍的方法 擴大檢索范圍 提高查全率的技術(shù)方法 1 考慮同義詞或近義詞 使用 OR 連接 2 選擇較大檢索范圍的字段如摘要 3 使用截詞符 4 使用上位詞 如飛行器 航天飛機 載人航天飛機 4 縮檢 指開始的檢索范圍太大 命中文獻太多 或查準率太低的一個方法 縮小檢索范圍 提高查準率的技術(shù)方法 1 使用 AND NOT 等運算符限制檢索范圍 2 使用短語檢索 3 使用位置算符 4 選擇檢索范圍較小的字段 5 使用下位詞 5 充分利用組合檢索 除使用布爾檢索表達式外 應(yīng)盡可能配合鄰近檢索 字 段限制檢索等檢索方法 有些查新課題的查新點內(nèi)涵很深 難以用有 限的詞匯準確 全面地描述 僅用關(guān)鍵詞檢索極易造成漏檢 可采用 分類 主題組合檢索 精品文檔 9歡迎下載 七 搜索引擎的分類七 搜索引擎的分類 1 1 按信息內(nèi)容組織方式劃分 按信息內(nèi)容組織方式劃分 1 機器人搜索引擎 狹義的 Search Engine 不依靠人工發(fā)現(xiàn)和甄別信息 由蜘蛛 Spider 以某種策略自動在互聯(lián)網(wǎng)中搜集信息 由索引器建立索引 由檢索器根據(jù)用戶查詢檢索信息并返回給用戶 其優(yōu)點是信息量 大 更新速度快 缺點是返回的信息過多 冗余信息較多 用戶必須從結(jié)果中進行篩 選 2 目錄式搜索引擎 以人工或半自動方式搜集信息 由編輯人員對資源進行選擇 評價 編制摘要 分類 后形成的主題目錄 具有信息準確 信息質(zhì)量較高等優(yōu)點 同時存在收錄網(wǎng)站資源規(guī) 模有限 維護量大 信息更新不及時等不足 代表產(chǎn)品 早期 Yahoo 早期 Sohu 網(wǎng)址導(dǎo)航 2 2 按專業(yè)范疇劃分 按專業(yè)范疇劃分 1 綜合性搜索引擎 內(nèi)容涵蓋各個學(xué)科和生產(chǎn)生活的各個領(lǐng)域 可檢索圖片 音頻 視頻等多種資源類型 適用對象廣泛 代表產(chǎn)品 Google Yahoo 百度 搜狗 2 專業(yè)性搜索引擎 垂直搜索引擎 收錄某一個或幾個學(xué)科資源的搜索引擎 具有專門搜索功能的搜索引擎 面向特定 的用戶的搜索引擎 面向特定學(xué)科 行業(yè) 對象或用戶 特點 專 精 深 3 3 按檢索功能劃分 按檢索功能劃分 1 獨立搜索引擎 又稱單一搜索引擎或常規(guī)搜索引擎 有自己的數(shù)據(jù)庫 搜索時通常只檢索自己的數(shù)據(jù) 庫 2 元搜索引擎 Meta Search Engine 又稱多元搜索引擎或集成式搜索引擎 是多個獨立搜索引擎的集合 通過統(tǒng)一用戶界 面同時檢索多個引擎 即用戶只需一次輸入檢索式 便可檢索一個或多個獨立搜索引擎 無獨立數(shù)據(jù)庫 嚴格來說 Meta 搜索引擎只能算是一種用戶代理 而不是真正的搜索引 擎 八 多媒體信息檢索八 多媒體信息檢索 1 多媒體信息檢索方式 1 基于文本的多媒體信息檢索 2 基于內(nèi)容的多媒體信息檢索 2 基于內(nèi)容的多媒體信息檢索 1 基于內(nèi)容的信息檢索 Content Based Retrieval CBR 利用計算機自動收集 量化和存儲信息內(nèi)容特征 表示成向量空間 建立基于內(nèi)容特征的多媒體索引 庫 用戶在查詢時將用戶提問轉(zhuǎn)化成向量 并與已有信息的向量空間進行相似 度匹配計算 具有較強的客觀性 2 劣勢 特征空間的維度高 用戶與系統(tǒng)抽取的信息之間存在語言鴻溝 對同一數(shù) 據(jù)的解釋缺乏一致性 3 普及程度 局限在較小的數(shù)據(jù)集合 實驗室層面 有以下幾種 1 基于內(nèi)容的圖像檢索 顏色分布法 精品文檔 10歡迎下載 1 QBIC Query By Image Content 基于內(nèi)容圖像檢索領(lǐng)域應(yīng)用最早的商用產(chǎn)品 由 IBM Almaden 研究中心于 1995 年開發(fā) 為 IBMDB2 數(shù)據(jù)庫提供圖像檢索 并支持基于 Web 的圖像檢索服務(wù) 系統(tǒng)結(jié)構(gòu)及所用技術(shù)對后來的視頻檢索有深遠的影響 2 TinEye TinEye 是由加拿大 Id e 公司所開發(fā)的圖像搜索系統(tǒng) 于 2008 年發(fā)布 提供用戶依據(jù) URL 或上傳的圖像文件 搜索網(wǎng)絡(luò)上近似的圖像與位置 主要用途 1 發(fā)現(xiàn)圖片的來源與相關(guān)信

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論