第7章 信息檢索與應用基礎_第1頁
第7章 信息檢索與應用基礎_第2頁
第7章 信息檢索與應用基礎_第3頁
第7章 信息檢索與應用基礎_第4頁
第7章 信息檢索與應用基礎_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大學計算機基礎 湖南工業(yè)大學計算機與通信學院 湖南工業(yè)大學計算機公共基礎課程系列 第七章信息檢索與應用基礎 湖南工業(yè)大學計算機與通信學院 湖南工業(yè)大學 大學計算機基礎 學習目標 1 了解信息檢索相關的概念 2 掌握信息檢索的方法和技術 3 了解常用中外數(shù)據(jù)庫檢索系統(tǒng) 4 了解如何利用綜合信息資源 重點 難點 3W 1H學習法 什么是信息檢索和檢索系統(tǒng) 如何利用計算機資源進行信息檢索 為什么要學習要信息檢索的相關方法和技巧 信息檢索的應用和強大功能體現(xiàn)在哪些方面 3W 1H 目錄 一種多方互動式學教系統(tǒng) 發(fā)明專利 一種多方互動式學教系統(tǒng) 發(fā)明專利 一種多方互動式學教系統(tǒng) 發(fā)明專利 一種多方互動式學教系統(tǒng) 發(fā)明專利 7 1 1問題提出 信息檢索的定義What 所謂 信息檢索 InformationStorageandRetrieval 它是指將信息按照一定的方式組織和存儲起來 并能根據(jù)用戶的需要找出其中相關信息的過程 信息檢索系統(tǒng) InformationRetrievalSystem 是指根據(jù)特定的信息需求而建立起來的一種有關信息搜集 加工 存儲和檢索的程序化系統(tǒng) 其主要目的是為人們提供信息服務 7 1 2信息檢索的發(fā)展歷程 計算機信息檢索的發(fā)展過程 第一階段 第二階段 第三階段 脫機批處理檢索 聯(lián)機檢索 網(wǎng)絡化信息檢索 7 1 3信息檢索的原理 信息檢索的基本原理 信息檢索廣義上講包括信息的存儲和檢索兩個方面 信息的存儲過程是 將收集到的原始文獻進行主題概念分析 根據(jù)一定的檢索語言抽取出主題詞 分類號以及文獻的其他特征進行標識或者寫出文獻的內容摘要 然后再把這些經(jīng)過 前處理 的數(shù)據(jù)按一定格式輸入到計算機存儲起來 信息的檢索過程是 用戶對檢索課題加以分析 明確檢索范圍 弄清主題概念 并用系統(tǒng)檢索語言來表示 然后形成相應的檢索標識及檢索策略進行檢索 7 2信息檢索的方法和技巧 7 2 1信息檢索的方法 1 布爾邏輯檢索即運用布爾邏輯算符對檢索詞進行邏輯組配 來表達兩個概念之間的邏輯關系 布爾邏輯算符主要有 AND OR NOT 如邏輯與 用運算符AND或 連接檢索詞 例1 查 有關計算機在圖書館中的應用 的文獻 檢索式 計算機 圖書館 例3 查 玉米但不是甜玉米 方面的文獻 檢索式 玉米 甜玉米 例2 查 蘋果或梨 方面的文獻檢索式 蘋果 梨 2 位置算符檢索在檢索式中 檢索詞的相對次序不同 表達的檢索意圖也不一樣 布爾邏輯運算符有時難以表達某些檢索課題的確切提問要求 用詞間位置算符來限定和組配檢索詞 可彌補布爾邏輯算符造成誤檢的不足 位置算符檢索就是利用一些特定的位置算符來表達檢索詞之間的位置關系 有的書上把這種檢索稱為原文檢索 常用的位置算符有 W W N WITH WITHIN nW PRE N NEAR ADJ nN F SAME 下面介紹使用頻率較高的幾個位置算符 1 W W N WITH WITHIN 功能 兩詞相鄰 按輸入時順序排列 也有數(shù)據(jù)庫允許順序顛倒 表達式 Education W school或EducationWITHschool檢索結果 Educationschool educationschools 2 SAME 功能 兩詞出現(xiàn)在同一自然句中 其詞序與詞量不受限制表達式 EducationSAMEschool檢索結果 Education和school兩詞出現(xiàn)在同一句子中即可 3 截詞檢索截詞運算符號有兩個 它們在不同系統(tǒng)中表示的含義不同 1 有限截詞 即在檢索詞后后截幾個有限的字母 如名詞的單復數(shù) 動詞的詞尾變化等 原因 在英語詞匯中 一個詞可能有多種形態(tài) 如詞的單 復數(shù)形式的不同 英美拼寫方法不同 詞性不同等 如輸入computer 表示有0 2個字母變化 可檢出computer和computers 輸入stud 表示截斷處有0 3個字母變化 可檢出study studies tudied studing 2 無限截詞 在檢索詞后加一個 表示該詞后可加任意個字符 使用無限截詞 所截詞根不能太短 否則會輸出許多無關文獻 造成誤檢 如 computer 可檢出computers computering computered computerization 3 中間截詞 在檢索詞中間加一個或幾個 號 主要解決一些英美拼寫不同 可簡化單復數(shù)形式不同的詞的輸入 如 輸入wom n可檢出woman women 4 詞組檢索將一個詞組或短語用雙引號 括起作為一個獨立運算單元 進行嚴格匹配 以提高檢索準確度 如 GlobalPositioningSystem 只檢索出規(guī)定字段中包含完整詞組的記錄 5 字段限制檢索將檢索詞限定在某一字段中 檢索時 計算機只對限定字段進行運算 以提高檢索效果 常用的檢索符號有 in 例 限定在某字段中檢索 后跟一個字段名 如appleinti ti表示題目字段 表示命中文獻中 apple 一詞必須在題目中出現(xiàn) 6 括號檢索用于改變運算的先后次序 括號內的做優(yōu)先運算 如比較 GPSORGIS ANDChinaGPSORGISANDChina 總結 在一個復雜的檢索式中 不僅可以有多個運算符 也可以使用括號來指定運算的優(yōu)先順序 以及體現(xiàn)概念的完整性 7 2 2網(wǎng)絡信息檢索的常用技術 1 全文信息檢索技術 全文檢索是指以文檔的全部文本信息作為檢索對象的一種信息檢索技術 目前搜索引擎基本上都采用全文檢索技術 搜索引擎 searchengine 是指根據(jù)一定的策略 運用特定的計算機程序搜集互聯(lián)網(wǎng)上的信息 在對信息進行組織和處理后 將信息顯示給用戶 目前常用的搜索引擎有百度 google等 1 百度搜索2000年1月1日 公司創(chuàng)始人李彥宏 徐勇攜120萬美元風險投資 從美國硅谷回國 創(chuàng)建了百度公司 現(xiàn)在百度已是全球最大的中文搜索引擎 在瀏覽器的地址欄中輸入 即進入百度搜索 演示 常用的搜索引擎 2 Google搜索引擎Google成立的第一步始于1998年 Google創(chuàng)始人LarryPage和SergeyBrin在斯坦福大學的學生宿舍內共同開發(fā)了全新的在線搜索引擎 在瀏覽器的地址欄中輸入 3 其他搜索引擎除上述兩種最常用的搜索引擎外 還有其它一些搜索引擎 搜狗 2 多媒體信息檢索技術 多媒體信息資源是數(shù)字圖書館中獨具特色的一類信息資源 既包括數(shù)字化的文本信息 圖形與圖像信息 又包括數(shù)字化的視頻與音頻信息 當詞語難以形象和準確地描述視覺或聽覺感知時 例如一種東西的式樣 顏色或紋理 用戶就需要利用媒體呈現(xiàn)的視覺和聽覺特性來查詢 多媒體信息檢索包括 1 圖像信息檢索 2 音頻信息檢索 3 視頻信息檢索 3 超文本和超媒體信息檢索技術 超媒體和超文本都以非線性方式組織信息 本質上具有同一性 在超文本中 信息的主要形態(tài)是文本和圖形 以節(jié)點形式存儲信息 實現(xiàn)相關節(jié)點間的非線性 聯(lián)想式檢索 而超媒體是一種在一條條信息間創(chuàng)建明確關系的方法 它把超文本的含義擴展為包含多媒體對象 而且能夠實現(xiàn)音頻與視頻信號的同步 Internet上的WWW可以實現(xiàn)超文本和超媒體的信息檢索 4 智能信息檢索技術 數(shù)據(jù)庫系統(tǒng)是儲存某個學科大量事實的計算機系統(tǒng) 隨著應用的進一步發(fā)展 存儲的信息量越來越大 因此解決智能檢索的問題具有了實際意義 智能信息檢索系統(tǒng)應具有如下的功能 1 能理解自然語言 允許用自然語言提出各種問題 2 具有推理能力 能根據(jù)存儲的事實 演繹出所需的答案 3 系統(tǒng)具有一定的常識性知識來補充學科范圍的專業(yè)知識 系統(tǒng)根據(jù)這些常識 將能演繹出更一般的答案來 當然 實現(xiàn)這些功能要應用人工智能的方法 5 文本聚類技術 文本聚類是進行文本信息檢索的重要方法 被廣泛應用于網(wǎng)絡信息和檔案資料的篩選和檢索 聚類就是按照事物間的相似性進行區(qū)分和分類的過程 國內外的研究者提出了很多聚類算法 這些算法被用于眾多應用領域 如模式識別 數(shù)據(jù)分析 圖象處理以及市場研究等 7 2 3網(wǎng)絡信息檢索的策略與技巧 網(wǎng)絡信息檢索存在的問題 網(wǎng)絡信息檢索的技巧 檢索策略 什么是檢索策略 為實現(xiàn)檢索目標而制定的全盤計劃或方案 檢索策略的概念 未完待續(xù) 信息檢索策略 本節(jié)通過對國內外常用數(shù)據(jù)庫資源的介紹 讓大家對各個數(shù)據(jù)庫的收錄范圍 檢索功能 收錄核心期刊 檢索結果等情況進行有效地分析和評價 因而能夠確切地區(qū)分其特點和功能 進行有目的地選用 7 3常用數(shù)據(jù)庫檢索系統(tǒng)的介紹 7 3 1常用中文檢索數(shù)據(jù)庫 1 期刊檢索CNKI 中國知識基礎設施工程 工程于1995年正式立項 在政府及社會各界多方努力下 經(jīng)過10年建成了世界上全文信息量規(guī)模最大的 CNKI數(shù)字圖書館 并全力建設 中國知識資源總庫 以 中國知網(wǎng) 為網(wǎng)絡出版與知識服務平臺 通過產(chǎn)業(yè)化運作 為全社會提供最豐富的信息資源和數(shù)字化學習平臺 可以通過中國知識基礎設施工程 CNKI 的網(wǎng)址 演示 圖7 4中國期刊全文數(shù)據(jù)庫檢索主頁 目前有很多電子圖書的檢索 下面先介紹一種目前最方便 也頗受爭議的電子圖書 google電子圖書 電子圖書是指以數(shù)字代碼方式將圖 文 聲 像等信息存儲在磁 光 電介質上 通過計算機或類似設備使用 并可復制發(fā)行的大眾傳播體 2 電子圖書檢索 進入google電子圖書很容易 它無需任何閱讀器 即能在IE上閱讀 在IE地址欄上網(wǎng)址 舉例 查詢關于EXCEL這本書 方法 在搜索欄中輸入 excel 然后單擊 搜索圖書 則搜索出如圖所示 選擇感興趣的圖書即可 3 中國學位論文文摘檢索數(shù)據(jù)庫 CDDB 收錄了自1977年恢復高考以來我國自然科學 哲學 經(jīng)濟 管理 語言 文學等領域博士 博士后及碩士研究生論文 其中文摘已達40余萬篇 它不但是我國最早建設的全國性學位論文數(shù)據(jù)庫 而且也是我國目前收錄學位論文信息最多 最全的數(shù)據(jù)庫 1 中國學位論文全文數(shù)據(jù)庫檢索介紹 先登錄某圖書館 清華 主頁 數(shù)據(jù)庫 中文數(shù)據(jù)庫 萬方數(shù)據(jù)資源系統(tǒng) 學位論文全文 如圖所示 2 其他中文學位論文網(wǎng)站 CNKI中國優(yōu)秀博碩士論文全文數(shù)據(jù)庫 至2005年8月止 累積博碩士學位論文全文文獻近25萬篇 文摘網(wǎng)上可免費檢索 7 3 2三大外文檢索數(shù)據(jù)庫 1 EI數(shù)據(jù)庫檢索 1 簡介美國 工程索引 TheEngineeringIndex 簡稱EI 創(chuàng)刊于1884年 由美國工程信息公司編輯出版 所報道的文獻學科覆蓋面廣 涉及工程技術領域各個方面 經(jīng)過100多年的發(fā)展 工程索引 已經(jīng)成為全球工程技術領域最著名的檢索系統(tǒng) 同時它也是世界引文分析和文獻評價的四大檢索工具之一 2 檢索方法舉例 點擊進入某圖書館 如武漢大學圖書館電子資源 如圖所示 EI檢索 2 SCI數(shù)據(jù)庫檢索 SciFinderScholar數(shù)據(jù)庫為CA 化學文摘 的網(wǎng)絡版數(shù)據(jù)庫 它收錄了訪問全世界9500多種主要期刊和50多家合法專利發(fā)行機構的專利文獻中公布的研究成果 事實上囊括了自20世紀以來所有與化學相關的資料 以及大量生命科學及及其它科學學科方面的信息 學科領域覆蓋普通化學 農(nóng)業(yè)科學 醫(yī)學科學 物理學 地質科學 生物和生命科學 工程科學 材料科學 聚合物科學和食品科學等 SciFinderScholar檢索方法與EI類似 3 ISTP 科技會議錄索引 科技會議錄索引 IndextoScientific TechnicalProceedings 簡稱ISTP 創(chuàng)刊于1978年 由美國科學情報研究所編輯出版 該索引收錄生命科學 物理與化學科學 農(nóng)業(yè) 生物和環(huán)境科學 工程技術和應用科學等學科的會議文獻 包括一般性會議 座談會 研究會 討論會 發(fā)表會等 注 4 科學評論索引 IndextoScientificReviews 簡稱ISR 也是由ISI公司出版的 每年收錄200多種綜述出版物和3 000多種期刊中的綜述類文獻 學科范圍與SCI基本相同 與前面介紹的EI SCI和ISTP稱為四大檢索工具 7 4信息資源的綜合利用 7 4 1文獻信息資源的收集與整理 1 文獻資源的類型文獻資源是信息資源的主要組成部分 我們通常說的信息檢索主要是指文獻信息的檢索 按照不同的分類標準 將文獻信息資源進行以下分類 1 按出版形式分 文獻可分為圖書 期刊 報紙 科技報告 會議文獻 專利文獻 標準文獻 政府出版物 產(chǎn)品樣本 技術檔案和學位論文等 二次文獻 SecondaryDocument 是指將分散的無組織的一次文獻進行搜集 提煉 濃縮 加工 整理 并按一定的科學方法編排 編輯出版的文獻 如目錄 題錄 文摘 索引 各種書目數(shù)據(jù)庫等 一次文獻 PrimaryDocument 是指作者以本人在生產(chǎn)與科研或理論探討中所獲得的第一手材料為基本素材撰寫的論文 如期刊論文 科技報告 會議論文 專利說明書等 2 按信息資源的加工層次分 三次文獻 TertiaryDocument 是對一次文獻和二次文獻的內容進行綜合分析 系統(tǒng)整理 高度濃縮 評述等深加工而形成的文獻 如 綜述 述評 詞典 百科全書 年鑒 指南數(shù)據(jù)庫等 2 文獻資源的整理與組織 通過各種方法搜集獲得的信息資源通常是無序的 而且有可能混雜著許多陳舊 虛假甚至錯誤的信息 因此有必要對所搜集的資料進行篩選 鑒別并進行整理與組織 以便更好的利用 文獻信息的組織方法 按文獻信息的形式特征即按文獻的題名 作者 發(fā)表或出版時間 地區(qū)等特征進行組織 按文獻信息的內容特征即按文獻的分類 主題等特征組織 3 信息資源的評價與分析 當我們利用檢索系統(tǒng)或其他信息源找到一些與研究相關的信息資料 并且經(jīng)過整理組織歸類之后 還是發(fā)現(xiàn)并非所有的資料都是適合課題研究的 因此 有必要對文獻資料進行去粗取精 去偽存真的工作 從中篩選出高質量 高水平 真正有價值的材料 1 文獻信息資源的評價 可靠性 先進性和適用性 可靠性 指資料的技術內容的科學性 真實性 準確性及完整性 一般來說 由著名學者和專家撰寫 著名出版社出版 官方與專業(yè)機構人員提供 登載在核心期刊上以及引用利用率較高的文獻 其可靠性較大 先進性 可以從時間和空間兩方面來考慮 表現(xiàn)在時間上 主要指信息內容的新穎性以及文獻內容在原有基礎上是否有創(chuàng)新或突破 表現(xiàn)在空間上 可以通過信息內容的領先程度和水平來判斷 也可從資料的來源 發(fā)表的時間等方面來判斷 如由科技發(fā)達的國家發(fā)表 世界著名期刊刊載的等 適用性 是指文獻資料對用戶的適合程度與范圍 即資料是否與所從事的課題相關或密切相關 2 文獻信息資源的分析 文獻信息分析就是根據(jù)特定課題的需要 對搜集到的大量文獻信息資料和其他多種有關的信息進行研究 通過一定的方法 系統(tǒng)地提出可供用戶使用的分析結果的一項工作 文獻信息的分析結果 即可作為文獻信息評價的依據(jù) 也可以作為一種研究成果 以論文形式發(fā)表或研究報告的形式予以公布 4 文獻綜述的撰寫 文獻綜述既是一種文獻信息調研報告 又是學術論文的一種形式 它是通過全面系統(tǒng)的搜集某一特定研究領域的全部或大部分相關文獻資料 并經(jīng)過閱讀 理解 分析 比較 歸納的基礎上 對該課題的發(fā)展過程 發(fā)展趨勢及存在的問題等 進行全面介紹 綜合分析和評論而形成的一種不同于一般論文的文體 先了解什么是文獻綜述 接下來 了解文獻綜述的撰寫要求 應系統(tǒng)全面查閱與自己研究方向有關的國內外文獻 特別不能遺漏那些有代表性 經(jīng)典的 重要的文獻 做到既要大量占有文獻 又要有所取舍 突出精華 要對選擇好的文獻進行仔細消化 通過閱讀原始文獻 闡述自己研究內容的背景和發(fā)展情況 前人的主要研究成果 存在問題 綜述某一領域中的最新進展 應該有述有評 要有自己的觀點和見解 切忌局限在對前人工作的簡單機械羅列 在分析評價前人研究的基礎上歸納出幾個熱點或前沿問題 并提出對未來發(fā)展的展望以及今后的研究方向 要注意引用文獻的代表性 可靠性和科學性 引用的文獻應是能反映主題全貌并且是作者直接閱讀過的文獻資料 主要參考文獻尤其是文中引用過的參考文獻不能省略 7 4 2學術論文的寫作 1 學術論文的介紹 學術論文是某一學術課題在實驗性 理論性或觀測性上具有新的科學研究成果或見解的知識和科學記錄 或是某種已知原理應用于實際中取得新進展的科學總結 用于學術會議上宣讀 交流或討論 或在學術刊物上發(fā)表 或作其他用途的書面文件 什么是學術論文 學術論文的特點 專業(yè)性 指研究 探討的內容是以科學領域里某一專業(yè)性問題作為研究對象 在內容上 學術論文是作者運用他們系統(tǒng)的專業(yè)知識 去論證或解決專業(yè)性很強的學術問題 科學性 科學性是學術論文的生命和價值所在 所謂科

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論