中文數(shù)據(jù)庫及信息檢索技術(shù)_第1頁
中文數(shù)據(jù)庫及信息檢索技術(shù)_第2頁
中文數(shù)據(jù)庫及信息檢索技術(shù)_第3頁
中文數(shù)據(jù)庫及信息檢索技術(shù)_第4頁
中文數(shù)據(jù)庫及信息檢索技術(shù)_第5頁
已閱讀5頁,還剩77頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、黃艷娟Huangyanjuan 中文數(shù)據(jù)庫檢索 信息檢索技術(shù)與過程信息檢索技術(shù)與策略CNKI檢索維普檢索萬方檢索 CNKI檢索CNKI資源總體介紹1數(shù)據(jù)庫檢索與使用方法2CNKI資源總體介紹1我校購買的資源包括:CNKI資源總體介紹1該庫收錄1915年至今國內(nèi)出版的近7000 種學(xué)術(shù)期刊,其中核心期刊、重要評價性數(shù)據(jù)庫來源期刊近 2600 種。內(nèi)容覆蓋自然科學(xué)、工程技術(shù)、農(nóng)業(yè)、哲學(xué)、醫(yī)學(xué)、人文社會科學(xué)等各個領(lǐng)域 ,全文文獻(xiàn)總量 2200 多萬篇。該庫收錄1999年至今全國 420 家博士培養(yǎng)單位的博士學(xué)位論文。累積出版博士學(xué)位論文全文文獻(xiàn) 6萬多篇。該庫收錄1999年至今全國652 家碩士培養(yǎng)

2、單位的優(yōu)秀碩士學(xué)位論文。累積出版碩士學(xué)位論文全文文獻(xiàn) 44萬多篇。收錄2000年以來國家二級以上學(xué)會、協(xié)會、高等院校、科研院所、學(xué)術(shù)機(jī)構(gòu)等單位的論文集,年更新約 10 萬篇論文。累積出版會議論文全文文獻(xiàn) 73萬篇。CNKI數(shù)據(jù)庫登錄CNKI使用指南數(shù)據(jù)庫檢索與使用方法2CNKI數(shù)據(jù)庫登錄需要注意的是:偶爾會提示輸入用戶名和密碼。請記住:用戶名:DX0437密碼:hrbgcCNKI數(shù)據(jù)庫登錄CNKI使用指南數(shù)據(jù)庫檢索與使用方法2CNKI使用指南:認(rèn)識CNKI檢索平臺利用CNKI查找有關(guān)“機(jī)械手自由度”的文獻(xiàn)認(rèn)識檢索平臺A 通用菜單在各個總庫平臺首頁和檢索結(jié)果頁都提供了通用菜單B 統(tǒng)一檢索平臺可進(jìn)

3、行跨庫檢索C 總庫文獻(xiàn)出版報表D 文獻(xiàn)資源統(tǒng)一導(dǎo)航利用CNKI查找有關(guān)“機(jī)械手自由度”的文獻(xiàn)CNKI的檢索方式:跨庫檢索還是進(jìn)入單庫檢索?如何選擇,這就需要分析檢索人的需求跨庫:可以同時檢索多個子庫,獲取更多更全面的結(jié)果,而且省時省力單庫:一次只檢索一個類型的文獻(xiàn),避免結(jié)果過多造成的困擾檢索人的需求是什么? 是為了獲取關(guān)于某一內(nèi)容的系統(tǒng)的全面的信息,還是只是想搜索特定類型的文獻(xiàn)信息?跨庫檢索檢索字段檢索詞機(jī)械手布爾邏輯算符自由度檢索結(jié)果檢索字段信息檢索途徑檢索途徑是用戶根據(jù)需要,以文獻(xiàn)信息的外部特征和內(nèi)容特征來確定的檢索入口。根據(jù)信息的外部特征:題名途徑、著者途徑、序號途徑根據(jù)信息的內(nèi)容特征:

4、分類途徑、主題途徑 信息檢索途徑(檢索字段)責(zé)任者途徑題名途徑分類途徑主題途徑序號途徑引文途徑信息檢索途徑1 題名(題目、標(biāo)題等)途徑2 責(zé)任者(作者、編者等)途徑3 序號(ISBN號等)途徑4 分類途徑5 主題途徑(主題詞)6 關(guān)鍵詞途徑ISBN是國際標(biāo)準(zhǔn)書號(International Standard Book Number)的簡稱,是國際通用的圖書或獨立的出版物(除定期出版的期刊)代碼。出版社可以通過國際標(biāo)準(zhǔn)書號清晰的辨認(rèn)所有非期刊書籍。一個國際標(biāo)準(zhǔn)書號只有一個或一份相應(yīng)的出版物與之對應(yīng)。 ISSN(國際標(biāo)準(zhǔn)連續(xù)出版物編號,International Standard Serial N

5、umber)是根據(jù)國際標(biāo)準(zhǔn)ISO3297制定的連續(xù)出版物國際標(biāo)準(zhǔn)編碼,其目的是使世界上每一種不同題名、不同版本的連續(xù)出版物都有一個國際性的唯一代碼標(biāo)識。 信息檢索技術(shù) 布爾邏輯檢索 位置算符檢索 截詞檢索與詞根檢索 精確檢索與模糊檢索布爾邏輯檢索最常用的信息檢索技術(shù)布爾邏輯檢索(Boolean logical)就是利用布爾邏輯算符進(jìn)行檢索項的邏輯組配,用以表達(dá)檢索者的提問概念。 布爾邏輯(臺灣譯布林邏輯)得名于喬治布爾,他是愛爾蘭科克的皇后學(xué)院的英國數(shù)學(xué)家,他在十九世紀(jì)中葉首次定義了邏輯的代數(shù)系統(tǒng)?,F(xiàn)在,布爾邏輯在電子學(xué)、計算機(jī)硬件和軟件中有很多應(yīng)用。使用集合代數(shù)作為介紹布爾邏輯的一種方式。還

6、使用文氏圖來展示各種布爾邏輯陳述所描述的集合聯(lián)系。布爾邏輯檢索 邏輯“與” 邏輯“或” 邏輯“非”邏輯“與”:用“AND”或“ *”表示。 用于連接概念交叉和限定關(guān)系的檢索詞。 功能:以縮小檢索范圍,有利于提高查準(zhǔn)率。 邏輯“或”:用“OR”或“+”表示。 用于連接并列關(guān)系的檢索詞,功能:以擴(kuò)大檢索范圍,防止漏檢,有利于提高查全率。 邏輯“非”用“NOT”或“-”號表示,用于連接排除關(guān)系的檢索詞,功能:即排除不需要的和影響檢索結(jié)果的概念,以提高查準(zhǔn)率。邏輯與檢索式構(gòu)造舉例如:查找“胰島素治療糖尿病”的檢索式為: insulin (胰島素) and diabetes(糖尿病)邏輯或檢索式構(gòu)造舉例

7、如:查找“腫瘤”的檢索式為: cancer(癌) or tumor(瘤)or carcinoma(癌) or neoplasm(新生物)邏輯非檢索式構(gòu)造舉例如:查找“動物的乙肝病毒(不要人的)”的文獻(xiàn)的檢索式為:hepatitis B virus(乙肝病毒) not human(人類)。 2 位置算符檢索位置檢索也叫鄰近檢索。位置算符檢索是用一些特定的算符(位置算符)來表達(dá)檢索詞與檢索詞之間的鄰近關(guān)系。表示兩詞之間的位置鄰近關(guān)系,常用到的位置算符有(W)(nW)(N)nN)等。W算符 W算符是word或with的縮寫,表示在此算符兩側(cè)的檢索詞必須按輸入時的前后順序排列,而且所連接的詞之間除了有

8、一個空格或一個標(biāo)點外不得夾有其他的單詞或字母。 information 2W management 可包括 Information technologies and management和 Information management N 算符N 算符是near的縮寫,表示在此算符兩側(cè)的檢索詞必須緊密相連,詞序可顛倒。nN表示兩檢索詞之間最多可以插入n個單詞,且詞序可顛倒。 information N retrieval information 2N retrieval3 截詞檢索截詞檢索就是用截斷的詞的一個局部進(jìn)行的檢索,并認(rèn)為凡滿足這個詞局部中的所有字符(串)的文獻(xiàn),都為命中的文獻(xiàn)。按截斷

9、的位置來分,截詞可有后截斷、前截斷、中截斷三種類型。不同的系統(tǒng)所用的截詞符也不同,常用的有?、$、*等。分為有限截詞(即一個截詞符只代表一個字符)和無限截詞(一個截詞符可代表多個字符)。 (1)后截斷,前方一致。如:comput?表示computer,computers,computing等。(2)前截斷,后方一致。如:?computer表示minicomputer,microcomputers等。(3)中截斷, bas?s= basis bases colo?r 包含 colour(英)和color (美)模糊檢索與精確檢索模糊檢索(fuzzy search)是與“精準(zhǔn)檢索”相對應(yīng)的一個概念

10、,是指搜索系統(tǒng)自動按照用戶輸入關(guān)鍵詞的同義詞進(jìn)行模糊檢索,從而得出較多的檢索結(jié)果。同義詞由系統(tǒng)的管理界面配置。如配置了“電腦”與“computer”為同義詞后,檢索“電腦”,則包含“computer”的網(wǎng)頁也會出現(xiàn)在檢索結(jié)果中。模糊檢索也就是同義詞檢索,用戶在檢索頁面中輸入同義詞中任何一個詞檢索時,只要選中“模糊檢索”復(fù)選框,則該關(guān)鍵詞的所有同義詞信息也都被檢索出來。 精確檢索精確檢索是指檢索詞與檢索字符串完全相等。如檢索作者馬智,僅檢索出作者為馬智的文獻(xiàn) ,作者為“馬智勇”的就不會被檢索出來。模糊檢索模糊檢索結(jié)果精確檢索進(jìn)入單庫檢索請看檢索舉例視頻期刊導(dǎo)航使用CAJ閱讀器和PDF閱讀器202

11、2/7/1939同方知網(wǎng)(北京)技術(shù)有限公司瀏覽器下載點擊文章篇名,進(jìn)入知網(wǎng)節(jié)頁面:CAJ下載的優(yōu)勢:占用空間小下載速度快內(nèi)嵌專業(yè)詞典即時工具書釋義個性化編輯文獻(xiàn)文檔定位功能打開大部分PDF文檔并進(jìn)行個性化編輯 2022/7/192022/7/19機(jī)械手以“學(xué)術(shù)趨勢”為例:2022/7/192022/7/19信息檢索過程分析需求確定檢索詞選 擇 信 息 源確定檢索途徑和方法1234實施檢索獲取原始文獻(xiàn)信息檢索過程是從確立檢索需求到信息需求得到滿足的全過程。過程一 :分析需求,確定檢索詞1 明確檢索目的 * 需要關(guān)于某方面的系統(tǒng)詳盡的信息 * 需要關(guān)于某方面的最新信息 * 了解一些片段信息,解決

12、一些具體問題2 明確課題的主題或主要內(nèi)容 要形成若干個既能代表信息需求又具有檢 索意義的關(guān)鍵詞(檢索詞),確定檢索詞之間的關(guān)系3 涉及的學(xué)科范圍4 所需信息的數(shù)量、語種、年代范圍等需求分析:課題一: “赟”這個字的讀音課題二:中西關(guān)系發(fā)展綜述課題三:機(jī)械手的定義課題四:近2年氣動機(jī)械手的新技術(shù)研究課題五:新中國60年城鎮(zhèn)化發(fā)展綜述北大政府管理學(xué)院老師燕繼榮的聯(lián)系方式及近3年發(fā)文情況過程一:檢索詞的確定信息檢索語言分析課題的概念隱含概念的分析核心概念的選取選取檢索詞應(yīng)注意問題主題檢索語言常用的就是關(guān)鍵詞關(guān)鍵詞:從文獻(xiàn)的題目、正文或摘要中抽出的能表達(dá)文獻(xiàn)主題內(nèi)容的具有實質(zhì)意義的語詞。確定關(guān)鍵詞的步

13、驟: a.分析課題,提取概念 b.整理概念,擴(kuò)充同義詞匯 c.運用分析所得詞匯試查,確定課題適用的關(guān) 鍵詞主題檢索語言敘詞:又稱主題詞語言,是指從自然語言中優(yōu)選出來并經(jīng)過規(guī)范化處理的名詞術(shù)語?!皽a(chǎn)腳踏車” “上?!?、“自行車”自然語言主題詞 確定檢索詞分析課題的概念隱含概念的分析核心概念的選取選取檢索詞應(yīng)注意問題分析課題的概念選擇所涉及的主要概念,并找出能代表這些概念的若干個詞或詞組,進(jìn)而分析各概念之間的上、下、左、右關(guān)系,以便制定檢索策略。如課題“政策與行政學(xué)的關(guān)系”可選“政策”、“行政學(xué)”作為關(guān)鍵詞。隱含概念的分析有些課題的實質(zhì)性內(nèi)容很難從課題的名稱上反映出來,其隱含的概念和相關(guān)內(nèi)容需從

14、專業(yè)的角度做深入的分析,才能提煉出確切反映課題內(nèi)容的檢索概念。如“知識產(chǎn)權(quán)保護(hù)”概念中的“知識產(chǎn)權(quán)”一詞隱含著“著作權(quán)”和“版權(quán)”、“工業(yè)產(chǎn)權(quán)”等概念。 核心概念的選取有些檢索詞概念已體現(xiàn)在所使用的數(shù)據(jù)庫中,這些概念應(yīng)予以排除。如World Textiles中“世界”一詞應(yīng)排除。另外有些比較泛指、檢索意義不大的檢索概念,如“發(fā)展”“現(xiàn)狀”“趨勢”等在不是專門檢索綜述類信息時也應(yīng)予以排除。檢索詞選取時應(yīng)注意的幾個問題。檢索詞的選取應(yīng)適當(dāng),具有專指性,涵蓋主要主題概念,意義明確。一般應(yīng)優(yōu)先選擇規(guī)范化主題詞做檢索詞,但為了檢索的專指性也可選用關(guān)鍵詞配合檢索。盡可能地考慮其相關(guān)的同義詞、近義詞作為檢索

15、詞,以保證查全率。如同一概念的幾種表達(dá)方式,同一名詞的單、復(fù)數(shù),動名詞、過去分詞形式,上位概念詞與下位概念詞,化學(xué)物質(zhì)的名稱、元素符號,植物和動物名的英文、拉丁名等。過程二:選擇信息源明確了信息需求之后,信息源的選擇尤為重要,它直接影響著檢索的效率。工欲善其事,必先“選”其器,信息源選擇得當(dāng),就會給人以愉悅的搜索體驗,能夠收到事半功倍的效果。一 北京大學(xué)政府管理學(xué)院碩士招生信息二 該院導(dǎo)師三某一導(dǎo)師的姓名、聯(lián)系方式四 該導(dǎo)師的發(fā)文情況,近3年第一項可以選擇搜索引擎查找二三項可以進(jìn)入北大政府學(xué)院網(wǎng)站查找第四項需要使用CNKI等數(shù)據(jù)庫過程三:選擇檢索途徑和方法檢索途徑信息檢索技術(shù)檢索式的構(gòu)造與調(diào)整

16、 信息檢索途徑(檢索字段)責(zé)任者途徑題名途徑分類途徑主題途徑序號途徑引文途徑檢索式的構(gòu)造與調(diào)整檢索式:是檢索策略的邏輯表達(dá)式,是用來表達(dá)用戶檢索提問的,由基于檢索概念產(chǎn)生的檢索詞和各種組配算符構(gòu)成。 (篇名=聚氯乙烯 or PVC) and 年代=2005-2009過程四:實施檢索獲取原始文獻(xiàn)問題:北大政府管理學(xué)院老師燕繼榮的聯(lián)系方式及近3年發(fā)文情況可分為2個問題:A北大政府管理學(xué)院老師燕繼榮的聯(lián)系方式B北大政府管理學(xué)院燕繼榮近3年發(fā)文情況A北大政府管理學(xué)院老師燕繼榮的聯(lián)系方式利用搜索引擎找到北大政府管理學(xué)院網(wǎng)頁瀏覽找到燕繼榮的聯(lián)系方式北大政府管理學(xué)院燕繼榮近3年發(fā)文情況檢索式: 作者=燕繼榮 AND 單位=北京大學(xué)政府管理學(xué)院 AND (時間=2007-2009)檢索結(jié)果的評價查全率:從數(shù)據(jù)庫中檢出的相關(guān)文獻(xiàn)量與數(shù)據(jù)庫中總文獻(xiàn)量的比率。查準(zhǔn)率:指數(shù)據(jù)庫中檢出的相關(guān)文獻(xiàn)量與檢出的文獻(xiàn)總量的比率。查全率a/a+c100查準(zhǔn)率a/a+b1000查全率檢出的相關(guān)文獻(xiàn)數(shù)系統(tǒng)中的相關(guān)文獻(xiàn)總數(shù)查準(zhǔn)率檢出的相關(guān)文獻(xiàn)數(shù) 檢出的文獻(xiàn)總數(shù)例題:如CNKI數(shù)據(jù)庫中共有 “企業(yè)管理”方面的相關(guān)文獻(xiàn)280篇,而小李同學(xué)在CNKI數(shù)據(jù)庫中只檢索出160篇,而且其檢索出的結(jié)果中還有28篇是不相關(guān)的,那

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論