




已閱讀5頁,還剩55頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
對電子環(huán)境下主題控制系統(tǒng)檢索應用的思考,北京大學信息管理系馬張華,討論內(nèi)容,在文本檢索、關鍵詞檢索系統(tǒng)迅速發(fā)展的情況下,基于主題控制詞表的檢索系統(tǒng)還有沒有價值?目前的主題標引規(guī)則、方法應如何發(fā)展,以及研究動向等。,主題控制系統(tǒng)檢索應用的思考,一、對詞匯控制系統(tǒng)的重新審視二、控制系統(tǒng)與文本系統(tǒng)性能比較三、文本檢索系統(tǒng)電子環(huán)境下的應用以及詞匯控制系統(tǒng)差距四、關于主題控制系統(tǒng)標引實踐和規(guī)則改進的思考,一、對詞匯控制系統(tǒng)的重新審視,1.1自然語言特點及其控制的必要性;1.2主題分析基礎上的標引。,1.1自然語言特點及其控制的必要性-簡要的標引語言類型區(qū)分,1.1自然語言特點及其控制的必要性,詞匯控制指根據(jù)標引和檢索的需要,對自然語言的詞匯進行選擇、規(guī)范并揭示其相關性。原因:詞匯量過大一些詞無標引價值。(控制方式:選詞)詞匯與概念不一一對應:(控制方式:參照、限定、加注一義多詞:計算機、電子計算機、電腦一詞多義:病毒醫(yī)學、計算機詞義含糊:計算機分析分析計算機、用計算機分析?缺乏明確的結構自然語言詞匯之間關系的多元性和不確定性,不符合檢索系統(tǒng)的使用特點。(控制方式:建立參照、多種索引系統(tǒng)),1.2主題分析基礎上的標引,通過主題分析弄清文獻有標引價值的主題,有效揭示文獻主題內(nèi)容;結合主題分析的結果按照檢索語言及其標引規(guī)范,加以標識,有助于提供適用的標識。,對詞匯控制系統(tǒng)的重新重新審視,對詞匯控制系統(tǒng)的重新審視:1.1自然語言特點及其控制的必要性;1.2主題分析基礎上的標引。常識判斷:詞匯控制和標引有助于有效揭示和檢索文獻主題。,二、控制系統(tǒng)與文本系統(tǒng)性能比較,控制語言有沒有價值,或詞匯控制是不是必要:兩者的功能討論。檢全率、檢準率,處理速度、易用性、成本效益。各自的問題。兩者對于文獻的適用性討論。網(wǎng)絡資源,論文資源,圖書。使用現(xiàn)狀。,兩者的功能討論。各自的問題。,檢全率檢準率處理速度易用性成本效益在一些方面中是相對與互補的關系:如檢全率,控制系統(tǒng)可以進行概念檢索、相關詞擴展,文本系統(tǒng)的標識量大,均是檢全因素。應結合具體應用討論。,兩者功能的比較與思考:功能的相對性與互補性,控制系統(tǒng)與文本系統(tǒng)比較功能的相對性與互補性,兩者對文獻適用性的討論,不同領域應用的情況:圖書??刂葡到y(tǒng)與相關字段文本檢索結合;論文資源。文本檢索是主流,結合部分控制系統(tǒng);網(wǎng)絡資源。文本檢索是主流。影響控制使用的因素主要包括:資源數(shù)量與處理能力,成本效益的結合考慮等。,概要結論,控制有益于檢全、檢準、易用性。不利于,處理速度、輸入成本。影響控制使用的因素主要包括:資源數(shù)量與處理能力;成本效益的結合考慮等。文本系統(tǒng)應引入控制;控制系統(tǒng)則應加強處理能力,降低成本,應用好控制系統(tǒng)的功能。,三、文本檢索系統(tǒng)電子環(huán)境下的應用以及詞匯控制系統(tǒng)差距,文本檢索系統(tǒng)的改進努力詞匯控制系統(tǒng)的努力與差距,文本系統(tǒng)的改進努力:控制的納入,檢索方式:提供簡單檢索、高級檢索、專業(yè)檢索等檢索界面。上述方面文本系統(tǒng)略優(yōu);努力提供自然語言檢索能力。(引入句法控制、詞匯控制)檢索排序:多因素結合提供;多種排序方式的采用;兩者差距不大。(引入多因素控制)檢索優(yōu)化:相關檢索幫助,百度,Ask;二次檢索;Vivisimo(引入詞匯控制),檢索入口的改進,以搜索引擎為例:自然語言檢索,還不是智能檢索,檢索排序顯示的發(fā)展與改進,以網(wǎng)絡為例,排序顯示的意義:是提高檢準率的重要手段。采用檢索匹配加權的形式進行排序顯示,可以在保障檢全率的同時,將符合檢索要求的對象排列在檢索結果的前列,提高檢準率。,網(wǎng)絡系統(tǒng)中檢索排序因素的拓展,目前采用作為排序依據(jù)的加權方案涉及的因素包括:網(wǎng)頁中查詢詞匹配數(shù)量網(wǎng)頁中多個查詢詞匹配的完備程度匹配單元和分解問題匹配詞的接近程度網(wǎng)頁中術語的位置e.g.,linktext,bodytext本頁詞頻和總詞頻之比指向本頁的鎖定文本指向本頁的鏈接分析有時,點擊分析對于新網(wǎng)頁,結合考慮新鮮度問題關于商業(yè)因素。例如:某些系統(tǒng)如發(fā)現(xiàn)檢索對象與人為增加檢索要素的商業(yè)公司網(wǎng)站有聯(lián)系,則不予排列等。,鏈接控制作為重要性測量(略),例:每一網(wǎng)頁從100分開始。按入鏈分數(shù)重新計算。延續(xù)計算直到分數(shù)不再變化。,網(wǎng)絡社區(qū)的識別與應用,網(wǎng)絡關鍵詞檢索技術的特點與傳統(tǒng)文本檢索的不同,主要表現(xiàn)在:1.重視查準因素,忽略檢全因素。2.結合網(wǎng)絡文獻的特點,擴大了檢索算法的應用,提高結合多種因素的應用能力。3.更加重視易用性。,檢索優(yōu)化的發(fā)展,檢索優(yōu)化的含義與必要性檢索優(yōu)化的常見形式,檢索優(yōu)化的含義和必要性,檢索優(yōu)化指通過對用戶檢索提問提出供選擇的方案,以交互的方式,優(yōu)化檢索查詢,以改進檢索結果。優(yōu)化的原因:找不到準確表達檢索內(nèi)容的詞匯;關鍵詞于進行檢索的內(nèi)容之間可能存在著差距,需要在檢索過程中進行調整;表達不夠專指,沒有確切表達出用戶潛在的檢索需求。用戶不了解邏輯表達式的書寫方法,從而影響檢索表達,檢索深化的問題。檢索調查表明,多數(shù)檢索只用一個詞進行。檢索調整。需要根據(jù)改變檢索方向,進行相關查找的問題。多種要素檢索。用戶很難同時照顧到。,搜索引擎常用檢索優(yōu)化的形式,利用用戶檢索查詢,提供檢索查詢的優(yōu)化。檢索糾錯功能。將聚類算法的結果作為二次檢索的依據(jù)。Similarto。,百度的檢索優(yōu)化功能,自動聚類基礎上的檢索幫助,自動聚類基礎上的二次檢索幫助,萬方檢索優(yōu)化實例,同方的檢索優(yōu)化實例,同方檢索優(yōu)化實例,文本系統(tǒng)的改進努力:控制的納入,檢索方式:提供簡單檢索、高級檢索、專業(yè)檢索等檢索界面。上述方面文本系統(tǒng)略優(yōu);努力提供自然語言檢索能力。(引入句法控制、詞匯控制)檢索排序:多因素結合提供;多種排序方式的采用;兩者差距不大。(引入多因素控制)檢索優(yōu)化:相關檢索幫助,百度,Ask;二次檢索;Vivisimo(引入詞匯控制)。,文本檢索系統(tǒng)的改進努力,文本控制的特點:采用后控的方式;多方面,多角度,詞法、句法;多因素;文本控制的不足:詞匯控制不嚴格;一些控制的方式仍有待優(yōu)化、改進,如自動聚類,檢索語句切分等,仍然在發(fā)展探索中總體評價:作了大量努力,有明顯效果。,控制系統(tǒng)的努力與差距,控制系統(tǒng)加強處理能力,降低成本的努力:聯(lián)合編目;自動標引試驗??刂葡到y(tǒng)的不足:檢索語言能力的應用與開發(fā)不足,優(yōu)勢未得到發(fā)揮。,檢索語言能力的應用與開發(fā)的差距,可在詞表和標引數(shù)據(jù)基礎上提供,而未提供的功能包括:檢索入口方面:入口詞檢索;以瀏覽形式提供詞表詞的問題;相關詞的提供問題。檢索優(yōu)化方面:主題檢索幫助方面可以提供的,如結合結合分類等提供;相關主題詞提供;分類的二次檢索,結合主題標題形式的二次檢索幫助等。,詞匯控制系統(tǒng)的差距何在,A,主要是檢索端或檢索應用方面的差距。B,檢索端的重要性:功能是通過檢索界面實現(xiàn)的,未實現(xiàn)的功能只是潛在能力;且無法在應用基礎上進一步改進。C,兩者性能各有優(yōu)缺點。但自然語言系統(tǒng)努力改進,控制系統(tǒng)改進不力,檢索端成為短板。,控制系統(tǒng)檢索端差距的原因,對檢索語言應用端的重視不夠,停留在檢索語言編制和標引階段;缺乏電子環(huán)境下應用的研究;與計算機軟件編制人員溝通不夠;應用基礎上的改進不夠-持續(xù)發(fā)展意識不夠等。應汲取網(wǎng)絡、文本數(shù)據(jù)庫等的發(fā)展,結合主題語言的特點改進。,維基百科的分類界面-檢索界面的多樣性,比較基礎上的思考,詞匯控制是有價值的,文本檢索系統(tǒng)改進的手段之一是引入詞匯控制;基于詞匯控制的檢索系統(tǒng)的不足不是詞匯控制造成的,而是檢索應用的開發(fā)不充分的緣故,目前控制系統(tǒng)的檢索界面應向文本系統(tǒng)學習,結合控制語言的特點加以開發(fā)。,四關于主題控制系統(tǒng)標引實踐和規(guī)則改進的思考,基本看法:標引方法和規(guī)則是根據(jù)應用需要確定的,應結合電子環(huán)境下的實踐發(fā)展、改進和調整。在電子環(huán)境下檢索系統(tǒng)的探索中,圖書館書目檢索系統(tǒng)、文獻數(shù)據(jù)庫系統(tǒng)、網(wǎng)絡檢索系統(tǒng)正經(jīng)歷一個后者向前者學習,超過前者,前者反過來學習后者的過程。不僅要向國外的同行學習,而且要善于向網(wǎng)絡、文獻數(shù)據(jù)庫的檢索發(fā)展學習;但向網(wǎng)絡學習并非全盤否定自己。,理論、方法、規(guī)則的改進問題,想到的一些問題:檢索應用方式的優(yōu)化改進問題;使用方式以及相應規(guī)則的調整問題,比如說:是不是建立標題;輪排還要不要?與標引規(guī)則。還要不要控制,自由詞的應用問題,入口詞的問題;特定主題類型標引規(guī)則的調整問題;詞表的應用問題,如作為切分工具;詞表系統(tǒng)的構建層次問題,如:wordnet關鍵詞敘詞一檢索系統(tǒng)中不同特點檢索系統(tǒng)之間的結合和分工問題。不同系統(tǒng)之間兼容與互操作問題。其他問題,如主題標引中中文分面公式問題。MARC格式的適用性和改造問題,靈活性問題,如輪排的處理;XML語言應用問題。,控制系統(tǒng)的檢索應用的改進問題,想到的幾個基本功能,如:檢索入口界面詞表瀏覽功能的提供;入口詞檢索功能的采用,自然語言檢索方式的加強;檢索優(yōu)化功能的開發(fā),如結合控制語言的二次檢索功能,包括標題詞瀏覽等,相關詞的提供等;一檢索系統(tǒng)中不同特點檢索方法之間的結合和分工問題。不同系統(tǒng)之間兼容與互操作問題。其他方法的引入等。如用戶因素等。,結合使用方式的相應標引處理規(guī)則的思考或調整,如:,是不是建立標題;還要不要輪排?(文本系統(tǒng)緩存中的先組標題保留)自由詞的應用與控制問題,結合檢索詞的入口詞拓展問題;特定主題類型標引規(guī)則的調整問題;如地區(qū),文學、藝術,特殊文獻類型等;主題標引中中文分面公式問題;MARC格式的適用性和改造問題,靈活性問題,如輪排的處理;,是否建立標題、輪排,關于輪排模式。國內(nèi)采用輪替法輪排:ABCDBACDCABDDABC例:電子計算機硬磁盤生產(chǎn)工藝硬磁盤電子計算機生產(chǎn)工藝使用“:”、“,”連接的主題詞,輪排中隨原連接的詞移動。例:小說語言學:美學語言學:美學小說美學:語言學小說聯(lián)結主題的輪排,必要時對連接詞應作適當調整。輪排模式在檢索優(yōu)化中有使用價值。,特定主題類型標引規(guī)則的調整問題;如地區(qū),等,地區(qū)應該標引中直接標引和間接標引的應用效果以及規(guī)則的設置。(類似的如時代標引以及應用等)城市地理廣州地方志浙江桐鄉(xiāng)雕塑羅馬旅游指南德國科隆,主題標引中中文分面公式問題;,國內(nèi)主題分面公式歸納為:主體因素(研究對象等中心主題概念)、方面因素或限定因素(成分、材料、方法、過程、條件、狀態(tài)、尺度、性質等對主體因素研究方面(角度)的說明或限定因素)、空間因素、時間因素、文獻類型等。與阮岡納贊,P;M:ES.T;輪(round),層(level),相(phase)等概念構成的比較完善的主題分析系統(tǒng)之間的差異。,通用引用次序,阮岡納贊的五個基本范疇本體(personality)-物質(material)-動力(energy)-空間(space)-時間(time)輪(round)、層(level)、相(phase):同一范疇中,如主題特征不止一個,則可分析出二層本體、三層本體,二層物質、三層物質,用、,、表示。如動力后再出現(xiàn)本體、物質,則稱為第二輪本體、第二輪物質,用、表示。如,“合金對直升飛機起落架的加工”可標引為:直升飛機起落架加工車刀合金鋼,其他一些與檢索語言應用相關的問題,一檢索系統(tǒng)中不同特點檢索系統(tǒng)之間的結合和分工問題。不同系統(tǒng)之間兼容與互操作問題。詞表的應用問題,如切分工具、用以自然語言檢索等;詞表的層次問題,如:wordnet關鍵詞敘詞;標識語言如XML語言應用問題,XML語言可以了解一些。關于ontology。,PekingUniversityLibraryP.R.China-Beijing1902-PekingUniversityLibrarytext/htmlPekingUniversityLibrary1996-10-25,XML記錄北大圖書館網(wǎng)站示例,Libraryhomepage,briefintroduction,electronicresources,OPAC,UserGuide,News,digitallibrary,Inter-libraryLoan,FAQ,Navigations,Focus,Usertrainingprogram,CALIS,CAIchi,TitlePekingUniversityLibraryIdentifier.URIType.OCLCgTextdataTypetext/html;charset=gb2312Coverage.spatialP.R.China-BeijingCoverage.temporal1902-CPersonalPekingUniversityLibraryDate.created1996-10-25DescriptionLibraryhomepage,briefintroduction,electronicresources,OPAC,UserGuide,News,digitallibrary,Inter-libraryLoan,FAQ,Navigations,Focus,Usertrainingprogram,CALIS,CAIFormattext/htmlLanguage.ISO639-2chiPublisherPekingUniversityLibraryRelation.hasVersion,知識組織系統(tǒng)(KO
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 六一活動貓屋活動方案
- 六一活動闖關活動方案
- 六一游戲活動集體活動方案
- 六一瓷磚活動方案
- 六一綜藝大賽活動方案
- 六一趣味采訪活動方案
- 六一釣魚活動方案
- 六安新安中學活動方案
- 醫(yī)師考試試題及答案詳解
- 醫(yī)生證考試試題及答案
- 初級消控員測試題及答案
- 宣講政策課件
- 居民組織法試題及答案
- 國家行業(yè)領域重大事故隱患判定標準(2025年5月)解讀培訓
- 綠化草皮種植合同協(xié)議書
- 學?;驹O施管理制度
- 工程測試技術試題及答案
- 無痛胃鏡操作急救知識要點
- 2025年下半年湖南永州藍山縣事業(yè)單位招聘工作人員38人易考易錯模擬試題(共500題)試卷后附參考答案
- 火鍋店員工合同協(xié)議書
- 護理質控中心建設與運營
評論
0/150
提交評論