對(duì)電子環(huán)境下主題控制系統(tǒng)檢索應(yīng)用的思考.ppt_第1頁(yè)
對(duì)電子環(huán)境下主題控制系統(tǒng)檢索應(yīng)用的思考.ppt_第2頁(yè)
對(duì)電子環(huán)境下主題控制系統(tǒng)檢索應(yīng)用的思考.ppt_第3頁(yè)
對(duì)電子環(huán)境下主題控制系統(tǒng)檢索應(yīng)用的思考.ppt_第4頁(yè)
對(duì)電子環(huán)境下主題控制系統(tǒng)檢索應(yīng)用的思考.ppt_第5頁(yè)
已閱讀5頁(yè),還剩55頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

對(duì)電子環(huán)境下主題控制系統(tǒng)檢索應(yīng)用的思考,北京大學(xué)信息管理系馬張華,討論內(nèi)容,在文本檢索、關(guān)鍵詞檢索系統(tǒng)迅速發(fā)展的情況下,基于主題控制詞表的檢索系統(tǒng)還有沒(méi)有價(jià)值?目前的主題標(biāo)引規(guī)則、方法應(yīng)如何發(fā)展,以及研究動(dòng)向等。,主題控制系統(tǒng)檢索應(yīng)用的思考,一、對(duì)詞匯控制系統(tǒng)的重新審視二、控制系統(tǒng)與文本系統(tǒng)性能比較三、文本檢索系統(tǒng)電子環(huán)境下的應(yīng)用以及詞匯控制系統(tǒng)差距四、關(guān)于主題控制系統(tǒng)標(biāo)引實(shí)踐和規(guī)則改進(jìn)的思考,一、對(duì)詞匯控制系統(tǒng)的重新審視,1.1自然語(yǔ)言特點(diǎn)及其控制的必要性;1.2主題分析基礎(chǔ)上的標(biāo)引。,1.1自然語(yǔ)言特點(diǎn)及其控制的必要性-簡(jiǎn)要的標(biāo)引語(yǔ)言類(lèi)型區(qū)分,1.1自然語(yǔ)言特點(diǎn)及其控制的必要性,詞匯控制指根據(jù)標(biāo)引和檢索的需要,對(duì)自然語(yǔ)言的詞匯進(jìn)行選擇、規(guī)范并揭示其相關(guān)性。原因:詞匯量過(guò)大一些詞無(wú)標(biāo)引價(jià)值。(控制方式:選詞)詞匯與概念不一一對(duì)應(yīng):(控制方式:參照、限定、加注一義多詞:計(jì)算機(jī)、電子計(jì)算機(jī)、電腦一詞多義:病毒醫(yī)學(xué)、計(jì)算機(jī)詞義含糊:計(jì)算機(jī)分析分析計(jì)算機(jī)、用計(jì)算機(jī)分析?缺乏明確的結(jié)構(gòu)自然語(yǔ)言詞匯之間關(guān)系的多元性和不確定性,不符合檢索系統(tǒng)的使用特點(diǎn)。(控制方式:建立參照、多種索引系統(tǒng)),1.2主題分析基礎(chǔ)上的標(biāo)引,通過(guò)主題分析弄清文獻(xiàn)有標(biāo)引價(jià)值的主題,有效揭示文獻(xiàn)主題內(nèi)容;結(jié)合主題分析的結(jié)果按照檢索語(yǔ)言及其標(biāo)引規(guī)范,加以標(biāo)識(shí),有助于提供適用的標(biāo)識(shí)。,對(duì)詞匯控制系統(tǒng)的重新重新審視,對(duì)詞匯控制系統(tǒng)的重新審視:1.1自然語(yǔ)言特點(diǎn)及其控制的必要性;1.2主題分析基礎(chǔ)上的標(biāo)引。常識(shí)判斷:詞匯控制和標(biāo)引有助于有效揭示和檢索文獻(xiàn)主題。,二、控制系統(tǒng)與文本系統(tǒng)性能比較,控制語(yǔ)言有沒(méi)有價(jià)值,或詞匯控制是不是必要:兩者的功能討論。檢全率、檢準(zhǔn)率,處理速度、易用性、成本效益。各自的問(wèn)題。兩者對(duì)于文獻(xiàn)的適用性討論。網(wǎng)絡(luò)資源,論文資源,圖書(shū)。使用現(xiàn)狀。,兩者的功能討論。各自的問(wèn)題。,檢全率檢準(zhǔn)率處理速度易用性成本效益在一些方面中是相對(duì)與互補(bǔ)的關(guān)系:如檢全率,控制系統(tǒng)可以進(jìn)行概念檢索、相關(guān)詞擴(kuò)展,文本系統(tǒng)的標(biāo)識(shí)量大,均是檢全因素。應(yīng)結(jié)合具體應(yīng)用討論。,兩者功能的比較與思考:功能的相對(duì)性與互補(bǔ)性,控制系統(tǒng)與文本系統(tǒng)比較功能的相對(duì)性與互補(bǔ)性,兩者對(duì)文獻(xiàn)適用性的討論,不同領(lǐng)域應(yīng)用的情況:圖書(shū)??刂葡到y(tǒng)與相關(guān)字段文本檢索結(jié)合;論文資源。文本檢索是主流,結(jié)合部分控制系統(tǒng);網(wǎng)絡(luò)資源。文本檢索是主流。影響控制使用的因素主要包括:資源數(shù)量與處理能力,成本效益的結(jié)合考慮等。,概要結(jié)論,控制有益于檢全、檢準(zhǔn)、易用性。不利于,處理速度、輸入成本。影響控制使用的因素主要包括:資源數(shù)量與處理能力;成本效益的結(jié)合考慮等。文本系統(tǒng)應(yīng)引入控制;控制系統(tǒng)則應(yīng)加強(qiáng)處理能力,降低成本,應(yīng)用好控制系統(tǒng)的功能。,三、文本檢索系統(tǒng)電子環(huán)境下的應(yīng)用以及詞匯控制系統(tǒng)差距,文本檢索系統(tǒng)的改進(jìn)努力詞匯控制系統(tǒng)的努力與差距,文本系統(tǒng)的改進(jìn)努力:控制的納入,檢索方式:提供簡(jiǎn)單檢索、高級(jí)檢索、專業(yè)檢索等檢索界面。上述方面文本系統(tǒng)略優(yōu);努力提供自然語(yǔ)言檢索能力。(引入句法控制、詞匯控制)檢索排序:多因素結(jié)合提供;多種排序方式的采用;兩者差距不大。(引入多因素控制)檢索優(yōu)化:相關(guān)檢索幫助,百度,Ask;二次檢索;Vivisimo(引入詞匯控制),檢索入口的改進(jìn),以搜索引擎為例:自然語(yǔ)言檢索,還不是智能檢索,檢索排序顯示的發(fā)展與改進(jìn),以網(wǎng)絡(luò)為例,排序顯示的意義:是提高檢準(zhǔn)率的重要手段。采用檢索匹配加權(quán)的形式進(jìn)行排序顯示,可以在保障檢全率的同時(shí),將符合檢索要求的對(duì)象排列在檢索結(jié)果的前列,提高檢準(zhǔn)率。,網(wǎng)絡(luò)系統(tǒng)中檢索排序因素的拓展,目前采用作為排序依據(jù)的加權(quán)方案涉及的因素包括:網(wǎng)頁(yè)中查詢?cè)~匹配數(shù)量網(wǎng)頁(yè)中多個(gè)查詢?cè)~匹配的完備程度匹配單元和分解問(wèn)題匹配詞的接近程度網(wǎng)頁(yè)中術(shù)語(yǔ)的位置e.g.,linktext,bodytext本頁(yè)詞頻和總詞頻之比指向本頁(yè)的鎖定文本指向本頁(yè)的鏈接分析有時(shí),點(diǎn)擊分析對(duì)于新網(wǎng)頁(yè),結(jié)合考慮新鮮度問(wèn)題關(guān)于商業(yè)因素。例如:某些系統(tǒng)如發(fā)現(xiàn)檢索對(duì)象與人為增加檢索要素的商業(yè)公司網(wǎng)站有聯(lián)系,則不予排列等。,鏈接控制作為重要性測(cè)量(略),例:每一網(wǎng)頁(yè)從100分開(kāi)始。按入鏈分?jǐn)?shù)重新計(jì)算。延續(xù)計(jì)算直到分?jǐn)?shù)不再變化。,網(wǎng)絡(luò)社區(qū)的識(shí)別與應(yīng)用,網(wǎng)絡(luò)關(guān)鍵詞檢索技術(shù)的特點(diǎn)與傳統(tǒng)文本檢索的不同,主要表現(xiàn)在:1.重視查準(zhǔn)因素,忽略檢全因素。2.結(jié)合網(wǎng)絡(luò)文獻(xiàn)的特點(diǎn),擴(kuò)大了檢索算法的應(yīng)用,提高結(jié)合多種因素的應(yīng)用能力。3.更加重視易用性。,檢索優(yōu)化的發(fā)展,檢索優(yōu)化的含義與必要性檢索優(yōu)化的常見(jiàn)形式,檢索優(yōu)化的含義和必要性,檢索優(yōu)化指通過(guò)對(duì)用戶檢索提問(wèn)提出供選擇的方案,以交互的方式,優(yōu)化檢索查詢,以改進(jìn)檢索結(jié)果。優(yōu)化的原因:找不到準(zhǔn)確表達(dá)檢索內(nèi)容的詞匯;關(guān)鍵詞于進(jìn)行檢索的內(nèi)容之間可能存在著差距,需要在檢索過(guò)程中進(jìn)行調(diào)整;表達(dá)不夠?qū)V福瑳](méi)有確切表達(dá)出用戶潛在的檢索需求。用戶不了解邏輯表達(dá)式的書(shū)寫(xiě)方法,從而影響檢索表達(dá),檢索深化的問(wèn)題。檢索調(diào)查表明,多數(shù)檢索只用一個(gè)詞進(jìn)行。檢索調(diào)整。需要根據(jù)改變檢索方向,進(jìn)行相關(guān)查找的問(wèn)題。多種要素檢索。用戶很難同時(shí)照顧到。,搜索引擎常用檢索優(yōu)化的形式,利用用戶檢索查詢,提供檢索查詢的優(yōu)化。檢索糾錯(cuò)功能。將聚類(lèi)算法的結(jié)果作為二次檢索的依據(jù)。Similarto。,百度的檢索優(yōu)化功能,自動(dòng)聚類(lèi)基礎(chǔ)上的檢索幫助,自動(dòng)聚類(lèi)基礎(chǔ)上的二次檢索幫助,萬(wàn)方檢索優(yōu)化實(shí)例,同方的檢索優(yōu)化實(shí)例,同方檢索優(yōu)化實(shí)例,文本系統(tǒng)的改進(jìn)努力:控制的納入,檢索方式:提供簡(jiǎn)單檢索、高級(jí)檢索、專業(yè)檢索等檢索界面。上述方面文本系統(tǒng)略優(yōu);努力提供自然語(yǔ)言檢索能力。(引入句法控制、詞匯控制)檢索排序:多因素結(jié)合提供;多種排序方式的采用;兩者差距不大。(引入多因素控制)檢索優(yōu)化:相關(guān)檢索幫助,百度,Ask;二次檢索;Vivisimo(引入詞匯控制)。,文本檢索系統(tǒng)的改進(jìn)努力,文本控制的特點(diǎn):采用后控的方式;多方面,多角度,詞法、句法;多因素;文本控制的不足:詞匯控制不嚴(yán)格;一些控制的方式仍有待優(yōu)化、改進(jìn),如自動(dòng)聚類(lèi),檢索語(yǔ)句切分等,仍然在發(fā)展探索中總體評(píng)價(jià):作了大量努力,有明顯效果。,控制系統(tǒng)的努力與差距,控制系統(tǒng)加強(qiáng)處理能力,降低成本的努力:聯(lián)合編目;自動(dòng)標(biāo)引試驗(yàn)??刂葡到y(tǒng)的不足:檢索語(yǔ)言能力的應(yīng)用與開(kāi)發(fā)不足,優(yōu)勢(shì)未得到發(fā)揮。,檢索語(yǔ)言能力的應(yīng)用與開(kāi)發(fā)的差距,可在詞表和標(biāo)引數(shù)據(jù)基礎(chǔ)上提供,而未提供的功能包括:檢索入口方面:入口詞檢索;以瀏覽形式提供詞表詞的問(wèn)題;相關(guān)詞的提供問(wèn)題。檢索優(yōu)化方面:主題檢索幫助方面可以提供的,如結(jié)合結(jié)合分類(lèi)等提供;相關(guān)主題詞提供;分類(lèi)的二次檢索,結(jié)合主題標(biāo)題形式的二次檢索幫助等。,詞匯控制系統(tǒng)的差距何在,A,主要是檢索端或檢索應(yīng)用方面的差距。B,檢索端的重要性:功能是通過(guò)檢索界面實(shí)現(xiàn)的,未實(shí)現(xiàn)的功能只是潛在能力;且無(wú)法在應(yīng)用基礎(chǔ)上進(jìn)一步改進(jìn)。C,兩者性能各有優(yōu)缺點(diǎn)。但自然語(yǔ)言系統(tǒng)努力改進(jìn),控制系統(tǒng)改進(jìn)不力,檢索端成為短板。,控制系統(tǒng)檢索端差距的原因,對(duì)檢索語(yǔ)言應(yīng)用端的重視不夠,停留在檢索語(yǔ)言編制和標(biāo)引階段;缺乏電子環(huán)境下應(yīng)用的研究;與計(jì)算機(jī)軟件編制人員溝通不夠;應(yīng)用基礎(chǔ)上的改進(jìn)不夠-持續(xù)發(fā)展意識(shí)不夠等。應(yīng)汲取網(wǎng)絡(luò)、文本數(shù)據(jù)庫(kù)等的發(fā)展,結(jié)合主題語(yǔ)言的特點(diǎn)改進(jìn)。,維基百科的分類(lèi)界面-檢索界面的多樣性,比較基礎(chǔ)上的思考,詞匯控制是有價(jià)值的,文本檢索系統(tǒng)改進(jìn)的手段之一是引入詞匯控制;基于詞匯控制的檢索系統(tǒng)的不足不是詞匯控制造成的,而是檢索應(yīng)用的開(kāi)發(fā)不充分的緣故,目前控制系統(tǒng)的檢索界面應(yīng)向文本系統(tǒng)學(xué)習(xí),結(jié)合控制語(yǔ)言的特點(diǎn)加以開(kāi)發(fā)。,四關(guān)于主題控制系統(tǒng)標(biāo)引實(shí)踐和規(guī)則改進(jìn)的思考,基本看法:標(biāo)引方法和規(guī)則是根據(jù)應(yīng)用需要確定的,應(yīng)結(jié)合電子環(huán)境下的實(shí)踐發(fā)展、改進(jìn)和調(diào)整。在電子環(huán)境下檢索系統(tǒng)的探索中,圖書(shū)館書(shū)目檢索系統(tǒng)、文獻(xiàn)數(shù)據(jù)庫(kù)系統(tǒng)、網(wǎng)絡(luò)檢索系統(tǒng)正經(jīng)歷一個(gè)后者向前者學(xué)習(xí),超過(guò)前者,前者反過(guò)來(lái)學(xué)習(xí)后者的過(guò)程。不僅要向國(guó)外的同行學(xué)習(xí),而且要善于向網(wǎng)絡(luò)、文獻(xiàn)數(shù)據(jù)庫(kù)的檢索發(fā)展學(xué)習(xí);但向網(wǎng)絡(luò)學(xué)習(xí)并非全盤(pán)否定自己。,理論、方法、規(guī)則的改進(jìn)問(wèn)題,想到的一些問(wèn)題:檢索應(yīng)用方式的優(yōu)化改進(jìn)問(wèn)題;使用方式以及相應(yīng)規(guī)則的調(diào)整問(wèn)題,比如說(shuō):是不是建立標(biāo)題;輪排還要不要?與標(biāo)引規(guī)則。還要不要控制,自由詞的應(yīng)用問(wèn)題,入口詞的問(wèn)題;特定主題類(lèi)型標(biāo)引規(guī)則的調(diào)整問(wèn)題;詞表的應(yīng)用問(wèn)題,如作為切分工具;詞表系統(tǒng)的構(gòu)建層次問(wèn)題,如:wordnet關(guān)鍵詞敘詞一檢索系統(tǒng)中不同特點(diǎn)檢索系統(tǒng)之間的結(jié)合和分工問(wèn)題。不同系統(tǒng)之間兼容與互操作問(wèn)題。其他問(wèn)題,如主題標(biāo)引中中文分面公式問(wèn)題。MARC格式的適用性和改造問(wèn)題,靈活性問(wèn)題,如輪排的處理;XML語(yǔ)言應(yīng)用問(wèn)題。,控制系統(tǒng)的檢索應(yīng)用的改進(jìn)問(wèn)題,想到的幾個(gè)基本功能,如:檢索入口界面詞表瀏覽功能的提供;入口詞檢索功能的采用,自然語(yǔ)言檢索方式的加強(qiáng);檢索優(yōu)化功能的開(kāi)發(fā),如結(jié)合控制語(yǔ)言的二次檢索功能,包括標(biāo)題詞瀏覽等,相關(guān)詞的提供等;一檢索系統(tǒng)中不同特點(diǎn)檢索方法之間的結(jié)合和分工問(wèn)題。不同系統(tǒng)之間兼容與互操作問(wèn)題。其他方法的引入等。如用戶因素等。,結(jié)合使用方式的相應(yīng)標(biāo)引處理規(guī)則的思考或調(diào)整,如:,是不是建立標(biāo)題;還要不要輪排?(文本系統(tǒng)緩存中的先組標(biāo)題保留)自由詞的應(yīng)用與控制問(wèn)題,結(jié)合檢索詞的入口詞拓展問(wèn)題;特定主題類(lèi)型標(biāo)引規(guī)則的調(diào)整問(wèn)題;如地區(qū),文學(xué)、藝術(shù),特殊文獻(xiàn)類(lèi)型等;主題標(biāo)引中中文分面公式問(wèn)題;MARC格式的適用性和改造問(wèn)題,靈活性問(wèn)題,如輪排的處理;,是否建立標(biāo)題、輪排,關(guān)于輪排模式。國(guó)內(nèi)采用輪替法輪排:ABCDBACDCABDDABC例:電子計(jì)算機(jī)硬磁盤(pán)生產(chǎn)工藝硬磁盤(pán)電子計(jì)算機(jī)生產(chǎn)工藝使用“:”、“,”連接的主題詞,輪排中隨原連接的詞移動(dòng)。例:小說(shuō)語(yǔ)言學(xué):美學(xué)語(yǔ)言學(xué):美學(xué)小說(shuō)美學(xué):語(yǔ)言學(xué)小說(shuō)聯(lián)結(jié)主題的輪排,必要時(shí)對(duì)連接詞應(yīng)作適當(dāng)調(diào)整。輪排模式在檢索優(yōu)化中有使用價(jià)值。,特定主題類(lèi)型標(biāo)引規(guī)則的調(diào)整問(wèn)題;如地區(qū),等,地區(qū)應(yīng)該標(biāo)引中直接標(biāo)引和間接標(biāo)引的應(yīng)用效果以及規(guī)則的設(shè)置。(類(lèi)似的如時(shí)代標(biāo)引以及應(yīng)用等)城市地理廣州地方志浙江桐鄉(xiāng)雕塑羅馬旅游指南德國(guó)科隆,主題標(biāo)引中中文分面公式問(wèn)題;,國(guó)內(nèi)主題分面公式歸納為:主體因素(研究對(duì)象等中心主題概念)、方面因素或限定因素(成分、材料、方法、過(guò)程、條件、狀態(tài)、尺度、性質(zhì)等對(duì)主體因素研究方面(角度)的說(shuō)明或限定因素)、空間因素、時(shí)間因素、文獻(xiàn)類(lèi)型等。與阮岡納贊,P;M:ES.T;輪(round),層(level),相(phase)等概念構(gòu)成的比較完善的主題分析系統(tǒng)之間的差異。,通用引用次序,阮岡納贊的五個(gè)基本范疇本體(personality)-物質(zhì)(material)-動(dòng)力(energy)-空間(space)-時(shí)間(time)輪(round)、層(level)、相(phase):同一范疇中,如主題特征不止一個(gè),則可分析出二層本體、三層本體,二層物質(zhì)、三層物質(zhì),用、,、表示。如動(dòng)力后再出現(xiàn)本體、物質(zhì),則稱為第二輪本體、第二輪物質(zhì),用、表示。如,“合金對(duì)直升飛機(jī)起落架的加工”可標(biāo)引為:直升飛機(jī)起落架加工車(chē)刀合金鋼,其他一些與檢索語(yǔ)言應(yīng)用相關(guān)的問(wèn)題,一檢索系統(tǒng)中不同特點(diǎn)檢索系統(tǒng)之間的結(jié)合和分工問(wèn)題。不同系統(tǒng)之間兼容與互操作問(wèn)題。詞表的應(yīng)用問(wèn)題,如切分工具、用以自然語(yǔ)言檢索等;詞表的層次問(wèn)題,如:wordnet關(guān)鍵詞敘詞;標(biāo)識(shí)語(yǔ)言如XML語(yǔ)言應(yīng)用問(wèn)題,XML語(yǔ)言可以了解一些。關(guān)于ontology。,PekingUniversityLibraryP.R.China-Beijing1902-PekingUniversityLibrarytext/htmlPekingUniversityLibrary1996-10-25,XML記錄北大圖書(shū)館網(wǎng)站示例,Libraryhomepage,briefintroduction,electronicresources,OPAC,UserGuide,News,digitallibrary,Inter-libraryLoan,FAQ,Navigations,Focus,Usertrainingprogram,CALIS,CAIchi,TitlePekingUniversityLibraryIdentifier.URIType.OCLCgTextdataTypetext/html;charset=gb2312Coverage.spatialP.R.China-BeijingCoverage.temporal1902-CPersonalPekingUniversityLibraryDate.created1996-10-25DescriptionLibraryhomepage,briefintroduction,electronicresources,OPAC,UserGuide,News,digitallibrary,Inter-libraryLoan,FAQ,Navigations,Focus,Usertrainingprogram,CALIS,CAIFormattext/htmlLanguage.ISO639-2chiPublisherPekingUniversityLibraryRelation.hasVersion,知識(shí)組織系統(tǒng)(KO

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論