文本處理與信息檢索_第1頁
文本處理與信息檢索_第2頁
文本處理與信息檢索_第3頁
文本處理與信息檢索_第4頁
文本處理與信息檢索_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

文本處理與信息檢索第二講文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第1頁!非傳統(tǒng)的IR方法傳統(tǒng)IR檢索模型的缺陷1、單個(gè)單詞不包含用語言編碼的所有信息2、一個(gè)單詞可能有多種含義,即一詞多義3、大量的單詞可能具有相似的含義,即多詞一義4、詞組的含義往往超過其中的單詞含義的總和5、對詞組的檢索出現(xiàn)冗余信息6、查詢還是基于關(guān)鍵字,不能對句子進(jìn)行分析查詢7、不能實(shí)現(xiàn)跨語言檢索文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第2頁!改善IR性能的方法將NLP(自然語言處理)技術(shù)運(yùn)用于IR中使用領(lǐng)域知識(shí)改善IR性能文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第3頁!基于自然語言處理的智能搜索引擎體系結(jié)構(gòu)框圖自然語言處理器知識(shí)庫用戶接口概念提取文檔處理查詢擴(kuò)展個(gè)性化處理自動(dòng)文摘web網(wǎng)頁下載索引模塊索引數(shù)據(jù)庫檢索模塊查詢修正初始查詢檢索結(jié)果按權(quán)排序反饋查詢S+S-文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第4頁!概念提取利用設(shè)定程序?qū)τ脩糨斎氲牟樵冋Z句進(jìn)行自動(dòng)分詞,并經(jīng)過句法及語義分析,去掉無用的虛詞,獲得能正確表達(dá)查詢句意思的概念性詞或詞組、短語,并以此作為查詢的基本輸入概念到檢索數(shù)據(jù)庫進(jìn)行檢索。概念提取的關(guān)鍵是要有一套完美的語義分析系統(tǒng)文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第5頁!查詢擴(kuò)展查詢擴(kuò)展將用戶輸入的原始查詢請求經(jīng)過概念提取后,自動(dòng)地根據(jù)概念集Q中的內(nèi)容,去查詢同義詞典,加入新的概念。擴(kuò)展的概念由Q中各概念的同義詞組成,即最終的查詢請求是由Q中各概念的同義詞組成。Q={t1,t2,…tn}經(jīng)查詢擴(kuò)展以后為U={T(t1),T(t2),…,T(tn)},其中T(ti)是同義詞典中與ti有相同語義碼的概念集。將U加上頻數(shù)可得U’={(T(t1),f(q,t1)),(T(t2),f(q,t2)),…,(T(tn),f(q,tn))}文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第6頁!U+=={T(t1),T(t2),…,T(tn)}

其中M表示用戶的總計(jì)查詢次數(shù)對中概念的權(quán)值設(shè)一閥值函數(shù)f(q,M),給中的概念實(shí)行剪枝(a為調(diào)解系數(shù))

與對應(yīng)的概念集記為U+(M)將此結(jié)果送到索引模塊建立查詢向量文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第7頁!自動(dòng)文摘自動(dòng)文摘是檢索時(shí)返回文檔的簡要概述,是語言理解和語言生成的結(jié)合。理解,就是對文檔中的每一個(gè)語句進(jìn)行句法、語義分析,對全文作篇章分析,然后確定文章的主要意思;生成,則是要選擇恰當(dāng)?shù)脑~匯和句法方式來表達(dá)這個(gè)意思。這對自然語言的要求很高,實(shí)現(xiàn)較為困難目前生成的文摘大多是摘錄性的,即把全文中能表達(dá)文章主要意思的句子挑選出來,合在一起作為文摘文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第8頁!使用域知識(shí)改善IR性能在一個(gè)基于知識(shí)的IR模型中,針對一個(gè)域的信息,稱為域知識(shí),它用于把概念、事件和概念與事件之間的相互關(guān)系模型化例如,對于題目“多媒體信息檢索”,條目“多媒體”、“音頻”、“視頻”、“圖像”、“信息”、“索引”和“檢索”都與該題目有關(guān)。若用屬于該題目的不同權(quán)重值的條目構(gòu)建一個(gè)完整的關(guān)系樹(書上有誤),則含有一個(gè)或多個(gè)這些條目的文檔將具有不同的組合權(quán)重或與題目有關(guān)的相似度??筛鶕?jù)這些相似度進(jìn)行檢索文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第9頁!查全率:測量的是從數(shù)據(jù)庫中檢索相關(guān)信息項(xiàng)的能力查全率=檢索到的相關(guān)項(xiàng)的數(shù)量/數(shù)據(jù)庫中相關(guān)項(xiàng)目的總數(shù)精確度:測量的是檢索的準(zhǔn)確性精確度=檢索到的相關(guān)項(xiàng)的數(shù)量/檢索項(xiàng)總數(shù)文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第10頁!返回的項(xiàng)目數(shù)查全率精確度11/101/122/102/232/102/342/101/253/103/564/104/674/104/784/104/8返回的項(xiàng)目數(shù)查全率精確度95/105/9105/105/10116/106/11127/107/12137/107/13147/107/14158/108/15文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第11頁!不同的IR技術(shù)之間的性能比較以下的研究成果可以直接應(yīng)用于比較不同的IR技術(shù)之間的性能:自動(dòng)索引和人工索引一樣好,但是如果使用自動(dòng)索引和人工索引相結(jié)合的方法,性能會(huì)更好當(dāng)使用相似的查詢時(shí),部分匹配技術(shù)的檢索性能比精確匹配技術(shù)要好(布爾模型)概率模型和向量空間模型具有相似的檢索性能基于集群的檢索技術(shù)和概率模型具有相似的檢索性能,但是它們卻檢索不同的文檔。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第12頁!WWW搜索引擎WWW(worldwideweb)是分布在全世界的相互連接的文檔集合,搜索引擎就是一種從中檢索相關(guān)文檔的工具。為進(jìn)一步了解,我們先介紹兩個(gè)概念:超文本超媒體文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第13頁!超媒體超媒體是超文本的一種擴(kuò)展,因?yàn)樗腻^和節(jié)點(diǎn)可以是圖形、圖像、音頻、視頻以及文本等任何一種媒體。在超媒體中,用戶只需選擇錨,則相關(guān)的節(jié)點(diǎn)就會(huì)出現(xiàn),節(jié)點(diǎn)的位置對用戶是透明的。但如果用戶所選擇節(jié)點(diǎn)的網(wǎng)絡(luò)很慢或很忙,則用戶會(huì)發(fā)現(xiàn)調(diào)出該節(jié)點(diǎn)所需時(shí)間比節(jié)點(diǎn)存儲(chǔ)在本地所需要的時(shí)間要長,因而也可以說節(jié)點(diǎn)的位置對于用戶來說是不完全透明的。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第14頁!WWW的含義術(shù)語有兩種含義包括HTTP和HTML等概念和協(xié)議的集合一個(gè)數(shù)字化的信息空間

HTML(超文本標(biāo)記語言)是把文檔以一種標(biāo)準(zhǔn)的方式進(jìn)行構(gòu)建以便客戶機(jī)正確地解釋和顯示文檔。HTTP(超文本傳輸協(xié)議)是建立在TCP/IP協(xié)議上的一種可靠協(xié)議,實(shí)現(xiàn)了客戶機(jī)與服務(wù)器之間的通信。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第15頁!資源發(fā)現(xiàn)的關(guān)鍵:指定文檔位置在Internet上,文檔的位置是通過使用統(tǒng)一的資源定位器(URL)來制定的URL的一般格式:協(xié)議://服務(wù)器名:[:端口]/文檔名稱URL包括三個(gè)部分:用于訪問文檔的Internet協(xié)議確定文檔服務(wù)器的名稱要檢索文檔的文件名文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第16頁!FTP協(xié)議FTP(FileTransferProtocol):文件傳輸協(xié)議,是用來在不同的計(jì)算機(jī)之間傳輸文件的一種協(xié)議。FTP使得不同電腦類型和不同操作系統(tǒng)間都可以相互拷貝文件,把電腦中的文件系統(tǒng)映射成一個(gè)FTP根下的目錄樹,使得其他的計(jì)算機(jī)用戶可以瀏覽和抓取文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第17頁!Telnet協(xié)議Telnet協(xié)議是一個(gè)遠(yuǎn)程登錄協(xié)議,它提供了在Internet上異構(gòu)網(wǎng)之間傳遞數(shù)據(jù)和控制信息的重要方法,允許一臺(tái)機(jī)器中的程序像訪問本地服務(wù)器那樣訪問遠(yuǎn)程另一臺(tái)主機(jī)中的資源。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第18頁!URL第三部分:要檢索文檔的文件名文件名必須是完整的,包括全部路徑名例如:..au/gindex.html;.au/internet/readme.txt個(gè)URL是指使用HTTP可訪問的服務(wù)器..au的缺省目錄內(nèi)稱為gindex.html的文檔。第二個(gè)URL是指使用FTP可訪問的服務(wù)器.au上的目錄為:“/pub/internet”內(nèi)的稱為readme.txt的文件。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第19頁!組織/瀏覽組織是指決定如何把信息關(guān)聯(lián)起來的人的指導(dǎo)過程,通常通過把文檔放入某種分級結(jié)構(gòu)中來實(shí)現(xiàn)。例如,Internet上的文檔可以根據(jù)它們的主題領(lǐng)域分類。一個(gè)主題領(lǐng)域可包括多個(gè)級別的子領(lǐng)域。瀏覽是指探索資源空間的組織和內(nèi)容或根據(jù)鏈接或URL查看其中的內(nèi)容的相應(yīng)的人所指導(dǎo)的活動(dòng)。瀏覽是信息發(fā)現(xiàn)的一個(gè)緩慢的過程,它特別依賴于信息組織的質(zhì)量。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第20頁!結(jié)論瀏覽和搜索都可用于信息發(fā)現(xiàn)。用戶首先必須進(jìn)行瀏覽以便找到合適的搜索引擎來供自己使用,然后他向服務(wù)器發(fā)布一個(gè)查詢。對應(yīng)于每個(gè)查詢也許會(huì)返回許多文檔。這些文檔通常是根據(jù)查詢和文檔之間的相似性進(jìn)行排序的,用戶必須通過瀏覽判定哪個(gè)文檔有用。Internet上的資源發(fā)現(xiàn)是IR的一個(gè)擴(kuò)展例子。在這種情況下,文檔分布在Internet上的許多服務(wù)器上,使得信息組織、索引和檢索更具有挑戰(zhàn)性。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第21頁!搜索引擎的發(fā)展歷程搜索引擎已成為我們在網(wǎng)上查找信息的基本工具,從搜索引擎的研制發(fā)展過程來看,可以大致分為以下三個(gè)階段:階段,以Yahoo、AltaVista、Excite、Infoseek等搜索引擎為代表,各搜索引擎的開發(fā)力求在數(shù)據(jù)庫覆蓋范圍、檢索響應(yīng)時(shí)間、檢索結(jié)果反饋、用戶界面友好等方面有所突破第二階段,以Metacrawler、Savysearch等集成的搜索引擎為代表,主要目的是綜合各種搜索引擎的長處,盡量減少用戶的檢索過程,提高檢索效率。第三階段,智能化的搜索引擎,這代表著搜索引擎的發(fā)展方向。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第22頁!搜索引擎的結(jié)構(gòu)一個(gè)搜索引擎通常由下面四個(gè)部分組成搜索器(信息采集器)索引器檢索器(搜索引擎軟件)用戶界面文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第23頁!索引器索引器的功能是自動(dòng)理解和分析搜索器所搜索的Web信息,從中抽取能夠表達(dá)所搜索到的網(wǎng)頁內(nèi)容特征的關(guān)鍵字作為索引項(xiàng),用于表示文檔(網(wǎng)頁)以及生成文檔庫的索引表,索引表一般使用某種形式的倒排表,即由索引項(xiàng)查找相應(yīng)的文檔。索引表也可能要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第24頁!用戶接口用戶接口的作用是輸入用戶查詢,顯示查詢結(jié)果,提供用戶相關(guān)反饋機(jī)制,主要目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時(shí)地信息。用戶輸入接口可分為簡單接口和復(fù)雜接口。簡單接口只提供用戶輸入查詢字符串的文本框,復(fù)雜接口可以讓用戶對查詢進(jìn)行限制,如邏輯運(yùn)算(與、或、非)、相近關(guān)系、域名范圍(如.edu、.)、出現(xiàn)位置(如標(biāo)題、內(nèi)容)、信息時(shí)間、長度等文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第25頁!搜索引擎性能評價(jià)標(biāo)準(zhǔn)數(shù)據(jù)庫規(guī)模和內(nèi)容索引方法檢索功能檢索結(jié)果用戶界面其他查準(zhǔn)率(精確度)響應(yīng)時(shí)間具體請參閱《網(wǎng)絡(luò)信息檢索現(xiàn)狀和性能評價(jià)》。不同的評價(jià)標(biāo)準(zhǔn)請參閱《網(wǎng)絡(luò)信息檢索工具性能分析方法研究》。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第26頁!Google工作機(jī)理Google使用高速的分布式爬行器系統(tǒng)中的漫游遍歷器定時(shí)地遍歷網(wǎng)頁,將遍歷到的網(wǎng)頁送到存儲(chǔ)服務(wù)器中。存儲(chǔ)服務(wù)器將這些網(wǎng)頁進(jìn)行無損壓縮處理后存入數(shù)據(jù)庫Repository中,Repository獲得了每個(gè)網(wǎng)頁的完全Html代碼后,對其壓縮后的網(wǎng)頁及URL進(jìn)行分析,記錄下網(wǎng)頁長度,URL,URL長度和網(wǎng)頁內(nèi)容,并賦予每個(gè)網(wǎng)頁一個(gè)文檔號(hào)(docID),以便當(dāng)系統(tǒng)出現(xiàn)故障時(shí),可以及時(shí)完整的進(jìn)行網(wǎng)頁的數(shù)據(jù)恢復(fù)。這兩步完成了信息采集子系統(tǒng)的任務(wù)。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第27頁!索引器除了對網(wǎng)頁中有意義的詞進(jìn)行分析外,還分析網(wǎng)頁的所有超文本鏈接,將其錨文本,URL指向等關(guān)鍵信息存入到錨文檔庫中。索引器生成一個(gè)索引詞表,它包括兩個(gè)部分:關(guān)鍵詞的列表和指針列表,用于與倒排檔文件(倒置的索引文件)相連接索引器還將分析過的網(wǎng)頁編排成一個(gè)與Repository相連接的文檔索引,并記錄下網(wǎng)頁的URL和標(biāo)題,以便可以準(zhǔn)確查找出在Repository中存儲(chǔ)的原網(wǎng)頁內(nèi)容。而且把沒有分析的網(wǎng)頁傳給URL服務(wù)器,以便在下一次工作流程中進(jìn)行索引分析文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第28頁!排序器對數(shù)據(jù)桶的順排檔索引重新進(jìn)行排序,生成以關(guān)鍵詞為索引的倒排檔索引將生成的倒排檔索引與先前由索引器產(chǎn)生的索引詞表相連接生成一個(gè)新的索引詞表供搜索器使用。搜索器的功能是由網(wǎng)頁服務(wù)器實(shí)現(xiàn)的,根據(jù)新產(chǎn)生的索引詞表結(jié)合上述的文檔索引和link數(shù)據(jù)庫計(jì)算網(wǎng)頁的pageRank值來匹配檢索上面這部分實(shí)現(xiàn)了信息分析子系統(tǒng)的功能文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第29頁!Web爬行程序Google上所用的蜘蛛程序,即web爬行程序主要負(fù)責(zé)訪問各種站點(diǎn)。運(yùn)行蜘蛛程序時(shí),只要提供少量的起始頁碼,蜘蛛程序除了會(huì)將網(wǎng)絡(luò)上的信息讀回以外,還將沿著網(wǎng)頁上的超文本鏈接,自動(dòng)訪問網(wǎng)頁鏈接的其他網(wǎng)頁,直至遍歷整個(gè)網(wǎng)站。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第30頁!搜索在GoogleWeb服務(wù)器收到用戶的查詢時(shí),就把它傳遞給搜索器。搜索器對查詢進(jìn)行分析并把它轉(zhuǎn)換成單詞標(biāo)識(shí)符(關(guān)鍵字)。搜索器通常是一個(gè)計(jì)算機(jī)程序,日夜不停的運(yùn)行,它要盡可能多,盡可能快的搜集各種類型的新信息,同時(shí)因?yàn)榛ヂ?lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜索過的舊信息,以避免死鏈接和無效鏈接。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第31頁!知識(shí)庫有類似于人類的背景知識(shí)和相應(yīng)的推理規(guī)則組成詞法及句法知識(shí)語義及語用知識(shí)常識(shí)語料庫詞典數(shù)據(jù)庫禁用詞表反向詞匯統(tǒng)計(jì)表文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第32頁!經(jīng)過概念提取后,用戶輸入被處理成一系列獨(dú)立的詞和短語的集合,在此統(tǒng)稱為概念,取其不同的概念構(gòu)成概念集Q,并且概念間是“and”關(guān)系。Q={t1,t2,…,ti,…,tn}如果計(jì)上它們的頻數(shù)則變?yōu)椋篞’(q)={(t1,f(q,t1)),(t2,f(q,t2)),…,(tn,f(q,tn))}其中f(q,ti)表示查詢語句被處理概念ti的相應(yīng)頻數(shù)文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第33頁!個(gè)性化處理該模塊長期偵測用戶的輸入,評估用戶的興趣,對用戶的多次輸入進(jìn)行加權(quán)處理后再去檢索模塊,每隔一段時(shí)間將檢索結(jié)果中相似度最高的幾個(gè)文檔發(fā)送給用戶。不斷地從查詢擴(kuò)展模塊中獲得經(jīng)處理后的用戶查詢信息U和U’的值,對概念集?。ㄟ@里的概念集取指將概念擴(kuò)展為具有相同語義碼的概念集)并運(yùn)算,相應(yīng)的權(quán)值取和,即文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第34頁!文檔處理文檔處理既是將文本文檔處理為相應(yīng)的文檔表示例如我們用向量空間檢索模型來表示文檔DiDi=((t1,s1),(t2,s2),…,(tn,sn))

其中si是概念ti在文檔Di中出現(xiàn)的頻數(shù)。

文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第35頁!總結(jié)該模型使用了概念提取模塊將用戶的查詢輸入進(jìn)行處理、提煉,去除無用的成分,形成一個(gè)能準(zhǔn)確表達(dá)用戶查詢的簡潔的概念集Q。利用查詢擴(kuò)展模塊擴(kuò)展概念集Q得到Q中各概念的同義概念集Q’,并以此作為查詢概念,用以提高引擎的查全率。個(gè)性化處理用以監(jiān)測用戶的興趣,自動(dòng)反饋用戶信息,反饋的信息是用戶感興趣的信息。自動(dòng)文摘顯示的是文檔中權(quán)重最高的幾個(gè)概念,這樣更能反映文檔的內(nèi)容。經(jīng)過自然語言處理器處理過的最終查詢請求是一系列概念集組成的集合。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第36頁!信息檢索性能度量度量信息檢索性能的三個(gè)參數(shù):檢索速度:決定檢索效率查全率用來測量一個(gè)檢索系統(tǒng)的效能精確度文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第37頁!例子假定一個(gè)數(shù)據(jù)庫總共有1000個(gè)信息項(xiàng),其中10個(gè)信息項(xiàng)是與一個(gè)具體的查詢有關(guān)。為響應(yīng)查詢,系統(tǒng)返回下列列表:R,R,I,I,R,R,I,I,R,I,R,R,I,I,R其中R代表用戶判定為與查詢相關(guān)的項(xiàng),I代表用戶判定為不相關(guān)的項(xiàng),計(jì)算返回不同數(shù)量的項(xiàng)目時(shí)的查全率及精確度,經(jīng)計(jì)算后結(jié)果為下面的表格文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第38頁!從上例可以看出:返回的項(xiàng)目越多,查全率越高,同時(shí)精確度越低結(jié)論:具有高查全率且同時(shí)具有低精確度的系統(tǒng)意味著系統(tǒng)將返回一個(gè)長的項(xiàng)目列表;具有高精確度但低查全率的系統(tǒng)意味著許多與查詢有關(guān)的項(xiàng)目沒有被檢索到比較兩個(gè)信息系統(tǒng)之間性能的技術(shù):用0-1范圍內(nèi)的查全率值確定其對應(yīng)的精確度值,并畫出每個(gè)系統(tǒng)的查全率——精確度圖。在該圖中,遠(yuǎn)離原點(diǎn)的系統(tǒng)具有更高的性能。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第39頁!假設(shè)所有相關(guān)的文檔在次檢索時(shí)都沒有找到,使用相關(guān)反饋的方法會(huì)改善檢索性能。在查詢表述和相關(guān)反饋過程中,多用戶輸入比沒有或有限的用戶輸入產(chǎn)生更高的檢索性能使用域知識(shí)和用戶配置文件將極大地改善檢索性能文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第40頁!超文本超文本是把允許無序訪問的信息組合在一起的一種方式。超文本文檔是由大量節(jié)點(diǎn)和鏈接組成。一個(gè)節(jié)點(diǎn)代表一個(gè)單一的概念或思想,它是信息的一個(gè)容器。鏈接是把相關(guān)節(jié)點(diǎn)連接起來。在節(jié)點(diǎn)內(nèi)容內(nèi)說明鏈接存在的區(qū)域稱為錨。錨通常用一個(gè)具體的方式突出顯示(如下劃線或彩色陰影)或由一個(gè)具體符號(hào)表示。選擇一個(gè)錨將激活該鏈接,同時(shí)將帶出目的節(jié)點(diǎn)。超文本是一種信息管理方法,其中數(shù)據(jù)存放在由計(jì)算機(jī)支持的鏈接所連接的網(wǎng)絡(luò)節(jié)點(diǎn)中。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第41頁!WWW的體系結(jié)構(gòu)是超媒體和Internet的集成,其體系結(jié)構(gòu)如下:客戶機(jī)服務(wù)器應(yīng)用程序文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第42頁!資源發(fā)現(xiàn)資源發(fā)現(xiàn)是指發(fā)現(xiàn)和檢索Internet上信息的過程。其中包括三個(gè)問題:如何知道所需的信息在Internet上是否存在如果存在的話,如何知道文檔所處的位置如何檢索這些文檔解決這些問題的關(guān)鍵是:如何指定文檔在上以及常見的Internet上的位置發(fā)現(xiàn)和檢索Internet上的文檔的方法文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第43頁!URL部分:用于訪問文檔的Internet協(xié)議可使用的協(xié)議包括:FTP協(xié)議HTTP協(xié)議Gopher協(xié)議Telnet協(xié)議文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第44頁!Gopher協(xié)議Gohper是一種分布式文檔信息服務(wù),可以讓用戶訪問在物理上位于各處的數(shù)據(jù),并以一致的層次式類文件系統(tǒng)界面提供給用戶。Gopher采用客戶-服務(wù)器模式,客戶端的軟件將用戶的請求發(fā)送給服務(wù)器,并從服務(wù)器得到響應(yīng)數(shù)據(jù),然后再以一定的方式重現(xiàn)給用戶。服務(wù)器提供的文件可以是服務(wù)器本地的,也可以指向其他的Gopher服務(wù)器。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第45頁!URL第二部分:確定文檔服務(wù)器的名稱例子:..au其含義為服務(wù)器名為.gscit,它在“au”(澳大利亞)的“edu”(教育部門)的“Monash”(Monash大學(xué))的“fcit”(計(jì)算機(jī)信息技術(shù)系)的域內(nèi)。每個(gè)服務(wù)器名稱都有與之對應(yīng)的IP地址,所以如果IP地址已知,可直接使用它而不是機(jī)器名稱字符串。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第46頁!資源發(fā)現(xiàn)的第二關(guān)鍵:發(fā)現(xiàn)和檢索文檔發(fā)現(xiàn)和檢索Internet上的文檔的兩種方法:組織/瀏覽搜索文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第47頁!搜索搜索是用戶提供正在尋找的資源的某些描述的過程,同時(shí)發(fā)現(xiàn)系統(tǒng)中與描述相匹配的信息。搜索比瀏覽更為有效,但是它依賴于“信息已經(jīng)被索引”這一假設(shè)。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第48頁!WWW搜索引擎定義:搜索引擎是指以人工或網(wǎng)絡(luò)機(jī)器人軟件的方法采集、標(biāo)引Web資源和其他類型的網(wǎng)絡(luò)資源,并將索引信息內(nèi)容存儲(chǔ)于大型數(shù)據(jù)庫中,以Web網(wǎng)站的方式提供給網(wǎng)絡(luò)用戶查詢的信息服務(wù)系統(tǒng)。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第49頁!搜索引擎的分類按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類目錄式搜索引擎機(jī)器人搜索引擎元搜索引擎文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第50頁!搜索器搜索器通常也稱為Spider、Robot、Crawler或Worm等,其實(shí)質(zhì)是一種計(jì)算機(jī)程序,按照某種策略自動(dòng)地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)Web信息。目前主要有兩種搜索信息的策略:從一個(gè)起始URL集合開始,順著這些URL中的鏈接,以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式等循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)新的信息。這些起始URL可以是任意的,也可以是一些非常流行、包含很多鏈接的站點(diǎn)。將Web空間按照域名、IP地址或國家域名劃分,每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的窮盡搜索。搜索器通常采用分布式或并行計(jì)算技術(shù),以提高信息發(fā)現(xiàn)和更新的速度。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第51頁!檢索器檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評價(jià),對將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶關(guān)系反饋機(jī)制。不同的搜索引擎使用不同相似性度量,但它們都使用條目頻率和條目位置。文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第52頁!搜索引擎與IR系統(tǒng)的主要區(qū)別WWW文檔是分布在Internet上的,而IR系統(tǒng)的文檔是集中定位的。WWW文檔的數(shù)量比IR系統(tǒng)的文檔數(shù)量要大的多。WWW文檔是用HTML語言進(jìn)行構(gòu)建的,它是結(jié)構(gòu)化的,而IR系統(tǒng)的文檔通常是普通文本。WWW文檔比IR系統(tǒng)的文檔更具有動(dòng)態(tài)性和異構(gòu)性。WWW搜索引擎比IR系統(tǒng)的用戶更多,使用更頻繁文本處理與信息檢索共59頁,您現(xiàn)在瀏覽的是第53頁!實(shí)例:Google搜索引擎Google的體系結(jié)構(gòu)如圖所示:信息源信息采集系統(tǒng)信息分析索引子系統(tǒng)檢索子系統(tǒng)管理維護(hù)子系統(tǒng)瀏覽器通過蜘蛛程序抓取制定信息將信息采集系統(tǒng)索到的網(wǎng)頁數(shù)據(jù)進(jìn)行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論