全文檢索技術(shù)的研究與實現(xiàn)_第1頁
全文檢索技術(shù)的研究與實現(xiàn)_第2頁
全文檢索技術(shù)的研究與實現(xiàn)_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

全文檢索技術(shù)的研究與實現(xiàn)

1、全文學(xué)研究系統(tǒng)技術(shù)的總結(jié)1.1用戶檢索流程和方法全文檢索是指計算機索引程序通過掃描文章中的每個詞并將每個詞標(biāo)記為索引,以表明文章中的單詞數(shù)和位置。在用戶請求的情況下,搜索程序?qū)⒏鶕?jù)默認索引進行搜索,并將搜索結(jié)果發(fā)送給用戶搜索方法。全文檢索的方法主要有按字索引和按詞索引。按字索引是指對于文章中的每一個字都建立索引,檢索時將詞分解為字的組合。按詞索引是對文章中的詞,即語義單位建立索引,索引時按詞索引,并且可以實現(xiàn)與按字處理類似,添加同義處理也很容易。中文文字需要切分詞,以達到按此索引的目的。1.2文本處理和檢索檢索過程全文檢索主要由兩方面核心技術(shù)結(jié)合實現(xiàn):一個是建立和維護索引,另外一個是提供有效的檢索機制。下面簡單介紹一下全文檢索的基本流程。(1)掃描源文檔,建立索引庫.首先將源文件轉(zhuǎn)換為能夠進行文本查找的全文數(shù)據(jù)庫。這個過程包括全文的分割處理,規(guī)范格式等工作。處理完成后需要過濾源文檔中的格式控制,然后將文檔中的詞進行切分,再開始建立索引,把文檔中的每一個詞的出現(xiàn)位置記錄到索引庫中。(2)實現(xiàn)全文檢索。當(dāng)用戶輸入查詢條件,經(jīng)過查詢分析器分析后遍歷索引樹,得到查詢結(jié)果,經(jīng)過相關(guān)的排序算法后結(jié)果顯示在查詢結(jié)果頁面。1.3全文檢索系統(tǒng)功能模塊全文檢索系統(tǒng)是按照全文檢索理論建立起來的用于提供全文檢索服務(wù)的軟件系統(tǒng)。功能上講,全文檢索系統(tǒng)具有建立索引、處理查詢返回結(jié)果集、增加索引、優(yōu)化索引結(jié)果等功能,外圍則由不同應(yīng)用具有的功能組成。結(jié)構(gòu)上來看,全文檢索系統(tǒng)具有索引引擎、查詢引擎、文本分析引擎、對外接口等,加上各種外圍應(yīng)用系統(tǒng)共同構(gòu)成了全文檢索系統(tǒng)。2、工具包的應(yīng)用Lucene是apache軟件基金會jakarta項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包,它不是一個完整的全文檢索引擎,而是一個使用java語言編寫的全文檢索引擎的架構(gòu),主要提供了查詢引擎、索引引擎、存儲管理和文本分析接口。它可以嵌入到各種應(yīng)用中來實現(xiàn)針對應(yīng)用的全文搜索功能。Lucene中包括7個包,每個包完成特定的功能,下面列出了本文開發(fā)的系統(tǒng)中要用到的5個包如下表1所示。3、基于lucene的web搜索引擎開發(fā)3.1數(shù)碼產(chǎn)品搜索系統(tǒng)的應(yīng)用現(xiàn)在數(shù)碼產(chǎn)品已經(jīng)滲透到普通百姓的生活,由于網(wǎng)絡(luò)提供信息的快捷性,許多在市場上看不到的新數(shù)碼類產(chǎn)品在網(wǎng)上能第一時間看到,所以越來越多的人喜歡在網(wǎng)上搜索自己感興趣的產(chǎn)品、在線查看該產(chǎn)品的圖片和性能介紹等情況。用戶在搜索欄中輸入待查詢的數(shù)碼類產(chǎn)品的名稱型號或其它關(guān)鍵字,按下搜索按鈕之后可以看到系統(tǒng)返回的相關(guān)內(nèi)容。具有非常強的實用性。本項目實現(xiàn)的是一個具備全文搜索功能的數(shù)碼產(chǎn)品搜索引擎系統(tǒng)。為用戶提供一個搜索數(shù)碼類產(chǎn)品信息的平臺。3.2信息資料收集和搜索模塊的實現(xiàn)系統(tǒng)設(shè)計的要求:(1)方便的用戶接口,盡可能提供細致的查詢項目,從而滿足用戶更加有效地查詢信息的需求(2)結(jié)果顯示要盡可能簡明扼要,符合方便用戶的準(zhǔn)則(3)程序接口要有利于日后的擴展,增加新功能該搜索引擎系統(tǒng)主要是由五個主要功能模塊組成:信息抓取模塊,數(shù)據(jù)庫處理模塊,Indexer索引模塊,Searcher搜索模塊,分詞模塊。如圖1所示:Core負責(zé)流程之間的交互;信息抓取模塊,負責(zé)收集網(wǎng)絡(luò)資源;Searcher搜索器,負責(zé)從索引的數(shù)據(jù)中搜索包含查詢關(guān)鍵字的內(nèi)容;IndexWriter寫索引器,負責(zé)將信息索引后寫入本地存儲器中;IndexReader讀索引器,用來讀取索引文件中的數(shù)據(jù),轉(zhuǎn)換為查詢的信息結(jié)果;Analyer分詞器,負責(zé)對生成的文件進行分詞處理,并提供詞元序列供進行查詢;索引文件:負責(zé)保存索引內(nèi)容,以文件的形式保存在本地的文件系統(tǒng)中;數(shù)據(jù)庫文件:用來存儲產(chǎn)品的各種信息;網(wǎng)站前臺負責(zé)響應(yīng)用戶查詢,返回查詢結(jié)果。信息抓取模塊從Internet上抓取數(shù)據(jù),然后將數(shù)據(jù)通過Core核心模塊傳給寫索引模塊,由寫索引模塊處理之后產(chǎn)生索引文件,存儲到本地文件系統(tǒng)中。當(dāng)用戶需要搜索數(shù)據(jù)時,通過在網(wǎng)站前臺界面上輸入要查詢的內(nèi)容,向搜索模塊發(fā)出搜索請求,搜索模塊向Core核心模塊轉(zhuǎn)發(fā)請求,也就是說,由搜索模塊將用戶的請求進行分析和轉(zhuǎn)換,之后向Core模塊請求搜索相關(guān)的關(guān)鍵詞,隨后Core模塊調(diào)用讀索引模塊讀取存儲在本地的索引文件,將結(jié)果通過Core模塊,搜索模塊,前臺反饋給用戶。上圖的虛線表示邏輯控制,寫索引模塊實際上是由信息抓取模塊控制的,Core模塊對于鏈接的兩個模塊來說是透明的,它的存在是為了降低各模塊之間的耦合度。4、搜索和搜索教育圖2為本項目開發(fā)的數(shù)碼產(chǎn)品搜索系統(tǒng)的首頁,在輸入欄中用戶可以輸入待搜索的關(guān)鍵詞,在這里可以是產(chǎn)品的品牌,型號等,如輸入諾基亞手機,按下確定按鈕之后,返回的搜索結(jié)果如圖所示。檢索結(jié)果共15頁,每頁顯示諾基亞的一種型號?,F(xiàn)在看到的是最后一頁型號是N78的情況。5、全文檢索系統(tǒng)的研究結(jié)果本文是對全文檢索技術(shù)的一個初步探索,具體在LuceneAPI的基礎(chǔ)上實現(xiàn)了一個全文檢索系統(tǒng),這個系統(tǒng)包括信息抓取模塊,分詞模塊,數(shù)據(jù)庫處理模塊,索引器,檢索器。在數(shù)碼產(chǎn)品搜索引擎系統(tǒng)的研究和實踐中,取得的成果總結(jié)如下:1.分析了全文檢索系統(tǒng)的特點。2.系統(tǒng)基于ApacheLucene開源項目上進行設(shè)計開發(fā)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論