版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、 . PAGE29 / NUMPAGES29奧搜科技搜索引擎的研究與實現(xiàn)開發(fā)時間:2005年4月目錄 TOC o 1-3 h z u HYPERLINK l _Toc43146356目錄 PAGEREF _Toc43146356 h 1HYPERLINK l _Toc43146357摘要 PAGEREF _Toc43146357 h 3HYPERLINK l _Toc43146358第一章引言 PAGEREF _Toc43146358 h 4HYPERLINK l _Toc43146359第二章搜索引擎的結(jié)構(gòu) PAGEREF _Toc43146359 h 5HYPERLINK l _Toc43
2、1463602.1系統(tǒng)概述 PAGEREF _Toc43146360 h 5HYPERLINK l _Toc431463612.2搜索引擎的構(gòu)成 PAGEREF _Toc43146361 h 5HYPERLINK l _Toc431463622.2.1網(wǎng)絡(luò)機器人 PAGEREF _Toc43146362 h 5HYPERLINK l _Toc431463632.2.2索引與搜索 PAGEREF _Toc43146363 h 5HYPERLINK l _Toc431463642.2.3 Web服務(wù)器 PAGEREF _Toc43146364 h 6HYPERLINK l _Toc43146365
3、2.3搜索引擎的主要指標(biāo)與分析 PAGEREF _Toc43146365 h 6HYPERLINK l _Toc431463662.4小節(jié) PAGEREF _Toc43146366 h 6HYPERLINK l _Toc43146367第三章網(wǎng)絡(luò)機器人 PAGEREF _Toc43146367 h 7HYPERLINK l _Toc431463683.1什么是網(wǎng)絡(luò)機器人 PAGEREF _Toc43146368 h 7HYPERLINK l _Toc431463693.2網(wǎng)絡(luò)機器人的結(jié)構(gòu)分析 PAGEREF _Toc43146369 h 7HYPERLINK l _Toc431463703.2
4、.1如何解析HTML PAGEREF _Toc43146370 h 7HYPERLINK l _Toc431463713.2.2 Spider程序結(jié)構(gòu) PAGEREF _Toc43146371 h 8HYPERLINK l _Toc431463723.2.3如何構(gòu)造Spider程序 PAGEREF _Toc43146372 h 9HYPERLINK l _Toc431463733.2.4如何提高程序性能 PAGEREF _Toc43146373 h 11HYPERLINK l _Toc431463743.2.5網(wǎng)絡(luò)機器人的代碼分析 PAGEREF _Toc43146374 h 12HYPERL
5、INK l _Toc431463753.3小節(jié) PAGEREF _Toc43146375 h 14HYPERLINK l _Toc43146376第四章基于lucene的索引與搜索 PAGEREF _Toc43146376 h 15HYPERLINK l _Toc431463774.1什么是Lucene全文檢索 PAGEREF _Toc43146377 h 15HYPERLINK l _Toc431463784.2 Lucene的原理分析 PAGEREF _Toc43146378 h 15HYPERLINK l _Toc431463794.2.1全文檢索的實現(xiàn)機制 PAGEREF _Toc43
6、146379 h 15HYPERLINK l _Toc431463804.2.2 Lucene的索引效率 PAGEREF _Toc43146380 h 15HYPERLINK l _Toc431463814.2.3 中文切分詞機制 PAGEREF _Toc43146381 h 17HYPERLINK l _Toc431463824.3 Lucene與Spider的結(jié)合 PAGEREF _Toc43146382 h 18HYPERLINK l _Toc431463834.4小節(jié) PAGEREF _Toc43146383 h 21HYPERLINK l _Toc43146384第五章基于Tomca
7、t的Web服務(wù)器 PAGEREF _Toc43146384 h 22HYPERLINK l _Toc431463855.1什么是基于Tomcat的Web服務(wù)器 PAGEREF _Toc43146385 h 22HYPERLINK l _Toc431463865.2用戶接口設(shè)計 PAGEREF _Toc43146386 h 22HYPERLINK l _Toc431463875.3.1客戶端設(shè)計 PAGEREF _Toc43146387 h 22HYPERLINK l _Toc431463885.3.2服務(wù)端設(shè)計 PAGEREF _Toc43146388 h 23HYPERLINK l _Toc
8、431463895.3在Tomcat上部署項目 PAGEREF _Toc43146389 h 25HYPERLINK l _Toc431463905.4小節(jié) PAGEREF _Toc43146390 h 25HYPERLINK l _Toc43146391第六章搜索引擎策略 PAGEREF _Toc43146391 h 26HYPERLINK l _Toc431463926.1簡介 PAGEREF _Toc43146392 h 26HYPERLINK l _Toc431463936.2面向主題的搜索策略 PAGEREF _Toc43146393 h 26HYPERLINK l _Toc4314
9、63946.2.1導(dǎo)向詞 PAGEREF _Toc43146394 h 26HYPERLINK l _Toc431463956.2.3權(quán)威網(wǎng)頁和中心網(wǎng)頁 PAGEREF _Toc43146395 h 27HYPERLINK l _Toc431463966.3小節(jié) PAGEREF _Toc43146396 h 27HYPERLINK l _Toc43146397參考文獻(xiàn) PAGEREF _Toc43146397 h 28摘要網(wǎng)絡(luò)中的資源非常豐富,但是如何有效的搜索信息卻是一件困難的事情。建立搜索引擎就是解決這個問題的最好方法。本文首先詳細(xì)介紹了基于英特網(wǎng)的搜索引擎的系統(tǒng)結(jié)構(gòu),然后從網(wǎng)絡(luò)機器人、索
10、引引擎、Web服務(wù)器三個方面進(jìn)行詳細(xì)的說明。為了更加深刻的理解這種技術(shù),本人還親自實現(xiàn)了一個自己的搜索引擎新聞搜索引擎。新聞搜索引擎是從指定的Web頁面中按照超連接進(jìn)行解析、搜索,并把搜索到的每條新聞進(jìn)行索引后加入數(shù)據(jù)庫。然后通過Web服務(wù)器接受客戶端請求后從索引數(shù)據(jù)庫中搜索出所匹配的新聞。本人在介紹搜索引擎的章節(jié)中除了詳細(xì)的闡述技術(shù)核心外還結(jié)合了新聞搜索引擎的實現(xiàn)代碼來說明,圖文并茂、易于理解。AbstractThe resources in the internet are abundant, but it is a difficult job to search some useful
11、information. So a search engine is the best method to solve this problem. This article fist introduces the system structure of search engine based on the internet in detail, then gives a minute explanation form Spider search, engine and web server. In order to understand the technology more deeply,
12、I have programmed a news search engine by myself.The news search engine is explained and searched according to hyperlink from a appointed web page, then indexs every searched information and adds it to the index database. Then after receiving the customers requests from the web server, it soon searc
13、hs the right news form the index engine,In the chapter of introducing search engine, it is not only elaborate the core technology, but also combine with the modern code,pictures included, easy to understand.第一章 引言面對浩瀚的網(wǎng)絡(luò)資源,搜索引擎為所有網(wǎng)上沖浪的用戶提供了一個入口,毫不夸的說,所有的用戶都可以從搜索出發(fā)到達(dá)自己想去的網(wǎng)上任何一個地方。因此它也成為除了電子以外最多人使用的網(wǎng)上
14、服務(wù)。搜索引擎技術(shù)伴隨著WWW的發(fā)展是引人注目的。搜索引擎大約經(jīng)歷了三代的更新發(fā)展:第一代搜索引擎出現(xiàn)于1994年。這類搜索引擎一般都索引少于1,000,000個網(wǎng)頁,極少重新搜集網(wǎng)頁并去刷新索引。而且其檢索速度非常慢,一般都要等待10秒甚至更長的時間。在實現(xiàn)技術(shù)上也基本沿用較為成熟的IR(Information Retrieval)、網(wǎng)絡(luò)、數(shù)據(jù)庫等技術(shù),相當(dāng)于利用一些已有技術(shù)實現(xiàn)的一個WWW上的應(yīng)用。在1994年3月到4月,網(wǎng)絡(luò)爬蟲World Web Worm (WWWW)平均每天承受大約1500次查詢。大約在1996年出現(xiàn)的第二代搜索引擎系統(tǒng)大多采用分布式方案(多個微型計算機協(xié)同工作)來提
15、高數(shù)據(jù)規(guī)模、響應(yīng)速度和用戶數(shù)量,它們一般都保持一個大約50,000,000網(wǎng)頁的索引數(shù)據(jù)庫,每天能夠響應(yīng)10,000,000次用戶檢索請求。1997年11月,當(dāng)時最先進(jìn)的幾個搜索引擎號稱能建立從2,000,000到100,000,000的網(wǎng)頁索引。Altavista搜索引擎聲稱他們每天大概要承受20,000,000次查詢。2000年搜索引擎2000年大會上,按照Google公司總裁Larry Page的演講,Google正在用3,000臺運行Linux系統(tǒng)的個人電腦在搜集Web上的網(wǎng)頁,而且以每天30臺的速度向這個微機集群里添加電腦,以保持與網(wǎng)絡(luò)的發(fā)展一樣步。每臺微機運行多個爬蟲程序搜集網(wǎng)頁的
16、峰值速度是每秒100個網(wǎng)頁,平均速度是每秒48.5個網(wǎng)頁,一天可以搜集超過4,000,000網(wǎng)頁搜索引擎一詞在國外因特網(wǎng)領(lǐng)域被廣泛使用,然而他的含義卻不盡一樣。在美國搜索引擎通常指的是基于因特網(wǎng)的搜索引擎,他們通過網(wǎng)絡(luò)機器人程序收集上千萬到幾億個網(wǎng)頁,并且每一個詞都被搜索引擎索引,也就是我們說的全文檢索。著名的因特網(wǎng)搜索引擎包括First Search、Google、HotBot等。在中國,搜索引擎通常指基于目錄的搜索服務(wù)或是特定的搜索服務(wù),本人這里研究的是基于因特網(wǎng)的搜索技術(shù)。第二章 搜索引擎的結(jié)構(gòu)2.1系統(tǒng)概述 搜索引擎是根據(jù)用戶的查詢請求,按照一定算法從索引數(shù)據(jù)中查找信息返回給用戶。為了
17、保證用戶查找信息的精度和新鮮度,搜索引擎需要建立并維護(hù)一個龐大的索引數(shù)據(jù)庫。一般的搜索引擎由網(wǎng)絡(luò)機器人程序、索引與搜索程序、索引數(shù)據(jù)庫等部分組成。WWW文檔網(wǎng)絡(luò)機器人程序建立Lucene索引從數(shù)據(jù)庫中搜索信息Tomcat服務(wù)器Lucene索引數(shù)據(jù)庫WWW瀏覽器WWW瀏覽器JSP網(wǎng)絡(luò)機器人程序系統(tǒng)結(jié)構(gòu)圖2.2搜索引擎的構(gòu)成2.2.1網(wǎng)絡(luò)機器人 網(wǎng)絡(luò)機器人也稱為“網(wǎng)絡(luò)蜘蛛”(Spider),是一個功能很強的WEB掃描程序。它可以在掃描WEB頁面的同時檢索其的超并加入掃描隊列等待以后掃描。因為WEB中廣泛使用超,所以一個Spider程序理論上可以訪問整個WEB頁面。 為了保證網(wǎng)絡(luò)機器人遍歷信息的廣度
18、和深度需要設(shè)定一些重要的并制定相關(guān)的掃描策略。2.2.2索引與搜索 網(wǎng)絡(luò)機器人將遍歷得到的頁面存放在臨時數(shù)據(jù)庫中,如果通過SQL直接查詢信息速度將會難以忍受。為了提高檢索效率,需要建立索引,按照倒排文件的格式存放。如果索引不與時跟新的話,用戶用搜索引擎也不能檢索到。 用戶輸入搜索條件后搜索程序?qū)⑼ㄟ^索引數(shù)據(jù)庫進(jìn)行檢索然后把符合查詢要求的數(shù)據(jù)庫按照一定的策略進(jìn)行分級排列并且返回給用戶。2.2.3Web服務(wù)器客戶一般通過瀏覽器進(jìn)行查詢,這就需要系統(tǒng)提供Web服務(wù)器并且與索引數(shù)據(jù)庫進(jìn)行連接??蛻粼跒g覽器中輸入查詢條件,Web服務(wù)器接收到客戶的查詢條件后在索引數(shù)據(jù)庫中進(jìn)行查詢、排列然后返回給客戶端。2
19、.3搜索引擎的主要指標(biāo)與分析 搜索引擎的主要指標(biāo)有響應(yīng)時間、召回率、準(zhǔn)確率、相關(guān)度等。這些指標(biāo)決定了搜索引擎的技術(shù)指標(biāo)。搜索引擎的技術(shù)指標(biāo)決定了搜索引擎的評價指標(biāo)。好的搜索引擎應(yīng)該是具有較快的反應(yīng)速度和高召回率、準(zhǔn)確率的,當(dāng)然這些都需要搜索引擎技術(shù)指標(biāo)來保障。召回率:一次搜索結(jié)果中符合用戶要求的數(shù)目與用戶查詢相關(guān)信息的總數(shù)之比準(zhǔn)確率:一次搜索結(jié)果中符合用戶要求的數(shù)目與該次搜索結(jié)果總數(shù)之比相關(guān)度:用戶查詢與搜索結(jié)果之間相似度的一種度量精確度:對搜索結(jié)果的排序分級能力和對垃圾網(wǎng)頁的抗干擾能力2.4小節(jié) 以上對基于因特網(wǎng)的搜索引擎結(jié)構(gòu)和性能指標(biāo)進(jìn)行了分析,本人在這些研究的基礎(chǔ)上利用JavaTM技術(shù)和
20、一些Open Source工具實現(xiàn)了一個簡單的搜索引擎新聞搜索引擎。在接下來的幾章里將會就本人的設(shè)計進(jìn)行詳細(xì)的分析。第三章 網(wǎng)絡(luò)機器人3.1什么是網(wǎng)絡(luò)機器人網(wǎng)絡(luò)機器人又稱為Spider程序,是一種專業(yè)的Bot程序。用于查找大量的Web頁面。它從一個簡單的Web頁面上開始執(zhí)行,然后通過其超在訪問其他頁面,如此反復(fù)理論上可以掃描互聯(lián)網(wǎng)上的所有頁面?;谝蛱鼐W(wǎng)的搜索引擎是Spider的最早應(yīng)用。例如搜索巨頭Google公司,就利用網(wǎng)絡(luò)機器人程序來遍歷Web站點,以創(chuàng)建并維護(hù)這些大型數(shù)據(jù)庫。網(wǎng)絡(luò)機器人還可以通過掃描Web站點的主頁來得到這個站點的文件清單和層次機構(gòu)。還可以掃描出中斷的超和拼寫錯誤等。3
21、.2網(wǎng)絡(luò)機器人的結(jié)構(gòu)分析Internet是建立在很多相關(guān)協(xié)議基礎(chǔ)上的,而更復(fù)雜的協(xié)議又建立在系統(tǒng)層協(xié)議之上。Web就是建立在(Hypertext Transfer Protocol)協(xié)議基礎(chǔ)上,而 又是建立在TCP/IP ( Transmission Control Protocol / Internet Protocol ) 協(xié)議之上,它同時也是一種Socket協(xié)議。所以網(wǎng)絡(luò)機器人本質(zhì)上是一種基于Socket的網(wǎng)絡(luò)程序。3.2.1如何解析HTML因為Web中的信息都是建立在HTML協(xié)議之上的,所以網(wǎng)絡(luò)機器人在檢索網(wǎng)頁時的第一個問題就是如何解析HTML。在解決如何解析之前,先來介紹下HTML中
22、的幾種數(shù)據(jù)。文本:除了腳本和標(biāo)簽之外的所有數(shù)據(jù)注釋:程序員留下的說明文字,對用戶是不可見的簡單標(biāo)簽:由單個表示的HTML標(biāo)簽開始標(biāo)簽和結(jié)束標(biāo)簽:用來控制所包含的HTML代碼我們在進(jìn)行解析的時候不用關(guān)心所有的標(biāo)簽,只需要對其中幾種重要的進(jìn)行解析即可。超連接標(biāo)簽超連接定義了WWW通過Internet文檔的功能。他們的主要目的是使用戶能夠任意遷移到新的頁面,這正是網(wǎng)絡(luò)機器人最關(guān)心的標(biāo)簽。圖像映射標(biāo)簽圖像映射是另一種非常重要的標(biāo)簽。它可以讓用戶通過點擊圖片來遷移到新的頁面中。表單標(biāo)簽表單是Web頁面中可以輸入數(shù)據(jù)的單元。許多站點讓用戶填寫數(shù)據(jù)然后通過點擊按鈕來提交容,這就是表單的典型應(yīng)用。表格標(biāo)簽表格
23、是HTML的構(gòu)成部分,通常用來格式化存放、顯示數(shù)據(jù)。我們在具體解析這些HTMl標(biāo)簽有兩種方法:通過JavaTM中的Swing類來解析或者通過Bot包中的HTMLPage類來解析,本人在實際編程中采用后者。Bot包中的HTMLPage類用來從指定URL中讀取數(shù)據(jù)并檢索出有用的信息。下面給出該類幾種重要的方法。HTMLPage構(gòu)造函數(shù)構(gòu)造對象并指定用于通訊的 對象Public HTMLPage( )GetForms方法獲取最后一次調(diào)用Open方法檢索到的表單清單Public Vector getForms()Get 方法獲取發(fā)送給構(gòu)造函數(shù)的 對象Public get ()GetImage方法獲取指
24、定頁面的圖片清單Public Vector getImage()GetLinks方法獲取指定頁面的連接清單Public Vector getLinks()Open方法打開一個頁面并讀入該頁面,若指定了回調(diào)對象則給出所有該對象數(shù)據(jù)Public void open(String url,HTMLEditorKit.ParserCallback a)3.2.2 Spider程序結(jié)構(gòu)網(wǎng)絡(luò)機器人必須從一個網(wǎng)頁遷移到另一個網(wǎng)頁,所以必須找到該頁面上的超連接。程序首先解析網(wǎng)頁的HTML代碼,查找該頁面的超連接然后通過遞歸和非遞歸兩種結(jié)構(gòu)來實現(xiàn)Spider程序。遞歸結(jié)構(gòu)遞歸是在一個方法中調(diào)用自己本身的程序設(shè)計
25、技術(shù)。雖然比較容易實現(xiàn)但耗費存且不能使用多線程技術(shù),故不適合大型項目。非遞歸結(jié)構(gòu)這種方法使用隊列的數(shù)據(jù)結(jié)構(gòu),當(dāng)Spider程序發(fā)現(xiàn)超連接后并不調(diào)用自己本身而是把超連接加入到等待隊列中。當(dāng)Spider程序掃描完當(dāng)前頁面后會根據(jù)制定的策略訪問隊列中的下一個超連接地址。雖然這里只描述了一個隊列,但在實際編程中用到了四個隊列,他們每個隊列都保存著同一處理狀態(tài)的URL。等待隊列在這個隊列中,URL等待被Spider程序處理。新發(fā)現(xiàn)的URL也被加入到這個隊列中處理隊列當(dāng)Spider程序開始處理時,他們被送到這個隊列中錯誤隊列如果在解析網(wǎng)頁時出錯,URL將被送到這里。該隊列中的URL不能被移入其他隊列中完成
26、隊列如果解析網(wǎng)頁沒有出錯,URL將被送到這里。該隊列中的URL不能被移入其它隊列中在同一時間URL只能在一個隊列中,我們把它稱為URL的狀態(tài)。發(fā)現(xiàn)URL等待隊列運行隊列完成隊列錯誤隊列完成URL以上的圖表示了隊列的變化過程,在這個過程中,當(dāng)一個URL被加入到等待隊列中時Spider程序就會開始運行。只要等待隊列中有一個網(wǎng)頁或Spider程序正在處理一個網(wǎng)頁,程序就會繼續(xù)他的工作。當(dāng)?shù)却犃袨榭詹⑶耶?dāng)前沒有任何網(wǎng)頁時,Spider程序就會停止它的工作。3.2.3如何構(gòu)造Spider程序在構(gòu)造Spider程序之前我們先了解下程序的各個部分是如何共同工作的。以與如何對這個程序進(jìn)行擴展。流程圖如下所示
27、:把URL加入等待隊列Spider程序工作完成等待隊列中是否有URL?否下載從等待隊列中得到的網(wǎng)頁,并將他送入運行隊列中。是這個網(wǎng)頁包含其他超級連接嗎?將這一網(wǎng)頁送入完成隊列并繼續(xù)查看網(wǎng)頁上的下一個超連接是否為指向Web的連接?報告其他類型連接連接是否與網(wǎng)頁所在主機不同且只處理本地連接?報告外部連接報告網(wǎng)頁連接將連接加入等候隊列否是否是否是IspiderReportable接口這是一個必須實現(xiàn)的接口,可以通過回調(diào)函數(shù)接受Spider所遇到的頁面。接口定義了Spider向他的控制者發(fā)送的幾個事件。通過提供對每個事件的處理程序,可以創(chuàng)建各種Spider程序。下面是他的接口聲明:publicinte
28、rface IspiderReportablepublic boolean foundInternalLink(String url);public boolean foundExternalLink(String url);public boolean foundOtherLink(String url);public void processPage( page);public void completePage( page,boolean error);public boolean getRemoveQuery();public void SpiderComplete();3.2.4如何
29、提高程序性能Internet中擁有海量的Web頁面,如果開發(fā)出高效的Spider程序是非常重要的。下面就來介紹下幾種提高性能的技術(shù):Java的多線程技術(shù)線程是通過程序的一條執(zhí)行路線。多線程是一個程序同時運行多個任務(wù)的能力。它是在一個程序的部進(jìn)行分工合作。優(yōu)化程序的通常方法是確定瓶頸并改進(jìn)他。瓶頸是一個程序中最慢的部分,他限制了其他任務(wù)的運行。據(jù)個例子說明:一個Spider程序需要下載十個頁面,要完成這一任務(wù),程序必須向服務(wù)器發(fā)出請求然后接受這些網(wǎng)頁。當(dāng)程序等待響應(yīng)的時候其他任務(wù)不能執(zhí)行,這就影響了程序的效率。如果用多線程技術(shù)可以讓這些網(wǎng)頁的等待時間合在一起,不用互相影響,這就可以極大的改進(jìn)程序
30、性能。數(shù)據(jù)庫技術(shù)當(dāng)Spider程序訪問一個大型Web站點時,必須使用一種有效的方法來存儲站點隊列。這些隊列管理Spider程序必須維護(hù)大型網(wǎng)頁的列表。如果把他們放在存中將會是性能下降,所以我們可以把他們放在數(shù)據(jù)庫中減少系統(tǒng)資源的消耗。3.2.5網(wǎng)絡(luò)機器人的代碼分析程序結(jié)構(gòu)圖如下:程序代碼實現(xiàn)如下:package news;/* * 新聞搜索引擎*計算機99630 晨 * 版本 1.0 */import .heaton.bot. ;import .heaton.bot. Socket;import .heaton.bot.ISpiderReportable;import .heaton.bot.
31、IWorkloadStorable;import .heaton.bot.Spider;import .heaton.bot.SpiderInternalWorkload;/* * 構(gòu)造一個Bot程序 */publicclass Searcherimplements ISpiderReportable public static void main(String args) throws Exception IWorkloadStorable wl = new SpiderInternalWorkload(); Searcher _searcher = new Searcher(); Spid
32、er _spider = new Spider(_searcher, /news.htm, new Socket(), 100, wl); _spider.setMaxBody(100); _spider.start(); / 發(fā)現(xiàn)部連接時調(diào)用,url表示程序發(fā)現(xiàn)的URL,若返回true則加入作業(yè)中,否則不加入。publicboolean foundInternalLink(String url) returnfalse; / 發(fā)現(xiàn)外部連接時調(diào)用,url表示程序所發(fā)現(xiàn)的URL,若返回true則把加入作業(yè)中,否則不加入。public boolean foundExternalLink(Strin
33、g url) return false; / 當(dāng)發(fā)現(xiàn)其他連接時調(diào)用這個方法。其他連接指的是非HTML網(wǎng)頁,可能是E-mail或者FTP public boolean foundOtherLink(String url) return false; / 用于處理網(wǎng)頁,這是Spider程序要完成的實際工作。public void processPage( ) System.out.println(掃描網(wǎng)頁: + .getURL(); new HTMLParse( ).start(); / 用來請求一個被處理的網(wǎng)頁。public void completePage( , boolean error)
34、 / 由Spider程序調(diào)用以確定查詢字符串是否應(yīng)刪除。如果隊列中的字符串應(yīng)當(dāng)刪除,方法返回真。publicboolean getRemoveQuery() return true; / 當(dāng)Spider程序沒有剩余的工作時調(diào)用這個方法。 public void spiderComplete() 3.3小節(jié)在本章中,首先介紹了網(wǎng)絡(luò)機器人的基本概念,然后具體分析了Spider程序的結(jié)構(gòu)和功能。在最后還結(jié)合具體代碼進(jìn)行了詳細(xì)說明。本人在編程中運用了JavaTM技術(shù),主要涉與到了net和io兩個包。此外還用了第三方開發(fā)包Bot(由Jeff Heaton提供的開發(fā)包)。第四章 基于lucene的索引與搜
35、索4.1什么是Lucene全文檢索Lucene是Jakarta Apache的開源項目。它是一個用Java寫的全文索引引擎工具包,可以方便的嵌入到各種應(yīng)用中實現(xiàn)針對應(yīng)用的全文索引/檢索功能。4.2 Lucene的原理分析4.2.1全文檢索的實現(xiàn)機制Lucene的API接口設(shè)計的比較通用,輸入輸出結(jié)構(gòu)都很像數(shù)據(jù)庫的表=記錄=字段,所以很多傳統(tǒng)的應(yīng)用的文件、數(shù)據(jù)庫等都可以比較方便的映射到Lucene的存儲結(jié)構(gòu)和接口中??傮w上看:可以先把Lucene當(dāng)成一個支持全文索引的數(shù)據(jù)庫系統(tǒng)。索引數(shù)據(jù)源:doc(field1,field2.) doc(field1,field2.) indexer / _ |
36、 Lucene Index| / searcher 結(jié)果輸出:Hits(doc(field1,field2) doc(field1.)Document:一個需要進(jìn)行索引的“單元”,一個Document由多個字段組成Field:字段Hits:查詢結(jié)果集,由匹配的Document組成4.2.2 Lucene的索引效率通常書籍后面常常附關(guān)鍵詞索引表(比如:12, 34頁,:3,77頁),它能夠幫助讀者比較快地找到相關(guān)容的頁碼。而數(shù)據(jù)庫索引能夠大大提高查詢的速度原理也是一樣,想像一下通過書后面的索引查找的速度要比一頁一頁地翻容高多少倍而索引之所以效率高,另外一個原因是它是排好序的。對于檢索系統(tǒng)來說核心
37、是一個排序問題。由于數(shù)據(jù)庫索引不是為全文索引設(shè)計的,因此,使用like %keyword%時,數(shù)據(jù)庫索引是不起作用的,在使用like查詢時,搜索過程又變成類似于一頁頁翻書的遍歷過程了,所以對于含有模糊查詢的數(shù)據(jù)庫服務(wù)來說,LIKE對性能的危害是極大的。如果是需要對多個關(guān)鍵詞進(jìn)行模糊匹配:like%keyword1% and like %keyword2% .其效率也就可想而知了。所以建立一個高效檢索系統(tǒng)的關(guān)鍵是建立一個類似于科技索引一樣的反向索引機制,將數(shù)據(jù)源(比如多篇文章)排序順序存儲的同時,有另外一個排好序的關(guān)鍵詞列表,用于存儲關(guān)鍵詞=文章映射關(guān)系,利用這樣的映射關(guān)系索引:關(guān)鍵詞=出現(xiàn)關(guān)鍵
38、詞的文章編號,出現(xiàn)次數(shù)(甚至包括位置:起始偏移量,結(jié)束偏移量),出現(xiàn)頻率,檢索過程就是把模糊查詢變成多個可以利用索引的精確查詢的邏輯組合的過程。從而大大提高了多關(guān)鍵詞查詢的效率,所以,全文檢索問題歸結(jié)到最后是一個排序問題。由此可以看出模糊查詢相對數(shù)據(jù)庫的精確查詢是一個非常不確定的問題,這也是大部分?jǐn)?shù)據(jù)庫對全文檢索支持有限的原因。Lucene最核心的特征是通過特殊的索引結(jié)構(gòu)實現(xiàn)了傳統(tǒng)數(shù)據(jù)庫不擅長的全文索引機制,并提供了擴展接口,以方便針對不同應(yīng)用的定制??梢酝ㄟ^一下表格對比一下數(shù)據(jù)庫的模糊查詢:Lucene全文索引引擎數(shù)據(jù)庫索引將數(shù)據(jù)源中的數(shù)據(jù)都通過全文索引一立反向索引對于LIKE查詢來說,數(shù)據(jù)
39、傳統(tǒng)的索引是根本用不上的。數(shù)據(jù)需要逐個便利記錄進(jìn)行GREP式的模糊匹配,比有索引的搜索速度要有多個數(shù)量級的下降。匹配效果通過詞元(term)進(jìn)行匹配,通過語言分析接口的實現(xiàn),可以實現(xiàn)對中文等非英語的支持。使用:like %net% 會把netherlands也匹配出來,多個關(guān)鍵詞的模糊匹配:使用like %net%:就不能匹配詞序顛倒的.xxx.匹配度有匹配度算法,將匹配程度(相似度)比較高的結(jié)果排在前面。沒有匹配程度的控制:比如有記錄中net出現(xiàn)5詞和出現(xiàn)1次的,結(jié)果是一樣的。結(jié)果輸出通過特別的算法,將最匹配度最高的頭100條結(jié)果輸出,結(jié)果集是緩沖式的小批量讀取的。返回所有的結(jié)果集,在匹配條
40、目非常多的時候(比如上萬條)需要大量的存存放這些臨時結(jié)果集。可定制性通過不同的語言分析接口實現(xiàn),可以方便的定制出符合應(yīng)用需要的索引規(guī)則(包括對中文的支持)沒有接口或接口復(fù)雜,無法定制結(jié)論高負(fù)載的模糊查詢應(yīng)用,需要負(fù)責(zé)的模糊查詢的規(guī)則,索引的資料量比較大使用率低,模糊匹配規(guī)則簡單或者需要模糊查詢的資料量少4.2.3 中文切分詞機制對于中文來說,全文索引首先還要解決一個語言分析的問題,對于英文來說,語句中單詞之間是天然通過空格分開的,但亞洲語言的中日文語句中的字是一個字挨一個,所有,首先要把語句中按“詞”進(jìn)行索引的話,這個詞如何切分出來就是一個很大的問題。首先,肯定不能用單個字符作(si-gram
41、)為索引單元,否則查“”時,不能讓含有“海上”也匹配。但一句話:“天安門”,計算機如何按照中文的語言習(xí)慣進(jìn)行切分呢?“ 天安門” 還是“北 京 天安門”?讓計算機能夠按照語言習(xí)慣進(jìn)行切分,往往需要機器有一個比較豐富的詞庫才能夠比較準(zhǔn)確的識別出語句中的單詞。另外一個解決的辦法是采用自動切分算法:將單詞按照2元語法(bigram)方式切分出來,比如:天安門 = 京天 天安 安門。這樣,在查詢的時候,無論是查詢 還是查詢天安門,將查詢詞組按同樣的規(guī)則進(jìn)行切分:,天安安門,多個關(guān)鍵詞之間按與and的關(guān)系組合,同樣能夠正確地映射到相應(yīng)的索引中。這種方式對于其他亞洲語言:文,日文都是通用的?;谧詣忧蟹值?/p>
42、最大優(yōu)點是沒有詞表維護(hù)成本,實現(xiàn)簡單,缺點是索引效率低,但對于中小型應(yīng)用來說,基于2元語法的切分還是夠用的?;?元切分后的索引一般大小和源文件差不多,而對于英文,索引文件一般只有原文件的30%-40%不同,自動切分詞表切分實現(xiàn)實現(xiàn)非常簡單實現(xiàn)復(fù)雜查詢增加了查詢分析的復(fù)雜程度,適于實現(xiàn)比較復(fù)雜的查詢語法規(guī)則存儲效率索引冗余大,索引幾乎和原文一樣大索引效率高,為原文大小的30左右維護(hù)成本無詞表維護(hù)成本詞表維護(hù)成本非常高:中日等語言需要分別維護(hù)。還需要包括詞頻統(tǒng)計等容適用領(lǐng)域嵌入式系統(tǒng):運行環(huán)境資源有限分布式系統(tǒng):無詞表同步問題多語言環(huán)境:無詞表維護(hù)成本對查詢和存儲效率要求高的專業(yè)搜索引擎4.3
43、Lucene與Spider的結(jié)合首先構(gòu)造一個Index類用來實現(xiàn)對容進(jìn)行索引。代碼分析如下:package news;/* * 新聞搜索引擎*計算機99630 晨 * 版本1.0 */import java.io.IOException;import .ChineseAnalyzer;import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apache.lucene.index.IndexWriter;public class Index IndexWriter
44、_writer = null; Index() throws Exception _writer = new IndexWriter(c:Newsindex,new ChineseAnalyzer(), true); /* * 把每條新聞加入索引中 * param url 新聞的url * param title 新聞的標(biāo)題 * throws java.lang.Exception */ void AddNews(String url, String title) throws Exception Document _doc = new Document(); _doc.add(Field.T
45、ext(title, title); _doc.add(Field.UnIndexed(url, url); _writer.addDocument(_doc); /* * 優(yōu)化并且清理資源 * throws java.lang.Exception */ void close() throws Exception _writer.optimize(); _writer.close(); 然后構(gòu)造一個HTML解析類,把通過bot程序收集的新聞容進(jìn)行索引。代碼分析如下:package news;/* * 新聞搜索引擎*計算機99630 晨 * 版本1.0 */import java.util.It
46、erator;import java.util.Vector;import .heaton.bot.HTMLPage;import .heaton.bot. ;import .heaton.bot.Link;public class HTMLParse _ = null; public HTMLParse( ) _ = ; /* * 對Web頁面進(jìn)行解析后建立索引 */public void start() try HTMLPage _page = new HTMLPage(_ ); _page.open(_ .getURL(), null); Vector _links = _page.ge
47、tLinks(); Index _index = new Index(); Iterator _it = _links.iterator(); int n = 0;while (_it.hasNext() Link _link = (Link) _it.next(); String _herf = input(_link.getHREF().trim(); String _title = input(_link.getPrompt().trim(); _index.AddNews(_herf, _title); n+; System.out.println(共掃描到 + n + 條新聞); _
48、index.close(); catch (Exception ex) System.out.println(ex); /* * 解決java中的中文問題 * param str 輸入的中文 * return 經(jīng)過解碼的中文 */ public static String input(String str) String temp = null; if (str != null) try temp = new String(str.getBytes(ISO8859_1); catch (Exception e) return temp; 4.4小節(jié)在進(jìn)行海量數(shù)據(jù)搜索時,如果使用單純的數(shù)據(jù)庫技術(shù)
49、,那將是非常痛苦的。速度將是極大的瓶頸。所以本章提出了使用全文搜索引擎Lucene進(jìn)行索引、搜索。最后,還結(jié)合了具體代碼說明了如何把Lucene全文搜索引擎和Spider程序互相集合來實現(xiàn)新聞搜索的功能。第五章 基于Tomcat的Web服務(wù)器5.1什么是基于Tomcat的Web服務(wù)器Web服務(wù)器是在網(wǎng)絡(luò)中為實現(xiàn)信息發(fā)布、資料查詢、數(shù)據(jù)處理等諸多應(yīng)用搭建基本平臺的服務(wù)器。Web服務(wù)器如何工作:在Web頁面處理致可分為三個步驟,第一步,Web瀏覽器向一個特定的服務(wù)器發(fā)出Web頁面請求;第二步,Web服務(wù)器接收到Web頁面請求后,尋找所請求的Web頁面,并將所請求的Web頁面?zhèn)魉徒oWeb瀏覽器;第三
50、步,Web服務(wù)器接收到所請求的Web頁面,并將它顯示出來。Tomcat是一個開放源代碼、運行servlet和JSP Web應(yīng)用軟件的基于Java的Web應(yīng)用軟件容器。Tomcat由Apache-Jakarta子項目支持并由來自開放性源代碼Java社區(qū)的志愿者進(jìn)行維護(hù)。Tomcat Server是根據(jù)servlet和JSP規(guī)進(jìn)行執(zhí)行的,因此我們就可以說Tomcat Server也實行了Apache-Jakarta規(guī)且比絕大多數(shù)商業(yè)應(yīng)用軟件服務(wù)器要好。5.2用戶接口設(shè)計5.3.1客戶端設(shè)計一個良好的查詢界面非常重要,例如Googl就以她簡潔的查詢界面而聞名。我在設(shè)計的時候也充分考慮了實用性和簡潔性
51、。查詢界面截圖如下: 搜索結(jié)果截圖如下:5.3.2服務(wù)端設(shè)計主要利用JavaTM Servlet技術(shù)實現(xiàn),用戶通過GET方法從客戶端向服務(wù)端提交查詢條件,服務(wù)端通過Tomcat的Servlet容器接受并分析提交參數(shù),再調(diào)用lucene的開發(fā)包進(jìn)行搜索操作。最后把搜索的結(jié)果以 消息包的形式發(fā)送至客戶端,從而完成一次搜索操作。服務(wù)端Servlet程序的結(jié)構(gòu)如下:實現(xiàn)的關(guān)鍵代碼如下:public void Search(String qc, PrintWriter out) throws Exception / 從索引目錄創(chuàng)建索引 IndexSearcher _searcher = new Inde
52、xSearcher(c:newsindex); / 創(chuàng)建標(biāo)準(zhǔn)分析器 Analyzer analyzer = new ChineseAnalyzer();/ 查詢條件 String line = qc; / Query是一個抽象類 Query query = QueryParser.parse(line, title, analyzer); out.println(); out.println(搜索結(jié)果); out.println(); out.println( + +新聞搜索引擎: + + + ); out.println(搜索關(guān)鍵字: + query.toString(title) +);
53、Hits hits = _searcher.search(query); out.println( 總共找到 + hits.length() +條新聞);final int HITS_PER_PAGE = 10;for (int start = 0; start hits.length(); start += HITS_PER_PAGE) int end = Math.min(hits.length(), start + HITS_PER_PAGE); for (int i = start; i end; i+) Document doc = hits.doc(i); String url =
54、 doc.get(url); if (url != null) out.println( (i + 1) + + replace(doc.get(title), qc) +); else System.out.println(沒有找到!); out.println(); _searcher.close(); ;5.3在Tomcat上部署項目Tomcat中的應(yīng)用程序是一個WAR(Web Archive)文件。WAR是Sun提出的一種Web應(yīng)用程序格式,與JAR類似,也是許多文件的一個壓縮包。這個包中的文件按一定目錄結(jié)構(gòu)來組織:通常其根目錄下包含有Html和Jsp文件或者包含這兩種文件的目錄,另外
55、還會有一個WEB-INF目錄,這個目錄很重要。通常在WEB-INF目錄下有一個web.xml文件和一個classes目錄,web.xml是這個應(yīng)用的配置文件,而classes目錄下則包含編譯好的Servlet類和Jsp或Servlet所依賴的其它類(如JavaBean)。通常這些所依賴的類也可以打包成JAR放到WEB-INF下的lib目錄下,當(dāng)然也可以放到系統(tǒng)的CLASSPATH中。在Tomcat中,應(yīng)用程序的部署很簡單,你只需將你的WAR放到Tomcat的webapp目錄下,Tomcat會自動檢測到這個文件,并將其解壓。你在瀏覽器中訪問這個應(yīng)用的Jsp時,通常第一次會很慢,因為Tomcat要將Jsp轉(zhuǎn)化為Servlet文件,然后編譯。編譯以后,訪問將會很快。5.4小節(jié)本章中詳細(xì)介紹了如何構(gòu)架基于Tomcat的Web服務(wù)器,使得用戶通過瀏覽器進(jìn)行新聞的搜索,最后還對Tomcat如何部署進(jìn)行了說明。第六章 搜索引擎策略6.1簡介隨
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024標(biāo)準(zhǔn)附條件借款合同書
- 2024二級建造師勞動合同
- 2024商場日常保潔服務(wù)合同
- 教育培訓(xùn)崗位聘任合同
- 湖北省武漢市七年級上學(xué)期語文期中試卷7套【附答案】
- 建筑工地施工人員合同范本2024
- 學(xué)術(shù)資源互享互惠協(xié)議
- 家庭長期發(fā)展規(guī)劃協(xié)議書
- 省級總代理授權(quán)協(xié)議
- 2023年高考地理復(fù)習(xí)精題精練-中國的能源安全(新高考專用)(解析版)
- 2023年天津公務(wù)員已出天津公務(wù)員考試真題
- 2025年高考數(shù)學(xué)專項題型點撥訓(xùn)練之初等數(shù)論
- 教科版三年級科學(xué)上冊《第1單元第1課時 水到哪里去了》教學(xué)課件
- 通信技術(shù)工程師招聘筆試題與參考答案(某世界500強集團)2024年
- 國際貿(mào)易術(shù)語2020
- 國網(wǎng)新安規(guī)培訓(xùn)考試題及答案
- 2024至2030年中國節(jié)流孔板組數(shù)據(jù)監(jiān)測研究報告
- 黑龍江省哈爾濱市師大附中2024-2025學(xué)年高一上學(xué)期10月階段性考試英語試題含答案
- 第六單元測試卷-2024-2025學(xué)年統(tǒng)編版語文三年級上冊
- 【課件】Unit4+Section+B+(Project)課件人教版(2024)七年級英語上冊
- 青少年法治教育實踐基地建設(shè)活動實施方案
評論
0/150
提交評論