局域網(wǎng)FTP搜索引擎的建立_第1頁
局域網(wǎng)FTP搜索引擎的建立_第2頁
局域網(wǎng)FTP搜索引擎的建立_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、局域網(wǎng)FTP搜索引擎的建立         摘  要  FTP服務(wù)是網(wǎng)絡(luò)服務(wù)的一種應(yīng)用廣泛的文件傳輸形式,本文擬構(gòu)建一個基于Web的FTP主機的文件搜索系統(tǒng),能夠以Web形式輕松的檢索FTP上的文件,并且可以直觀的以Web模式模擬FTP主機的文件結(jié)構(gòu)。    關(guān)鍵詞  搜索引擎;FTP;Web 1  背景    當前,計算機網(wǎng)絡(luò)已經(jīng)越來越普及,各個單位也已經(jīng)逐步建立自己的FTP(File Transfer Proto

2、col)服務(wù)器,用來管理存儲對于自己單位內(nèi)部共享的一些文件或者對外共享的一些文件。隨著被FTP管理的文件數(shù)量的不斷增長,達到上萬、上百萬,甚至更多的時候,如何在如此龐大數(shù)據(jù)里邊更快捷的找到自己所需的文件,將成為一個很重要的問題。    目前出現(xiàn)了一些FTP搜索引擎,可以用來搜索整個互聯(lián)網(wǎng)內(nèi)處于匿名訪問的FTP上的文件信息,而需要權(quán)限才能訪問的FTP則無法直接建立索引,因此不能達到搜索效果。本文擬構(gòu)建的FTP搜索引擎是針對單位內(nèi)部,局域網(wǎng)內(nèi)的一個或者幾個FTP服務(wù)器建立的;使內(nèi)部用戶直接可以看到FTP上的目錄結(jié)構(gòu),并可以準確的搜索文件位置,然后下載瀏覽,達到檢索高效

3、、準確。2  擬構(gòu)建系統(tǒng)之模型    系統(tǒng)構(gòu)建網(wǎng)絡(luò)拓撲模型如圖1所示。圖1 系統(tǒng)拓撲模型    根據(jù)拓撲結(jié)構(gòu),內(nèi)部網(wǎng)絡(luò)部署若干臺FTP服務(wù)器,根據(jù)需要,在每臺需要被查詢的FTP服務(wù)器上,建立掃描文件結(jié)構(gòu)發(fā)生變化的爬蟲程序,并在內(nèi)部網(wǎng)絡(luò)建立FTP文件索引數(shù)據(jù)庫服務(wù)器,用來存放FTP服務(wù)器上爬蟲程序獲取的索引數(shù)據(jù),另外還要建立Web服務(wù)器,用來做Web查詢。3 系統(tǒng)模式分析    本系統(tǒng)采用兩個模塊構(gòu)建,分別是部署于FTP服務(wù)器的爬蟲程序和部署于Web服務(wù)器的索引查詢引擎。  &

4、#160; 部署于FTP服務(wù)器的爬蟲是一用來監(jiān)控FTP文件結(jié)構(gòu)變化的程序,它用來監(jiān)視FTP服務(wù)器的變化,當FTP服務(wù)器有新的文件上傳或者有文件被刪除或者文件位置發(fā)生變化的時候,爬蟲程序會立即捕捉到此變化,然后將變化信息響應(yīng)到建立索引的數(shù)據(jù)庫服務(wù)器。    部署于Web服務(wù)器的查詢引擎是主要用來做查詢服務(wù),以及針對用戶輸入的查詢關(guān)鍵字做模糊處理,直接以模糊方式查詢,當搜索到結(jié)果以后,顯示時候?qū)⑽募嶧TP位置顯示,同時將對應(yīng)的超級連接做在上邊,可以方便直接下載。    在訪問范圍上,擬構(gòu)建的搜索系統(tǒng)可以供內(nèi)網(wǎng)和外網(wǎng)同時檢索,訪問方式如

5、圖一所示,將Web服務(wù)器發(fā)布在內(nèi)部網(wǎng)絡(luò),同時開放到Internet,可提供到Internet訪問。通過Web服務(wù)器來對內(nèi)和對外提供檢索服務(wù)。內(nèi)部用戶通過內(nèi)部網(wǎng)絡(luò)直接訪問Web服務(wù)器來訪問搜索引擎,外部用戶通過Internet來訪問Web搜索引擎。4  系統(tǒng)的實現(xiàn)    FTP服務(wù)器爬蟲程序主要用來建立FTP文件的樹形結(jié)構(gòu),如圖2所表示,每獲得一個服務(wù)器就建立一個FTP根節(jié)點,然后在遍歷根節(jié)點下邊的子節(jié)點,直到將子節(jié)點遍歷完畢。FTP服務(wù)器爬蟲程序可以采用Java或者C+等程序來實現(xiàn),可以作為操作系統(tǒng)的一個服務(wù)來加載。此種爬蟲程序可以根據(jù)需求分為兩類,一類

6、是實時記載服務(wù)器文件結(jié)構(gòu)變化的,一類是分周期的記載數(shù)據(jù)庫變化的。圖2  FTP爬蟲遍歷獲得數(shù)據(jù)結(jié)構(gòu)    實時記載的爬蟲程序運行過程是:當初始加載到一個新的FTP服務(wù)器,爬蟲程序首先遍歷該服務(wù)器,獲得該服務(wù)器的文件結(jié)構(gòu),同時將此結(jié)構(gòu)記載到數(shù)據(jù)庫服務(wù)器,當遍歷完整個服務(wù)器后,然后就進入監(jiān)控狀態(tài),實時記載服務(wù)器變化,當文件增加時在原數(shù)據(jù)基礎(chǔ)上追加數(shù)據(jù),當文件更改位置后,修改對應(yīng)記錄的數(shù)據(jù),當文件被刪除時清除數(shù)據(jù)庫中的對應(yīng)記錄。    分周期記載的爬蟲程序的運行過程是:當加載到一個新的FTP服務(wù)器,程序遍歷該服務(wù)器,獲得服務(wù)器的文

7、件結(jié)構(gòu),同時也將此結(jié)構(gòu)記載到數(shù)據(jù)庫服務(wù)器,當過一定周期后,重新遍歷服務(wù)器文件結(jié)構(gòu),將結(jié)果再記載到數(shù)據(jù)庫,并刪除原有的遍歷結(jié)果,如此反復(fù)。    兩類程序有各自的優(yōu)缺點,第一類實時性比較強,當服務(wù)器文件結(jié)構(gòu)發(fā)生變化后,立即可以體現(xiàn)到檢索結(jié)構(gòu)中,但缺點是占用FTP系統(tǒng)資源太多,可能會影響FTP服務(wù)性能;第二類正好與相反,因為它是周期性的遍歷,因此可選擇FTP比較空閑的時候來遍歷,不會太多影響FTP服務(wù)性能,但實時性就比較差,不能將FTP的文件變化立刻體現(xiàn)到檢索結(jié)果中去。兩類程序可根據(jù)服務(wù)器性能來選擇合適的類型。    搜索引擎Web端可以

8、采用J2EE+AJAX來實現(xiàn),用戶檢索時可選擇精確檢索和模糊檢索,精確檢索查詢完全匹配的,模糊查詢檢索可以用相似性來檢索。此外,針對每個獨立的FTP主機,遍歷其上爬蟲程序建立于數(shù)據(jù)庫的索引樹結(jié)構(gòu),就可以建立起虛擬的FTP文件結(jié)構(gòu),從而可以在WEB程序上顯示FTP的文件結(jié)構(gòu)。5  結(jié)束語    本文討論建立基于局域網(wǎng)的單個FTP和多個FTP的搜索,根據(jù)FTP服務(wù)器的實際情況,選擇適合的爬蟲程序類型,建立索引樹。對于本文設(shè)計構(gòu)建的結(jié)果,可以將本系統(tǒng)推廣于Internet,將爬蟲程序置入需要索引的FTP上,或者通過外部間接獲取索引,從而達到FTP的文件搜索效果,使得用戶更加高效的找到所需要的文件。參考文獻1陳華,王繼民,韓近強,謝欣.互聯(lián)網(wǎng)上FTP文件的分布特征與啟示 2陳華,李曉明.高級文件搜索引擎核心功能的實現(xiàn)技術(shù).搜索引擎與Web挖掘進展,高等教育出版社,2003&#

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論