


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、局域網(wǎng)FTP搜索引擎的建立 摘 要 FTP服務(wù)是網(wǎng)絡(luò)服務(wù)的一種應(yīng)用廣泛的文件傳輸形式,本文擬構(gòu)建一個基于Web的FTP主機的文件搜索系統(tǒng),能夠以Web形式輕松的檢索FTP上的文件,并且可以直觀的以Web模式模擬FTP主機的文件結(jié)構(gòu)。 關(guān)鍵詞 搜索引擎;FTP;Web 1 背景 當前,計算機網(wǎng)絡(luò)已經(jīng)越來越普及,各個單位也已經(jīng)逐步建立自己的FTP(File Transfer Proto
2、col)服務(wù)器,用來管理存儲對于自己單位內(nèi)部共享的一些文件或者對外共享的一些文件。隨著被FTP管理的文件數(shù)量的不斷增長,達到上萬、上百萬,甚至更多的時候,如何在如此龐大數(shù)據(jù)里邊更快捷的找到自己所需的文件,將成為一個很重要的問題。 目前出現(xiàn)了一些FTP搜索引擎,可以用來搜索整個互聯(lián)網(wǎng)內(nèi)處于匿名訪問的FTP上的文件信息,而需要權(quán)限才能訪問的FTP則無法直接建立索引,因此不能達到搜索效果。本文擬構(gòu)建的FTP搜索引擎是針對單位內(nèi)部,局域網(wǎng)內(nèi)的一個或者幾個FTP服務(wù)器建立的;使內(nèi)部用戶直接可以看到FTP上的目錄結(jié)構(gòu),并可以準確的搜索文件位置,然后下載瀏覽,達到檢索高效
3、、準確。2 擬構(gòu)建系統(tǒng)之模型 系統(tǒng)構(gòu)建網(wǎng)絡(luò)拓撲模型如圖1所示。圖1 系統(tǒng)拓撲模型 根據(jù)拓撲結(jié)構(gòu),內(nèi)部網(wǎng)絡(luò)部署若干臺FTP服務(wù)器,根據(jù)需要,在每臺需要被查詢的FTP服務(wù)器上,建立掃描文件結(jié)構(gòu)發(fā)生變化的爬蟲程序,并在內(nèi)部網(wǎng)絡(luò)建立FTP文件索引數(shù)據(jù)庫服務(wù)器,用來存放FTP服務(wù)器上爬蟲程序獲取的索引數(shù)據(jù),另外還要建立Web服務(wù)器,用來做Web查詢。3 系統(tǒng)模式分析 本系統(tǒng)采用兩個模塊構(gòu)建,分別是部署于FTP服務(wù)器的爬蟲程序和部署于Web服務(wù)器的索引查詢引擎。 &
4、#160; 部署于FTP服務(wù)器的爬蟲是一用來監(jiān)控FTP文件結(jié)構(gòu)變化的程序,它用來監(jiān)視FTP服務(wù)器的變化,當FTP服務(wù)器有新的文件上傳或者有文件被刪除或者文件位置發(fā)生變化的時候,爬蟲程序會立即捕捉到此變化,然后將變化信息響應(yīng)到建立索引的數(shù)據(jù)庫服務(wù)器。 部署于Web服務(wù)器的查詢引擎是主要用來做查詢服務(wù),以及針對用戶輸入的查詢關(guān)鍵字做模糊處理,直接以模糊方式查詢,當搜索到結(jié)果以后,顯示時候?qū)⑽募嶧TP位置顯示,同時將對應(yīng)的超級連接做在上邊,可以方便直接下載。 在訪問范圍上,擬構(gòu)建的搜索系統(tǒng)可以供內(nèi)網(wǎng)和外網(wǎng)同時檢索,訪問方式如
5、圖一所示,將Web服務(wù)器發(fā)布在內(nèi)部網(wǎng)絡(luò),同時開放到Internet,可提供到Internet訪問。通過Web服務(wù)器來對內(nèi)和對外提供檢索服務(wù)。內(nèi)部用戶通過內(nèi)部網(wǎng)絡(luò)直接訪問Web服務(wù)器來訪問搜索引擎,外部用戶通過Internet來訪問Web搜索引擎。4 系統(tǒng)的實現(xiàn) FTP服務(wù)器爬蟲程序主要用來建立FTP文件的樹形結(jié)構(gòu),如圖2所表示,每獲得一個服務(wù)器就建立一個FTP根節(jié)點,然后在遍歷根節(jié)點下邊的子節(jié)點,直到將子節(jié)點遍歷完畢。FTP服務(wù)器爬蟲程序可以采用Java或者C+等程序來實現(xiàn),可以作為操作系統(tǒng)的一個服務(wù)來加載。此種爬蟲程序可以根據(jù)需求分為兩類,一類
6、是實時記載服務(wù)器文件結(jié)構(gòu)變化的,一類是分周期的記載數(shù)據(jù)庫變化的。圖2 FTP爬蟲遍歷獲得數(shù)據(jù)結(jié)構(gòu) 實時記載的爬蟲程序運行過程是:當初始加載到一個新的FTP服務(wù)器,爬蟲程序首先遍歷該服務(wù)器,獲得該服務(wù)器的文件結(jié)構(gòu),同時將此結(jié)構(gòu)記載到數(shù)據(jù)庫服務(wù)器,當遍歷完整個服務(wù)器后,然后就進入監(jiān)控狀態(tài),實時記載服務(wù)器變化,當文件增加時在原數(shù)據(jù)基礎(chǔ)上追加數(shù)據(jù),當文件更改位置后,修改對應(yīng)記錄的數(shù)據(jù),當文件被刪除時清除數(shù)據(jù)庫中的對應(yīng)記錄。 分周期記載的爬蟲程序的運行過程是:當加載到一個新的FTP服務(wù)器,程序遍歷該服務(wù)器,獲得服務(wù)器的文
7、件結(jié)構(gòu),同時也將此結(jié)構(gòu)記載到數(shù)據(jù)庫服務(wù)器,當過一定周期后,重新遍歷服務(wù)器文件結(jié)構(gòu),將結(jié)果再記載到數(shù)據(jù)庫,并刪除原有的遍歷結(jié)果,如此反復(fù)。 兩類程序有各自的優(yōu)缺點,第一類實時性比較強,當服務(wù)器文件結(jié)構(gòu)發(fā)生變化后,立即可以體現(xiàn)到檢索結(jié)構(gòu)中,但缺點是占用FTP系統(tǒng)資源太多,可能會影響FTP服務(wù)性能;第二類正好與相反,因為它是周期性的遍歷,因此可選擇FTP比較空閑的時候來遍歷,不會太多影響FTP服務(wù)性能,但實時性就比較差,不能將FTP的文件變化立刻體現(xiàn)到檢索結(jié)果中去。兩類程序可根據(jù)服務(wù)器性能來選擇合適的類型。 搜索引擎Web端可以
8、采用J2EE+AJAX來實現(xiàn),用戶檢索時可選擇精確檢索和模糊檢索,精確檢索查詢完全匹配的,模糊查詢檢索可以用相似性來檢索。此外,針對每個獨立的FTP主機,遍歷其上爬蟲程序建立于數(shù)據(jù)庫的索引樹結(jié)構(gòu),就可以建立起虛擬的FTP文件結(jié)構(gòu),從而可以在WEB程序上顯示FTP的文件結(jié)構(gòu)。5 結(jié)束語 本文討論建立基于局域網(wǎng)的單個FTP和多個FTP的搜索,根據(jù)FTP服務(wù)器的實際情況,選擇適合的爬蟲程序類型,建立索引樹。對于本文設(shè)計構(gòu)建的結(jié)果,可以將本系統(tǒng)推廣于Internet,將爬蟲程序置入需要索引的FTP上,或者通過外部間接獲取索引,從而達到FTP的文件搜索效果,使得用戶更加高效的找到所需要的文件。參考文獻1陳華,王繼民,韓近強,謝欣.互聯(lián)網(wǎng)上FTP文件的分布特征與啟示 2陳華,李曉明.高級文件搜索引擎核心功能的實現(xiàn)技術(shù).搜索引擎與Web挖掘進展,高等教育出版社,2003
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 市政道路路面施工方案
- 天面防水施工方案
- 混凝土花架施工方案
- 人工沙灘施工方案
- 路面澆筑混凝土施工方案
- 火災(zāi)對講系統(tǒng)施工方案
- 綠色圍擋安裝施工方案
- wns鍋爐安裝施工方案
- 酒店線路施工方案
- 港口工程施工安全評估
- 醫(yī)學(xué)實驗室風(fēng)險評估報告-臨床實驗室風(fēng)險評估-可復(fù)制
- 2022年教資筆試科目三高中數(shù)學(xué)講義
- 八大員-勞務(wù)員??荚囶}與答案
- 2024危重癥患兒管飼喂養(yǎng)護理-中華護理學(xué)會團體標準課件
- 《《中央企業(yè)合規(guī)管理辦法》解讀》課件
- 脫硫自動化控制-洞察分析
- 醫(yī)務(wù)人員醫(yī)德醫(yī)風(fēng)培訓(xùn)
- 人教版初中歷史八上-第2課 第二次鴉片戰(zhàn)爭
- 2025年中考語文專題復(fù)習(xí):寫作技巧 課件
- 60歲以上務(wù)工免責(zé)協(xié)議書
- 2024年社區(qū)工作者考試必考1000題【歷年真題】
評論
0/150
提交評論