版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、摘要搜索引擎(Search Engine是一個對互聯(lián)網(wǎng)上的信息資源進行搜集整理的應(yīng)用軟件系統(tǒng)。 它主要包括信息搜集、 索引建立和信息檢索三個部分。 搜索引擎有很多類型,常見的有FTP搜索引擎和WEB搜索引擎。一般 WEB搜索引擎較少處 理FTP服務(wù)器上的數(shù)據(jù)。就信息規(guī)模而言,F(xiàn)TP服務(wù)器的信息量比 WEB服務(wù)器小 很多。因此FTP搜索引擎硬件投入和維護的費用也遠遠低于大型通用搜索引擎。本文針對在FTP服務(wù)器的搜索速度和效率問題,對現(xiàn)有FTP搜索引擎技術(shù)進 行了分析和研究,重點詳細介紹了爬蟲模塊和索引模塊的設(shè)計與實現(xiàn)。文章首先分析了 FTP搜索引擎研究的背景和意義。然后在第3章節(jié)和第4章節(jié)中詳細
2、描述了關(guān)鍵的爬蟲技術(shù)和索引技術(shù), 包括: 如何進行網(wǎng)段掃描, 獲取數(shù)據(jù)以及建立索引數(shù)據(jù)庫等。 最后本文還分析了在爬蟲和索引實現(xiàn)時遇到的困難并提出了相應(yīng)的解決方案?!娟P(guān)鍵詞】FTP搜索引擎網(wǎng)絡(luò)爬蟲索引AbstractSearch Engine (SE) is an application system for information collecting andclassifyingon the Internet. SEconsistsof 3modules: information collecting, index building and information retrieving mo
3、dule. There are several kinds of SE, the WEB SE and are favorite tools among them for end users. Usually,most WEB SEsdo not work well on far as the informationscale on servers, the small than the web servers. Thus the cost of investment and maintenance on hardware is far less than the WEBsearch engi
4、nes.Aiming at the issues on searching efficiency and searching rate of engines, the thesis analyzes the existing technologies, and thendescribes the implementationof spider module and index modulein detail.The thesis analyzes the background and significance of engines atfirst.Then, the key technique
5、s on spider and index are detailed discussedin the 3rd and 4th chapter. It includes how to scan the appointed network-zone, how to extract the from the binary data-stream, as well as how to build the index database. Besidesanalyzes the difficulties while scanningand index-building, the thesis presen
6、ts some feasible solutions at last.【 Key Words】 EngineWeb SpiderIndex目錄摘要 IAbstractI前言 1 TOC o 1-5 h z HYPERLINK l bookmark6 o Current Document 系統(tǒng)技術(shù)及運行環(huán)境2 HYPERLINK l bookmark8 o Current Document 硬件環(huán)境2 HYPERLINK l bookmark10 o Current Document 軟件環(huán)境2 HYPERLINK l bookmark16 o Current Document 運行環(huán)境2 HY
7、PERLINK l bookmark22 o Current Document 三味書屋圖書庫存管理系統(tǒng)系統(tǒng)分析3需求分析3識別實體5 HYPERLINK l bookmark27 o Current Document 三味書屋圖書庫存管理系統(tǒng)總體設(shè)計5系統(tǒng)架構(gòu)層次的劃分5工作流程圖 5 HYPERLINK l bookmark29 o Current Document 各構(gòu)件及各層次實現(xiàn)5設(shè)計和開發(fā)流程5數(shù)據(jù)庫設(shè)計5數(shù)據(jù)庫表設(shè)計5數(shù)據(jù)庫功能模塊5 HYPERLINK l bookmark31 o Current Document 三味書屋圖書庫存管理系統(tǒng)詳細設(shè)計5系統(tǒng)主界面5登錄模塊 5用戶
8、模塊 5查詢訂單 5下單 5 TOC o 1-5 h z 管理員模塊6管理員系統(tǒng)主界面6書籍管理模塊6庫存管理模塊6訂單處理6入庫管理62 開發(fā)環(huán)境和結(jié)論錯誤 ! 未定義書簽。硬件環(huán)境錯誤!未定義書簽。軟件環(huán)境錯誤!未定義書簽。運行環(huán)境錯誤!未定義書簽??偨Y(jié) 6致謝 7參考文獻 8刖百21 世紀是個信息化的時代,現(xiàn)代計算機技術(shù)的突飛猛進,為各行各業(yè)的發(fā)展創(chuàng)造了一個全新的時代背景。 人們的生活、 工作等已經(jīng)越來越離不開計算機科學(xué)的運用, 而 Internet 的應(yīng)用加速了這種趨勢。 隨著全球經(jīng)濟一體化步伐的加快,在信息時代的今天, 各企業(yè)商家所關(guān)心的不再局限于自身的產(chǎn)品質(zhì)量、 生產(chǎn)設(shè)備、員工的素
9、質(zhì),更多的是關(guān)心自己的銷售群體(客戶群) ,關(guān)心他們的想法、需求、購買目的。 基于網(wǎng)絡(luò)的圖書系統(tǒng)的存在給予廣大用戶能不出門也能買到書, 搜索到自己想要的書籍, 方便了管理員的管理和客戶的信息及時反饋。 隨著網(wǎng)站的大規(guī)?;?,它的存在就成為互聯(lián)網(wǎng)生活中不可缺少的一部分。本系統(tǒng)主要采用ASPNET,開發(fā)語言為C#,主要實現(xiàn)的是訂單查詢,模擬購物下單,書籍管理等功能,由于水平有限,很多地方做的還不是很好,有待以后加以改進加強。在下面的各章節(jié)中,我將詳細的介紹三味書屋圖書管理系統(tǒng)BookShopSystemlS勺開發(fā)過程和所涉及的問題以及解決方法。系統(tǒng)技術(shù)及運行環(huán)境硬件環(huán)境處理器: Intel(R) C
10、ore(TM) i5 CPU M480內(nèi)存(RAM) : 2GB軟件環(huán)境操作系統(tǒng):Windows XP sp3系統(tǒng)類型:32 位操作系統(tǒng)編程語言:C#開發(fā)工具:VisualStudio 2008 專業(yè)版ASPNET 簡介1.2.2Visual Studio 2008 簡介運行環(huán)境軟件要求: Windows XP (須安裝 Microsoft .NET Framework SDK, Windows 7( Microsoft .NET Framework SD)K,硬件要求:CPU : Intel Pentium IV (或更高) 內(nèi)存:512MB (或更高運行結(jié)果經(jīng)過多次的測試, 該程序能夠?qū)崿F(xiàn)
11、任務(wù)書要求的功能, 基本滿足三味書屋圖 書庫存管理整體要求。存在的問題和不足由于在設(shè)計之初考慮不足,前期編寫的大量核心代碼書寫格式不規(guī)范, 優(yōu)化 不好。造成在后期修改時需要改動大量的核心代碼, 編碼和調(diào)試的時間均不充足。 造成程序運行的效率不高。在以后的設(shè)計中對這類問題應(yīng)該盡可能的避免。2三味書屋圖書庫存管理系統(tǒng)系統(tǒng)分析需求分析網(wǎng)上書店系統(tǒng)為用戶提供一系列網(wǎng)上購書服務(wù)。系統(tǒng)包含兩類用戶,即管理員和普通用戶。針對這兩類用戶,系統(tǒng)根據(jù)登錄 時的角色判斷,跳轉(zhuǎn)到相應(yīng)的頁面為其提供操作。三味書屋圖書管理系統(tǒng)主要針 對的是后臺圖書的管理,普通用戶模塊只實現(xiàn)了模擬購物車的功能, 包括對訂單 的查詢和下訂單
12、。管理員模塊負責(zé)整個系統(tǒng)的運行與維護,針對圖書執(zhí)行查詢、添加、刪除、 修改操作,針對庫存管理,有各種明細查詢和統(tǒng)計查詢,對出庫訂單的處理,入 庫的處理。管理員和普通用戶的功能模塊圖如下:三味書屋圖書管理系統(tǒng)管理員識別實體三味書屋圖書庫存管理系統(tǒng)總體設(shè)計系統(tǒng) 架構(gòu)層次的劃分工作流程圖各構(gòu)件及各層次實現(xiàn)設(shè)計和開發(fā)流程數(shù)據(jù)庫設(shè)計數(shù)據(jù)庫表設(shè)計數(shù)據(jù)庫功能模塊三味書屋圖書庫存管理系統(tǒng)詳細設(shè)計系統(tǒng)主界面登錄模塊用戶模塊查詢訂單下單管理員模塊管理員系統(tǒng)主界面書籍管理模塊庫存管理模塊訂單處理入庫管理總結(jié)此次畢業(yè)設(shè)計的題目在此之前雖然有所了解, 但是我卻從來也沒有深入的學(xué)習(xí)思考搜索引擎爬蟲模塊的實現(xiàn)方式,如何從浩
13、如煙海的站點中找到提供FTP服務(wù)的站點,F(xiàn)TP站點如何匿名登錄等等一系列的問題在此之前,都沒有進行系統(tǒng)的了解。 因此, 在本次畢業(yè)設(shè)計開始時, 我也曾懷疑自己能否順利的完成此次畢業(yè)設(shè)計。 畢竟平時一直認為網(wǎng)絡(luò)爬蟲的實現(xiàn)都是一些高手才能實現(xiàn)的, 而我自己 僅僅是一個在校的大學(xué)生。然而通過網(wǎng)上查閱資料和查看劉老師提供的資料, 漸漸發(fā)現(xiàn)網(wǎng)絡(luò)爬蟲其實并沒有自己想象中那么神秘,經(jīng)過自己的不斷學(xué)習(xí)和摸索以及劉老師耐性的指導(dǎo),F(xiàn)TP搜索引擎爬蟲模塊的框架漸漸在我的腦海中清晰起來,如何獲取FTP站點地址,如何從FTP站點獲取文件,如何實現(xiàn)Linux和Windows下FTP站點的兼容, 甚至如何利用IIS和Se
14、rv-U配置一個自己的FTP站點,這些問題一個一個被解決。 從最初的實現(xiàn)功能到后來的完善功能, 在這個過程中自己不斷的學(xué)習(xí)和成長, 直 到后來, 發(fā)現(xiàn)一個基本的網(wǎng)絡(luò)爬蟲的實現(xiàn)其實并不困難, 難的是如何讓這個網(wǎng)絡(luò)爬蟲能夠高效率并且穩(wěn)定的工作。對于各個FTP服務(wù)器的兼容也是一個巨大的困 難,這些在設(shè)計之初,都是被我忽略的細節(jié)。總的來說, 這次畢業(yè)設(shè)計完成之后, 不但學(xué)到了書本以外的知識, 而且還增長了自己發(fā)現(xiàn)問題解決問題的能力, 同時也提高了團隊合作的意識, 對以后的工作和生活將起來很大的作用,對于所做任務(wù)網(wǎng)絡(luò)爬蟲的認識也有了很大的提高,已經(jīng)做到了不再糾結(jié)于如何去實現(xiàn)它, 而是在思考如何能夠?qū)ζ湓?/p>
15、有基本功能的 基礎(chǔ)上進行改進。致謝在劉老師的耐心指導(dǎo)下, 經(jīng)過長三個月的漫長實踐, 我順利的完成了這次畢業(yè)設(shè)計任務(wù)。 劉老師倡導(dǎo)我們的獨立思考, 不懂的問題自己親自動手查資料, 實在是解決不了的問他會細心耐心的給我們講解。 劉老師在這段時間給予了我很大的幫助, 使我得到很大的提高, 這些對于我以后的工作和學(xué)習(xí)都是一種巨大的幫助, 感謝他耐心的輔導(dǎo)。 在本次畢業(yè)設(shè)計中, 我從對任務(wù)書上的要求完全陌生到最后能夠的完成本次畢業(yè)設(shè)計,讓我體會到不懂不會并不可怕,通過自我學(xué)習(xí),我們已經(jīng)能夠解決一些我們現(xiàn)在不會的問題。 這次畢業(yè)設(shè)計對我的自學(xué)能力也是一個驗證, 大學(xué)四年, 最大的收獲就是老師培養(yǎng)了我們自我
16、的學(xué)習(xí)的能力, 在此 對老師們表示感謝。同樣,F(xiàn)TP搜索引擎由多個同學(xué)協(xié)同完成,沒有這個團隊的協(xié)作,最終也不 能完成本次設(shè)計,在這里也對在本次設(shè)計中給與我?guī)椭凸膭畹耐瑢W(xué)表示感謝。參考文獻1馬瑞新編著 .NET2.0實訓(xùn)教程大連理工大學(xué)出版社2006年12月第一版2吳晨、王春霞編著ASP.NET 2.0數(shù)據(jù)庫項目案例導(dǎo)航清華大學(xué)出版社2007 年 10 月第一版3李玉林、王巖編著ASP.NET 2.0 網(wǎng)絡(luò)編程從入門到精通清華大學(xué)出版社2006 年 9 月第一版4李嚴,于亞芳,王國輝等.AS啜據(jù)庫開發(fā)實例解析.北京:機械工業(yè)出版社, 20045李俊民,高春燕等.Access數(shù)據(jù)庫開發(fā)實例解析.北京:機械工業(yè)出版社,20066陳冠軍 .精通 ASP.NET 2.0典型模塊設(shè)計與實現(xiàn). 北京:人民郵電出版社, 20067頊宇峰,馬軍.ASP網(wǎng)絡(luò)編程從入門到精通.北京:清華大學(xué)出版社,20068孟憲會,張慧妍.ASENET2.0應(yīng)用開發(fā)技術(shù).北京:人民郵電出版社,20069梁建全,宋修舵,孫強 等.專家門診一ASPNET開發(fā)答疑200問.北京:人民郵電出版社, 200410王國輝,牛強,李南南等.ASP工程應(yīng)用與項目實踐.北京:機械工業(yè)出版社,200511郝剛主
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年電子商務(wù)平臺運營協(xié)議
- 2024在線培訓(xùn)機構(gòu)加盟合同
- 2024年臨時雇傭合同樣式
- 農(nóng)村房屋裝修合同
- 離婚協(xié)議特征范文2024年
- 工程勘察合同書范本
- 人才合作發(fā)展合同模板
- 咨詢服務(wù)合同范本
- 2024年專業(yè)短信節(jié)目合作協(xié)議
- 產(chǎn)品加工合同范本匯編
- 三年級下冊口算天天100題(A4打印版)
- 三基選擇題(東南大學(xué)出版社)
- 2021年大唐集團招聘筆試試題及答案
- DBJ53/T-39-2020 云南省民用建筑節(jié)能設(shè)計標(biāo)準
- 2022版義務(wù)教育數(shù)學(xué)課程標(biāo)準解讀課件PPT模板
- 實驗五 PCR擴增課件
- 馬拉松運動醫(yī)療支援培訓(xùn)課件
- 中醫(yī)藥宣傳手冊
- 不良資產(chǎn)處置盡職指引
- 人教部編版七年級歷史上冊第19課 北魏政治和北方民族大交融課件(23張PPT)
- 機械設(shè)備定期檢查維修保養(yǎng)使用臺賬
評論
0/150
提交評論