網(wǎng)絡(luò)爬蟲需求分析_第1頁
網(wǎng)絡(luò)爬蟲需求分析_第2頁
網(wǎng)絡(luò)爬蟲需求分析_第3頁
網(wǎng)絡(luò)爬蟲需求分析_第4頁
網(wǎng)絡(luò)爬蟲需求分析_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、網(wǎng)絡(luò)爬蟲需求分析目錄1 .引言21.1 編寫目的21.2 背景21.3 定義31.4 參考資料32 .任務(wù)概述32.1 目標32.2 用戶的特點42.3 假定和約束42.4 假設(shè)與依據(jù)43 .需求規(guī)定43.1 對功能的規(guī)定43.1.1 使用庫43.2 對性能的規(guī)定53.2.1 精度53.2.2 時間特性要求53.2.3 靈活性53.2.4 安全性63.2.5 可維護性63.3 輸入輸出要求63.4 數(shù)據(jù)管理能力要求63.5 故障處理要求64 .運行環(huán)境規(guī)定64.1 設(shè)備64.2 支持軟件64.3 接口64.4 控制75 .數(shù)據(jù)流圖76.IPO圖81.1 .數(shù)據(jù)字典9(1)數(shù)據(jù)流詞條的描述錯誤!

2、未定義書簽。(2)數(shù)據(jù)元素詞條的描述錯誤!未定義書簽。(3)數(shù)據(jù)文件詞條的描述錯誤!未定義書簽。2.2 .小說明9.引言編寫目的為開發(fā)人員、維護人員、客戶之間提供共同的協(xié)議而創(chuàng)立基礎(chǔ),對該軟件功能的實現(xiàn)作使命描述。本說明書的預期讀者為客戶、業(yè)務(wù)或需求分析人員、測試人員、用戶文檔編寫者、項目管理人員。背景軟件系統(tǒng)的名稱:網(wǎng)絡(luò)爬蟲1.3定義廣度柳素?網(wǎng)絡(luò)爬蟲搜索引擎WebURL信息互聯(lián)網(wǎng)1.4參考資料網(wǎng)絡(luò)爬蟲軟件的研究與開發(fā)中圖分類號:TP319軟件導刊2011年5月第10卷第5期2.任務(wù)概述2.1目標利用正則袤達式瓜配網(wǎng)頁上用戶所需的字苻率系統(tǒng)流程圖1.客戶端向服務(wù)器發(fā)送自己設(shè)定好的請求。軟件需

3、求(美)KarlE.Wiegers著陸麗娜士忠民土志敏等譯鰭束用戶選擇訪問網(wǎng)頁的餐型(r度搜索或保度搜索)利用廣疼拽素算去.持將相應(yīng)的URL保存利用;8度攫系竦;去二井丹相友的UPL顯示利用htt口協(xié)議發(fā)送響應(yīng)箱電L_使用socket建立套接字開始.通過http將Web服務(wù)器上協(xié)議站點的網(wǎng)頁代碼提取出來。.根據(jù)一定的正則表達式提取出客戶端所需要的信息。.采用深度優(yōu)先搜索從網(wǎng)頁中某個鏈接出發(fā),訪問該鏈接的網(wǎng)頁,并通過遞歸算法實現(xiàn)依次向下訪問。.采用廣度優(yōu)先搜索從網(wǎng)頁中某個鏈接出發(fā),訪問該鏈接網(wǎng)頁上的所有鏈接,訪問完成后,再通過遞歸算法實現(xiàn)下一層的訪問。用戶的特點使用本軟件面向不同領(lǐng)域、不同背景的

4、廣大群眾,可以根據(jù)自己制定的搜索主題來使用本軟件。假定和約束.有CPU13316兆內(nèi)存配置的計算機就可運行本系統(tǒng)。.在管理方針、并行操作、安全與保密方面無約束。2.4假設(shè)與依據(jù)本軟件在開發(fā)的過程中,分為技術(shù)實現(xiàn)與軟件工程兩大部分,兩部分都有側(cè)重點,若技術(shù)支持出現(xiàn)故障或疑難問題無法解決、程序開發(fā)出現(xiàn)偏差,會延誤工程進度,影響工程的按期完工。若軟件工程陳述出現(xiàn)問題,部分描述含混不清,則會影響系統(tǒng)的完整性與可繼承性。在管理方面,如管理者沒有預見性,對出向的問題無法采用可行的解決手段,都會影響開發(fā)模塊之間的互動,從而影響工程的順利開展,導致工程無法按期完工。.需求規(guī)定對功能的規(guī)定使用庫規(guī)格說明L庫文件

5、名R調(diào)用指定庫|5顯示所調(diào)用的數(shù)據(jù)庫的庫結(jié)構(gòu)引言顯示所調(diào)用的數(shù)據(jù)庫。輸入指定的庫文件名。力口工調(diào)用指定的數(shù)據(jù)庫。輸出顯示所指定的數(shù)據(jù)庫的庫結(jié)構(gòu)。對性能的規(guī)定精度.用戶在設(shè)置愛好時進行精度提示,提交給服務(wù)器后進行精短校驗。.在進行向數(shù)據(jù)庫文件提取數(shù)據(jù)時,要求數(shù)據(jù)記錄定位準確,在往數(shù)據(jù)庫文件數(shù)組中添加數(shù)時,要求輸入數(shù)準確。時間特性要求a.響應(yīng)時間應(yīng)在人的感覺和視覺事件范圍內(nèi)b.更新處理時間:隨著本系統(tǒng)的版本升級,系統(tǒng)將相應(yīng)的進行更新c.數(shù)據(jù)的轉(zhuǎn)換和彳送時間:12秒靈活性當需求發(fā)生某些變化時,本系統(tǒng)操作方式、數(shù)據(jù)結(jié)構(gòu)、運行環(huán)境基本不會發(fā)生變化,變化只是將對應(yīng)的數(shù)據(jù)庫文件內(nèi)的記錄改變,或?qū)⑦^濾條件改變

6、即可安全性本軟件大量的參數(shù)及文本內(nèi)容全部放于漢語編程數(shù)據(jù)庫中,所以參數(shù)不容易被錯改、破壞,萬一參數(shù)受到破壞也不會影響源程序??删S護性本軟件利用數(shù)據(jù)庫進行編程,系統(tǒng)結(jié)構(gòu)由程序基本確定,大量的參數(shù)及文本內(nèi)容全部放于漢語編程中。修改、更新數(shù)據(jù)只要在數(shù)據(jù)庫進行修改添加,而不需要對系統(tǒng)結(jié)構(gòu)進行修改,這樣系統(tǒng)維護性、升級都十分方便。輸入輸由要求用戶應(yīng)該輸入一個合法的初始URL作為初始入口。數(shù)據(jù)管理能力要求本系統(tǒng)采用sqlserver數(shù)據(jù)庫對資源進行存儲,其自帶的空間自增長有效的解決了數(shù)據(jù)管理的問題。故障處理要求當客戶端多數(shù)用戶同時使用,可能造成服務(wù)器負載過重,于是啟用了多線程方法,同時限定最大線程數(shù),防止

7、服務(wù)器崩潰。.運行環(huán)境規(guī)定設(shè)備本軟件不需要特定的硬件或硬件接口進行支撐。486以上具備有java的運行環(huán)境jdk的PC機均可運行此軟件。運行時需要聯(lián)機。支持軟件本系統(tǒng)采用java語言制作,支持win7/XP/Linux等操作系統(tǒng),由java虛擬機編譯,測試軟件為MyEclipse;接口客戶端瀏覽器是搜索引擎和用戶之間的接口。其首先獲取用戶搜索條件并加以分析,然后訪問索引數(shù)據(jù)庫進行匹配后獲得檢索結(jié)果,然后根據(jù)設(shè)定的相關(guān)度進行降哥排序處理后返回給用戶。輸出、輸入的相對時間將由pc機本身處理速度來決定。對程序的維護,需進行必要的備份。http傳給服務(wù)器,服務(wù)器接受信號執(zhí)行控制本軟件通過客戶端瀏覽器,

8、用戶設(shè)置自己的愛好,并通過響應(yīng)操作。網(wǎng)頁第一層網(wǎng)頁第二層1.11.2學生搜索方法M驗證搜索方'驗證ur匿J4法有效性,正確搜索方法效性搜索配置網(wǎng)頁2.1下載網(wǎng)頁:1/網(wǎng)頁2.2第三層6.IPO圖7.數(shù)據(jù)字典.搜索方法=搜索策略+抓取類型。搜索策略="廣度優(yōu)先”|“深度優(yōu)先”|“最好優(yōu)先”抓取類型=音頻|視頻|圖片.網(wǎng)頁信息=主題+內(nèi)容+鏈接地址.搜索配置=搜索方法+URL.下載網(wǎng)頁=站內(nèi)爬取+外鏈爬取.驗證URL有效性=存在性+價值性加工編號:i.i加工名:設(shè)置搜索方法輸入流:自定義搜索方法表輸出流:完整的搜索方法表加工邏輯:將自定義搜索方法表及系統(tǒng)默認選項參數(shù)加工成完整的搜索方法表有關(guān)信息:當有選擇輸入時執(zhí)行此加工,否則按默認執(zhí)行加工編號:1.2加工名:對URL檢查輸入流:搜索方法中的初始URL輸出流:正確的搜索配置加工邏輯:通過檢查URL的存在性和價值性來判斷該URL是否可行加工編號:2.1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論