版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、網(wǎng)絡(luò)爬蟲需求分析目錄1. 引言 21.1 編寫目的 21.2 背景 21.3 定義 31.4 參考資料 32. 任務(wù)概述 32.1 目標 32.2 用戶的特點 42.3 假定和約束 42.4 假設(shè)與依據(jù) 43. 需求規(guī)定 43.1 對功能的規(guī)定 43.1.1 使用庫 43.2 對性能的規(guī)定 53.2.1 精度 53.2.2 時間特性要求 53.2.3 靈活性 63.2.4 安全性 63.2.5 可維護性 63.3 輸入輸出要求 63.4 數(shù)據(jù)管理能力要求 63.5 故障處理要求 64. 運行環(huán)境規(guī)定 64.1 設(shè)備 64.2 支持軟件 74.3 接口 74.4 控制 75. 數(shù)據(jù)流圖 76.
2、IPO 圖 97 .數(shù)據(jù)字典 9(1) 數(shù)據(jù)流詞條的描述 錯誤!未定義書簽。(2) 數(shù)據(jù)元素詞條的描述 錯誤!未定義書簽。(3) 數(shù)據(jù)文件詞條的描述 錯誤!未定義書簽。8 .小說明 101 .引言1.1 編寫目的為開發(fā)人員、維護人員、客戶之間提供共同的協(xié)議而創(chuàng)立基礎(chǔ),對該軟件功能的實現(xiàn)作使命描述。本說明書的預(yù)期讀者為客戶、業(yè)務(wù)或需求分析人員、測試人員、用戶文檔編寫者、項目管理人員。1.2 背景軟件系統(tǒng)的名稱:網(wǎng)絡(luò)爬蟲1.3 定義網(wǎng)絡(luò)爬蟲搜索引擎Web URL信息互聯(lián)網(wǎng)1.4 參考資料網(wǎng)絡(luò)爬蟲軟件的研究與開發(fā)中圖分類號:TP319軟件導(dǎo)刊2011年5月 第10卷軟件需求(美)Karl E.Wie
3、gers 著陸麗娜王忠民王志敏等譯2 .任務(wù)概述2.1 目標系統(tǒng)流程圖1. 客戶端向服務(wù)器發(fā)送自己設(shè)定好的請求。2. 通過 http 將 Web 服務(wù)器上協(xié)議站點的網(wǎng)頁代碼提取出來。3. 根據(jù)一定的正則表達式提取出客戶端所需要的信息。4. 采用深度優(yōu)先搜索從網(wǎng)頁中某個鏈接出發(fā) ,訪問該鏈接的網(wǎng)頁,并通過遞歸算法實現(xiàn)依次向下訪問。5. 采用廣度優(yōu)先搜索從網(wǎng)頁中某個鏈接出發(fā),訪問該鏈接網(wǎng)頁上的所有鏈接,訪問完成后,再通過遞歸算法實現(xiàn)下一層的訪問。2.2 用戶的特點使用本軟件面向不同領(lǐng)域、不同背景的廣大群眾,可以根據(jù)自己制定的搜索主題來使用本軟件。2.3 假定和約束1. 有 CPU133 、 16
4、兆內(nèi)存配置的計算機就可運行本系統(tǒng)。2. 在管理方針、并行操作、安全與保密方面無約束。2.4 假設(shè)與依據(jù)本軟件在開發(fā)的過程中,分為技術(shù)實現(xiàn)與軟件工程兩大部分,兩部分都有側(cè)重點,若技術(shù)支持出現(xiàn)故障或疑難問題無法解決、程序開發(fā)出現(xiàn)偏差,會延誤工程進度,影響工程的按期完工。若軟件工程陳述出現(xiàn)問題,部分描述含混不清,則會影響系統(tǒng)的完整性與可繼承性。在管理方面,如管理者沒有預(yù)見性,對出向的問題無法采用可行的解決手段,都會影響開發(fā)模塊之間的互動,從而影響工程的順利開展,導(dǎo)致工程無法按期完工。3. 需求規(guī)定3.1 對功能的規(guī)定3.1.1 使用庫 規(guī)格說明1:庫文件名|P:調(diào)用指定庫|0:顯示所調(diào)
5、用的散據(jù)庫的庫結(jié)構(gòu) 引言顯示所調(diào)用的數(shù)據(jù)庫。 輸入指定的庫文件名。 力口工調(diào)用指定的數(shù)據(jù)庫。 輸出顯示所指定的數(shù)據(jù)庫的庫結(jié)構(gòu)。3.2 對性能的規(guī)定3.2.1 精度1 .用戶在設(shè)置愛好時進行精度提示,提交給服務(wù)器后進行精短校驗。2 .在進行向數(shù)據(jù)庫文件提取數(shù)據(jù)時,要求數(shù)據(jù)記錄定位準確,在往數(shù)據(jù)庫文件數(shù)組中添加數(shù)時,要 求輸入數(shù)準確。3.2.2 時間特性要求a.響應(yīng)時間應(yīng)在人的感覺和視覺事件范圍內(nèi)b.更新處理時間:隨著本系統(tǒng)的版本升級,系統(tǒng)將相應(yīng)的進行更新c.數(shù)據(jù)的轉(zhuǎn)換和彳送時間:12秒3.2.3 靈活性當需求發(fā)生某些變化時,本系統(tǒng)操作方式、
6、數(shù)據(jù)結(jié)構(gòu)、運行環(huán)境基本不會發(fā)生變化,變化只是將對應(yīng)的數(shù)據(jù)庫文件內(nèi)的記錄改變,或?qū)⑦^濾條件改變即可。3.2.4 安全性本軟件大量的參數(shù)及文本內(nèi)容全部放于漢語編程數(shù)據(jù)庫中,所以參數(shù)不容易被錯改、破壞,萬一參數(shù)受到破壞也不會影響源程序。3.2.5 可維護性本軟件利用數(shù)據(jù)庫進行編程, 系統(tǒng)結(jié)構(gòu)由程序基本確定, 大量的參數(shù)及文本內(nèi)容全部放于漢語編程中。修改、更新數(shù)據(jù)只要在數(shù)據(jù)庫進行修改添加,而不需要對系統(tǒng)結(jié)構(gòu)進行修改,這樣系統(tǒng)維護性、升級都十分方便。3.3 輸入輸出要求用戶應(yīng)該輸入一個合法的初始URL 作為初始入口。3.4 數(shù)據(jù)管理能力要求本系統(tǒng)采用 sql server 數(shù)據(jù)庫對資源進行存儲, 其自帶
7、的空間自增長有效的解決了數(shù)據(jù)管理的問題。3.5 故障處理要求當客戶端多數(shù)用戶同時使用,可能造成服務(wù)器負載過重,于是啟用了多線程方法,同時限定最大線程數(shù),防止服務(wù)器崩潰。4. 運行環(huán)境規(guī)定4.1 設(shè)備本軟件不需要特定的硬件或硬件接口進行支撐。 486 以上具備有java 的運行環(huán)境jdk 的 PC 機均可運行此軟件。運行時需要聯(lián)機。4.2 支持軟件本系統(tǒng)采用java語言制作,支持 win7/XP/Linux等操作系統(tǒng),由java虛擬機編譯,測試軟件為My Eclipse;4.3 接口客戶端瀏覽器是搜索引擎和用戶之間的接口。其首先獲取用戶搜索條件并加以分析,然后訪問索引數(shù)據(jù)庫進行匹配后獲得檢索結(jié)果
8、,然后根據(jù)設(shè)定的相關(guān)度進行降哥排序處理后返回給用戶。輸出、輸入的相對時間將由pc機本身處理速度來決定。對程序的維護,需進行必要的備份。4.4 控制本軟件通過客戶端瀏覽器,用戶設(shè)置自己的愛好,并通過 http傳給服務(wù)器,服務(wù)器接受信號執(zhí)行響應(yīng)操作。5. 數(shù)據(jù)流圖網(wǎng)頁第一層可編輯 Z 1、學(xué)生 驗證后效 搜索方法沖 性廠一、二 1.11 1.2學(xué)生 :驗證搜索方 k驗證URL搜索方法正確搜索方法i-u.上(、!Ie-Lh > 學(xué)生搜索配置 爬取網(wǎng)頁,聽信息伊VVI f網(wǎng)頁第二層/ 21 八22-有»下百一*檢查網(wǎng)頁重>學(xué)生,搜索配常、:載門工/網(wǎng)頁復(fù)性 網(wǎng)頁信息網(wǎng)頁第三層6.
9、IPO 圖7.數(shù)據(jù)字典1 .搜索方法=搜索策略+抓取類型。搜索策略="廣度優(yōu)先” | “深度優(yōu)先” | “最好優(yōu)先”抓取類型=音頻|視頻|圖片2 .網(wǎng)頁信息=主題+內(nèi)容+鏈接地址3 .搜索配置=搜索方法+ URL4 .下載網(wǎng)頁=站內(nèi)爬取+外鏈爬取5 .驗證URL有效性=存在性+價值性8 .小說明加工編號:i.i加工名:設(shè)置搜索方法輸入流:自定義搜索方法表輸出流:完整的搜索方法表加工邏輯:將自定義搜索方法表及系統(tǒng)默認選項參數(shù)加工成完整的搜索方法表有關(guān)信息:當有選擇輸入時執(zhí)行此加工,否則按默認執(zhí)行加工編號:1.2加工名:對URL檢查輸入流:搜索方法中的初始URL輸出流:正確的搜索配置加工邏輯:通過檢查 URL的存在性和價值性來判斷該URL是否可
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 換熱機組招標項目報名服務(wù)指南3篇
- 招標邀請書的制作技巧指南3篇
- 文化生活意向房屋租賃合同3篇
- 撤訴委托書格式與范本3篇
- 新版薪酬補充合同3篇
- 工業(yè)電氣安裝合同模板3篇
- 數(shù)據(jù)服務(wù)合作協(xié)議3篇
- 文員的勞動合同范本3篇
- 校園公園綠化養(yǎng)護協(xié)議
- 中央空調(diào)安裝合同
- 公寓de全人物攻略本為個人愛好而制成如需轉(zhuǎn)載注明信息
- 減少巡回護士手術(shù)中外出次數(shù)品管圈匯報書模板課件
- 5分鐘安全五人小品劇本
- 售后服務(wù)人員培訓(xùn)課件
- 福建省福州市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名明細及行政區(qū)劃代碼
- 《高中語文文言斷句》一等獎優(yōu)秀課件
- 大學(xué)生創(chuàng)新思維教學(xué)課件全套教學(xué)課件
- 教育研究導(dǎo)論首都師范
- 象棋比賽積分編排表
- 工會新聞的寫作培訓(xùn)講義(共36頁).ppt
- [爆笑小品校園劇本7人]爆笑小品校園劇本
評論
0/150
提交評論