資源數(shù)據(jù)采集技術方案._第1頁
資源數(shù)據(jù)采集技術方案._第2頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、資源數(shù)據(jù)采集技術方案公司名稱2011年7月二O一一年七月目錄第1部分概述31.1項目概況31.2系統(tǒng)建設目標31.3建設的原則41.3.1建設原則41.4參考資料和標準5第2部分系統(tǒng)總體框架與技術路線52.1系統(tǒng)應用架構62.2系統(tǒng)層次架構62.3關鍵技術與路線7第3部分系統(tǒng)設計規(guī)范9第4部分系統(tǒng)詳細設計9第1部分概述1.1 項目概況Internet已經發(fā)展成為當今世界上最大的信息庫和全球范圍內傳播知識的主要渠道,站點遍布全球的巨大信息服務網,為用戶提供了一個極具價值的信息源。無論是個人的發(fā)展還是企業(yè)競爭力的提升都越來越多地依賴對網上信息資源的利用?,F(xiàn)在是信息時代,信息是一種重要的資源,它在人

2、們的生活和工作中起著重要的作用。計算機和現(xiàn)代信息技術的迅速發(fā)展,使Internet成為人們傳遞信息的一個重要的橋梁。網絡的不斷發(fā)展,伴隨著大量信息的產生,如何在海量的信息源中查找搜集所需的信息資源成為了我們今后建設在線預訂類旅游網重要的組成部分。因此,在當今高度信息化的社會里,信息的獲取和信息的及時性。而Web數(shù)據(jù)采集可以通過一系列方法,依據(jù)用戶興趣,自動搜取網上特定種類的信息,去除無關數(shù)據(jù)和垃圾數(shù)據(jù),篩選虛假數(shù)據(jù)和遲滯數(shù)據(jù),過濾重復數(shù)據(jù)。直接將信息按照用戶的要求呈現(xiàn)給用戶??梢源蟠鬁p輕用戶的信息過載和信息迷失。1.2 系統(tǒng)建設目標在線預訂類旅游網是在線提供機票、酒店、旅游線路等旅游商品為主,

3、涉及食、住、行、游、購、娛等多方面的綜合資訊信息、全方位的旅行信息和預訂服務的網站。如果用戶要搜集這一類網站的相關數(shù)據(jù),通常的做法是人工瀏覽網站,查看最近更新的信息。然后再將之復制粘貼到Excel文檔或已有資源系統(tǒng)中。這種做法不僅費時費力,而且在查找的過程中可能還會遺漏,數(shù)據(jù)轉移的過程中會出錯。針對這種情況,在線預訂類旅游網信息自動采集的系統(tǒng)可以實現(xiàn)數(shù)據(jù)采集的高效化和自動化。1.3 建設的原則1.3.1 建設原則由于在線預訂類旅游網的數(shù)據(jù)采集涉及的方面多、數(shù)據(jù)量大、采集源數(shù)據(jù)結構多樣化的特點。因此,在進行項目建設的過程中,應該遵循以下原則:可擴充性根據(jù)實際的要求,系統(tǒng)可被方便地載減和靈活的擴展

4、,使系統(tǒng)能適應變化和新情況。可以實現(xiàn)模塊級別的動態(tài)擴展,而且是運行時的。所謂運行時模塊的動態(tài)擴展,比如說你需要增加一些新的功能,你可以將新開發(fā)的類和文件按照Bundle進行組織,然后直接扔到運行時環(huán)境下,這些功能就可以用了。因此系統(tǒng)不會受技術改造而重新做出調整。創(chuàng)新性軟件的投資要考慮到今后的發(fā)展,不能使用落后的產品與技術,避免投資的浪費;在系統(tǒng)軟件選型、開發(fā)技術上,達到國內外先進水平。規(guī)范性和標準性整個設計方案從網絡協(xié)議、操作系統(tǒng)到各個設計細節(jié),應該全部遵循通用的國際或行業(yè)標準,符合國家有關標準規(guī)范的。低耦合性采集系統(tǒng)與其它系統(tǒng)彼此間相對獨立,直接進行數(shù)據(jù)庫入庫、sql同步或者基于txt/xm

5、l的數(shù)據(jù)交換,保證整體系統(tǒng)的低耦合性。高效性在底層的技術實現(xiàn)上采用java語言,跨平臺,跨數(shù)據(jù)庫,運行效率卓越。安全、穩(wěn)定、準確、及時性采用先進的算法,采用多個子系統(tǒng)和工具組成一個安全、穩(wěn)定、準確、及時的解決方案。方案在總體設計上遵循穩(wěn)定、開放、可擴展、經濟、安全的原則,從而使整個方案組成合理,技術先進,易于擴展,既能滿足當前的業(yè)務數(shù)據(jù)處理要求,又能符合長期發(fā)展的需要。易操作和易維護原則整個系統(tǒng)易于維護,容易操作,易學,易用,完全通過WEB方式完成,降低維護的技術難度,也減少了人為隱患的發(fā)生。1.4 參考資料和標準主要參閱并依據(jù)以下一些參考資料及標準: 中國項目管理知識體系(C-PMBOK),

6、2001.5 GB/T1526-1989信息處理數(shù)據(jù)流程圖、程序流程圖、系統(tǒng)流程圖、程序網絡圖、系統(tǒng)資源圖的文件編制符號及約定 GB/T8566-1995信息技術軟件生存期過程 GB/T8567-1988計算機軟件產品開發(fā)文件編制指南 GB/T9385-1988計算機軟件需求說明編制指南 GB/T13702-1992計算機件分類與代碼 GB/T11457-1995軟件工程術語第2部分系統(tǒng)總體框架與技術路線網絡信息資源采集系統(tǒng)是一套功能強大的網絡信息資源開發(fā)利用與整合系統(tǒng),可用于定制跟蹤和監(jiān)控互聯(lián)網實時信息,建立可再利用的信息服務系統(tǒng)。能夠從各種網絡信息源,包括網頁、BLOG、論壇等采集用戶感興

7、趣的特定信息,經自動分類處理后,以多種形式提供給最終用戶使用。2.1 系統(tǒng)應用架構 網絡蜘蛛:按照指定規(guī)則抓取網站數(shù)據(jù)。 數(shù)據(jù)分析:分析從網絡蜘蛛來的數(shù)據(jù),過濾掉我們不需要的信息。 數(shù)據(jù)解析:根據(jù)指定資源格式(字段)的定義,進行數(shù)據(jù)庫字段級別的解析。 分組分析:根據(jù)不同的網絡資源類型進行分類,并以多種存儲方式進行存儲2.2 系統(tǒng)層次架構網絡資源采集數(shù)據(jù)導出數(shù)據(jù)發(fā)布網絡請求數(shù)據(jù)轉換應用層采集監(jiān)控數(shù)據(jù)分析消息通知登錄驗證數(shù)據(jù)處理任務計劃常用腳本庫認證碼識別WEB服務器應用服務器規(guī)范接口其他支撐層關系數(shù)據(jù)文本文件數(shù)據(jù)圖片視頻數(shù)據(jù)數(shù)據(jù)層».整個系統(tǒng)分為四層,分別為:數(shù)據(jù)層:數(shù)據(jù)層負責存儲抓取

8、來的各種信息及數(shù)據(jù),這里面包括網頁、文檔、關系型數(shù)據(jù)、多媒體數(shù)據(jù)等。 支撐層:支撐層提供了關鍵的硬、軟件支撐系統(tǒng),包括應用服務器、WEB服務器、規(guī)范接口等規(guī)范支撐系統(tǒng)。 應用層:在應用層主要提供網絡資源采集、數(shù)據(jù)轉換、分析、處理、導出、發(fā)布、采集監(jiān)控、消息通知、登錄驗證、任務計劃、認證碼識別等服務。 表現(xiàn)層:表現(xiàn)層通過瀏覽器等方式,為用戶提供多樣化的信息服務。2.3 關鍵技術與路線為了充分滿足本項目的建設:我們采用先進、主流、可靠、實用、性價比好的三層架構體系,充分考慮今后縱向、橫向擴張能力。采用構件化和面向對象技術,使系統(tǒng)具有靈活的擴展性和良好的移植性。2.3.1 J2EE規(guī)范體系從軟件層次

9、上看,我們采用了典型的J2EE三層架構體系,即應用一支撐一數(shù)據(jù)三層。簡單地說,J2EE(Javatm2PlatformEnterpriseEdition)是一個標準中間件體系結構,旨在簡化和規(guī)范多層分布式應用系統(tǒng)的開發(fā)和部署,有了它,開發(fā)者只需要集中精力編寫代碼來表達應用的商業(yè)邏輯和表示邏輯,至于其他系統(tǒng)問題,如內存管理,多線程,資源分布和垃圾收集等,都將由J2EE自動完成。J2EE已經被證明是一個穩(wěn)定的、可擴展的、成熟的平臺,在國內外擁有眾多成功的應用實例。J2EE應用服務器(ApplicationServer)采用目前國際最先進的開發(fā)理念、擁有許多適合基于Internet應用需求的特點:

10、三層結構體系最適合Internet環(huán)境,可以使系統(tǒng)有很強的可擴展性和可管理性。 面向對象、組件化設計一一2EE是一種組件技術,已完成的模塊能方便的移植到其它地方,可以提高開發(fā)速度,降低開發(fā)成本。 基于JAVA完全跨平臺特性一一與平臺無關,適應Internet需要,并能得到大多數(shù)廠商支持,用戶可根據(jù)需要選擇合適的服務器硬件和數(shù)據(jù)庫。并且如果需要更換系統(tǒng)平臺時,J2EE也能方便的進行移植。把J2EE三層架構軟件體系引用到資源采集系統(tǒng),將大大提高系統(tǒng)的可移植性、可伸縮性和可擴展性。2.3.2 XML技術XML(extensibleMarkupLanguage,可擴展標記語言),是當前最熱門的網絡技術

11、之一,被稱為“第二代Web語言”“下一代網絡應用的基石”自它被提出以來,幾乎得到了業(yè)界所有大公司的支持。XML具有卓越的性能,它具有四大特點: 優(yōu)良的數(shù)據(jù)存儲格式 可擴展性 高度結構化 方便的網絡傳輸以XML技術作為支持,為用戶自定義應用界面和業(yè)務數(shù)據(jù)結構,并將其與底層數(shù)據(jù)庫定義格式、界面標準輸入、輸出的接口轉換作了實現(xiàn),可實現(xiàn)分布式、異構應用系統(tǒng)之間的數(shù)據(jù)交換。我們將在本項目中主要以XML為存儲方式,方便擴展和數(shù)據(jù)分析。2.3.3 WEB2.0技術Web2.0,是相對Webl.O(2003年以前的互聯(lián)網模式)的新的一類互聯(lián)網應用的統(tǒng)稱,是一次從核心內容到外部應用的革命,是依據(jù)“六度分隔”(注

12、:由美國哈佛大學社會心理學教授斯坦利米爾格蘭姆發(fā)現(xiàn)的,你和任何一個陌生人之間所間隔的人不會超過六個,也就是說,最多通過六個人你就能夠認識任何一個陌生人。)、XML、AJAX等新理論和技術實現(xiàn)的互聯(lián)網新一代模式。由Webl.0單純通過網絡瀏覽器瀏覽html網頁模式向內容更豐富、聯(lián)系性更強、工具性更強的Web2.0互聯(lián)網模式的發(fā)展已經成為互聯(lián)網新的發(fā)展趨勢。Webl.0到Web2.0的轉變,具體的說,從模式上是單純的“讀”向“寫”、“共同建設”發(fā)展;由被動地接收互聯(lián)網信息向主動創(chuàng)造網絡信息邁進。運行機制上,由“ClientServer"向“WebServices”轉變;作者由程序員等專業(yè)

13、人士向全部普通用戶發(fā)展;應用上由初級的,滑稽”的應用向全面大量應用發(fā)展。采用創(chuàng)新的Ajax技術,同等網絡環(huán)境下,頁面響應時間最高減少90。2.3.4 系統(tǒng)集成APIXML文檔結構在很多方面可以方便地反映對象的結構,這也是其適合面向對象的軟件技術的一個關鍵點。使用XML對數(shù)據(jù)源的數(shù)據(jù)進行處理,它起著接口層或者封裝的作用,這樣不同的應用程序之間,不同的操作系統(tǒng)之間,不同的數(shù)據(jù)庫之間都可以交換數(shù)據(jù)。使用XML作為數(shù)據(jù)交換工具還可以解決異構數(shù)據(jù)庫之間的集成。對本項目中涉及到的數(shù)據(jù)采集、轉換、分析、處理等問題,我們將開發(fā)專用的數(shù)據(jù)接口,采用XML技術作為數(shù)據(jù)交換的頁面描述規(guī)范。XStream是一個Jav

14、a和XML相互轉換的工具。使用非常的簡單,并且可以自定義轉換的過程,但是這個組件僅能做的就是這些最基本的工作,有了這個組件,我們可以不用考慮具體一個Java對象和XML之間問題了。第3部分系統(tǒng)設計規(guī)范第4部分系統(tǒng)詳細設計4.1應用功能設計4.1.1資源采集我們可以使用采集,對網絡上的各種資源進行挖掘。a) 采集工程:采集工作的詳細設置文件,包含了要采集的資源鏈接。1. 精確:根據(jù)指定資源格式(字段)的定義,進行數(shù)據(jù)庫字段級別的采集。2. 蜘蛛/爬蟲:根據(jù)指定的文件匹配表達式,自動對指定網站的資源進行全面分析和采集。b) 字段:各種資源的最小單位,譬如您要采集某個網站的多個帖子,那么每個帖子可能

15、包含以下字段:作者、標題、日期、內容等。c) 鏈頁:一些帖子在多頁面里的,這種情況下您可以為帖子的內容字段設置鏈頁屬性,自動把多個分頁的內容合并到內容字段。d) 追蹤:一些資源是要從列表頁面中,通過點擊多個頁面才顯示的,這種情況下,您可以為內容自動設置跟蹤屬性,自動獲取最終的內容。e) 登錄驗證:一些資源網站需要您登錄后才可以訪問內容,這種情況下下,您可以為整個網站、每個鏈接甚至每個資源單獨定義登錄驗證以滿足具體需求。1. 參數(shù):這是模擬登錄需要的參數(shù),譬如用戶名、密碼等。2. 登錄采集工程:一些網站的登錄認證相當復雜,往往會采用一些動態(tài)參數(shù)/值,如果用固定的參數(shù)是無法滿足登錄需求的,這個時候

16、,您可以使用采集工程來自動獲取登錄參數(shù)的值。3. 登錄腳本:如果即便使用采集工程仍然無法滿足一些特別網站的登錄需求,您可以使用自定義的登錄腳本來實現(xiàn)相應的登錄認證。f)數(shù)據(jù)處理:1. 臟字過濾:對符合國家規(guī)定的敏感字符的過濾,還可以自定義要過濾的字符,以確保采集到的內容符合相關法律法規(guī)。2. 垃圾內容過濾:使用貝葉斯概率模型對已采集的內容自動分析判定是否為垃圾內容,您可以自行對各種垃圾內容進行過濾。3.內容嗅探:對于Flash/Silverlight播放器,會在頁面加載之后才從后臺獲取實際的文件(FLV/MP3/.XAP等),您可以使用內容嗅探實現(xiàn)對這些實際內容的采集。4. 關鍵字/標簽(Ta

17、g)自動分析:利用全文分詞對采集的內容進行分析,自動獲取內容的關鍵字/標簽列表。5. 文件格式批量轉換:對大量文件的快速轉換,改變圖片或視頻的大小/添加水印/改變格式,抽取壓縮文件,Office系列文檔轉換為HTML,以多種方式修改文件名稱和內容,修改圖片文件屬性,文本排版,文本混淆,文本簡繁大小寫編碼互轉,文本切分合并,網頁文本互轉,不良圖片過濾,數(shù)據(jù)轉換等。g)圖片轉換:改變圖片大小和格式,添加水印,支持jpg、bmp、png、gif、icl、jpeg等。h)壓縮文檔:抽取/轉換/生成壓縮文檔,支持zip、rar等。i)Office文檔支持:支持doc、docx、xls、xlsx、xml、

18、pdf、rtf等。j)文本排版:段落智能修正、去掉干擾符、修正段落首尾空格、修正標點符號,支持txt,htm,eml。k)文本切分合并:按大小、行數(shù)或段落數(shù)剪切文本內容、和并內容,支持txt,htm,eml。l) 不良圖片過濾:識別并過濾不良圖片,支持所有圖片。m)數(shù)據(jù)轉換:使用自定義腳本轉換數(shù)據(jù)和文件,支持采集工程、各種數(shù)據(jù)庫和各種文件。n)快速下載:1.鏈接分析:復制要下載各種資源(如圖片等)的鏈接或網頁內容,全自動分析并下載到本地磁盤。2.嗅探:復制視頻地址或內容,全自動分析并下載視頻,特有嗅探功能,支持所有視頻網站。o)通過多線程并行采集,加快采集速度。4.1.2 數(shù)據(jù)導出a) 導出數(shù)

19、據(jù)庫:把采集后的數(shù)據(jù)導出到各大數(shù)據(jù)庫/數(shù)據(jù)文件中。b)以Excel、XML等文件形式導出。c)可以把文件導出到FTP。d)自定義導出腳本。4.1.3 資源信息發(fā)布a) 采集后的數(shù)據(jù):可以把采集后的數(shù)據(jù),發(fā)布到指定網站或系統(tǒng)。b) 網絡請求:可以自定義請求,譬如網絡投票等。4.1.4 任務計劃可以指定采集、轉換、導出、發(fā)布、請求等各種任務定時執(zhí)行。a) 可啟用多個線程來完成同一個采集任務。b) 可自由設定采集網頁數(shù)和暫停的時間,此功能主要解決采集過快而被屏閉或禁止訪問等問題。c) 可以在采集當中隨身暫停、啟動或停止任務。4.1.5 消息通知能夠自動通過多種方式(郵件、系統(tǒng)日志、系統(tǒng)聲音等)通知采集發(fā)布情況。a)在各種任務完成之后,如采集,發(fā)布,計劃任務等。b) 監(jiān)控指定網站并在數(shù)據(jù)改變時。4.1.6 監(jiān)控設置當網絡

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論