網(wǎng)絡信息采集軟件_第1頁
網(wǎng)絡信息采集軟件_第2頁
網(wǎng)絡信息采集軟件_第3頁
網(wǎng)絡信息采集軟件_第4頁
網(wǎng)絡信息采集軟件_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

網(wǎng)絡信息采集技術(shù)《網(wǎng)絡信息采集》課件網(wǎng)絡信息采集概述網(wǎng)絡信息采集的原則p14全面性:盡可能多的信息針對性:準確性、價值性時效性:最新、有效選擇性:網(wǎng)站信譽及穩(wěn)定性、采集方法多、保質(zhì)量兼數(shù)量全程性:持續(xù)補充,長期積累網(wǎng)絡信息采集概述網(wǎng)絡信息采集的特點p14采集對象多樣化采集方式多元化采集手段現(xiàn)代化網(wǎng)絡信息采集概述網(wǎng)絡信息采集的標準p15內(nèi)容標準形式標準網(wǎng)絡信息采集概述網(wǎng)絡信息采集的途徑人工采集采集器自動抓取定制信息(推送(Push)技術(shù)):推送技術(shù)是一種信息發(fā)布技術(shù),意指網(wǎng)絡公司通過一定的技術(shù)標準或協(xié)議,從網(wǎng)上的信息源或信息制用商獲取信息,通過固定的頻道向用戶發(fā)送信息的新型的信息傳播系統(tǒng)。Push技術(shù)采用一種廣播的模式,其特點是以頻道“廣播”方式使網(wǎng)上用戶得到相同的信息。通常,在網(wǎng)絡服務器上有專門的推送軟件產(chǎn)品(如PointCast公司的PointCastNetwork),可用來制作欲推送出去的信息內(nèi)容,并播送出去。在客戶端則利用安裝在個人電腦中的軟件,來接收從網(wǎng)絡上傳來的信息,并顯示出來。當有新的信息需要提交時,“推送”軟件會以發(fā)送E-mail、播放一個聲音、在屏幕上顯示一條消息等方式通知用戶。使用Push技術(shù),可以提高用戶獲取信息的及時性和效率。受到IT界的廣泛注意,許多著名的公司都在推出自己的“推送”技術(shù)新產(chǎn)品,如PointCast公司的PointCast、Wayfarer公司的Incisa

、加利福尼亞州InCommon公司的Downtown等。還有包括IBM、Novell及Microsoft等在內(nèi)的許多公司都躍躍欲試。“推送”的優(yōu)缺點

主要優(yōu)點對用戶要求低——普遍適用于廣大公眾,不要求用戶有專門的技術(shù);及時性好,信源及時地向用戶推送不斷更新的動態(tài)信息。不足不能確保發(fā)送成功由于Push技術(shù)采用廣播的方式,當網(wǎng)絡信息中心發(fā)送信息時,只有接收器打開并正好切換到同一頻道上,傳輸才能發(fā)生作用,用戶才能獲取信息。這對于那些要確保能收到信息的應用領(lǐng)域是不適合的。沒有信息狀態(tài)跟蹤Push技術(shù)采用的是“開環(huán)控制”模式。一個信息發(fā)布以后的狀態(tài),如客戶是否收,收到后是否按信息的提示執(zhí)行了任務等這些“反饋信息”發(fā)布者無從得知。

針對性差推送的信息內(nèi)容缺乏針對性,不便滿足用戶的個性要求。有價值的重要信息,通常是要針對一些特定的群組來發(fā)送的,即只送給相關(guān)人士。Push技術(shù)不能滿足上述需求。信源任務重信源系統(tǒng)要主動地、快速地、不斷地將大量信息推送給用戶。網(wǎng)絡信息采集概述網(wǎng)絡信息采集的策略p17網(wǎng)絡信息采集軟件http://

網(wǎng)絡信息采集大師(NetGet)7.5

《網(wǎng)絡信息采集大師》功能特色:1.強大的信息采集功能??刹杉瘞缀跞魏晤愋偷木W(wǎng)站信息,包括靜態(tài)htm,html類型和動態(tài)ASP,ASPX,JSP等。可N級頁面關(guān)聯(lián)采集,自動整合成一條完整記錄。支持網(wǎng)頁框架,鏈接和網(wǎng)頁加密等。支持完整采集和增量采集(斷點續(xù)采)。支持Post數(shù)據(jù)請求。2.網(wǎng)站登錄。需要登錄才能看到的信息,先在任務的‘登錄設置’處進行登錄,就可采集登錄后才能看到的信息。3.速度快,運行穩(wěn)定。真正的多線程,多任務,運行時占用系統(tǒng)資源很少,可穩(wěn)定地長時間運行。(明顯區(qū)別于其他軟件)4.數(shù)據(jù)保存格式豐富??砂巡杉臄?shù)據(jù),保存為Txt,Excel和多種數(shù)據(jù)庫格式(AccesssqlserverOracleMysql等)。5.支持腳本??稍O置腳本類型的任務,類似javascript:submit(‘Page’,1)等格式的可輕松采集。6.強大的新聞采集,自動化處理功能??勺詣颖A粜侣劦母袷剑▓D片等(可通過設置自動去除廣告)??赏ㄟ^設置,自動下載圖片,自動把正文里圖片的網(wǎng)絡路徑改為本地文件路徑(也可保留原樣);可把采集的新聞自動處理成自己設計的模板格式;可采集具有分頁形式的新聞。通過這些功能,簡單設置后即可在本地建立一個強大的新聞系統(tǒng),無需人工干預。7.強大的信息自動再加工功能。對采集的信息,可進行二次批量再加工,使之更加符合您的實際要求。也可設置自動加工公式,在采集的過程中,按照公式自動加工處理,包括數(shù)據(jù)合并和數(shù)據(jù)替換等。8.提供從采集,到自動加工,到數(shù)據(jù)導出(發(fā)布)一條龍自動化功能。通過任務調(diào)度實現(xiàn),實時監(jiān)測和發(fā)布。指定某些任務自動運行,把采集的數(shù)據(jù)自動去掉重復之后導入數(shù)據(jù)庫(可指定組合唯一項)??裳h(huán)往復運行??芍付橙蝿赵谀硞€時間點運行??稍O置采集一定數(shù)據(jù)量后,自動保存入庫,自動清空內(nèi)存。此功能可在占用系統(tǒng)資源很少的情況下,連續(xù)不間斷地采集十萬級和百萬級數(shù)據(jù)。9.可自動下載二進制文件,比如圖片,軟件,mp3等。10.采集本地磁盤信息。使用‘列表類型’的任務,可象采集網(wǎng)絡上的信息一樣,采集本地磁盤上的信息。11.通過發(fā)布頁面,把采集的數(shù)據(jù)發(fā)布到網(wǎng)站數(shù)據(jù)庫。即用群發(fā)數(shù)據(jù)的方式,模擬人工提交數(shù)據(jù)。12.無人值守采集。啟動任務后,可自行采集,自動保存進數(shù)據(jù)庫,采集完畢后自動關(guān)機。既可提高工作效率,又可最大限度節(jié)約能源。13.支持數(shù)據(jù)接口,可自己對軟件進行二次開發(fā),對采集的數(shù)據(jù)進行任意加工處理。試用版數(shù)據(jù)采集量和數(shù)據(jù)導出有部分限制;任務調(diào)度功能不可用;新聞采集會隨機加密部分內(nèi)容(可保存出10

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論