網(wǎng)絡礦工采集器V2012SP1圖文使用教程_第1頁
網(wǎng)絡礦工采集器V2012SP1圖文使用教程_第2頁
網(wǎng)絡礦工采集器V2012SP1圖文使用教程_第3頁
網(wǎng)絡礦工采集器V2012SP1圖文使用教程_第4頁
網(wǎng)絡礦工采集器V2012SP1圖文使用教程_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

網(wǎng)絡礦工采集器V2012SP1使用教程(圖文版)使用IE或Firefox瀏覽器,打開,進入下載頻道,下載網(wǎng)絡礦工V2012SP1軟件注意:網(wǎng)絡礦工的運行需要.NetFramework2.0環(huán)境,如果您的計算機中不具備此環(huán)境,請到下載->工具軟件中下載。網(wǎng)絡礦工下載后是一個ZIP壓縮文件雙擊打開壓縮文件,可以看到一個SoMinerV2012Sp1專業(yè)版目錄,全部解壓出來即可,解壓完成后,在此目錄中我們可以看到有三個exe文件,同時還可看到一個“第一次使用請先讀我”的文本文件,如果第一次使用,可以查看這個文件。Soukeynetget.Exe是網(wǎng)絡礦工的主程序文件,雙擊啟動即可打開網(wǎng)絡礦工。如果您是試用用戶,啟動后,系統(tǒng)會顯示試用版,及剩余試用的期限,通常情況下試用期限為30天,試用版沒有任何功能限制,所以不必擔心。我們以一個簡單的配置例子,來介紹網(wǎng)絡礦工的使用,采集某網(wǎng)站的新聞數(shù)據(jù)。啟動網(wǎng)絡礦工,我們首先先建立一個“新聞”的分類用來存儲將要配置的采集任務,建立分類的目的是便于管理。建立分類:在屬性菜單中,點擊鼠標右鍵,選擇“添加采集分類”,系統(tǒng)彈出添加分類窗體,如下:輸入“新聞”點擊確定退出,系統(tǒng)會自動建立新聞的分類選中“新聞”分類,點擊鼠標右鍵,選擇“新建采集任務”開始添加采集任務首先我們可以給此采集任務填寫一個易記的采集名稱“新聞采集”,下一步我們開始添加要采集的網(wǎng)址信息,采集網(wǎng)址為:/newssh/shwx/shehuiwanxiang.htm采集的數(shù)據(jù)是從這個新聞列表頁中,找到每一篇新聞,點擊進入新聞的詳細頁,采集新聞的置導航規(guī)則頁中,選擇“自定義配置”,在網(wǎng)頁源碼中,找到需要導航的網(wǎng)址,熒光筆標出的就是前后標志,輸入規(guī)則,確定退出。然后,我們再進行導航規(guī)則測試,可以看到測試沒有問題。下面我們開始配置采集數(shù)據(jù)的規(guī)則,因為我們要采集新聞的正文、標題、發(fā)布時間,所以,可以用三種方式來完成:1、智能采集;2、可視化采集;3、規(guī)則配置。我們逐個講解智能采集我們在采集任務配置窗體中,選擇“采集數(shù)據(jù)”,并點擊“配置助手”,打開配置助手頁,在地址欄輸入一個采集的地址,系統(tǒng)也會自動輸入此網(wǎng)址,同時點擊“生成文章采集規(guī)則”,可以看到系統(tǒng)已經(jīng)將文章的智能規(guī)則輸入到系統(tǒng)中,點擊“測試”可以檢查采集結(jié)果是否正確確定退出,這樣就完成了配置。點擊“應用”保存,測試采集,可以看到采集沒有問題,正文首先是張圖片。如果需要去掉網(wǎng)頁符號,可以編輯正文的數(shù)據(jù)加工規(guī)則,選擇“輸出時去掉網(wǎng)頁符號”再次測試網(wǎng)頁符號已經(jīng)去掉,因為圖片是一個網(wǎng)頁代碼,所以也被去掉了,一般情況下,采集正文我們期望保留格式,所以,不用去掉網(wǎng)頁代碼,這樣可以保留文章原始格式進行輸出。下面我們來看可視化配置我們在采集任務配置窗體中,選擇“采集數(shù)據(jù)”,并點擊“增加”,采集數(shù)據(jù)規(guī)則配置頁,選擇“可視化配置”,并點擊“可視化提取”按鈕,打開可視化配置頁面輸入我們需要采集數(shù)據(jù)的網(wǎng)址,并點擊匹配,開始進行采集數(shù)據(jù)的可視化配置,同樣,點擊“開始捕獲”時,鼠標在網(wǎng)頁滑動時會出現(xiàn)一個藍色邊框,用藍色邊框選中需要采集的數(shù)據(jù),點擊即可。點擊“測試”可以看到測試結(jié)果,測試結(jié)果正確后,確定退出,在采集數(shù)據(jù)規(guī)則配置頁,輸入一個名稱,保存退出,即可重復以上過程,將正文、時間、標題配置好即可??梢钥吹揭?guī)則類別為XPath保存采集任務,測試即可。下面我們來看第三種配置方法:規(guī)則配置規(guī)則配置是最復雜的,但也是最靈活的,需要在網(wǎng)頁源碼中找到前后標志,進行配置首先先打開需要采集數(shù)據(jù)的網(wǎng)頁源碼,采集任務配置窗體中,選擇“采集數(shù)據(jù)”,并點擊“增加”,采集數(shù)據(jù)規(guī)則配置頁在“起始位置”和“終止位置”輸入在網(wǎng)頁源碼中找到的定位符即可逐一配置規(guī)則類別為:Normal測試采集至此,我們這個采集任務就講解完成。這個采集配置是比較簡單的,但針對這個采集任務配置,我們講解了自動化分析、可視化配置和規(guī)則配置三種配置方法,在大部分情況下,可視化配置可以完成規(guī)則的配置,而不需要規(guī)則配置,但規(guī)則配置最為靈活,采集效率最高,但難度也最

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論