




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、信息采集使用手冊一 摘要信息采集是一個抓取網(wǎng)絡(luò)數(shù)據(jù),實現(xiàn)信息共享的功能模塊。它提供手動抓取、預(yù)約抓取和定時循環(huán)抓取三種模式,它可以抓取單個新聞列表下的信息,也可以同時抓取多個列表下的新聞信息。二 步驟及詳細現(xiàn)在需要將一個網(wǎng)頁的數(shù)據(jù)(新聞)采集到webplus系統(tǒng)一個指定的欄目下,步驟如下:1. 給指定欄目制定一個采集計劃。在欄目管理中選擇該欄目,點擊設(shè)置采集計劃。(如:圖一)2. 設(shè)置采集的基本屬性。包括執(zhí)行方式,信息是否自動發(fā)布,被采集的欄目類型和頁面的編碼格式。(如:圖二)n 事先約定好該采集計劃的執(zhí)行方式,手動、定時單次還是定時循環(huán)執(zhí)行。如果僅僅為了采集網(wǎng)頁當前的數(shù)據(jù),我們可以采用手動和
2、定時單次的方式采集一次即可;如果被采集網(wǎng)頁的數(shù)據(jù)會更新,而我們又要保證信息的同步,即采用定時循環(huán)采集的方式。n 判斷采集過來的信息是否需要發(fā)布如果采集過來的信息不需要修改,可以直接對外網(wǎng)公開,選擇自動發(fā)布即可。如果采集過來的信息,需要修改,審核等,選擇不要自動發(fā)布,等采集完成以后,由信息管理人員來進行其他操作。n 設(shè)置被采集的欄目類型如果被采集的網(wǎng)頁中只是單純的一個新聞列表,即是將該頁面的新聞采集到指定欄目下,那么選擇單欄目即可。如果被采集的頁面有多個新聞列表,并且各自提供單獨鏈接進入自己的新聞列表頁面,而我們又需要采集所有的新聞信息,那么選擇多欄目。另外,如果采集的頁面是RSS信息聚合頁面,
3、那么設(shè)置為相應(yīng)的RSS單欄目或RSS多欄目。n 設(shè)置被采集頁面的編碼由于webplus系統(tǒng)采用的是UTF-8的編碼格式,而被采集可能是其他的編碼格式,那么為了避免采集過來的信息亂碼,這里需要設(shè)置為被采集頁面的編碼格式。3. 設(shè)置采集計劃的采集規(guī)則n 單欄目采集計劃的設(shè)置 (如:圖三)Ø 設(shè)置“列表頁起始URL”即是被采集頁面的訪問路徑。(必須)Ø 設(shè)置“文章頁URL獲取規(guī)則”(1) 如果新聞列表是以一個iframe形式嵌入在被采集網(wǎng)頁中,那么需要設(shè)置規(guī)則來獲取列表iframe的鏈接地址,從而來訪問新聞列表。否則不需要制定該規(guī)則。(具體規(guī)則方式請參見下面的“采集規(guī)則表達式制定
4、”)(2) 如果被采集網(wǎng)頁的新聞列表存在分頁的情況,那么根據(jù)新聞列表分頁的方式(鏈接和表單提交)制定分頁的規(guī)則,并且需要設(shè)置分頁開始頁碼,間隔頁碼和采集頁數(shù)。如果新聞列表不存在分頁,即不需要制定該規(guī)則。(3) 如果被采集的頁面有多個新聞列表,并且多處新聞列表的url規(guī)則類似,而我們只需要采集指定的一處列表,即需要設(shè)置限制文章列表的獲取規(guī)則,這是為了避免采集多余的數(shù)據(jù)。否則不需要設(shè)置該規(guī)則。(4) 設(shè)置文章url的獲取規(guī)則,為了從采集頁面中能夠訪問具體的新聞頁面,從而進行新聞采集。(必須)Ø 設(shè)置“文章內(nèi)容獲取規(guī)則”(1) 具體的新聞頁面,如果文章內(nèi)容是以iframe的形式嵌入在該新聞
5、頁面中,那么需要設(shè)置規(guī)則來獲取文章iframe的鏈接地址,從而來訪問新聞內(nèi)容。否則不需要制定該規(guī)則。(2) 如果新聞了內(nèi)容存在分頁的情況,那么根據(jù)文章內(nèi)容分頁的方式(鏈接和表單提交)來制定分頁的規(guī)則,并且需要設(shè)置分頁開始頁碼,間隔頁碼和采集頁數(shù)。如果文章內(nèi)容不存在分頁,即不需要制定該規(guī)則。(3) 如果新聞頁面中,除了新聞內(nèi)容外,還有其他的附加信息,那么在采集過程中為了更容易找到新聞內(nèi)容,這里需要設(shè)置限制新聞內(nèi)容的獲取規(guī)則。一是為了避免產(chǎn)生垃圾信息,二是為了減輕了新聞具體信息獲取規(guī)則的復(fù)雜度。如果新聞頁面比較簡單,一般該規(guī)則不需要設(shè)置。(4) 新聞屬性的設(shè)置規(guī)則,除了標題和內(nèi)容外,其他都是非必須
6、條件,另外新聞的發(fā)布時間不設(shè)置的話,會采用當前的時間作為發(fā)布時間。n 多欄目采集計劃的設(shè)置 (如:圖五)多欄目采集計劃除了需要在“列表頁起始URL”下設(shè)置列表頁URL規(guī)則和“文章頁URL獲取規(guī)則”下設(shè)置欄目名稱的獲取規(guī)則,其他與單欄目采集計劃設(shè)置一致。n RSS單欄目采集計劃的設(shè)置 (如:圖四)RSS單欄目的采集計劃不需要設(shè)置“文章頁URL獲取規(guī)則”,其他與單欄目采集計劃一致。n RSS多欄目采集計劃的設(shè)置 (如:圖六)RSS多欄目的采集計劃需要在“列表頁起始URL”下設(shè)置列表頁URL獲取規(guī)則,其他與RSS單欄目采集計劃一致。4. 采集規(guī)則表達式制定n 表達式設(shè)置和調(diào)整,以及對表達式列表進行測
7、試點擊采集頁面中某一處“獲取規(guī)則設(shè)置”,進入規(guī)則表達式列表頁面(如:圖七)。在該頁面中除了可以對表達式進行增加,修改,刪除和調(diào)整順序外,還可以在表達式設(shè)置完成后,輸入url,iframeurl和頁面內(nèi)容,對表達式規(guī)則列表進行測試。n 設(shè)置各種類型表達式的類型表達式類型分為字符串,匹配,匹配替換和公式四種類型。其中匹配和匹配替換需要用到j(luò)ava的正值表達式,這要求采集計劃設(shè)置人員對表達式有一定的了解。(1) 字符串:直接輸入的字符串常量(2) 匹配:從指定的文本(URL、IframeURL、頁面內(nèi)容)中通過正則表達式來得到文本中的部分內(nèi)容S。(3) 匹配替換:先從指定的文本(URL、Iframe
8、URL、頁面內(nèi)容)中通過正則表達式來得到文本中的部分內(nèi)容S。再使用替換正則表達式將S中匹配到的內(nèi)容替換后得到正確的內(nèi)容。(4) 公式:只支持pageIndex,用來在獲取分頁地址時代表分頁的頁碼數(shù)。5. 圖示詳情n 進入欄目管理(圖一)n 設(shè)置采集計劃在右則欄目列表中選中一個欄目點擊設(shè)置采集計劃。(圖二)其中執(zhí)行方式可以有:ü 手動(需要在欄目列表點擊“立即采集”來啟動采集)ü 單次(可以設(shè)置一個時間,到達該時間會自動啟動采集)ü 循環(huán)(指定一個間隔時間,自動循環(huán)采集)可以設(shè)置采集到的文章是否自動發(fā)布。被采集的欄目類型:ü 單欄目(僅采集該欄目下的文章)
9、ü 單欄目RSS(采集一個RSS地址下的文章)ü 多欄目(采集欄目以及子欄目下的文章)ü 多欄目RSS(從一個RSS列表地址開始,采集多個RSS地址下的文章,每個RSS地址形成一個子欄目) 編碼方式為被采集頁面的編碼n 設(shè)置采集規(guī)則a) 單欄目方式(圖三)b) 單欄目RSS方式(圖四)該方式除不需要設(shè)置文章頁URL獲取方式,其他同單欄目方式。c) 多欄目方式(圖五)該方式的起始頁面一般為列表頁的集合,對于單欄目方式需要設(shè)置獲取列表頁的方式和欄目名稱規(guī)則,其他與單欄目一致。d) 多欄目RSS(圖六)該方式需要設(shè)置從起始頁獲取RSS地址(列表頁URL),其他與單欄目R
10、SS一致。n 設(shè)置獲取規(guī)則(圖七)(圖八)(圖九)(圖十)(圖十一)(圖十二)如上圖獲取規(guī)則是由多個表達式組成,多個表達式進行相加來得到需要的URL獲取文章的標題內(nèi)容等屬性。表達式分為4類:ü 字符串:直接輸入的字符串常量ü 匹配:從指定的文本(URL、IframeURL、頁面內(nèi)容)中通過正則表達式來得到文本中的部分內(nèi)容S。ü 匹配替換:先從指定的文本(URL、IframeURL、頁面內(nèi)容)中通過正則表達式來得到文本中的部分內(nèi)容S。再使用替換正則表達式將S中匹配到的內(nèi)容替換后得到正確的內(nèi)容。ü 公式:只支持pageIndex,用來在獲取分頁地址時代表分頁
11、的頁碼數(shù)。該頁面還可以對設(shè)置好的表達式進行測試??梢酝ㄟ^表達式幫助來了解正則表達式的語法。n 查看采集計劃狀態(tài)回到欄目列表可以看到下圖(圖十三)采集狀態(tài)中的3個圖標分別表示該采集計劃的運行狀態(tài)(是否在運行、是否運行過等等)、采集方式(單欄目、單欄目RSS、多欄目、多欄目RSS)、執(zhí)行方式(手動、單次、循環(huán)),點擊可以查看該采集計劃的詳細信息,(圖十四)三 采集計劃示例以新浪網(wǎng)站的一個體育新聞列表網(wǎng)頁作為采集示例,該網(wǎng)頁的訪問地址是1. 由于這是一個測試示例,我們采用手動執(zhí)行的方式進行采集,并且采集到的信息不需要自動發(fā)布。該網(wǎng)頁是一個編碼方式為GB2312的單純的新聞列表頁面,所以我們設(shè)置被采集
12、的欄目類型是“單欄目”,編碼方式是gb2312采集到新聞不需要自動發(fā)布。如下圖2. 由于該網(wǎng)頁的新聞列表內(nèi)容不再iframe中,也沒有分頁,所以不需要設(shè)置“列表頁內(nèi)容在IFRAME中”和“列表頁分頁方式”的獲取規(guī)則。并且新聞列表的內(nèi)容不需要設(shè)置“限制文章列表內(nèi)容的”規(guī)則。3. 設(shè)置文章url的獲取規(guī)則由于該網(wǎng)頁中新聞鏈接類似于下面的url:所以制定以下的表達式規(guī)則表達式類型:匹配內(nèi)容類型: 頁面內(nèi)容 匹配表達式:匹配分組: 0 (獲取匹配的整個結(jié)果)獲取被采集頁面的源文件,粘貼在頁面內(nèi)容中,點擊“測試計算-列表模式”,將會結(jié)果中顯示所有匹配的url列表如下圖4. 由于文章內(nèi)容不在iframe中
13、,文章內(nèi)容沒有分頁,并且文章內(nèi)容在頁面中不需要限制,所以“文章頁內(nèi)容在IFRAME中”,“文章內(nèi)容分頁URL”和“限定文章頁文章內(nèi)容”的獲取規(guī)則不需要設(shè)置。5. 文章標題規(guī)則設(shè)置由于該新聞頁面的源文件中文章的標題處于以下的位置:<meta http-equiv="X-UA-Compatible" content="IE=EmulateIE7" /><meta http-equiv="Content-Type" content="text/html; charset=gb2312" /><
14、;title>休斯頓球迷期望姚明做手術(shù) 健康才是火箭未來希望_籃球-NBA_NIKE新浪競技風暴_新浪網(wǎng)</title><meta name=keywords content="休斯頓球迷期望姚明做手術(shù) 健康才是火箭未來希望"><meta name=description content="休斯頓球迷期望姚明做手術(shù) 健康才是火箭未來希望"><meta name="publishid" content="427,12,4471052">所以制定以下的表達式規(guī)則表達
15、式類型:匹配內(nèi)容類型: 頁面內(nèi)容 匹配表達式: <title>(.+?)</title>匹配分組: 1 (獲取匹配的結(jié)果中的第一個分組,每一個括號是一個分組)獲取被采集頁面的源文件,粘貼在頁面內(nèi)容中,點擊“測試計算-內(nèi)容模式”,將會結(jié)果中標題內(nèi)容如下圖6. 文章內(nèi)容規(guī)則設(shè)置由于該新聞頁面的源文件中文章的內(nèi)容處于以下的位置:<!- 顯示附圖 begin -><!- 顯示附圖 end -><!- 顯示圖片 begin -><!- 顯示圖片 end -><!- 輸出內(nèi)容-新分頁 begin -><!- publ
16、ish_helper name='原始正文' p_id='6' t_id='12' d_id='4471052' f_id='41' -><p>新浪體育訊北京時間7月7日休斯頓消息,據(jù)ESPN報道姚明至今都還沒有決定是否要做手術(shù)來修復(fù)腳部傷勢,雖然現(xiàn)在給姚明診斷的主要三位醫(yī)生都建議做手術(shù),但是姚明仍然還在猶豫當中。</p><p>對于姚明現(xiàn)在的想法,其實大家都明白,姚明到現(xiàn)在都還在猶豫的原因就是因為他知道如果手術(shù),下賽季全部缺席不是不可能的事,已經(jīng)29歲的姚明不希望就這樣白白
17、浪費一年時光,畢竟運動員的巔峰期就這么一段時間,誰也不能保證那個時候的姚明能否保持一個較好的水準。</p><p>姚明在猶豫,但是休斯頓的球迷對于姚明卻是另外一種想法。大部分球迷認為姚明應(yīng)該毫不猶豫得去做手術(shù),他們的理由是既然已經(jīng)有惡化的趨勢,加上保守治療的效果還是一個未知數(shù),不如下決心做手術(shù),畢竟一個健康的姚明才是火箭最需要的,如果在保守治療后仍然還要做手術(shù),那么姚明就得不償失了。</p><p>“親愛的姚,請下決心做手術(shù)吧,即使下賽季全部缺席也毫不猶豫去做吧。如果現(xiàn)在保守治療最終痊愈了,但是這依然讓我們心驚膽顫,下賽季還有可能出現(xiàn)問題,不如直接做
18、手術(shù)解決病根。你也許會失去一年的時光,但是我們相信你將會給休斯頓帶來未來更加健康的三年、五年,甚至更多?!币晃磺蛎匀绱吮硎?。</p><p>的確,這位球迷說出了廣大休斯頓球迷的心聲。大家都不希望看到姚明在未能徹底治愈的情況下回到球場。如果姚明再次受傷,相信對于所有休斯頓球迷包括姚明來說,都會是一個很沉重的打擊。</p><p>也有球迷表示姚明對于手術(shù)應(yīng)該放心,現(xiàn)在給姚明檢查診斷的一位醫(yī)生就是當年給騎士中鋒大Z做手術(shù)的醫(yī)生,當年大Z腳部的傷情跟姚明類似,最后在手術(shù)后一年,大Z健康得回到了球場,而且在未來幾年中一直都沒有出現(xiàn)過什么重大傷病,而且競技狀態(tài)還算保持得較好。</p><p>“像哈達維他們因傷導(dǎo)致水平大幅度下滑,這種情況我認為很難在姚明身上發(fā)生。姚明跟希爾、哈達維他們不一樣,姚明是內(nèi)線球員,雖然腳部移動很重要,但是相對來說,彈跳并不是最重要的,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 科學城項目選址與土地資源分析
- 加油站項目建設(shè)方案
- 拔尖創(chuàng)新人才的特征
- 《計算機網(wǎng)絡(luò)初探》教學設(shè)計
- 服裝經(jīng)銷合同范本
- 南京2024年江蘇南京大學智能科學與技術(shù)學院專用先進技術(shù)準聘長聘教師崗位招聘筆試歷年參考題庫附帶答案詳解
- 科技產(chǎn)品營銷社交電商的實戰(zhàn)策略
- 社交心理學在肥胖治療中的輔助作用
- 亳州2024年安徽亳州渦陽縣面向安徽省退役運動員專項招聘體育教練員筆試歷年參考題庫附帶答案詳解
- T-CAICI 93-2024 行業(yè)數(shù)字化轉(zhuǎn)型成熟度評估通.用標準
- 親子教育活動指導(dǎo)課件
- 青島啤酒企業(yè)文化
- 中華民族的形成與發(fā)展(原版)
- 雪鐵龍云逸C4說明書
- 《健美操裁判法》課件
- 2022輸變電工程建設(shè)安全管理規(guī)定
- “德能勤績廉”考核測評表
- 備課專業(yè)化讀書分享課件
- 《爆破作業(yè)單位許可證》申請表
- 人教版二年級數(shù)學下冊教材分析
- 酒店住宿水單標準模板
評論
0/150
提交評論