《商務(wù)數(shù)據(jù)采集與處理》(微課版)教案_第1頁
《商務(wù)數(shù)據(jù)采集與處理》(微課版)教案_第2頁
《商務(wù)數(shù)據(jù)采集與處理》(微課版)教案_第3頁
《商務(wù)數(shù)據(jù)采集與處理》(微課版)教案_第4頁
《商務(wù)數(shù)據(jù)采集與處理》(微課版)教案_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上第1章 商務(wù)數(shù)據(jù)采集概述教學(xué)內(nèi)容一、商務(wù)數(shù)據(jù)的定義及類型二、商務(wù)數(shù)據(jù)的主要來源及用途三、商務(wù)數(shù)據(jù)采集和處理的基本方法教學(xué)要求【知識(shí)目標(biāo)】1掌握商務(wù)數(shù)據(jù)的定義及類型。2掌握商務(wù)數(shù)據(jù)的主要來源及用途。3掌握商務(wù)數(shù)據(jù)采集和處理的基本方法。教學(xué)重點(diǎn)1掌握商務(wù)數(shù)據(jù)的定義及類型。2掌握商務(wù)數(shù)據(jù)的主要來源及用途。3掌握商務(wù)數(shù)據(jù)采集和處理的基本方法。教學(xué)難點(diǎn)1掌握商務(wù)數(shù)據(jù)的主要來源及用途。2掌握商務(wù)數(shù)據(jù)采集和處理的基本方法。教學(xué)方法講授法、案例法課時(shí)數(shù)3課時(shí)教學(xué)內(nèi)容第一節(jié) 初識(shí)數(shù)據(jù)一、數(shù)據(jù)的構(gòu)成1字段:用來描述數(shù)據(jù)的某一特征。2記錄:數(shù)據(jù)表中的每一行叫作一條“記錄”。每一條記錄包含這

2、行中的所有信息,就像在通訊錄數(shù)據(jù)庫中某個(gè)人的全部信息。3數(shù)據(jù)類型:用于給不同的數(shù)據(jù)分配合適的空間,以確定合適的存儲(chǔ)形式。4數(shù)據(jù)表:由行(記錄)和列(字段)構(gòu)成,因此也被稱為二維表。行中的記錄就是數(shù)據(jù),所以表是行和列的集合。數(shù)據(jù)表往往由多條記錄組成。5大數(shù)據(jù)指不使用隨機(jī)分析法(抽樣調(diào)查)對(duì)部分樣本進(jìn)行處理,而是對(duì)所有數(shù)據(jù)進(jìn)行分析處理時(shí)的大量而多樣的數(shù)據(jù)。大數(shù)據(jù)具有以下特征。(1)大容量(2)多種類(3)高速度(4)可變性(5)真實(shí)性(6)復(fù)雜性(7)高價(jià)值大數(shù)據(jù)具有廣泛的用途,主要體現(xiàn)在以下方面。(1)對(duì)大數(shù)據(jù)的處理分析正成為新一代信息技術(shù)融合應(yīng)用的結(jié)點(diǎn)。(2)大數(shù)據(jù)是信息產(chǎn)業(yè)持續(xù)高速增長的新引

3、擎。(3)用好大數(shù)據(jù)將成為提高企業(yè)核心競爭力的關(guān)鍵因素。二、數(shù)據(jù)的獲取途徑1產(chǎn)品自有數(shù)據(jù)2調(diào)查問卷問卷的設(shè)計(jì)建議包含以下幾個(gè)步驟。(1)把握目的和內(nèi)容,規(guī)定好問卷所需的信息。(2)搜集資料。(3)確定調(diào)查方法。(4)確定內(nèi)容,即每個(gè)問答題應(yīng)包括什么,以及由此組成的問卷應(yīng)該問什么,內(nèi)容是否全面、能否切中要害。(5)決定結(jié)構(gòu),確定問卷類型,是提問封閉性問題還是開放性問題。(6)確定措辭、順序與格式。(7)制成問卷。3互聯(lián)網(wǎng)數(shù)據(jù)導(dǎo)入(1)Excel 數(shù)據(jù)存儲(chǔ)(2)數(shù)據(jù)庫數(shù)據(jù)存儲(chǔ)(3)微圖數(shù)據(jù)存儲(chǔ)及分析第二節(jié) 認(rèn)識(shí)商務(wù)數(shù)據(jù)一、商務(wù)數(shù)據(jù)的基本概念隨著消費(fèi)者和企業(yè)商務(wù)行為的產(chǎn)生,各電商平臺(tái)、第三方服務(wù)平臺(tái)

4、、社交媒體、智能終端和企業(yè)內(nèi)部系統(tǒng)上分布了大量的數(shù)據(jù)。這些數(shù)據(jù)就是商務(wù)數(shù)據(jù)。商務(wù)數(shù)據(jù)主要分為商品數(shù)據(jù)、客戶數(shù)據(jù)、交易數(shù)據(jù)、評(píng)價(jià)數(shù)據(jù)、基于電子商務(wù)專業(yè)網(wǎng)站的研究數(shù)據(jù)及基于電子商務(wù)媒體的報(bào)道、評(píng)論數(shù)據(jù)等。二、商務(wù)數(shù)據(jù)的應(yīng)用領(lǐng)域1制造業(yè)利用商務(wù)數(shù)據(jù)幫助制造業(yè)企業(yè)提升制造業(yè)水平,包括產(chǎn)品故障的診斷與預(yù)測(cè)、工藝流程的分析與改進(jìn)、工業(yè)供應(yīng)鏈的分析與優(yōu)化、生產(chǎn)計(jì)劃和排期的制定。2金融業(yè)商務(wù)數(shù)據(jù)在高頻交易、社交情緒分析和信貸風(fēng)險(xiǎn)分析三大金融創(chuàng)新領(lǐng)域發(fā)揮重大作用。3出行生活借助商務(wù)數(shù)據(jù)分析用戶行為,在出行生活領(lǐng)域進(jìn)行商品推薦和有針對(duì)性的廣告投放,對(duì)于本地生活服務(wù)類企業(yè)的選品、體驗(yàn)管理、店鋪選址都有著重大的幫助。

5、4餐飲行業(yè)餐飲行業(yè)借助商務(wù)數(shù)據(jù)可以做出行業(yè)分析,新品改善及當(dāng)前潮流分析,指導(dǎo)自身產(chǎn)品改善或菜品創(chuàng)新。5能源行業(yè)能源行業(yè)可通過商務(wù)數(shù)據(jù)進(jìn)行電負(fù)荷預(yù)測(cè)、輿情監(jiān)控,改善電網(wǎng)運(yùn)行,合理設(shè)計(jì)電力需求響應(yīng)系統(tǒng)。6個(gè)人娛樂商務(wù)數(shù)據(jù)可用于建立個(gè)人用戶畫像,分析個(gè)人生活方式,為其提供更加個(gè)性化的服務(wù)。三、商務(wù)數(shù)據(jù)的作用1監(jiān)測(cè)行業(yè)競爭2提升客戶關(guān)系 3指導(dǎo)精細(xì)化運(yùn)第三節(jié) 商務(wù)數(shù)據(jù)來源與采集一、商務(wù)數(shù)據(jù)的主要來源1電子商務(wù)平臺(tái)(1)B2B平臺(tái)(2)B2C平臺(tái)(3)C2C平臺(tái)2社交電商平臺(tái)(1)社交內(nèi)容電商(2)社交分享電商(3)社交零售電商3O2O 數(shù)據(jù)(1)O2O 電商平臺(tái)數(shù)據(jù)(2)展銷平臺(tái)二、商務(wù)數(shù)據(jù)采集基礎(chǔ)網(wǎng)

6、絡(luò)數(shù)據(jù)在采集頻率較低且數(shù)據(jù)量較少時(shí),最初通常使用復(fù)制粘貼的方式進(jìn)行人工采集,隨著數(shù)據(jù)量的加大以及采集頻率要求的提高,復(fù)制粘貼已不能滿足需要,于是抓取網(wǎng)絡(luò)數(shù)據(jù)的爬蟲工具應(yīng)運(yùn)而生。爬蟲工具是一種按照一定的規(guī)則自動(dòng)抓取萬維網(wǎng)信息的程序或腳本,爬蟲需要一定的計(jì)算機(jī)知識(shí),因此最初流行于專業(yè)人士之間。隨著網(wǎng)絡(luò)數(shù)據(jù)的豐富程度高速增長,個(gè)人與企業(yè)對(duì)數(shù)據(jù)的需求也日益增加,如何利用數(shù)據(jù)進(jìn)行決策支持也成為普遍性的需求。利用數(shù)據(jù)進(jìn)行預(yù)測(cè)與優(yōu)化分析,可以有效地增加效益與防范風(fēng)險(xiǎn),數(shù)據(jù)采集能力也成為很多崗位的必備技能,此時(shí)網(wǎng)絡(luò)爬蟲是需要用戶進(jìn)行大量學(xué)習(xí)才能掌握的高成本學(xué)習(xí)技能。數(shù)據(jù)采集器就是進(jìn)行數(shù)據(jù)采集的機(jī)器或者工具,用

7、于實(shí)現(xiàn)自動(dòng)化從大批量網(wǎng)頁上采集數(shù)據(jù),抓取網(wǎng)站信息,包括圖片、文字等信息的采集、處理及發(fā)布。隨著數(shù)據(jù)采集頻率要求越來越高,數(shù)據(jù)采集數(shù)量日益增大,單一計(jì)算機(jī)的采集已不能很好地滿足用戶的需求。云計(jì)算技術(shù)的出現(xiàn)正好解決了這個(gè)問題。云計(jì)算將計(jì)算和數(shù)據(jù)分布在大量的分布式計(jì)算機(jī)上,云中的計(jì)算機(jī)提供強(qiáng)大的計(jì)算能力,能夠完成傳統(tǒng)單臺(tái)計(jì)算機(jī)根本無法完成的計(jì)算任務(wù)。同時(shí),云中的計(jì)算機(jī)具有龐大的數(shù)據(jù)存儲(chǔ)空間,使采集器可以實(shí)現(xiàn)多種采集需求。三、商務(wù)數(shù)據(jù)的采集流程第4節(jié) 商務(wù)數(shù)據(jù)的采集方法一、Web 爬蟲Web 爬蟲主要分為通用網(wǎng)絡(luò)爬蟲及聚焦網(wǎng)絡(luò)爬蟲,用于HTML 網(wǎng)頁文本和圖片數(shù)據(jù)的采集,需要具備一定的編程基礎(chǔ),可利用

8、編程進(jìn)行URL 打開、HTML 文件獲取、HTML文件解析及數(shù)據(jù)提取等操作。1通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)中搜集網(wǎng)頁,采集信息,這些網(wǎng)頁信息用于為搜索引擎建立索引從而提供支持,它決定著整個(gè)引擎系統(tǒng)的內(nèi)容是否豐富,信息是否即時(shí),因此其性能的優(yōu)劣直接影響著搜索引擎的效果。通用網(wǎng)絡(luò)爬蟲的采集原理是:通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個(gè)頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其他鏈接地址,然后通過這些鏈接地址尋找下一個(gè)網(wǎng)頁。這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁都抓取完為止。通用網(wǎng)絡(luò)爬蟲的基本工作流程包括抓取網(wǎng)頁、數(shù)據(jù)存儲(chǔ)、預(yù)處理,以及提供檢索服務(wù)和網(wǎng)站排名。2聚焦網(wǎng)絡(luò)爬蟲

9、聚焦爬蟲指有選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲,和通用網(wǎng)絡(luò)爬蟲相比,聚焦爬蟲只需要爬行與主題相關(guān)的頁面,極大地節(jié)省了硬件和網(wǎng)絡(luò)資源,保存的頁面也由于數(shù)量少而更新快,還可以很好地滿足一些特定人群對(duì)特定領(lǐng)域信息的需求。聚焦網(wǎng)絡(luò)爬蟲和通用網(wǎng)絡(luò)爬蟲相比,增加了鏈接評(píng)價(jià)模塊及內(nèi)容評(píng)價(jià)模塊。聚焦爬蟲爬行策略實(shí)現(xiàn)的關(guān)鍵是評(píng)價(jià)頁面內(nèi)容和鏈接的重要性,不同的方法計(jì)算出的重要性不同,由此導(dǎo)致鏈接的訪問順序也不同。二、API盡管可以通過網(wǎng)絡(luò)爬蟲的一些改進(jìn)技術(shù)實(shí)現(xiàn)各類網(wǎng)絡(luò)數(shù)據(jù)的采集,但網(wǎng)絡(luò)爬蟲獲取的往往是整個(gè)頁面的數(shù)據(jù),缺乏針對(duì)性。利用網(wǎng)站自身提供的應(yīng)用程序編程接口(API)實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)采集即調(diào)用網(wǎng)

10、站API,可以很好地解決數(shù)據(jù)針對(duì)性的問題。越來越多的社會(huì)化媒體網(wǎng)站推出了開放平臺(tái),提供了豐富的API,如推特、新浪微博、人人網(wǎng)、博客等。這些平臺(tái)中包含了許多關(guān)于“電子商務(wù)”的話題和評(píng)論、圖片等,它們?cè)试S用戶申請(qǐng)平臺(tái)數(shù)據(jù)的采集權(quán)限,并提供相應(yīng)的API 接口采集數(shù)據(jù)。API 調(diào)取主要有開放認(rèn)證協(xié)議和開源API 調(diào)用兩類。1開放認(rèn)證協(xié)議開放認(rèn)證(OAuth)協(xié)議不需要提供用戶名和密碼來獲取用戶數(shù)據(jù),它給第三方應(yīng)用提供一個(gè)令牌,每一個(gè)令牌授權(quán)對(duì)應(yīng)的特定網(wǎng)站(如社交網(wǎng)站),并且應(yīng)用只能在令牌規(guī)定的時(shí)間范圍內(nèi)訪問特定的資源。2開源API 調(diào)用開源 API 是網(wǎng)站自身提供的接口,可以自由地通過該接口調(diào)用該網(wǎng)

11、站指定數(shù)據(jù)。歸納與提高通過本章的學(xué)習(xí),我們對(duì)商務(wù)數(shù)據(jù)有了一個(gè)大概的了解,知道了商務(wù)數(shù)據(jù)的定義及類型,也了解了商務(wù)數(shù)據(jù)的主要來源及用途,基本掌握商務(wù)數(shù)據(jù)采集和處理的基本方法。數(shù)據(jù)被譽(yù)為“未來的石油”,商務(wù)數(shù)據(jù)則具備更廣闊的應(yīng)用場(chǎng)景。通過對(duì)數(shù)據(jù)進(jìn)行分析,企業(yè)不僅可以發(fā)現(xiàn)企業(yè)內(nèi)部、客戶體驗(yàn)及營銷手段的問題,還可以了解客戶的內(nèi)在需求。在電子商務(wù)行業(yè)中,掌握商務(wù)數(shù)據(jù)分析與應(yīng)用的方法是電子商務(wù)從業(yè)人員的必備技能。第2章 新商務(wù)數(shù)據(jù)采集工具及應(yīng)用教學(xué)內(nèi)容一、商務(wù)數(shù)據(jù)采集工具介紹二、爬蟲軟件在商務(wù)數(shù)據(jù)分析中的應(yīng)用三、Python 爬蟲在商務(wù)數(shù)據(jù)采集中的應(yīng)用教學(xué)要求【知識(shí)目標(biāo)】1熟知數(shù)據(jù)采集方法。2了解常用的數(shù)

12、據(jù)采集工具。3了解Python 爬蟲的優(yōu)劣勢(shì)。教學(xué)重點(diǎn)1熟知數(shù)據(jù)采集方法。2了解常用的數(shù)據(jù)采集工具。教學(xué)難點(diǎn)1了解常用的數(shù)據(jù)采集工具。2了解Python 爬蟲的優(yōu)劣勢(shì)。教學(xué)方法講授法、案例法課時(shí)數(shù)3課時(shí)教學(xué)內(nèi)容第一節(jié) 商務(wù)數(shù)據(jù)采集工具介紹商務(wù)數(shù)據(jù)采集工具主要分為編程類及可視化采集工具兩類。編程類工具需要利用各類編程語言對(duì)網(wǎng)頁內(nèi)容實(shí)現(xiàn)抓取,當(dāng)前主流的編程類采集工具主要有Python、Java 和PHP 等;編程類采集工具具有通用性和可協(xié)作性,爬蟲語言可以直接作為軟件開發(fā)代碼當(dāng)中的一部分協(xié)作使用。但是編程類采集工具的編碼工作比較煩瑣,針對(duì)不同類型的數(shù)據(jù)采集工作,需要定制化開發(fā)不同的程序代碼,適于有

13、較長時(shí)間系統(tǒng)性學(xué)習(xí)的使用者使用。可視化采集工具有八爪魚數(shù)據(jù)采集器等。可視化采集工具具有學(xué)習(xí)簡單、容易上手的特點(diǎn),這種軟件已經(jīng)集成了很多常用的功能,也能支持復(fù)雜的網(wǎng)頁結(jié)構(gòu)類型,可以滿足大部分用戶的數(shù)據(jù)采集需求,且具有可視化的操作界面,是新手入門的較好選擇。目前,大數(shù)據(jù)技術(shù)被應(yīng)用于各行各業(yè),很多人通過數(shù)據(jù)采集工具來收集網(wǎng)頁信息,下面列舉一些典型的應(yīng)用場(chǎng)景。1收集電商網(wǎng)站的商品數(shù)據(jù)用戶利用采集工具可以對(duì)電商網(wǎng)站的商品數(shù)據(jù)(如品牌、價(jià)格、銷量、規(guī)格、型號(hào)等)進(jìn)行收集,然后分析該網(wǎng)站的暢銷品牌、暢銷品類、價(jià)格走勢(shì)等,涵蓋的信息量非常大。2爬取微博、BBS 允許的數(shù)據(jù)用戶利用采集工具可以針對(duì)某個(gè)主題從微博

14、、論壇上爬取相關(guān)信息,挖掘出關(guān)于該主題的一些有趣的信息。3爬取新聞?dòng)脩衾貌杉ぞ呖梢耘廊「鞔箝T戶網(wǎng)站的新聞、各類電子報(bào)刊的新聞,例如,爬取百度新聞上關(guān)于某個(gè)關(guān)鍵字的信息,并于每周梳理出幾個(gè)關(guān)鍵詞,以抓住行業(yè)動(dòng)向。4爬取學(xué)術(shù)信息用戶利用采集工具可以爬取一些學(xué)術(shù)網(wǎng)站上的信息以學(xué)習(xí)研究,例如,在中國知網(wǎng)查關(guān)鍵詞“大數(shù)據(jù)”,就會(huì)出現(xiàn)很多與大數(shù)據(jù)相關(guān)的文獻(xiàn),點(diǎn)擊進(jìn)去就能看到每個(gè)文獻(xiàn)的基本信息、文章摘要等。但若逐個(gè)點(diǎn)擊查看會(huì)很耗費(fèi)時(shí)間,這時(shí)可以寫一個(gè)爬蟲腳本,將這些數(shù)據(jù)按照規(guī)范的格式全部爬取下來,以后無論是閱讀還是做進(jìn)一步分析,都會(huì)方便很多。第二節(jié) 爬蟲軟件在商務(wù)數(shù)據(jù)分析中的應(yīng)用一、常見爬蟲軟件常見的爬

15、蟲軟件主要有Java 和Python,少部分場(chǎng)景會(huì)使用PHP 編寫爬蟲。下面分別介紹這三款爬蟲軟件。1JavaJava 是典型的面向?qū)ο蟮恼Z言,不僅吸收了C+語言的各種優(yōu)勢(shì),還摒棄了C+中難以理解的多繼承、指針等概念。Java 具有以下特征。(1)純面向?qū)ο蟆#?)支持分布式。(3)跨平臺(tái),移植性強(qiáng)。(4)屬于編譯性語言。(5)支持多線程,高性能。Java 平臺(tái)不斷迎來新功能,如移動(dòng)互聯(lián)網(wǎng)時(shí)代的Android,大數(shù)據(jù)時(shí)代的Hadoop,人工智能時(shí)代的TensorFlow。Java 是使用范圍相對(duì)較廣的語言,具有以下優(yōu)點(diǎn)。(1)面向?qū)ο?。?)穩(wěn)健、安全、可移植、高性能。(3)跨平臺(tái)。(4)編譯

16、型靜態(tài)語言。Java 的缺點(diǎn)是其占用大量內(nèi)存,并且啟動(dòng)時(shí)間相對(duì)較長,編譯速度較慢。2PythonPython 是一款服務(wù)器端解釋型開源非編譯腳本語言。它能夠把用其他語言制作的各種模塊(尤其是C/C+)很輕松地聯(lián)結(jié)在一起。Python 具有以下特征。(1)解釋性語言。(2)擁有豐富的庫。(3)跨平臺(tái)。(4)可移植、可拓展。(5)支持GUI 的編程。(6)可嵌入。Python 學(xué)習(xí)簡單,被譽(yù)為最容易學(xué)習(xí)的語言,具有以下優(yōu)點(diǎn)。(1)簡單、易學(xué)。(2)免費(fèi)、開源。(3)可移植性強(qiáng)。(4)屬于解釋性的一門動(dòng)態(tài)語言。(5)面向?qū)ο?。?)擁有豐富的庫。(7)強(qiáng)制性縮進(jìn)代碼使代碼規(guī)范。Python 也有一些

17、不足,主要集中在以下幾方面。(1)運(yùn)行速度慢。(2)中文資料匱乏。(3)存在一些只有在特定情況下才會(huì)出現(xiàn)的bug。3PHPPHP 是一種通用開源腳本語言。語法吸收了C、Java 和Perl 的特點(diǎn),利于學(xué)習(xí),使用廣泛,主要適用于Web 開發(fā)領(lǐng)域,具有以下特征。(1)獨(dú)特的語法,混合了C、Java、Perl 以及PHP 自創(chuàng)的新的語法。(2)與其他編程語言相比,更快速地執(zhí)行動(dòng)態(tài)網(wǎng)頁。(3)PHP 支持幾乎所有流行的數(shù)據(jù)庫以及操作系統(tǒng)。(4)可以用C、C+進(jìn)行程序擴(kuò)展。PHP 學(xué)習(xí)簡單,易于快速上手;歷久彌新的PHP 擁有龐大而活躍的官方社區(qū),開發(fā)者面臨的大部分難題都有現(xiàn)成的解決方案,很多十幾年前

18、的解決方案在當(dāng)代也有指導(dǎo)意義。 PHP 具有以下優(yōu)點(diǎn)。(1)PHP 是一門免費(fèi)開源語言。(2)開發(fā)快,運(yùn)行快,語法簡單,方便學(xué)習(xí)。(3)跨平臺(tái),效率高。(4)具有很多成熟框架。(5)有成熟社區(qū)支持PHP 的開發(fā)。相比于其他語言,PHP 的運(yùn)行速度較慢,錯(cuò)誤處理機(jī)制比較糟糕,具有以下缺點(diǎn)。(1)PHP 是個(gè)單進(jìn)程的程序,不支持多線程。(2)只支持做Web 開發(fā),不方便做.exe 文件、桌面應(yīng)用程序、手機(jī)程序。(3)后期維護(hù)比較困難,提速空間局限性大。二、爬蟲軟件應(yīng)用案例下面使用Python 采集豆瓣電影數(shù)據(jù),提取正在上映的電影名稱、評(píng)分、圖片的信息,提取的結(jié)果以文件形式保存下來。1準(zhǔn)備工作首先安

19、裝 Python 3,其次確保已經(jīng)正確安裝Requests 庫。安裝命令:pip3 install requests。2抓取分析抓取的目標(biāo)站點(diǎn)為“豆瓣電影”。頁面中顯示的有效信息包括影片名稱、評(píng)分、圖片等。這樣我們獲取該頁結(jié)果之后再用正則表達(dá)式提取出相關(guān)信息就可以得到所有正在上映的電影信息了。3抓取頁面源代碼接下來我們要抓取頁面源代碼,首先實(shí)現(xiàn)一個(gè)get_page()方法,傳入U(xiǎn)RL 參數(shù),然后將抓取的頁面結(jié)果返回,再實(shí)現(xiàn)一個(gè)main()方法調(diào)用一下,初步代碼實(shí)現(xiàn)。4正則提取電影信息從Network 選項(xiàng)卡部分查看原始請(qǐng)求得到的源碼。利用非貪婪匹配來提取data-title 屬性的信息,正則表

20、達(dá)式寫為:<li.*?list-item.*?data-title="(.*?)".*?>使用相同的判斷方法來提取 data-score 屬性的信息,正則表達(dá)式寫為:<li.*?list-item.*?data-title="(.*?)".*?data-score="(.*?)".*?>提取img 節(jié)點(diǎn)的src 屬性,正則可以改寫如下:<li.*?list-item.*?data-title="(.*?)".*?data-score="(.*?)".*?>.*

21、?<img.*?src="(.*?)".*?/>接下來通過調(diào)用findall()方法提取出所有的內(nèi)容,實(shí)現(xiàn)parse_page()方法。這樣我們就可以成功提取出電影的圖片、標(biāo)題、評(píng)分內(nèi)容了,并把它賦值為一個(gè)個(gè)的字典,形成結(jié)構(gòu)化數(shù)據(jù)。至此,我們成功提取了此頁的電影信息。5寫入文件將提取的結(jié)果寫入文件,在這里直接寫入一個(gè)文本文件中,通過 json 庫的dumps()方法實(shí)現(xiàn)字典的序列化,并指定ensure_ascii 參數(shù)為False,這樣可以保證輸出的結(jié)果是中文形式而不是Unicode 編碼。6整合代碼到此為止,我們的爬蟲就全部完成了。7運(yùn)行結(jié)果最后我們運(yùn)行一下代

22、碼,可以看到這樣就成功把電影信息爬取下來了。第三節(jié) Python 爬蟲在商務(wù)數(shù)據(jù)采集中的應(yīng)用一、Python 爬蟲初步介紹Python 是一種非常適合開發(fā)網(wǎng)絡(luò)爬蟲的編程語言,提供了如urllib、re、json、pyquery等模塊,同時(shí)又有很多成型框架,本身又十分簡潔和方便。作為一門編程語言,Python以簡潔清晰的語法和強(qiáng)制使用空白符進(jìn)行語句縮進(jìn)的特點(diǎn)深受程序員的喜愛。與其他靜態(tài)編程語言相比,Python 抓取網(wǎng)頁文檔的接口更簡潔;與其他動(dòng)態(tài)腳本語言相比,Python 的urllib2 包提供了較為完整的訪問網(wǎng)頁文檔的API。此外,Python 中有優(yōu)秀的第三方包可以實(shí)現(xiàn)網(wǎng)頁高效抓取,并可

23、用極短的代碼完成網(wǎng)頁的標(biāo)簽過濾功能。Python 爬蟲的構(gòu)架組成:Python 的工作流程:二、Python 爬蟲適用場(chǎng)景Python 爬蟲應(yīng)用領(lǐng)域廣泛,涉及內(nèi)容、人工智能、數(shù)據(jù)監(jiān)控、金融風(fēng)控、電商比價(jià)、輿情監(jiān)控、互聯(lián)網(wǎng)軟件等領(lǐng)域,本書主要介紹內(nèi)容、人工智能、輿情監(jiān)控的部分應(yīng)用。1內(nèi)容幾乎所有的互聯(lián)網(wǎng)內(nèi)容平臺(tái),一開始都會(huì)遇到冷啟動(dòng)問題。冷啟動(dòng)就是平臺(tái)初期,沒有內(nèi)容、沒有數(shù)據(jù),一個(gè)沒有內(nèi)容的平臺(tái)是無法吸引用戶加入平臺(tái)產(chǎn)生內(nèi)容和數(shù)據(jù)的。所以一般互聯(lián)網(wǎng)內(nèi)容平臺(tái)的冷啟動(dòng)階段最有效的解決方法就是使用爬蟲,通過爬蟲獲取一定內(nèi)容及數(shù)據(jù)以使平臺(tái)變得有價(jià)值,再來更好地吸引用戶加入。Python 還可以用來構(gòu)建搜

24、索引擎,搜索引擎是爬蟲最早期的也是最成功的代表應(yīng)用,搜索引擎主要先通過爬蟲進(jìn)行數(shù)據(jù)的爬取,之后對(duì)爬取到的數(shù)據(jù)做數(shù)據(jù)清洗,再入庫進(jìn)行倒排索引,同時(shí)對(duì)索引不斷進(jìn)行排序和優(yōu)化,最后才能創(chuàng)建比較完好的搜索服務(wù)。2人工智能人工智能的應(yīng)用前期需要對(duì)模型進(jìn)行大量的訓(xùn)練,訓(xùn)練模型需要正確的語料內(nèi)容,這些內(nèi)容往往通過爬蟲來進(jìn)行采集。要提高自然語言處理的準(zhǔn)確性和智能型,我們需要構(gòu)建數(shù)據(jù)集,可以利用爬蟲進(jìn)行數(shù)據(jù)集的構(gòu)建。對(duì)于圖片訓(xùn)練,我們可以利用爬蟲自動(dòng)補(bǔ)齊訓(xùn)練數(shù)據(jù)。3輿情監(jiān)控不論是企業(yè)還是國家,都需要做輿情監(jiān)控等分析。爬蟲可以為輿情監(jiān)控的分析提供大量的關(guān)聯(lián)數(shù)據(jù),分析熱點(diǎn)、新聞、輿情動(dòng)向等;還可以通過爬蟲爬取多種數(shù)

25、據(jù)源,進(jìn)行關(guān)聯(lián)匹配,發(fā)現(xiàn)大數(shù)據(jù)中蘊(yùn)含的規(guī)律。三、Python 爬蟲商務(wù)數(shù)據(jù)采集案例商務(wù)數(shù)據(jù)主要以電商數(shù)據(jù)為主,我們以某電商平臺(tái)示例,采集商品標(biāo)題及價(jià)格信息。本案例會(huì)以用戶動(dòng)態(tài)輸入爬取特定商品,最后采集信息并導(dǎo)出為Excel 形式。爬取思路介紹如下。(1)查看搜索商品的接口信息。(2)爬取出來的信息,利用正則表達(dá)進(jìn)行抽取有用信息(商品名稱,價(jià)格)。(3)對(duì)抽取出來的信息進(jìn)行拼接及優(yōu)化展示。爬取過程中,共需三個(gè)函數(shù)。第一個(gè)利用requests 調(diào)用搜索接口,獲得返回信息。第二個(gè)利用re 模塊通過正則表達(dá)規(guī)則去提取商品名稱和價(jià)格。第三個(gè)優(yōu)化展示(美觀&直觀效果)。采集操作步驟具體介紹如下。步

26、驟 1:按“F12”鍵查看接口信息,獲取接口名稱、接口調(diào)用方法(post)、請(qǐng)求頭及參數(shù)。步驟 2:對(duì)于返回的信息r.text,我們需要進(jìn)行提取關(guān)鍵信息,即商品名稱和商品價(jià)格。步驟3:把數(shù)據(jù)展示得更美觀。歸納與提高通過本章的學(xué)習(xí),我們了解了常用的爬蟲編寫語言、爬蟲主要應(yīng)用場(chǎng)景以及各類爬蟲軟件有哪些優(yōu)勢(shì)和劣勢(shì)。在網(wǎng)絡(luò)時(shí)代,數(shù)據(jù)來自各個(gè)方面,龐大而復(fù)雜。產(chǎn)品的整個(gè)壽命周期,包括從市場(chǎng)調(diào)研到售后服務(wù)和最終處置的各個(gè)過程,都需要進(jìn)行數(shù)據(jù)分析?!肮び破涫?,必先利其器”,選擇合適的數(shù)據(jù)采集工具可以更快速地獲得精準(zhǔn)的數(shù)據(jù)。第3章 數(shù)據(jù)采集方法與采集器教學(xué)內(nèi)容一、了解數(shù)據(jù)采集器二、數(shù)據(jù)采集器的安裝與界面教學(xué)

27、要求【知識(shí)目標(biāo)】1熟知數(shù)據(jù)采集方法。2了解數(shù)據(jù)采集器的優(yōu)勢(shì)。3能夠安裝注冊(cè)數(shù)據(jù)采集器。教學(xué)重點(diǎn)1了解數(shù)據(jù)采集器的優(yōu)勢(shì)。2能夠安裝注冊(cè)數(shù)據(jù)采集器。教學(xué)難點(diǎn)1了解數(shù)據(jù)采集器的優(yōu)勢(shì)。2能夠安裝注冊(cè)數(shù)據(jù)采集器。教學(xué)方法講授法、案例法課時(shí)數(shù)2課時(shí)教學(xué)內(nèi)容第一節(jié) 初識(shí)數(shù)據(jù)采集器一、數(shù)據(jù)采集器的優(yōu)勢(shì)數(shù)據(jù)采集器是進(jìn)行數(shù)據(jù)采集的機(jī)器或者工具,具備實(shí)時(shí)采集、自動(dòng)存儲(chǔ)、即時(shí)顯示、即時(shí)反饋、自動(dòng)處理、自動(dòng)傳輸?shù)裙δ埽瑸楝F(xiàn)場(chǎng)數(shù)據(jù)的真實(shí)性、有效性、實(shí)時(shí)性、可用性提供了保證。數(shù)據(jù)采集器用于實(shí)現(xiàn)自動(dòng)化從大批量網(wǎng)頁上采集數(shù)據(jù),抓取網(wǎng)站信息,包括圖片、文字等信息的采集、處理及發(fā)布。當(dāng)下運(yùn)用比較廣泛的采集器是八爪魚采集器。八爪魚采

28、集器是深圳視界信息技術(shù)有限公司研發(fā)的一款網(wǎng)頁采集軟件,具有以下優(yōu)勢(shì)。(1)1 分鐘獲得數(shù)據(jù)。(2)千萬級(jí)別數(shù)據(jù)采集。(3)全場(chǎng)景解決方案。(4)數(shù)據(jù)處理能力強(qiáng)。二、數(shù)據(jù)采集器的架構(gòu)1技術(shù)架構(gòu)八爪魚數(shù)據(jù)采集系統(tǒng)采用 C/S 架構(gòu),云計(jì)算服務(wù)端基于分布式云計(jì)算平臺(tái),總體架構(gòu)包括客戶端、服務(wù)端、云采集端和系統(tǒng)監(jiān)控端。數(shù)據(jù)服務(wù)使用Mongo DB 與SQL Server進(jìn)行存儲(chǔ)。八爪魚數(shù)據(jù)采集系統(tǒng)的架構(gòu)設(shè)計(jì):八爪魚數(shù)據(jù)采集系統(tǒng)的系統(tǒng)接口:2數(shù)據(jù)存儲(chǔ)系統(tǒng)存儲(chǔ)由 Mongo DB 與SQL Server 組成,采集結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)于Mongo DB,系統(tǒng)參數(shù)配置存儲(chǔ)于SQL Server。(1)數(shù)據(jù)采集技術(shù)

29、的原理八爪魚采集器在Windows 系統(tǒng)中運(yùn)行,其開發(fā)語言是C#??蛻舳酥鞒绦蜇?fù)責(zé)任務(wù)配置及管理、任務(wù)的云采集控制、云集成數(shù)據(jù)的管理(導(dǎo)出、清理、發(fā)布)。內(nèi)核瀏覽器為Firefox 瀏覽器。八爪魚采集器通過模擬人的操作習(xí)慣,對(duì)網(wǎng)頁內(nèi)容進(jìn)行全自動(dòng)提取。通過XPath 定位網(wǎng)頁元素,通過正則表達(dá)式調(diào)整采集數(shù)據(jù)的格式。數(shù)據(jù)導(dǎo)出程序負(fù)責(zé)數(shù)據(jù)的導(dǎo)出,支持Excel、SQL、TXT、MySQL 等格式,一次可導(dǎo)出千萬級(jí)別數(shù)據(jù)。(2)云采集技術(shù)的原理八爪魚采集器通過一套中央控制處理機(jī)制連接了終端用戶和云采集集群服務(wù)端。中央控制器接收用戶指令,把任務(wù)分派到云端的各個(gè)節(jié)點(diǎn)進(jìn)行工作,實(shí)現(xiàn)自動(dòng)負(fù)載均衡,可動(dòng)態(tài)伸縮,

30、熱拔插。云平臺(tái)服務(wù)端采用分布式架構(gòu)及MapReduce 原理,系統(tǒng)自動(dòng)配置節(jié)點(diǎn)與任務(wù)拆分,調(diào)度服務(wù)器進(jìn)行采集,從而實(shí)現(xiàn)分布式高并發(fā)的性能要求。云采集節(jié)點(diǎn)支持靈活橫向擴(kuò)展,可根據(jù)需求隨時(shí)動(dòng)態(tài)分配添加節(jié)點(diǎn)。第二節(jié) 數(shù)據(jù)采集器的安裝與界面一、數(shù)據(jù)采集器的注冊(cè)與安裝在進(jìn)行八爪魚采集器登錄或官網(wǎng)登錄時(shí),首先創(chuàng)建八爪魚采集器的賬號(hào)。二、數(shù)據(jù)采集器界面介紹1 主界面介紹(1)用戶名稱、用戶賬號(hào)標(biāo)識(shí)以及展開/收起側(cè)欄按鍵。(2)“新建任務(wù)”按鈕、“用戶設(shè)置”按鈕及“聯(lián)系客服”按鈕。(3)菜單欄包括任務(wù)、工具箱、市場(chǎng)、人工客服、教程和幫助及關(guān)于我們。(4)軟件版本信息。八爪魚采集器分為免費(fèi)版、專業(yè)版、旗艦版、旗

31、艦版+版、私有云版及企業(yè)版。(5)窗口欄顯示當(dāng)前打開的所有窗口,可以隨時(shí)在這里進(jìn)行切換。(6)各應(yīng)用模式入口,界面顯示為簡易采集模式及自定義采集模式,自定義采集模式下拉菜單包括智能模式與向?qū)J?。各?yīng)用模式功能在第4 章內(nèi)進(jìn)行詳細(xì)介紹。(7)軟件教程,可在此處查看八爪魚詳細(xì)教程,單擊“查看更多”鏈接會(huì)跳轉(zhuǎn)官網(wǎng)教程區(qū)域,內(nèi)含各功能視頻教程。2 任務(wù)欄介紹(1)“新建”“導(dǎo)入”及“刷新”三個(gè)按鈕。其中,單擊“新建”按鈕可以創(chuàng)建自定義采集任務(wù)、簡易采集任務(wù)及新建任務(wù)組,任務(wù)組相當(dāng)于文件夾,可以將不同任務(wù)分別放置在不同的任務(wù)組中,方便查找;單擊“導(dǎo)入”按鈕可以將八爪魚規(guī)則導(dǎo)入任務(wù)列表中進(jìn)行采集;單擊“

32、刷新”按鈕則主動(dòng)對(duì)任務(wù)列表進(jìn)行刷新。(2)排序方式選擇,可選擇為升序或降序方式。(3)任務(wù)信息界面,主要顯示內(nèi)容為任務(wù)名、采集狀態(tài)、下次采集時(shí)間、云采集優(yōu)先級(jí)、歸屬任務(wù)組等。單擊采集狀態(tài)中已采集到數(shù)據(jù)可直接跳轉(zhuǎn)數(shù)據(jù)展示界面;單擊最右側(cè)的加號(hào)按鈕可選擇更多狀態(tài)進(jìn)行展示,滿足不同用戶的需求(4)任務(wù)篩選區(qū)域,篩選后的條件會(huì)展示在排序方式區(qū)域。3 工具箱(1)正則表達(dá)式工具正則表達(dá)式工具可通過開始條件和結(jié)束條件幫助生成正則表達(dá)式,利用匹配和替換兩種功能實(shí)現(xiàn)數(shù)據(jù)的初步清洗。(2)XPath 工具XPath 工具可以通過輸入?yún)?shù)的方式自動(dòng)編寫XPath,主要幫助未接觸過XPath 及使用XPath 不熟

33、練的使用者進(jìn)行XPath 編寫。(3)定時(shí)入庫工具定時(shí)入庫工具可以設(shè)置八爪魚采集數(shù)據(jù)間隔多久進(jìn)行未導(dǎo)出數(shù)據(jù)的導(dǎo)入,支持?jǐn)?shù)據(jù)庫實(shí)時(shí)數(shù)據(jù)更新。歸納與提高通過本章的學(xué)習(xí),我們了解了商務(wù)采集與處理的基礎(chǔ),了解了數(shù)據(jù)采集器的優(yōu)勢(shì)、掌握了如何安裝并注冊(cè)八爪魚采集器,還掌握了采集器界面中的各功能按鈕。商務(wù)數(shù)據(jù)的類型多種多樣,既包含企業(yè)的產(chǎn)品信息與交易信息,也包括消費(fèi)者的基本信息、交易信息、評(píng)論信息、行為信息、社交信息和地理位置信息等。在大數(shù)據(jù)環(huán)境下,電商平臺(tái)中的數(shù)據(jù)是公開、共享的,但數(shù)據(jù)間的各種信息傳輸和分析需要有一個(gè)采集整理的過程,熟練的運(yùn)用采集器,可以更迅速獲取更多的商務(wù)數(shù)據(jù),掌握商場(chǎng)的主動(dòng)權(quán)。第4章

34、數(shù)據(jù)采集器應(yīng)用教學(xué)內(nèi)容一、簡易采集模式及實(shí)例二、向?qū)J郊皩?shí)例三、自定義采集模式教學(xué)要求【知識(shí)目標(biāo)】1熟練使用簡易采集模式進(jìn)行常見網(wǎng)站數(shù)據(jù)采集。2熟練使用自定義采集模式進(jìn)行列表詳情頁數(shù)據(jù)采集。3掌握在規(guī)則中對(duì)采集內(nèi)容做初步篩選和清洗操作。教學(xué)重點(diǎn)1熟練使用簡易采集模式進(jìn)行常見網(wǎng)站數(shù)據(jù)采集。2熟練使用自定義采集模式進(jìn)行列表詳情頁數(shù)據(jù)采集。3掌握在規(guī)則中對(duì)采集內(nèi)容做初步篩選和清洗操作。教學(xué)難點(diǎn)1熟練使用簡易采集模式進(jìn)行常見網(wǎng)站數(shù)據(jù)采集。2熟練使用自定義采集模式進(jìn)行列表詳情頁數(shù)據(jù)采集。3掌握在規(guī)則中對(duì)采集內(nèi)容做初步篩選和清洗操作。教學(xué)方法講授法、案例法課時(shí)數(shù)3課時(shí)教學(xué)內(nèi)容第一節(jié) 簡易采集模式及實(shí)例簡

35、易采集模式是利用系統(tǒng)內(nèi)置模板進(jìn)行數(shù)據(jù)采集的模式。八爪魚采集器經(jīng)過數(shù)據(jù)統(tǒng)計(jì),將最常用的200 多個(gè)網(wǎng)站進(jìn)行了任務(wù)模板化,用戶可以直接調(diào)取模板,輸入簡單的幾個(gè)參數(shù)即可進(jìn)行采集。簡易采集模式的優(yōu)點(diǎn)為格式規(guī)整、使用簡單,可根據(jù)不同的參數(shù)進(jìn)行不同程度的自定義采集,采集到的數(shù)據(jù)可以滿足用戶的使用需求;其缺點(diǎn)為由于事先制定了模板,用戶只能在參數(shù)上進(jìn)行自定義修改。用戶可以在八爪魚采集器“主頁”界面中單擊“簡易采集”模式下方的“直接使用”按鈕直接進(jìn)入,也可以在“任務(wù)”界面中通過選擇“新建”下拉列表中的“簡易采集”選項(xiàng)來創(chuàng)建。進(jìn)入“簡易采集”模式后,用戶可以搜索采集網(wǎng)站關(guān)鍵詞或通過篩選模板類型進(jìn)行模板查找。選中指

36、定模板后,將鼠標(biāo)指針置于其上,然后單擊“選擇”按鈕即可使用。針對(duì)網(wǎng)站不同位置及頁面的內(nèi)容,采集器設(shè)置了多套模板供用戶選擇,選好后將鼠標(biāo)指針置于其上,單擊“開始使用”按鈕即可進(jìn)入模板頁面。簡易采集模式模板頁界面上方顯示了模板名稱及介紹,下方分為采集字段預(yù)覽、采集參數(shù)預(yù)覽及示例數(shù)據(jù)。其中,采集字段預(yù)覽展示了模板內(nèi)的采集內(nèi)容,將鼠標(biāo)指針放置在不同字段上,右側(cè)圖片內(nèi)白色的部分即為字段采集內(nèi)容;采集參數(shù)預(yù)覽展示了模板需要輸入的參數(shù);示例數(shù)據(jù)即為采集后數(shù)據(jù)的呈現(xiàn)形式。確認(rèn)可以滿足需求后,單擊下方的“立即使用”按鈕即可開始采集。簡易采集模式設(shè)置界面,用戶按照需求修改任務(wù)名、設(shè)置任務(wù)放置的任務(wù)組,針對(duì)該模板,

37、修改模板參數(shù),即列表頁網(wǎng)址,網(wǎng)址可以輸入不多于10000 個(gè)頁面,用換行符(“Enter”鍵)隔開。設(shè)置好后單擊“保存并啟動(dòng)”按鈕,選擇本地采集即可進(jìn)行采集。第2節(jié) 向?qū)J郊皩?shí)例向?qū)J綗o須配置規(guī)則,用戶只需根據(jù)提示進(jìn)行操作即可。向?qū)J揭彩浅鯇W(xué)者了解八爪魚采集器的重要方式。向?qū)J降膬?yōu)點(diǎn)是采集內(nèi)容大多數(shù)均可自定義,包括翻頁及采集內(nèi)容等。下面以京東手機(jī)列表詳情頁為例進(jìn)行演示。步驟 1:進(jìn)入向?qū)J讲⑤斎氩杉W(wǎng)址。步驟2:選擇采集類型。步驟3:設(shè)置列表。步驟4:翻頁設(shè)置。步驟5:設(shè)置字段。步驟6:開始采集。步驟7:數(shù)據(jù)導(dǎo)出。第三節(jié) 自定義采集模式一、單網(wǎng)頁數(shù)據(jù)采集1創(chuàng)建自定義采集任務(wù)2輸入網(wǎng)址

38、3自定義采集模式界面介紹4提取數(shù)據(jù)5本地采集6數(shù)據(jù)導(dǎo)出二、列表詳情頁數(shù)據(jù)采集1循環(huán)2點(diǎn)擊元素3循環(huán)提取、正則表達(dá)式工具與分支判斷歸納與提高通過本章的學(xué)習(xí),我們了解了數(shù)據(jù)采集器的幾種應(yīng)用模式及其每種應(yīng)用模式的優(yōu)勢(shì)和劣勢(shì)、循環(huán)模塊的重要性以及常用網(wǎng)站在自定義采集模式進(jìn)行采集。數(shù)據(jù)采集器和Web 爬蟲都可以對(duì)互聯(lián)網(wǎng)網(wǎng)頁進(jìn)行數(shù)據(jù)采集,不同的是數(shù)據(jù)采集器不用編程就可以輕松掌握,適用于非技術(shù)專業(yè)人員的數(shù)據(jù)采集工作。自定義采集模式適用于進(jìn)階用戶。該模式需要用戶自行配置規(guī)則,可以實(shí)現(xiàn)全網(wǎng)98%以上網(wǎng)頁數(shù)據(jù)的采集。自定義采集通過不同功能模塊之間搭積木式的組合實(shí)現(xiàn)各項(xiàng)采集功能。第5章 數(shù)據(jù)采集器高級(jí)應(yīng)用教學(xué)內(nèi)容一

39、、屏蔽網(wǎng)頁廣告、切換瀏覽器版本及禁止加載圖片。二、增量采集、智能防封、登錄采集、網(wǎng)頁源碼提取。三、圖片、附件的采集與下載、循環(huán)切換下拉框。四、移動(dòng)鼠標(biāo)指針到元素上。教學(xué)要求【知識(shí)目標(biāo)】1掌握數(shù)據(jù)采集器的高級(jí)功能。2掌握增量采集和智能防封的應(yīng)對(duì)方式。3掌握增量采集的方式。教學(xué)重點(diǎn)1掌握數(shù)據(jù)采集器的高級(jí)功能。2掌握增量采集和智能防封的應(yīng)對(duì)方式。3掌握增量采集的方式。教學(xué)難點(diǎn)1掌握數(shù)據(jù)采集器的高級(jí)功能。2掌握增量采集和智能防封的應(yīng)對(duì)方式。3掌握增量采集的方式。教學(xué)方法講授法、案例法課時(shí)數(shù)5課時(shí)教學(xué)內(nèi)容第一節(jié) 屏蔽網(wǎng)頁廣告八爪魚采集器的屏蔽網(wǎng)頁廣告功能用于屏蔽一部分網(wǎng)頁內(nèi)的廣告加載(如左右兩側(cè)的彈窗廣

40、告等),以便加快網(wǎng)頁加載速度及打開網(wǎng)頁后能更清楚地看到需要采集的數(shù)據(jù)。因網(wǎng)頁情況不同,八爪魚采集器內(nèi)部算法不一定可以適應(yīng)所有狀況,頁面本身的采集數(shù)據(jù)有可能會(huì)被屏蔽。若選中“屏蔽網(wǎng)頁廣告”復(fù)選框后發(fā)現(xiàn)網(wǎng)頁顯示不一致,則取消選擇。在向?qū)J郊白远x采集模式中單擊“設(shè)置”按鈕,在彈出的界面中選中“屏蔽網(wǎng)頁廣告”復(fù)選框即可。第2節(jié) 切換瀏覽器版本少數(shù)網(wǎng)頁需要在特定瀏覽器版本中才可以打開。八爪魚采集器自帶的切換瀏覽器版本功能,主要可以切換火狐瀏覽器各版本、谷歌瀏覽器各版本及模擬手機(jī)瀏覽器進(jìn)行訪問。在向?qū)J郊白远x采集模式中單擊“設(shè)置”按鈕,在“采集設(shè)置”區(qū)域中的“瀏覽器版本”下拉列表中選擇需要的版本。

41、第3節(jié) 禁止加載圖片使用八爪魚采集器采集網(wǎng)站數(shù)據(jù)時(shí),由于某些網(wǎng)站圖片太多導(dǎo)致網(wǎng)頁加載速度過慢,或廣告圖片太多導(dǎo)致網(wǎng)頁加載圖片過慢,此時(shí)可使用采集器的禁止加載圖片功能加快采集速度。因網(wǎng)頁情況不同,部分網(wǎng)站的設(shè)置是不加載圖片就一直保持加載狀態(tài),若選中“不加載網(wǎng)頁圖片”復(fù)選框后網(wǎng)頁加載一直無法完成,則可以取消選擇,也可以配合“超時(shí)時(shí)間”或Ajax 設(shè)置解決。如果流程圖中包含識(shí)別驗(yàn)證碼步驟,此處需取消選中“不加載網(wǎng)頁圖片”復(fù)選框,否則八爪魚采集器將無法獲取驗(yàn)證碼圖片,自動(dòng)打碼功能將失效。在向?qū)J郊白远x采集模式中單擊“設(shè)置”按鈕,在彈出的界面中勾選“不加載網(wǎng)頁圖片”即可。第4節(jié) 增量采集增量采集是指

42、每次進(jìn)行采集都只采集網(wǎng)頁中沒有采集到的增量內(nèi)容。實(shí)現(xiàn)增量采集有3 種方式,分別為自動(dòng)去重法、對(duì)比URL 法及觸發(fā)器法。一、 自動(dòng)去重法八爪魚采集器默認(rèn)將所有字段內(nèi)容都相同的數(shù)據(jù)定義為無意義數(shù)據(jù),進(jìn)行去重處理。自動(dòng)去重法可以對(duì)網(wǎng)頁內(nèi)容進(jìn)行預(yù)估,例如網(wǎng)頁在一個(gè)采集周期最多更新15 條信息,則可以設(shè)置循環(huán)次數(shù)為20 次,每次只采集20 條最新內(nèi)容,多余的5 條會(huì)進(jìn)行自動(dòng)去重,最終效果為只采集到最新的15 條增量數(shù)據(jù)。自動(dòng)去重法通過在循環(huán)中設(shè)置循環(huán)次數(shù)來實(shí)現(xiàn)增量采集。自動(dòng)去重法的優(yōu)點(diǎn)是操作簡單,缺點(diǎn)是要求沒有采集日期字段或不能因?yàn)椴杉掌谧侄问雇粭l記錄不一致。二、 對(duì)比URL 法對(duì)比URL 法通過對(duì)

43、比采集網(wǎng)頁的URL 進(jìn)行識(shí)別,對(duì)比過程中發(fā)現(xiàn)某URL 已經(jīng)采集過,則不進(jìn)行二次采集。在向?qū)J郊白远x采集模式中單擊“設(shè)置”按鈕,選中“啟用增量采集”復(fù)選框即可對(duì)比整個(gè)URL 或URL 中的某些參數(shù)。對(duì)比URL 法的優(yōu)點(diǎn)是操作簡單,識(shí)別準(zhǔn)確,無須判斷網(wǎng)頁最大更新數(shù),也不會(huì)產(chǎn)生重復(fù)數(shù)。缺點(diǎn)是不能識(shí)別Ajax 加載方式網(wǎng)頁,因?yàn)锳jax 加載方式不改變網(wǎng)頁鏈接;相同部分網(wǎng)頁的同樣內(nèi)容,若網(wǎng)址不同也不能使用該方法。三、 觸發(fā)器法觸發(fā)器法通過判斷每一條數(shù)據(jù)的更新日期來判斷是否為增量數(shù)據(jù),可以通過觸發(fā)器相關(guān)設(shè)置進(jìn)行操作,如果網(wǎng)頁列表順序按時(shí)間排序,則可以設(shè)置為發(fā)現(xiàn)早于多久之前的數(shù)據(jù)則停止本次采集;如果網(wǎng)

44、頁列表順序不按時(shí)間排序,則可以設(shè)置為發(fā)現(xiàn)早于多久之前的數(shù)據(jù)則丟棄本條數(shù)據(jù)。增量采集觸發(fā)器設(shè)置為時(shí)間字段早于某一時(shí)間,示例中設(shè)置為早于當(dāng)前時(shí)間減去5 小時(shí),則丟棄本條數(shù)據(jù),產(chǎn)生的效果是每次采集只會(huì)采集最近5個(gè)小時(shí)內(nèi)的增量數(shù)據(jù)。第5節(jié) 智能防封一、切換代理IP 法切換代理IP 法適用于利用IP 地址檢測(cè)采集行為的網(wǎng)站,是通過“隔一段時(shí)間切換”和“網(wǎng)站被封重試時(shí)切換代理IP”的方式避免網(wǎng)站防采集。二、切換瀏覽器版本法切換瀏覽器版本法常用于多種檢測(cè)方式的網(wǎng)站,會(huì)檢測(cè)用戶的使用習(xí)慣、瀏覽器版本、操作方式等,我們可以通過切換瀏覽器版本來避免防采集。操作方法為:在向?qū)J郊白远x采集模式中單擊“設(shè)置”按鈕,

45、在彈出的界面中的“智能防封”區(qū)域中選中“定時(shí)切換瀏覽器版本”復(fù)選框。三、定時(shí)清除Cookie 法Cookie 是指某些網(wǎng)站為了辨別用戶身份、進(jìn)行session 跟蹤而儲(chǔ)存在用戶本地終端上的數(shù)據(jù)。針對(duì)某些使用Cookie 的網(wǎng)站,重復(fù)地通過網(wǎng)址打開行為可能會(huì)導(dǎo)致防采集,這種情況我們只需要定時(shí)清除Cookie 就可以避開防采集。操作方法為:在向?qū)J郊白远x采集模式中單擊“設(shè)置”按鈕,在“智能防封”區(qū)域中選中“定時(shí)清除Cookie”復(fù)選框。四、隨機(jī)等待法部分網(wǎng)站通過用戶操作行為進(jìn)行防采集檢測(cè)。智能防封的隨機(jī)等待操作將流程圖中各步驟的“執(zhí)行前等待”設(shè)置為“隨機(jī)等待1-30 秒”,每次點(diǎn)擊都進(jìn)行隨機(jī)等

46、待,避免檢測(cè)用戶行為。五、降低頻率法部分網(wǎng)站檢測(cè)一段時(shí)間內(nèi)的訪問次數(shù),如每分鐘不能超過20 次,否則就被認(rèn)定為爬蟲并防止采集,針對(duì)此種網(wǎng)站我們可以通過降低訪問頻率來避免防采集。操作方法類似隨機(jī)等待法,通過設(shè)置“執(zhí)行前等待”選項(xiàng)來延長每個(gè)步驟的操作時(shí)長,降低訪問頻率,從而避免防采集。第六節(jié) 登錄采集一、 賬號(hào)密碼登錄單擊瀏覽界面中的用戶名文本輸入框,在“操作提示”面板中選擇“輸入文字”選項(xiàng)即可在流程圖中生成“輸入文字”模塊。“輸入文字”模塊的高級(jí)選項(xiàng)包括操作名、執(zhí)行前等待和使用循環(huán)等選項(xiàng)。輸入框的作用是輸入指定文字,在“要輸入的文本”輸入框中輸入需要的文本,單擊“確定”按鈕保存即可在下方的瀏覽界

47、面中自動(dòng)進(jìn)行輸入。針對(duì)賬號(hào)密碼輸入的網(wǎng)站,我們可以通過“輸入文字”模塊輸入賬號(hào)密碼并通過單擊“登錄”按鈕或者進(jìn)行驗(yàn)證碼識(shí)別進(jìn)行登錄。二、Cookie 登錄Cookie 登錄利用瀏覽器中的緩存設(shè)置,緩存了當(dāng)前的一個(gè)網(wǎng)頁狀態(tài),可以快速進(jìn)入當(dāng)前狀態(tài)的頁面。每個(gè)網(wǎng)站的Cookie 機(jī)制不一樣,有些網(wǎng)站的Cookie 一年后都有效,有些網(wǎng)站可能新開一個(gè)網(wǎng)頁、換臺(tái)計(jì)算機(jī),或者幾分鐘后就失效了。這種網(wǎng)站其實(shí)是不適合使用Cookie 登錄方式登錄的,建議使用賬號(hào)密碼登錄的方式登錄,所以我們需要根據(jù)自己要采集的網(wǎng)站情況進(jìn)行處理。Cookie 登錄的方式不需要輸入賬號(hào)和密碼,直接打開網(wǎng)頁就是登錄狀態(tài)。第7節(jié) 網(wǎng)頁

48、源碼提取網(wǎng)頁源碼提取操作單擊需要提取源碼的元素后,在“操作提示”面板中選擇采集該元素的InnerHtml 或OuterHtml 即可。InnerHtml 提取的是當(dāng)前元素的內(nèi)部網(wǎng)頁源代碼,不包含我們單擊的元素源碼,而OuterHtml 提取的源碼包含當(dāng)前元素的網(wǎng)頁源代碼。除了在網(wǎng)頁界面中通過“操作提示”面板進(jìn)行提取外,我們還可以通過修改字段提取內(nèi)容來提取源碼。選擇流程圖中的“提取數(shù)據(jù)”模塊,選中需要修改的字段,單擊下方的“自定義數(shù)據(jù)字段”按鈕,選擇“自定義抓取方式”選項(xiàng),修改抓取方式為InnerHtml 或OuterHtml。第8節(jié) 圖片、附件的采集與下載部分網(wǎng)頁包含了圖片和附件。對(duì)于圖片和附

49、件,采集器可以將它們的鏈接采集下來,然后利用下載工具進(jìn)行批量下載至指定位置存儲(chǔ)。附件和圖片鏈接的提取操作單擊需要提取鏈接的附件或圖片,在“操作提示”面板中單擊“采集該鏈接地址”或“采集該圖片地址”選項(xiàng)即可。第9節(jié) 循環(huán)切換下拉框下拉框是網(wǎng)頁中的一種篩選功能,用戶可通過下拉框內(nèi)的不同條件對(duì)網(wǎng)頁內(nèi)容進(jìn)行篩選,方便查看。八爪魚采集器可以做到自動(dòng)循環(huán)切換下拉框內(nèi)的所有內(nèi)容,以采集網(wǎng)頁所有信息。自定義采集模式下的循環(huán)切換下拉框操作單擊選擇下拉框后,在“操作提示”面板中單擊“循環(huán)切換下拉列表選項(xiàng)”選項(xiàng),在流程圖中即可生成“循環(huán)-切換下拉選項(xiàng)”模塊。第10節(jié) 移動(dòng)鼠標(biāo)指針到元素上部分網(wǎng)頁需要將鼠標(biāo)指針放置在

50、某位置才會(huì)顯示部分網(wǎng)頁內(nèi)容,這時(shí)就需要用到“移動(dòng)鼠標(biāo)到元素上”模塊,該模塊的作用是將鼠標(biāo)指針放置在元素上,讓更多內(nèi)容加載出來方便采集。操作方法為單擊需要放置鼠標(biāo)指針的元素,在“操作提示”面板中單擊“鼠標(biāo)移動(dòng)到該元素上”或“鼠標(biāo)移動(dòng)到該鏈接上”選項(xiàng)即可方便采集。操作方法為單擊需要放置鼠標(biāo)指針的元素,在“操作提示”面板中單擊“鼠標(biāo)移動(dòng)到該元素上”或“鼠標(biāo)移動(dòng)到該鏈接上”選項(xiàng)即可。歸納與提高通過本章的學(xué)習(xí),我們掌握了數(shù)據(jù)采集器的高級(jí)功能、增量采集和智能防封的應(yīng)對(duì)方式以及增量采集的方式。在數(shù)據(jù)采集器的使用過程中,面對(duì)不同的網(wǎng)站,時(shí)常需要一些特殊的功能幫助我們更準(zhǔn)確地采集,如智能防封應(yīng)對(duì)、新增數(shù)據(jù)增量采

51、集、如何進(jìn)行登錄等,本章學(xué)習(xí)數(shù)據(jù)采集器的高級(jí)應(yīng)用,能夠幫助我們更有效的使用數(shù)據(jù)采集器。第6章 數(shù)據(jù)采集器定位方式及云采集教學(xué)內(nèi)容一、XPath 數(shù)據(jù)定位二、云采集教學(xué)要求【知識(shí)目標(biāo)】1掌握XPath 書寫方法。2了解云采集功能并學(xué)會(huì)使用。教學(xué)重點(diǎn)1掌握XPath 書寫方法。2了解云采集功能并學(xué)會(huì)使用。教學(xué)難點(diǎn)1掌握XPath 書寫方法。2了解云采集功能并學(xué)會(huì)使用。教學(xué)方法講授法、案例法課時(shí)數(shù)2課時(shí)教學(xué)內(nèi)容第一節(jié) XPath 數(shù)據(jù)定位一、XPath 語言入門XPath 語言(XML Path Language,也稱XML 路徑語言)是網(wǎng)頁內(nèi)容定位語言,它可以幫助采集工具查找網(wǎng)頁內(nèi)容在網(wǎng)頁中的位置

52、。XPath 語言解決的是定位的問題。XPath 語言也由名稱、位置、屬性、內(nèi)容構(gòu)成。網(wǎng)頁文檔使用的是超文本標(biāo)記語言(HyperText Markup Language,HTML)。HTML被設(shè)計(jì)用來顯示網(wǎng)頁數(shù)據(jù),XPath 就是用來在HTML 中定位元素的。1節(jié)點(diǎn)節(jié)點(diǎn)是構(gòu)成網(wǎng)頁的基本元素。節(jié)點(diǎn)有7 種類型,分別是元素、屬性、文本、命名空間、處理指令、注釋以及文檔(根)節(jié)點(diǎn)。2節(jié)點(diǎn)關(guān)系節(jié)點(diǎn)關(guān)系是指節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系,通過包含與被包含關(guān)系區(qū)分。3Xpath 路徑表達(dá)式路徑表達(dá)式是對(duì)于節(jié)點(diǎn)的描述性語句,用來選取指定節(jié)點(diǎn)。下面介紹XPath 路徑表達(dá)式的各項(xiàng)操作。(1)選取節(jié)點(diǎn):使用“/”或“/”

53、來選取元素,使用“”來選取屬性、“/.”選取父元素、“/.”選取元素自身、“/*”選取任何元素。(2)謂語:用來查找某個(gè)特定的節(jié)點(diǎn)或者包含某個(gè)指定的值的節(jié)點(diǎn)。謂語對(duì)元素的位置、屬性及內(nèi)容做限制,只要符合限制的元素,使用中括號(hào)“ ”表示。(3)XPath 軸4XPath 函數(shù)XPath 函數(shù)可以通過簡單的調(diào)用實(shí)現(xiàn)一些特殊的功能。這里介紹幾種常用的函數(shù)使用方法。(1)文本函數(shù):Text(),主要功能為選中指定文本內(nèi)容的元素。(2)包含函數(shù):contains(參數(shù)1,參數(shù)2),主要功能為選中參數(shù)1 中包含參數(shù)2 中內(nèi)容的元素。(3)最后位置函數(shù):last(),主要功能為選中同胞元素中最后一位的元素。

54、(4)位置函數(shù):position(),主要功能為描述元素在同胞元素中的位置。二、XPath 語言應(yīng)用1XPath 工具的使用XPath 工具是八爪魚采集器內(nèi)置的一款XPath 路徑表達(dá)式工具,在用戶編寫不熟練的情況下,XPath 工具可以幫助用戶熟練地編寫XPath 路徑表達(dá)式。2XPath 應(yīng)用場(chǎng)景(1)翻頁(2)點(diǎn)擊(3)循環(huán)(4)提?。?)判斷條件第二節(jié) 云采集一、認(rèn)識(shí)云計(jì)算云計(jì)算(Cloud Computing)是指通過網(wǎng)絡(luò)“云”將巨大的數(shù)據(jù)計(jì)算處理程序分解成無數(shù)個(gè)小程序,然后通過多部服務(wù)器組成的系統(tǒng)進(jìn)行處理和分析這些小程序得到結(jié)果并返回用戶。云計(jì)算將計(jì)算分布在大量的分布式計(jì)算機(jī)上,而

55、非本地計(jì)算機(jī)或遠(yuǎn)程服務(wù)器中。云計(jì)算好比是從古老的單臺(tái)發(fā)電機(jī)模式轉(zhuǎn)向電廠集中供電的模式,它意味著計(jì)算能力也可以作為一種商品進(jìn)行流通,就像煤氣、水電一樣,取用方便,費(fèi)用低廉。二、云采集的定義云采集是指通過使用八爪魚采集器提供的服務(wù)器集群進(jìn)行工作,該集群是采取7×24小時(shí)的工作狀態(tài),時(shí)刻都可以進(jìn)行數(shù)據(jù)的采集抓取。在客戶端將任務(wù)設(shè)置為云采集,任務(wù)會(huì)自動(dòng)提交到云服務(wù)執(zhí)行,然后可以關(guān)閉軟件和計(jì)算機(jī)進(jìn)行脫機(jī)采集,真正地實(shí)現(xiàn)無人值守。除此之外,云采集通過云服務(wù)器集群的分布式部署方式,多節(jié)點(diǎn)同時(shí)進(jìn)行作業(yè),可以提高采集效率,并且可以高效地避開各種網(wǎng)站的IP 封鎖策略。3、 云采集基本設(shè)置1、啟動(dòng)云采集2、云采集狀態(tài)設(shè)置3、云采集優(yōu)先級(jí)設(shè)置4、云采集設(shè)置操作5、云采集資源設(shè)置四、定時(shí)云采集設(shè)置云采集不用本地計(jì)算機(jī)進(jìn)行數(shù)據(jù)采集,我們可以設(shè)置云服務(wù)器定時(shí)啟動(dòng)任務(wù),進(jìn)行全自動(dòng)的數(shù)據(jù)采集。定時(shí)云采集設(shè)置界面可以設(shè)置的時(shí)間方式有只采集一次、每周采集、每月采集及間隔時(shí)間采集。每周采集與每月采集都支持多選,全選后每天都會(huì)進(jìn)行采集,每次間隔3 小時(shí)。間隔時(shí)間采集支持1 分鐘、5 分鐘、10 分鐘、30 分鐘,設(shè)置后間隔一段時(shí)間就會(huì)自動(dòng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論