《商務(wù)數(shù)據(jù)采集與處理》(微課版)教案

上傳人：m*** IP屬地：貴州上傳時(shí)間：2022-04-26 格式：DOC 頁數(shù)：33 大?。?59KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩28頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上第1章商務(wù)數(shù)據(jù)采集概述教學(xué)內(nèi)容一、商務(wù)數(shù)據(jù)的定義及類型二、商務(wù)數(shù)據(jù)的主要來源及用途三、商務(wù)數(shù)據(jù)采集和處理的基本方法教學(xué)要求【知識(shí)目標(biāo)】1掌握商務(wù)數(shù)據(jù)的定義及類型。2掌握商務(wù)數(shù)據(jù)的主要來源及用途。3掌握商務(wù)數(shù)據(jù)采集和處理的基本方法。教學(xué)重點(diǎn)1掌握商務(wù)數(shù)據(jù)的定義及類型。2掌握商務(wù)數(shù)據(jù)的主要來源及用途。3掌握商務(wù)數(shù)據(jù)采集和處理的基本方法。教學(xué)難點(diǎn)1掌握商務(wù)數(shù)據(jù)的主要來源及用途。2掌握商務(wù)數(shù)據(jù)采集和處理的基本方法。教學(xué)方法講授法、案例法課時(shí)數(shù)3課時(shí)教學(xué)內(nèi)容第一節(jié) 初識(shí)數(shù)據(jù)一、數(shù)據(jù)的構(gòu)成1字段：用來描述數(shù)據(jù)的某一特征。2記錄：數(shù)據(jù)表中的每一行叫作一條“記錄”。每一條記錄包含這

2、行中的所有信息，就像在通訊錄數(shù)據(jù)庫中某個(gè)人的全部信息。3數(shù)據(jù)類型：用于給不同的數(shù)據(jù)分配合適的空間，以確定合適的存儲(chǔ)形式。4數(shù)據(jù)表：由行（記錄）和列（字段）構(gòu)成，因此也被稱為二維表。行中的記錄就是數(shù)據(jù)，所以表是行和列的集合。數(shù)據(jù)表往往由多條記錄組成。5大數(shù)據(jù)指不使用隨機(jī)分析法（抽樣調(diào)查）對(duì)部分樣本進(jìn)行處理，而是對(duì)所有數(shù)據(jù)進(jìn)行分析處理時(shí)的大量而多樣的數(shù)據(jù)。大數(shù)據(jù)具有以下特征。（1）大容量（2）多種類（3）高速度（4）可變性（5）真實(shí)性（6）復(fù)雜性（7）高價(jià)值大數(shù)據(jù)具有廣泛的用途，主要體現(xiàn)在以下方面。（1）對(duì)大數(shù)據(jù)的處理分析正成為新一代信息技術(shù)融合應(yīng)用的結(jié)點(diǎn)。（2）大數(shù)據(jù)是信息產(chǎn)業(yè)持續(xù)高速增長的新引

3、擎。（3）用好大數(shù)據(jù)將成為提高企業(yè)核心競爭力的關(guān)鍵因素。二、數(shù)據(jù)的獲取途徑1產(chǎn)品自有數(shù)據(jù)2調(diào)查問卷問卷的設(shè)計(jì)建議包含以下幾個(gè)步驟。（1）把握目的和內(nèi)容，規(guī)定好問卷所需的信息。（2）搜集資料。（3）確定調(diào)查方法。（4）確定內(nèi)容，即每個(gè)問答題應(yīng)包括什么，以及由此組成的問卷應(yīng)該問什么，內(nèi)容是否全面、能否切中要害。（5）決定結(jié)構(gòu)，確定問卷類型，是提問封閉性問題還是開放性問題。（6）確定措辭、順序與格式。（7）制成問卷。3互聯(lián)網(wǎng)數(shù)據(jù)導(dǎo)入（1）Excel 數(shù)據(jù)存儲(chǔ)（2）數(shù)據(jù)庫數(shù)據(jù)存儲(chǔ)（3）微圖數(shù)據(jù)存儲(chǔ)及分析第二節(jié) 認(rèn)識(shí)商務(wù)數(shù)據(jù)一、商務(wù)數(shù)據(jù)的基本概念隨著消費(fèi)者和企業(yè)商務(wù)行為的產(chǎn)生，各電商平臺(tái)、第三方服務(wù)平臺(tái)

4、、社交媒體、智能終端和企業(yè)內(nèi)部系統(tǒng)上分布了大量的數(shù)據(jù)。這些數(shù)據(jù)就是商務(wù)數(shù)據(jù)。商務(wù)數(shù)據(jù)主要分為商品數(shù)據(jù)、客戶數(shù)據(jù)、交易數(shù)據(jù)、評(píng)價(jià)數(shù)據(jù)、基于電子商務(wù)專業(yè)網(wǎng)站的研究數(shù)據(jù)及基于電子商務(wù)媒體的報(bào)道、評(píng)論數(shù)據(jù)等。二、商務(wù)數(shù)據(jù)的應(yīng)用領(lǐng)域1制造業(yè)利用商務(wù)數(shù)據(jù)幫助制造業(yè)企業(yè)提升制造業(yè)水平，包括產(chǎn)品故障的診斷與預(yù)測(cè)、工藝流程的分析與改進(jìn)、工業(yè)供應(yīng)鏈的分析與優(yōu)化、生產(chǎn)計(jì)劃和排期的制定。2金融業(yè)商務(wù)數(shù)據(jù)在高頻交易、社交情緒分析和信貸風(fēng)險(xiǎn)分析三大金融創(chuàng)新領(lǐng)域發(fā)揮重大作用。3出行生活借助商務(wù)數(shù)據(jù)分析用戶行為，在出行生活領(lǐng)域進(jìn)行商品推薦和有針對(duì)性的廣告投放，對(duì)于本地生活服務(wù)類企業(yè)的選品、體驗(yàn)管理、店鋪選址都有著重大的幫助。

5、4餐飲行業(yè)餐飲行業(yè)借助商務(wù)數(shù)據(jù)可以做出行業(yè)分析，新品改善及當(dāng)前潮流分析，指導(dǎo)自身產(chǎn)品改善或菜品創(chuàng)新。5能源行業(yè)能源行業(yè)可通過商務(wù)數(shù)據(jù)進(jìn)行電負(fù)荷預(yù)測(cè)、輿情監(jiān)控，改善電網(wǎng)運(yùn)行，合理設(shè)計(jì)電力需求響應(yīng)系統(tǒng)。6個(gè)人娛樂商務(wù)數(shù)據(jù)可用于建立個(gè)人用戶畫像，分析個(gè)人生活方式，為其提供更加個(gè)性化的服務(wù)。三、商務(wù)數(shù)據(jù)的作用1監(jiān)測(cè)行業(yè)競爭2提升客戶關(guān)系 3指導(dǎo)精細(xì)化運(yùn)第三節(jié) 商務(wù)數(shù)據(jù)來源與采集一、商務(wù)數(shù)據(jù)的主要來源1電子商務(wù)平臺(tái)（1）B2B平臺(tái)（2）B2C平臺(tái)（3）C2C平臺(tái)2社交電商平臺(tái)（1）社交內(nèi)容電商（2）社交分享電商（3）社交零售電商3O2O 數(shù)據(jù)（1）O2O 電商平臺(tái)數(shù)據(jù)（2）展銷平臺(tái)二、商務(wù)數(shù)據(jù)采集基礎(chǔ)網(wǎng)

6、絡(luò)數(shù)據(jù)在采集頻率較低且數(shù)據(jù)量較少時(shí)，最初通常使用復(fù)制粘貼的方式進(jìn)行人工采集，隨著數(shù)據(jù)量的加大以及采集頻率要求的提高，復(fù)制粘貼已不能滿足需要，于是抓取網(wǎng)絡(luò)數(shù)據(jù)的爬蟲工具應(yīng)運(yùn)而生。爬蟲工具是一種按照一定的規(guī)則自動(dòng)抓取萬維網(wǎng)信息的程序或腳本，爬蟲需要一定的計(jì)算機(jī)知識(shí)，因此最初流行于專業(yè)人士之間。隨著網(wǎng)絡(luò)數(shù)據(jù)的豐富程度高速增長，個(gè)人與企業(yè)對(duì)數(shù)據(jù)的需求也日益增加，如何利用數(shù)據(jù)進(jìn)行決策支持也成為普遍性的需求。利用數(shù)據(jù)進(jìn)行預(yù)測(cè)與優(yōu)化分析，可以有效地增加效益與防范風(fēng)險(xiǎn)，數(shù)據(jù)采集能力也成為很多崗位的必備技能，此時(shí)網(wǎng)絡(luò)爬蟲是需要用戶進(jìn)行大量學(xué)習(xí)才能掌握的高成本學(xué)習(xí)技能。數(shù)據(jù)采集器就是進(jìn)行數(shù)據(jù)采集的機(jī)器或者工具，用

7、于實(shí)現(xiàn)自動(dòng)化從大批量網(wǎng)頁上采集數(shù)據(jù)，抓取網(wǎng)站信息，包括圖片、文字等信息的采集、處理及發(fā)布。隨著數(shù)據(jù)采集頻率要求越來越高，數(shù)據(jù)采集數(shù)量日益增大，單一計(jì)算機(jī)的采集已不能很好地滿足用戶的需求。云計(jì)算技術(shù)的出現(xiàn)正好解決了這個(gè)問題。云計(jì)算將計(jì)算和數(shù)據(jù)分布在大量的分布式計(jì)算機(jī)上，云中的計(jì)算機(jī)提供強(qiáng)大的計(jì)算能力，能夠完成傳統(tǒng)單臺(tái)計(jì)算機(jī)根本無法完成的計(jì)算任務(wù)。同時(shí)，云中的計(jì)算機(jī)具有龐大的數(shù)據(jù)存儲(chǔ)空間，使采集器可以實(shí)現(xiàn)多種采集需求。三、商務(wù)數(shù)據(jù)的采集流程第4節(jié) 商務(wù)數(shù)據(jù)的采集方法一、Web 爬蟲Web 爬蟲主要分為通用網(wǎng)絡(luò)爬蟲及聚焦網(wǎng)絡(luò)爬蟲，用于HTML 網(wǎng)頁文本和圖片數(shù)據(jù)的采集，需要具備一定的編程基礎(chǔ)，可利用

8、編程進(jìn)行URL 打開、HTML 文件獲取、HTML文件解析及數(shù)據(jù)提取等操作。1通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)中搜集網(wǎng)頁，采集信息，這些網(wǎng)頁信息用于為搜索引擎建立索引從而提供支持，它決定著整個(gè)引擎系統(tǒng)的內(nèi)容是否豐富，信息是否即時(shí)，因此其性能的優(yōu)劣直接影響著搜索引擎的效果。通用網(wǎng)絡(luò)爬蟲的采集原理是：通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁，從網(wǎng)站某一個(gè)頁面（通常是首頁）開始，讀取網(wǎng)頁的內(nèi)容，找到在網(wǎng)頁中的其他鏈接地址，然后通過這些鏈接地址尋找下一個(gè)網(wǎng)頁。這樣一直循環(huán)下去，直到把這個(gè)網(wǎng)站所有的網(wǎng)頁都抓取完為止。通用網(wǎng)絡(luò)爬蟲的基本工作流程包括抓取網(wǎng)頁、數(shù)據(jù)存儲(chǔ)、預(yù)處理，以及提供檢索服務(wù)和網(wǎng)站排名。2聚焦網(wǎng)絡(luò)爬蟲

9、聚焦爬蟲指有選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲，和通用網(wǎng)絡(luò)爬蟲相比，聚焦爬蟲只需要爬行與主題相關(guān)的頁面，極大地節(jié)省了硬件和網(wǎng)絡(luò)資源，保存的頁面也由于數(shù)量少而更新快，還可以很好地滿足一些特定人群對(duì)特定領(lǐng)域信息的需求。聚焦網(wǎng)絡(luò)爬蟲和通用網(wǎng)絡(luò)爬蟲相比，增加了鏈接評(píng)價(jià)模塊及內(nèi)容評(píng)價(jià)模塊。聚焦爬蟲爬行策略實(shí)現(xiàn)的關(guān)鍵是評(píng)價(jià)頁面內(nèi)容和鏈接的重要性，不同的方法計(jì)算出的重要性不同，由此導(dǎo)致鏈接的訪問順序也不同。二、API盡管可以通過網(wǎng)絡(luò)爬蟲的一些改進(jìn)技術(shù)實(shí)現(xiàn)各類網(wǎng)絡(luò)數(shù)據(jù)的采集，但網(wǎng)絡(luò)爬蟲獲取的往往是整個(gè)頁面的數(shù)據(jù)，缺乏針對(duì)性。利用網(wǎng)站自身提供的應(yīng)用程序編程接口（API）實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)采集即調(diào)用網(wǎng)

10、站API，可以很好地解決數(shù)據(jù)針對(duì)性的問題。越來越多的社會(huì)化媒體網(wǎng)站推出了開放平臺(tái)，提供了豐富的API，如推特、新浪微博、人人網(wǎng)、博客等。這些平臺(tái)中包含了許多關(guān)于“電子商務(wù)”的話題和評(píng)論、圖片等，它們?cè)试S用戶申請(qǐng)平臺(tái)數(shù)據(jù)的采集權(quán)限，并提供相應(yīng)的API 接口采集數(shù)據(jù)。API 調(diào)取主要有開放認(rèn)證協(xié)議和開源API 調(diào)用兩類。1開放認(rèn)證協(xié)議開放認(rèn)證（OAuth）協(xié)議不需要提供用戶名和密碼來獲取用戶數(shù)據(jù)，它給第三方應(yīng)用提供一個(gè)令牌，每一個(gè)令牌授權(quán)對(duì)應(yīng)的特定網(wǎng)站（如社交網(wǎng)站），并且應(yīng)用只能在令牌規(guī)定的時(shí)間范圍內(nèi)訪問特定的資源。2開源API 調(diào)用開源 API 是網(wǎng)站自身提供的接口，可以自由地通過該接口調(diào)用該網(wǎng)

11、站指定數(shù)據(jù)。歸納與提高通過本章的學(xué)習(xí)，我們對(duì)商務(wù)數(shù)據(jù)有了一個(gè)大概的了解，知道了商務(wù)數(shù)據(jù)的定義及類型，也了解了商務(wù)數(shù)據(jù)的主要來源及用途，基本掌握商務(wù)數(shù)據(jù)采集和處理的基本方法。數(shù)據(jù)被譽(yù)為“未來的石油”，商務(wù)數(shù)據(jù)則具備更廣闊的應(yīng)用場(chǎng)景。通過對(duì)數(shù)據(jù)進(jìn)行分析，企業(yè)不僅可以發(fā)現(xiàn)企業(yè)內(nèi)部、客戶體驗(yàn)及營銷手段的問題，還可以了解客戶的內(nèi)在需求。在電子商務(wù)行業(yè)中，掌握商務(wù)數(shù)據(jù)分析與應(yīng)用的方法是電子商務(wù)從業(yè)人員的必備技能。第2章新商務(wù)數(shù)據(jù)采集工具及應(yīng)用教學(xué)內(nèi)容一、商務(wù)數(shù)據(jù)采集工具介紹二、爬蟲軟件在商務(wù)數(shù)據(jù)分析中的應(yīng)用三、Python 爬蟲在商務(wù)數(shù)據(jù)采集中的應(yīng)用教學(xué)要求【知識(shí)目標(biāo)】1熟知數(shù)據(jù)采集方法。2了解常用的數(shù)

12、據(jù)采集工具。3了解Python 爬蟲的優(yōu)劣勢(shì)。教學(xué)重點(diǎn)1熟知數(shù)據(jù)采集方法。2了解常用的數(shù)據(jù)采集工具。教學(xué)難點(diǎn)1了解常用的數(shù)據(jù)采集工具。2了解Python 爬蟲的優(yōu)劣勢(shì)。教學(xué)方法講授法、案例法課時(shí)數(shù)3課時(shí)教學(xué)內(nèi)容第一節(jié) 商務(wù)數(shù)據(jù)采集工具介紹商務(wù)數(shù)據(jù)采集工具主要分為編程類及可視化采集工具兩類。編程類工具需要利用各類編程語言對(duì)網(wǎng)頁內(nèi)容實(shí)現(xiàn)抓取，當(dāng)前主流的編程類采集工具主要有Python、Java 和PHP 等；編程類采集工具具有通用性和可協(xié)作性，爬蟲語言可以直接作為軟件開發(fā)代碼當(dāng)中的一部分協(xié)作使用。但是編程類采集工具的編碼工作比較煩瑣，針對(duì)不同類型的數(shù)據(jù)采集工作，需要定制化開發(fā)不同的程序代碼，適于有

13、較長時(shí)間系統(tǒng)性學(xué)習(xí)的使用者使用。可視化采集工具有八爪魚數(shù)據(jù)采集器等。可視化采集工具具有學(xué)習(xí)簡單、容易上手的特點(diǎn)，這種軟件已經(jīng)集成了很多常用的功能，也能支持復(fù)雜的網(wǎng)頁結(jié)構(gòu)類型，可以滿足大部分用戶的數(shù)據(jù)采集需求，且具有可視化的操作界面，是新手入門的較好選擇。目前，大數(shù)據(jù)技術(shù)被應(yīng)用于各行各業(yè)，很多人通過數(shù)據(jù)采集工具來收集網(wǎng)頁信息，下面列舉一些典型的應(yīng)用場(chǎng)景。1收集電商網(wǎng)站的商品數(shù)據(jù)用戶利用采集工具可以對(duì)電商網(wǎng)站的商品數(shù)據(jù)（如品牌、價(jià)格、銷量、規(guī)格、型號(hào)等）進(jìn)行收集，然后分析該網(wǎng)站的暢銷品牌、暢銷品類、價(jià)格走勢(shì)等，涵蓋的信息量非常大。2爬取微博、BBS 允許的數(shù)據(jù)用戶利用采集工具可以針對(duì)某個(gè)主題從微博

14、、論壇上爬取相關(guān)信息，挖掘出關(guān)于該主題的一些有趣的信息。3爬取新聞?dòng)脩衾貌杉ぞ呖梢耘廊「鞔箝T戶網(wǎng)站的新聞、各類電子報(bào)刊的新聞，例如，爬取百度新聞上關(guān)于某個(gè)關(guān)鍵字的信息，并于每周梳理出幾個(gè)關(guān)鍵詞，以抓住行業(yè)動(dòng)向。4爬取學(xué)術(shù)信息用戶利用采集工具可以爬取一些學(xué)術(shù)網(wǎng)站上的信息以學(xué)習(xí)研究，例如，在中國知網(wǎng)查關(guān)鍵詞“大數(shù)據(jù)”，就會(huì)出現(xiàn)很多與大數(shù)據(jù)相關(guān)的文獻(xiàn)，點(diǎn)擊進(jìn)去就能看到每個(gè)文獻(xiàn)的基本信息、文章摘要等。但若逐個(gè)點(diǎn)擊查看會(huì)很耗費(fèi)時(shí)間，這時(shí)可以寫一個(gè)爬蟲腳本，將這些數(shù)據(jù)按照規(guī)范的格式全部爬取下來，以后無論是閱讀還是做進(jìn)一步分析，都會(huì)方便很多。第二節(jié) 爬蟲軟件在商務(wù)數(shù)據(jù)分析中的應(yīng)用一、常見爬蟲軟件常見的爬

15、蟲軟件主要有Java 和Python，少部分場(chǎng)景會(huì)使用PHP 編寫爬蟲。下面分別介紹這三款爬蟲軟件。1JavaJava 是典型的面向?qū)ο蟮恼Z言，不僅吸收了C+語言的各種優(yōu)勢(shì)，還摒棄了C+中難以理解的多繼承、指針等概念。Java 具有以下特征。（1）純面向?qū)ο蟆＃?）支持分布式。（3）跨平臺(tái)，移植性強(qiáng)。（4）屬于編譯性語言。（5）支持多線程，高性能。Java 平臺(tái)不斷迎來新功能，如移動(dòng)互聯(lián)網(wǎng)時(shí)代的Android，大數(shù)據(jù)時(shí)代的Hadoop，人工智能時(shí)代的TensorFlow。Java 是使用范圍相對(duì)較廣的語言，具有以下優(yōu)點(diǎn)。（1）面向?qū)ο?。?）穩(wěn)健、安全、可移植、高性能。（3）跨平臺(tái)。（4）編譯

16、型靜態(tài)語言。Java 的缺點(diǎn)是其占用大量內(nèi)存，并且啟動(dòng)時(shí)間相對(duì)較長，編譯速度較慢。2PythonPython 是一款服務(wù)器端解釋型開源非編譯腳本語言。它能夠把用其他語言制作的各種模塊（尤其是C/C+）很輕松地聯(lián)結(jié)在一起。Python 具有以下特征。（1）解釋性語言。（2）擁有豐富的庫。（3）跨平臺(tái)。（4）可移植、可拓展。（5）支持GUI 的編程。（6）可嵌入。Python 學(xué)習(xí)簡單，被譽(yù)為最容易學(xué)習(xí)的語言，具有以下優(yōu)點(diǎn)。（1）簡單、易學(xué)。（2）免費(fèi)、開源。（3）可移植性強(qiáng)。（4）屬于解釋性的一門動(dòng)態(tài)語言。（5）面向?qū)ο?。?）擁有豐富的庫。（7）強(qiáng)制性縮進(jìn)代碼使代碼規(guī)范。Python 也有一些

17、不足，主要集中在以下幾方面。（1）運(yùn)行速度慢。（2）中文資料匱乏。（3）存在一些只有在特定情況下才會(huì)出現(xiàn)的bug。3PHPPHP 是一種通用開源腳本語言。語法吸收了C、Java 和Perl 的特點(diǎn)，利于學(xué)習(xí)，使用廣泛，主要適用于Web 開發(fā)領(lǐng)域，具有以下特征。（1）獨(dú)特的語法，混合了C、Java、Perl 以及PHP 自創(chuàng)的新的語法。（2）與其他編程語言相比，更快速地執(zhí)行動(dòng)態(tài)網(wǎng)頁。（3）PHP 支持幾乎所有流行的數(shù)據(jù)庫以及操作系統(tǒng)。（4）可以用C、C+進(jìn)行程序擴(kuò)展。PHP 學(xué)習(xí)簡單，易于快速上手；歷久彌新的PHP 擁有龐大而活躍的官方社區(qū)，開發(fā)者面臨的大部分難題都有現(xiàn)成的解決方案，很多十幾年前

18、的解決方案在當(dāng)代也有指導(dǎo)意義。 PHP 具有以下優(yōu)點(diǎn)。（1）PHP 是一門免費(fèi)開源語言。（2）開發(fā)快，運(yùn)行快，語法簡單，方便學(xué)習(xí)。（3）跨平臺(tái)，效率高。（4）具有很多成熟框架。（5）有成熟社區(qū)支持PHP 的開發(fā)。相比于其他語言，PHP 的運(yùn)行速度較慢，錯(cuò)誤處理機(jī)制比較糟糕，具有以下缺點(diǎn)。（1）PHP 是個(gè)單進(jìn)程的程序，不支持多線程。（2）只支持做Web 開發(fā)，不方便做.exe 文件、桌面應(yīng)用程序、手機(jī)程序。（3）后期維護(hù)比較困難，提速空間局限性大。二、爬蟲軟件應(yīng)用案例下面使用Python 采集豆瓣電影數(shù)據(jù)，提取正在上映的電影名稱、評(píng)分、圖片的信息，提取的結(jié)果以文件形式保存下來。1準(zhǔn)備工作首先安

19、裝 Python 3，其次確保已經(jīng)正確安裝Requests 庫。安裝命令：pip3 install requests。2抓取分析抓取的目標(biāo)站點(diǎn)為“豆瓣電影”。頁面中顯示的有效信息包括影片名稱、評(píng)分、圖片等。這樣我們獲取該頁結(jié)果之后再用正則表達(dá)式提取出相關(guān)信息就可以得到所有正在上映的電影信息了。3抓取頁面源代碼接下來我們要抓取頁面源代碼，首先實(shí)現(xiàn)一個(gè)get_page()方法，傳入U(xiǎn)RL 參數(shù)，然后將抓取的頁面結(jié)果返回，再實(shí)現(xiàn)一個(gè)main()方法調(diào)用一下，初步代碼實(shí)現(xiàn)。4正則提取電影信息從Network 選項(xiàng)卡部分查看原始請(qǐng)求得到的源碼。利用非貪婪匹配來提取data-title 屬性的信息，正則表

20、達(dá)式寫為：<li.*?list-item.*?data-title="(.*?)".*?>使用相同的判斷方法來提取 data-score 屬性的信息，正則表達(dá)式寫為：<li.*?list-item.*?data-title="(.*?)".*?data-score="(.*?)".*?>提取img 節(jié)點(diǎn)的src 屬性，正則可以改寫如下：<li.*?list-item.*?data-title="(.*?)".*?data-score="(.*?)".*?>.*

21、?<img.*?src="(.*?)".*?/>接下來通過調(diào)用findall()方法提取出所有的內(nèi)容，實(shí)現(xiàn)parse_page()方法。這樣我們就可以成功提取出電影的圖片、標(biāo)題、評(píng)分內(nèi)容了，并把它賦值為一個(gè)個(gè)的字典，形成結(jié)構(gòu)化數(shù)據(jù)。至此，我們成功提取了此頁的電影信息。5寫入文件將提取的結(jié)果寫入文件，在這里直接寫入一個(gè)文本文件中，通過 json 庫的dumps()方法實(shí)現(xiàn)字典的序列化，并指定ensure_ascii 參數(shù)為False，這樣可以保證輸出的結(jié)果是中文形式而不是Unicode 編碼。6整合代碼到此為止，我們的爬蟲就全部完成了。7運(yùn)行結(jié)果最后我們運(yùn)行一下代

22、碼，可以看到這樣就成功把電影信息爬取下來了。第三節(jié) Python 爬蟲在商務(wù)數(shù)據(jù)采集中的應(yīng)用一、Python 爬蟲初步介紹Python 是一種非常適合開發(fā)網(wǎng)絡(luò)爬蟲的編程語言，提供了如urllib、re、json、pyquery等模塊，同時(shí)又有很多成型框架，本身又十分簡潔和方便。作為一門編程語言，Python以簡潔清晰的語法和強(qiáng)制使用空白符進(jìn)行語句縮進(jìn)的特點(diǎn)深受程序員的喜愛。與其他靜態(tài)編程語言相比，Python 抓取網(wǎng)頁文檔的接口更簡潔；與其他動(dòng)態(tài)腳本語言相比，Python 的urllib2 包提供了較為完整的訪問網(wǎng)頁文檔的API。此外，Python 中有優(yōu)秀的第三方包可以實(shí)現(xiàn)網(wǎng)頁高效抓取，并可

23、用極短的代碼完成網(wǎng)頁的標(biāo)簽過濾功能。Python 爬蟲的構(gòu)架組成：Python 的工作流程：二、Python 爬蟲適用場(chǎng)景Python 爬蟲應(yīng)用領(lǐng)域廣泛，涉及內(nèi)容、人工智能、數(shù)據(jù)監(jiān)控、金融風(fēng)控、電商比價(jià)、輿情監(jiān)控、互聯(lián)網(wǎng)軟件等領(lǐng)域，本書主要介紹內(nèi)容、人工智能、輿情監(jiān)控的部分應(yīng)用。1內(nèi)容幾乎所有的互聯(lián)網(wǎng)內(nèi)容平臺(tái)，一開始都會(huì)遇到冷啟動(dòng)問題。冷啟動(dòng)就是平臺(tái)初期，沒有內(nèi)容、沒有數(shù)據(jù)，一個(gè)沒有內(nèi)容的平臺(tái)是無法吸引用戶加入平臺(tái)產(chǎn)生內(nèi)容和數(shù)據(jù)的。所以一般互聯(lián)網(wǎng)內(nèi)容平臺(tái)的冷啟動(dòng)階段最有效的解決方法就是使用爬蟲，通過爬蟲獲取一定內(nèi)容及數(shù)據(jù)以使平臺(tái)變得有價(jià)值，再來更好地吸引用戶加入。Python 還可以用來構(gòu)建搜

24、索引擎，搜索引擎是爬蟲最早期的也是最成功的代表應(yīng)用，搜索引擎主要先通過爬蟲進(jìn)行數(shù)據(jù)的爬取，之后對(duì)爬取到的數(shù)據(jù)做數(shù)據(jù)清洗，再入庫進(jìn)行倒排索引，同時(shí)對(duì)索引不斷進(jìn)行排序和優(yōu)化，最后才能創(chuàng)建比較完好的搜索服務(wù)。2人工智能人工智能的應(yīng)用前期需要對(duì)模型進(jìn)行大量的訓(xùn)練，訓(xùn)練模型需要正確的語料內(nèi)容，這些內(nèi)容往往通過爬蟲來進(jìn)行采集。要提高自然語言處理的準(zhǔn)確性和智能型，我們需要構(gòu)建數(shù)據(jù)集，可以利用爬蟲進(jìn)行數(shù)據(jù)集的構(gòu)建。對(duì)于圖片訓(xùn)練，我們可以利用爬蟲自動(dòng)補(bǔ)齊訓(xùn)練數(shù)據(jù)。3輿情監(jiān)控不論是企業(yè)還是國家，都需要做輿情監(jiān)控等分析。爬蟲可以為輿情監(jiān)控的分析提供大量的關(guān)聯(lián)數(shù)據(jù)，分析熱點(diǎn)、新聞、輿情動(dòng)向等；還可以通過爬蟲爬取多種數(shù)

25、據(jù)源，進(jìn)行關(guān)聯(lián)匹配，發(fā)現(xiàn)大數(shù)據(jù)中蘊(yùn)含的規(guī)律。三、Python 爬蟲商務(wù)數(shù)據(jù)采集案例商務(wù)數(shù)據(jù)主要以電商數(shù)據(jù)為主，我們以某電商平臺(tái)示例，采集商品標(biāo)題及價(jià)格信息。本案例會(huì)以用戶動(dòng)態(tài)輸入爬取特定商品，最后采集信息并導(dǎo)出為Excel 形式。爬取思路介紹如下。（1）查看搜索商品的接口信息。（2）爬取出來的信息，利用正則表達(dá)進(jìn)行抽取有用信息（商品名稱，價(jià)格）。（3）對(duì)抽取出來的信息進(jìn)行拼接及優(yōu)化展示。爬取過程中，共需三個(gè)函數(shù)。第一個(gè)利用requests 調(diào)用搜索接口，獲得返回信息。第二個(gè)利用re 模塊通過正則表達(dá)規(guī)則去提取商品名稱和價(jià)格。第三個(gè)優(yōu)化展示（美觀&直觀效果）。采集操作步驟具體介紹如下。步

26、驟 1：按“F12”鍵查看接口信息，獲取接口名稱、接口調(diào)用方法（post）、請(qǐng)求頭及參數(shù)。步驟 2：對(duì)于返回的信息r.text，我們需要進(jìn)行提取關(guān)鍵信息，即商品名稱和商品價(jià)格。步驟3：把數(shù)據(jù)展示得更美觀。歸納與提高通過本章的學(xué)習(xí)，我們了解了常用的爬蟲編寫語言、爬蟲主要應(yīng)用場(chǎng)景以及各類爬蟲軟件有哪些優(yōu)勢(shì)和劣勢(shì)。在網(wǎng)絡(luò)時(shí)代，數(shù)據(jù)來自各個(gè)方面，龐大而復(fù)雜。產(chǎn)品的整個(gè)壽命周期，包括從市場(chǎng)調(diào)研到售后服務(wù)和最終處置的各個(gè)過程，都需要進(jìn)行數(shù)據(jù)分析?！肮び破涫?，必先利其器”，選擇合適的數(shù)據(jù)采集工具可以更快速地獲得精準(zhǔn)的數(shù)據(jù)。第3章數(shù)據(jù)采集方法與采集器教學(xué)內(nèi)容一、了解數(shù)據(jù)采集器二、數(shù)據(jù)采集器的安裝與界面教學(xué)

27、要求【知識(shí)目標(biāo)】1熟知數(shù)據(jù)采集方法。2了解數(shù)據(jù)采集器的優(yōu)勢(shì)。3能夠安裝注冊(cè)數(shù)據(jù)采集器。教學(xué)重點(diǎn)1了解數(shù)據(jù)采集器的優(yōu)勢(shì)。2能夠安裝注冊(cè)數(shù)據(jù)采集器。教學(xué)難點(diǎn)1了解數(shù)據(jù)采集器的優(yōu)勢(shì)。2能夠安裝注冊(cè)數(shù)據(jù)采集器。教學(xué)方法講授法、案例法課時(shí)數(shù)2課時(shí)教學(xué)內(nèi)容第一節(jié) 初識(shí)數(shù)據(jù)采集器一、數(shù)據(jù)采集器的優(yōu)勢(shì)數(shù)據(jù)采集器是進(jìn)行數(shù)據(jù)采集的機(jī)器或者工具，具備實(shí)時(shí)采集、自動(dòng)存儲(chǔ)、即時(shí)顯示、即時(shí)反饋、自動(dòng)處理、自動(dòng)傳輸?shù)裙δ埽瑸楝F(xiàn)場(chǎng)數(shù)據(jù)的真實(shí)性、有效性、實(shí)時(shí)性、可用性提供了保證。數(shù)據(jù)采集器用于實(shí)現(xiàn)自動(dòng)化從大批量網(wǎng)頁上采集數(shù)據(jù)，抓取網(wǎng)站信息，包括圖片、文字等信息的采集、處理及發(fā)布。當(dāng)下運(yùn)用比較廣泛的采集器是八爪魚采集器。八爪魚采

28、集器是深圳視界信息技術(shù)有限公司研發(fā)的一款網(wǎng)頁采集軟件，具有以下優(yōu)勢(shì)。（1）1 分鐘獲得數(shù)據(jù)。（2）千萬級(jí)別數(shù)據(jù)采集。（3）全場(chǎng)景解決方案。（4）數(shù)據(jù)處理能力強(qiáng)。二、數(shù)據(jù)采集器的架構(gòu)1技術(shù)架構(gòu)八爪魚數(shù)據(jù)采集系統(tǒng)采用 C/S 架構(gòu)，云計(jì)算服務(wù)端基于分布式云計(jì)算平臺(tái)，總體架構(gòu)包括客戶端、服務(wù)端、云采集端和系統(tǒng)監(jiān)控端。數(shù)據(jù)服務(wù)使用Mongo DB 與SQL Server進(jìn)行存儲(chǔ)。八爪魚數(shù)據(jù)采集系統(tǒng)的架構(gòu)設(shè)計(jì)：八爪魚數(shù)據(jù)采集系統(tǒng)的系統(tǒng)接口：2數(shù)據(jù)存儲(chǔ)系統(tǒng)存儲(chǔ)由 Mongo DB 與SQL Server 組成，采集結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)于Mongo DB，系統(tǒng)參數(shù)配置存儲(chǔ)于SQL Server。（1）數(shù)據(jù)采集技術(shù)

29、的原理八爪魚采集器在Windows 系統(tǒng)中運(yùn)行，其開發(fā)語言是C#?？蛻舳酥鞒绦蜇?fù)責(zé)任務(wù)配置及管理、任務(wù)的云采集控制、云集成數(shù)據(jù)的管理（導(dǎo)出、清理、發(fā)布）。內(nèi)核瀏覽器為Firefox 瀏覽器。八爪魚采集器通過模擬人的操作習(xí)慣，對(duì)網(wǎng)頁內(nèi)容進(jìn)行全自動(dòng)提取。通過XPath 定位網(wǎng)頁元素，通過正則表達(dá)式調(diào)整采集數(shù)據(jù)的格式。數(shù)據(jù)導(dǎo)出程序負(fù)責(zé)數(shù)據(jù)的導(dǎo)出，支持Excel、SQL、TXT、MySQL 等格式，一次可導(dǎo)出千萬級(jí)別數(shù)據(jù)。（2）云采集技術(shù)的原理八爪魚采集器通過一套中央控制處理機(jī)制連接了終端用戶和云采集集群服務(wù)端。中央控制器接收用戶指令，把任務(wù)分派到云端的各個(gè)節(jié)點(diǎn)進(jìn)行工作，實(shí)現(xiàn)自動(dòng)負(fù)載均衡，可動(dòng)態(tài)伸縮，

30、熱拔插。云平臺(tái)服務(wù)端采用分布式架構(gòu)及MapReduce 原理，系統(tǒng)自動(dòng)配置節(jié)點(diǎn)與任務(wù)拆分，調(diào)度服務(wù)器進(jìn)行采集，從而實(shí)現(xiàn)分布式高并發(fā)的性能要求。云采集節(jié)點(diǎn)支持靈活橫向擴(kuò)展，可根據(jù)需求隨時(shí)動(dòng)態(tài)分配添加節(jié)點(diǎn)。第二節(jié) 數(shù)據(jù)采集器的安裝與界面一、數(shù)據(jù)采集器的注冊(cè)與安裝在進(jìn)行八爪魚采集器登錄或官網(wǎng)登錄時(shí)，首先創(chuàng)建八爪魚采集器的賬號(hào)。二、數(shù)據(jù)采集器界面介紹1 主界面介紹（1）用戶名稱、用戶賬號(hào)標(biāo)識(shí)以及展開/收起側(cè)欄按鍵。（2）“新建任務(wù)”按鈕、“用戶設(shè)置”按鈕及“聯(lián)系客服”按鈕。（3）菜單欄包括任務(wù)、工具箱、市場(chǎng)、人工客服、教程和幫助及關(guān)于我們。（4）軟件版本信息。八爪魚采集器分為免費(fèi)版、專業(yè)版、旗艦版、旗

31、艦版+版、私有云版及企業(yè)版。（5）窗口欄顯示當(dāng)前打開的所有窗口，可以隨時(shí)在這里進(jìn)行切換。（6）各應(yīng)用模式入口，界面顯示為簡易采集模式及自定義采集模式，自定義采集模式下拉菜單包括智能模式與向?qū)Ｊ?。各?yīng)用模式功能在第4 章內(nèi)進(jìn)行詳細(xì)介紹。（7）軟件教程，可在此處查看八爪魚詳細(xì)教程，單擊“查看更多”鏈接會(huì)跳轉(zhuǎn)官網(wǎng)教程區(qū)域，內(nèi)含各功能視頻教程。2 任務(wù)欄介紹（1）“新建”“導(dǎo)入”及“刷新”三個(gè)按鈕。其中，單擊“新建”按鈕可以創(chuàng)建自定義采集任務(wù)、簡易采集任務(wù)及新建任務(wù)組，任務(wù)組相當(dāng)于文件夾，可以將不同任務(wù)分別放置在不同的任務(wù)組中，方便查找；單擊“導(dǎo)入”按鈕可以將八爪魚規(guī)則導(dǎo)入任務(wù)列表中進(jìn)行采集；單擊“

32、刷新”按鈕則主動(dòng)對(duì)任務(wù)列表進(jìn)行刷新。（2）排序方式選擇，可選擇為升序或降序方式。（3）任務(wù)信息界面，主要顯示內(nèi)容為任務(wù)名、采集狀態(tài)、下次采集時(shí)間、云采集優(yōu)先級(jí)、歸屬任務(wù)組等。單擊采集狀態(tài)中已采集到數(shù)據(jù)可直接跳轉(zhuǎn)數(shù)據(jù)展示界面；單擊最右側(cè)的加號(hào)按鈕可選擇更多狀態(tài)進(jìn)行展示，滿足不同用戶的需求（4）任務(wù)篩選區(qū)域，篩選后的條件會(huì)展示在排序方式區(qū)域。3 工具箱（1）正則表達(dá)式工具正則表達(dá)式工具可通過開始條件和結(jié)束條件幫助生成正則表達(dá)式，利用匹配和替換兩種功能實(shí)現(xiàn)數(shù)據(jù)的初步清洗。（2）XPath 工具XPath 工具可以通過輸入?yún)?shù)的方式自動(dòng)編寫XPath，主要幫助未接觸過XPath 及使用XPath 不熟

33、練的使用者進(jìn)行XPath 編寫。（3）定時(shí)入庫工具定時(shí)入庫工具可以設(shè)置八爪魚采集數(shù)據(jù)間隔多久進(jìn)行未導(dǎo)出數(shù)據(jù)的導(dǎo)入，支持?jǐn)?shù)據(jù)庫實(shí)時(shí)數(shù)據(jù)更新。歸納與提高通過本章的學(xué)習(xí)，我們了解了商務(wù)采集與處理的基礎(chǔ)，了解了數(shù)據(jù)采集器的優(yōu)勢(shì)、掌握了如何安裝并注冊(cè)八爪魚采集器，還掌握了采集器界面中的各功能按鈕。商務(wù)數(shù)據(jù)的類型多種多樣，既包含企業(yè)的產(chǎn)品信息與交易信息，也包括消費(fèi)者的基本信息、交易信息、評(píng)論信息、行為信息、社交信息和地理位置信息等。在大數(shù)據(jù)環(huán)境下，電商平臺(tái)中的數(shù)據(jù)是公開、共享的，但數(shù)據(jù)間的各種信息傳輸和分析需要有一個(gè)采集整理的過程，熟練的運(yùn)用采集器，可以更迅速獲取更多的商務(wù)數(shù)據(jù)，掌握商場(chǎng)的主動(dòng)權(quán)。第4章

34、數(shù)據(jù)采集器應(yīng)用教學(xué)內(nèi)容一、簡易采集模式及實(shí)例二、向?qū)Ｊ郊皩?shí)例三、自定義采集模式教學(xué)要求【知識(shí)目標(biāo)】1熟練使用簡易采集模式進(jìn)行常見網(wǎng)站數(shù)據(jù)采集。2熟練使用自定義采集模式進(jìn)行列表詳情頁數(shù)據(jù)采集。3掌握在規(guī)則中對(duì)采集內(nèi)容做初步篩選和清洗操作。教學(xué)重點(diǎn)1熟練使用簡易采集模式進(jìn)行常見網(wǎng)站數(shù)據(jù)采集。2熟練使用自定義采集模式進(jìn)行列表詳情頁數(shù)據(jù)采集。3掌握在規(guī)則中對(duì)采集內(nèi)容做初步篩選和清洗操作。教學(xué)難點(diǎn)1熟練使用簡易采集模式進(jìn)行常見網(wǎng)站數(shù)據(jù)采集。2熟練使用自定義采集模式進(jìn)行列表詳情頁數(shù)據(jù)采集。3掌握在規(guī)則中對(duì)采集內(nèi)容做初步篩選和清洗操作。教學(xué)方法講授法、案例法課時(shí)數(shù)3課時(shí)教學(xué)內(nèi)容第一節(jié) 簡易采集模式及實(shí)例簡

35、易采集模式是利用系統(tǒng)內(nèi)置模板進(jìn)行數(shù)據(jù)采集的模式。八爪魚采集器經(jīng)過數(shù)據(jù)統(tǒng)計(jì)，將最常用的200 多個(gè)網(wǎng)站進(jìn)行了任務(wù)模板化，用戶可以直接調(diào)取模板，輸入簡單的幾個(gè)參數(shù)即可進(jìn)行采集。簡易采集模式的優(yōu)點(diǎn)為格式規(guī)整、使用簡單，可根據(jù)不同的參數(shù)進(jìn)行不同程度的自定義采集，采集到的數(shù)據(jù)可以滿足用戶的使用需求；其缺點(diǎn)為由于事先制定了模板，用戶只能在參數(shù)上進(jìn)行自定義修改。用戶可以在八爪魚采集器“主頁”界面中單擊“簡易采集”模式下方的“直接使用”按鈕直接進(jìn)入，也可以在“任務(wù)”界面中通過選擇“新建”下拉列表中的“簡易采集”選項(xiàng)來創(chuàng)建。進(jìn)入“簡易采集”模式后，用戶可以搜索采集網(wǎng)站關(guān)鍵詞或通過篩選模板類型進(jìn)行模板查找。選中指

36、定模板后，將鼠標(biāo)指針置于其上，然后單擊“選擇”按鈕即可使用。針對(duì)網(wǎng)站不同位置及頁面的內(nèi)容，采集器設(shè)置了多套模板供用戶選擇，選好后將鼠標(biāo)指針置于其上，單擊“開始使用”按鈕即可進(jìn)入模板頁面。簡易采集模式模板頁界面上方顯示了模板名稱及介紹，下方分為采集字段預(yù)覽、采集參數(shù)預(yù)覽及示例數(shù)據(jù)。其中，采集字段預(yù)覽展示了模板內(nèi)的采集內(nèi)容，將鼠標(biāo)指針放置在不同字段上，右側(cè)圖片內(nèi)白色的部分即為字段采集內(nèi)容；采集參數(shù)預(yù)覽展示了模板需要輸入的參數(shù)；示例數(shù)據(jù)即為采集后數(shù)據(jù)的呈現(xiàn)形式。確認(rèn)可以滿足需求后，單擊下方的“立即使用”按鈕即可開始采集。簡易采集模式設(shè)置界面，用戶按照需求修改任務(wù)名、設(shè)置任務(wù)放置的任務(wù)組，針對(duì)該模板，

37、修改模板參數(shù)，即列表頁網(wǎng)址，網(wǎng)址可以輸入不多于10000 個(gè)頁面，用換行符（“Enter”鍵）隔開。設(shè)置好后單擊“保存并啟動(dòng)”按鈕，選擇本地采集即可進(jìn)行采集。第2節(jié) 向?qū)Ｊ郊皩?shí)例向?qū)Ｊ綗o須配置規(guī)則，用戶只需根據(jù)提示進(jìn)行操作即可。向?qū)Ｊ揭彩浅鯇W(xué)者了解八爪魚采集器的重要方式。向?qū)Ｊ降膬?yōu)點(diǎn)是采集內(nèi)容大多數(shù)均可自定義，包括翻頁及采集內(nèi)容等。下面以京東手機(jī)列表詳情頁為例進(jìn)行演示。步驟 1：進(jìn)入向?qū)Ｊ讲⑤斎氩杉W(wǎng)址。步驟2：選擇采集類型。步驟3：設(shè)置列表。步驟4：翻頁設(shè)置。步驟5：設(shè)置字段。步驟6：開始采集。步驟7：數(shù)據(jù)導(dǎo)出。第三節(jié) 自定義采集模式一、單網(wǎng)頁數(shù)據(jù)采集1創(chuàng)建自定義采集任務(wù)2輸入網(wǎng)址

38、3自定義采集模式界面介紹4提取數(shù)據(jù)5本地采集6數(shù)據(jù)導(dǎo)出二、列表詳情頁數(shù)據(jù)采集1循環(huán)2點(diǎn)擊元素3循環(huán)提取、正則表達(dá)式工具與分支判斷歸納與提高通過本章的學(xué)習(xí)，我們了解了數(shù)據(jù)采集器的幾種應(yīng)用模式及其每種應(yīng)用模式的優(yōu)勢(shì)和劣勢(shì)、循環(huán)模塊的重要性以及常用網(wǎng)站在自定義采集模式進(jìn)行采集。數(shù)據(jù)采集器和Web 爬蟲都可以對(duì)互聯(lián)網(wǎng)網(wǎng)頁進(jìn)行數(shù)據(jù)采集，不同的是數(shù)據(jù)采集器不用編程就可以輕松掌握，適用于非技術(shù)專業(yè)人員的數(shù)據(jù)采集工作。自定義采集模式適用于進(jìn)階用戶。該模式需要用戶自行配置規(guī)則，可以實(shí)現(xiàn)全網(wǎng)98%以上網(wǎng)頁數(shù)據(jù)的采集。自定義采集通過不同功能模塊之間搭積木式的組合實(shí)現(xiàn)各項(xiàng)采集功能。第5章數(shù)據(jù)采集器高級(jí)應(yīng)用教學(xué)內(nèi)容一

39、、屏蔽網(wǎng)頁廣告、切換瀏覽器版本及禁止加載圖片。二、增量采集、智能防封、登錄采集、網(wǎng)頁源碼提取。三、圖片、附件的采集與下載、循環(huán)切換下拉框。四、移動(dòng)鼠標(biāo)指針到元素上。教學(xué)要求【知識(shí)目標(biāo)】1掌握數(shù)據(jù)采集器的高級(jí)功能。2掌握增量采集和智能防封的應(yīng)對(duì)方式。3掌握增量采集的方式。教學(xué)重點(diǎn)1掌握數(shù)據(jù)采集器的高級(jí)功能。2掌握增量采集和智能防封的應(yīng)對(duì)方式。3掌握增量采集的方式。教學(xué)難點(diǎn)1掌握數(shù)據(jù)采集器的高級(jí)功能。2掌握增量采集和智能防封的應(yīng)對(duì)方式。3掌握增量采集的方式。教學(xué)方法講授法、案例法課時(shí)數(shù)5課時(shí)教學(xué)內(nèi)容第一節(jié) 屏蔽網(wǎng)頁廣告八爪魚采集器的屏蔽網(wǎng)頁廣告功能用于屏蔽一部分網(wǎng)頁內(nèi)的廣告加載（如左右兩側(cè)的彈窗廣

40、告等），以便加快網(wǎng)頁加載速度及打開網(wǎng)頁后能更清楚地看到需要采集的數(shù)據(jù)。因網(wǎng)頁情況不同，八爪魚采集器內(nèi)部算法不一定可以適應(yīng)所有狀況，頁面本身的采集數(shù)據(jù)有可能會(huì)被屏蔽。若選中“屏蔽網(wǎng)頁廣告”復(fù)選框后發(fā)現(xiàn)網(wǎng)頁顯示不一致，則取消選擇。在向?qū)Ｊ郊白远x采集模式中單擊“設(shè)置”按鈕，在彈出的界面中選中“屏蔽網(wǎng)頁廣告”復(fù)選框即可。第2節(jié) 切換瀏覽器版本少數(shù)網(wǎng)頁需要在特定瀏覽器版本中才可以打開。八爪魚采集器自帶的切換瀏覽器版本功能，主要可以切換火狐瀏覽器各版本、谷歌瀏覽器各版本及模擬手機(jī)瀏覽器進(jìn)行訪問。在向?qū)Ｊ郊白远x采集模式中單擊“設(shè)置”按鈕，在“采集設(shè)置”區(qū)域中的“瀏覽器版本”下拉列表中選擇需要的版本。

41、第3節(jié) 禁止加載圖片使用八爪魚采集器采集網(wǎng)站數(shù)據(jù)時(shí)，由于某些網(wǎng)站圖片太多導(dǎo)致網(wǎng)頁加載速度過慢，或廣告圖片太多導(dǎo)致網(wǎng)頁加載圖片過慢，此時(shí)可使用采集器的禁止加載圖片功能加快采集速度。因網(wǎng)頁情況不同，部分網(wǎng)站的設(shè)置是不加載圖片就一直保持加載狀態(tài)，若選中“不加載網(wǎng)頁圖片”復(fù)選框后網(wǎng)頁加載一直無法完成，則可以取消選擇，也可以配合“超時(shí)時(shí)間”或Ajax 設(shè)置解決。如果流程圖中包含識(shí)別驗(yàn)證碼步驟，此處需取消選中“不加載網(wǎng)頁圖片”復(fù)選框，否則八爪魚采集器將無法獲取驗(yàn)證碼圖片，自動(dòng)打碼功能將失效。在向?qū)Ｊ郊白远x采集模式中單擊“設(shè)置”按鈕，在彈出的界面中勾選“不加載網(wǎng)頁圖片”即可。第4節(jié) 增量采集增量采集是指

42、每次進(jìn)行采集都只采集網(wǎng)頁中沒有采集到的增量內(nèi)容。實(shí)現(xiàn)增量采集有3 種方式，分別為自動(dòng)去重法、對(duì)比URL 法及觸發(fā)器法。一、自動(dòng)去重法八爪魚采集器默認(rèn)將所有字段內(nèi)容都相同的數(shù)據(jù)定義為無意義數(shù)據(jù)，進(jìn)行去重處理。自動(dòng)去重法可以對(duì)網(wǎng)頁內(nèi)容進(jìn)行預(yù)估，例如網(wǎng)頁在一個(gè)采集周期最多更新15 條信息，則可以設(shè)置循環(huán)次數(shù)為20 次，每次只采集20 條最新內(nèi)容，多余的5 條會(huì)進(jìn)行自動(dòng)去重，最終效果為只采集到最新的15 條增量數(shù)據(jù)。自動(dòng)去重法通過在循環(huán)中設(shè)置循環(huán)次數(shù)來實(shí)現(xiàn)增量采集。自動(dòng)去重法的優(yōu)點(diǎn)是操作簡單，缺點(diǎn)是要求沒有采集日期字段或不能因?yàn)椴杉掌谧侄问雇粭l記錄不一致。二、對(duì)比URL 法對(duì)比URL 法通過對(duì)

43、比采集網(wǎng)頁的URL 進(jìn)行識(shí)別，對(duì)比過程中發(fā)現(xiàn)某URL 已經(jīng)采集過，則不進(jìn)行二次采集。在向?qū)Ｊ郊白远x采集模式中單擊“設(shè)置”按鈕，選中“啟用增量采集”復(fù)選框即可對(duì)比整個(gè)URL 或URL 中的某些參數(shù)。對(duì)比URL 法的優(yōu)點(diǎn)是操作簡單，識(shí)別準(zhǔn)確，無須判斷網(wǎng)頁最大更新數(shù)，也不會(huì)產(chǎn)生重復(fù)數(shù)。缺點(diǎn)是不能識(shí)別Ajax 加載方式網(wǎng)頁，因?yàn)锳jax 加載方式不改變網(wǎng)頁鏈接；相同部分網(wǎng)頁的同樣內(nèi)容，若網(wǎng)址不同也不能使用該方法。三、觸發(fā)器法觸發(fā)器法通過判斷每一條數(shù)據(jù)的更新日期來判斷是否為增量數(shù)據(jù)，可以通過觸發(fā)器相關(guān)設(shè)置進(jìn)行操作，如果網(wǎng)頁列表順序按時(shí)間排序，則可以設(shè)置為發(fā)現(xiàn)早于多久之前的數(shù)據(jù)則停止本次采集；如果網(wǎng)

44、頁列表順序不按時(shí)間排序，則可以設(shè)置為發(fā)現(xiàn)早于多久之前的數(shù)據(jù)則丟棄本條數(shù)據(jù)。增量采集觸發(fā)器設(shè)置為時(shí)間字段早于某一時(shí)間，示例中設(shè)置為早于當(dāng)前時(shí)間減去5 小時(shí)，則丟棄本條數(shù)據(jù)，產(chǎn)生的效果是每次采集只會(huì)采集最近5個(gè)小時(shí)內(nèi)的增量數(shù)據(jù)。第5節(jié) 智能防封一、切換代理IP 法切換代理IP 法適用于利用IP 地址檢測(cè)采集行為的網(wǎng)站，是通過“隔一段時(shí)間切換”和“網(wǎng)站被封重試時(shí)切換代理IP”的方式避免網(wǎng)站防采集。二、切換瀏覽器版本法切換瀏覽器版本法常用于多種檢測(cè)方式的網(wǎng)站，會(huì)檢測(cè)用戶的使用習(xí)慣、瀏覽器版本、操作方式等，我們可以通過切換瀏覽器版本來避免防采集。操作方法為：在向?qū)Ｊ郊白远x采集模式中單擊“設(shè)置”按鈕，

45、在彈出的界面中的“智能防封”區(qū)域中選中“定時(shí)切換瀏覽器版本”復(fù)選框。三、定時(shí)清除Cookie 法Cookie 是指某些網(wǎng)站為了辨別用戶身份、進(jìn)行session 跟蹤而儲(chǔ)存在用戶本地終端上的數(shù)據(jù)。針對(duì)某些使用Cookie 的網(wǎng)站，重復(fù)地通過網(wǎng)址打開行為可能會(huì)導(dǎo)致防采集，這種情況我們只需要定時(shí)清除Cookie 就可以避開防采集。操作方法為：在向?qū)Ｊ郊白远x采集模式中單擊“設(shè)置”按鈕，在“智能防封”區(qū)域中選中“定時(shí)清除Cookie”復(fù)選框。四、隨機(jī)等待法部分網(wǎng)站通過用戶操作行為進(jìn)行防采集檢測(cè)。智能防封的隨機(jī)等待操作將流程圖中各步驟的“執(zhí)行前等待”設(shè)置為“隨機(jī)等待1-30 秒”，每次點(diǎn)擊都進(jìn)行隨機(jī)等

46、待，避免檢測(cè)用戶行為。五、降低頻率法部分網(wǎng)站檢測(cè)一段時(shí)間內(nèi)的訪問次數(shù)，如每分鐘不能超過20 次，否則就被認(rèn)定為爬蟲并防止采集，針對(duì)此種網(wǎng)站我們可以通過降低訪問頻率來避免防采集。操作方法類似隨機(jī)等待法，通過設(shè)置“執(zhí)行前等待”選項(xiàng)來延長每個(gè)步驟的操作時(shí)長，降低訪問頻率，從而避免防采集。第六節(jié) 登錄采集一、賬號(hào)密碼登錄單擊瀏覽界面中的用戶名文本輸入框，在“操作提示”面板中選擇“輸入文字”選項(xiàng)即可在流程圖中生成“輸入文字”模塊。“輸入文字”模塊的高級(jí)選項(xiàng)包括操作名、執(zhí)行前等待和使用循環(huán)等選項(xiàng)。輸入框的作用是輸入指定文字，在“要輸入的文本”輸入框中輸入需要的文本，單擊“確定”按鈕保存即可在下方的瀏覽界

47、面中自動(dòng)進(jìn)行輸入。針對(duì)賬號(hào)密碼輸入的網(wǎng)站，我們可以通過“輸入文字”模塊輸入賬號(hào)密碼并通過單擊“登錄”按鈕或者進(jìn)行驗(yàn)證碼識(shí)別進(jìn)行登錄。二、Cookie 登錄Cookie 登錄利用瀏覽器中的緩存設(shè)置，緩存了當(dāng)前的一個(gè)網(wǎng)頁狀態(tài)，可以快速進(jìn)入當(dāng)前狀態(tài)的頁面。每個(gè)網(wǎng)站的Cookie 機(jī)制不一樣，有些網(wǎng)站的Cookie 一年后都有效，有些網(wǎng)站可能新開一個(gè)網(wǎng)頁、換臺(tái)計(jì)算機(jī)，或者幾分鐘后就失效了。這種網(wǎng)站其實(shí)是不適合使用Cookie 登錄方式登錄的，建議使用賬號(hào)密碼登錄的方式登錄，所以我們需要根據(jù)自己要采集的網(wǎng)站情況進(jìn)行處理。Cookie 登錄的方式不需要輸入賬號(hào)和密碼，直接打開網(wǎng)頁就是登錄狀態(tài)。第7節(jié) 網(wǎng)頁

48、源碼提取網(wǎng)頁源碼提取操作單擊需要提取源碼的元素后，在“操作提示”面板中選擇采集該元素的InnerHtml 或OuterHtml 即可。InnerHtml 提取的是當(dāng)前元素的內(nèi)部網(wǎng)頁源代碼，不包含我們單擊的元素源碼，而OuterHtml 提取的源碼包含當(dāng)前元素的網(wǎng)頁源代碼。除了在網(wǎng)頁界面中通過“操作提示”面板進(jìn)行提取外，我們還可以通過修改字段提取內(nèi)容來提取源碼。選擇流程圖中的“提取數(shù)據(jù)”模塊，選中需要修改的字段，單擊下方的“自定義數(shù)據(jù)字段”按鈕，選擇“自定義抓取方式”選項(xiàng)，修改抓取方式為InnerHtml 或OuterHtml。第8節(jié) 圖片、附件的采集與下載部分網(wǎng)頁包含了圖片和附件。對(duì)于圖片和附

49、件，采集器可以將它們的鏈接采集下來，然后利用下載工具進(jìn)行批量下載至指定位置存儲(chǔ)。附件和圖片鏈接的提取操作單擊需要提取鏈接的附件或圖片，在“操作提示”面板中單擊“采集該鏈接地址”或“采集該圖片地址”選項(xiàng)即可。第9節(jié) 循環(huán)切換下拉框下拉框是網(wǎng)頁中的一種篩選功能，用戶可通過下拉框內(nèi)的不同條件對(duì)網(wǎng)頁內(nèi)容進(jìn)行篩選，方便查看。八爪魚采集器可以做到自動(dòng)循環(huán)切換下拉框內(nèi)的所有內(nèi)容，以采集網(wǎng)頁所有信息。自定義采集模式下的循環(huán)切換下拉框操作單擊選擇下拉框后，在“操作提示”面板中單擊“循環(huán)切換下拉列表選項(xiàng)”選項(xiàng)，在流程圖中即可生成“循環(huán)-切換下拉選項(xiàng)”模塊。第10節(jié) 移動(dòng)鼠標(biāo)指針到元素上部分網(wǎng)頁需要將鼠標(biāo)指針放置在

50、某位置才會(huì)顯示部分網(wǎng)頁內(nèi)容，這時(shí)就需要用到“移動(dòng)鼠標(biāo)到元素上”模塊，該模塊的作用是將鼠標(biāo)指針放置在元素上，讓更多內(nèi)容加載出來方便采集。操作方法為單擊需要放置鼠標(biāo)指針的元素，在“操作提示”面板中單擊“鼠標(biāo)移動(dòng)到該元素上”或“鼠標(biāo)移動(dòng)到該鏈接上”選項(xiàng)即可方便采集。操作方法為單擊需要放置鼠標(biāo)指針的元素，在“操作提示”面板中單擊“鼠標(biāo)移動(dòng)到該元素上”或“鼠標(biāo)移動(dòng)到該鏈接上”選項(xiàng)即可。歸納與提高通過本章的學(xué)習(xí)，我們掌握了數(shù)據(jù)采集器的高級(jí)功能、增量采集和智能防封的應(yīng)對(duì)方式以及增量采集的方式。在數(shù)據(jù)采集器的使用過程中，面對(duì)不同的網(wǎng)站，時(shí)常需要一些特殊的功能幫助我們更準(zhǔn)確地采集，如智能防封應(yīng)對(duì)、新增數(shù)據(jù)增量采

51、集、如何進(jìn)行登錄等，本章學(xué)習(xí)數(shù)據(jù)采集器的高級(jí)應(yīng)用，能夠幫助我們更有效的使用數(shù)據(jù)采集器。第6章數(shù)據(jù)采集器定位方式及云采集教學(xué)內(nèi)容一、XPath 數(shù)據(jù)定位二、云采集教學(xué)要求【知識(shí)目標(biāo)】1掌握XPath 書寫方法。2了解云采集功能并學(xué)會(huì)使用。教學(xué)重點(diǎn)1掌握XPath 書寫方法。2了解云采集功能并學(xué)會(huì)使用。教學(xué)難點(diǎn)1掌握XPath 書寫方法。2了解云采集功能并學(xué)會(huì)使用。教學(xué)方法講授法、案例法課時(shí)數(shù)2課時(shí)教學(xué)內(nèi)容第一節(jié) XPath 數(shù)據(jù)定位一、XPath 語言入門XPath 語言（XML Path Language，也稱XML 路徑語言）是網(wǎng)頁內(nèi)容定位語言，它可以幫助采集工具查找網(wǎng)頁內(nèi)容在網(wǎng)頁中的位置

52、。XPath 語言解決的是定位的問題。XPath 語言也由名稱、位置、屬性、內(nèi)容構(gòu)成。網(wǎng)頁文檔使用的是超文本標(biāo)記語言（HyperText Markup Language，HTML）。HTML被設(shè)計(jì)用來顯示網(wǎng)頁數(shù)據(jù)，XPath 就是用來在HTML 中定位元素的。1節(jié)點(diǎn)節(jié)點(diǎn)是構(gòu)成網(wǎng)頁的基本元素。節(jié)點(diǎn)有7 種類型，分別是元素、屬性、文本、命名空間、處理指令、注釋以及文檔（根）節(jié)點(diǎn)。2節(jié)點(diǎn)關(guān)系節(jié)點(diǎn)關(guān)系是指節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系，通過包含與被包含關(guān)系區(qū)分。3Xpath 路徑表達(dá)式路徑表達(dá)式是對(duì)于節(jié)點(diǎn)的描述性語句，用來選取指定節(jié)點(diǎn)。下面介紹XPath 路徑表達(dá)式的各項(xiàng)操作。（1）選取節(jié)點(diǎn)：使用“/”或“/”

53、來選取元素，使用“”來選取屬性、“/.”選取父元素、“/.”選取元素自身、“/*”選取任何元素。（2）謂語：用來查找某個(gè)特定的節(jié)點(diǎn)或者包含某個(gè)指定的值的節(jié)點(diǎn)。謂語對(duì)元素的位置、屬性及內(nèi)容做限制，只要符合限制的元素，使用中括號(hào)“ ”表示。（3）XPath 軸4XPath 函數(shù)XPath 函數(shù)可以通過簡單的調(diào)用實(shí)現(xiàn)一些特殊的功能。這里介紹幾種常用的函數(shù)使用方法。（1）文本函數(shù)：Text()，主要功能為選中指定文本內(nèi)容的元素。（2）包含函數(shù)：contains(參數(shù)1,參數(shù)2)，主要功能為選中參數(shù)1 中包含參數(shù)2 中內(nèi)容的元素。（3）最后位置函數(shù)：last()，主要功能為選中同胞元素中最后一位的元素。

54、（4）位置函數(shù)：position()，主要功能為描述元素在同胞元素中的位置。二、XPath 語言應(yīng)用1XPath 工具的使用XPath 工具是八爪魚采集器內(nèi)置的一款XPath 路徑表達(dá)式工具，在用戶編寫不熟練的情況下，XPath 工具可以幫助用戶熟練地編寫XPath 路徑表達(dá)式。2XPath 應(yīng)用場(chǎng)景（1）翻頁（2）點(diǎn)擊（3）循環(huán)（4）提?。?）判斷條件第二節(jié) 云采集一、認(rèn)識(shí)云計(jì)算云計(jì)算（Cloud Computing）是指通過網(wǎng)絡(luò)“云”將巨大的數(shù)據(jù)計(jì)算處理程序分解成無數(shù)個(gè)小程序，然后通過多部服務(wù)器組成的系統(tǒng)進(jìn)行處理和分析這些小程序得到結(jié)果并返回用戶。云計(jì)算將計(jì)算分布在大量的分布式計(jì)算機(jī)上，而

55、非本地計(jì)算機(jī)或遠(yuǎn)程服務(wù)器中。云計(jì)算好比是從古老的單臺(tái)發(fā)電機(jī)模式轉(zhuǎn)向電廠集中供電的模式，它意味著計(jì)算能力也可以作為一種商品進(jìn)行流通，就像煤氣、水電一樣，取用方便，費(fèi)用低廉。二、云采集的定義云采集是指通過使用八爪魚采集器提供的服務(wù)器集群進(jìn)行工作，該集群是采取7×24小時(shí)的工作狀態(tài)，時(shí)刻都可以進(jìn)行數(shù)據(jù)的采集抓取。在客戶端將任務(wù)設(shè)置為云采集，任務(wù)會(huì)自動(dòng)提交到云服務(wù)執(zhí)行，然后可以關(guān)閉軟件和計(jì)算機(jī)進(jìn)行脫機(jī)采集，真正地實(shí)現(xiàn)無人值守。除此之外，云采集通過云服務(wù)器集群的分布式部署方式，多節(jié)點(diǎn)同時(shí)進(jìn)行作業(yè)，可以提高采集效率，并且可以高效地避開各種網(wǎng)站的IP 封鎖策略。3、云采集基本設(shè)置1、啟動(dòng)云采集2、云采集狀態(tài)設(shè)置3、云采集優(yōu)先級(jí)設(shè)置4、云采集設(shè)置操作5、云采集資源設(shè)置四、定時(shí)云采集設(shè)置云采集不用本地計(jì)算機(jī)進(jìn)行數(shù)據(jù)采集，我們可以設(shè)置云服務(wù)器定時(shí)啟動(dòng)任務(wù)，進(jìn)行全自動(dòng)的數(shù)據(jù)采集。定時(shí)云采集設(shè)置界面可以設(shè)置的時(shí)間方式有只采集一次、每周采集、每月采集及間隔時(shí)間采集。每周采集與每月采集都支持多選，全選后每天都會(huì)進(jìn)行采集，每次間隔3 小時(shí)。間隔時(shí)間采集支持1 分鐘、5 分鐘、10 分鐘、30 分鐘，設(shè)置后間隔一段時(shí)間就會(huì)自動(dòng)

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《商務(wù)數(shù)據(jù)采集與處理》(微課版)教案

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔