《商務(wù)數(shù)據(jù)分析》 課件 項目二 數(shù)據(jù)采集_第1頁
《商務(wù)數(shù)據(jù)分析》 課件 項目二 數(shù)據(jù)采集_第2頁
《商務(wù)數(shù)據(jù)分析》 課件 項目二 數(shù)據(jù)采集_第3頁
《商務(wù)數(shù)據(jù)分析》 課件 項目二 數(shù)據(jù)采集_第4頁
《商務(wù)數(shù)據(jù)分析》 課件 項目二 數(shù)據(jù)采集_第5頁
已閱讀5頁,還剩141頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

BusinessDataAnalysis商務(wù)數(shù)據(jù)分析調(diào)查問卷認知為了達到調(diào)查和收集必要數(shù)據(jù)的目的,由一系列問題、備選答案及說明等組成的向被調(diào)查者收集資料的工具。什么是調(diào)查問卷?針對調(diào)查事項,采用調(diào)查問卷方式進行數(shù)據(jù)和信息的搜集、整理,并采用統(tǒng)計的分析方法,幫助解決調(diào)研主體解決一些決策或其他相關(guān)問題。什么是問卷調(diào)查分析?電子商務(wù)行業(yè)企業(yè),為了解決一些市場決策問題,自行或委托第三方調(diào)查機構(gòu)或公司開展相關(guān)的調(diào)查,以獲得恰當?shù)男畔⒂糜谳o助決策。通常為電子商務(wù)類及相關(guān)企業(yè)的消費者,是企業(yè)面向客戶進行的問卷調(diào)查。(1)調(diào)查主體問卷調(diào)查分析認知(2)調(diào)查客體(3)調(diào)查方式采用問卷形式搜集和整理信息和數(shù)據(jù),并采用統(tǒng)計的分析方法進行分析??刹捎脠F體進行的方法,也可通過社交軟件、郵寄的方法發(fā)出問卷,或者刊登在報刊雜志上,回收的數(shù)據(jù)非常方便計算機進行處理,節(jié)省了分析的費用和時間。(1)具有較高的效率問卷調(diào)查的特點-優(yōu)點(2)具有客觀性(3)具有統(tǒng)一性所有被調(diào)查者都是用同一問卷進行提問,有益于在同一情況下進行比較分析。(4)具有廣泛性不受人數(shù)、范圍限制,回答范圍一般是由調(diào)查對象做選擇,方便對調(diào)查內(nèi)容理解。一般不需要在問卷上署名,被調(diào)查者可以暢所欲言的表達內(nèi)心真實想法和情況。問卷調(diào)查都是預(yù)先設(shè)計好了回答范圍,可能會遺漏一些更多細致、深層的信息(1)缺乏彈性問卷調(diào)查的特點-缺點(2)容易誤解(3)回收率和有效率較低通過郵寄出去的問卷,回收率往往不高,對調(diào)查樣本造成很大的影響調(diào)查者一般不會當場進行檢查答案的正確或者遺漏,容易出現(xiàn)漏答、錯答等問題問卷調(diào)查應(yīng)用場景(1)開發(fā)新產(chǎn)品的時候需要確定新產(chǎn)品的目標客戶群,新產(chǎn)品的細節(jié)和新產(chǎn)品的營銷方式。(2)把原有的產(chǎn)品推向新市場的時候需要了解新市場對原有產(chǎn)品的接受狀況,是否需要做必要的調(diào)整(3)原有的產(chǎn)品或已開發(fā)的新產(chǎn)品市場表現(xiàn)不及預(yù)期的時候需要了解產(chǎn)品不及預(yù)期的原因,并找出調(diào)整的方案(4)原有的產(chǎn)品或已開發(fā)的新產(chǎn)品市場表現(xiàn)出現(xiàn)下滑的時候需要了解產(chǎn)品市場表現(xiàn)下滑的原因,并找出調(diào)整的方案【任務(wù)實施】商務(wù)數(shù)據(jù)分析初識1明確調(diào)查問卷調(diào)研需求2明確調(diào)查問卷客戶群體3確定產(chǎn)品市場營銷策略企業(yè)堅果面向哪些客戶銷售?WHO(誰):目的客戶需要什么的堅果?WHAT(什么):目的客戶需要堅果的理由。WHY(為什么):明確調(diào)查問卷調(diào)研需求5W2H分析法WHEN(什么時候):客戶需要堅果的大概在什么時間?WHERE(哪里):企業(yè)需要在什么地方將堅果賣給客戶?HOW(怎樣):企業(yè)怎樣將堅果賣給客戶?HOWMUCH(多少錢):企業(yè)準備給堅果定價多少賣給客戶?大部分消費者群體喜愛堅果的類別已確定,消費者在口味的偏好上可能就會出現(xiàn)不同的派別。明確調(diào)查問卷客戶群體口味偏好相同的人就構(gòu)成了一個群體,通過從不同的客戶群中篩選其中的一群或多群,作為某種產(chǎn)品或服務(wù)的購買和使用對象。在制定某個產(chǎn)品營銷方案時,要決定方案中到底放什么宣傳內(nèi)容能更吸引客戶。如果該目標客戶群在選擇開心果時最看中的是價格,那么在制定策劃方案時應(yīng)重點突出開心果的優(yōu)惠方案;如果目標客戶群在選擇開心果時最看中的是口味,那么在打廣告時應(yīng)重點突出該開心果的口味多元化任務(wù)總結(jié)(1)問卷調(diào)查分析是針對調(diào)查事項,采用調(diào)查問卷方式進行數(shù)據(jù)和信息的搜集、整理,并采用統(tǒng)計的分析方法,幫助解決調(diào)研主體解決一些決策或其他相關(guān)問題。(2)問卷調(diào)查的主體主要為電子商務(wù)行業(yè)企業(yè),問卷調(diào)查的對象(客體)通常為電子商務(wù)類及相關(guān)企業(yè)的消費者。(3)問卷調(diào)查高效、客觀、廣泛,但也缺乏彈性、回收效率低。BusinessDataAnalysis商務(wù)數(shù)據(jù)分析問卷調(diào)查方式問卷調(diào)查按照訪問形式的不同,通常可以分為如下4種:(1)電話訪問調(diào)查(2)當面訪問調(diào)查(3)網(wǎng)絡(luò)訪問調(diào)查(4)郵寄問卷調(diào)查問卷調(diào)查方式分類獲得被調(diào)查者的聯(lián)系電話,調(diào)查者通過電話對被調(diào)查者進行訪問調(diào)查。問卷調(diào)查方式分類—電話訪問調(diào)查缺點:同樣明顯,被調(diào)查者不愿意接電話或者對于長時間接電話有一定的抵觸性。優(yōu)點:能夠掌握被調(diào)查者更多信息,互動性較好,調(diào)研過程連續(xù)性較好,不容易被打擾;調(diào)查者以面對面的方式對被調(diào)查者進行直接訪問,訪問的過程中調(diào)查者記錄相關(guān)的信息,填寫問卷所需的資料。問卷調(diào)查方式分類—當面訪問調(diào)查優(yōu)點:能夠更全面的掌握被調(diào)查者信息,互動性最好,同時還能通過交流過程中根據(jù)被調(diào)查者的肢體語言獲得更多信息;缺點:調(diào)研過程連續(xù)性難以保障,容易被打擾,如出現(xiàn)被調(diào)查者調(diào)研到一半有事需要離開等情況。獲得被調(diào)查者的網(wǎng)絡(luò)聯(lián)系方法,調(diào)查者以網(wǎng)絡(luò)交流方式對被調(diào)查者進行訪問,并記錄相關(guān)的信息,填寫問卷所需的資料。問卷調(diào)查方式分類—網(wǎng)絡(luò)訪問調(diào)查優(yōu)點:能夠掌握被調(diào)查者較多信息,互動性較好,尤其隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,問卷發(fā)放及采集回收非常方便,比較方便獲得被調(diào)研者聯(lián)系方式;缺點:則是缺少溝通,無法針對問卷進行解釋。將要調(diào)查的問卷以郵寄的方式(包括電子郵件和傳統(tǒng)紙質(zhì)郵件)寄送給被調(diào)查者,被調(diào)查者自行根據(jù)自身的狀況填寫問卷所需的資料,然后將填寫好的問卷回寄給調(diào)查者。問卷調(diào)查方式分類—郵寄問卷調(diào)查優(yōu)點:被調(diào)研者區(qū)域優(yōu)勢明顯,涉及范圍廣,比較容易回收;缺點:問卷有效率及可執(zhí)行性較差,被調(diào)研者的普適性較弱。BusinessDataAnalysis商務(wù)數(shù)據(jù)分析01問卷結(jié)構(gòu)設(shè)計該向受訪者問什么問題才能達到調(diào)查的目的。所以問題內(nèi)容的確定是由調(diào)查目的和調(diào)查內(nèi)容所決定的。調(diào)查目的調(diào)查內(nèi)容問卷問題問卷結(jié)構(gòu)設(shè)計采用邏輯樹分析法,從調(diào)查目的出發(fā),分解成若干調(diào)查內(nèi)容,再把每個調(diào)查內(nèi)容分解成一系列具體的問題,這就形成了問卷的初稿。問卷結(jié)構(gòu)設(shè)計調(diào)查目的調(diào)查內(nèi)容1問卷問題1問卷問題2……調(diào)查內(nèi)容2問卷問題1問卷問題2……調(diào)查內(nèi)容3問卷問題1問卷問題2……例如,某家雜志社要進行一項調(diào)查,目的是要了解各類家長教育子女方面的情況。根據(jù)這一目的,列出了如下六個方面的調(diào)查內(nèi)容板塊問卷問題的設(shè)計02問卷頁面編制問卷一般由五個部分組成:標題、說明信、填表說明、正文和致謝語。問卷頁面編制標題是對問卷調(diào)查主題的基本概括和說明,它的功能是能夠讓調(diào)查對象一目了然地了解該次問卷調(diào)查的主要內(nèi)容和基本用意。不要簡單使用“問卷調(diào)查”或“問卷”這樣的標題。問卷基本結(jié)構(gòu)-標題用來說明調(diào)查的目的、需要了解的問題及調(diào)查結(jié)果的用途等。其目的在于引起受訪者對填答問卷的重視和興趣,使其對調(diào)查給予積極支持和合作。一般放在問卷的開頭,采取比較簡潔、開門見山的方式,篇幅一般以不超過300字。問卷基本結(jié)構(gòu)-說明信填表說明也稱問卷說明或填答須知,是用來指導(dǎo)受訪者填答問題的各種解釋和說明,包括注意事項、填寫方法、問題指示等。問卷基本結(jié)構(gòu)-填表說明又稱主體,是問卷的主要內(nèi)容,由一系列問題和答項構(gòu)成,以提問的形式提供給被調(diào)查者,這部分內(nèi)容設(shè)計的好壞直接影響整個調(diào)查的價值。問卷基本結(jié)構(gòu)-正文在問卷的最后,要寫一段致謝語,用于對受訪者的合作表示感謝。問卷基本結(jié)構(gòu)-致謝語問卷調(diào)查都是預(yù)先設(shè)計好了回答范圍,可能會遺漏一些更多細致、深層的信息(1)缺乏彈性調(diào)查者一般不會當場進行檢查答案的正確或者遺漏,容易出現(xiàn)漏答、錯答等問題(2)容易誤解通過郵寄出去的問卷,回收率往往不高,對調(diào)查樣本造成很大的影響(3)回收率和有效率較低問卷調(diào)查的特點-缺點BusinessDataAnalysis商務(wù)數(shù)據(jù)分析問卷調(diào)查質(zhì)量控制問卷調(diào)查質(zhì)量控制回收問卷的質(zhì)量直接影響統(tǒng)計分析的結(jié)果,是決定整個問卷調(diào)查成功與否的關(guān)鍵。單份回收的問卷質(zhì)量主要是指問卷中填寫信息的真實性、有效性和充足性。(1)建立監(jiān)督機制包括組長負責(zé)制、分組調(diào)查制,盡量減少單獨調(diào)查,這樣可以實現(xiàn)相互監(jiān)督,杜絕弄虛作假的情況發(fā)生。(2)問卷審核機制在問卷設(shè)計中設(shè)置交叉檢驗項,如果出現(xiàn)答案矛盾的地方,則需要對問卷的質(zhì)量提出質(zhì)疑。問卷調(diào)查質(zhì)量控制例如,在問卷中針對產(chǎn)品各細項的評價,可以設(shè)置一道檢驗的多選題,如“請選出您對所有產(chǎn)品細節(jié)中最滿意的三項”,如果客戶選擇最滿意三項的打分并不是各個細項評分中最高的三項,則說明該問題的答案有問題,必須進行審視和核對,或作為無效問卷放棄。(3)回訪制對被訪者進行回訪,確定被訪者的真實性。問卷調(diào)查質(zhì)量控制問卷質(zhì)量的關(guān)鍵在于調(diào)查人員的專業(yè)和誠實,盡量選擇專業(yè)誠實的調(diào)查團隊,避免使用臨時人員進行。即便是臨時人員,也需要經(jīng)過系統(tǒng)的培訓(xùn)。BusinessDataAnalysis商務(wù)數(shù)據(jù)分析問卷調(diào)查實施流程在問卷調(diào)查實施過程中,需做好以下幾個方面的工作:(1)準備充分,目的明確,有針對性地進行。(2)計劃嚴密,切實可行,有組織有秩序地進行。(3)調(diào)查團隊需經(jīng)過嚴格而系統(tǒng)地培訓(xùn)后進行。問卷調(diào)查實施流程問卷調(diào)查方案制定通常包括如下內(nèi)容:說明本次調(diào)查的最終目的,以及要調(diào)查的關(guān)鍵性問題等調(diào)查任務(wù)說明說明本次調(diào)查涉及產(chǎn)品的基本情況和特點,例如產(chǎn)品的功能、價格、與其他產(chǎn)品的差別、競爭產(chǎn)品的狀況等調(diào)查產(chǎn)品說明說明本次調(diào)查的人員分工安排及整個調(diào)查的進度安排調(diào)查分工及計劃說明本次調(diào)查的客戶對象是哪些人以及調(diào)查地點安排調(diào)查對象及地點在開展面對面訪問調(diào)查問卷時,尤其所涉及內(nèi)容的廣度和深度較高的問卷時,通常需要開展問卷調(diào)查培訓(xùn)。問卷調(diào)查培訓(xùn)通??梢苑譃槿髮哟危海?)產(chǎn)品背景培訓(xùn);(2)問卷調(diào)查基礎(chǔ)培訓(xùn);(3)調(diào)查方案培訓(xùn)。問卷調(diào)查指導(dǎo)培訓(xùn)問卷調(diào)查實施(1)對訪問對象進行前期的識別和篩選;(2)然后建立信任關(guān)系;(3)之后進行現(xiàn)場訪問,記錄訪問內(nèi)容;注:如果遇到特殊情況造成訪問不完整的情況,再進行其他方式的補充訪問。問卷調(diào)查回收與管理(1)調(diào)查人員管理,包括分組、保密性等;(2)問卷回收管理,包括回收期限、問卷歸檔等,(3)調(diào)查進度管理(4)問卷質(zhì)量控制管理BusinessDataAnalysis商務(wù)數(shù)據(jù)分析問卷問題類型【問卷問題類型】商務(wù)數(shù)據(jù)分析初識1封閉式問題2開放式問題3半開放/半封閉式問題按答案的設(shè)計來劃分,問題的類型有:問卷問題類型-封閉式問題封閉式問題是給定備選答案,要求受訪者從中做出選擇,或者給定“事實性”空格(如:您的年齡),要求如實填寫的一種問題:(1)單項選擇題(2)多項選擇題(3)填入式問題(4)順位式問題(5)態(tài)度評比測量題(6)矩陣式問題(7)比較式問題(8)過渡式問題封閉式問題——單項選擇題最常見的問卷問題類型,且答案只有1個封閉式問題——多項選擇題從多個備選答案中選擇多個,由于由于所設(shè)答案不一定能表達出填表人所有的看法,所以在問題的最后通??稍O(shè)“其他”項目,以便使被調(diào)查者表達自己的看法。封閉式問題——填入式問題填入式問題一般針對只有惟一答案(對不同人有不同答案)的問題封閉式問題——順位式問題又稱排隊式問題,是指問卷設(shè)計者列出若干個備選答案,由受訪者按重要性進行排序的一種方法。不僅能反映被調(diào)查者的意見、動機、態(tài)度、行為等方面的因素,同時也便于對調(diào)查結(jié)果加以統(tǒng)計。封閉式問題——態(tài)度評比測量題將消費者態(tài)度分為多個層次進行測量,即列出不同等級的答案,適用于要表示意見、態(tài)度、感情的等級或強烈程度的定序問題,盡可能了解和分析被調(diào)查者群體客觀存在的態(tài)度。注意:選項要設(shè)中性層次(如:“一般”這樣的字眼),且其左右兩端的層次數(shù)最好相等。封閉式問題——矩陣式問題將若干同類問題及幾組答案集中在一起排列成一個矩陣,由被調(diào)查者按照題目要求選擇答案,優(yōu)點是能節(jié)省問卷的篇幅、受訪者閱讀及填寫的時間,缺點是集中排列方式較為復(fù)雜,容易使受訪者產(chǎn)生厭煩的情緒。封閉式問題——比較式問題采用對比的方式,將具有可比性的事務(wù)進行對比并作出選擇的方法,適用于對質(zhì)量和效用等問題做出評價。注意:考慮受訪者對所要回答問題中的答案選項(如:商品品牌等)是否熟悉,否則將會導(dǎo)致沒有答案選項被選中的情況。封閉式問題——過渡式問題在調(diào)查問卷中,有些問題只適用于樣本中的一部分個體,而某個受訪者是否需要回答這一問題,常要依據(jù)他對前面某個問題的回答結(jié)果而定。封閉式問題通過對比上述八種常見的封閉式問題題型的作用,將它們進行歸類,便于選擇適當且容易結(jié)果量化的問題題型。問卷的問題類型-開放式問題是一種只提出問題,不提供任何具體答案,而由受訪者自己填答,允許回答者充分自由地按自己的方式發(fā)表意見的一種題型,能最大限度地發(fā)揮被調(diào)查者的主動性和創(chuàng)造性。一般有以下幾種題型:(1)自由回答式(2)詞語聯(lián)想式(3)角色扮演式(4)文章完成式(5)句子完成式開放式問題——自由回答式要求受訪者根據(jù)問題要求,用文字的形式自由表述。開放式問題——詞語聯(lián)想式是指給受訪者一個有許多意義的詞或詞表,讓其看到詞后馬上說出或?qū)懗鲎钕嚷?lián)想到的詞。開放式問題——角色扮演式是指不讓被調(diào)查者直接說出自己對某種產(chǎn)品的動機和態(tài)度,而讓他(她)通過觀察別人對這種產(chǎn)品的動機和態(tài)度來間接暴露自己的真實動機和態(tài)度。開放式問題——文章完成式是由調(diào)查者向被調(diào)查者提供有頭無尾或有尾無頭的文章,由其按自己的意愿來完成,使之成篇,從而借以分析他的隱秘動機的一種開放題型。開放式問題——句子完成式是指提出一些不完整的詞句,由被調(diào)查者完成該詞句。問卷的問題類型-半開放/半封閉式問題又稱混合型問題,是一種介于開放式問題和封閉式問題之間的一種問題設(shè)計方式,即在一個問題中,只給出一部分答案,被調(diào)查者可從中挑選,另一部分答案則不給出,要求被調(diào)查者根據(jù)自身實際情況自由作答。BusinessDataAnalysis商務(wù)數(shù)據(jù)分析問卷問題措辭問卷提問措辭問卷是用來收集受訪者的真實想法的,但在實際問卷調(diào)查中,有很多問卷設(shè)計得不科學(xué)、不合理,影響受訪者對問卷問題的理解和填答,使調(diào)查結(jié)果出現(xiàn)偏差。掌握一些問卷問題的措辭技巧和原則,有助于設(shè)計出一份科學(xué)有效的問卷。(1)避免一句多問(6)避免提誘導(dǎo)性問題(2)避免提斷定性的問題(7)避免存在過多計算(3)避免使用專業(yè)詞匯(8)避免提時間久遠的問題(4)避免提一般性問題(9)避免直問敏感問題(5)避免使用不確切的詞(10)避免使用含糊不清的句子問卷提問措辭—避免一句多問例如:您為何不看電影而看電視?這種問題就是一句多問問題,受訪者難以回答。正確的問法應(yīng)為:您為何不看電影?您為何要看電視?什么原因使您看電視?問卷提問措辭—避免提斷定性的問題例如:您一天抽多少支煙?這種問題就是斷定性問題,受訪者如果不抽煙,就會造成無法回答。正確的問法應(yīng)為:您抽煙嗎?您一天抽多少支煙?問卷提問措辭—避免使用專業(yè)詞匯例如:您理發(fā)的頻率如何?“頻率”這個詞是統(tǒng)計專業(yè)用語,如果受訪者無此類知識背景的,就無法理解問題的意思,從而導(dǎo)致空題的發(fā)生。正確的問法應(yīng)為:您多長時間剪一次頭發(fā)?問卷提問措辭—避免提一般性問題例如:您對百貨商場的印象如何?這樣的問題因問得不具體,太籠統(tǒng)。正確的問法應(yīng)為:您認為百貨商場的營業(yè)時間是否合適?問卷提問措辭—避免使用不確切的詞例如:您是否經(jīng)常購買洗發(fā)液?“普通”、“經(jīng)?!薄ⅰ耙恍钡?,以及部分形容詞,如“美麗”等,這些詞語,各人理解往往不同,在問卷設(shè)計中應(yīng)避免或減少使用。正確的問法應(yīng)為:您上個月共購買了幾次洗發(fā)液?問卷提問措辭—避免提誘導(dǎo)性問題例如:人們都說A牌比B牌好。您是否也這樣認為?這種提出的問題不是“執(zhí)中”的,而是暗示出調(diào)查者的觀點和見解,力求使回答者跟著這種傾向回答,這種提問就是“誘導(dǎo)性提問”。正確的問法應(yīng)為:您認為A牌和B牌哪個好?問卷提問措辭—避免存在過多計算例如:您家每人平均每年的食品支出是多少?需要計算家中每人平均每年的食品支出,計算量大,做問卷的時間有限,很容易造成受訪者為了避免過多的計算隨便回答,甚至空題。正確的問法應(yīng)為:您家每月食品支出大概是多少?您家有幾口人?問卷提問措辭—避免提時間久遠問題例如:您去年家庭生活費用支出是多少?需要回憶家中去年的生活費用支出,間隔時間太長,容易造成受訪者遺忘隨便回答,甚至空題。正確的問法應(yīng)為:您家上月生活費用支出是多少?問卷提問措辭—避免直問敏感問題例如:您有痔瘡嗎?這種比較敏感,屬于受訪者隱私的字詞不可直接詢問,容易引起受訪者的反感。還有直接詢問女士年齡也是不太禮貌的。正確的問法應(yīng)為:許多人都患有痔瘡。您有這方面的煩惱嗎?問卷提問措辭—避免使用含糊不清句子例如:你最近是出門旅游,還是休息?出門旅游也是休息的一種形式,它和休息并不存在選擇關(guān)系。正確的問法應(yīng)為:你最近是出門旅游,還是在家休息?提問問題的順序安排不同,受訪者回答的結(jié)果往往也會產(chǎn)生差異。在給問題進行排序的時候,一般要遵循以下幾條原則:問卷問題順序(1)問題排序要注意前后的邏輯性;(2)問題的排序應(yīng)先易后難;(3)一些特殊問題應(yīng)置于問卷的中后部;(4)把能引起受訪者興趣的問題放在前面;(5)一般開放性的問題放在問卷的后面。BusinessDataAnalysis商務(wù)數(shù)據(jù)分析網(wǎng)絡(luò)請求響應(yīng)流程HTTP請求響應(yīng)過程輸入怎么就出現(xiàn)了百度界面?這個過程是瀏覽器向網(wǎng)站所在的服務(wù)器發(fā)送了一個HTTP請求,獲得了服務(wù)器的響應(yīng)。HTTP請求響應(yīng)過程HTTP請求響應(yīng)過程HTTP請求響應(yīng)過程客戶端輸入URL域名解析發(fā)送HTTP請求與服務(wù)器建立連接服務(wù)器響應(yīng)HTTP請求返回頁面源代碼客戶端瀏覽器解析網(wǎng)頁源代碼對頁面進行渲染URL統(tǒng)一資源定位符(UniformResourceLocator)是一種WWW上資源位置的唯一識別方法。URL例如:URLURL的一般由4部分組成,語法格式為(帶方括號[]的為可選項,可省略):protocol://hostname[:port]/path/[;parameters][?query]#fragmentURLProtocol(協(xié)議)指定使用的傳輸協(xié)議,數(shù)據(jù)采集中最常遇到的是HTTP/HTTPS協(xié)議。Hostname(主機名)是指存放資源的服務(wù)器的域名系統(tǒng)(DNS)主機名或IP地址。Port(端口號)各種傳輸協(xié)議都有默認的端口號,如http協(xié)議的默認端口為80。如果輸入時省略,則使用默認端口號。Path(路徑)由零或多個“/”符號隔開的字符串,一般用來表示主機上的一個目錄或文件地址。Parameters(參數(shù))這是用于指定特殊參數(shù)的可選項。Query(查詢)可選,用于給動態(tài)網(wǎng)頁傳遞參數(shù),可有多個參數(shù),用“&”符號隔開,每個參數(shù)的名和值用“=”符號隔開。Fragment(信息片斷)用于指定網(wǎng)絡(luò)資源中的片斷。例如一個網(wǎng)頁中有多個名詞解釋,可使用fragment直接定位到某一名詞解釋。域名解析發(fā)給誰?服務(wù)器1服務(wù)器2服務(wù)器n……??????我們訪問網(wǎng)頁常用的方式是在瀏覽器中輸入URL例如域名解析服務(wù)器地址:IP域名解析(DNS)域名解析(DNS)是把域名URL指向網(wǎng)站空間IP,讓人們通過注冊的域名可以方便地訪問到網(wǎng)站的一種服務(wù)。請求HTTP請求報文請求行請求頭部空行請求數(shù)據(jù)請求以請求簡書中某文為例:https:///p/5dd5993f981b請求請求行分為三個部分:請求方法、請求地址URL和HTTP協(xié)議版本。例如,GET/p/5dd5993f981bHTTP/1.1序號方法描述1GET請求指定的頁面信息,并返回實體主體。2HEAD類似于GET請求,只不過返回的響應(yīng)中沒有具體的內(nèi)容,用于獲取報頭3POST向指定資源提交數(shù)據(jù)進行處理請求(例如提交表單或者上傳文件)。數(shù)據(jù)被包含在請求體中。POST請求可能會導(dǎo)致新的資源的建立和/或已有資源的修改。4PUT從客戶端向服務(wù)器傳送的數(shù)據(jù)取代指定的文檔的內(nèi)容。5DELETE請求服務(wù)器刪除指定的頁面。6CONNECTHTTP/1.1協(xié)議中預(yù)留給能夠?qū)⑦B接改為管道方式的代理服務(wù)器。7OPTIONS允許客戶端查看服務(wù)器的性能。8TRACE回顯服務(wù)器收到的請求,主要用于測試或診斷。9PATCH是對PUT方法的補充,用來對已知資源進行局部更新。請求請求行分為三個部分:請求方法、請求地址URL和HTTP協(xié)議版本。例如,GET/p/5dd5993f981bHTTP/1.1序號方法描述1GET請求指定的頁面信息,并返回實體主體。2HEAD類似于GET請求,只不過返回的響應(yīng)中沒有具體的內(nèi)容,用于獲取報頭3POST向指定資源提交數(shù)據(jù)進行處理請求(例如提交表單或者上傳文件)。數(shù)據(jù)被包含在請求體中。POST請求可能會導(dǎo)致新的資源的建立和/或已有資源的修改。4PUT從客戶端向服務(wù)器傳送的數(shù)據(jù)取代指定的文檔的內(nèi)容。5DELETE請求服務(wù)器刪除指定的頁面。6CONNECTHTTP/1.1協(xié)議中預(yù)留給能夠?qū)⑦B接改為管道方式的代理服務(wù)器。7OPTIONS允許客戶端查看服務(wù)器的性能。8TRACE回顯服務(wù)器收到的請求,主要用于測試或診斷。9PATCH是對PUT方法的補充,用來對已知資源進行局部更新。請求GET方法當客戶端要從服務(wù)器中讀取文檔時,當點擊網(wǎng)頁上的鏈接或者通過在瀏覽器的地址欄輸入網(wǎng)址來瀏覽網(wǎng)頁的,使用的都是GET方式。請求GET方法URL定位的資源響應(yīng)報文的數(shù)據(jù)部分請求GET方法URL定位的資源響應(yīng)報文的數(shù)據(jù)部分客戶端請求GET方法搜索PythonGET請求請求GET方法/Search?keyword=python要搜索的關(guān)鍵詞請求GET方法/Search?keyword=python&enc=utf-8傳輸數(shù)據(jù)分隔請求GET方法不同的瀏覽器對地址的字符限制也有所不同,一般最多只能識別1024個字符,所以如果需要傳送大量數(shù)據(jù)的時候,也不適合使用GET方式。請求POST方法將請求參數(shù)封裝在HTTP請求數(shù)據(jù)中,以名稱/值的形式出現(xiàn),POST方式對傳送的數(shù)據(jù)大小沒有限制,而且也不會顯示在URL中。請求請求頭Accept:請求報頭域,用于指定客戶端可接受哪些類型的信息。Accept-Language:指定客戶端可接受的語言類型。Accept-Encoding:指定客戶端可接受的內(nèi)容編碼。Host:用于指定請求資源的主機IP和端口號,其內(nèi)容為請求URL的原始服務(wù)器或網(wǎng)關(guān)的位置。請求必須包含此內(nèi)容。Cookie:這是網(wǎng)站為了辨別用戶進行會話跟蹤而存儲在用戶本地的數(shù)據(jù)。相關(guān)內(nèi)容將在下文詳細展開。Referrer:此內(nèi)容用來標志性這個請求是從哪個頁面發(fā)過來的,服務(wù)器可以拿到這一信息并做相應(yīng)的處理。User-Agent:簡稱UA,它是一個特殊的字符串頭,可以使服務(wù)器識別客戶使用的操作系統(tǒng)及版本、瀏覽器及版本等信息。在做爬蟲時加上此信息,可以偽裝為瀏覽器,而不加則可能被識別為爬蟲。Content-Type:也叫互聯(lián)網(wǎng)媒體類型或者MIME類型,在HTTP協(xié)議消息頭中,它用來表示具體請求中的媒體類型信息。例如,text/html代表HTML格式,更多關(guān)系可查看/commons/

。用來說明服務(wù)器要使用的附加信息。請求請求數(shù)據(jù)請求數(shù)據(jù)一般承載的內(nèi)容是POST請求中的表單數(shù)據(jù),對于GET請求的請求數(shù)據(jù)為空。注意:當RequestHeaders中指定Content-Type為application/x-www-form-urlencoded,會以表單數(shù)據(jù)的形式提交。京東登錄頁抓包響應(yīng)客戶端瀏覽器:

你要的網(wǎng)頁內(nèi)容,發(fā)送給你!響應(yīng)HTTP響應(yīng)報文響應(yīng)以請求簡書中某文為例:/p/5dd5993f981b響應(yīng)狀態(tài)行由3部分組成,分別為:協(xié)議版本、狀態(tài)碼、狀態(tài)碼描述。狀態(tài)類型狀態(tài)碼和狀態(tài)信息含義1xx信息100Continue服務(wù)器收到了客戶端的請求行和頭部信息,告訴客戶端繼續(xù)發(fā)送數(shù)據(jù)部分。客戶端通常要先發(fā)送Expect:100-continue頭部字段告訴服務(wù)器自己還有數(shù)據(jù)要發(fā)送2xx成功200OK請求成功3xx重定向301MovedPermanently資源被轉(zhuǎn)移,請求將被重定向302Found通知客戶端資源能在其他地方找到,但需要使用GET方法來獲得他304NotModified表示被申請的資源沒有更新,和之前獲得的相同307TemporaryRedirect通知客戶端資源能在其他地方找到。與302不同的是,客戶端可以使用和原始請求相同的請求方法來訪問目標資源。4xx客戶端錯誤400BadRequest通用客戶請求錯誤401Unauthorized請求需要認證信息403Forbidden訪問被服務(wù)器禁止,通常是由于客戶端沒有權(quán)限訪問該資源404NotFound資源沒有找到407ProxyAuthenticationRequired客戶端需要先獲得代理服務(wù)器的認證5xx服務(wù)器錯誤500InternalServerError通用服務(wù)器錯誤503ServiceUnavailable暫時無法訪問服務(wù)器響應(yīng)狀態(tài)行由3部分組成,分別為:協(xié)議版本、狀態(tài)碼、狀態(tài)碼描述。狀態(tài)類型狀態(tài)碼和狀態(tài)信息含義1xx信息100Continue服務(wù)器收到了客戶端的請求行和頭部信息,告訴客戶端繼續(xù)發(fā)送數(shù)據(jù)部分。客戶端通常要先發(fā)送Expect:100-continue頭部字段告訴服務(wù)器自己還有數(shù)據(jù)要發(fā)送2xx成功200OK請求成功3xx重定向301MovedPermanently資源被轉(zhuǎn)移,請求將被重定向302Found通知客戶端資源能在其他地方找到,但需要使用GET方法來獲得他304NotModified表示被申請的資源沒有更新,和之前獲得的相同307TemporaryRedirect通知客戶端資源能在其他地方找到。與302不同的是,客戶端可以使用和原始請求相同的請求方法來訪問目標資源。4xx客戶端錯誤400BadRequest通用客戶請求錯誤401Unauthorized請求需要認證信息403Forbidden訪問被服務(wù)器禁止,通常是由于客戶端沒有權(quán)限訪問該資源404NotFound資源沒有找到407ProxyAuthenticationRequired客戶端需要先獲得代理服務(wù)器的認證5xx服務(wù)器錯誤500InternalServerError通用服務(wù)器錯誤503ServiceUnavailable暫時無法訪問服務(wù)器響應(yīng)狀態(tài)行由3部分組成,分別為:協(xié)議版本、狀態(tài)碼、狀態(tài)碼描述。狀態(tài)類型狀態(tài)碼和狀態(tài)信息含義1xx信息100Continue服務(wù)器收到了客戶端的請求行和頭部信息,告訴客戶端繼續(xù)發(fā)送數(shù)據(jù)部分??蛻舳送ǔR劝l(fā)送Expect:100-continue頭部字段告訴服務(wù)器自己還有數(shù)據(jù)要發(fā)送2xx成功200OK請求成功3xx重定向301MovedPermanently資源被轉(zhuǎn)移,請求將被重定向302Found通知客戶端資源能在其他地方找到,但需要使用GET方法來獲得他304NotModified表示被申請的資源沒有更新,和之前獲得的相同307TemporaryRedirect通知客戶端資源能在其他地方找到。與302不同的是,客戶端可以使用和原始請求相同的請求方法來訪問目標資源。4xx客戶端錯誤400BadRequest通用客戶請求錯誤401Unauthorized請求需要認證信息403Forbidden訪問被服務(wù)器禁止,通常是由于客戶端沒有權(quán)限訪問該資源404NotFound資源沒有找到407ProxyAuthenticationRequired客戶端需要先獲得代理服務(wù)器的認證5xx服務(wù)器錯誤500InternalServerError通用服務(wù)器錯誤503ServiceUnavailable暫時無法訪問服務(wù)器響應(yīng)狀態(tài)行由3部分組成,分別為:協(xié)議版本、狀態(tài)碼、狀態(tài)碼描述。狀態(tài)類型狀態(tài)碼和狀態(tài)信息含義1xx信息100Continue服務(wù)器收到了客戶端的請求行和頭部信息,告訴客戶端繼續(xù)發(fā)送數(shù)據(jù)部分。客戶端通常要先發(fā)送Expect:100-continue頭部字段告訴服務(wù)器自己還有數(shù)據(jù)要發(fā)送2xx成功200OK請求成功3xx重定向301MovedPermanently資源被轉(zhuǎn)移,請求將被重定向302Found通知客戶端資源能在其他地方找到,但需要使用GET方法來獲得他304NotModified表示被申請的資源沒有更新,和之前獲得的相同307TemporaryRedirect通知客戶端資源能在其他地方找到。與302不同的是,客戶端可以使用和原始請求相同的請求方法來訪問目標資源。4xx客戶端錯誤400BadRequest通用客戶請求錯誤401Unauthorized請求需要認證信息403Forbidden訪問被服務(wù)器禁止,通常是由于客戶端沒有權(quán)限訪問該資源404NotFound資源沒有找到407ProxyAuthenticationRequired客戶端需要先獲得代理服務(wù)器的認證5xx服務(wù)器錯誤500InternalServerError通用服務(wù)器錯誤503ServiceUnavailable暫時無法訪問服務(wù)器響應(yīng)響應(yīng)頭Data:標識響應(yīng)產(chǎn)生的時間。Content-Encoding:指定響應(yīng)內(nèi)容的編碼Server:包含服務(wù)器的信息,比如名稱、版本號等。Content-Type:文檔類型,指定返回的數(shù)據(jù)類型是什么,決定瀏覽器將以什么形式、什么編碼讀取這個文件,如text/html代表返回HTML文檔Set-Cookie:設(shè)置cookie。響應(yīng)頭中的Set-Cookie告訴瀏覽器需要將此內(nèi)容放在Cookie中,下次請求攜帶Cookie請求。Expires:指定響應(yīng)的過期時間,可以使代理服務(wù)器或瀏覽器將加載的內(nèi)容更新到緩存中。如果再次訪問時,就可以直接從緩存中加載,降低服務(wù)器負載,縮短加載時間。響應(yīng)頭包含了服務(wù)器對請求的應(yīng)答信息。響應(yīng)響應(yīng)數(shù)據(jù)網(wǎng)頁代碼BusinessDataAnalysisPractice商務(wù)數(shù)據(jù)分析實務(wù)01爬蟲基本原理爬蟲基本原理互聯(lián)網(wǎng)網(wǎng)絡(luò)爬蟲網(wǎng)頁爬蟲爬到這就相當于訪問了該頁面,獲取了其信息。把節(jié)點間的連線比作網(wǎng)頁與網(wǎng)頁之間的鏈接關(guān)系,蜘蛛通過一個節(jié)點后,可以順著節(jié)點連線繼續(xù)爬行到下一個節(jié)點。爬蟲基本原理通過一個網(wǎng)頁繼續(xù)獲取后續(xù)的網(wǎng)頁,這樣整個網(wǎng)的節(jié)點便可以被蜘蛛全部爬行到,網(wǎng)站的數(shù)據(jù)就可以被抓取下來了。爬蟲基本原理爬蟲獲取網(wǎng)頁并提取和保存信息的自動化程序。爬蟲基本原理爬蟲流程1.獲取網(wǎng)頁源代碼代碼里包含了網(wǎng)頁的部分有用信息,所以只要把源代碼獲取下來,就可以從中提取想要的信息。最關(guān)鍵的環(huán)節(jié)就是構(gòu)造一個請求并發(fā)送給服務(wù)器,然后接收到響應(yīng)后便于之后的內(nèi)容解析。構(gòu)造一個請求爬蟲基本原理爬蟲流程2.分析網(wǎng)頁源代碼、提取數(shù)據(jù)正則表達式方法,萬能但效率低。據(jù)網(wǎng)頁節(jié)點屬性、CSS選擇器或XPath來提取網(wǎng)頁信息的方法。節(jié)點的屬性文本值爬蟲基本原理爬蟲流程3.保存數(shù)據(jù)TXT文本、JSON文本、XML關(guān)系型數(shù)據(jù)庫SQLsever、MySQL,非關(guān)系型數(shù)據(jù)庫MongoDB視頻、音頻等特定格式保存形式,多種多樣爬蟲基本原理爬蟲可以代替人來完成這些操作。自動化程序爬蟲基本原理爬蟲就是代替我們來完成這份爬取工作的自動化程序,它可以在抓取過程中進行各種異常處理、錯誤重試等操作,確保爬取工作持續(xù)高效的運行。當手工無法完成提取信息時爬蟲基本原理02常用的爬蟲工具常用的爬蟲工具靜態(tài)網(wǎng)頁爬蟲編程類工具可視化采集器靜態(tài)網(wǎng)頁爬蟲編程類工具可視化采集器代表性工具Python、Java和PHP等八爪魚數(shù)據(jù)采集器、火車采集器、后羿采集器等優(yōu)點通用性和可協(xié)作性

學(xué)習(xí)簡單、容易上手,可滿

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論