版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第3章電子商務(wù)數(shù)據(jù)采集3.1電子商務(wù)數(shù)據(jù)采集概述3.2數(shù)據(jù)采集的渠道及工具3.3WebScraper數(shù)據(jù)采集【章節(jié)目標(biāo)及學(xué)習(xí)難點(diǎn)】章節(jié)目標(biāo)1.了解數(shù)據(jù)采集的原則與流程2.熟悉數(shù)據(jù)采集渠道與工具3.掌握WebScraper的應(yīng)用學(xué)習(xí)難點(diǎn)1.使用WebScraper爬取多頁列表數(shù)據(jù)【案例導(dǎo)入】公民個(gè)人信息是如何被爬走的如今很多人都有類似這樣的經(jīng)歷“剛和朋友聊天提起某款商品,打開購物App后首頁隨即出現(xiàn)同類產(chǎn)品的推送廣告;剛和家人商量去某地旅游,某旅游App就推送該地最佳旅游攻略…”,這種“聊啥來啥”的現(xiàn)象讓人們在接受貼心服務(wù)的同時(shí)也越發(fā)感到疑惑。近幾年,在侵犯公民個(gè)人信息犯罪案件的辦理中,網(wǎng)絡(luò)爬蟲技術(shù)逐步走進(jìn)大眾視野。個(gè)人信息是互聯(lián)網(wǎng)企業(yè)輸出用戶畫像、制定營銷策略以及識(shí)別風(fēng)險(xiǎn)的重要依據(jù)。隨著數(shù)據(jù)產(chǎn)業(yè)的不斷發(fā)展,個(gè)人信息已成為高價(jià)值的數(shù)據(jù)資源,對其的爭奪日趨激烈。據(jù)統(tǒng)計(jì),目前除了直接通過用戶采集數(shù)據(jù),另一個(gè)主要的數(shù)據(jù)來源就是使用網(wǎng)絡(luò)爬蟲技術(shù)采集公開信息。目前存在的5種利用爬蟲技術(shù)非法爬取公民個(gè)人信息形式,包括制作爬蟲軟件出售給他人使用以牟利,制作爬蟲軟件供自己爬取公民個(gè)人信息,購買爬蟲軟件使用權(quán)供自己爬取公民個(gè)人信息,購買爬蟲軟件使用權(quán)爬取公民個(gè)人信息出售牟利,利用職務(wù)便利獲取用戶個(gè)人信息并出售牟利?!景咐龑?dǎo)入】淘寶新燈塔服務(wù)指標(biāo)體系在大數(shù)據(jù)時(shí)代,爬蟲技術(shù)應(yīng)用的法律邊界在哪兒?實(shí)際每家網(wǎng)站都設(shè)定了哪些數(shù)據(jù)、哪些頁面能被抓取,哪些不能被抓取的協(xié)議文件,即國際互聯(lián)網(wǎng)界通行的Robots協(xié)議?;ヂ?lián)網(wǎng)業(yè)界提出該協(xié)議來限制網(wǎng)絡(luò)爬取數(shù)據(jù)的行為。被爬取數(shù)據(jù)方將寫有可爬取信息范圍的Robots協(xié)議文件放到該網(wǎng)站后,就表示允許數(shù)據(jù)爬取方可在協(xié)議范圍內(nèi)爬取數(shù)據(jù)。拓展思考1.當(dāng)前有哪些法律條例保障公民個(gè)人信息安全?2.數(shù)據(jù)采集和爬取的渠道與工具有哪些?第1節(jié)電子商務(wù)數(shù)據(jù)采集概述3.1.1數(shù)據(jù)采集的原則3.1.2數(shù)據(jù)采集的流程3.1.3數(shù)據(jù)采集方案制定數(shù)據(jù)采集也叫數(shù)據(jù)獲取,是指通過在平臺(tái)源程序中預(yù)設(shè)工具或程序代碼,獲取商品狀態(tài)變化、資金狀態(tài)變化、流量狀態(tài)變化、用戶行為和信息等數(shù)據(jù)內(nèi)容的過程,為后續(xù)進(jìn)行數(shù)據(jù)分析提供數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)采集的原則合法性及時(shí)性準(zhǔn)確性有效性3.1.1數(shù)據(jù)采集的原則數(shù)據(jù)采集的步驟確定采集范圍及人員分工1
進(jìn)行數(shù)據(jù)采集前首先需要根據(jù)數(shù)據(jù)采集目標(biāo)進(jìn)行分析,明確數(shù)據(jù)采集的指標(biāo)范圍和時(shí)間范圍。接著明確這些數(shù)據(jù)需要從哪些途徑及部門采集,最后確定參與部門和人員配備。建立必要的數(shù)據(jù)指標(biāo)規(guī)范2
數(shù)據(jù)指標(biāo)需對數(shù)據(jù)進(jìn)行唯一性標(biāo)識(shí),并且貫穿之后的數(shù)據(jù)查詢、分析和應(yīng)用,建立數(shù)據(jù)指標(biāo)規(guī)范是為了使后續(xù)工作有一個(gè)可以遵循的原則,也為龐雜的數(shù)據(jù)分析工作確定了可以識(shí)別的唯一標(biāo)識(shí)。3.1.2數(shù)據(jù)采集的流程數(shù)據(jù)檢查3完整性檢查準(zhǔn)確性檢查規(guī)范性檢查完成數(shù)據(jù)采集后對數(shù)據(jù)進(jìn)行復(fù)查或計(jì)算合計(jì)數(shù)據(jù),將其和歷史數(shù)據(jù)進(jìn)行比較。同時(shí)還要檢查字段的完整性,保證核心指標(biāo)數(shù)據(jù)完整。在數(shù)據(jù)采集錄入的過程中可能會(huì)有個(gè)別數(shù)據(jù)出現(xiàn)錄入錯(cuò)誤,可以通過平均、求和等操作與原始數(shù)據(jù)進(jìn)行比對,如發(fā)現(xiàn)比對結(jié)果不匹配,則需要檢查出相應(yīng)的錯(cuò)誤數(shù)據(jù)。檢查采集的數(shù)據(jù)中是否存在有多個(gè)商品標(biāo)識(shí)編碼相同或同一數(shù)據(jù)出現(xiàn)多個(gè)數(shù)據(jù)指標(biāo)等。3.1.2數(shù)據(jù)采集的流程背景介紹數(shù)據(jù)分析指標(biāo)數(shù)據(jù)分析目標(biāo)渠道及工具數(shù)據(jù)采集與處理方案背景介紹主要是讓項(xiàng)目參與人員了解該數(shù)據(jù)項(xiàng)目的來龍去脈,明確分析的環(huán)境和所處情況。數(shù)據(jù)分析目標(biāo),也就是數(shù)據(jù)分析人員完成數(shù)據(jù)分析后對項(xiàng)目運(yùn)營各部門基于什么樣的目的提出建議及調(diào)整策略。數(shù)據(jù)分析指標(biāo)是為了明確進(jìn)行此次數(shù)據(jù)分析所需要的指標(biāo)類型及具體指標(biāo)。在數(shù)據(jù)采集處理方案中注明數(shù)據(jù)來源及采集工具不僅可以為后續(xù)的工作提供工作方向,也可以為后期效果評估及復(fù)盤提供理論依據(jù)。3.1.3數(shù)據(jù)采集方案制定第2節(jié)數(shù)據(jù)采集的渠道及工具3.2.1內(nèi)部數(shù)據(jù)采集渠道3.2.2外部數(shù)據(jù)采集渠道3.2.1內(nèi)部數(shù)據(jù)采集渠道數(shù)據(jù)的主要來源渠道包含內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)兩大類站點(diǎn)的訪客數(shù)、瀏覽量、收藏量,商品的訂單數(shù)量、訂單信息、加購數(shù)量內(nèi)部數(shù)據(jù)指在電子商務(wù)運(yùn)營過程中站點(diǎn)或店鋪?zhàn)陨硭a(chǎn)生的數(shù)據(jù)信息。外部數(shù)據(jù)主要來自政府部門、行業(yè)協(xié)會(huì)、新聞媒體、出版社等發(fā)布的統(tǒng)計(jì)數(shù)據(jù);還包括行業(yè)調(diào)查報(bào)告、新聞報(bào)道、出版物、行業(yè)權(quán)威網(wǎng)站或數(shù)據(jù)機(jī)構(gòu)發(fā)布的報(bào)告、白皮書等3.2.1內(nèi)部數(shù)據(jù)采集渠道一、流量數(shù)據(jù)1、站內(nèi)免費(fèi)流量數(shù)據(jù)各平臺(tái)站內(nèi)免費(fèi)流量的來源有很多,要想收集站內(nèi)免費(fèi)流量的數(shù)據(jù),首先一定要清楚站內(nèi)免費(fèi)流量的結(jié)構(gòu),哪些是店鋪已經(jīng)做了的引流,哪些是店鋪還可以去做的引流。淘系(阿里巴巴、淘寶、天貓)平臺(tái)的流量結(jié)構(gòu)。2.站內(nèi)付費(fèi)流量數(shù)據(jù)(1)淘系站內(nèi)付費(fèi)流量來源直通車、淘寶客是淘寶/天貓平臺(tái)站內(nèi)付費(fèi)流量的來源方式。對于直通車,需要采集的數(shù)據(jù)指標(biāo)有:寶貝展現(xiàn)量01點(diǎn)擊量02點(diǎn)擊率03點(diǎn)擊轉(zhuǎn)化率04投入產(chǎn)出比05關(guān)鍵詞質(zhì)量得分063.2.1內(nèi)部數(shù)據(jù)采集渠道二、商品數(shù)據(jù)通過對商品訪客數(shù)、商品瀏覽量、有效訪問商品數(shù)、詳情更評價(jià)停留時(shí)長、詳情跳出率、訪問收藏轉(zhuǎn)化率、和訪問加購轉(zhuǎn)化率等數(shù)據(jù)進(jìn)行分析,對表現(xiàn)一般或銷量不太樂觀的商品進(jìn)行優(yōu)化,甚至下架。另外商家需要從流量來源分析中清楚引流的來源效果,從銷售分析中總結(jié)商品銷量變化規(guī)律,從客群洞察中獲得商品吸引消費(fèi)者的具體特征,從系統(tǒng)的關(guān)聯(lián)搭配中選擇合適的商品進(jìn)行關(guān)聯(lián)銷售,促進(jìn)銷量。3.2.1內(nèi)部數(shù)據(jù)采集渠道三、交易數(shù)據(jù)交易數(shù)據(jù)最能體現(xiàn)店鋪的經(jīng)營情況,有效收集交易數(shù)據(jù)對店鋪分析意義重大。店鋪交易數(shù)據(jù)分析結(jié)果一直是店鋪運(yùn)營及后期決策調(diào)整的重要指標(biāo)。一般來講,店鋪交易數(shù)據(jù)的分析離不開交易的數(shù)量、類目、渠道、金額及轉(zhuǎn)化率等。而主推品交易數(shù)據(jù)則反映了店鋪主推的單品或爆款產(chǎn)品的交易信息數(shù)據(jù),其主要包括下單買家數(shù)、支付買家數(shù)、下單件數(shù)、支付件數(shù)、下單金額、支付金額、下單支付轉(zhuǎn)化率和支付轉(zhuǎn)化率等幾類數(shù)據(jù)。3.2.1內(nèi)部數(shù)據(jù)采集渠道四、客戶和物流服務(wù)數(shù)據(jù)(1)客戶服務(wù)數(shù)據(jù)客戶服務(wù)質(zhì)量影響著消費(fèi)者的忠誠度??蛻舴?wù)的目的是讓消費(fèi)者在購買商品的過程中享受到優(yōu)質(zhì)的服務(wù)體驗(yàn),提高消費(fèi)者對店鋪的滿意度,從而提升商品回購率。(2)物流服務(wù)數(shù)據(jù)物流服務(wù)數(shù)據(jù)一直是商家比較難以把控和收集的數(shù)據(jù),只有掌握其數(shù)據(jù)結(jié)構(gòu)才能分析診斷出店鋪產(chǎn)品在物流途中發(fā)生的異常。物流服務(wù)數(shù)據(jù)包括創(chuàng)建訂單數(shù)、發(fā)貨訂單數(shù)、攬收訂單數(shù)、簽收訂單數(shù)等。3.2.1內(nèi)部數(shù)據(jù)采集渠道五、市場和競爭數(shù)據(jù)市場和競爭數(shù)據(jù)是商家在前期開展市場調(diào)研時(shí)需要收集的重要數(shù)據(jù)。商家需要精準(zhǔn)收集市場和同行的信息,以制定相應(yīng)的營銷策略。(1)市場行業(yè)數(shù)據(jù)指標(biāo)市場行業(yè)數(shù)據(jù)主要包括行業(yè)概況、產(chǎn)品排行類目、商家排行、產(chǎn)品屬性等。(2)競爭店鋪運(yùn)營數(shù)據(jù)對于競爭店鋪,可以從訪客數(shù)、流量指數(shù)、交易指數(shù)、各級轉(zhuǎn)化率、搜索人氣、收藏人氣、加購人氣、預(yù)售定金指數(shù)和上新商品數(shù)等核心指標(biāo)進(jìn)行監(jiān)控;商家還需要掌握競爭店鋪的商品,明確競爭商品的數(shù)據(jù)結(jié)構(gòu),收集流量指數(shù)、交易指數(shù)、搜索人氣、收藏人氣和加購人氣等關(guān)鍵指標(biāo)數(shù)據(jù),通過這些關(guān)鍵指標(biāo)分析對比得到本店商品的優(yōu)勢與劣勢。3.2.1內(nèi)部數(shù)據(jù)采集渠道3.2.2外部數(shù)據(jù)采集渠道外部數(shù)據(jù)的采集渠道主要包含政府部門、行業(yè)協(xié)會(huì)、新聞媒體、出版社、行業(yè)權(quán)威網(wǎng)站或數(shù)據(jù)機(jī)構(gòu)、電子商務(wù)平臺(tái)等。這些基于互聯(lián)網(wǎng)的采集渠道,通常使用的采集工具為互聯(lián)網(wǎng)爬蟲工具,具體可分為第三方爬蟲軟件(如八爪魚采集器等)、基于瀏覽器的爬取插件(如WebScraper等)和使用Python自行編寫的爬蟲程序。網(wǎng)絡(luò)爬蟲是一類批量自動(dòng)訪問網(wǎng)頁的工具,核心功能是訪問網(wǎng)頁。網(wǎng)頁中的素材存在于網(wǎng)站所在的服務(wù)器上,當(dāng)這個(gè)服務(wù)器收到一個(gè)訪問請求時(shí),它會(huì)把對應(yīng)的素材發(fā)送到請求發(fā)出的地方,這就是人們通過瀏覽器可以看到別人服務(wù)器上的內(nèi)容的原因。3.2.2外部數(shù)據(jù)采集渠道1.WebScraperWebScraper是一個(gè)輕量級的Chrome瀏覽器爬蟲插件,用于抓取任意Web頁面并使用幾行JavaScript代碼從中提取結(jié)構(gòu)化數(shù)據(jù)。它能夠加載web頁面并實(shí)現(xiàn)動(dòng)態(tài)抓取。3.2.2外部數(shù)據(jù)采集渠道3.2.2外部數(shù)據(jù)采集渠道缺點(diǎn)說明只支持文本數(shù)據(jù)抓取圖片短視頻等多媒體數(shù)據(jù)無法批量抓取不支持范圍抓取默認(rèn)全量抓取,無法配置抓取范圍,若停止抓取,只能待數(shù)據(jù)加載完畢不支持復(fù)雜網(wǎng)頁抓取無法抓取復(fù)雜交互、酷炫特效的網(wǎng)頁導(dǎo)出數(shù)據(jù)亂序默認(rèn)使用LocalStorage存儲(chǔ)數(shù)據(jù),存儲(chǔ)數(shù)據(jù)亂序,需借助Excel工具重排WebScraper主要缺點(diǎn)2.八爪魚(1)介紹八爪魚八爪魚采集器可簡單快速地將網(wǎng)頁數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)于Excel或數(shù)據(jù)庫等,并且提供基于云計(jì)算的大數(shù)據(jù)云采集解決方案,實(shí)現(xiàn)精準(zhǔn)、高效、大規(guī)模的數(shù)據(jù)采集。/edu3.2.2外部數(shù)據(jù)采集渠道3.2.2外部數(shù)據(jù)采集渠道特性說明覆蓋全球主流電商平臺(tái)數(shù)據(jù)淘寶、天貓、京東、蘇寧、唯品會(huì)、1688.Amazon、eBay等國內(nèi)外主流電商平臺(tái)和一些官方/第三方電商數(shù)據(jù)分析平臺(tái)涵蓋90%以上數(shù)據(jù)類型及字段商品類目、標(biāo)題、URL、價(jià)格(掛牌價(jià)與到手價(jià))、顯示銷量、庫存、評價(jià)、圖片、發(fā)貨地、促銷活動(dòng)、所在店鋪、店鋪等級等。獨(dú)家云采集,實(shí)時(shí)采集更新數(shù)據(jù)支持設(shè)置靈活的定時(shí)采集策略與多節(jié)點(diǎn)高并發(fā)采集,能夠在極短時(shí)間內(nèi)完成多個(gè)數(shù)據(jù)源大規(guī)模更新數(shù)據(jù)的采集,保障商品價(jià)格等電商數(shù)據(jù)的時(shí)效性支持導(dǎo)出為Excel、Json或數(shù)據(jù)庫采集結(jié)果可實(shí)時(shí)導(dǎo)出為Excel、Json或同步到數(shù)據(jù)庫中,便于靈活生成各類報(bào)表,幫助客戶進(jìn)行大盤分析、價(jià)格監(jiān)控、店鋪監(jiān)控、活動(dòng)效果跟蹤、庫存管理、預(yù)算管理、品牌維權(quán)等電商運(yùn)營工作。八爪魚采集器主要特性3.Python爬蟲程序Python爬蟲架構(gòu)主要由五個(gè)部分組成,分別是調(diào)度器、URL管理器、網(wǎng)頁下載器、網(wǎng)頁解析器、應(yīng)用程序(爬取的有價(jià)值數(shù)據(jù))缺點(diǎn)說明調(diào)度器主要負(fù)責(zé)調(diào)度URL管理器、下載器、解析器之間的協(xié)調(diào)工作URL管理器包括待爬取的URL地址和已爬取的URL地址,防止重復(fù)抓取URL和循環(huán)抓取URL網(wǎng)頁下載器通過傳入一個(gè)URL地址來下載網(wǎng)頁,將網(wǎng)頁轉(zhuǎn)換成一個(gè)字符串,網(wǎng)頁下載器有urllib2(Python官方基礎(chǔ)模塊)網(wǎng)頁解析器將一個(gè)網(wǎng)頁字符串進(jìn)行解析,可以按照我們的要求來提取出我們有用的信息,也可以根據(jù)DOM樹的解析方式來解析應(yīng)用程序從網(wǎng)頁中提取的有用數(shù)據(jù)組成的一個(gè)應(yīng)用3.2.2外部數(shù)據(jù)采集渠道第3節(jié)WebScraper數(shù)據(jù)采集3.3WebScraper數(shù)據(jù)采集1.安裝過程(1)下載插件官方地址“https://www.WebScraper.io”下載WebScraper插件,保存在本地。(2)安裝插件首先打開Chrome瀏覽器,在地址欄中輸入“chrome://extensions/”。然后單擊Enter鍵,或者從瀏覽器【設(shè)置】-【更多工具】-【擴(kuò)展程序】,進(jìn)入擴(kuò)展程序加載頁面,并打開【開發(fā)者模式】。最后把壓縮包內(nèi)的文件直接拖拽到該頁面,自動(dòng)跳轉(zhuǎn)到WebScraper官網(wǎng),安裝成功3.3WebScraper數(shù)據(jù)采集2.主要功能打開谷歌瀏覽器,進(jìn)入開發(fā)者工具,單擊WebScraper標(biāo)簽欄,其分為三個(gè)功能,分別是【Sitemaps】、【Sitemap】和【Createnewsitemap】3.3WebScraper數(shù)據(jù)采集(1)Createnewsitemap假設(shè)要獲取知乎上的一個(gè)問題的回答,就創(chuàng)建一個(gè)Sitemap,并將這個(gè)問題所在的地址設(shè)置為Sitemap的“StartURL”,然后點(diǎn)擊【CreateSitemap】即可創(chuàng)建一個(gè)Sitemap3.3WebScraper數(shù)據(jù)采集(2)SitemapsSitemaps是Sitemap的集合,所有創(chuàng)建過的Sitemap都會(huì)在這里顯示,選擇一個(gè)Sitemap進(jìn)行修改和數(shù)據(jù)抓取等操作3.3WebScraper數(shù)據(jù)采集(3)Sitemap一個(gè)Sitemap下可以有多個(gè)Selector,每個(gè)Selector有可以包含子Selector,一個(gè)Selector可以只對應(yīng)一個(gè)標(biāo)題,也可以對應(yīng)整個(gè)區(qū)域,此區(qū)域可能包含標(biāo)題、副標(biāo)題、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度員工薪資調(diào)整與績效考核合同范本3篇
- 2024年生豬養(yǎng)殖場租賃合同簽訂時(shí)間
- 2024年資產(chǎn)收購與股權(quán)轉(zhuǎn)讓稅務(wù)籌劃指南3篇
- 二零二五年度創(chuàng)新物流服務(wù)合同范本集2篇
- 2025版高速公路監(jiān)理合同范本3篇
- 2025年度汽車銷售代理傭金合同模板2篇
- 二零二五年賓館布草洗滌質(zhì)量追溯系統(tǒng)建設(shè)合同3篇
- 2025版拉森鋼板樁租賃合同租賃日期的精確計(jì)算與費(fèi)用結(jié)算規(guī)范9篇
- 2024年采石場股權(quán)買賣合同樣本3篇
- 2024版企業(yè)委托設(shè)計(jì)服務(wù)外包協(xié)議典范一
- 2024年九省聯(lián)考新高考 數(shù)學(xué)試卷(含答案解析)
- 2023年軟件主管年終業(yè)務(wù)工作總結(jié)
- 你比我猜成語
- 2023版設(shè)備管理體系標(biāo)準(zhǔn)
- 外來人員車輛入廠安全須知
- 01S201室外消火栓安裝圖集
- 浪潮入職培訓(xùn)考試題目
- B2C網(wǎng)絡(luò)商店物流服務(wù)質(zhì)量及其與顧客忠誠的關(guān)系研究的中期報(bào)告
- 年同等學(xué)歷考研申碩綜合科復(fù)習(xí)指導(dǎo)(教育心理學(xué))課件
- 線段角動(dòng)點(diǎn)問題
- 劍橋英語PET真題校園版
評論
0/150
提交評論