跨境電商數(shù)據(jù)分析 課件 第4章 海外行業(yè)數(shù)據(jù)采集_第1頁(yè)
跨境電商數(shù)據(jù)分析 課件 第4章 海外行業(yè)數(shù)據(jù)采集_第2頁(yè)
跨境電商數(shù)據(jù)分析 課件 第4章 海外行業(yè)數(shù)據(jù)采集_第3頁(yè)
跨境電商數(shù)據(jù)分析 課件 第4章 海外行業(yè)數(shù)據(jù)采集_第4頁(yè)
跨境電商數(shù)據(jù)分析 課件 第4章 海外行業(yè)數(shù)據(jù)采集_第5頁(yè)
已閱讀5頁(yè),還剩39頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第4章海外行業(yè)數(shù)據(jù)采集行業(yè)數(shù)據(jù)4.1海外行業(yè)數(shù)據(jù)采集概述4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集4.3跨境電商平臺(tái)行業(yè)數(shù)據(jù)統(tǒng)計(jì)4.1海外行業(yè)數(shù)據(jù)采集概述1、海外行業(yè)數(shù)據(jù)采集的統(tǒng)計(jì)方法第三方公司統(tǒng)計(jì)行業(yè)數(shù)據(jù)的方法通常是基于統(tǒng)計(jì)學(xué)原理,根據(jù)某個(gè)行業(yè)的銷量排序,從高到低采集固定數(shù)量的樣本,統(tǒng)計(jì)樣本的銷量或者銷售額來代表整個(gè)行業(yè)的數(shù)據(jù)。4.1海外行業(yè)數(shù)據(jù)采集概述1、海外行業(yè)數(shù)據(jù)采集的統(tǒng)計(jì)方法以亞馬遜網(wǎng)站行業(yè)數(shù)據(jù)為例,在亞馬遜網(wǎng)站中,搜索品類關(guān)鍵詞,采集綜合排名靠前的4800個(gè)樣本。按照亞馬遜網(wǎng)站每頁(yè)搜索查看48個(gè)商品數(shù)據(jù),共需查看100頁(yè)的商品數(shù)據(jù)。剔除類目不符的樣本后,匯總固定數(shù)量的樣本數(shù)據(jù)。4.1海外行業(yè)數(shù)據(jù)采集概述1、海外行業(yè)數(shù)據(jù)采集的統(tǒng)計(jì)方法如果需要更加精細(xì)的行業(yè)大數(shù)據(jù),則應(yīng)當(dāng)根據(jù)關(guān)鍵詞聯(lián)想出多個(gè)關(guān)鍵詞。如需要查看連衣裙行業(yè)數(shù)據(jù),則根據(jù)連衣裙關(guān)鍵詞聯(lián)想出多個(gè)相關(guān)關(guān)鍵詞,如連衣裙雪紡、連衣裙歐根紗等,每個(gè)關(guān)鍵詞采集4800個(gè)樣本,進(jìn)行商品數(shù)據(jù)去重后,匯總固定數(shù)量的樣本數(shù)據(jù)。4.1海外行業(yè)數(shù)據(jù)采集概述1、海外行業(yè)數(shù)據(jù)采集的統(tǒng)計(jì)方法統(tǒng)計(jì)學(xué)研究的對(duì)象包括以下4個(gè)方面。(1)總體:包含所研究的全部個(gè)體(數(shù)據(jù))的集合。(2)個(gè)體:總體中每一個(gè)考察對(duì)象稱為個(gè)體。(3)樣本:研究中實(shí)際觀測(cè)或調(diào)查的一部分個(gè)體稱為樣本。(4)樣本容量:樣本中個(gè)體的數(shù)目稱為樣本容量。統(tǒng)計(jì)的基本思想是從總體中抽出一部分個(gè)體作為總體的樣本,根據(jù)樣本的性質(zhì)來估計(jì)和推測(cè)總體的性質(zhì)。4.1海外行業(yè)數(shù)據(jù)采集概述1、海外行業(yè)數(shù)據(jù)采集的統(tǒng)計(jì)方法例如,為了研究某商品買家的年齡分布,從某商品全部買家中抽取了200名買家的年齡。本例中的總體是指某商品買家年齡的全體;個(gè)體是指某商品每個(gè)買家的年齡;樣本是指被抽取的200名買家的年齡;樣本容量是200。4.1海外行業(yè)數(shù)據(jù)采集概述2、數(shù)據(jù)采集的流程完整的數(shù)據(jù)采集包括以下3個(gè)流程。(1)采集:將整個(gè)HTML或者JS文件下載到本地,此時(shí)數(shù)據(jù)在文件中,可轉(zhuǎn)換成文本等可讀數(shù)據(jù)類型。(2)存儲(chǔ):一般將下載的文件或者文本完整的存入數(shù)據(jù)庫(kù)。(3)清洗:從文件或者文本中提取目標(biāo)資料,并組織成表格形式,形成可供分析的原始資料。4.1海外行業(yè)數(shù)據(jù)采集概述3、反爬蟲技術(shù)電商平臺(tái)為了避免被第三方大量采集數(shù)據(jù),造成數(shù)據(jù)泄露等嚴(yán)重后果,或給服務(wù)器帶來巨大壓力影響正常用戶的使用體驗(yàn),一般會(huì)給自己的平臺(tái)數(shù)據(jù)設(shè)置反爬蟲機(jī)制。反爬蟲機(jī)制一般三種方式。(1)IP限制:這是最基礎(chǔ)的反爬蟲方式,通過IP地址限制來防止數(shù)據(jù)被訪問。(2)密鑰匹配:密鑰匹配是通過密碼學(xué)中密鑰的算法,自行生成密鑰和服務(wù)器匹配。(3)賬號(hào)權(quán)限限制:平臺(tái)必須登錄賬號(hào)才可以訪問,且賬號(hào)可能存在訪問權(quán)限限制,如限制頁(yè)面或者限制訪問次數(shù)。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集跨境電商平臺(tái)是賣家進(jìn)行商品銷售的主要渠道。通過對(duì)跨境電商平臺(tái)中的數(shù)據(jù)進(jìn)行分析,可以了解到該行業(yè)在該平臺(tái)中的銷售情況,為跨境電商企業(yè)進(jìn)行選品或運(yùn)營(yíng)提供數(shù)據(jù)參考。在跨境電商平臺(tái)中,一般會(huì)通過搜索行業(yè)關(guān)鍵詞采集商品的標(biāo)題、價(jià)格、評(píng)價(jià)數(shù)等公開信息,再對(duì)商品信息進(jìn)行匯總分析,來獲取該行業(yè)暢銷商品的均價(jià)排名、銷售數(shù)量及銷售額等信息。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集1、單頁(yè)數(shù)據(jù)采集(1)在瀏覽器打開亞馬遜平臺(tái)網(wǎng)站,搜索相關(guān)產(chǎn)品。復(fù)制瀏覽器地址欄中的網(wǎng)頁(yè)地址。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集1、單頁(yè)數(shù)據(jù)采集(2)打開PowerBIDesktop軟件,在“主頁(yè)”選項(xiàng)卡中單擊“獲取數(shù)據(jù)”按鈕,選擇“Web”選項(xiàng)。在打開對(duì)話框中的“URL”中粘貼網(wǎng)頁(yè)地址,并單擊“確定”按鈕。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集1、單頁(yè)數(shù)據(jù)采集(3)在“導(dǎo)航器”對(duì)話框中,單擊左下方的“使用示例添加表”按鈕。根據(jù)網(wǎng)頁(yè)預(yù)覽中的產(chǎn)品順序,在列表中輸入產(chǎn)品名稱、單價(jià)及評(píng)價(jià)數(shù)。當(dāng)輸入兩條信息后,其他信息將會(huì)自動(dòng)進(jìn)行填充。雙擊列頭,依次修改列名為“產(chǎn)品名稱”“單價(jià)”和“評(píng)價(jià)數(shù)”,完成后單擊“確定”按鈕。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集1、單頁(yè)數(shù)據(jù)采集(4)單擊“導(dǎo)航器”對(duì)話框中的“轉(zhuǎn)換數(shù)據(jù)”按鈕,將表添加到查詢中。雙擊“表1”,修改表名為“亞馬遜單頁(yè)采集”。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集2、創(chuàng)建單頁(yè)采集函數(shù)(1)右擊“亞馬遜單頁(yè)采集”查詢表,選擇“復(fù)制”命令,實(shí)現(xiàn)快速?gòu)?fù)制和粘貼表功能。重命名表名為“亞馬遜單頁(yè)采集函數(shù)”。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集2、創(chuàng)建單頁(yè)采集函數(shù)(2)右擊“亞馬遜單頁(yè)采集函數(shù)”查詢表,選擇“高級(jí)編輯器”命令。調(diào)用高級(jí)編輯器。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集2、創(chuàng)建單頁(yè)采集函數(shù)(3)刪除第1行的Web.BrowserContents函數(shù),只保留“源=”部分。將第2行的“#"從Html中提取的表"”修改為“(x)=>”。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集2、創(chuàng)建單頁(yè)采集函數(shù)(4)將第2行的“源”修改為“Web.BrowserContents(x)”,并刪除第2行最后的“,”。刪除第3行代碼,將in下面的語(yǔ)句替換為“源”,單擊“完成”按鈕。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集2、創(chuàng)建單頁(yè)采集函數(shù)(5)重新在瀏覽器中打開需要采集的頁(yè)面,并在瀏覽器地址欄中復(fù)制網(wǎng)頁(yè)地址。在“亞馬遜單頁(yè)采集函數(shù)”查詢表右側(cè)的“x(可選)”文本框中輸入網(wǎng)頁(yè)地址,并單擊“調(diào)用”按鈕。生成的“調(diào)用的函數(shù)”表即為該頁(yè)面采集的數(shù)據(jù)。在該表的單價(jià)中,單擊右側(cè)的下拉按鈕,去除勾選“null”數(shù)據(jù)復(fù)選框,保證數(shù)據(jù)的正確性。重新命名該表為“調(diào)用函數(shù)生成的單頁(yè)采集”。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集2、創(chuàng)建單頁(yè)采集函數(shù)注意:創(chuàng)建的單頁(yè)采集函數(shù)只針對(duì)同一個(gè)平臺(tái)不同搜索結(jié)果頁(yè)面有效。不同電商平臺(tái)的采集函數(shù)并不通用,需要重新創(chuàng)建針對(duì)該平臺(tái)的采集函數(shù)。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集3、多頁(yè)數(shù)據(jù)采集(1)在“主頁(yè)”選項(xiàng)卡中單擊“輸入數(shù)據(jù)”按鈕,在創(chuàng)建表對(duì)話框中,修改列名為“URL”,修改名稱為“多頁(yè)數(shù)據(jù)采集”。打開瀏覽器,分別獲取不同采集頁(yè)面地址,并將網(wǎng)頁(yè)地址粘貼到表格行中。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集3、多頁(yè)數(shù)據(jù)采集(2)在“添加列”選項(xiàng)卡中單擊“調(diào)用自定義函數(shù)”按鈕,修改新列名為“數(shù)據(jù)”,在“功能查詢”下拉列表中選擇“亞馬遜單頁(yè)采集函數(shù)”選項(xiàng),在“x”下拉列表中選擇“URL”選項(xiàng),設(shè)置后單擊“確定”按鈕。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集3、多頁(yè)數(shù)據(jù)采集(3)單擊數(shù)據(jù)列頭右側(cè)的下拉按鈕,單擊“加載更多”按鈕,并單擊“確定”按鈕。在生成的數(shù)據(jù)表中,篩選單價(jià)為非null的數(shù)據(jù)。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集4、批量數(shù)據(jù)采集(1)打開亞馬遜網(wǎng)站,搜索行業(yè)關(guān)鍵詞信息,選擇數(shù)據(jù)的排序規(guī)則,如綜合、價(jià)格、用戶評(píng)分和上架時(shí)間等。數(shù)據(jù)的排序規(guī)則將影響最后的數(shù)據(jù)統(tǒng)計(jì)和分析結(jié)果。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集4、批量數(shù)據(jù)采集(2)分別打開需要采集的網(wǎng)頁(yè)網(wǎng)址(平臺(tái)搜索頁(yè)面地址),復(fù)制至少兩個(gè)網(wǎng)址,查看網(wǎng)頁(yè)網(wǎng)址變化規(guī)律:/s?k=lego&page=2&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&qid=1582968692&ref=sr_pg_2;/s?k=lego&page=3&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&qid=1582968713&ref=sr_pg_3。根據(jù)網(wǎng)址變化規(guī)律,一個(gè)網(wǎng)頁(yè)網(wǎng)址可以分成兩個(gè)部分:①/s?k=lego&page=;②&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&qid=1582968692&ref=sr_pg_。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集4、批量數(shù)據(jù)采集(3)在“主頁(yè)”選項(xiàng)卡中單擊“新建源”按鈕,在下拉列表中選擇“空查詢”命令,創(chuàng)建新的查詢頁(yè)面。在函數(shù)頁(yè)面中,輸入網(wǎng)址第1部分“https://www./s?k=lego&page=”,并單擊“到表”按鈕。修改查詢表中第1列列名為“URL1”。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集4、批量數(shù)據(jù)采集(4)在“添加列”選項(xiàng)卡中單擊“自定義列”按鈕,修改“新列名”為“URL2”,在“自定義列公式”文本框中填寫網(wǎng)址的第2部分“&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&qid=1582968692&ref=sr_pg_”,并為“=”后內(nèi)容添加半角格式雙引號(hào),單擊“確定”按鈕。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集4、批量數(shù)據(jù)采集(5)在“添加列”選項(xiàng)卡中單擊“自定義列”按鈕,修改“新列名”為“頁(yè)碼序列”,在“自定義列公式”文本框中填寫序列函數(shù)“{1..10}”代表數(shù)組1~10,單擊“確定”按鈕。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集4、批量數(shù)據(jù)采集(6)單擊表中“頁(yè)碼序列”列頭右側(cè)的下拉按鈕,選擇“擴(kuò)展到新行”命令,表格數(shù)據(jù)會(huì)被擴(kuò)展為10行。右擊列頭,更改列屬性為“文本”。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集4、批量數(shù)據(jù)采集(7)在“添加列”選項(xiàng)卡中單擊“自定義列”按鈕,修改“新列名”為“URL”,在“自定義列公式”文本框中填寫序列函數(shù)“[URL1]&[頁(yè)碼序列]&[URL2]&[頁(yè)碼序列]”將網(wǎng)址進(jìn)行動(dòng)態(tài)組合,單擊“確定”按鈕。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集4、批量數(shù)據(jù)采集(8)在“添加列”選項(xiàng)卡中單擊“調(diào)用自定義函數(shù)”按鈕,修改“新列名”為“數(shù)據(jù)”,在“功能查詢”下拉列表中選擇“亞馬遜單頁(yè)采集函數(shù)”選項(xiàng),在“x”下拉列表中選擇“URL”選項(xiàng),單擊“確定”按鈕。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集4、批量數(shù)據(jù)采集(9)單擊數(shù)據(jù)列頭右側(cè)的下拉按鈕,單擊“加載更多”按鈕,取消勾選“使用原始列名作為前綴”復(fù)選框,并單擊“確定”按鈕。在生成的數(shù)據(jù)表中,篩選單價(jià)為非null的數(shù)據(jù)。4.2跨境電商平臺(tái)行業(yè)數(shù)據(jù)采集4、批量數(shù)據(jù)采集(10)將表名“查詢1”修改為“批量數(shù)據(jù)采集”。4.3跨境電商平臺(tái)行業(yè)數(shù)據(jù)統(tǒng)計(jì)通過跨境電商平臺(tái)采集到的數(shù)據(jù)都是批量的離散數(shù)據(jù),單個(gè)數(shù)據(jù)的參考價(jià)值并不大,需要對(duì)這些數(shù)據(jù)進(jìn)行重新加工整理,統(tǒng)計(jì)出有價(jià)值的數(shù)據(jù)信息。從跨境電商平臺(tái)中,可以獲取到的字段信息包括評(píng)價(jià)數(shù)、單價(jià)和頁(yè)碼序列等,通過這些字段,以頁(yè)碼序列為依據(jù)分組統(tǒng)計(jì)出每頁(yè)的評(píng)價(jià)數(shù)、銷售額和均價(jià)等信息。4.3跨境電商平臺(tái)行業(yè)數(shù)據(jù)統(tǒng)計(jì)1、數(shù)據(jù)預(yù)處理在平臺(tái)中采集到的數(shù)據(jù)會(huì)攜帶一些附加信息,如“20條評(píng)論”“1.4萬(wàn)”等非數(shù)值信息,進(jìn)行數(shù)據(jù)統(tǒng)計(jì)前,需要對(duì)這些非數(shù)值信息進(jìn)行數(shù)據(jù)預(yù)處理操作。4.3跨境電商平臺(tái)行業(yè)數(shù)據(jù)統(tǒng)計(jì)1、數(shù)據(jù)預(yù)處理(1)對(duì)數(shù)據(jù)采集表中的評(píng)價(jià)列數(shù)據(jù)進(jìn)行預(yù)處理,選中“評(píng)價(jià)人數(shù)”列,在“主頁(yè)”選項(xiàng)卡中單擊“替換值”按鈕,設(shè)置要查找的值為“條評(píng)價(jià)”,替換為空。4.3跨境電商平臺(tái)行業(yè)數(shù)據(jù)統(tǒng)計(jì)1、數(shù)據(jù)預(yù)處理(2)觀察“評(píng)價(jià)人數(shù)”列中其他非數(shù)值文本,依次替換為空。如“評(píng)價(jià)人數(shù)”列中包含表示數(shù)值的字符,如“1.4萬(wàn)”,則需要將其替換為14000。4.3跨境電商平臺(tái)行業(yè)數(shù)據(jù)統(tǒng)計(jì)1、數(shù)據(jù)預(yù)處理(3)修改“評(píng)價(jià)人數(shù)”列的類型為“整數(shù)”,修改“單價(jià)”列的類型為“小數(shù)”。4.3跨境電商平臺(tái)行業(yè)數(shù)據(jù)統(tǒng)計(jì)1、數(shù)據(jù)預(yù)處理(4)在“評(píng)價(jià)人數(shù)”列中篩選出非null的數(shù)據(jù)。4.3跨境電商平臺(tái)行業(yè)數(shù)據(jù)統(tǒng)計(jì)2、數(shù)據(jù)分組統(tǒng)計(jì)在跨境電商行業(yè)領(lǐng)域中,計(jì)算銷售額一般需要銷售數(shù)量和單價(jià)信息,銷售額=銷售數(shù)量*單價(jià)。出于平臺(tái)數(shù)據(jù)安全和保密性考慮,平臺(tái)公共頁(yè)面中不會(huì)提供銷售數(shù)量信息。但是,大部分電商平臺(tái)搜索結(jié)果頁(yè)面中都包含評(píng)價(jià)人數(shù)信息。評(píng)價(jià)是買家購(gòu)買商品后對(duì)商品的整體看法,評(píng)價(jià)人數(shù)可以近似作為銷售數(shù)量來進(jìn)行計(jì)算。因此,銷售額≈評(píng)價(jià)人數(shù)*單價(jià)。4.3跨境電商平臺(tái)行業(yè)數(shù)據(jù)統(tǒng)計(jì)2、數(shù)據(jù)分組統(tǒng)計(jì)(1)在“添加列”選項(xiàng)卡中單擊“自定義列”按鈕,打開“自定義列”對(duì)話框,設(shè)置新列名為“銷售額”,自定義列公式為“[評(píng)價(jià)人數(shù)]*[單價(jià)]”。修改“銷售額”列屬性為“小數(shù)”。4.3跨境電商平臺(tái)行業(yè)數(shù)據(jù)統(tǒng)計(jì)2、數(shù)據(jù)分組統(tǒng)計(jì)(2)在“主頁(yè)”選項(xiàng)卡中選擇“分組依據(jù)”命令,打開分組依據(jù)對(duì)話框。單擊“高級(jí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論