版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第4章海外行業(yè)數(shù)據(jù)采集行業(yè)數(shù)據(jù)4.1海外行業(yè)數(shù)據(jù)采集概述4.2跨境電商平臺行業(yè)數(shù)據(jù)采集4.3跨境電商平臺行業(yè)數(shù)據(jù)統(tǒng)計4.1海外行業(yè)數(shù)據(jù)采集概述1、海外行業(yè)數(shù)據(jù)采集的統(tǒng)計方法第三方公司統(tǒng)計行業(yè)數(shù)據(jù)的方法通常是基于統(tǒng)計學(xué)原理,根據(jù)某個行業(yè)的銷量排序,從高到低采集固定數(shù)量的樣本,統(tǒng)計樣本的銷量或者銷售額來代表整個行業(yè)的數(shù)據(jù)。4.1海外行業(yè)數(shù)據(jù)采集概述1、海外行業(yè)數(shù)據(jù)采集的統(tǒng)計方法以亞馬遜網(wǎng)站行業(yè)數(shù)據(jù)為例,在亞馬遜網(wǎng)站中,搜索品類關(guān)鍵詞,采集綜合排名靠前的4800個樣本。按照亞馬遜網(wǎng)站每頁搜索查看48個商品數(shù)據(jù),共需查看100頁的商品數(shù)據(jù)。剔除類目不符的樣本后,匯總固定數(shù)量的樣本數(shù)據(jù)。4.1海外行業(yè)數(shù)據(jù)采集概述1、海外行業(yè)數(shù)據(jù)采集的統(tǒng)計方法如果需要更加精細的行業(yè)大數(shù)據(jù),則應(yīng)當(dāng)根據(jù)關(guān)鍵詞聯(lián)想出多個關(guān)鍵詞。如需要查看連衣裙行業(yè)數(shù)據(jù),則根據(jù)連衣裙關(guān)鍵詞聯(lián)想出多個相關(guān)關(guān)鍵詞,如連衣裙雪紡、連衣裙歐根紗等,每個關(guān)鍵詞采集4800個樣本,進行商品數(shù)據(jù)去重后,匯總固定數(shù)量的樣本數(shù)據(jù)。4.1海外行業(yè)數(shù)據(jù)采集概述1、海外行業(yè)數(shù)據(jù)采集的統(tǒng)計方法統(tǒng)計學(xué)研究的對象包括以下4個方面。(1)總體:包含所研究的全部個體(數(shù)據(jù))的集合。(2)個體:總體中每一個考察對象稱為個體。(3)樣本:研究中實際觀測或調(diào)查的一部分個體稱為樣本。(4)樣本容量:樣本中個體的數(shù)目稱為樣本容量。統(tǒng)計的基本思想是從總體中抽出一部分個體作為總體的樣本,根據(jù)樣本的性質(zhì)來估計和推測總體的性質(zhì)。4.1海外行業(yè)數(shù)據(jù)采集概述1、海外行業(yè)數(shù)據(jù)采集的統(tǒng)計方法例如,為了研究某商品買家的年齡分布,從某商品全部買家中抽取了200名買家的年齡。本例中的總體是指某商品買家年齡的全體;個體是指某商品每個買家的年齡;樣本是指被抽取的200名買家的年齡;樣本容量是200。4.1海外行業(yè)數(shù)據(jù)采集概述2、數(shù)據(jù)采集的流程完整的數(shù)據(jù)采集包括以下3個流程。(1)采集:將整個HTML或者JS文件下載到本地,此時數(shù)據(jù)在文件中,可轉(zhuǎn)換成文本等可讀數(shù)據(jù)類型。(2)存儲:一般將下載的文件或者文本完整的存入數(shù)據(jù)庫。(3)清洗:從文件或者文本中提取目標(biāo)資料,并組織成表格形式,形成可供分析的原始資料。4.1海外行業(yè)數(shù)據(jù)采集概述3、反爬蟲技術(shù)電商平臺為了避免被第三方大量采集數(shù)據(jù),造成數(shù)據(jù)泄露等嚴重后果,或給服務(wù)器帶來巨大壓力影響正常用戶的使用體驗,一般會給自己的平臺數(shù)據(jù)設(shè)置反爬蟲機制。反爬蟲機制一般三種方式。(1)IP限制:這是最基礎(chǔ)的反爬蟲方式,通過IP地址限制來防止數(shù)據(jù)被訪問。(2)密鑰匹配:密鑰匹配是通過密碼學(xué)中密鑰的算法,自行生成密鑰和服務(wù)器匹配。(3)賬號權(quán)限限制:平臺必須登錄賬號才可以訪問,且賬號可能存在訪問權(quán)限限制,如限制頁面或者限制訪問次數(shù)。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集跨境電商平臺是賣家進行商品銷售的主要渠道。通過對跨境電商平臺中的數(shù)據(jù)進行分析,可以了解到該行業(yè)在該平臺中的銷售情況,為跨境電商企業(yè)進行選品或運營提供數(shù)據(jù)參考。在跨境電商平臺中,一般會通過搜索行業(yè)關(guān)鍵詞采集商品的標(biāo)題、價格、評價數(shù)等公開信息,再對商品信息進行匯總分析,來獲取該行業(yè)暢銷商品的均價排名、銷售數(shù)量及銷售額等信息。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集1、單頁數(shù)據(jù)采集(1)在瀏覽器打開亞馬遜平臺網(wǎng)站,搜索相關(guān)產(chǎn)品。復(fù)制瀏覽器地址欄中的網(wǎng)頁地址。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集1、單頁數(shù)據(jù)采集(2)打開PowerBIDesktop軟件,在“主頁”選項卡中單擊“獲取數(shù)據(jù)”按鈕,選擇“Web”選項。在打開對話框中的“URL”中粘貼網(wǎng)頁地址,并單擊“確定”按鈕。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集1、單頁數(shù)據(jù)采集(3)在“導(dǎo)航器”對話框中,單擊左下方的“使用示例添加表”按鈕。根據(jù)網(wǎng)頁預(yù)覽中的產(chǎn)品順序,在列表中輸入產(chǎn)品名稱、單價及評價數(shù)。當(dāng)輸入兩條信息后,其他信息將會自動進行填充。雙擊列頭,依次修改列名為“產(chǎn)品名稱”“單價”和“評價數(shù)”,完成后單擊“確定”按鈕。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集1、單頁數(shù)據(jù)采集(4)單擊“導(dǎo)航器”對話框中的“轉(zhuǎn)換數(shù)據(jù)”按鈕,將表添加到查詢中。雙擊“表1”,修改表名為“亞馬遜單頁采集”。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集2、創(chuàng)建單頁采集函數(shù)(1)右擊“亞馬遜單頁采集”查詢表,選擇“復(fù)制”命令,實現(xiàn)快速復(fù)制和粘貼表功能。重命名表名為“亞馬遜單頁采集函數(shù)”。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集2、創(chuàng)建單頁采集函數(shù)(2)右擊“亞馬遜單頁采集函數(shù)”查詢表,選擇“高級編輯器”命令。調(diào)用高級編輯器。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集2、創(chuàng)建單頁采集函數(shù)(3)刪除第1行的Web.BrowserContents函數(shù),只保留“源=”部分。將第2行的“#"從Html中提取的表"”修改為“(x)=>”。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集2、創(chuàng)建單頁采集函數(shù)(4)將第2行的“源”修改為“Web.BrowserContents(x)”,并刪除第2行最后的“,”。刪除第3行代碼,將in下面的語句替換為“源”,單擊“完成”按鈕。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集2、創(chuàng)建單頁采集函數(shù)(5)重新在瀏覽器中打開需要采集的頁面,并在瀏覽器地址欄中復(fù)制網(wǎng)頁地址。在“亞馬遜單頁采集函數(shù)”查詢表右側(cè)的“x(可選)”文本框中輸入網(wǎng)頁地址,并單擊“調(diào)用”按鈕。生成的“調(diào)用的函數(shù)”表即為該頁面采集的數(shù)據(jù)。在該表的單價中,單擊右側(cè)的下拉按鈕,去除勾選“null”數(shù)據(jù)復(fù)選框,保證數(shù)據(jù)的正確性。重新命名該表為“調(diào)用函數(shù)生成的單頁采集”。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集2、創(chuàng)建單頁采集函數(shù)注意:創(chuàng)建的單頁采集函數(shù)只針對同一個平臺不同搜索結(jié)果頁面有效。不同電商平臺的采集函數(shù)并不通用,需要重新創(chuàng)建針對該平臺的采集函數(shù)。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集3、多頁數(shù)據(jù)采集(1)在“主頁”選項卡中單擊“輸入數(shù)據(jù)”按鈕,在創(chuàng)建表對話框中,修改列名為“URL”,修改名稱為“多頁數(shù)據(jù)采集”。打開瀏覽器,分別獲取不同采集頁面地址,并將網(wǎng)頁地址粘貼到表格行中。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集3、多頁數(shù)據(jù)采集(2)在“添加列”選項卡中單擊“調(diào)用自定義函數(shù)”按鈕,修改新列名為“數(shù)據(jù)”,在“功能查詢”下拉列表中選擇“亞馬遜單頁采集函數(shù)”選項,在“x”下拉列表中選擇“URL”選項,設(shè)置后單擊“確定”按鈕。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集3、多頁數(shù)據(jù)采集(3)單擊數(shù)據(jù)列頭右側(cè)的下拉按鈕,單擊“加載更多”按鈕,并單擊“確定”按鈕。在生成的數(shù)據(jù)表中,篩選單價為非null的數(shù)據(jù)。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集4、批量數(shù)據(jù)采集(1)打開亞馬遜網(wǎng)站,搜索行業(yè)關(guān)鍵詞信息,選擇數(shù)據(jù)的排序規(guī)則,如綜合、價格、用戶評分和上架時間等。數(shù)據(jù)的排序規(guī)則將影響最后的數(shù)據(jù)統(tǒng)計和分析結(jié)果。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集4、批量數(shù)據(jù)采集(2)分別打開需要采集的網(wǎng)頁網(wǎng)址(平臺搜索頁面地址),復(fù)制至少兩個網(wǎng)址,查看網(wǎng)頁網(wǎng)址變化規(guī)律:/s?k=lego&page=2&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&qid=1582968692&ref=sr_pg_2;/s?k=lego&page=3&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&qid=1582968713&ref=sr_pg_3。根據(jù)網(wǎng)址變化規(guī)律,一個網(wǎng)頁網(wǎng)址可以分成兩個部分:①/s?k=lego&page=;②&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&qid=1582968692&ref=sr_pg_。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集4、批量數(shù)據(jù)采集(3)在“主頁”選項卡中單擊“新建源”按鈕,在下拉列表中選擇“空查詢”命令,創(chuàng)建新的查詢頁面。在函數(shù)頁面中,輸入網(wǎng)址第1部分“https://www./s?k=lego&page=”,并單擊“到表”按鈕。修改查詢表中第1列列名為“URL1”。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集4、批量數(shù)據(jù)采集(4)在“添加列”選項卡中單擊“自定義列”按鈕,修改“新列名”為“URL2”,在“自定義列公式”文本框中填寫網(wǎng)址的第2部分“&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&qid=1582968692&ref=sr_pg_”,并為“=”后內(nèi)容添加半角格式雙引號,單擊“確定”按鈕。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集4、批量數(shù)據(jù)采集(5)在“添加列”選項卡中單擊“自定義列”按鈕,修改“新列名”為“頁碼序列”,在“自定義列公式”文本框中填寫序列函數(shù)“{1..10}”代表數(shù)組1~10,單擊“確定”按鈕。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集4、批量數(shù)據(jù)采集(6)單擊表中“頁碼序列”列頭右側(cè)的下拉按鈕,選擇“擴展到新行”命令,表格數(shù)據(jù)會被擴展為10行。右擊列頭,更改列屬性為“文本”。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集4、批量數(shù)據(jù)采集(7)在“添加列”選項卡中單擊“自定義列”按鈕,修改“新列名”為“URL”,在“自定義列公式”文本框中填寫序列函數(shù)“[URL1]&[頁碼序列]&[URL2]&[頁碼序列]”將網(wǎng)址進行動態(tài)組合,單擊“確定”按鈕。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集4、批量數(shù)據(jù)采集(8)在“添加列”選項卡中單擊“調(diào)用自定義函數(shù)”按鈕,修改“新列名”為“數(shù)據(jù)”,在“功能查詢”下拉列表中選擇“亞馬遜單頁采集函數(shù)”選項,在“x”下拉列表中選擇“URL”選項,單擊“確定”按鈕。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集4、批量數(shù)據(jù)采集(9)單擊數(shù)據(jù)列頭右側(cè)的下拉按鈕,單擊“加載更多”按鈕,取消勾選“使用原始列名作為前綴”復(fù)選框,并單擊“確定”按鈕。在生成的數(shù)據(jù)表中,篩選單價為非null的數(shù)據(jù)。4.2跨境電商平臺行業(yè)數(shù)據(jù)采集4、批量數(shù)據(jù)采集(10)將表名“查詢1”修改為“批量數(shù)據(jù)采集”。4.3跨境電商平臺行業(yè)數(shù)據(jù)統(tǒng)計通過跨境電商平臺采集到的數(shù)據(jù)都是批量的離散數(shù)據(jù),單個數(shù)據(jù)的參考價值并不大,需要對這些數(shù)據(jù)進行重新加工整理,統(tǒng)計出有價值的數(shù)據(jù)信息。從跨境電商平臺中,可以獲取到的字段信息包括評價數(shù)、單價和頁碼序列等,通過這些字段,以頁碼序列為依據(jù)分組統(tǒng)計出每頁的評價數(shù)、銷售額和均價等信息。4.3跨境電商平臺行業(yè)數(shù)據(jù)統(tǒng)計1、數(shù)據(jù)預(yù)處理在平臺中采集到的數(shù)據(jù)會攜帶一些附加信息,如“20條評論”“1.4萬”等非數(shù)值信息,進行數(shù)據(jù)統(tǒng)計前,需要對這些非數(shù)值信息進行數(shù)據(jù)預(yù)處理操作。4.3跨境電商平臺行業(yè)數(shù)據(jù)統(tǒng)計1、數(shù)據(jù)預(yù)處理(1)對數(shù)據(jù)采集表中的評價列數(shù)據(jù)進行預(yù)處理,選中“評價人數(shù)”列,在“主頁”選項卡中單擊“替換值”按鈕,設(shè)置要查找的值為“條評價”,替換為空。4.3跨境電商平臺行業(yè)數(shù)據(jù)統(tǒng)計1、數(shù)據(jù)預(yù)處理(2)觀察“評價人數(shù)”列中其他非數(shù)值文本,依次替換為空。如“評價人數(shù)”列中包含表示數(shù)值的字符,如“1.4萬”,則需要將其替換為14000。4.3跨境電商平臺行業(yè)數(shù)據(jù)統(tǒng)計1、數(shù)據(jù)預(yù)處理(3)修改“評價人數(shù)”列的類型為“整數(shù)”,修改“單價”列的類型為“小數(shù)”。4.3跨境電商平臺行業(yè)數(shù)據(jù)統(tǒng)計1、數(shù)據(jù)預(yù)處理(4)在“評價人數(shù)”列中篩選出非null的數(shù)據(jù)。4.3跨境電商平臺行業(yè)數(shù)據(jù)統(tǒng)計2、數(shù)據(jù)分組統(tǒng)計在跨境電商行業(yè)領(lǐng)域中,計算銷售額一般需要銷售數(shù)量和單價信息,銷售額=銷售數(shù)量*單價。出于平臺數(shù)據(jù)安全和保密性考慮,平臺公共頁面中不會提供銷售數(shù)量信息。但是,大部分電商平臺搜索結(jié)果頁面中都包含評價人數(shù)信息。評價是買家購買商品后對商品的整體看法,評價人數(shù)可以近似作為銷售數(shù)量來進行計算。因此,銷售額≈評價人數(shù)*單價。4.3跨境電商平臺行業(yè)數(shù)據(jù)統(tǒng)計2、數(shù)據(jù)分組統(tǒng)計(1)在“添加列”選項卡中單擊“自定義列”按鈕,打開“自定義列”對話框,設(shè)置新列名為“銷售額”,自定義列公式為“[評價人數(shù)]*[單價]”。修改“銷售額”列屬性為“小數(shù)”。4.3跨境電商平臺行業(yè)數(shù)據(jù)統(tǒng)計2、數(shù)據(jù)分組統(tǒng)計(2)在“主頁”選項卡中選擇“分組依據(jù)”命令,打開分組依據(jù)對話框。單擊“高級
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 儀表儀器采購合同范例
- 施工合同范例重
- 健康管理咨詢合同范例
- 應(yīng)急物資運輸合同范例
- 保護財產(chǎn)協(xié)議合同模板
- 施工附屬合同模板
- 抵押合同反擔(dān)保合同模板
- 打掃小區(qū)衛(wèi)生合同范例
- 德芙采購合同范例
- 承包熱力管道安裝合同范例
- 銅仁市房地產(chǎn)行業(yè)報告
- 多文本閱讀教學(xué)設(shè)計八年級
- 酒店前廳部英語培訓(xùn)及酒店前廳部服務(wù)規(guī)范培訓(xùn)材料
- 省略與替代講解與訓(xùn)練
- 眼視光學(xué)專業(yè)解析
- 超聲科室發(fā)展規(guī)劃方案
- 微信小程序的品牌營銷渠道與策略研究
- 2024屆高三化學(xué)二輪復(fù)習(xí)課件 生產(chǎn)應(yīng)用無機工業(yè)流程題的解法及策略(共96張)
- 作業(yè)崗位風(fēng)險評估報告
- 幼兒園公開課:小班社會《小熊你好》課件
- 生物信息學(xué)前沿探索
評論
0/150
提交評論