跨境電商數據分析與應用-課件 項目二 跨境電商數據采集、清洗及處理_第1頁
跨境電商數據分析與應用-課件 項目二 跨境電商數據采集、清洗及處理_第2頁
跨境電商數據分析與應用-課件 項目二 跨境電商數據采集、清洗及處理_第3頁
跨境電商數據分析與應用-課件 項目二 跨境電商數據采集、清洗及處理_第4頁
跨境電商數據分析與應用-課件 項目二 跨境電商數據采集、清洗及處理_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據分析與應用跨境電商教材編寫團隊Crossbordere-commerceCORSSBORDERE-COMMERCERESEARCHANDANALYSISCrossbordere-commerce跨境電商數據采集、清洗及處理OverviewofCrossborderE-commerceDataAnalysis項目二E-commerce跨境電商數據采集、清洗及處理知識目標掌握跨境電商數據采集的相關知識。熟悉跨境電商數據清洗的相關知識。掌握跨境電商數據處理的相關知識。技能目標能夠利用數據分析工具Excel完成跨境電商數據的采集工作。能夠利用數據分析工具Excel完成跨境電商數據清洗的相關工作。能夠利用數據分析工具Excel完成跨境電商數據處理的相關工作。素質目標通過對跨境電商市場數據的分析,培養(yǎng)學生的數據化思維能力。在分組完成實訓任務過程中,培養(yǎng)學生的團隊合作意識以及精益求精的職業(yè)素養(yǎng)。DSR采集機器人某跨境電商賣家,在大促活動之后,DSR評分(DetailSellerRating,店鋪動態(tài)評分)經常處于低于行業(yè)水平的邊緣。賣家需要把商品ID和對應的商品DSR分值抓取到Excel表中,以供分析哪些商品在售賣中出現了問題,及時調整銷售策略,從而幫助提升店鋪DSR評分。盡管市場上有商品DSR評價批量查詢工具,但逐條輸入商品ID再將信息復制粘貼到表中,仍然耗時費力。情景案例DSR采集機器人,可以自動查詢商品ID并將與之對應的商品DSR分值批量錄入本地Excel表中。方便查詢店鋪商品不同區(qū)間的描述評分,同時按照店鋪物流評分升序排列。每次跨境電商活動結束后,運營團隊的3個人都在查詢商品DSR分值。然而使用采集機器人分配到1臺電腦上,為公司節(jié)省了人力。使用DSR采集機器人進行商品DSR分值查詢,準確率高,不會遺漏任何商品DSR分值。案例分析人工智能技術在跨境電商數據分析行業(yè)的應用越來越多,雖然采集機器可以代替=人們做很多工作,但對于跨境電商數據分析從業(yè)人員而言,掌握基本的跨境電商數據采集、清洗和處理技術也是十分有必要的。DSR采集機器人Crossbordere-commerce跨境電商數據采集Crossbordere-commercedatacollection跨境電商數據采集的定義跨境電商數據采集概述跨境電商數據采集也稱為跨境電商數據獲取,是指利用采集工具或者系統(tǒng)程序獲取跨境電商平臺數據的過程。用戶與企業(yè)在利用跨境電子商務網站進行交易時,網站記錄下大量的商務數據,不僅包含基于用戶的瀏覽信息、消費信息、行為信息、評論信息、社交信息與地理位置信息等,還包含企業(yè)的商品信息以及交易信息。企業(yè)通過數據可以看到用戶從哪里來,如何實現產品的高轉化率,投放廣告的效率等。跨境電商數據采集的原則跨境電商數據采集概述在進行數據采集時盡可能獲取跨境電商的最新數據,只有將最新數據與往期數據進行比對,才能及時發(fā)現當前存在的問題,從而預測未來的變化趨勢。及時性數據采集時確保所采集的數據準確無誤,從而避免數據分析時出現較大的偏差。在數據分析過程中,一旦前期數據出現誤差,會導致后續(xù)分析出現偏差。準確性數據采集過程中,需要注意數值期限的有效性。有效性數據采集過程中注意采集的合法性。合法性01020304跨境電商數據采集渠道跨境電商數據采集渠道與工具跨境電商數據采集渠道是數據有效性、準確性、可靠性的保證。常見的數據采集渠道可分為內部數據渠道和外部數據渠道兩類。內部數據渠道是指獲取自身運營過程中所產生的數據。外部數據渠道是指能夠獲取行業(yè)及競爭對手數據的數據渠道。常用的數據采集渠道如表:數據采集渠道類型采集數據類型典型代表企業(yè)或網站跨境電商平臺行業(yè)數據速賣通、亞馬遜等政府部門、機構協(xié)會、媒體行業(yè)數據國家及各級統(tǒng)計局、各類協(xié)會、電視臺、報紙、雜志等權威的數據網站行業(yè)數據、產品數據艾瑞網、易觀分析等跨境電商獨立站、跨境電商店鋪后臺產品數據、市場數據、運營數據、人群數據等速賣通、亞馬遜的后臺,生意參謀、BusinessReports、Shopify等??缇畴娚讨笖迪嚓P工具行業(yè)數據、人群數據GoogleTrends、GoogleAnalytics、百度指數等跨境電商數據采集工具選擇跨境電商數據采集渠道與工具市面上的跨境電商數據采集工具在功能、用途、使用難易程度上雖有相同,但也各有差異,選擇合適的跨境電商數據采集工具要從以下3方面進行考慮:賣家根據自身情況的不同,應當選擇不同的數據采集工具。使用范圍由數據采集工具所采集到的數據并不是真實的運營數據,而是對實際數據進行計算轉化后得到的數據,數據類型有所差異,在選擇該類數據采集工具時需要識別數據類型。數據類型需要根據采集需求選擇對應的工具。功能需求跨境電商數據采集方法的種類跨境電商數據采集方法根據采集的需求不同,跨境電商數據采集的方法也有所不同。在跨境電商運營領域中,數據采集的方法可以分為以下4類。數據庫數據采集數據庫數據采集是指通過數據庫采集系統(tǒng)直接與企業(yè)業(yè)務后臺服務器結合,將企業(yè)業(yè)務后臺每時每刻產生的大量業(yè)務記錄寫入數據庫最后由特定的處理系統(tǒng)進行數據分析。系統(tǒng)日志數據采集系統(tǒng)日志中會記錄企業(yè)業(yè)務平臺日志數據。通過對這些信息進行采集、分析,可以挖掘出跨境電商企業(yè)業(yè)務平臺數據中的潛在價值?;ヂ摼W數據采集互聯網數據分布于網頁不同的位置,需要將互聯網數據采集后導入本地文件,然后進行統(tǒng)一處理。調查問卷調查問卷是以問題形式系統(tǒng)記載調查內容的一種方式。跨境電商數據采集方法的種類跨境電商數據采集方法根據采集的需求不同,跨境電商數據采集的方法也有所不同。在跨境電商運營領域中,數據采集的方法可以分為以下4類。數據庫數據采集數據庫數據采集是指通過數據庫采集系統(tǒng)直接與企業(yè)業(yè)務后臺服務器結合,將企業(yè)業(yè)務后臺每時每刻產生的大量業(yè)務記錄寫入數據庫最后由特定的處理系統(tǒng)進行數據分析。系統(tǒng)日志數據采集系統(tǒng)日志中會記錄企業(yè)業(yè)務平臺日志數據。通過對這些信息進行采集、分析,可以挖掘出跨境電商企業(yè)業(yè)務平臺數據中的潛在價值?;ヂ摼W數據采集互聯網數據分布于網頁不同的位置,需要將互聯網數據采集后導入本地文件,然后進行統(tǒng)一處理。調查問卷調查問卷是以問題形式系統(tǒng)記載調查內容的一種方式。跨境電商數據采集實例跨境電商數據采集方法為了能更好地理解如何利用數據采集工具實現數據采集,下面利用八爪魚采集器實操演示爬取亞馬遜平臺上的一些商品評論信息。步驟1步驟2步驟3步驟4步驟5新建采集任務進行自定義任務的相關設置系統(tǒng)自動識別務調整或優(yōu)化采集規(guī)則完成采集并導出數據任務小結通過該任務的學習,學生能夠了解跨境電商數據采集的定義、掌握跨境電商數據采集的渠道與工具,并熟悉跨境電商數據采集的方法,為后續(xù)的學習做準備。任務評價評價內容自我評價(30分)同學互評(30分)教師評價(40分)分值平均分分值平均分分值平均分跨境電商數據采集的定義101010跨境電商數據采集的渠道與工具101010跨境電商數據采集的方法101020跨境電商數據采集評價表拓展實訓以八爪魚數據采集器為采集工具,采集某跨境電商網站上的一些商品評論信息。Crossbordere-commerce跨境電商數據清洗Crossbordere-commercedatacleaning跨境電商數據清洗的定義跨境電商數據清洗概述跨境電商數據清洗是指減少跨境電商數據文件中“臟數據”對數據分析和挖掘結果的影響,需要采用一些有效的措施對采集的跨境電商原始數據進行預處理。也可以說,是在跨境電商數據集中發(fā)現不準確、不完整或者不合理的數據,并對這些數據進行修補或移除以提高數據質量的過程??缇畴娚虜祿逑锤攀隹缇畴娚虜祿逑吹姆绞娇缇畴娚虜祿逑丛硎侵咐糜嘘P技術,如數理統(tǒng)計、數據挖掘或預定義的清理規(guī)則,將“臟數據”轉化為滿足數據質量要求的數據。01清洗不必要的重復數據數據庫中屬性值相同的記錄被認為是重復記錄,通過判斷記錄間的屬性值是否相同來檢測記錄是否重復,并將重復的記錄合并為一條記錄(即合并/清除)。02填充殘失數據缺失值需要手動填入(即手動清洗)。某些缺失值可以從本數據源或者其他數據源中推導出來,可以用平均值、最大值、最小值或更為復雜的概率估計代替缺失值,從而達到清洗的目的。03檢驗邏輯錯誤數據用統(tǒng)計分析的方法識別可能的邏輯錯誤值或者異常值,如偏差分析、識別不遵守分布或者回歸方程的值,或使用不同屬性間的約束、外部的數據來檢測和清洗數據??缇畴娚虜祿逑锤攀隹缇畴娚虜祿逑吹牧鞒炭缇畴娚虜祿逑吹牧鞒讨饕ㄒ韵?步選擇子集列名重命名刪除重復項缺失值處理一致化處理數據排序異常值查看處理跨境電商數據清洗基本操作重復數據的處理要對源數據中的重復數據進行處理,需要先查找出是否存在重復的數據,如果存在,需要先將其找出來,然后再刪除。數據透視表法數據透視表法是通過統(tǒng)計出現的頻次大于等于2的數據的方式來統(tǒng)計重復項的方法。函數法函數法是指利用COUNTIF(range,criteria)函數對區(qū)域中滿足單個指定條件的單元格進行計數。高級篩選法高級篩選法是利用Excel中“數據”選項卡中的高級篩選方式來刪除重復記錄。條件格式法條件格式法是利用Excel中“開始”選項卡的條件格式來找出重復數據。查找重復數據01040203跨境電商數據清洗基本操作重復數據的處理要對源數據中的重復數據進行處理,需要先查找出是否存在重復的數據,如果存在,需要先將其找出來,然后再刪除。通過菜單操作刪除重復項通過排序刪除重復項通過篩選刪除重復項刪除數據跨境電商數據清洗基本操作缺失數據處理除重復數據外,還經常會遇到缺失數據的問題。如果缺失值過多,說明數據收集過程中存在著嚴重的問題??梢越邮艿臉藴适侨笔е翟?0%以下。具體的處理操作步驟如下:查找缺失值的方式:利用定位輸入。相關知識處理缺失值的4種方式用一個樣本統(tǒng)計量的值代替缺失值。最典型的做法就是使用該變量的樣本平均值代替缺失值。方式11用一個統(tǒng)計模型計算出來的值代替缺失值。常使用的模型有回歸模型、判別模型等。方式22將有缺失值的記錄刪除,不過可能會導致樣本量的減少。方式33將有缺失值的記錄保留,僅在相應的分析中做出必要的排除。當調查的樣本量比較大,缺失值的數量又不是很多,而且變量之間也不存在高度相關的情況下,采用這個方法處理缺失值比較可行。方式44任務小結通過該任務的學習,學生能夠了解跨境電商數據清洗的基本定義,掌握跨境電商清洗的基本操作,為后續(xù)的學習做準備。任務評價評價內容自我評價(30分)同學互評(30分)教師評價(40分)分值平均分分值平均分分值平均分跨境電商數據清洗的定義151520跨境電商數據清洗的基本操作151520跨境電商數據清洗評價表拓展實訓以某跨境電商類網店的商品交易數據為數據源請掃描下方二維碼獲取數據包,包含店鋪中近期的交易數據,運用Excel工具,從缺失值、重復值、錯誤值三個方面對數據進行清洗。跨境電商商品交易數據Crossbordere-commerce跨境電商數據處理Crossbordere-commercedataprocessing跨境電商數據處理概述跨境電商數據處理的定義跨境電商數據處理是指對收集到的數據進行加工、整理,形成合適的數據分析樣式,這是數據分析前必不可少的階段??缇畴娚虜祿幚淼幕灸康木褪菑拇罅康?、雜亂無章的、難以理解的數據中抽取并推導出對解決問題有價值的數據。一般來說,跨境電商數據處理是指從存儲的數據中,提取、篩選出有用的數據??缇畴娚虜祿幚頂祿逑磾祿D化數據提取數據計算跨境電商數據處理概述數據計算Excel是最基本、最常用的跨境電商數據處理工具,通過Excel進行數據處理包括排序、篩選、數據透視表等。除此之外,跨境電商數據分析的工具還有Python、BI、SQL等,每種工具都有其優(yōu)劣勢,應根據實際情況來選擇分析工具??缇畴娚虜祿幚矸椒缇畴娚虜祿幚淼墓ぞ吆唵斡嬎愫唵斡嬎憔褪亲侄瓮ㄟ^加減乘除簡單的算術運算就能計算出來。在Excel中,加減乘除的運算符就是鍵盤中的“+、-、*、/”符號。函數計算SUM函數AVERAGE函數COUNT函數MAX函數和MIN函數SUMIF函數COUNTIF函數IF函數VLOOKUP函數RANK函數ABS函數跨境電商數據處理方法數據分組步驟1:準備一個分組對應表,用來確定分組的范圍和標準;步驟2:在B2單元格中輸入“=VLOOKUP(A2,$D$1:$E$12,2,1)”,并將公式自動填充到數據區(qū)域即可。源數據閾值分組表結果顯示跨境電商數據處理方法數據分列過數據分列,可以將一個單元格中的內容分到不同單元格中,快速整理數據。任務小

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論