版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據分析與應用跨境電商教材編寫團隊Crossbordere-commerceCORSSBORDERE-COMMERCERESEARCHANDANALYSISCrossbordere-commerce跨境電商數(shù)據采集、清洗及處理OverviewofCrossborderE-commerceDataAnalysis項目二E-commerce跨境電商數(shù)據采集、清洗及處理知識目標掌握跨境電商數(shù)據采集的相關知識。熟悉跨境電商數(shù)據清洗的相關知識。掌握跨境電商數(shù)據處理的相關知識。技能目標能夠利用數(shù)據分析工具Excel完成跨境電商數(shù)據的采集工作。能夠利用數(shù)據分析工具Excel完成跨境電商數(shù)據清洗的相關工作。能夠利用數(shù)據分析工具Excel完成跨境電商數(shù)據處理的相關工作。素質目標通過對跨境電商市場數(shù)據的分析,培養(yǎng)學生的數(shù)據化思維能力。在分組完成實訓任務過程中,培養(yǎng)學生的團隊合作意識以及精益求精的職業(yè)素養(yǎng)。DSR采集機器人某跨境電商賣家,在大促活動之后,DSR評分(DetailSellerRating,店鋪動態(tài)評分)經常處于低于行業(yè)水平的邊緣。賣家需要把商品ID和對應的商品DSR分值抓取到Excel表中,以供分析哪些商品在售賣中出現(xiàn)了問題,及時調整銷售策略,從而幫助提升店鋪DSR評分。盡管市場上有商品DSR評價批量查詢工具,但逐條輸入商品ID再將信息復制粘貼到表中,仍然耗時費力。情景案例DSR采集機器人,可以自動查詢商品ID并將與之對應的商品DSR分值批量錄入本地Excel表中。方便查詢店鋪商品不同區(qū)間的描述評分,同時按照店鋪物流評分升序排列。每次跨境電商活動結束后,運營團隊的3個人都在查詢商品DSR分值。然而使用采集機器人分配到1臺電腦上,為公司節(jié)省了人力。使用DSR采集機器人進行商品DSR分值查詢,準確率高,不會遺漏任何商品DSR分值。案例分析人工智能技術在跨境電商數(shù)據分析行業(yè)的應用越來越多,雖然采集機器可以代替=人們做很多工作,但對于跨境電商數(shù)據分析從業(yè)人員而言,掌握基本的跨境電商數(shù)據采集、清洗和處理技術也是十分有必要的。DSR采集機器人Crossbordere-commerce跨境電商數(shù)據采集Crossbordere-commercedatacollection跨境電商數(shù)據采集的定義跨境電商數(shù)據采集概述跨境電商數(shù)據采集也稱為跨境電商數(shù)據獲取,是指利用采集工具或者系統(tǒng)程序獲取跨境電商平臺數(shù)據的過程。用戶與企業(yè)在利用跨境電子商務網站進行交易時,網站記錄下大量的商務數(shù)據,不僅包含基于用戶的瀏覽信息、消費信息、行為信息、評論信息、社交信息與地理位置信息等,還包含企業(yè)的商品信息以及交易信息。企業(yè)通過數(shù)據可以看到用戶從哪里來,如何實現(xiàn)產品的高轉化率,投放廣告的效率等??缇畴娚虜?shù)據采集的原則跨境電商數(shù)據采集概述在進行數(shù)據采集時盡可能獲取跨境電商的最新數(shù)據,只有將最新數(shù)據與往期數(shù)據進行比對,才能及時發(fā)現(xiàn)當前存在的問題,從而預測未來的變化趨勢。及時性數(shù)據采集時確保所采集的數(shù)據準確無誤,從而避免數(shù)據分析時出現(xiàn)較大的偏差。在數(shù)據分析過程中,一旦前期數(shù)據出現(xiàn)誤差,會導致后續(xù)分析出現(xiàn)偏差。準確性數(shù)據采集過程中,需要注意數(shù)值期限的有效性。有效性數(shù)據采集過程中注意采集的合法性。合法性01020304跨境電商數(shù)據采集渠道跨境電商數(shù)據采集渠道與工具跨境電商數(shù)據采集渠道是數(shù)據有效性、準確性、可靠性的保證。常見的數(shù)據采集渠道可分為內部數(shù)據渠道和外部數(shù)據渠道兩類。內部數(shù)據渠道是指獲取自身運營過程中所產生的數(shù)據。外部數(shù)據渠道是指能夠獲取行業(yè)及競爭對手數(shù)據的數(shù)據渠道。常用的數(shù)據采集渠道如表:數(shù)據采集渠道類型采集數(shù)據類型典型代表企業(yè)或網站跨境電商平臺行業(yè)數(shù)據速賣通、亞馬遜等政府部門、機構協(xié)會、媒體行業(yè)數(shù)據國家及各級統(tǒng)計局、各類協(xié)會、電視臺、報紙、雜志等權威的數(shù)據網站行業(yè)數(shù)據、產品數(shù)據艾瑞網、易觀分析等跨境電商獨立站、跨境電商店鋪后臺產品數(shù)據、市場數(shù)據、運營數(shù)據、人群數(shù)據等速賣通、亞馬遜的后臺,生意參謀、BusinessReports、Shopify等。跨境電商指數(shù)相關工具行業(yè)數(shù)據、人群數(shù)據GoogleTrends、GoogleAnalytics、百度指數(shù)等跨境電商數(shù)據采集工具選擇跨境電商數(shù)據采集渠道與工具市面上的跨境電商數(shù)據采集工具在功能、用途、使用難易程度上雖有相同,但也各有差異,選擇合適的跨境電商數(shù)據采集工具要從以下3方面進行考慮:賣家根據自身情況的不同,應當選擇不同的數(shù)據采集工具。使用范圍由數(shù)據采集工具所采集到的數(shù)據并不是真實的運營數(shù)據,而是對實際數(shù)據進行計算轉化后得到的數(shù)據,數(shù)據類型有所差異,在選擇該類數(shù)據采集工具時需要識別數(shù)據類型。數(shù)據類型需要根據采集需求選擇對應的工具。功能需求跨境電商數(shù)據采集方法的種類跨境電商數(shù)據采集方法根據采集的需求不同,跨境電商數(shù)據采集的方法也有所不同。在跨境電商運營領域中,數(shù)據采集的方法可以分為以下4類。數(shù)據庫數(shù)據采集數(shù)據庫數(shù)據采集是指通過數(shù)據庫采集系統(tǒng)直接與企業(yè)業(yè)務后臺服務器結合,將企業(yè)業(yè)務后臺每時每刻產生的大量業(yè)務記錄寫入數(shù)據庫最后由特定的處理系統(tǒng)進行數(shù)據分析。系統(tǒng)日志數(shù)據采集系統(tǒng)日志中會記錄企業(yè)業(yè)務平臺日志數(shù)據。通過對這些信息進行采集、分析,可以挖掘出跨境電商企業(yè)業(yè)務平臺數(shù)據中的潛在價值?;ヂ?lián)網數(shù)據采集互聯(lián)網數(shù)據分布于網頁不同的位置,需要將互聯(lián)網數(shù)據采集后導入本地文件,然后進行統(tǒng)一處理。調查問卷調查問卷是以問題形式系統(tǒng)記載調查內容的一種方式??缇畴娚虜?shù)據采集方法的種類跨境電商數(shù)據采集方法根據采集的需求不同,跨境電商數(shù)據采集的方法也有所不同。在跨境電商運營領域中,數(shù)據采集的方法可以分為以下4類。數(shù)據庫數(shù)據采集數(shù)據庫數(shù)據采集是指通過數(shù)據庫采集系統(tǒng)直接與企業(yè)業(yè)務后臺服務器結合,將企業(yè)業(yè)務后臺每時每刻產生的大量業(yè)務記錄寫入數(shù)據庫最后由特定的處理系統(tǒng)進行數(shù)據分析。系統(tǒng)日志數(shù)據采集系統(tǒng)日志中會記錄企業(yè)業(yè)務平臺日志數(shù)據。通過對這些信息進行采集、分析,可以挖掘出跨境電商企業(yè)業(yè)務平臺數(shù)據中的潛在價值?;ヂ?lián)網數(shù)據采集互聯(lián)網數(shù)據分布于網頁不同的位置,需要將互聯(lián)網數(shù)據采集后導入本地文件,然后進行統(tǒng)一處理。調查問卷調查問卷是以問題形式系統(tǒng)記載調查內容的一種方式??缇畴娚虜?shù)據采集實例跨境電商數(shù)據采集方法為了能更好地理解如何利用數(shù)據采集工具實現(xiàn)數(shù)據采集,下面利用八爪魚采集器實操演示爬取亞馬遜平臺上的一些商品評論信息。步驟1步驟2步驟3步驟4步驟5新建采集任務進行自定義任務的相關設置系統(tǒng)自動識別務調整或優(yōu)化采集規(guī)則完成采集并導出數(shù)據任務小結通過該任務的學習,學生能夠了解跨境電商數(shù)據采集的定義、掌握跨境電商數(shù)據采集的渠道與工具,并熟悉跨境電商數(shù)據采集的方法,為后續(xù)的學習做準備。任務評價評價內容自我評價(30分)同學互評(30分)教師評價(40分)分值平均分分值平均分分值平均分跨境電商數(shù)據采集的定義101010跨境電商數(shù)據采集的渠道與工具101010跨境電商數(shù)據采集的方法101020跨境電商數(shù)據采集評價表拓展實訓以八爪魚數(shù)據采集器為采集工具,采集某跨境電商網站上的一些商品評論信息。Crossbordere-commerce跨境電商數(shù)據清洗Crossbordere-commercedatacleaning跨境電商數(shù)據清洗的定義跨境電商數(shù)據清洗概述跨境電商數(shù)據清洗是指減少跨境電商數(shù)據文件中“臟數(shù)據”對數(shù)據分析和挖掘結果的影響,需要采用一些有效的措施對采集的跨境電商原始數(shù)據進行預處理。也可以說,是在跨境電商數(shù)據集中發(fā)現(xiàn)不準確、不完整或者不合理的數(shù)據,并對這些數(shù)據進行修補或移除以提高數(shù)據質量的過程。跨境電商數(shù)據清洗概述跨境電商數(shù)據清洗的方式跨境電商數(shù)據清洗原理是指利用有關技術,如數(shù)理統(tǒng)計、數(shù)據挖掘或預定義的清理規(guī)則,將“臟數(shù)據”轉化為滿足數(shù)據質量要求的數(shù)據。01清洗不必要的重復數(shù)據數(shù)據庫中屬性值相同的記錄被認為是重復記錄,通過判斷記錄間的屬性值是否相同來檢測記錄是否重復,并將重復的記錄合并為一條記錄(即合并/清除)。02填充殘失數(shù)據缺失值需要手動填入(即手動清洗)。某些缺失值可以從本數(shù)據源或者其他數(shù)據源中推導出來,可以用平均值、最大值、最小值或更為復雜的概率估計代替缺失值,從而達到清洗的目的。03檢驗邏輯錯誤數(shù)據用統(tǒng)計分析的方法識別可能的邏輯錯誤值或者異常值,如偏差分析、識別不遵守分布或者回歸方程的值,或使用不同屬性間的約束、外部的數(shù)據來檢測和清洗數(shù)據??缇畴娚虜?shù)據清洗概述跨境電商數(shù)據清洗的流程跨境電商數(shù)據清洗的流程主要包括以下7步選擇子集列名重命名刪除重復項缺失值處理一致化處理數(shù)據排序異常值查看處理跨境電商數(shù)據清洗基本操作重復數(shù)據的處理要對源數(shù)據中的重復數(shù)據進行處理,需要先查找出是否存在重復的數(shù)據,如果存在,需要先將其找出來,然后再刪除。數(shù)據透視表法數(shù)據透視表法是通過統(tǒng)計出現(xiàn)的頻次大于等于2的數(shù)據的方式來統(tǒng)計重復項的方法。函數(shù)法函數(shù)法是指利用COUNTIF(range,criteria)函數(shù)對區(qū)域中滿足單個指定條件的單元格進行計數(shù)。高級篩選法高級篩選法是利用Excel中“數(shù)據”選項卡中的高級篩選方式來刪除重復記錄。條件格式法條件格式法是利用Excel中“開始”選項卡的條件格式來找出重復數(shù)據。查找重復數(shù)據01040203跨境電商數(shù)據清洗基本操作重復數(shù)據的處理要對源數(shù)據中的重復數(shù)據進行處理,需要先查找出是否存在重復的數(shù)據,如果存在,需要先將其找出來,然后再刪除。通過菜單操作刪除重復項通過排序刪除重復項通過篩選刪除重復項刪除數(shù)據跨境電商數(shù)據清洗基本操作缺失數(shù)據處理除重復數(shù)據外,還經常會遇到缺失數(shù)據的問題。如果缺失值過多,說明數(shù)據收集過程中存在著嚴重的問題??梢越邮艿臉藴适侨笔е翟?0%以下。具體的處理操作步驟如下:查找缺失值的方式:利用定位輸入。相關知識處理缺失值的4種方式用一個樣本統(tǒng)計量的值代替缺失值。最典型的做法就是使用該變量的樣本平均值代替缺失值。方式11用一個統(tǒng)計模型計算出來的值代替缺失值。常使用的模型有回歸模型、判別模型等。方式22將有缺失值的記錄刪除,不過可能會導致樣本量的減少。方式33將有缺失值的記錄保留,僅在相應的分析中做出必要的排除。當調查的樣本量比較大,缺失值的數(shù)量又不是很多,而且變量之間也不存在高度相關的情況下,采用這個方法處理缺失值比較可行。方式44任務小結通過該任務的學習,學生能夠了解跨境電商數(shù)據清洗的基本定義,掌握跨境電商清洗的基本操作,為后續(xù)的學習做準備。任務評價評價內容自我評價(30分)同學互評(30分)教師評價(40分)分值平均分分值平均分分值平均分跨境電商數(shù)據清洗的定義151520跨境電商數(shù)據清洗的基本操作151520跨境電商數(shù)據清洗評價表拓展實訓以某跨境電商類網店的商品交易數(shù)據為數(shù)據源請掃描下方二維碼獲取數(shù)據包,包含店鋪中近期的交易數(shù)據,運用Excel工具,從缺失值、重復值、錯誤值三個方面對數(shù)據進行清洗??缇畴娚躺唐方灰讛?shù)據Crossbordere-commerce跨境電商數(shù)據處理Crossbordere-commercedataprocessing跨境電商數(shù)據處理概述跨境電商數(shù)據處理的定義跨境電商數(shù)據處理是指對收集到的數(shù)據進行加工、整理,形成合適的數(shù)據分析樣式,這是數(shù)據分析前必不可少的階段??缇畴娚虜?shù)據處理的基本目的就是從大量的、雜亂無章的、難以理解的數(shù)據中抽取并推導出對解決問題有價值的數(shù)據。一般來說,跨境電商數(shù)據處理是指從存儲的數(shù)據中,提取、篩選出有用的數(shù)據??缇畴娚虜?shù)據處理數(shù)據清洗數(shù)據轉化數(shù)據提取數(shù)據計算跨境電商數(shù)據處理概述數(shù)據計算Excel是最基本、最常用的跨境電商數(shù)據處理工具,通過Excel進行數(shù)據處理包括排序、篩選、數(shù)據透視表等。除此之外,跨境電商數(shù)據分析的工具還有Python、BI、SQL等,每種工具都有其優(yōu)劣勢,應根據實際情況來選擇分析工具??缇畴娚虜?shù)據處理方法跨境電商數(shù)據處理的工具簡單計算簡單計算就是字段通過加減乘除簡單的算術運算就能計算出來。在Excel中,加減乘除的運算符就是鍵盤中的“+、-、*、/”符號。函數(shù)計算SUM函數(shù)AVERAGE函數(shù)COUNT函數(shù)MAX函數(shù)和MIN函數(shù)SUMIF函數(shù)COUNTIF函數(shù)IF函數(shù)VLOOKUP函數(shù)RANK函數(shù)ABS函數(shù)跨境電商數(shù)據處理方法數(shù)據分組步驟1:準備一個分組對應表,用來確定分組的范圍和標準;步驟2:在B2單元格中輸入“=VLOOKUP(A2,$D$1:$E$12,2,1)”,并將公式自動填充到數(shù)據區(qū)域即可。源數(shù)據閾值分組表結果顯示跨境電商數(shù)據處理方法數(shù)據分列過數(shù)據分列,可以將一個單元格中的內容分到不同單元格中,快速整理數(shù)據。任務小
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 滬科版九年級數(shù)學上冊期末復習考點 第23章 解直角三角形知識歸納與題型突破(12類題型清單)
- 2024-2030年中國型鋼產業(yè)趨勢預測及投資產量分析報告
- 2024-2030年中國地鐵建設行業(yè)前景規(guī)劃及投資經營模式分析報告
- 2024年智能軟件使用與數(shù)據保密協(xié)議2篇
- 2024年特許經營合同(加盟)
- 梅河口康美職業(yè)技術學院《運動傷害事故處理與急救》2023-2024學年第一學期期末試卷
- 2024年“通辦”第二批事項指導目錄實施合同范本3篇
- 2024年二手手機買賣與市場推廣合作協(xié)議3篇
- 滿洲里俄語職業(yè)學院《云計算原理及應用》2023-2024學年第一學期期末試卷
- 影視動畫資源庫相關專業(yè)介紹
- 咖啡因提取的綜合性實驗教學
- 機關食堂年終個人工作總結
- GONE理論視角下宜華生活財務舞弊案例分析
- 初中語文默寫競賽方案
- 2023電力建設工程監(jiān)理月報范本
- 汽車空調檢測與維修-說課課件
- 氨水濃度密度對照表
- 白雪歌送武判官歸京公開課一等獎課件省課獲獎課件
- 園林植物栽培與環(huán)境
- 小型雙級液壓舉升器設計
- 9月支部委員會會議記錄
評論
0/150
提交評論