版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
從評論數(shù)據(jù)分析產(chǎn)品口碑
以Kindle為實例分析數(shù)據(jù)分析的目的理解數(shù)據(jù)數(shù)據(jù)清洗及結構建模案例總結分析01020304Kindle實例分析背景在網(wǎng)上購物的時候,除了關注商品的價格和性能之外,人們往往會更加關注該類商品的評論內容及好評度如何,這些都是購買商品的重要指標。
以Kindle為實例,從kaggle平臺上下載關于Kindle產(chǎn)品的消費者評論數(shù)據(jù),通過這份數(shù)據(jù)分析兩個方面內容:用戶對Kindle相關產(chǎn)品的好評率如何?對Kindle相關產(chǎn)品備受好評的原因是什么?
數(shù)據(jù)分析目的提出問題:
(1)Kindle相關產(chǎn)品的評論數(shù)排名和平均評分能反映哪些問題?
(2)Kindle相關產(chǎn)品的好評率如何?推薦評論占比怎樣?
(3)Kindle相關產(chǎn)品隨時間變化其評論數(shù)的變化情況是怎樣?
(4)Kindle相關產(chǎn)品備受好評的原因主要是什么?010203理清數(shù)據(jù)來源根據(jù)數(shù)據(jù)分析目標尋找合適,可靠的數(shù)據(jù)來源。此次數(shù)據(jù)分析的來源為:/datafiniti/consumer-reviews-of-amazon-products/home整理可用字段id-用戶編號name-產(chǎn)品名稱asins-產(chǎn)品編號,每一個產(chǎn)品編號對應一個產(chǎn)品,可用它進行產(chǎn)品分組brand-品牌categories-產(chǎn)品類別理解數(shù)據(jù)選取子集01初步處理02處理缺失03一致化處理04MarketsEXISITNGNEWNEWEXISITNG篩選復制數(shù)據(jù)處理缺失值1)對比缺失內容,通過手動輸入內容補全2)刪除缺失的數(shù)據(jù)3)用平均值代替缺失值4)用統(tǒng)計模型計算出的值去代替缺失值重命名及刪除重復項目整體完善1)日期格式轉換2)分組數(shù)據(jù)清洗數(shù)據(jù)清洗1、選取子集
1)在產(chǎn)品類別(categories)中篩選含Kindle類別的產(chǎn)品,并將篩選的數(shù)據(jù)復制到新的文件中數(shù)據(jù)清洗1、選取子集
2)隱藏與分析問題無關的字段,保留以下字段:name-產(chǎn)品名稱、asins-產(chǎn)品編號、categories-產(chǎn)品類別、reviews.date-評論時間、reviews.doRecommend-評論是否被推薦、reviews.rating-評分、reviews.text-評論文字內容、reviews.title-評論標題。數(shù)據(jù)清洗2、列重命名將數(shù)據(jù)集中字段的名稱更改為中文字段數(shù)據(jù)清洗3、刪除重復項
這里需要對評論文字內容列進行刪除重復項,此操作刪除0個重復項。4、處理缺失值缺失值處理方法有四種:1)對比缺失內容,通過手動輸入內容補全;2)刪除缺失的數(shù)據(jù);3)用平均值代替缺失值;4)用統(tǒng)計模型計算出的值去代替缺失值。通過篩選查看各字段內容,發(fā)現(xiàn)產(chǎn)品名稱(name)、產(chǎn)品品牌(asins)、評分(rating)、評論時間(date)和是否被推薦(doRecommend)字段中均存在缺失值。a.
產(chǎn)品名稱(name)、產(chǎn)品編號(asins)、評分(rating)、評論時間(date):對這4個字段中存在的缺失值,為了避免輸入錯誤信息或刪除有用的信息,這里選擇直接刪除空白項對應的行操作:選擇對應字段–定位條件-空值-刪除行b.是否被推薦(doRecommend):用FALSE手動補全評論是否被推薦(doRecommend)字段中的缺失值操作:選擇對應字段-定位條件-空值-輸入FALSE-ctrl+Enter數(shù)據(jù)清洗5、一致化處理1)日期格式轉換評論時間字段中格式包含日期+時間,分析中并未使用到具體時間段,這里把評論日期拆分為三列,分別為年、月、日。年:插入一列年,使用LEFT()函數(shù):
數(shù)據(jù)清洗5、一致化處理月:插入一列月,使用MID()函數(shù)和FIND()函數(shù)
數(shù)據(jù)清洗5、一致化處理日:插入一列日,使用MID()函數(shù)和FIND()函數(shù)
數(shù)據(jù)清洗5、一致化處理2)分組
在評分字段后面插入一列評價等級,對評分進行分組,03分為差評,45分為好評使用IF函數(shù)實現(xiàn):=IF(P2<=3,"差評","好評")
構建模型1、Kindle相關產(chǎn)品的評論數(shù)排名和平均評分能反映哪些問題?
利用數(shù)據(jù)透視表對每個產(chǎn)品進行統(tǒng)計評論數(shù),并按高低排名,通過產(chǎn)品評論數(shù),可以大概了解到各產(chǎn)品的銷售情況,評論數(shù)越多,表示該產(chǎn)品銷量越多。
構建模型1、Kindle相關產(chǎn)品的評論數(shù)排名和平均評分能反映哪些問題?
由圖上可以看出,產(chǎn)品(AmazonKindlePaperwhite-eBookreader-4GB-6monochromePaperwhite-touchscreen-Wi-Fi-black)的評論數(shù)最多,前3名的評論數(shù)差別不大,從第4名起評論數(shù)明顯減少,相比第1名減少5倍多,這說明Kindle類產(chǎn)品容易出現(xiàn)聚集效應,絕大部分用戶只喜歡特定的兩三種產(chǎn)品。
產(chǎn)品的平均評分表示消費者對該產(chǎn)品的評價。構建模型1、Kindle相關產(chǎn)品的評論數(shù)排名和平均評分能反映哪些問題?
由圖上可知,大多數(shù)產(chǎn)品的平均評分都在4.5分或以上,這說明Kindle類產(chǎn)品的評價都較高。但有些產(chǎn)品的評論數(shù)很少,考慮是知名度較低,或者相對其他產(chǎn)品有明顯的缺點。構建模型2、Kindle相關產(chǎn)品評論總數(shù)中各評分的占比?推薦評論中好評數(shù)量占比怎樣?
首先,統(tǒng)計評論中每個評分(1~5分)占有多少數(shù)量。使用數(shù)據(jù)透視表,將評分字段拉入行和值選框,得到如下數(shù)據(jù):
構建模型2、Kindle相關產(chǎn)品評論總數(shù)中各評分的占比?推薦評論中好評數(shù)量占比怎樣?
插入餅圖,了解各評分段的占比:通過數(shù)據(jù)透視表對評價等級中統(tǒng)計好評數(shù)量與差評的占比,并插入餅圖:
構建模型2、Kindle相關產(chǎn)品評論總數(shù)中各評分的占比?推薦評論中好評數(shù)量占比怎樣?
由圖上可以看出,評分中3分及3分以下的占比5%,4分及以上的占比95%,由此可見該類好評率高達95%,雖然不能保證所有評論評分都值得相信,但是仍然反映用戶對Kindle相關產(chǎn)品的使用普遍感到滿意。
構建模型3、Kindle相關產(chǎn)品隨時間變化其評論數(shù)的變化情況是怎樣的?
使用數(shù)據(jù)透視表,將年拉入行標簽處,對評論文字內容進行計數(shù)統(tǒng)計,并插入折線圖,分析總評論數(shù)隨時間的變化趨勢:
構建模型3、Kindle相關產(chǎn)品隨時間變化其評論數(shù)的變化情況是怎樣的?
使用數(shù)據(jù)透視表,將年拉入行標簽處,將產(chǎn)品名稱拉入列標簽處,對評論文字內容進行計數(shù)統(tǒng)計:
構建模型3、Kindle相關產(chǎn)品隨時間變化其評論數(shù)的變化情況是怎樣的?
插入折線圖,分析Kindle類各產(chǎn)品評論數(shù)隨時間的變化趨勢:
由圖上可知,評論數(shù)量是從2015年開始快速變化的,從15年急劇增加到6000多,有關Kindle的產(chǎn)品種類也是從15年快速上升。構建模型3、Kindle相關產(chǎn)品隨時間變化其評論數(shù)的變化情況是怎樣的?
選取15、16和17年三個主要年份進行逐月分析:
由圖上可以看出,評論數(shù)量是從2015年開始迅速增加,在2016年12月達到最高峰,用戶一年中的消費主要集中在11月、12月和1月。構建模型4、Kindle相關產(chǎn)品廣受好評的原因主要是什么?
對評論文字內容字段進行關鍵字提取,獲取產(chǎn)品受歡迎的原因有哪些?
該部分使用到Python軟件,通過調用第三方工具包,對評論內容生成詞云,從而獲得關鍵信息
Python代碼如下:
構建模型4、Kindle相關產(chǎn)品廣受好評的原因主要是什么?
最后生成詞云圖片為:
由圖上可知,Oasis(鋼化膜)、cover(封面)、電池壽命長(batterylife)、輕便(veryhandy)、小巧(small)、運行流暢(worksgreat)這些字樣特別明顯,這說明消費者喜歡該類產(chǎn)品的原因是它輕便小巧、電池壽命長、運行流暢、價格實惠、封面漂亮,但是屏幕易碎,需要貼膜??偨Y建議1、總結Kindle及周邊各產(chǎn)品評分比較高,但評論數(shù)排名前3和排名第4名起其數(shù)目差距比較大,大部分產(chǎn)品只有少數(shù)評論數(shù),絕大部分用戶只喜歡特定的兩三種產(chǎn)品。Kindle及周邊商品深受消費者喜愛,好評度很高。Kindle及周邊產(chǎn)品在每年1月、11月和12月評論數(shù)驟增,應加大銷售手段,刺激消費增長銷售額。Kindle及周邊產(chǎn)品廣受好評的主要原因是:其產(chǎn)品特點輕便小巧、電池壽命長、運行流暢、價格實惠、封面漂亮2、建議
選擇最受歡迎的三種產(chǎn)品作為主要商品,分別是Amazon
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 團干部培訓開班儀式
- 滅火器實操培訓
- 2.2大氣的受熱過程和大氣運動(第1課時)(導學案)高一地理同步高效課堂(人教版2019必修一)
- 山東省青島市嶗山區(qū)2024-2025學年度第一學期期中檢測七年級語文試題(膠州、黃島聯(lián)考)(A4生用)
- 部編版2024-2025學年語文五年級上冊第4單元-單元測試卷(含答案)
- T-YNZYC 0122-2024 綠色藥材 仙茅組培苗生產(chǎn)技術規(guī)程
- 語文語法總結
- 水利工程經(jīng)濟學講稿
- 個人收入分配一輪復習
- 拔叉標準工藝卡片和專項說明書
- GB/T 43884-2024金屬覆蓋層鋼鐵制件的鋅擴散層-滲鋅技術要求
- (高清版)JTST 325-2024 水下深層水泥攪拌樁法施工質量控制與檢驗標準
- 2024年惠州仲愷城市發(fā)展集團有限公司招聘筆試沖刺題(帶答案解析)
- 三級醫(yī)院科教管理評估細則科研評分表
- 燃氣經(jīng)營許可申請
- MOOC 英文學術寫作實戰(zhàn)-北京大學 中國大學慕課答案
- 非傳統(tǒng)安全概論課件
- 2024春形勢與政策課件當前國際形勢與中國原則立場
- 《新時代“一帶一路”的戰(zhàn)略解讀與機遇》題庫
- 2024年餐廳服務員(三級)職業(yè)鑒定考試題庫大全-上(單選題)
評論
0/150
提交評論