版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)分析教程——制作數(shù)據(jù)報(bào)告的流程上圖中可以很清楚的看到,一個數(shù)據(jù)報(bào)告(副本)依據(jù)需求不同,有普通難度(藍(lán)->橙->綠->紅),也有英雄難度(藍(lán)->橙->綠+黃->紅),這次我們先講普通難度的攻略,英雄難度放到下次講。普通難度的數(shù)據(jù)報(bào)告要經(jīng)歷7個步驟:Step1:目標(biāo)確定這一步在工作中通常是由你的客戶/上級/其他部門同事/合作方提出來的,但第一次的數(shù)據(jù)報(bào)告中,需要你自己來提出并確定目標(biāo)。選擇目標(biāo)時,請注意以下幾點(diǎn):選擇一個你比較熟悉,或者比較感興趣的領(lǐng)域/行業(yè);選擇一個范圍比較小的細(xì)分領(lǐng)域/細(xì)分行業(yè)作為切入點(diǎn);確定這個領(lǐng)域/行業(yè)有公開發(fā)表的數(shù)據(jù)/可以獲取的UGC內(nèi)容(論壇帖子,用戶點(diǎn)評等)。逐一分析上面三個注意點(diǎn):1、選擇熟悉/感興趣的領(lǐng)域/行業(yè),是為了保證你在后續(xù)的分析過程中能夠真正觸及事情的本質(zhì)——這一過程通常稱為洞察——而不是就數(shù)字論數(shù)字;選擇細(xì)分領(lǐng)域/行業(yè)作為切入點(diǎn),是為了保證你的報(bào)告能夠有一條清晰的主線,而非單純堆砌數(shù)據(jù);確定公開數(shù)據(jù)/UGC內(nèi)容,是為了保證你有數(shù)據(jù)可以分析,可以做成報(bào)告,你說你是個軍迷,要分析一下美國在伊拉克的軍事行動與基地組織恐怖活動之間的關(guān)系……找到了數(shù)據(jù)麻煩告訴我一聲,我叫你一聲大神……不管用什么方法,你現(xiàn)在有了一個目標(biāo),那么就向下個階段邁進(jìn)吧。Step2:數(shù)據(jù)獲取目標(biāo)定下來了,接下來要去找相應(yīng)的數(shù)據(jù)。如果你制定目標(biāo)時完全遵循了第一步的三個注意點(diǎn),那么你現(xiàn)在會很明確要找哪些數(shù)據(jù)。如果現(xiàn)在你還不確定自己需要哪些數(shù)據(jù),那么……回到第一步重來吧。下面我總結(jié)一下,在不依賴公司資源,不花錢買數(shù)據(jù)的情況下,獲取目標(biāo)數(shù)據(jù)的三類方法:從一些有公開數(shù)據(jù)的網(wǎng)站上復(fù)制/下載,比如統(tǒng)計(jì)局網(wǎng)站,各類行業(yè)網(wǎng)站等,通過搜索引擎可以很容易找到這些網(wǎng)站。舉例:要找汽車銷量數(shù)據(jù),在百度輸入“汽車銷量數(shù)據(jù)查詢”關(guān)鍵字,結(jié)果如下:我打碼的那個鏈接,也就是第三個鏈接(第一個非推廣鏈接)就是要找的結(jié)果,點(diǎn)進(jìn)去可以看到各月的汽車銷量,但只是全國數(shù)據(jù),沒有分省統(tǒng)計(jì)數(shù)據(jù)。當(dāng)然不會每次找數(shù)據(jù)都這么順利,這里只是告訴你:要善用搜索引擎。通過一些專門做數(shù)據(jù)整理打包的網(wǎng)站/api來下載,如果你要找金融類的數(shù)據(jù),這種方法比較實(shí)用。其他類型的數(shù)據(jù)也有人做,但通常要收費(fèi)。自行收集所需數(shù)據(jù),比如用爬蟲工具爬取點(diǎn)評網(wǎng)站的商家評分、評價內(nèi)容等,或是直接自己人肉收集(手工復(fù)制下來),亦或是找一個免費(fèi)問卷網(wǎng)站做一份問卷然后散發(fā)給你身邊的人,都是可以的。這種方式受限制較少,但工作量/實(shí)現(xiàn)難度相對較大。如果你是在職人員或是實(shí)習(xí)生,我建議你不要用任何現(xiàn)在公司的數(shù)據(jù)。保證數(shù)據(jù)的安全性,不對外泄露公司的任何非公開數(shù)據(jù),是數(shù)據(jù)分析師的基本職業(yè)道德。實(shí)在非要用(例如你要在面試中展示你在以前公司做過的數(shù)據(jù)報(bào)告),請將一切有意義的內(nèi)容,包括但不限于各種數(shù)字、競品及本品名稱、時間、用戶屬性全部打碼并轉(zhuǎn)成pdf格式,只留圖形和敘事邏輯描述內(nèi)容。Step3:數(shù)據(jù)清洗在工作中,90%以上的情況,你拿到的數(shù)據(jù)都需要先做清洗工作,排除異常值、空白值、無效值、重復(fù)值等等。這項(xiàng)工作經(jīng)常會占到整個數(shù)據(jù)分析過程將近一半的時間。如果在上一步中,你的數(shù)據(jù)是通過手工復(fù)制/下載獲取的,那么通常會比較干凈,不需要做太多清洗工作。但如果數(shù)據(jù)是通過爬蟲等方式得來,那么你需要進(jìn)行清洗,提取核心內(nèi)容,去掉網(wǎng)頁代碼、標(biāo)點(diǎn)符號等無用內(nèi)容。無論你采用哪一種方式獲取數(shù)據(jù),請記住,數(shù)據(jù)清洗永遠(yuǎn)是你必須要做的一項(xiàng)工作。Step4:數(shù)據(jù)整理清洗過后,需要進(jìn)行數(shù)據(jù)整理,即將數(shù)據(jù)整理為能夠進(jìn)行下一步分析的格式,對于初學(xué)者,用Excel來完成這一工作就OK。如果你的數(shù)據(jù)已經(jīng)是表格形式,那么計(jì)算一些二級指標(biāo)就好,比如用今年銷量和去年銷量算出同比增長率。鑒于你是第一次做數(shù)據(jù)報(bào)告,建議你不要計(jì)算太多復(fù)雜的二級指標(biāo),基本的同比、環(huán)比、占比分布這些就OK。如果你收集的是一些非數(shù)字的數(shù)據(jù),比如對商家的點(diǎn)評,那么你進(jìn)行下一步統(tǒng)計(jì)之前,需要通過“關(guān)鍵詞-標(biāo)簽”方式,將句子轉(zhuǎn)化為標(biāo)簽,再對標(biāo)簽進(jìn)行統(tǒng)計(jì)。Step5:描述分析描述分析是最基本的分析統(tǒng)計(jì)方法,在實(shí)際工作中也是應(yīng)用最廣的分析方法。描述統(tǒng)計(jì)分為兩大部分:數(shù)據(jù)描述和指標(biāo)統(tǒng)計(jì)。數(shù)據(jù)描述:用來對數(shù)據(jù)進(jìn)行基本情況的刻畫,包括:數(shù)據(jù)總數(shù)、時間跨度、時間粒度、空間范圍、空間粒度、數(shù)據(jù)來源等。如果是建模,那么還要看數(shù)據(jù)的極值、分布、離散度等內(nèi)容。這次我們是零基礎(chǔ)做數(shù)據(jù)報(bào)告,那么就不用考慮后一類數(shù)據(jù)了。指標(biāo)統(tǒng)計(jì):用來作報(bào)告,分析實(shí)際情況的數(shù)據(jù)指標(biāo),可粗略分為四大類:變化、分布、對比、預(yù)測;變化:指標(biāo)隨時間的變動,表現(xiàn)為增幅(同比、環(huán)比等);分布:指標(biāo)在不同層次上的表現(xiàn),包括地域分布(省、市、區(qū)縣、店/網(wǎng)點(diǎn))、用戶群分布(年齡、性別、職業(yè)等)、產(chǎn)品分布(如動感地帶和全球通)等;對比:包括內(nèi)部對比和外部對比,內(nèi)部對比包括團(tuán)隊(duì)對比(團(tuán)隊(duì)A與B的單產(chǎn)對比、銷量對比等)、產(chǎn)品線對比(動感地帶和全球通的ARPU、用戶數(shù)、收入對比);外部對比主要是與市場環(huán)境和競爭者對比;這一部分和分布有重疊的地方,但分布更多用于找出好或壞的地方,而對比更偏重于找到好或壞的原因;預(yù)測:根據(jù)現(xiàn)有情況,估計(jì)下個分析時段的指標(biāo)值。描述分析的產(chǎn)出是圖表,下一個步驟的內(nèi)容將基于這些圖表產(chǎn)出。Step6:洞察結(jié)論這一步是數(shù)據(jù)報(bào)告的核心,也是最能看出數(shù)據(jù)分析師水平的部分。一個年輕的分析師和一個年邁的分析師拿到同樣的圖表,完全有可能解讀出不同的內(nèi)容。舉個例子:年輕的分析師:2013年1月銷售額同比上升60%,迎來開門紅。2月銷售額有所下降,3月大幅回升,4月持續(xù)增長。年邁的分析師:2013年1月、2月銷售額去除春節(jié)因素后,1月實(shí)際同比上升20%,2月實(shí)際同比上升14%,3月、4月銷售額持續(xù)增長??吹絻烧叩膮^(qū)別了嗎?2013年春節(jié)在2月,2012年則在1月,因此需要各去除一周的銷售額,再進(jìn)行比較。如果不考慮這一因素,那么后續(xù)得出的所有結(jié)論都是錯的。挖掘數(shù)字變化背后的真正影響因素,才是洞察的目標(biāo)。再舉個例子:這張圖是一個用戶行為聚類的結(jié)果,人群被聚成四類。前三類人群可以很清楚的得出結(jié)論:他們是某一種游戲主機(jī)的用戶。那么第四類人群,是什么人群呢?年輕的分析師:第四類人群是游戲主機(jī)的狂熱愛好者,他們交易頻率遠(yuǎn)高于一般用戶。年邁的分析師:第四類人群是二手販子,否則誰沒事一年內(nèi)會搞將近7臺索尼主機(jī)放家里。很明顯,年邁的分析師由于具備豐富的行業(yè)經(jīng)驗(yàn),能迅速看穿數(shù)據(jù)背后的真實(shí)情況,得出正確的洞察結(jié)論,這也是為什么我在step1里一再強(qiáng)調(diào)要找你熟悉或感興趣的領(lǐng)域/行業(yè),缺乏業(yè)務(wù)經(jīng)驗(yàn),很可能你的洞察結(jié)果是完全錯誤的。以上這兩個洞察的例子本身比較簡單,但通常來說,即使是復(fù)雜的數(shù)據(jù)報(bào)告,也是由一個個相對簡單的洞察結(jié)論組成的,這其中涉及到問題的分拆,邏輯線的建立等一系列內(nèi)容。作為初學(xué)者,做到自己力所能及的程度就好。總結(jié)一下,所謂洞察,就是要越過數(shù)據(jù),去推測和理解真實(shí)情況。單純描述數(shù)據(jù),誰都會做,根據(jù)數(shù)據(jù)得出有價值的結(jié)論,報(bào)告才有意義。Step7:報(bào)告撰寫都到這一步了,相信各位對數(shù)據(jù)報(bào)告也不再陌生了。這一步中,需要保證的是數(shù)據(jù)報(bào)告內(nèi)容的完整性。一個完整的數(shù)據(jù)報(bào)告,應(yīng)至少包含以下六塊內(nèi)容:1、報(bào)告背景2、報(bào)告目的數(shù)據(jù)來源、數(shù)量等基本情況分頁圖表內(nèi)容及本頁結(jié)論各部分小結(jié)及最終總結(jié)下一步策略或?qū)厔莸念A(yù)測其中,背景和目的決定了你的報(bào)告邏輯(解決什么問題);數(shù)據(jù)基本情況告訴對方你用了什么樣的數(shù)據(jù),可信度如何;分頁內(nèi)容需要按照一定的邏輯來構(gòu)建,目標(biāo)仍然是解決報(bào)告目的中的問題;小結(jié)及總結(jié)必不可少;下一步策略或?qū)厔莸念A(yù)測能為你的報(bào)告加分。還覺得復(fù)雜么?我再換一種說法:各位
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 口譯就餐對話演示
- 企業(yè)標(biāo)準(zhǔn)的編寫合同5篇
- 二零二五年度智能車庫使用權(quán)出售及管理服務(wù)合同3篇
- 二零二五版2025年度情感修復(fù)協(xié)議書-自愿離婚調(diào)解合同3篇
- 2025版共享用工社會保險(xiǎn)繳納協(xié)議范本3篇
- 設(shè)備維護(hù)保養(yǎng)培訓(xùn)教學(xué)案例
- 中考題型連連看近3年幻燈片課件
- 第8課現(xiàn)代文學(xué)和美術(shù)教學(xué)文案
- 電腦操作會考電腦2001-2002上課講義
- 二零二五年茶葉市場推廣合作合同2篇
- 工業(yè)機(jī)器人仿真軟件:Staubli Robotics Suite:碰撞檢測與避免策略教程
- 幼兒園中大班社會科學(xué)芒種課件
- 《圓的認(rèn)識》(教學(xué)設(shè)計(jì))-2024-2025學(xué)年六年級上冊數(shù)學(xué)人教版
- 醫(yī)護(hù)人員基本服務(wù)禮儀-鞠躬
- 電商創(chuàng)業(yè)孵化基地入駐合作協(xié)議2024年
- 2024年廣東石油化工學(xué)院公開招聘部分新機(jī)制合同工20名歷年(高頻重點(diǎn)提升專題訓(xùn)練)共500題附帶答案詳解
- 智慧寧夏小程序推廣方案
- 神農(nóng)架自然保護(hù)區(qū)森林生態(tài)系統(tǒng)服務(wù)價值評估
- 健康產(chǎn)業(yè)園規(guī)劃方案
- 高考培優(yōu)方案
- 醫(yī)院文化建設(shè)與員工凝聚力提升
評論
0/150
提交評論