面試你的數(shù)據(jù)也同樣重要_第1頁
面試你的數(shù)據(jù)也同樣重要_第2頁
面試你的數(shù)據(jù)也同樣重要_第3頁
面試你的數(shù)據(jù)也同樣重要_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第第頁面試你的數(shù)據(jù)也同樣重要

聘請時(shí)看過了簡歷,之所以還要面試,是由于簡歷中的信息往往不能夠全面地反映求職者的技能及其與聘請崗位的契合度。同樣的,僅僅依靠對數(shù)據(jù)的簡約統(tǒng)計(jì)描述,數(shù)據(jù)分析師和數(shù)據(jù)驅(qū)動的決策也往往會錯(cuò)失一些重要的信息。所以,有閱歷的數(shù)據(jù)專家通常會在進(jìn)行深入分析前先“面試”一下數(shù)據(jù),即對原始數(shù)據(jù)有一個(gè)親身的感知。用數(shù)據(jù)分析師的行話來說,就是看一下“數(shù)據(jù)究竟長得什么樣”。在大數(shù)據(jù)時(shí)代,把原始數(shù)據(jù)都看一遍當(dāng)然是不現(xiàn)實(shí)的也是不須要的。所以真正的數(shù)據(jù)面試通常是用一種人機(jī)協(xié)作的做法,即通過分析師對原始數(shù)據(jù)的查看與數(shù)據(jù)軟件處理的交互來實(shí)現(xiàn)。

數(shù)據(jù)面試一般可分為兩個(gè)步驟。第一步是隨機(jī)抽取肯定量的原始數(shù)據(jù)〔比如數(shù)百名顧客的紀(jì)錄〕來閱覽一下。這一步不僅可以讓數(shù)據(jù)分析者對數(shù)據(jù)有個(gè)徑直的感知,而且可能發(fā)覺一些數(shù)據(jù)錄入、數(shù)據(jù)格式上的明顯錯(cuò)誤;更重要的是,這一做法往往能援助分析者看到一些之前不曾想到的數(shù)據(jù)規(guī)律,并在之后的進(jìn)一步數(shù)據(jù)分析中對這些規(guī)律進(jìn)行假設(shè)驗(yàn)證。不久前,筆者曾經(jīng)對某網(wǎng)上銀行移動端用戶行為進(jìn)行過一些討論。通過閱覽數(shù)百名用戶的原始交易記錄,筆者發(fā)覺,用戶運(yùn)用移動端的一般規(guī)律是,從簡約賬戶查詢過渡到小額支付,再過渡到大額的轉(zhuǎn)賬匯款等交易。當(dāng)然這一規(guī)律是否真的有普適性還需要用大數(shù)據(jù)做嚴(yán)格意義上的統(tǒng)計(jì)假設(shè)檢驗(yàn)。盡管一個(gè)常常接觸用戶的客戶服務(wù)經(jīng)理可能會覺得這樣的移動端行為演化模式是不言而喻的,然而不通過對原始數(shù)據(jù)的這般面試,專業(yè)的數(shù)據(jù)分析師或許很難想到這種潛在的用戶行為規(guī)律。這是由于數(shù)據(jù)分析師與一線業(yè)務(wù)經(jīng)理對客戶行為的熟識程度存在差異。而企業(yè)中廣泛存在的各部門間的溝通瓶頸,特別是一線業(yè)務(wù)人員與后臺數(shù)據(jù)分析師之間的溝通不暢,使得分析師或其他數(shù)據(jù)運(yùn)用者對原始數(shù)據(jù)的面試顯得尤為重要,由于這種面試能讓數(shù)據(jù)分析人員得以對數(shù)據(jù)背后的業(yè)務(wù)和用戶行為有更好更多的.了解。

數(shù)據(jù)面試的第二步那么是看一下數(shù)據(jù)中每個(gè)變量的分布直方圖(histogram)。假如是隨時(shí)間改變的變量,還應(yīng)當(dāng)作圖看一下它隨時(shí)間波動的狀況。一般的統(tǒng)計(jì)軟件都提供這些功能,但是我經(jīng)常發(fā)覺連一些頗有閱歷的數(shù)據(jù)分析師也常常會忽視這一步,而只是看一下均值方差等常見的簡約統(tǒng)計(jì)量。其實(shí)分布直方圖包含的信息要比均值方差多得多。它不但讓我們能一目了然地看到是否有極端值的存在,還往往能帶給我們市場細(xì)分的新啟示。我曾經(jīng)分析過一家電商的銷量分布直方圖,發(fā)覺其月銷售額是由大量千元左右的中低值定單和近百個(gè)超大定單(數(shù)十萬元以上)構(gòu)成的。據(jù)此進(jìn)一步追溯緣由,才了解到原來這家B2C網(wǎng)站的用戶中還存在一些商業(yè)用戶。而這些商業(yè)用戶作為一個(gè)重要的細(xì)分市場,當(dāng)然也需要與一般終端用戶在營銷上區(qū)分對待了。

在實(shí)踐中要真正了解分布直方圖所展示信息的背后成因,往往需要回到原始數(shù)據(jù)中去查看一番。因此數(shù)據(jù)面試的兩個(gè)步驟通常是交替運(yùn)用,親密結(jié)合的。曾經(jīng)有過這樣的一個(gè)例子。分析師利用某信用卡公司的數(shù)據(jù)討論持卡人用該公司信用卡加油的狀況,其中一個(gè)變量是持卡人兩次用該卡的加油時(shí)間間隔。通過查看這一變量的分布直方圖,他們發(fā)覺有相當(dāng)多持卡人的這一間隔分布在一天之內(nèi)和數(shù)月之后的這兩個(gè)極端。緣由會是什么呢?分析師接著回到原始數(shù)據(jù)中去查看這些持卡人的消費(fèi)紀(jì)錄明細(xì),發(fā)覺這些持卡人平常幾乎不用該卡,卻喜愛在自駕游時(shí)帶上這張卡,并用于加油餐飲等。管理層獲知這一分析結(jié)果,很快依據(jù)多年的行業(yè)閱歷做出了自己的判斷:這些持卡人很可能有多張信用卡并常用競爭對手的信用卡,然而那些卡的額度可能不夠高,日常消費(fèi)使得可用額度不足了;所以出門旅游就用平常不常用的那張卡。有了這一洞察,下一步針對這類持卡人的精準(zhǔn)營銷策劃就能積極開展了。

當(dāng)然,隨著數(shù)據(jù)的不斷增加,數(shù)據(jù)中的變量數(shù)目可能會多到連查看每個(gè)變量的分布直方圖也變得不現(xiàn)實(shí)。這時(shí)我們就只能有選擇地選擇一些變量進(jìn)行查看,就猶如由于面試時(shí)間有限,只能挑一些重要的問題來問一樣。那么我們應(yīng)當(dāng)如何來選擇出需要特別查看的變量呢?一個(gè)好的做法是從業(yè)務(wù)和統(tǒng)計(jì)兩方面著手。從業(yè)務(wù)角度出發(fā),我們可以選擇出與業(yè)務(wù)最相關(guān)的那些變量。這里數(shù)據(jù)分析師自身對業(yè)務(wù)的熟識度以及分析師與業(yè)務(wù)人員之間的溝通起著重要作用。從統(tǒng)計(jì)角度出發(fā),我們可以用分析軟件找出不符合正態(tài)分布的那些變量,著重于查看那些偏離正態(tài)分布最多的變量。通俗地講,這些變量是“長”得最怪的,因而更有可能帶給我們意想不到的洞察。另一個(gè)好的做法是用分析軟件找出每個(gè)變量可能存在的異樣值〔outlier),然后對這些異樣值進(jìn)行“面試”。異樣值往往是最富含信息量的,它們或許反映了數(shù)據(jù)收集中的差錯(cuò),或許折射出企業(yè)運(yùn)營中的失誤,或許能成為重大發(fā)覺的引子〔比如歷史上很多藥品的發(fā)覺〕。

在大數(shù)據(jù)時(shí)代,數(shù)據(jù)資源正成為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論