【PPT】管中窺豹:用大數(shù)據(jù)洞察用戶_第1頁
【PPT】管中窺豹:用大數(shù)據(jù)洞察用戶_第2頁
【PPT】管中窺豹:用大數(shù)據(jù)洞察用戶_第3頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

【PPT】管中窺豹:用大數(shù)據(jù)洞察用戶

陳新河分享了《畫像——大數(shù)據(jù)征程的起點(diǎn)》主題報告。他認(rèn)為,大數(shù)據(jù)是物理世界在網(wǎng)絡(luò)世界的映射,是一場人類空前的網(wǎng)絡(luò)畫像運(yùn)動。網(wǎng)絡(luò)世界與物理世界不是孤立的,網(wǎng)絡(luò)世界是物理世界層次的反映。數(shù)據(jù)是無縫連接網(wǎng)絡(luò)世界與物理世界的DNA。發(fā)現(xiàn)數(shù)據(jù)DNA、重組數(shù)據(jù)DNA是人類不斷認(rèn)識、探索、實(shí)踐大數(shù)據(jù)的持續(xù)過程。圖1大數(shù)據(jù)發(fā)展路徑陳新河把網(wǎng)絡(luò)畫像分為行為畫像、健康畫像、企業(yè)信用畫像、個人信用畫像、靜態(tài)產(chǎn)品畫像、旋轉(zhuǎn)設(shè)備畫像、社會畫像和經(jīng)濟(jì)畫像等八類,并通過實(shí)踐案例進(jìn)行了闡釋。未來,人生的每個歷程無時無刻不由數(shù)據(jù)驅(qū)動。、圖2數(shù)據(jù)驅(qū)動人生未來,設(shè)備全生命周期也將由數(shù)據(jù)驅(qū)動。圖3數(shù)據(jù)驅(qū)動汽車全生命周期(海略咨詢)劉譯璟博士首先從百分點(diǎn)推薦引擎開始,深入探討了四大引擎。場景引擎:個性化的核心,判斷用戶處于哪個購物環(huán)節(jié),有什么樣的購物目標(biāo);規(guī)則引擎:業(yè)務(wù)的核心,結(jié)合用戶、場景、算法輸出數(shù)據(jù)和業(yè)務(wù)KPI,決定為用戶推薦哪些內(nèi)容;算法引擎:計(jì)算用戶之間的相似度、商品之間的相似度、用戶對商品的評分、用戶分群、熱門排行……展示引擎:將推薦內(nèi)容以最佳的展示方式呈現(xiàn)在用戶面前。推薦引擎的核心是將購物流程數(shù)據(jù)化,而其前提是將用戶數(shù)據(jù)化。如何將用戶數(shù)據(jù)化呢?就是用戶畫像。劉譯璟博士用幾個生活中畫像的例子生動地闡釋了什么是用戶畫像。用戶畫像的目標(biāo)、方式、組織、標(biāo)準(zhǔn)和驗(yàn)證等幾個特點(diǎn)。他認(rèn)為用戶側(cè)寫可能更加準(zhǔn)確的描述“用戶畫像”這個詞,因?yàn)槲覀兪峭ㄟ^有限的信息來描述一個人,而非通過全息相機(jī)照相的模式來描述一個人。從技術(shù)角度來看,人在網(wǎng)絡(luò)空間是一個比特流,人們認(rèn)識人的方式發(fā)生重大改變,由物理空間的“相面”轉(zhuǎn)變?yōu)榫W(wǎng)絡(luò)空間比特流解析,更重要的是教會機(jī)器按照人類交給他的規(guī)則從這些比特流進(jìn)行自動識別。能夠從千萬計(jì)的用戶中找出金融詐騙者、恐怖分子等。如何實(shí)現(xiàn)這一過程?這就需要一種類似成像技術(shù)中的像素來對人的特征進(jìn)行刻畫,這就是畫像中的標(biāo)簽。大數(shù)據(jù)用戶畫像其實(shí)就是對現(xiàn)實(shí)用戶做的一個數(shù)學(xué)模型,在整個數(shù)學(xué)模型中,其核心是,怎么描述業(yè)務(wù)知識體系,而這個業(yè)務(wù)知識體系就是本體論,本體論很復(fù)雜,我們找到了一個特別樸素的實(shí)現(xiàn),就是標(biāo)簽。建好模型以后,要在業(yè)務(wù)的實(shí)踐中去檢驗(yàn),并且不斷完善,不斷豐富這個模型,來達(dá)到利用比特流對人越來越精確的理解。用戶畫像不是一個數(shù)學(xué)游戲,不是一個技術(shù)問題,實(shí)際上是一個業(yè)務(wù)問題。因?yàn)樽詈诵牡氖悄闳ト绾卫斫庥脩簦私饽愕挠脩?。它是技術(shù)與業(yè)務(wù)最佳的結(jié)合點(diǎn),也是一個現(xiàn)實(shí)跟數(shù)據(jù)的最佳實(shí)踐。李海峰分享了百分點(diǎn)在用戶畫像方面的實(shí)踐和案例。他首先以自己為例分享了畫像樣例。基于他這個人可以知道他所在的城市是在北京,男性,公司在百分點(diǎn),喜歡的品類是男鞋、運(yùn)動鞋,喜歡的品牌有耐克、阿迪達(dá)斯等等。每一個標(biāo)簽都有一個權(quán)重值。可以看到,耐克的權(quán)重值比阿迪達(dá)斯更高一些。這幅圖是通過云圖的方式對百分點(diǎn)創(chuàng)始人/董事長兼CEO蘇萌進(jìn)行的特征畫像。百分點(diǎn)的畫像標(biāo)簽體系包括:人口屬性、上網(wǎng)特征、營銷特征、內(nèi)容偏好、興趣偏好等。以手機(jī)商品屬性為例,包括品牌、品類、型號、上市時間、價格、顏色、網(wǎng)絡(luò)、操作系統(tǒng)、分辨率、屏幕尺寸等等。標(biāo)簽管理體系具有如下特性。有多種標(biāo)識方式對用戶進(jìn)行識別,這就像社會生活中的身份證號碼一樣,只不過換成了網(wǎng)絡(luò)空間的手機(jī)號、Cookie、IMEI、Email、微博、微信賬號等,在處理過程中,這些信息都是加密的,機(jī)器知道但人不知道。百分點(diǎn)用戶畫像邏輯架構(gòu)如下圖所示,通過對電商、社區(qū)、移動應(yīng)用、微博、微信等多種類別的數(shù)據(jù)源進(jìn)行采集,然后對用戶進(jìn)行畫像,最終在個性化推薦、用戶洞察、精準(zhǔn)營銷等方面進(jìn)行應(yīng)用。百分點(diǎn)的數(shù)據(jù)源多且龐大,服務(wù)的客戶超過了1500多家,覆蓋行業(yè)超過了40多個。舉例來說,一個網(wǎng)民,他在訪問一個電商A,同時又訪問了一個電商B,這兩個電商本身的知識體系是不一樣的。比如說這個用戶他訪問一雙鞋,他在電商A上的品類可能是鞋-男鞋-運(yùn)動鞋,在網(wǎng)站B上可能是運(yùn)動-戶外-男鞋,品類描述可能是不一樣的。所以百分點(diǎn)打造了這么一個系統(tǒng),叫商品畫像系統(tǒng)。通過這個系統(tǒng),所有的標(biāo)簽就有了一個標(biāo)簽規(guī)劃,之后就可以去構(gòu)建這個用戶在全網(wǎng)的用戶畫像標(biāo)簽。用戶畫像只是一個起點(diǎn),而不是一個結(jié)束?;诖?,還可以打造一系列的服務(wù),比如精準(zhǔn)營銷、個性化推薦等。下圖是用戶畫像的技術(shù)架構(gòu)圖。我們可以看到總共分為五層:第一是數(shù)據(jù)源;第二層是數(shù)據(jù)采集服務(wù),百分點(diǎn)有一堆數(shù)據(jù)采集服務(wù),包括我們的數(shù)據(jù)探頭,能夠?qū)τ脩舻男袨檫M(jìn)行一個實(shí)時采集;第三層是數(shù)據(jù)預(yù)處理,主要是結(jié)構(gòu)化;第四層是商品畫像,這一塊都是我們的用戶畫像服務(wù)。我們可以看到用戶畫像是分兩大塊,實(shí)時處理更偏重于預(yù)測用戶畫像的需求,離線處理更偏重于用戶的長期偏好;第五是統(tǒng)一的數(shù)據(jù)接口,還有就是集群,上面可以接入各種各樣的應(yīng)用。下圖是用戶標(biāo)簽產(chǎn)出流程示例。用戶在互聯(lián)網(wǎng)上的行為主要分為電商類、社交類和媒體類。每種行為差異很大,電商類行為包括瀏覽、搜索、添加購物車、收藏、支付等,而社交類則是點(diǎn)贊、轉(zhuǎn)發(fā)、評論等。接著下一步需要對頁面標(biāo)簽進(jìn)行抽取,在做這件事情之前需要訓(xùn)練模型,首先準(zhǔn)備訓(xùn)練數(shù)據(jù),通過標(biāo)注和規(guī)則生成,再就是對于序列集做一個序列化處理。首先會得到一個弱模型,最終得到一個強(qiáng)模型,然后把自己的參數(shù)都保留下來。這個時候我們會加一個決策,如果說效果不太好的話,我們會進(jìn)行下一輪的優(yōu)化。當(dāng)這個模型設(shè)置之后,我們就可以去做預(yù)測了。我們的預(yù)測總共分為四大塊,包括輸入、輸入預(yù)處理、預(yù)測和產(chǎn)出。也就是說用戶這個標(biāo)簽已經(jīng)有了,這個標(biāo)簽對用戶的信譽(yù)度是1還是0?這個時候就到了用戶行為建模。用戶行為建模的背后思想主要可以認(rèn)為有兩大塊,成本越高行為權(quán)重越高,下單就比瀏覽更高一些,時間越近的行為權(quán)重越高,比如我今天看了一個手機(jī),一定比我一周前看了一次電腦權(quán)重要高一些。我們可以按場景去分,首先是產(chǎn)生需求,再就是決策,然后是結(jié)束,百分點(diǎn)基于業(yè)務(wù)考慮,實(shí)行標(biāo)簽權(quán)重積累的機(jī)制。這是我們的客戶某航空公司的案例,項(xiàng)目目的是挖掘高價值旅客,希望通過分析旅客出行偏好優(yōu)化運(yùn)力資源。最終百分點(diǎn)幫他構(gòu)建了5個標(biāo)簽大類,75個標(biāo)簽小類,數(shù)萬個小標(biāo)簽,以下是當(dāng)時的一些效果截圖。剛才講的都是百分點(diǎn)已經(jīng)做的事情,但是百分點(diǎn)做得還遠(yuǎn)遠(yuǎn)不夠。接下來可能會在四大方面深入思考和實(shí)踐:一是不同的場景,也就是說用戶在家里和在辦公環(huán)境下代表的偏好是不一樣的;二是用戶心理學(xué)特征,比如當(dāng)一個用戶看一件女裝的時候,她這個時候是無聊去逛還是有目的的逛,反映在標(biāo)簽權(quán)重上是不一樣的;三是讓用戶主動反饋反感點(diǎn),我們強(qiáng)調(diào)了許多,一般都是在強(qiáng)調(diào)用戶喜歡什么,但是用戶不喜歡什么,我們做得還不夠,我們應(yīng)該讓用戶主動告訴我們他不喜歡什么,比如他不喜歡吃蔥,他不喜歡吃羊肉串,這樣我們預(yù)測的時候會準(zhǔn)得多;四是用戶

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論