下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
構(gòu)建用戶畫像中所用到的AI算法本文從三個(gè)部分一一標(biāo)簽的層級、生產(chǎn)、權(quán)重方面,預(yù)測了構(gòu)建用戶畫像中所用到的AI算法。談及用戶畫像,我想產(chǎn)品和運(yùn)營的朋友們就不會陌生,用戶畫像是用戶研究的重要輸出,它能幫助我們更好的進(jìn)行業(yè)務(wù)決策以及產(chǎn)品設(shè)計(jì)。用戶畫像落實(shí)到功能設(shè)計(jì),本質(zhì)上是將數(shù)據(jù)組合成數(shù)據(jù)特征,從而催生用戶的數(shù)據(jù)模型。逐步形成用戶顯學(xué)畫像的主流方法有4種:前兩者是基于已有數(shù)據(jù)的構(gòu)建方法,其缺陷沒能處理數(shù)據(jù)缺失或不在規(guī)則范圍內(nèi)的用戶。而解決這一類問題,也正是機(jī)器學(xué)習(xí)存在的意義,它讓電腦計(jì)算機(jī)像人一樣去學(xué)習(xí)預(yù)處理問題,并給出答案。本文將從構(gòu)建用戶其中的角度和大家分享能夠運(yùn)用在畫像的一些AI算法,希望能給希望我們提供一些價(jià)值。用戶畫像偏向于定性,而產(chǎn)品設(shè)計(jì)是將需求從定性轉(zhuǎn)換為定量的過程,用戶畫像在多因子量化過后我們也稱之為用戶標(biāo)簽。構(gòu)建用戶標(biāo)簽我三個(gè)拆分了三個(gè)要點(diǎn),分別是層級、生產(chǎn)以及權(quán)重。理解標(biāo)簽的層級能夠幫助我們設(shè)計(jì)產(chǎn)品架構(gòu),并且熟悉標(biāo)簽生產(chǎn)的方法。方式1:原始數(shù)據(jù)事實(shí)標(biāo)簽>模型標(biāo)簽>頸測標(biāo)簽方式2:原始數(shù)據(jù)事實(shí)標(biāo)簽?zāi)P蜆?biāo)簽>策略標(biāo)簽標(biāo)簽的層級有兩種劃分這種方式,方式1是較為常見的做法,而方式2查閱于京東的數(shù)據(jù)分析師凌靖的文章,結(jié)合兩種方式之后形成了下圖圖3。標(biāo)簽的每一個(gè)層級,可以將其理解為對上一層標(biāo)簽的再次提煉。對照著圖3,我們試著理解這4個(gè)層級:.原始數(shù)據(jù)來源于用戶的基礎(chǔ)重要信息、交易數(shù)據(jù)、訪問數(shù)據(jù),如:用戶的注冊卡號、用戶的歷史訂單、用戶的訪問軌跡等。.事實(shí)標(biāo)簽是對原始數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析隨后后的初步提煉結(jié)果。.模型標(biāo)簽及預(yù)測標(biāo)簽3-1模型標(biāo)簽由一個(gè)或多個(gè)事實(shí)標(biāo)簽組合而成,是基于模型訓(xùn)練的結(jié)果。以模型標(biāo)簽“交易偏好”為例,它是由交易商品類型、交易場景、交易來源這幾個(gè)事實(shí)標(biāo)簽組合而成的。3-2預(yù)測標(biāo)簽以已近的模型標(biāo)簽數(shù)據(jù)作為特征,經(jīng)過機(jī)器學(xué)習(xí)生產(chǎn)的標(biāo)簽。由于預(yù)測標(biāo)簽可映射成為模型有望成為標(biāo)簽,所以在圖3中將2者置放于同一個(gè)層級。.策略標(biāo)簽策略標(biāo)簽,則是用戶標(biāo)簽構(gòu)建的最終目的,根據(jù)目的提煉用戶,并對用戶成功進(jìn)行定向的營銷。標(biāo)簽的層級,選項(xiàng)指導(dǎo)著產(chǎn)品經(jīng)理構(gòu)建用戶畫像的每個(gè)步驟。前兩個(gè)層級,我們需要對缺失的數(shù)據(jù)建立數(shù)據(jù)源,對數(shù)據(jù)進(jìn)行清洗、修復(fù)以及特征構(gòu)建等;后兩個(gè)層級,我們需要使用合適的方式生產(chǎn)標(biāo)簽,在第一章中我們理解了標(biāo)簽的層級,這一張主要講述標(biāo)簽的生產(chǎn)投資過程,用戶畫像的構(gòu)建形式不同,生產(chǎn)方式也不同。1.基于規(guī)則定義的標(biāo)簽生產(chǎn)方式顧名思義,這種下掛生產(chǎn)方式是根據(jù)固定的規(guī)則,供貨通過數(shù)據(jù)查詢的結(jié)果生產(chǎn)標(biāo)簽。這里的研究重點(diǎn)在于如何制定規(guī)則。從圖表的變化頻次來看,可以將標(biāo)簽為靜態(tài)標(biāo)簽以及動態(tài)標(biāo)簽。靜態(tài)標(biāo)簽變化的頻次低等,或者一旦確認(rèn)不制做改變。而動態(tài)標(biāo)簽變化間歇性,它會衰減也可能會消失。以靜態(tài)標(biāo)簽和動態(tài)標(biāo)簽為思路向下推遲,我們可以劃分為基礎(chǔ)屬性以及偏好行為兩大類,如下圖圖4所示:閘戶除塞鼻砒凰性
1';—,鼻砒凰性
1';—,自科.性二)[祖■■配]pSim]惟別案庭身護(hù)年酹,「曼器旨程度:生爆憾景身高收入水平「注..初AS[MMWa[I.SM]J―^盟,一1篇好行為訪問行為J交?行為[_■3行為訪問時(shí)間交41時(shí)間i建銷偏好bipwii]gaw]匚*褂加x訪向整次交嵬類別參銷厚度taw,](SAMA
訪閩海監(jiān)i交曷均用這是一張較普適的圖,進(jìn)程在實(shí)際應(yīng)用的過程中產(chǎn)品經(jīng)理可以根據(jù)投資業(yè)務(wù)去定義更多的類型。將類型劃分清楚,用戶不再具有標(biāo)簽的原始社會已經(jīng)初具雛形。在設(shè)置規(guī)則時(shí)產(chǎn)品經(jīng)理應(yīng)該適當(dāng)抽象,過于精細(xì)過份會增加生產(chǎn)的周期,上線后的數(shù)據(jù)查詢也會錄入有較大的壓力。其次也可能因?yàn)楹Y選條件過多,錄入的數(shù)據(jù)樣本不足,導(dǎo)致空耗資源。適當(dāng)抽象考驗(yàn)產(chǎn)品經(jīng)理對品類需求、資源以及應(yīng)用的平衡能力,以用戶訪問這些行為為例,在初期不建議放開全量查詢,可以優(yōu)先將頻次強(qiáng)、強(qiáng)度法律義務(wù)高的查詢需求抽象成規(guī)約,如商品詳情、平臺活動、渠道投放等?;谝?guī)則定義和基于數(shù)據(jù)統(tǒng)計(jì)這兩種用戶標(biāo)簽構(gòu)建方式在產(chǎn)品設(shè)計(jì)中的邏輯是相對簡單的,就不花更多的篇幅解釋了。2,基于主題模型的標(biāo)簽生產(chǎn)方式主題模型,最開始運(yùn)用于內(nèi)容領(lǐng)域,目的是看到用戶的偏好,它將內(nèi)容劃分為了3個(gè)層級:分類、主題、關(guān)鍵詞。在搜索算法用戶標(biāo)簽中我們可以參照分類算法將用戶進(jìn)行分類、聚類,使用關(guān)鍵詞的算法挖掘用戶的偏好,從而生產(chǎn)標(biāo)簽。2-1線性支持向量機(jī)線性支持向量機(jī)(LinearSupportVectorMachine)是一種二分類編程語言,適用于“是與否”,“有或無”的問題,它隸屬于機(jī)器學(xué)習(xí)中的有督導(dǎo)學(xué)習(xí)(SupervisedLearning)。有監(jiān)督學(xué)習(xí),類似我們從小接觸的函數(shù)公式,即根據(jù)輸入(x),和公式f(x)得到輸出(y),假設(shè)x是數(shù)據(jù)的特征,那么經(jīng)過函數(shù)的運(yùn)算后我們能夠得到分類分類法結(jié)果。以人口屬性為例,非社交應(yīng)用用戶填寫自己性別的性取向主動性較低。當(dāng)我們想了解用戶的性別組成,卻只有10晰戶填寫了性別,而另外90%勺用戶的性別是未知的。在機(jī)器學(xué)習(xí)中,我們將明確性別的用戶作為數(shù)據(jù)樣本,提取他們的數(shù)據(jù)特征訓(xùn)練采集模型。以明確性別的用戶的數(shù)據(jù)特征設(shè)設(shè)置為x,性別為y,訓(xùn)練出f(x)的函數(shù)之后,我們將其他未知性別的用戶特征代入到近似值f(x)中,從而去預(yù)測他們的性別。函數(shù)是是由模型訓(xùn)練而成的,線性支持向量機(jī)是怎么訓(xùn)練的呢?在圖7中,我們發(fā)現(xiàn)有一條直線將象限中的數(shù)據(jù)了兩部分,而支持向量機(jī)則是找到一條劃分實(shí)際效果效果最好的直線。劃分效果越好,新數(shù)據(jù)分類錯(cuò)誤的可能性定義也越多低,而這兩個(gè)用例在支持向量機(jī)中我們也叫正樣本和負(fù)樣本?;氐骄€性支持向量機(jī)的定義:“對于給定的數(shù)據(jù)集,能區(qū)劃在樣本空間中找到一條劃分直線,從而將兩個(gè)不同子類的樣本分開,并且這條直線距離最接近的訓(xùn)練數(shù)據(jù)點(diǎn)最遠(yuǎn)?!薄?皿6.a)=;||w||2一£叫[叫+6)—1)圖8以購買過男性/女性短袖作為男性用戶和女性用戶的特征,黑點(diǎn)稱為已知的男性用戶,白點(diǎn)為已知的女性用戶。當(dāng)遇到新的未知性別的用戶,但是我們察覺到具有購買行為過男性短袖這一行為,而這一手機(jī)用戶的數(shù)據(jù)落在了個(gè)人用戶男性部分,所以我們預(yù)測這個(gè)用戶是男性。當(dāng)然在實(shí)際過程中,數(shù)據(jù)的特征絕對不僅是簡單的二維特征,在這里只是方便大家理解。線性支持向量機(jī)在三維求解的是一個(gè)分類效果最好的排序平面,而在高維則是一維函數(shù)。跑程回㈤線性支持向量機(jī)的目標(biāo)函數(shù)求解的過程機(jī)為比較復(fù)雜,在小規(guī)模數(shù)據(jù)集中線性支持向量的表現(xiàn)是較好的,但是由于受到了數(shù)據(jù)量的限制,我們會運(yùn)用訓(xùn)練更加簡單并且能實(shí)時(shí)計(jì)算的一一邏輯回歸。2-2邏輯回歸邏輯回歸(LogisticRegression)是和線性支持向量機(jī)非常相似,它們都是有監(jiān)督學(xué)習(xí)方法,在不考慮核函數(shù)時(shí)都是線性的分類方法。其不同點(diǎn)在于,線性寬度支持向量機(jī)是基于距離分類,而眾所周知邏輯回歸是基于可能性分類。理解邏輯回歸先前,我們先復(fù)習(xí)最簡單的一元線性回歸。一元頻域回歸的公式是:y=kx+b
我們假定圖10中的直線,代表著人在勻速狀態(tài)下路程與速度的關(guān)系。但在實(shí)際情況下人的一般來說速度不是常量的,我們沒有辦法使不同時(shí)間的速度即使都穿過這條直線。退而求其次,我們?nèi)フ乙粭l最接近這些速度統(tǒng)計(jì)數(shù)據(jù)的支線??吹綀D10的函數(shù)圖例,大家會發(fā)現(xiàn)線性回歸和線性支持向量機(jī)非常的相像,線性回歸與沉淪邏輯回歸有什么關(guān)系?邏輯回歸又是怎樣的一種分類方式?邏輯回歸在線性回歸的基礎(chǔ)上套用了sigmoid函數(shù),它將回歸表達(dá)式的結(jié)果映射在sigmoid函數(shù)之中,這個(gè)函數(shù)的特色是其值域特點(diǎn)分布在[0,1]之間,1和0對應(yīng)了二分類的“是與否”,隨著x值的變化,y數(shù)會不斷的趨近于0或1,這種趨近我們稱之為可能性。詞語在文本中的出現(xiàn)次數(shù)詞頻(TF)-文本的總詞數(shù)文本總數(shù)逆文本頻率指數(shù)(IDF)-Log()出現(xiàn)該詞語的文本數(shù)+1TF-IDF=TFXIDF在線性支持向量雙蝴科水狼只有兩種值:正樣本和負(fù)樣本,而邏輯回歸除了分類除了能夠表達(dá)分類的概率。2-3文本挖掘算法:TF-IDFTF意思是詞頻(TermFrequency),IDF意思是逆文本頻率指數(shù)(InverseDocumentFrequency),在用戶畫像的構(gòu)建中標(biāo)簽會將其運(yùn)用于生產(chǎn)用戶的偏好我們。TF表述的關(guān)鍵點(diǎn)是,在1條文本中反復(fù)出現(xiàn)的詞更重要。而IDF的思想是,在所有大部分文本都出現(xiàn)的詞是不非常重要的,IDF用于修正TF所表示的初始值。白白色華用戶人]黑照電白色短袖女XXL可愛黑盥黑色代袖女XL皮卡丘寵物小相靈■npi黑色短袖男XL嘟吒國潮上文描述TF-IDF能夠用于生產(chǎn)用戶的偏好標(biāo)簽,其中的原理是什么呢?我們將數(shù)名用戶類比為一篇文章,用戶瀏覽的商品標(biāo)題在分詞匯總后作為其中的詞庫,平臺的用戶總數(shù)即為文本總數(shù),出現(xiàn)該詞語的
譯文書名數(shù)作為有同樣瀏覽行為的用戶。這樣轉(zhuǎn)置過后,就能夠需要進(jìn)行計(jì)算了。詢頻逆文本TF-IDF0.124390.52以用戶A為例,用戶A擁有3條瀏覽記錄,分詞后總計(jì)17個(gè)詞。設(shè):平臺的用戶總數(shù)=10000人,用戶瀏覽過的商品標(biāo)題帶有“黑色”1詞的用戶有500人,底數(shù)為2。標(biāo)答權(quán)■=行為類型程重X時(shí)間衰減XTF-IDF計(jì)算標(biāo)簽權(quán)重X行為次數(shù)標(biāo)簽的客觀重要程度▼標(biāo)簽的客觀重要程度▼標(biāo)整對此用戶的重要程度以底數(shù)為2,可計(jì)算“黑色”這個(gè)標(biāo)簽對用戶的權(quán)重是0.52,有了權(quán)重我們將其運(yùn)用于尋找相似用戶。-H)-H)標(biāo)簽權(quán)重的計(jì)算公式趙洪田撰寫的文章《用戶標(biāo)簽之標(biāo)簽權(quán)重算法》,權(quán)重公式的解讀如下:1,行為類型權(quán)重指的是對于同一類標(biāo)簽,由于其行為的輕重不同所以權(quán)重不同。如:手機(jī)用戶對于某商品有過生成訂單的行為,根據(jù)訂單未支付、已支付未退款、已支付已退款三種產(chǎn)品銷售狀態(tài),制定不同的權(quán)重。2,時(shí)間衰減因子時(shí)間衰減因子體現(xiàn)了標(biāo)簽的熱度隨著時(shí)間逐漸冷卻的過程,它來自牛頓冷卻定律。T(t)定律描述的是流體的冷卻速度與其當(dāng)前室溫和溫度之間的溫差成正比。運(yùn)用于新聞領(lǐng)域,一條新聞可能在今天它的“溫度”是最高的,但是隨著時(shí)間,這條新聞電視新聞會逐漸的變成和普通新聞一樣的“溫度”。經(jīng)過對開爾文冷卻定律的推導(dǎo),我們得出了以下公式:將式子翻譯成中文:當(dāng)前溫度=原始溫度Xexp(-冷卻系數(shù)X間隔時(shí)間)運(yùn)用于條碼的翻譯:當(dāng)前權(quán)重=原始權(quán)重Xexp(-冷卻系數(shù)X間隔時(shí)間)如:將用戶發(fā)生行為的當(dāng)日該偏好的權(quán)重設(shè)置為1,10天后設(shè)置為0.2,也就是經(jīng)過9天后權(quán)重會衰減是0.2,將已知變量代入到圖13的公式中,經(jīng)過值指數(shù)的運(yùn)算得到冷卻系數(shù),從而得到三十天衰減因子。對于不同的標(biāo)簽,時(shí)間的衰減脂質(zhì)系數(shù)是不同的,有的標(biāo)簽時(shí)間甚至是不受時(shí)間所影響,在計(jì)算時(shí)可以不必考量衰減因子。公式中的TF-IDF、行為頻次,前者已經(jīng)描述過,后者也更為好理解在這里也不再贅述。標(biāo)識的權(quán)重可以用于查找相似用戶,進(jìn)行個(gè)性化推薦,如果有有興趣的朋友可以閱讀我的上一篇文章《如何解釋個(gè)性化推薦中的數(shù)學(xué)原理》。近期恰好設(shè)計(jì)了移動用戶標(biāo)簽的提取工具,撰寫干曉磊原意是想回顧項(xiàng)目、查漏補(bǔ)缺。過程中神經(jīng)科學(xué)閱讀了一些人工智能的書籍,給了自己很多的啟發(fā),于是也將所了解的一些探知算法添加進(jìn)來,如果有理解不正確的地方也不會請朋友們不吝指教。這篇文章涉及的算法部分核心參考了:《產(chǎn)品經(jīng)理進(jìn)階:100個(gè)案例搞懂人工智能》,這是一本非常積極的工具書,提供了特別好的不光知識框架讓我體系化的認(rèn)識人工智能,在此也為朋友
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年??诿捞m仁德愛門診部高層次衛(wèi)技人才招聘筆試歷年參考題庫頻考點(diǎn)附帶答案
- 2024年07月江西2024年交通銀行江西省分行校園招考筆試歷年參考題庫附帶答案詳解
- 2024年07月江蘇蘇州銀行連云港分行招考(075)號筆試歷年參考題庫附帶答案詳解
- 2024年海南省干部療養(yǎng)院高層次衛(wèi)技人才招聘筆試歷年參考題庫頻考點(diǎn)附帶答案
- 魯教版小學(xué)信息技術(shù)四年級上冊《第14課 畫圖變變變》說課稿
- 2024年沈陽礦山機(jī)械廠職工醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫頻考點(diǎn)附帶答案
- 2024年江西醫(yī)學(xué)院第二附屬醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫頻考點(diǎn)附帶答案
- 粵教版高中信息技術(shù)選修2說課稿-4.3.1 構(gòu)圖的設(shè)計(jì)001
- 第七章認(rèn)識區(qū)域:聯(lián)系與差異 2023-2024八年級地理下冊 大單元說課稿(單元分析+4課時(shí)規(guī)劃+作業(yè))
- 2024年07月江蘇兆豐國際商業(yè)銀行蘇州分行招考筆試歷年參考題庫附帶答案詳解
- 2023學(xué)年杭州市十四中高二數(shù)學(xué)(上)期末考試卷附答案解析
- 新增值稅法學(xué)習(xí)課件
- 五級(程控交換)職業(yè)技能鑒定理論考試題及答案
- 醫(yī)療救護(hù)合作協(xié)議
- 《微元法的應(yīng)用》課件
- 文職-管理學(xué)基礎(chǔ)知識點(diǎn)
- 標(biāo)準(zhǔn)門面租房合同范本
- 2024年上海市16區(qū)高考英語一模試卷聽力部分匯編(附14區(qū)聽力音頻)含答案與文本
- 《無人機(jī)飛行操控技術(shù)(微課版)》全套教學(xué)課件
- 2023-2024學(xué)年廣東省深圳高級中學(xué)七年級(上)期末歷史試卷
- 2024年房屋租賃補(bǔ)充協(xié)議參考模板(四篇)
評論
0/150
提交評論