分析:如何用數(shù)據(jù)管理內(nèi)容_第1頁
分析:如何用數(shù)據(jù)管理內(nèi)容_第2頁
分析:如何用數(shù)據(jù)管理內(nèi)容_第3頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

分析:如何用數(shù)據(jù)管理內(nèi)容

大家好,我是知乎的李申申。首先,我想對主辦方說一聲:謝邀!感謝你們搭建這樣一個(gè)專業(yè)的平臺,讓大家有機(jī)會聚在一起認(rèn)真討論數(shù)據(jù)這個(gè)話題。說實(shí)話,在接到大會邀請的時(shí)候,我第一反應(yīng)想到了這句話。如同DanAriely所說,知乎也像是眾多面對大數(shù)據(jù)很懵懂的“年輕人”之一;我們雖然也在做大數(shù)據(jù)相關(guān)的一些事情,但其實(shí)比較粗淺。我聽說今天在座的各位有不少都是知乎的用戶,對知乎有一些興趣,那我就借這個(gè)機(jī)會跟大家分享一下知乎數(shù)據(jù)方面的一些工作。簡單進(jìn)入正題,我們先來看看知乎的基本數(shù)據(jù)情況。今天的知乎截至2015年7月,知乎社區(qū)已擁有2900萬注冊用戶,月UV1.1億,月累積頁面瀏覽量達(dá)3億?,F(xiàn)在知乎全站已累計(jì)產(chǎn)生約620萬個(gè)問題,以及近2000萬個(gè)回答。用戶總回答4,129,244,445字?jǐn)?shù),是大不列顛百科全書的近100倍,鹿鼎記的2580倍。除了以上比較基礎(chǔ)的數(shù)據(jù),一些其他方面的數(shù)字也在以令我們比較欣喜的速度發(fā)展著。我們截取了知乎開放注冊以來,獲得一千個(gè)以上贊同的回答和千字以上的回答兩個(gè)數(shù)據(jù),看一下它們的增長情況??梢钥吹剑@兩項(xiàng)數(shù)據(jù)都是保持了一個(gè)比較平穩(wěn)的增長趨勢的。再看一下,這些用戶日均獲贊的數(shù)量。首先,必須說明的是:我們并非完全將這兩項(xiàng)指標(biāo)作為有價(jià)值回答的判斷標(biāo)準(zhǔn),但是當(dāng)用戶愿意靜下心來花時(shí)間撰寫長文回答的時(shí)候,至少他的態(tài)度是認(rèn)真的,也符合知乎所倡導(dǎo)的討論理念。另一方面,知乎上的千贊代表了1000位知乎用戶對此回答的認(rèn)同和接納。除開2月份等過年過節(jié)的時(shí)期數(shù)據(jù)會略低些,其他時(shí)間,這一數(shù)據(jù)增速基本都保持在10%左右。同樣基于話題這個(gè)維度,我們隨機(jī)抽取幾個(gè)話題看最近的用戶討論趨勢。這里展示的是心理學(xué)、互聯(lián)網(wǎng)、經(jīng)濟(jì)以及天津爆炸這幾個(gè)話題。值得注意的一點(diǎn)在于,在天津爆炸事件席卷幾乎所有社交和輿論平臺,非常聚焦地引起爆炸性的關(guān)注時(shí),知乎站內(nèi)的其他專業(yè)話題討論依然在持續(xù)進(jìn)行。同時(shí),由于天津事件后續(xù)的各討論環(huán)節(jié)中有不少涉及心理學(xué)的疑問,因此,知乎站內(nèi)心理學(xué)的話題熱度也被帶動著略有上揚(yáng)。綜合看,現(xiàn)在的知乎更像是個(gè)廣場,各類較為熱點(diǎn)的時(shí)事討論好像是廣場中央的噴泉,吸引了游客和大眾的關(guān)注目光。而與此同時(shí),在廣場四周也有著各色酒吧、咖啡館和茶館等,各自匯聚了城市的居民們與知己傾心交談。知乎大V和知乎小白有不少知乎用戶曾有疑慮,是否只有早期的用戶們才較為認(rèn)同知乎的社區(qū)理念,又或是只有老用戶們?nèi)菀资斋@贊同和關(guān)注?其實(shí)并不盡然。讓我們一起看看以下幾組數(shù)據(jù)截圖,橫軸為時(shí)間變化,我們截取了2010年12月20日知乎內(nèi)測以來到2015年6月30日贊同數(shù)前10000的用戶,根據(jù)他們的注冊時(shí)間和贊同數(shù)作圖,以及日均的贊數(shù)增長量。大家可以看到這些點(diǎn)分布的比較散,說明增長情況比較均勻??梢钥闯觯杭词乖?015年才剛加入知乎的人也有非常大的機(jī)會被關(guān)注和認(rèn)可。這也說明,這些新用戶也有認(rèn)真討論、獲得有價(jià)值信息交換的渴望,這些用戶也是非常認(rèn)同知乎的社區(qū)理念的。可以通用的秘訣在于:只要堅(jiān)持不斷地在自己擅長的領(lǐng)域參與討論、輸出信息就能得到更多人的認(rèn)可。知乎信息如何生產(chǎn),以及如何流動?前面幾張圖,我們已經(jīng)了解了知乎的百花齊放的話題和持續(xù)貢獻(xiàn)的優(yōu)質(zhì)用戶。下面我們來看看知乎信息生產(chǎn)方式,為了更聚焦的展示這個(gè)問題,我們選取了近期的天津爆炸事件作為事例。從發(fā)展方式來看,熱點(diǎn)話題與其他話題相比,并沒有不同。但是由于其新聞性,這類話題的發(fā)展更具有爆發(fā)性,用戶的行為更為集中。因此,也更方便我們來做這樣一個(gè)展示。首先,一批用戶針對問題進(jìn)行關(guān)注、回答,產(chǎn)生了基礎(chǔ)的優(yōu)質(zhì)內(nèi)容,然后,其他用戶的自發(fā)邀請、關(guān)注、收藏、感謝、投票、評論等社交行為,使得這些內(nèi)容獲得了更廣泛的傳播和關(guān)注,覆蓋的人群不斷擴(kuò)大。在知乎,社交行為催生了優(yōu)質(zhì)內(nèi)容的生產(chǎn)與傳播,而優(yōu)質(zhì)內(nèi)容又引發(fā)了下一輪新的社交行為。如何用大數(shù)據(jù)做用戶興趣識別?用戶在知乎上的行為是多維度的;既包括比較輕的瀏覽閱讀,又包括重一些的贊同、反對,還有更重的提問回答(這里的重和輕是根據(jù)用戶操作成本來界定的)。我們可以根據(jù)這些行為做用戶的特征分析,這也是各個(gè)互聯(lián)網(wǎng)服務(wù)都會做的常規(guī)工作,只是基于各自不同的服務(wù)特點(diǎn),所要分析的特征、采用的算法及其效果各有不同。知乎除了有大量的用戶行為數(shù)據(jù),還有非常多的文本信息,基于行為和文本,我們對用戶的興趣和擅長能有更準(zhǔn)確的識別?,F(xiàn)實(shí)社會中,我們對于某些領(lǐng)域的知識掌握是很深入的,但其他的一些領(lǐng)域就未必了。個(gè)人精力是有限的,沒有人能夠全知到成為所有領(lǐng)域的專家,這種情況是可以被映射到知乎上的。不同的用戶在不同的話題領(lǐng)域下,他們的專業(yè)性是不同的,我們需要掌握這種不同,給每個(gè)人,在每個(gè)話題下計(jì)算一個(gè)權(quán)重。計(jì)算的分值最主要的依據(jù)還是那些你在知乎上的回答,當(dāng)然,我們也會加入一些其他考量因素,包括其他專業(yè)人士對你的背書,你的專業(yè)背景,等等。這是知乎非?;A(chǔ)的數(shù)據(jù)設(shè)施,但這個(gè)數(shù)值計(jì)算的量級是不小的(百萬回答用戶十萬話題,是千億級別的數(shù)量計(jì)算),知乎對于權(quán)重判定每周都會進(jìn)行全量的計(jì)算,也一直在調(diào)整優(yōu)化中。答案排序:如何更好的呈現(xiàn)?我們對答案排序算法進(jìn)行優(yōu)化,目的是讓好的答案更靠前。隨著用戶量不斷增加,早期最簡單的答案排序規(guī)則出現(xiàn)了問題:一些答案友情贊同比較多,讓專業(yè)性不足的答案被推到靠前的位置。我們想到了給贊同票加權(quán)重的方法,基于每個(gè)人在話題下的專業(yè)權(quán)重來計(jì)算,排序得到優(yōu)化,能讓大部分優(yōu)質(zhì)答案可以排到前面。雖然針對權(quán)重計(jì)算的優(yōu)化仍然在持續(xù)進(jìn)行,我們還是遇到了一些算法上的瓶頸。當(dāng)問題下有多個(gè)發(fā)布較早的回答獲得高票時(shí),新的回答即使質(zhì)量很高,也很難在問題頁上獲得足夠的曝光,難以積累更多贊同票,一些誤導(dǎo)性、煽動性的高票內(nèi)容,即使同時(shí)也有很多反對票,仍然排在認(rèn)真、嚴(yán)謹(jǐn)?shù)睌?shù)相對較少的優(yōu)質(zhì)回答前面。這些問題在專業(yè)領(lǐng)域內(nèi)對參與討論的用戶造成的傷害尤其明顯。這絕不是我們希望看到的。于是,我們又設(shè)計(jì)了新的排序算法。新排序算法的思想是,如果把一個(gè)回答展示給很多人看并讓他們投票,內(nèi)容質(zhì)量不同的回答會得到不同比例的贊同和反對票數(shù),最終得到一個(gè)反映內(nèi)容質(zhì)量的得分。當(dāng)投票的人比較少時(shí),可以根據(jù)已經(jīng)獲得的票數(shù)估計(jì)這個(gè)回答的質(zhì)量得分,投票的人越多則估計(jì)結(jié)果越接近真實(shí)得分。如果新一個(gè)回答獲得了1票贊同0票反對,也就是說參與投票的用戶100%都選了贊同,但是因?yàn)閿?shù)量太少,所以得分也不會太高。如果一小段時(shí)間后這個(gè)回答獲得了20次贊同1次反對,那么基于新算法,我們就有較強(qiáng)的信心把它排在另一個(gè)有50次贊同20次反對的回答前面。原因是我們預(yù)測當(dāng)這個(gè)回答同樣獲得50次贊同時(shí),它獲得的反對數(shù)應(yīng)該會小于20。威爾遜得分算法最好的特性就是,即使前一步我們錯(cuò)了,現(xiàn)在這個(gè)新回答排到了前面,獲得了更多展示,在它得到更多投票后,算法便會自我修正,基于更多的投票數(shù)據(jù)更準(zhǔn)確地計(jì)算得分,從而讓排序最終能夠真實(shí)地反映內(nèi)容的質(zhì)量。我們的新算法年初發(fā)布之后,得到知乎站內(nèi)的用戶熱烈反饋,也算是做知乎這樣產(chǎn)品的好處吧,很多專業(yè)的討論涌現(xiàn)出來,為我們下一步優(yōu)化提供了很好的想法。首頁Feed的自我修養(yǎng):內(nèi)容的個(gè)性化推薦首頁的內(nèi)容會主要考慮這幾方面:知乎的首頁有一套專用的數(shù)據(jù)收集和處理機(jī)制,可以記錄用戶在首頁的所有重要?jiǎng)幼?,比如,如果某條內(nèi)容出現(xiàn)在用戶瀏覽器窗口或手機(jī)屏幕的可見范圍內(nèi),就會記錄一次。以及……知乎還有一些其他的數(shù)據(jù)優(yōu)化,我舉幾個(gè)例子做簡單介紹。1.邀請回答稍微熟悉知乎的用戶,應(yīng)該知道謝邀這個(gè)詞,這個(gè)產(chǎn)品功能是為每一個(gè)問題找到合適的回答者,推薦給用戶。我們采取一種算法模型預(yù)測某個(gè)用戶回答某問題的可能性和回答質(zhì)量。有90%的邀請是通過這種推薦結(jié)果發(fā)出的,剩下10%是用戶主動搜索產(chǎn)生的每周知乎精選郵件(eDM)針對每個(gè)用戶做了個(gè)性化的計(jì)算,通過不斷的算法優(yōu)化,我們已經(jīng)做到了30%的打開率和14%的點(diǎn)擊率。2.問題聚類眾所周知想對問題的文本進(jìn)行聚類,最先想到的是通過文本語義匹配,通過復(fù)雜的詞袋模型(如傳統(tǒng)的plsa,LDA,新的word2vec等)對問題文本進(jìn)行向量化,這樣通過語義將相關(guān)問題聚類起來。知乎站內(nèi)擁有龐大的用戶瀏覽數(shù)據(jù),如果將這些瀏覽數(shù)據(jù)通過簡單地算法(如協(xié)同過濾)建立一個(gè)模型同樣也能達(dá)到很好地效果。知乎每天的問答瀏覽量能夠達(dá)到千萬級別,這樣就意味著輸入給算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論