今日頭條進階手冊之消除重復_第1頁
今日頭條進階手冊之消除重復_第2頁
今日頭條進階手冊之消除重復_第3頁
今日頭條進階手冊之消除重復_第4頁
今日頭條進階手冊之消除重復_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

那就是「消重機制」,數(shù)據(jù)說明,被「消重」是頭條號所公布內(nèi)容無推舉量的最常見的緣由。一.什么是消重?我們都知道,在互聯(lián)網(wǎng)上,同樣的文章、圖片、視頻被多個媒體登載,是很常見的狀況。無論是網(wǎng)站,還是各種媒體平臺上,原創(chuàng)內(nèi)容除了原創(chuàng)來源之外,往往還會被很多其他媒體轉(zhuǎn)載或復制。假設我們用搜尋引擎搜尋一篇內(nèi)容,常常會得到多個網(wǎng)址。在過去,我們只要自己篩選和推斷,哪個網(wǎng)址更權(quán)威,更有價值,再點擊去訪問就里——系統(tǒng)連續(xù)給你推舉了幾篇相像的內(nèi)容,會怎么樣呢?——假設我想看,看一篇就夠了,假設我不想看,那么重復推舉也沒有意義啊!沒錯,所以今日頭條在推舉某篇內(nèi)容之前,必需確定這篇內(nèi)容:在系統(tǒng)里是否存在一樣或者高度相像的內(nèi)容?假設存在,那么這篇內(nèi)容的來源是否是最權(quán)威、最有價值、最有可能是原創(chuàng)的來源呢?消重就是指對重復、相像、相關(guān)的文章進展分類和比對,使其不會同時打算同樣主題或內(nèi)容的文章是否有時機被推舉給更多用戶。二.消重的種種好處優(yōu)質(zhì)內(nèi)容的媒體不太有利,但是綜合看來,我們覺得消重的好處是很多的,尤其對于用戶來說:優(yōu)化用戶的體驗。對用戶來說,同樣主題的文章看一篇就夠了;鼓舞原創(chuàng)!在文章相像的狀況下,申明「原創(chuàng)」文章是后續(xù)獲得推舉的重要指標;給更多內(nèi)容以曝光時機。由于用戶的興趣是確定的,假設每次刷都反復推舉類似的內(nèi)容,你公布的其他內(nèi)容不就沒有曝光時機了嗎?固然,總體來說,這是一個有利于原創(chuàng)者的機制,這也和頭條號平臺鼓舞原創(chuàng)內(nèi)容生產(chǎn)的目標全都。三.頭條號算法中的消重過程如何推斷兩個內(nèi)容是否一樣呢?十多萬篇次的時候,這么做即使對于計算機來也太麻煩了。有沒有更簡潔的方法呢?有的,通過系統(tǒng)的計算,一篇文章的文本、標題、圖片等都是可以轉(zhuǎn)換視頻等信息形式,原理也是類似的。延長閱讀:留意:此處介紹的只是計算原理,并非實際發(fā)生的計算過程。信息的「身份證」,一種更常見的稱呼是「信息指紋」,是計算機應用種,但原理是相像的:你可能知道,不管是中文、外文還是數(shù)字,在計算機系統(tǒng)里,實際上都01的代碼形式存儲的,例如大寫字母A的ASCII編碼就是01000001z的ASCII01111010〔實際上也存在很多種編碼標準,ASCII是一種常見的英語編碼標準,承受8位二進制數(shù)字編碼簡潔來說,計算會對文本中消滅的不同字符的信息指紋,結(jié)合它們各拘束內(nèi)容中消滅的次數(shù),反復進展算術(shù)運算,最終得到一篇內(nèi)容的信息指紋。理論上說,假設運算足夠多的次數(shù),就會產(chǎn)生足夠獨一無二的數(shù)字結(jié)果。信息指紋的重復概率有多低呢?假設我們通過上面的計算,得到一串128位的二進制數(shù)字,這在計算機系統(tǒng)里只需要占用很小的空間,但是依據(jù)「抽屜原理」,這樣的數(shù)字重復一千八百億次才能重復一次!這對于一般的信息消重來說,已經(jīng)格外足夠了。0,對于“消重”機制,不必擔憂誤判,也不能心存幸運!原理上說,不同內(nèi)容的身份證是不一樣的,而一樣內(nèi)容的身份證是一樣的。并且,相像的內(nèi)容會具有相像的身份證。這是頭條號的系統(tǒng)對內(nèi)容進展消重的根底。每一篇文章都有屬于自己的「身份證」,用來與平臺中的其他文章進展比對。通常有以下幾種不同的消重機制:內(nèi)容消重與「關(guān)鍵項」在計算一篇內(nèi)容的「身份證」之后,根本上有兩種狀況。其一,這是一個系統(tǒng)中獨一無二的身份證,換言之,同樣的內(nèi)容在系統(tǒng)里只有這樣一篇。對于內(nèi)容公布者來說,這生怕是最抱負的狀況了,這種狀況下,在向讀者推舉一樣內(nèi)容時,系統(tǒng)除了推舉這一篇外,別無選擇。其次種就要簡潔得多了,同時也是格外常見的狀況:系統(tǒng)里存在多篇不同內(nèi)容,都具有同一張身份證。這時,系統(tǒng)就需要從這些一樣內(nèi)容中選擇一篇“關(guān)鍵項”向用戶推舉。進展選擇的最終目的是保證向用戶推舉的內(nèi)容來自更權(quán)威、更有可能是原創(chuàng)來源的頭條號。內(nèi)容本身之外可能存在很多的差異,這些差異就是推斷的關(guān)鍵,具體的計算標準是格外多的,其中最重要的一些包括:來源頭條號是否開通「原創(chuàng)」標記;公布時間;來源的權(quán)威性和在網(wǎng)絡上被引用的次數(shù)。舉例來說,假設「央視聞」通過頭條號平臺在519日上午公布了520日上午轉(zhuǎn)發(fā)了同樣一篇內(nèi)容,兩者都沒有標記原創(chuàng),那么:首先,依據(jù)文本分析,這兩篇內(nèi)容會被計算出一個一樣的「信息指紋」;接著,「央視聞」是比較權(quán)威的聞報道媒體,而且,「央視聞」的內(nèi)容公布時間更早,因此,是權(quán)威、原創(chuàng)來源的可能性就遠遠大于「門頭溝聞」;那么,「央視聞」所公布的同一篇內(nèi)容,就會被認定是這兩篇內(nèi)容中的關(guān)鍵項〔官方英文名叫Keyitem〕,繼而向用戶推舉。那么,假設說,同樣的內(nèi)容,519日先由「門頭溝聞」的頭條號公布,520日再消滅在「央視聞」的頭條號上,系統(tǒng)會如何判定呢?這就比較簡潔了,但是綜合看來,系統(tǒng)選擇最正確內(nèi)容來源的可能性格外大。創(chuàng)」,那么在這種狀況下,系統(tǒng)會有很大的幾率把這篇內(nèi)容選擇為「關(guān)鍵項」,無論其他因素的比較結(jié)果如何〔盡管如此,「原創(chuàng)」頭條號應當消申明原創(chuàng)的資格〕。一旦系統(tǒng)覺察了可能對某篇內(nèi)容感興趣的用戶正在刷今日頭條客戶端,那么系統(tǒng)會自動把具有同樣「信息指紋」的內(nèi)容中,經(jīng)過選擇最優(yōu)的一篇推舉到用戶的信息流。剩下具有一樣「信息指紋」的內(nèi)容,就幾乎不行能獲得推舉了。今日頭條獲得推舉量的緣由。其他一些「消重」的規(guī)章外的消重規(guī)章。標題和預覽圖片的消重。原理與內(nèi)容消重相像,只不過是只比較標題以及預覽圖片的「信息指紋」。之所以要對具有一樣的標題或者預覽圖片的內(nèi)容進展消重〔哪怕它們的內(nèi)容并不一樣〕,這是由于,假設用戶沒有點擊內(nèi)容詳情頁,這看上去就是系統(tǒng)把兩篇一樣的內(nèi)容重復推舉給了用戶!可想而知這樣的掃瞄體驗是很糟糕的,況且,很少有人情愿連續(xù)點擊幾篇看上去一模一樣的內(nèi)容,因此這樣的推舉也很少起效果。針對相像主題的消重。你確定對這樣的景象不生疏:每當有某個社會熱點大事或者話題KOL們一擁而上,競相報道大事細節(jié)或者發(fā)表觀點,讓你的微博、朋友圈被有關(guān)這件事的種種內(nèi)容“刷屏”。追趕熱點,是媒體、自媒體很本能的一種行為模式,但是對于用戶來說,需要的其實并不是反復看到一樣的信息,假設有足夠優(yōu)質(zhì)的報道或者觀點的話,其實看有限的幾條就夠了。機器為避開在同一時間段用戶看到太多同一大事的文章,就會啟動對「相像主題」的消重。不難想到,對于主題的消重原理和對內(nèi)容的消重其實原理是一樣的,假設能對文章中全部的關(guān)鍵詞進展統(tǒng)計并計算信息指紋,當然也可以對其中局部與話題相關(guān)的關(guān)鍵詞進展統(tǒng)計并計算信息指紋。靈敏一些,由于在信息流里看到重復的內(nèi)容對用戶是最不好的體驗。四.應如何避開被消重?這樣的狀況呢?堅持原創(chuàng)!假設內(nèi)容完全是你原創(chuàng)的,那么,可以想見這樣的內(nèi)容根本上都是獨一無二的,自然就不用擔憂消重的問題了。固然這是最抱負的狀況,不行諱言,對于「原創(chuàng)」這件事,有時計算機的推斷和人的推斷是不全都的。緣由是,計算機只能觀看到互聯(lián)網(wǎng)上發(fā)生的事,卻對沒有在網(wǎng)絡上留下痕跡的事情一無所知!一種比較常見的狀況是,原創(chuàng)作者把自己的原創(chuàng)內(nèi)容授權(quán)給了多家媒體,甚至有些媒體有首發(fā)權(quán)。而這些媒體可能都有自己的頭條號,因此就把作者的原創(chuàng)內(nèi)容先發(fā)到頭條號上來了。因此,當作者自己在頭條號上更時,或許由于發(fā)得比較晚,或許由于不如媒體有知名度,導致自己公布的內(nèi)容沒能成為「關(guān)鍵項」。因此,建議原創(chuàng)作者在賜予其他媒體內(nèi)容授權(quán)時,盡可能商定清楚。同時,假設可能的話,盡量把自己原創(chuàng)的內(nèi)容,在自己的頭條號上首發(fā)。有些作者傾向于使用微信同步功能將自己的內(nèi)容從微信公眾號上同步到頭條號上。但是有時這個策略會導致一些意料之外的「消重」問題。由于這個功能需要調(diào)用微信公眾平臺的一些技術(shù)接口,因此頭條號是無法保證它始終良好運行的。假設同步生效的時間比較晚,甚至同步失敗。那么在這個過程中很簡潔發(fā)生其他頭條號把原創(chuàng)內(nèi)容先轉(zhuǎn)載到自己的頭條號上,并且成為「關(guān)鍵項」的狀況。因此建議頭條號運營者確定要慎重使用微信同步功能,盡可能在頭條號手動公布、首先公布。面對「熱點」要慎重追趕。別忘了「話題消重」這個規(guī)章,盡管這不如「內(nèi)容消重」那么嚴格,但是一件事再熱,讀者的興趣也是有限的。因此,假設不能確定自己創(chuàng)作的角度足夠獨特,自己的內(nèi)容足夠優(yōu)質(zhì),那么就不要任憑地追趕熱點,免得做了無用功。少用常見標題套路。最終,起標題時,盡量挖掘自己的創(chuàng)意,起出一些別出心裁又有吸引力的標題,盡量少用網(wǎng)絡上常見的標題套路,以免「撞款」了!要記得,標題也是會被消重的。同類型的主體注冊帳號,包括個人、企業(yè)、群媒體、國家機構(gòu)、聞媒體和其他組織。評論家及自媒體人士申請入駐;企業(yè):公司、分支機構(gòu)、企業(yè)相關(guān)品牌、產(chǎn)品以及效勞等能夠申請入駐;群媒體:以內(nèi)容生產(chǎn)為主要產(chǎn)出的機構(gòu)能夠申請入駐,如36氪、果殼網(wǎng)、Mtime時間網(wǎng)等;國家機

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論