Google反作弊不如百度_第1頁
Google反作弊不如百度_第2頁
Google反作弊不如百度_第3頁
Google反作弊不如百度_第4頁
Google反作弊不如百度_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、特別推薦閱讀-劉建國:Google反作弊不如百度這里給大家轉(zhuǎn)載一篇采訪文章,從這篇文章里seo可以提取的信息有很多。尤其請(qǐng)注意文章中大紅顏色文字部分。原文如下:對(duì)百度,CTO劉建國的采訪過程就是一個(gè)擠牙膏的過程,他永遠(yuǎn)不會(huì)借題發(fā)揮,對(duì)采訪者的問題,回復(fù)得簡練而專注。這位與李彥宏一起創(chuàng)立百度的“技術(shù)新官僚”,對(duì)搜索引擎技術(shù)運(yùn)用的思考,在一定程度上體現(xiàn)了這個(gè)新上市公司的商業(yè)方向及這個(gè)團(tuán)隊(duì)的技術(shù)想象力。采訪中,劉建國不斷接到要求解封的“作弊網(wǎng)站”的電話,大多是熟人才會(huì)直接將電話打到他這里,或是打給李彥宏。采訪由此而展開。反作弊是我們的技術(shù)21世紀(jì):李彥宏選擇搜索引擎作為百度的主業(yè),當(dāng)時(shí)是怎么確定的?

2、劉建國:2000年之前,中國有許多搜索引擎公司,Goyoyo是香港一個(gè)公司做的;科學(xué)院有一個(gè)網(wǎng)站,還有北大天網(wǎng)。當(dāng)時(shí)創(chuàng)立公司時(shí)搜索引擎已經(jīng)很多 了。我們機(jī)會(huì)在哪里?在當(dāng)時(shí)我和李彥宏的通信中,他說要做就做最好的。當(dāng)時(shí)已有的搜索引擎速度慢,索引小,用戶體驗(yàn)很差。我們都認(rèn)為做一個(gè)中文搜索引擎有 很大前景,所以我就從北大出來,跟李彥宏一起創(chuàng)業(yè)了。21世紀(jì):現(xiàn)在來看,當(dāng)時(shí)搜索的核心技術(shù)是什么?劉建國:分成好幾塊,一塊是網(wǎng)頁抓取,由蜘蛛程序選擇、抓取互聯(lián)網(wǎng)中的網(wǎng)頁,還要持續(xù)不斷地更新網(wǎng)頁,將過期的網(wǎng)頁剔除掉;二是超鏈分析和內(nèi)容分析;三是針對(duì)用戶的搜索服務(wù):如何處理海量數(shù)據(jù)和大規(guī)模的用戶訪問?如何提供穩(wěn)定的

3、服務(wù)?有很多技術(shù)問題需要解決。21世紀(jì):你們是一幫人在做?劉建國:好多個(gè)組,重點(diǎn)是相關(guān)性的評(píng)價(jià)。哪些網(wǎng)頁是用戶想要的?后面就有好多技術(shù);比如超鏈分析;這里有李彥宏的專利。超鏈在Infoseek之前就有成熟的技術(shù),李彥宏在那兒工作時(shí)就研究得很細(xì),但我們沒有僅用這套方法,而是根據(jù)當(dāng)時(shí)搜索引擎全球的發(fā)展做了改進(jìn)。21世紀(jì):百度在相關(guān)性方面有什么特色?劉建國:有兩個(gè)基本方面:超鏈分析和內(nèi)容分析。我們這幫技術(shù)人員,包括李彥宏,根據(jù)搜索引擎當(dāng)時(shí)的技術(shù)發(fā)展,做出了一套百度自己的超鏈分析系統(tǒng)。另外還得分析網(wǎng)頁內(nèi)容,比如中文處理就很重要,要理解中文的語法和特定文字意義,因?yàn)橹形呐c英文還是不一樣的,只有判斷文字是

4、什么意思,才能給用戶提供搜索結(jié)果。21世紀(jì):“欺騙搜索”是什么意思?你們有什么獨(dú)特的技術(shù)來對(duì)付它?劉建國:就是所謂的網(wǎng)絡(luò)優(yōu)化,比如SEO之類,鏈接一些域名,好象鏈接很多,但實(shí)際上是人為做 出來的。還有一些鏈接,就是專門幫別人做鏈接,這也是超鏈分析。你不是鏈接分析嗎?專門針對(duì)你。還有一些網(wǎng)站,專門給別人做,相關(guān)度也高,我們必須發(fā)現(xiàn)哪 些是LINKFORM,然后分析出來。21世紀(jì):這如何看得出來?有簡單工具嗎?劉建國:我們已經(jīng)可以通過技術(shù)手段及時(shí)發(fā)現(xiàn)這種欺騙或者叫作弊。是否作弊,有一個(gè)很簡單的標(biāo) 準(zhǔn):用戶看到的內(nèi)容和搜索引擎看到的內(nèi)容是否一致?前一段搜索“芙蓉姐姐”,進(jìn)去之后很多是買手機(jī)的,買其他

5、信息,這就是作弊。我們就分析,他們是通過什 么方法來“欺騙搜索”。比如LINKFARM,我們靠技術(shù)發(fā)現(xiàn)出來,它已經(jīng)“堆砌關(guān)鍵詞”了,我們看出它是作弊的,我就不要它。這就是為何后來反彈這么 大,有了“反百度聯(lián)盟”的原因。有“反百度聯(lián)盟”成員說,你為什么屏蔽我?前一段搜狐網(wǎng)的一個(gè)峰會(huì),一個(gè)醫(yī)藥網(wǎng)的說我們很好啊,你為什么把我給封了?它的 “堆砌”是作弊的,如果我們把它放開,對(duì)用戶是一種欺騙。21世紀(jì):比如在百度搜“芙蓉姐姐”,你們把有些“芙蓉姐姐”鏈接給屏蔽了,那就不能給用戶提供更多的結(jié)果了?劉建國:是更準(zhǔn)確,比如用戶到這里來搜,得到的是真正的“芙蓉姐姐”而不是手機(jī)鈴聲。這樣做的目的是給用戶很好的用

6、戶體驗(yàn)。21世紀(jì):在反作弊技術(shù)里,有什么可以明確識(shí)別作弊?劉建國:比如,來回互相鏈接、堆砌關(guān)鍵詞等。還有前景色和背景色完全一致,在HTML里面,用戶看不見,可以騙搜索引擎,就這樣騙用戶。21世紀(jì):僅僅背景色也可以用來作弊?劉建國:背景是黑色的,搜索看見的僅僅是內(nèi)容,是看不到背景的。前景與后景一樣,機(jī)器看不著,人能看出來,景色也是識(shí)別的因素。其中的文字就是有些網(wǎng)站想欺騙的東西。有很多方法作弊,層出不窮的。搜索與作弊網(wǎng)站是永遠(yuǎn)不會(huì)結(jié)束的戰(zhàn)爭。21世紀(jì):有沒有可以“招安”的作弊網(wǎng)站?劉建國:不會(huì)的。他們的利益很大,騙一點(diǎn)是一點(diǎn),不會(huì)到這里來做。21世紀(jì):有多少這樣的網(wǎng)站?劉建國:每天碰到成千這樣的網(wǎng)

7、站。21世紀(jì):他們到哪里拉客戶?劉建國:不一定拉客戶,他們可以自己做鈴聲、短信,SEO會(huì)拉企業(yè),給錢,我給你排位。另一個(gè)“敵人”是Google嗎?21世紀(jì):與Google的反作弊比,你們有什么優(yōu)勢?劉建國:說Google的技術(shù)比我們好,我不認(rèn)同,他們主要是不夠集中。比如反作弊的, Google中文就做不過我們,這有技術(shù)問題,還有人力,要知道作弊慣用的手法,而Google不知道。這個(gè)模式我們比Google發(fā)展得更快,我們更接 近用戶。我們中文的理解做得比他們好,比如像分詞、切詞,中文是一個(gè)一個(gè)字,放一塊兒,那些字和詞是不一樣的。我做得比Google好。他們沒有專門研究 中文。21世紀(jì):你們是用自

8、己的技術(shù)?劉建國:是的。我們中文分詞,這個(gè)技術(shù)里面沒有英文,中文本身的處理我們已經(jīng)到位,還有語法的應(yīng)用,我們做得很好。語法是主謂賓,如何用,老外不理解。21世紀(jì):你們用以前的文字識(shí)別技術(shù)嗎?劉建國:對(duì)中文我們有一套獨(dú)特的做法,現(xiàn)在成熟的技術(shù)都不太適合我們。21世紀(jì):有沒有用哪個(gè)平臺(tái)?比如大的軟件?劉建國:這個(gè)軟件是我們自己做的。21世紀(jì):是應(yīng)用軟件?劉建國:不是一套。我們直接用自己的東西。比如說詞典、分詞、詞匯。這不是釋義的詞典,可能有很多資源。比如我們用人民日?qǐng)?bào)的語料庫,我們購買這樣的資 料。更多的平臺(tái)是我們自己的搜索引擎。我們有日志,總結(jié)新的詞匯。我們對(duì)10億計(jì)的網(wǎng)頁也能分析。這是Goog

9、le中文做不到的。至少?zèng)]有聚焦。另外從中 文用戶體驗(yàn)來說,我們也做得比他們好,比如用戶體驗(yàn)是什么、習(xí)慣是什么。比如相關(guān)搜索,在中文里面,用戶心里想的一個(gè)事情,比如“軟件”這個(gè)詞,用戶心里 想的是軟件下載,但搜索的是“軟件”這個(gè)詞,他輸入“軟件”,與搜索不符。百度會(huì)提示得更加精細(xì)化,到底是軟件下載還是加密,全自動(dòng)服務(wù),這樣用戶會(huì)覺得 很好。類似的工作我們下了很多功夫。其他像拼音檢索,錯(cuò)別字糾正,我們也能正確提示?,F(xiàn)在有些搜索正在抄我們。我認(rèn)為不能崇洋。從競價(jià)排名平衡用戶體驗(yàn)21世紀(jì):從用戶體驗(yàn)來看,曾經(jīng)一度Google要比你們好些,比如競價(jià)排名不是他們主要標(biāo)準(zhǔn),信息的直接有效很重要。劉建國:這是

10、另外一個(gè)誤區(qū)。搜索結(jié)果的首頁我們有多少競價(jià)排名呢?沒多少,最多不超過20%,我們的原則是用戶體驗(yàn)是第一位的,而且是真正相關(guān)的?,F(xiàn)在20%是被人定制的,其他是免費(fèi)體現(xiàn)的,是有用的。實(shí)際上,20%的競價(jià)排名也是在嚴(yán)格的人工審核下去通過的。21世紀(jì):人工審核能不能有一個(gè)例子?劉建國:我們有一個(gè)30人的組,比如用戶提一個(gè)詞,看是不是真正跟商品有關(guān)的。第二,鏈接的這個(gè)網(wǎng)站,是不是做商品的。即使是客戶定制的競價(jià),競的是某個(gè)關(guān)鍵詞,我們也要看是不是商品、是不是服務(wù)。21世紀(jì):如何決定?劉建國:人工能查出來,當(dāng)然也有很多調(diào)整。比如IBM,我們考慮把IBM放在最前,后來還是把IBM中國放在前面。雖然阿里商城(I

11、T銷售商)交錢了,但第一個(gè)仍是IBM中國,我們也是考慮到用戶的體驗(yàn)。21世紀(jì):就是說要在用戶與客戶之間平衡?在網(wǎng)頁上還有哪些直接體現(xiàn)?劉建國:收費(fèi)的內(nèi)容均有標(biāo)志,比如“百度快照”不是收費(fèi)的。21世紀(jì):你們賣得最好的關(guān)鍵詞是哪些?劉建國:比如“鮮花”,就有很多人買。第一條是買的,是實(shí)時(shí)變化的,誰的價(jià)高就買到最前面去了。百度不再用“插件”營銷21世紀(jì):你們的營銷方式曾經(jīng)是以“一個(gè)插件”(業(yè)界通稱為“流氓軟件”)來解決?劉建國:這不是最關(guān)鍵的。當(dāng)時(shí)主要是與3721打,競爭太激烈了,這是環(huán)境所致的。21世紀(jì):現(xiàn)在“插件”還用嗎?劉建國:我們插件裝得挺少的。與有的搜索比,百度這種“流氓軟件”最少,插件不

12、是主流的,現(xiàn)在都已經(jīng)走向正規(guī)了。插件只是推廣手段,今后變成用戶自己主 動(dòng)。百度的插件是可以卸掉的,比如搜霸。但有些搜索,沒有點(diǎn)就生成了,這種推廣手段我們以前做過,但后來停了。如果用戶要覺得好,可以自主選擇,我們可以 保證,用戶不會(huì)被動(dòng)選擇、不遵從他的意愿被動(dòng)強(qiáng)制性的。21世紀(jì):你們?nèi)サ袅四男安寮蹦?劉建國:我們的不會(huì)自動(dòng)彈出來,也不會(huì)誤裝。21世紀(jì):我們可不可以說,百度以前用過“插件”,現(xiàn)在不用了?劉建國:現(xiàn)在都不用了。我們就是一個(gè)搜霸,百度聯(lián)盟,而且推廣方式不是強(qiáng)制性的。搜霸確實(shí)也有好處,節(jié)省了用戶時(shí)間,一步到位。我們不會(huì)用以前的推廣方 式。但有些網(wǎng)站點(diǎn)進(jìn)去就是網(wǎng)絡(luò)實(shí)名,就是靠彈出,非意

13、愿的。我們?cè)瓉硪灿玫煤苌?,也是百度?lián)盟成員自己用的因?yàn)檠b上后有收益。現(xiàn)在誰利用這種方式裝,就不 讓加入聯(lián)盟了。21世紀(jì):有多少個(gè)聯(lián)盟成員?劉建國:現(xiàn)在有好幾萬。如何管理這些聯(lián)盟也是一個(gè)大問題。技術(shù)與人工、誰排第一?21世紀(jì):剛才提到相關(guān)性、超鏈分析、反作弊,結(jié)合起來形成了你們的核心價(jià)值嗎?劉建國:是。但如何調(diào)節(jié)這些東西,各家都不一樣。超鏈分析是共用的。大家都在用。沒有一個(gè)公司去公布搜索技術(shù),因?yàn)檫@是一個(gè)商業(yè)秘密。我們是經(jīng)過5年多積累才出來這樣好的結(jié)果。這些都是核心技術(shù),一定得積累。21世紀(jì):共享的經(jīng)驗(yàn)有哪些?劉建國:各個(gè)公司不一樣,不能公布細(xì)節(jié)。21世紀(jì):你們重要在分析用戶還是客戶?劉建國:重

14、要的是分析網(wǎng)頁,網(wǎng)頁與網(wǎng)頁之間的分析。WEB的方式,是由HTML組成的。網(wǎng)頁與 網(wǎng)頁之間的是URL,最大好處是網(wǎng)頁與網(wǎng)頁之間可以用超鏈來指,叫HYPERLINK,指向另外一個(gè)網(wǎng)頁是做什么的。比如“中國人民銀行”會(huì)指向很多東 西,每個(gè)都是鏈。他們指向他,LINK有一個(gè)叫評(píng)價(jià),U1對(duì)U2的評(píng)價(jià)。第一是指向,第二是評(píng)價(jià)。這是一個(gè)網(wǎng)頁,“中國人民銀行”就是超鏈,他指向另外一 個(gè)有說明中國銀行是做什么的,指向后,另一個(gè)是指向的U2,另外還有U3。很相關(guān)的排前面,找到最權(quán)威的。最后綜合加權(quán),中國人民銀行大,其他商業(yè)銀 行小,那么就加權(quán),算出來結(jié)果誰排前面。21世紀(jì):你們做這些,有沒有編輯?劉建國:有的網(wǎng)站

15、有,我們沒有,但我們有人工。網(wǎng)站不需要編輯,我們是靠技術(shù),要把這些東西都拿過來。剛才說的抓取、分析是否相關(guān),生成抓取的排名。抓取要分析,之后建立索引,把內(nèi)容到URL的一個(gè)檢索,之后提供服務(wù)。抓取,分析、檢索、服務(wù)四個(gè)環(huán)節(jié)。21世紀(jì):你們的技術(shù)部門是按四個(gè)環(huán)節(jié)來分的?劉建國:我們有很多組,做不同工作。21世紀(jì):你們的生產(chǎn)環(huán)節(jié)與通常的產(chǎn)品定義不一樣。劉建國:是有些怪。比如說我們是如何攻關(guān):要分析、提出問題,每個(gè)部門都提,李彥宏也會(huì)參與。21世紀(jì):你們最近提過什么問題?劉建國:我還不想透露太多的細(xì)節(jié),比如抓取。我最近要提出一個(gè)問題:網(wǎng)站的覆蓋率。要研究中國所有的網(wǎng)站。我們平常與Google比較,我們

16、來看交集,相 同的內(nèi)容是多少?各自抓多少?我們發(fā)現(xiàn)交集不多,我們獨(dú)自的較多,這是所有搜索的共性。我提出說,要去調(diào)研,為什么會(huì)有這種差距,這種差別是如何產(chǎn)生的, 沒抓的是什么特性?Google抓的是什么特性?Google是海外的嗎?這都是一種猜想。我們要去調(diào)查,然后去做方案,方案再討論是不是可行。這樣持續(xù) 不斷地做,技術(shù)的含量很高。效果都是很客觀的,都是真刀真槍的。21世紀(jì):技術(shù)隊(duì)伍如何分工?劉建國:除了研發(fā)還有測試的,另外還有運(yùn)營的,給我們提供服務(wù)是在中國電信或網(wǎng)通,另外要管機(jī)器,硬盤壞了,負(fù)責(zé)換,系統(tǒng)要上線,數(shù)據(jù)有哪些問題,都得分 析。研發(fā)、運(yùn)營、測試還有客服(有面向用戶及企業(yè)的)。有問題可

17、以直接發(fā)到電子郵件,我們暫時(shí)沒有呼叫中心。為用戶解決問題,先整理一些問題,再傳到其他 部門。21世紀(jì):你們的產(chǎn)品,是以什么形態(tài)呈現(xiàn)出來的?劉建國:網(wǎng)頁、MP3、“知道”等等,每個(gè)頻道都是一個(gè)產(chǎn)品。21世紀(jì):光靠技術(shù)行不行?還是需要編輯?劉建國:主要靠技術(shù),這么大量信息處理,靠人工不行。有人工,也是IT輔助下的人工。21世紀(jì):專業(yè)性的頻道,比如百度傳情、影視頻道,百度“知道”,也是技術(shù)生產(chǎn)出來的?劉建國:這是搜索“人腦”,技術(shù)生成就行了。21世紀(jì):你們作為純技術(shù)派的人,認(rèn)為百度在技術(shù)上與微軟、Google競爭,真得那么輕松嗎?劉建國:我認(rèn)為百度這么多年為何能成功一個(gè)主要的原因,就是我們的專注,只

18、做搜索,中文搜索。對(duì)于要趕超的人,第一是專注,要超越自我。我們?cè)诓煌膱龊?說過,我們的對(duì)手是我們自己,不是其他的人。我們能否保持旺盛的斗志,我們?cè)谄D難歲月里保持的那些東西能否保留下來,我們每個(gè)人是不是都很進(jìn)取、協(xié)作。這 是決定我們最關(guān)鍵的東西。此外還要繼續(xù)招優(yōu)秀的人。“知道”、貼吧核心解密21世紀(jì):搜索技術(shù)會(huì)有大的變化嗎?劉建國:有可能要變化,一句說不清楚。我覺得要保持創(chuàng)新,要監(jiān)控業(yè)界的變化,要跟得上變化。以后的方向很多,比如說個(gè)性化需求,不同的人查到不同的結(jié)果,也許真有不同的發(fā)展。21世紀(jì):解決個(gè)性化需求依靠什么技術(shù)?劉建國:了解這個(gè)人的個(gè)性,知道這個(gè)人的背景、身份、年齡和習(xí)慣,這樣來調(diào)整

19、搜索;另外無線搜索也是新市場。通過手機(jī)搜索及其他智能終端,針對(duì)不同的需求,專門建立無線搜索頻道;其他的應(yīng)用,比如地圖搜索,現(xiàn)在Google正在做,百度是否要做,現(xiàn)在還沒有完成研發(fā)。21世紀(jì):讓我們來說說“知道”,它的哪一點(diǎn)技術(shù)比較關(guān)鍵?劉建國:“百度知道”是用來找知識(shí)的。沒有所謂核心技術(shù),它是一個(gè)平臺(tái),讓問的人和回答的人都能在這里自動(dòng)滾動(dòng),提問和回答都很方便。平臺(tái)的界面和流程都要建得好,另外評(píng)價(jià)的系統(tǒng)很好,加權(quán)平均的系統(tǒng),沒有一個(gè)核心的技術(shù)。21世紀(jì):你們對(duì)客戶進(jìn)行管理用什么系統(tǒng)?劉建國:競價(jià)的用戶,一個(gè)是客戶(企業(yè)),一個(gè)是用戶(網(wǎng)民),我們不需要管理,我們只需要服務(wù)就行了。比如對(duì)客戶,主要是提升服務(wù)效果,對(duì)生意有幫助。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論