




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、(完整word版)中文智能搜索引擎中文智能搜索引擎龍其072349(完整word版)中文智能搜索引擎摘要飛速發(fā)展的Internet給用戶(hù)提供了海量的信息資源,導(dǎo)致用戶(hù)從爆炸性增長(zhǎng)的信息中迅速獲得需要的信息變得越來(lái)越困難。為了幫助用戶(hù)快速準(zhǔn)確地檢索到所需的網(wǎng)絡(luò)信息,網(wǎng)絡(luò)搜索引擎的研究與開(kāi)發(fā)已經(jīng)成為當(dāng)今網(wǎng)絡(luò)信息檢索的熱點(diǎn)。本文通過(guò)搜索引擎概述及原理介紹中文智能搜索引擎,從中文分詞技術(shù);詞性標(biāo)注及詞義分析;分類(lèi)器設(shè)計(jì)檢索模型;PageRank排序技術(shù);研究現(xiàn)狀和發(fā)展趨勢(shì)等內(nèi)容對(duì)中文智能搜索引擎進(jìn)行介紹。搜索引擎概述及原理搜索引擎是以Web頁(yè)面為檢索文檔的信息檢索系統(tǒng),它的核心就是信息檢索技術(shù)。廣義地
2、說(shuō),搜索引擎就是指在指互聯(lián)網(wǎng)上能夠響應(yīng)用戶(hù)提交的搜索請(qǐng)求,返回相應(yīng)的查詢(xún)結(jié)果信息的技術(shù)和系統(tǒng)。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對(duì)信息進(jìn)行理解、提取、組織和處理,并為用戶(hù)提供檢索服務(wù),從而起到信息導(dǎo)航的目的。搜索引擎并不是真正地搜索互聯(lián)網(wǎng),它搜索的是預(yù)先整理好的網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。一般來(lái)說(shuō),搜索引擎得原理可以看做三步:從互聯(lián)網(wǎng)中抓取網(wǎng)頁(yè);建立索引數(shù)據(jù)庫(kù);在索引數(shù)據(jù)庫(kù)中進(jìn)行搜索排序.互聯(lián)網(wǎng)中抓取網(wǎng)頁(yè):通過(guò)網(wǎng)頁(yè)搜索工具Spider(蜘蛛)或Robot(機(jī)器人)等自動(dòng)訪(fǎng)問(wèn)互聯(lián)網(wǎng),沿著URL搜索,并把搜索到的信息帶回搜索引擎。建立索引數(shù)據(jù)庫(kù):通過(guò)對(duì)收集的網(wǎng)頁(yè)信息進(jìn)行分析,把這些相關(guān)信息進(jìn)行分類(lèi)
3、索引建立索引數(shù)據(jù)庫(kù)。在索引數(shù)據(jù)庫(kù)中進(jìn)行搜索排序:通過(guò)Web服務(wù)端軟件,獲得用戶(hù)輸入關(guān)鍵詞后,有搜索程序從網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的相關(guān)網(wǎng)頁(yè)。為用戶(hù)提供瀏覽界面下的查詢(xún)信息。中文智能搜索引擎中文搜索引擎中文搜索引擎是指以Interent網(wǎng)絡(luò)上的中文信息為主要對(duì)象,提供信息的自動(dòng)收集、自動(dòng)過(guò)濾、自動(dòng)索引中和檢索導(dǎo)航等服務(wù)的搜索引擎.中文Internet搜索引擎的最關(guān)鍵組件是能夠在海量中英文數(shù)據(jù)上進(jìn)行高效全文檢索的信息管理系統(tǒng)。中文搜索引擎的機(jī)制同英文搜索引擎大致相同,不同的是多了中文語(yǔ)言的處理技術(shù),這主要是中文分詞技術(shù)和漢化技術(shù)。(完整word版)中文智能搜索引擎邏輯上,中文信息搜索引擎與與一
4、般搜索引擎一樣分為三個(gè)部分:網(wǎng)頁(yè)搜索引擎,索引引擎和查詢(xún)引擎.智能搜索引擎?zhèn)鹘y(tǒng)搜索引擎局限:傳統(tǒng)搜索引擎主要采用網(wǎng)站分類(lèi)技術(shù)和全文檢索技術(shù)來(lái)實(shí)現(xiàn)信息查詢(xún),前者成本高,對(duì)網(wǎng)站描述也比較簡(jiǎn)單,不能升入網(wǎng)站內(nèi)部細(xì)節(jié)。而后者效率比較低且返回信息過(guò)多。傳統(tǒng)搜索引擎所使用的技術(shù)都難以解決用戶(hù)“找信息難”的問(wèn)題,造成這種困難的實(shí)質(zhì)在于搜索引擎缺乏知識(shí)處理能力和理解能力。因此要把信息檢索從基于關(guān)鍵詞層面提高到基于知識(shí)層面。智能搜索引擎,它突破傳統(tǒng)搜索引擎基于要求較精確的關(guān)鍵詞層面信息檢索的局限,發(fā)展到基于以不規(guī)范、不精確的自然形式出現(xiàn)的知識(shí)(或概念)層面來(lái)分析和處理用戶(hù)的查詢(xún)提問(wèn),具有良好的自然語(yǔ)言理解、知識(shí)
5、處理能力,在信息檢索過(guò)程中體現(xiàn)出很強(qiáng)的智能化與人性化優(yōu)勢(shì).中文智能搜索引擎采用智能搜索引擎得方法實(shí)現(xiàn)對(duì)中文信息的檢索。中文智能搜索引擎可以自動(dòng)分析中文網(wǎng)頁(yè),進(jìn)行自動(dòng)分詞處理,并自動(dòng)提取關(guān)鍵詞,建立一關(guān)鍵詞為基礎(chǔ)的查詢(xún)數(shù)據(jù)庫(kù),降低了系統(tǒng)開(kāi)銷(xiāo),大大提高了查詢(xún)效率.它通過(guò)充分考慮中文語(yǔ)句的表達(dá)結(jié)構(gòu)以及“口語(yǔ)化的提問(wèn),智能化的結(jié)果”來(lái)滿(mǎn)足用戶(hù)的各種查詢(xún)需求。中文智能搜索引擎功能結(jié)構(gòu)圖大致如下:中文智能搜索引擎功能結(jié)構(gòu)中文智能信息系統(tǒng)包含了許多中文信息處理的關(guān)鍵技術(shù)如:中文分詞技術(shù),詞性標(biāo)記,文本分類(lèi)等。利用這些中文信息處理技術(shù),來(lái)提高系統(tǒng)搜索的效率,查詢(xún)結(jié)果的準(zhǔn)確性等。中文分詞技術(shù)1.自動(dòng)分詞分詞就是
6、把一個(gè)句子按照其中詞的含義進(jìn)行切分,由于中文文本在書(shū)寫(xiě)表達(dá)或計(jì)算機(jī)內(nèi)部表示時(shí),字與字之間、詞與詞之間沒(méi)有明確的切分標(biāo)志。此外,漢語(yǔ)詞序的靈活性,語(yǔ)法限制簡(jiǎn)單及歧義現(xiàn)象等都給中文的自動(dòng)分詞造成了極大的困難。2.自動(dòng)分詞的過(guò)程指的是從信息處理需要出發(fā),按照特定的規(guī)范,對(duì)漢語(yǔ)按照分詞單位進(jìn)行劃分的過(guò)程.分詞單位指漢語(yǔ)信息處理使用的、具有確定語(yǔ)義或語(yǔ)法功能的基本單位,包括詞和詞組。詞是最小能獨(dú)立運(yùn)用的基本單位,兩個(gè)或兩個(gè)以上的詞按一定語(yǔ)法規(guī)則組成表達(dá)一定意義的語(yǔ)言單位即詞組。3.分詞詞典為實(shí)現(xiàn)及其自動(dòng)分詞,需要有經(jīng)過(guò)語(yǔ)言專(zhuān)家精心挑選的詞匯組成的現(xiàn)有詞典,然后才能研究如何根據(jù)已有的分詞詞典實(shí)現(xiàn)文本的切分
7、。通常分詞詞典的設(shè)計(jì)與分詞算法相關(guān),在基于詞典的分詞算法中,分詞詞典數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)很關(guān)鍵,將影響到分詞算法的性能。為構(gòu)建一個(gè)高效的分詞詞典,可以考慮以下三個(gè)方面:分詞詞典對(duì)詞的查詢(xún)速度:這直接決定匹配算法效率的高低。分詞詞典的存儲(chǔ)利用率:詞典越小,所需查詢(xún)時(shí)間也越少。分詞詞典維護(hù)的效能:包括對(duì)詞的插入、刪除和更新等操作的難易程度。4.分詞方法現(xiàn)有的中文分詞算法可以分為基于詞典的分詞方法,基于理解的分詞方法以及基于統(tǒng)計(jì)的分詞方法三大類(lèi),文章就基于詞典的分詞方法總結(jié)一些分詞算法:正向最大匹配算法這是最早提出的自動(dòng)分詞方法,由蘇聯(lián)學(xué)者在六十年代研究漢俄機(jī)器翻譯時(shí)提出,它的基木思想是先取一句話(huà)的前若干
8、個(gè)字采用二分搜索的方式查詞典,若不是一個(gè)詞,則刪除這些字中的最后一個(gè),然后再查詞典,這樣一直查下去直到找到一詞為止,對(duì)句子剩余部分重復(fù)此工作,直到把所有詞分出為止。例如:句子“明天會(huì)下雨”,設(shè)最大詞長(zhǎng)是4,則切分過(guò)程是:明天會(huì)下明天會(huì)明天會(huì)下雨會(huì)下會(huì)下雨逆向最大匹配算法逆向最大匹配算法的基本思想與正向最大匹配算法相同,唯一的區(qū)別是最大匹配的順序不是從首字開(kāi)始,而是從末尾開(kāi)始。如上句“明天會(huì)下雨”,切分結(jié)果為:天會(huì)下雨會(huì)下雨下雨明天會(huì)天會(huì)會(huì)明天這兩種方法思想明了,易于機(jī)器實(shí)現(xiàn).算法把詞典作為唯一的判斷標(biāo)準(zhǔn),具有一定的主觀(guān)性和局限性,而且由于采用的是最大匹配,否定了詞中含詞的語(yǔ)言現(xiàn)象,出錯(cuò)了較高。
9、但他們都是最基本的方法。(3)鄰近匹配算法正向最大匹配中,對(duì)每個(gè)不存在的長(zhǎng)字符串都要進(jìn)行二分檢索,復(fù)雜度太高。在鄰近匹配算法中,采用首字索引的詞表,利用同一首字下的詞條按升序排列這一條件,找到某個(gè)字符串后,(完整word版)中文智能搜索引擎在其后增加一個(gè)字得到一個(gè)新字串,若新字串在詞典中出項(xiàng),那么新詞一定在原來(lái)字串的后面,且相隔不遠(yuǎn)。這一匹配方法即稱(chēng)鄰近匹配算法。最短路進(jìn)匹配算法該算法的思想是首先更具詞典,找出字串中的所有可能的詞,然后構(gòu)造詞語(yǔ)切分的有向無(wú)環(huán)圖.這樣每個(gè)詞對(duì)應(yīng)圖中一條有向邊。給每條邊一個(gè)權(quán)值。然后針對(duì)切分圖求出一條最短路徑。路徑上包含的詞即為該句子的切分結(jié)果.5.分詞技術(shù)的應(yīng)用
10、應(yīng)用領(lǐng)域:漢語(yǔ)自動(dòng)分詞的研究有重要的理論價(jià)值和現(xiàn)實(shí)意義,它主要在漢語(yǔ)語(yǔ)言理解;計(jì)算機(jī)系統(tǒng)的漢語(yǔ)人機(jī)接口;機(jī)器翻譯;情報(bào)檢索;人工智能和知識(shí)工程等許多方面都用重要的應(yīng)用。在智能搜索中的應(yīng)用:相對(duì)于傳統(tǒng)的全文本搜索,對(duì)經(jīng)過(guò)分詞處理的文本進(jìn)行搜索,能大大提高搜索的效率和準(zhǔn)確性。文本通過(guò)分詞處理后,含有更多的判斷信息.對(duì)于搜索引擎來(lái)說(shuō),最重要的并不是找到所有結(jié)果,因?yàn)樵谏习賰|的網(wǎng)頁(yè)中找到所有結(jié)果沒(méi)有太多的意義,沒(méi)有人能看得完,最重要的是把最相關(guān)的結(jié)果排在最前面,這也稱(chēng)為相關(guān)度排序。而中文分詞的準(zhǔn)確與否,常常直接影響到對(duì)搜索結(jié)果的相關(guān)度排序,對(duì)搜索引擎結(jié)果相關(guān)性和準(zhǔn)確性有相當(dāng)大的關(guān)系。6.分詞中的難題切
11、分歧義歧義是指同樣的一句話(huà),可能有兩種或者更多的切分方法。例如:表面的,因?yàn)椤氨砻妗焙汀氨砻娴摹倍际窃~,那么這個(gè)短語(yǔ)就可以分成“表面的和“表面的”。由于沒(méi)有人的知識(shí)去理解,計(jì)算機(jī)很難知道到底哪個(gè)方案正確。未登錄詞處理未登錄詞即新詞,也就是那些在字典中都沒(méi)有收錄過(guò),但又確實(shí)能稱(chēng)為詞的那些詞。最典型的是人名.新詞中除了人名以外,還有機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡(jiǎn)稱(chēng)、省略語(yǔ)等都是很難處理的問(wèn)題,而且這些又正好是人們經(jīng)常使用的詞,因此對(duì)于搜索引擎來(lái)說(shuō),分詞系統(tǒng)中的新詞識(shí)別十分重要。詞性標(biāo)注及詞義分析(完整word版)中文智能搜索引擎對(duì)中文文本進(jìn)行詞語(yǔ)切分后,可以利用已有的資源進(jìn)行詞性標(biāo)注及詞義分析,
12、這可以在很大程度上解決語(yǔ)言層面上的知識(shí)。在中文智能搜索引擎的應(yīng)應(yīng)用中,詞性標(biāo)注和詞義分析可以說(shuō)是一個(gè)中間任務(wù),同過(guò)這兩方面的處理,為基于知識(shí)層面的搜索提供了大量可利用的有效信息,對(duì)于智能搜索有極大的幫助。1.詞性標(biāo)注數(shù)學(xué)描述:句子W=w,w,對(duì)應(yīng)的一個(gè)標(biāo)記序列T=t,,t,在二元組(W,T)中每個(gè)t和w一一對(duì)應(yīng),是inj1njji詞w的所有可能的標(biāo)記中的一個(gè)。i在一個(gè)給定的W的所有組合中有且只有一個(gè)語(yǔ)法學(xué)上正確的TwT|(W,T)與之對(duì)應(yīng)。標(biāo)注過(guò)程就是對(duì)每個(gè)句子W,在與之對(duì)應(yīng)的各個(gè)T中選擇出正確的標(biāo)記序列Tw,即:v:WTT二v(W)。j標(biāo)注模型一般有:兩步模型:當(dāng)前詞w.的詞性t.僅依賴(lài)于直
13、接前趨詞w.及其詞性劃分結(jié)果t。iii-1i-1三步模型:當(dāng)前詞w的詞性t僅依賴(lài)于直接前趨詞w、w及其詞性劃分結(jié)果t、t.iii1i2i-1i2隱馬爾科夫模型(HMM):HMM是由馬爾可夫過(guò)程擴(kuò)充而來(lái)的一種隨機(jī)過(guò)程,HMM的狀態(tài)本身不可觀(guān)察,可觀(guān)察的是狀態(tài)的一個(gè)概率函數(shù).HMM包含了雙重隨機(jī)過(guò)程,一個(gè)是系統(tǒng)狀態(tài)變化,及馬爾可夫過(guò)程,另一個(gè)是由狀態(tài)決定的隨機(jī)過(guò)程?;贖MM的詞性標(biāo)注的兩步模型:給定HMM模型入,已知詞串W,求使得條件概率P(T|W,入)值最大的T,記為:T=argmaxP(TIW,九)T運(yùn)用Bayes公式及W給定P(W)不依賴(lài)于T得到公式:P(TIW)沁P(T)P(WIT)其中
14、P(T)是詞性序列T的概率:P(T)=Hp(t11)ii-1i=1P(W|T)是已知詞性標(biāo)記串T,產(chǎn)生詞串W的條件概率:P(WIT)=Hp(w11)iii=1綜合以上,得到確定句子最優(yōu)標(biāo)注的等式:T=argmaxHP(wIt)P(tIt)iiii-1Ti=1實(shí)現(xiàn)過(guò)程:(1)CLAWS算法:采用枚舉的方法自動(dòng)標(biāo)注時(shí),從輸入文本中順序地截取一個(gè)有限長(zhǎng)度的詞串,該詞串的首詞和尾詞的詞性是唯一的,這樣的詞串叫做跨段,記為w,w,w,,w,w。其中w和w是非兼類(lèi)012nn+10n+1詞,w,w,w是n個(gè)兼類(lèi)詞。利用轉(zhuǎn)移概率矩陣提供的數(shù)據(jù)來(lái)計(jì)算這個(gè)跨段中由各個(gè)單詞產(chǎn)生的每個(gè)12n可能標(biāo)記的概率積,并選擇概
15、率積最大的標(biāo)記串作為最佳路徑,以這個(gè)最佳路徑作為結(jié)果輸出.V0LSUNGA算法:采用貪心的方法(完整word版)中文智能搜索引擎沿著從左至右的方向,采用“步步為營(yíng)的策略,對(duì)于當(dāng)前考慮的詞,只保留通往該詞的最佳路徑,舍棄其它路徑,然后再?gòu)倪@個(gè)詞出發(fā),將這個(gè)路徑同下一個(gè)詞的所有標(biāo)記進(jìn)行匹配,繼續(xù)找出最佳的路徑,舍棄其它路徑,步步前進(jìn),直到整個(gè)跨段走完,得出整個(gè)跨段的最佳路徑作為結(jié)果輸出。(3)Viterbi算法:采用動(dòng)態(tài)規(guī)劃的方法定義:F(i,j)=maxF(i-1,k)P(wIj)P(jIk)表示前i個(gè)單詞的標(biāo)注結(jié)果,且第i個(gè)單詞標(biāo)注為詞性jl=k=N1的最大值。其中P(wIj)是單詞w取詞性j
16、的統(tǒng)計(jì)概率,即前面提到的P(w11);P(jIk)是詞性k后iiii取詞性j的轉(zhuǎn)移概率,即前面提到的P(t11)。ii-1Viterbi算法有三步,即:(1)初始化;(2)推導(dǎo);(3)終止和輸出。對(duì)于算法過(guò)程中的浮點(diǎn)溢出。采用對(duì)概率取負(fù)對(duì)數(shù),將積最大值問(wèn)題轉(zhuǎn)化為和最小值問(wèn)題解決.2.詞義分析詞義分析包含關(guān)鍵詞提取,概念排歧,次以表達(dá)等內(nèi)用,通過(guò)詞義分析,加深對(duì)文本內(nèi)容的理解程度,對(duì)于加快搜索引擎得搜索處理有明顯益處。關(guān)鍵詞提取自然語(yǔ)言文本中,一般包含有大量的虛詞詞匯,還有一些常用的實(shí)詞。這些詞對(duì)于文本的區(qū)分幾乎沒(méi)什么作用。一般通過(guò):根據(jù)詞性標(biāo)注的結(jié)果,刪除冠詞、介詞、連接詞等虛詞;建立禁用詞庫(kù)
17、,把那些所有類(lèi)別中均出現(xiàn)頻率較高的詞列入禁用詞庫(kù).概念排歧由于一詞多義普遍存在,概念排歧通過(guò)詞在上下文中的位置來(lái)確定該詞的概念。詞義表達(dá)一義多詞的現(xiàn)象在文本中也是很普遍的情況,在文本分類(lèi)中解決好這一問(wèn)題,有助于搜索結(jié)果召回率的提高。分類(lèi)器設(shè)計(jì)及檢索模型1.文本分類(lèi)文本分類(lèi)是將大量文本劃分為一個(gè)或一組類(lèi)別,使得各個(gè)類(lèi)別代表不同的概念主題。文本分類(lèi)是模式分類(lèi)和自然語(yǔ)言處理的一個(gè)交叉學(xué)科,具有以下特點(diǎn):(1)高位空間特征;(2)特征語(yǔ)義相關(guān);(3)特征存在多義和同義現(xiàn)象;(4)特征分布稀疏(5)基本線(xiàn)性可分文本分類(lèi)的途徑有基于知識(shí)的途徑和基于學(xué)習(xí)的途徑.文本分類(lèi)的應(yīng)用領(lǐng)域有冗余過(guò)濾、組織管理、智能檢
18、索、信息過(guò)濾及其他應(yīng)用?,F(xiàn)在有很多名聲顯赫的搜索引擎,比如Google,Yahoo及Baidu等,盡管他們的檢索能力已經(jīng)非常有效,但并非所有問(wèn)題都已經(jīng)解決。智能檢索方面,在搜索引擎得構(gòu)建過(guò)程中,可以利用文本分類(lèi)技術(shù)來(lái)區(qū)別概念,改進(jìn)相關(guān)度排序,也可以對(duì)被檢索的信息按一定的分類(lèi)體系進(jìn)行自動(dòng)分類(lèi)。這樣可以構(gòu)造更好的信息檢索系統(tǒng)。2.分類(lèi)器設(shè)計(jì)(完整word版)中文智能搜索引擎文本分類(lèi)首先是對(duì)文本的特征提取,常用的文檔特征有詞、短語(yǔ)、N-Gram項(xiàng)、詞性、標(biāo)點(diǎn)符號(hào)等。文本特征選擇最常用的方法有特征詞頻一文檔頻率權(quán)重、信息增益權(quán)重、X2統(tǒng)計(jì)權(quán)重和互信息權(quán)重等。文本分類(lèi)的核心是分類(lèi)器的設(shè)計(jì)文本分類(lèi)的方法可
19、分為三大類(lèi):(1)基于統(tǒng)計(jì)的方法,如NaveBayes,KNN、類(lèi)中心向量等;(2)基于連接的方法即人工神經(jīng)網(wǎng)絡(luò);(3)基于規(guī)則的方法,如決策樹(shù).下面簡(jiǎn)單介紹一下Rocchio相似度計(jì)算方法。該方法根據(jù)算術(shù)平均為每類(lèi)文檔集生成一個(gè)類(lèi)中心向量,在新文本到來(lái)時(shí),確定其文本向量計(jì)算該向量與每類(lèi)中心向量的相似度。選擇相似度最大的類(lèi)別。通過(guò)對(duì)訓(xùn)練文本的算術(shù)平均計(jì)算每類(lèi)文本中心向量。對(duì)新文本進(jìn)行分詞處理,表示為特征向量。計(jì)算特征向量與每類(lèi)中心向量的夾角余弦為相似度:Sim(d,d)=ij藝wxwikjk4=1選擇相似度計(jì)算結(jié)果最大的那一類(lèi),將文本分到其中。3.檢索模型IR模型信息檢索模型是對(duì)信息檢索任務(wù)的
20、數(shù)學(xué)抽象,是信息檢索研究的一個(gè)主要內(nèi)容。信息檢索模型是指如何對(duì)查詢(xún)和文檔進(jìn)行表示,然后對(duì)它們進(jìn)行相似度計(jì)算的框架和方法.IR模型本質(zhì)上是對(duì)相關(guān)度建模,主要從兩個(gè)方面抽象地研究信息檢索方法:(1)確定在模型中如何表示構(gòu)成檢索系統(tǒng)的兩個(gè)要素,即文檔和檢索條件即檢索表達(dá)式。確定在模型中如何定義和計(jì)算文檔和檢索條件之間的關(guān)系。IR系統(tǒng)結(jié)構(gòu)圖T成檢索擊達(dá)式文檔索引PageRank排序技術(shù)據(jù)統(tǒng)計(jì),70%的用戶(hù)查詢(xún)往往只查看搜索引擎搜索結(jié)果的前20條記錄,因而正確而實(shí)用的網(wǎng)頁(yè)分級(jí)算法對(duì)于搜索引擎得性能很重要。PageRank即網(wǎng)頁(yè)級(jí)別,它有效地利用了互聯(lián)網(wǎng)所擁有的龐大鏈接構(gòu)造的特性,網(wǎng)頁(yè)級(jí)別越高排得越靠前面。PageRank計(jì)算頁(yè)面的重要性,對(duì)每個(gè)鏈入賦予不同的權(quán)值,鏈接提供頁(yè)面越重要?jiǎng)t此鏈入權(quán)值就越大,即當(dāng)前頁(yè)面的重要性有其他頁(yè)面的重要性決定。PR(T)i-C(T)iPageRank算法1如下:PR(A)=(1-d)+dYi=1(完整word版)中文智能搜索引擎(完整word版)中文智能搜索引擎其中PR(A)是頁(yè)面A的級(jí)別,PR(T)為頁(yè)面T的級(jí)別,頁(yè)面T鏈向頁(yè)面A,iiiC(
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 連續(xù)進(jìn)位乘法(教學(xué)設(shè)計(jì))-2024-2025學(xué)年三年級(jí)上冊(cè)數(shù)學(xué)人教版
- 牛頓第一定律高一上學(xué)期物理粵教版(2019)必修第一冊(cè)
- 第14課《網(wǎng)絡(luò)身份認(rèn)證》教學(xué)設(shè)計(jì) 2024-2025學(xué)年浙教版(2023)初中信息技術(shù)八年級(jí)上冊(cè)
- 八年級(jí)地理上冊(cè) 4.4 民俗與旅游教學(xué)實(shí)錄 (新版)粵教版
- 2023一年級(jí)語(yǔ)文下冊(cè) 第三單元 語(yǔ)文園地配套教學(xué)實(shí)錄 新人教版
- 2023七年級(jí)數(shù)學(xué)下冊(cè) 第10章 相交線(xiàn)、平行線(xiàn)與平移10.4 平移教學(xué)實(shí)錄 (新版)滬科版
- Unit 1 Animal Friends全單元5課時(shí)教學(xué)設(shè)計(jì) 2024-2025學(xué)年人教版英語(yǔ)七年級(jí)下冊(cè)
- 2025工程主體施工合同
- 七年級(jí)地理上冊(cè) 3.1 多變的天氣教學(xué)實(shí)錄1 (新版)新人教版
- 捉迷藏(教學(xué)設(shè)計(jì))-2024-2025學(xué)年三年級(jí)上冊(cè)人音版(2012)音樂(lè)
- 亮化工程售后服務(wù)方案及優(yōu)惠承諾
- 物業(yè)服務(wù)禮儀禮貌培訓(xùn)七大要點(diǎn)
- 2025-2030中國(guó)兒童服裝行業(yè)深度調(diào)研及投資前景預(yù)測(cè)研究報(bào)告
- 2025年溫州職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能考試題庫(kù)必考題
- 2025年高考物理模擬試卷1(廣東卷)及答案
- 《顱內(nèi)血腫教學(xué)查房》課件
- 2025新人教版七下英語(yǔ)單詞默寫(xiě)表
- 人教版一年級(jí)數(shù)學(xué)上冊(cè)《6-10的認(rèn)識(shí)和加減法》同步練習(xí)題及答案
- 二十案例示輪回
- 老年?duì)I養(yǎng)示范化病房創(chuàng)建方案
- 設(shè)備安全操作培訓(xùn)
評(píng)論
0/150
提交評(píng)論