




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
搜索引擎發(fā)展階段研究及熱點(diǎn)發(fā)現(xiàn)
1引言隨著互聯(lián)網(wǎng)的普及和網(wǎng)上信息的爆炸式的增長(zhǎng),搜索引擎越來(lái)越引起人們的重視。如今,搜索引擎已成為僅次于門戶的互聯(lián)網(wǎng)第二大核心技術(shù)。在短短十年的時(shí)間內(nèi),搜索引擎迅猛地發(fā)展起來(lái)。特別是隨著信息檢索、數(shù)據(jù)挖掘、自然語(yǔ)言處理等多領(lǐng)域的理論和技術(shù)的發(fā)展,搜索引擎技術(shù)更是得到了很大程度的發(fā)展和應(yīng)用。最近幾年,搜索引擎已成為一個(gè)非常熱門的話題。對(duì)于搜索引擎發(fā)展的幾個(gè)階段、各個(gè)階段在年代上的劃分以及各階段的主要特點(diǎn),并沒有一個(gè)統(tǒng)一的說(shuō)法。大部分人認(rèn)為,第一代搜索引擎以雅虎為標(biāo)志,主要依靠人工分揀信息。用分類目錄搜索信息;第二代以Google為代表,依靠機(jī)器抓取、分析進(jìn)行網(wǎng)頁(yè)搜索[1]。對(duì)于第三代和第四代搜索引擎,至今還沒有明確的劃分標(biāo)準(zhǔn)。也有人認(rèn)為第三代搜索引擎是第一代與第二代搜索引擎的結(jié)合[1]。至于第四代搜索引擎,則更是說(shuō)法不一。從文獻(xiàn)計(jì)量的角度來(lái)看,科技論文在一定意義上可以反映出學(xué)科發(fā)展的程度以及研究水平,而各個(gè)階段文獻(xiàn)的內(nèi)容以及數(shù)量的變化,能從側(cè)面反映出學(xué)科發(fā)展的變化和趨勢(shì)?;诖?,本文通過(guò)對(duì)搜索引擎論文方面的分析來(lái)研究其發(fā)展歷程。目前國(guó)內(nèi)對(duì)于有序聚類方法的應(yīng)用研究主要集中在地質(zhì)學(xué)、氣象學(xué)、經(jīng)濟(jì)學(xué)等領(lǐng)域,很少有人將此方法引入文獻(xiàn)計(jì)量學(xué)領(lǐng)域。本文選擇搜索引擎的發(fā)展作為研究對(duì)象,利用有序聚類方法對(duì)搜索引擎的發(fā)展歷程按時(shí)間進(jìn)行分段,并在此基礎(chǔ)上對(duì)各階段的特點(diǎn)進(jìn)行分析和總結(jié),通過(guò)詞頻統(tǒng)計(jì)發(fā)現(xiàn)搜索引擎技術(shù)和檢索任務(wù)方面的熱點(diǎn),以期更為科學(xué)、更為全面地研究搜索引擎的發(fā)展現(xiàn)狀和趨勢(shì)。本文首先介紹有序聚類、特征選取等相關(guān)概念,然后介紹有序聚類實(shí)驗(yàn)以及對(duì)有序聚類實(shí)驗(yàn)結(jié)果及詞頻統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分析。最后總結(jié)本文所做的工作以及不足之處。2相關(guān)概念2.1有序聚類有序聚類是聚類的一種,是一種對(duì)有序樣品進(jìn)行聚類分析的方法。本文便是期望利用有序聚類的這種特殊性,對(duì)搜索引擎的發(fā)展過(guò)程更為客觀地按時(shí)間進(jìn)行分段,以便為后續(xù)分析提供幫助。2.2特征選取根據(jù)詞匯在文本中的重要程度給其賦予一定的權(quán)重,可以提取一定數(shù)目的權(quán)重較大的詞匯作為文本的特征表示。計(jì)算文本特征詞的權(quán)重,按權(quán)重由大到小篩選一定數(shù)目的特征詞,作為一篇文章的特征表示。3實(shí)驗(yàn)與分析3.1整體流程(1)對(duì)下載的語(yǔ)料進(jìn)行預(yù)處理,然后對(duì)其進(jìn)行分詞,選取文本特征詞以及建立向量空間模型;(2)進(jìn)行有序聚類實(shí)驗(yàn),得到最小損失函數(shù)曲線圖,確定搜索引擎的整個(gè)發(fā)展歷程分為幾個(gè)階段以及各個(gè)階段的時(shí)間劃分;(3)對(duì)搜索引擎發(fā)展的各個(gè)階段及其熱點(diǎn)詞進(jìn)行分析和總結(jié);(4)通過(guò)詞頻統(tǒng)計(jì)發(fā)現(xiàn)搜索引擎技術(shù)和檢索任務(wù)方面的熱點(diǎn),并對(duì)其發(fā)展?fàn)顩r和發(fā)展趨勢(shì)進(jìn)行分析。3.2前期語(yǔ)料處理本研究的語(yǔ)料來(lái)源于《中國(guó)期刊全文數(shù)據(jù)庫(kù)》。首先從全文期刊中下載摘要中有檢索詞“搜索引擎”的所有論文,數(shù)量為3973篇,時(shí)間從1996年2月到2006年12月。其中下載下來(lái)的論文只包括題目、作者、中文關(guān)鍵詞、中文摘要、期刊名、年、期刊號(hào)等。這些信息包括論文最主要的研究?jī)?nèi)容,足以概括地表明論文的主要工作。選擇每個(gè)月的相關(guān)論文為處理單元,把相同年月的文本集合作為一個(gè)樣本。這樣共有124個(gè)月。然后對(duì)文本進(jìn)行一系列的自然語(yǔ)言處理,如分詞、詞性標(biāo)注、特征項(xiàng)的抽取等。為了提高分詞的準(zhǔn)確度,我們建立了專門的計(jì)算機(jī)術(shù)語(yǔ)詞典。該詞典來(lái)源于大連理工大學(xué)信息檢索研究室,其中收錄的詞語(yǔ)主要來(lái)源于《中國(guó)期刊全文數(shù)據(jù)庫(kù)》所下載語(yǔ)料的主題詞和《中國(guó)分類主題詞表》。此外,根據(jù)詞頻和權(quán)重篩選出100個(gè)特征詞。然后建立向量空間模型。3.3有序聚類實(shí)驗(yàn)對(duì)124個(gè)按時(shí)間排序的有序樣本進(jìn)行聚類。其中1996年2月的論文為第1個(gè)樣本,2006年12月的論文是第124個(gè)樣本。實(shí)驗(yàn)中得到一系列最優(yōu)k分割,以及每個(gè)最優(yōu)分割的分割點(diǎn)和其最小目標(biāo)函數(shù)的極小值。選擇最佳分類時(shí),為了保證類別數(shù)不是太多同時(shí)最小目標(biāo)函數(shù)的極小值盡量小,這就需要二者之間達(dá)到均衡。以極小值為縱坐標(biāo),最優(yōu)k分割值作為橫坐標(biāo),得到最小損失函數(shù)曲線圖。確定分成幾類時(shí),一方面根據(jù)圖中拐點(diǎn)來(lái)確定,另一方面還需要結(jié)合專業(yè)知識(shí)和經(jīng)驗(yàn)做出合理的判斷和選擇。結(jié)合圖1拐點(diǎn)的位置,可以把124個(gè)樣本空間分成3類或者4類。表1是分成3類或4類的相關(guān)數(shù)據(jù),其中分割點(diǎn)代表每個(gè)有序文本的編號(hào)。表1最優(yōu)分割表從上表可以看出,分成4類時(shí)第29個(gè)單樣本為一類。由實(shí)驗(yàn)數(shù)據(jù)得知,第29個(gè)樣本是1999年1月,也就是說(shuō)單獨(dú)一個(gè)月成為一類。由于有的月份只有少量的搜索引擎論文,甚至可能出現(xiàn)沒有相關(guān)論文發(fā)表的情況,導(dǎo)致聚類結(jié)果中出現(xiàn)這種單一月份的類。對(duì)于這種情況,我們把它看作過(guò)渡類,并把它歸到相鄰的后一個(gè)類中。因而我們最終確定分成3類。這樣,124個(gè)有序樣本分成3類的聚類結(jié)果為:{199602,199604,199605,…,199812}{199901,199902,199903,…,200107}{200108,200109,200110,…,200612}前28個(gè)樣本空間為一類,對(duì)應(yīng)時(shí)間為1996年2月至1998年12月,此為搜索引擎發(fā)展的第一個(gè)階段。從第29個(gè)樣本到第59個(gè)樣本的31個(gè)樣本空間為一類,對(duì)應(yīng)時(shí)間為1999年1月至2001年7月,此為搜索引擎發(fā)展的第二個(gè)階段。最后65個(gè)樣本空間為一類,對(duì)應(yīng)時(shí)間為2001年8月至2006年12月,這是搜索引擎發(fā)展過(guò)程中的第三個(gè)階段。3.4搜索引擎發(fā)展階段分析本實(shí)驗(yàn)中,由于全文數(shù)據(jù)庫(kù)中幾乎沒有1996年之前的有關(guān)搜索引擎的論文,本文主要討論1996年及其以后的搜索引擎發(fā)展情況。我們也可把1991~1995年的搜索引擎發(fā)展單獨(dú)作為一個(gè)階段,這里不作詳細(xì)討論。以上實(shí)驗(yàn)得出,1999年和2001年把搜索引擎的發(fā)展分割成了3個(gè)階段。第一個(gè)階段里研究搜索引擎的期刊論文相對(duì)較少,大部分搜索引擎技術(shù)處于萌芽階段。此時(shí)各種搜索引擎概念相繼出現(xiàn),如目錄式搜索引擎、全文搜索引擎、元搜索引擎等。這一階段,詞頻相對(duì)較高的關(guān)鍵詞是全文檢索、智能檢索、多媒體、圖像搜索、語(yǔ)義網(wǎng)絡(luò)、分類目錄、分類主題等。這個(gè)時(shí)期分類搜索是網(wǎng)絡(luò)搜索的主流。圖1最小損失函數(shù)曲線圖搜索引擎在第二個(gè)階段里開始迅速發(fā)展。最負(fù)盛名的搜索引擎當(dāng)數(shù)Google,它在1999年以不可抵擋的勢(shì)頭走向世界。Google的出現(xiàn)帶動(dòng)了新技術(shù)PageRank和錨文本技術(shù)的發(fā)展。此階段的熱點(diǎn)詞語(yǔ)有關(guān)鍵詞檢索、倒排索引、全文索引、自動(dòng)摘要、鏈接分析等。這段時(shí)期鏈接分析技術(shù)、PageRank算法以及Hit算法等如火如荼地展開。人們基本認(rèn)為Web信息檢索開始進(jìn)入了新一代搜索引擎階段[4]。第三個(gè)階段里搜索引擎的研究變得非?;馃幔阉饕嬖絹?lái)越向智能化、個(gè)性化、專業(yè)化的方向發(fā)展,同時(shí)也不斷地涌現(xiàn)出新的具有鮮明特色的搜索引擎產(chǎn)品。通過(guò)對(duì)文本分類、聚類、用戶行為分析、分布式、相關(guān)反饋、智能代理、查詢擴(kuò)展等高頻詞的分析,我們可以看出,人工智能、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、自然語(yǔ)言理解等領(lǐng)域的研究有力地促進(jìn)了搜索引擎的發(fā)展。搜索引擎技術(shù)現(xiàn)在已成為計(jì)算機(jī)產(chǎn)業(yè)界和學(xué)術(shù)界爭(zhēng)相研究和開發(fā)的對(duì)象。通過(guò)對(duì)搜索引擎技術(shù)和檢索任務(wù)方面的詞語(yǔ)進(jìn)行統(tǒng)計(jì)和分析,一方面可以反映出學(xué)術(shù)界對(duì)搜索引擎的關(guān)注程度,另一方面也能大致分析出搜索引擎的發(fā)展現(xiàn)狀以及發(fā)展趨勢(shì)。本文下面部分將對(duì)技術(shù)和檢索任務(wù)方面的詞語(yǔ)進(jìn)行詞頻統(tǒng)計(jì),以此發(fā)現(xiàn)熱點(diǎn)問(wèn)題。3.5搜索引擎熱點(diǎn)技術(shù)分析本文統(tǒng)計(jì)的詞數(shù)共19713個(gè),從中挑選出詞頻最高且屬于搜索引擎技術(shù)或者檢索任務(wù)方面的前35個(gè)詞,如表2所示。在詞頻統(tǒng)計(jì)時(shí),我們注意到很多相似概念的詞語(yǔ)以及語(yǔ)義相關(guān)的詞都會(huì)以不同的形式出現(xiàn),因此我們提出以一個(gè)概念來(lái)代表一組詞語(yǔ),如智能檢索、智能搜索、智能信息檢索等都?xì)w為一個(gè)概念。詞頻統(tǒng)計(jì)結(jié)果表明,圖像檢索、基于內(nèi)容檢索、聚類、分布式系統(tǒng)、視頻檢索、智能代理技術(shù)、對(duì)等網(wǎng)絡(luò)等概念排在最前面。其中多媒體檢索中尤以圖像檢索頻次最高,視頻檢索次之。聚類概念不但包括文本聚類,還包括圖像聚類和視頻聚類等。表2詞頻統(tǒng)計(jì)表續(xù)表2根據(jù)以上數(shù)據(jù),為了更為直觀地發(fā)現(xiàn)熱點(diǎn)詞語(yǔ),我們構(gòu)造了如下公式:從以上公式可看出,離目前越近的詞頻所增加權(quán)重的幅度將越大,其變換后的總頻次相對(duì)于原來(lái)詞頻所增長(zhǎng)的幅度越大則說(shuō)明越為熱點(diǎn)詞。其中CurrentYear取2007年,freq[,i]是此年總的詞頻數(shù)。通過(guò)計(jì)算發(fā)現(xiàn),熱點(diǎn)率最高的是對(duì)等網(wǎng)絡(luò)、搜索引擎優(yōu)化、PageRank、聚類、跨語(yǔ)言檢索、分布式系統(tǒng)、個(gè)性化信息服務(wù)等詞。從表2可知,對(duì)等網(wǎng)絡(luò)(P2P)在最近三年內(nèi)頻次增加幅度很大,可見對(duì)等網(wǎng)絡(luò)不但是當(dāng)前互聯(lián)網(wǎng)應(yīng)用的熱點(diǎn)在搜索引擎方面的應(yīng)用也備受關(guān)注?;赑2P的搜索引擎是一種開放理念下的搜索引擎,它應(yīng)用先進(jìn)的對(duì)等搜索理念,搜索的是互聯(lián)網(wǎng)上所有開放的信息,其自由溝通和深度挖掘的特點(diǎn)正成為新一代搜索引擎的焦點(diǎn)[5]。搜索引擎優(yōu)化(SearchEngineOptimization,SEO)是近幾年開始火熱起來(lái)的,它是為使網(wǎng)站達(dá)到良好的網(wǎng)絡(luò)營(yíng)銷效果而進(jìn)行的提高網(wǎng)站搜索排名的優(yōu)化工作。針對(duì)搜索引擎進(jìn)行網(wǎng)站優(yōu)化將會(huì)給企業(yè)以及各種網(wǎng)站帶來(lái)巨大收益。搜索引擎優(yōu)化技術(shù)的逐漸成熟將會(huì)形成一股促進(jìn)搜索技術(shù)完善的新力量。數(shù)據(jù)挖掘技術(shù)中的聚類和文本分類,以及自然語(yǔ)言處理中的分詞和語(yǔ)義分析,出現(xiàn)的頻率也很高。在搜索引擎的具體應(yīng)用中,文本聚類與文本分類相結(jié)合,對(duì)查詢結(jié)果集進(jìn)行分類,可以縮小查詢范圍,大大減少用戶瀏覽查詢結(jié)果的數(shù)量[6]??缯Z(yǔ)言信息檢索的興起與TREC(TextRetrievalConference)是分不開的,這一研究領(lǐng)域的關(guān)鍵點(diǎn)是查詢翻譯技術(shù)和自然語(yǔ)言處理技術(shù)。隨著用戶需求的提高,人們已不能滿足僅在同一個(gè)語(yǔ)種中進(jìn)行檢索。跨語(yǔ)言的信息檢索(CrossLanguageInformationRetrieval,CLIR)將會(huì)受到人們?cè)絹?lái)越多的關(guān)注[7]。另外,隨著互聯(lián)網(wǎng)上信息的飛速增長(zhǎng),搜索引擎系統(tǒng)規(guī)模達(dá)到一定程度后,集中式已不能滿足實(shí)際需要,分布式系統(tǒng)將成為海量數(shù)據(jù)處理的必然趨勢(shì),以此來(lái)提高檢索的速度和性能。而通過(guò)個(gè)性化信息服務(wù)、智能代理技術(shù)、用戶行為分析(用戶興趣模型)、信息過(guò)濾等熱點(diǎn)詞,我們可以看出搜索引擎的一大發(fā)展趨勢(shì),那就是更為專業(yè)化,更為智能化,更為個(gè)性化。搜索引擎利用智能代理技術(shù)對(duì)用戶的查詢興趣、意圖進(jìn)行推理,自動(dòng)進(jìn)行信息搜集過(guò)濾,自動(dòng)地將用戶感興趣的、對(duì)用戶有用的信息提交給用戶。數(shù)據(jù)挖掘技術(shù)對(duì)用戶的數(shù)據(jù)進(jìn)行挖掘,從中獲取知識(shí),以此深入挖掘用戶的興趣,使得用戶的搜索結(jié)果更加個(gè)性化。另外,從表2可以看出,多媒體檢索任務(wù)從一開始就被提出來(lái),成為研究熱點(diǎn),特別是基于圖像的檢索。如何進(jìn)行有效的相關(guān)反饋是搜索引擎又一關(guān)鍵的技術(shù)問(wèn)題。基于內(nèi)容的圖像檢索的提出,使得相關(guān)反饋技術(shù)有了進(jìn)一步的發(fā)展,并成為圖像檢索中一個(gè)相當(dāng)重要的環(huán)節(jié)和熱點(diǎn)話題。最近幾年,人們的注意力逐漸擴(kuò)展到視頻檢索、音頻檢索等領(lǐng)域,多媒體檢索開始進(jìn)入了一個(gè)更為繁榮的階段。我們發(fā)現(xiàn),潛在語(yǔ)義分析(LatentSemanticAnalysis,LSA)在2004~2006年出現(xiàn)的頻率相對(duì)于2000~2003年來(lái)說(shuō)成倍增長(zhǎng)。基于LSA思想的文本信息檢索,能夠有效地解決基于關(guān)鍵詞檢索中遇到的同義詞和多義詞問(wèn)題,其在搜索引擎的文本分類和查詢擴(kuò)展等方面已經(jīng)有一定的研究和應(yīng)用。相信潛在語(yǔ)義分析必將成為今后信息檢索的一個(gè)重要研究方向[8]。神經(jīng)網(wǎng)絡(luò)技術(shù)在搜索引擎中一直有所研究,尤其是最近兩年研究得比較多。人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)模仿大腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能,具有很強(qiáng)的自學(xué)習(xí)功能和自適應(yīng)能力。神經(jīng)網(wǎng)絡(luò)中的自組織特征映射網(wǎng)絡(luò)(SOM網(wǎng))、BP算法等,對(duì)搜索引擎的聚類、頁(yè)面的自動(dòng)分類都有比較好的性能。對(duì)等網(wǎng)絡(luò)、分布式系統(tǒng)、個(gè)性化信息服務(wù)、跨語(yǔ)言信息檢索、搜索引擎優(yōu)化等技術(shù)和檢索任務(wù)的興起反映了當(dāng)前搜索引擎的部分研究熱點(diǎn)。統(tǒng)計(jì)過(guò)程中還發(fā)現(xiàn),在各種搜索引擎中,智能搜索引擎,元搜索引擎以及專業(yè)搜索引擎出現(xiàn)頻率最高[9],其中專業(yè)搜索引擎中尤以醫(yī)學(xué)搜索引擎頻次最高。4總結(jié)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度文化產(chǎn)業(yè)園區(qū)開發(fā)公司擔(dān)保服務(wù)協(xié)議
- 二零二五年度共同投資人工智能研發(fā)合作協(xié)議
- 茶樓入股投資合同協(xié)議(2025年)
- 二零二五年度旅游節(jié)慶廣告牌場(chǎng)地租賃與宣傳推廣協(xié)議
- 2025至2030年中國(guó)繩狀開幅機(jī)數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)紙草手袋數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025年美甲店員工招聘及試用期管理規(guī)定合同
- 二零二五年度養(yǎng)老社區(qū)商品房代理銷售合作協(xié)議
- 二零二五年度相鄰宅基地邊界調(diào)整與宅基地使用權(quán)轉(zhuǎn)讓合同
- 2025至2030年中國(guó)緯植絨數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 《建筑基坑工程監(jiān)測(cè)技術(shù)標(biāo)準(zhǔn)》(50497-2019)
- 數(shù)字經(jīng)濟(jì)學(xué)導(dǎo)論-全套課件
- 勞務(wù)分包項(xiàng)目經(jīng)理崗位職責(zé)
- 幼兒繪本故事:奇怪的雨傘店
- 鋼琴基礎(chǔ)教程教案
- 糖基轉(zhuǎn)移酶和糖苷酶課件(PPT 111頁(yè))
- 屋面網(wǎng)架結(jié)構(gòu)液壓提升施工方案(50頁(yè))
- (語(yǔ)文A版)四年級(jí)語(yǔ)文下冊(cè)課件跳水 (2)
- 第6章向量空間ppt課件
- 醫(yī)療機(jī)構(gòu)聘用(返聘)證明
- 【單元設(shè)計(jì)】第七章《萬(wàn)有引力與宇宙航行》單元教學(xué)設(shè)計(jì)及教材分析課件高一物理人教版(2019)必修第二冊(cè)
評(píng)論
0/150
提交評(píng)論