基于深度學(xué)習(xí)的網(wǎng)頁(yè)主題爬蟲(chóng)的設(shè)計(jì)獲獎(jiǎng)科研報(bào)告論文_第1頁(yè)
基于深度學(xué)習(xí)的網(wǎng)頁(yè)主題爬蟲(chóng)的設(shè)計(jì)獲獎(jiǎng)科研報(bào)告論文_第2頁(yè)
基于深度學(xué)習(xí)的網(wǎng)頁(yè)主題爬蟲(chóng)的設(shè)計(jì)獲獎(jiǎng)科研報(bào)告論文_第3頁(yè)
基于深度學(xué)習(xí)的網(wǎng)頁(yè)主題爬蟲(chóng)的設(shè)計(jì)獲獎(jiǎng)科研報(bào)告論文_第4頁(yè)
基于深度學(xué)習(xí)的網(wǎng)頁(yè)主題爬蟲(chóng)的設(shè)計(jì)獲獎(jiǎng)科研報(bào)告論文_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于深度學(xué)習(xí)的網(wǎng)頁(yè)主題爬蟲(chóng)的設(shè)計(jì)獲獎(jiǎng)科研報(bào)告論文【關(guān)鍵詞】主題爬蟲(chóng)深度學(xué)習(xí)深度信念網(wǎng)絡(luò)向量空間模型支持向量機(jī)

【Abstract】AfoucsedcrawlercandetectthewebpagesbelongingtocertaintopicsthroughWWWaswellasstoringandindexingthekeywords,paragraphsandimagesinthesewebpages.However,currentlytherapidgrowingofthequantitiesofformatsandcontentsofwebpagesleadtoagreatchallengethatthetraditionaltopicdiscoverymethodsbasedonkeywordsmatchingareineffectiveforprecisetopicrecognition,whichalsoaffecttotheconstructionofwebpagedatabaseandtopicdetectionofwebpagesessions.Inthispaper,weproposeadesignoffocusedcrawlerbasedondeeplearning.Inthismethod,adeepbeliefnetworkisadoptedtorepresentthepotentialconceptsofwebpageswithdifferenttopicswhicharedescribedasvectorspacemodel.Theextractedconceptsofatopicformsafeaturevectorwhichisusedbyasupportvectormachinetoclassifythetopicsofanewwebpage.Theproposedmethodimprovestherecognitionaccuracyofwebpagetopics.

【Keywords】focusedcrawler;deeplearning;deepbeliefnetwork;vectorspacemodel;supportvectormachine

1G641A12095-308901-0218-02

1.背景

在互聯(lián)網(wǎng)技術(shù)高速發(fā)展的今天,萬(wàn)維網(wǎng)(WorldWideWeb,WWW)上保存了海量的信息和資源,且大多以多媒體網(wǎng)頁(yè)的形式進(jìn)行保存[1]。為了使人們能夠在海量的網(wǎng)頁(yè)資源中快速查找到感興趣的網(wǎng)頁(yè)資源,搜索引擎通過(guò)網(wǎng)頁(yè)爬蟲(chóng)(WebCrawler)收集各種網(wǎng)頁(yè),并建立基于關(guān)鍵詞或主題的索引,方便用戶(hù)的快速搜索[2]。在這種情況下,網(wǎng)頁(yè)爬蟲(chóng)程序?qū)W(wǎng)頁(yè)主題的識(shí)別能力和效率就顯得十分重要[3]。傳統(tǒng)爬蟲(chóng)程序主要是依據(jù)對(duì)網(wǎng)頁(yè)關(guān)鍵詞的匹配進(jìn)行主題識(shí)別,主要對(duì)HTML頁(yè)面中的meta字段或整個(gè)HTML文本進(jìn)行關(guān)鍵詞匹配[4]。而對(duì)特定主題的定義則為若干個(gè)關(guān)鍵詞的組合。這種基于簡(jiǎn)單文本匹配的方法對(duì)當(dāng)前復(fù)雜且種類(lèi)繁多的網(wǎng)頁(yè)是不適用的,主要原因在于網(wǎng)頁(yè)主題是一個(gè)比較復(fù)雜的概念,僅通過(guò)關(guān)鍵詞或其組合的方式難以準(zhǔn)確表達(dá)某個(gè)網(wǎng)頁(yè)主題[5,6]。

研究者們采用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的方法對(duì)不同主題的文本特征進(jìn)行學(xué)習(xí)和提取,并以模型參數(shù)的形式預(yù)先設(shè)置在爬蟲(chóng)程序里面,當(dāng)進(jìn)行網(wǎng)頁(yè)獲取時(shí),爬蟲(chóng)程序通過(guò)模型在線判斷一個(gè)新網(wǎng)頁(yè)所屬的主題,然后確定是否保存到數(shù)據(jù)庫(kù)中[7]。但同時(shí)我們指出,不同的機(jī)器學(xué)習(xí)模型的訓(xùn)練代價(jià)、識(shí)別效率和對(duì)網(wǎng)頁(yè)主題所蘊(yùn)含的抽象概念的表達(dá)能力各不相同?;诮y(tǒng)計(jì)學(xué)習(xí)和淺層機(jī)器學(xué)習(xí)的模型由于受限于其對(duì)復(fù)雜函數(shù)的表達(dá)能力,因此在網(wǎng)頁(yè)主題爬蟲(chóng)上使用的效果并不十分理想[8]。針對(duì)目前網(wǎng)頁(yè)主題爬蟲(chóng)對(duì)網(wǎng)頁(yè)主題的識(shí)別問(wèn)題,本文提出采用基于深度學(xué)習(xí)(DeepLearning)的模型對(duì)主題進(jìn)行特征表達(dá)并使用支持向量機(jī)(SupportVectorMachine,SVM)模型進(jìn)行識(shí)別。區(qū)別于傳統(tǒng)的淺層模型,深度學(xué)習(xí)模型的輸入層和輸出層之間相隔了若干個(gè)運(yùn)算層,如堆疊自動(dòng)編碼器(StackedAutoEncoder,SAE)就是若干個(gè)自動(dòng)編碼器的疊加,深度信念網(wǎng)絡(luò)(DeepBeliefNetwork,DBN)實(shí)質(zhì)上是一個(gè)多層的貝葉斯信念網(wǎng)絡(luò)[9]。通過(guò)多層的運(yùn)算單元疊加,可以有效提取和表達(dá)各種復(fù)雜概念,這是構(gòu)建有效主題識(shí)別模型的基礎(chǔ)。

2.主要方法

本文方法首先使用向量空間模型對(duì)網(wǎng)頁(yè)進(jìn)行向量化表達(dá),即把網(wǎng)頁(yè)轉(zhuǎn)化為詞向量,在本研究中對(duì)中英文網(wǎng)頁(yè)分別使用不同的基礎(chǔ)向量,這是由于中文和英文的詞集是不同的。使用分詞軟件對(duì)網(wǎng)頁(yè)的文本內(nèi)容進(jìn)行過(guò)濾和分詞,并把分詞結(jié)果記錄在一個(gè)m維布爾向量中,若該網(wǎng)頁(yè)含有第i個(gè)基本詞,則該向量的第i位為1,反之為0。在此基礎(chǔ)上構(gòu)建深度信念網(wǎng)絡(luò),它本質(zhì)上是一個(gè)多層神經(jīng)網(wǎng)絡(luò),通過(guò)訓(xùn)練它可以以最大的后驗(yàn)概率去生成數(shù)據(jù)。對(duì)于每一層,其輸出均可以看作是對(duì)輸入的重新編碼,但要求得到的新編碼能依概率還原本來(lái)的輸入,深度學(xué)習(xí)模型正是通過(guò)這種不斷的重新編碼發(fā)現(xiàn)隱含概念。圖1給出了一個(gè)深度信念網(wǎng)絡(luò)的基本結(jié)構(gòu)。

圖1.深度信念網(wǎng)絡(luò)的基本結(jié)構(gòu)

使用已經(jīng)標(biāo)注主題且以向量空間模型表達(dá)的網(wǎng)頁(yè)數(shù)據(jù)對(duì)DBN進(jìn)行訓(xùn)練,其目標(biāo)是通過(guò)正向(輸入層至輸出層)的數(shù)據(jù)通路得出在當(dāng)前權(quán)重下的模型輸出,與有監(jiān)督數(shù)據(jù)中的網(wǎng)頁(yè)真實(shí)主題信息進(jìn)行比較,若發(fā)現(xiàn)模型的輸出有錯(cuò)誤,則通過(guò)反向傳播從輸出層至輸入層逐層調(diào)整權(quán)重,最終使模型的輸出與真實(shí)的主題信息一致。取訓(xùn)練后的模型權(quán)重矩陣作為網(wǎng)頁(yè)爬蟲(chóng)程序在分析網(wǎng)頁(yè)的主題信息時(shí)的模型參數(shù)。需要指出的是,在圖1所示的DBN網(wǎng)絡(luò)中,其輸出層是一個(gè)多路的支持向量機(jī)分類(lèi)器,該SVM的輸入是第t-1層的概念表達(dá)。如前所述,在DBN中,每一層均是對(duì)前一層輸出特征向量的一種重新表達(dá),以盡可能還原原來(lái)的輸入信息為約束。因此,SVM分類(lèi)器模型所得到的是一組抽象層次相當(dāng)高的概念。在模型中通過(guò)改變每一層的節(jié)點(diǎn)數(shù)量對(duì)概念的表達(dá)長(zhǎng)度進(jìn)行壓縮,在本研究中SVM的輸入僅為模型輸入長(zhǎng)度的■。

令網(wǎng)頁(yè)的向量空間表達(dá)的特征向量長(zhǎng)度為d,即每個(gè)網(wǎng)頁(yè)pi為一個(gè)d維布爾向量,深度信念網(wǎng)絡(luò)執(zhí)行基于概率的特征表達(dá)轉(zhuǎn)換,如公式(1)所示:

p(x,y,h|?茲)=■(1)

其中?茲={b,c,d,W1,W2},E(·)是一個(gè)能量函數(shù),模擬能量從輸入層到輸出層的傳播,E(·)的定義如公式(2)所示:

E(x,y,h|?茲)=-bTx-cTh-dTy-xTW1h-hTW2y(2)

而Z(?茲)是一個(gè)邊緣分布函數(shù),定義為:

Z(?茲)=■exp(-E(x,y,h|?茲))(3)

在支持向量機(jī)作為輸出層的情況下,一個(gè)網(wǎng)頁(yè)x被分類(lèi)為屬于某個(gè)主題yi的概率為:

p(yi=1|x)=■sig(cj+W■■+(W■■)Tx)(4)

其中sig(·)為sigmoid函數(shù)。結(jié)合公式(1)至(4),可以得到給定網(wǎng)頁(yè)x,它的主題向量的預(yù)測(cè)分布概率表達(dá)式:

p(y|x)=■(5)

本文方法的訓(xùn)練時(shí)間復(fù)雜度較高,但由于訓(xùn)練只需進(jìn)行一次,把得到的權(quán)重矩陣W放在分類(lèi)器中,測(cè)試時(shí)根據(jù)公式(5)可以直接得到主題向量的預(yù)測(cè)分布,需要O(mn)的計(jì)算量。

3.實(shí)驗(yàn)

采用一個(gè)互聯(lián)網(wǎng)上公開(kāi)的網(wǎng)頁(yè)數(shù)據(jù)集“THE4UNIVERSITIESDATASET”對(duì)本文方法進(jìn)行測(cè)試,該數(shù)據(jù)集收集了幾所大學(xué)的計(jì)算機(jī)系網(wǎng)站上的網(wǎng)頁(yè),包含了7個(gè)分類(lèi),分別是Student、Faculty、Staff、Department、Course、Project和Other。一共包含8282個(gè)網(wǎng)頁(yè),平均網(wǎng)頁(yè)大小為26k。實(shí)驗(yàn)中僅對(duì)網(wǎng)頁(yè)的文本內(nèi)容進(jìn)行分析,先對(duì)每個(gè)網(wǎng)頁(yè)生成一個(gè)15000維的詞向量,然后使用深度信念網(wǎng)絡(luò)進(jìn)行概念提取,得到一個(gè)102維的特征向量,最后使用多分類(lèi)的支持向量機(jī)進(jìn)行網(wǎng)頁(yè)主題的分類(lèi)。根據(jù)經(jīng)驗(yàn),深度信念網(wǎng)絡(luò)設(shè)計(jì)為15層,每層的節(jié)點(diǎn)數(shù)量遞減10%。訓(xùn)練集和測(cè)試集按3:7的比例從整個(gè)數(shù)據(jù)集中隨機(jī)抽取進(jìn)行構(gòu)建。為了增加主題識(shí)別結(jié)果的穩(wěn)定性,進(jìn)行了10次隨機(jī)的劃分,并取其識(shí)別正確率的平均值作為最終的結(jié)果。表1列出了本文方法對(duì)每個(gè)類(lèi)別的識(shí)別正確率和CPU運(yùn)行時(shí)間。

表1算法在評(píng)估數(shù)據(jù)集上的正確率

從表1中可以看出,本文方法對(duì)實(shí)驗(yàn)數(shù)據(jù)集的主題有較高的識(shí)別率,且對(duì)單個(gè)網(wǎng)頁(yè)的運(yùn)行時(shí)間非常短,從而說(shuō)明該

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論