下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)碼產(chǎn)品信息的主題爬蟲設(shè)計
0查詢結(jié)果的干擾自web站點出現(xiàn)以來,該網(wǎng)站一直在開發(fā)。通用搜索引擎是基于整個Web采集信息,采集的頁面數(shù)量非常大,因此在檢索的結(jié)果中,包含了大量與查詢不相關(guān)或相關(guān)性很小的內(nèi)容,這些查詢結(jié)果都極大地干擾到了用戶。隨著Web信息的急劇膨脹,這種干擾也越來越嚴重,同時用戶也越來越渴望得到與特定主題相關(guān)的信息。通用搜索引擎向用戶提供幾乎所有類型、任何主題的資源,這顯然已經(jīng)不能滿足用戶針對特定主題的查詢要求。針對這種情況,需要一個數(shù)據(jù)全面深入精確且更新及時的主題搜索引擎。1開展特定領(lǐng)域、特定人群開展的檢索服務(wù)主題搜索引擎是相對通用搜索引擎的信息量大、查詢不準確、深度不夠等因素而提出來的新的搜索引擎服務(wù)模式,它是通用搜索引擎在某個類別的專業(yè)化,就是針對性地為某一特定主題、特定領(lǐng)域、特定人群或是特定需求提供的信息檢索服務(wù)。通用搜索引擎好比是“超市”,商品應(yīng)有盡有,而主題搜索引擎就好比是“家具城”、“電腦城”,提供專項服務(wù)。主題搜索引擎因為具有較強的領(lǐng)域針對性,能夠排除很多冗余信息,在很大程度上減少了不相關(guān)的檢索結(jié)果,從而提高了檢索的準確性。主題搜索引擎與通用搜索引擎在工作原理上是相似的,也是由信息采集、信息處理和信息檢索三部分組成。不同的是主題搜索引擎只采集與主題相關(guān)的信息。主題爬蟲就是為其搜集與主題相關(guān)的網(wǎng)頁資源。2主題設(shè)計2.1種子網(wǎng)頁的體系結(jié)構(gòu)如果將互聯(lián)網(wǎng)看成是一張圖,那么每個網(wǎng)頁就是其中的節(jié)點,網(wǎng)頁與網(wǎng)頁之間的鏈接則構(gòu)成弧,用圖的遍歷算法通過弧可以遍歷每個節(jié)點。爬蟲就是這樣順著鏈接按圖索驥,爬行整個網(wǎng)絡(luò)的。爬蟲從種子網(wǎng)頁出發(fā),向服務(wù)器發(fā)送HTTP請求,請求URL對應(yīng)的資源,分析下載的頁面,提取鏈接,將鏈接加入URL隊列,以便后續(xù)讀取。普通爬蟲的體系結(jié)構(gòu)如圖1所示。種子網(wǎng)頁用來賦予抓取模塊初始的URL,抓取模塊以這些初始URL去Internet上爬行;爬行模塊向URL對應(yīng)的Server發(fā)送HTTP請求,請求URL所標識的資源,Server返回響應(yīng)消息,響應(yīng)消息中的響應(yīng)正文即為我們請求的資源;鏈接抓取模塊,得到我們請求的網(wǎng)頁之后,抓取其中的超級鏈接,將沒有訪問過的鏈接存放到URL哈希表中。抓取到的網(wǎng)頁存放在網(wǎng)頁庫中,為后面的預(yù)處理索引模塊提供基礎(chǔ)。主題爬蟲是以普通爬蟲為基礎(chǔ)的,實際上它是對普通爬蟲功能上的擴充,用于搜集與主題相關(guān)的網(wǎng)頁,其組成如圖2所示。包括種子網(wǎng)頁、主題確立模塊、爬行模塊、過濾模塊、鏈接抓取模塊和排序模塊等等。種子網(wǎng)頁和普通爬蟲的種子網(wǎng)頁的作用一樣,爬蟲以種子網(wǎng)頁為起始網(wǎng)頁爬行,但是所不同的是種子網(wǎng)頁的選取有一定的限制;主題確立模塊用于確立爬行的主題;爬行模塊和普通爬蟲的相應(yīng)模塊功能相同;過濾模塊對爬行的網(wǎng)頁進行相關(guān)性判定,提取與主題相關(guān)性強的網(wǎng)頁;鏈接抓取是抓取網(wǎng)頁中的鏈接以便爬蟲的后續(xù)爬行;排序模塊是對與主題相關(guān)的網(wǎng)頁進行重要性判定。2.2種子網(wǎng)頁的自動選取由于主題搜索引擎是面向特定主題或是領(lǐng)域的,所以初始種子網(wǎng)頁的選取是比較關(guān)鍵的。種子網(wǎng)頁首先應(yīng)該是與該主題相關(guān)的,否則爬蟲無法工作。那么如何來選取種子網(wǎng)頁呢?種子網(wǎng)頁的選取可以自動選取,但是不確定因素太多,作者采用的是人工干預(yù)方式,好處是實現(xiàn)簡單,而且比較準確;缺點是加入了過多的主觀因素,導致種子選取不夠全面,這點通過下面的主題確立模塊改善。首先,通過咨詢該領(lǐng)域?qū)<耀@取主題關(guān)鍵詞集合,利用這些關(guān)鍵詞去元搜索引擎中查找,從中選取質(zhì)量較高的網(wǎng)頁作為種子網(wǎng)頁。關(guān)鍵詞主要集中于數(shù)碼產(chǎn)品的性能元素。2.3.基于文本特征的權(quán)值提取關(guān)鍵詞集合采取專家意見,比較準確,可以將專家提供的關(guān)鍵詞集合作為主題,但是由于主觀因素分量太重,導致可能會有遺漏不全面,所以需要重設(shè)主題關(guān)鍵詞集合。本文采用的是專家意見和特征提取相結(jié)合的方式。特征提取是利用一個與主題相關(guān)的網(wǎng)頁集合,由程序自動提取網(wǎng)頁集合的共同特征。這里利用種子網(wǎng)頁集合更新主題關(guān)鍵詞集合。特征提取主要基于以下兩種方式:(1)基于主題詞典的特征詞向量提取主題搜索引擎網(wǎng)頁的特征項一般都是專業(yè)詞匯或是特定領(lǐng)域的常見詞匯,所以用主題相關(guān)的詞條才能更好地表征網(wǎng)頁。參照主題詞典進行特征提取,只匹配那些在詞典中存在的詞,文檔向量空間維數(shù)大大降低,可以用少量的詞匯較好地涵蓋某一主題的同時降低計算復雜度。這種方式存在的缺陷在于特征項的權(quán)值量化不夠精確,不具備全面概括性。本文采用的是下面一種方式。(2)基于權(quán)重特征詞提取文本詞條數(shù)量眾多,如果用文本中的所有詞條做文本向量,向量空間的維數(shù)可想而知,進而影響系統(tǒng)效率,而且文本詞條包括大量如停用詞等與主題沒有多大關(guān)聯(lián)的詞條,所以必須進行特征提取,用有代表性的特征詞表征網(wǎng)頁。這里用到向量空間模型VSM(VectorSpaceModel)算法。VSM是一種文本特征的表示方法,它的基本思想就是任何文本文檔都可以用一組文本向量(T1,T2,…,Tn)表示,其中Ti(1≤i≤n)是文本中的詞條。每個特征項Ti在網(wǎng)頁中都有一定的權(quán)重,于是網(wǎng)頁就可以用一個向量(W1,W2,…,Wn)(其中Wi為特征項Ti在頁面中的權(quán)重)來表征其特性。權(quán)重大的詞也必然是文檔中較重要的詞,將這些詞條抽取作為特征詞Ti(1≤i≤n)。在這里計算權(quán)重使用的是TF-IDF算法。TF(TermFrequency),即詞條頻率,用詞條在文檔中出現(xiàn)的次數(shù)進行歸一化來表示,也就是詞條出現(xiàn)的次數(shù)除以網(wǎng)頁的總詞數(shù)(Fi/Z)。但是這明顯存在漏洞。如“的”等詞通常沒有什么意義,但是它往往占了總詞頻的80%以上,稱這種詞為“應(yīng)刪除詞”。針對上面的情況,信息檢索中又提出了逆文本頻率IDF(InverseDocumentFrequency)計算權(quán)重,使得在越多文檔中出現(xiàn)的詞條的權(quán)重越小,在越少文檔中出現(xiàn)的詞條權(quán)重越大。,其中D為全部網(wǎng)頁數(shù),Di為出現(xiàn)了詞條Ti的網(wǎng)頁個數(shù)。所以特征項Ti的權(quán)重Wi=(Fi/Z)·log(D/Di)。2.4下載資源獲取爬行模塊和通用搜索引擎的對應(yīng)模塊基本上沒有什么區(qū)別,讀取等待隊列中URL,向?qū)?yīng)服務(wù)器請求資源,服務(wù)器予以響應(yīng),爬蟲下載資源。在爬行模塊中,為便于爬行數(shù)碼產(chǎn)品的性能參數(shù)頁面,在該部分加入了正則表達式加以限制。2.5.種子網(wǎng)頁的相似度爬行模塊下載了網(wǎng)頁內(nèi)容,為了確保網(wǎng)頁的主題相關(guān)性,必須對網(wǎng)頁進行相關(guān)性判定。與主題不相關(guān)或是相關(guān)性較低的網(wǎng)頁的價值甚小,必須將它們過濾掉,這是普通蜘蛛與主題蜘蛛的根本區(qū)別之所在。如何判斷網(wǎng)頁與主題的相關(guān)性呢?在上文中已經(jīng)提到了VSM,每一個網(wǎng)頁都可以用一個特征向量來表征。計算兩個向量的相似度,在向量代數(shù)中,可以簡化為求兩個向量的一致性,確定向量是否一致,可以用余弦定理來實現(xiàn)。兩個向量的夾角越小說明這兩個向量越接近,表現(xiàn)在網(wǎng)頁上就是兩個網(wǎng)頁的內(nèi)容越相似。假設(shè)網(wǎng)頁A的特征項的權(quán)重向量為α=(W1,W2,…,Wn);網(wǎng)頁B的權(quán)重向量β=(V1,V2,…,Vn)(WI和Vi分別為向量α、β的特征項權(quán)重),那么A和B的相似度就可以用如下的公式來判定:如何比較相似度已經(jīng)解決了,余下的問題是新的網(wǎng)頁和種子網(wǎng)頁中的哪個網(wǎng)頁進行比較呢?種子網(wǎng)頁中某一個網(wǎng)頁是不能代表主題的,所以提供了下面兩種方法:(1)將新的網(wǎng)頁與種子網(wǎng)頁中的每一個求相似度,然后求相似度的平均值,缺點是每個網(wǎng)頁都要重復多次計算,增加了計算復雜度。本文采用下面的計算中心向量的方法。(2)求出主題中心向量Vector,新的網(wǎng)頁再與中心向量求相似度。種子網(wǎng)頁可以看成是與主題密切相關(guān)的一類網(wǎng)頁,可以用類內(nèi)的全部元素的質(zhì)心(Centroid)來刻畫一個類的總體特性,從而得到中心向量Vector。設(shè)種子網(wǎng)頁的集合為D=(D1,D2,…,Dn),每個網(wǎng)頁向量Di∈D,其中Di=(W1i,W2i,…,Wni)(Wji為特征項的權(quán)重),那么主題中心向量可以用如下公式來計算:得到了中心向量,將新的網(wǎng)頁向量與之求相似度,指定一個閾值r,當相似度大于r時就認為該頁面和主題是相關(guān)的,添加到網(wǎng)頁庫中,以待后續(xù)的索引,否則丟棄該頁面。2.6選擇匹配頁面的方案得到新的網(wǎng)頁后,需要進一步提取新網(wǎng)頁的鏈接以便爬蟲繼續(xù)展開工作。鏈接的提取可以設(shè)定URL模板,通常是采用正則表達式來提取與之匹配的URL,這樣可以針對性的采集網(wǎng)頁,適合規(guī)模比較小、信息源穩(wěn)定的需求,但是后期維護成本太高,不太適合網(wǎng)頁庫搜索引擎級別的要求。但是既然是一種技術(shù),就可以與其他的技術(shù)相互補充,因為技術(shù)只是手段,目的是切返用戶之需??偟膩碚f鏈接的抓取模塊和普通蜘蛛的相應(yīng)模塊沒什么本質(zhì)區(qū)別。2.7網(wǎng)頁具體的相似度和選擇實驗數(shù)據(jù)顯示,約85%的用戶只翻看搜索引擎返回結(jié)果的前10個結(jié)果,即返回結(jié)果頁面的第一頁。這個用戶行為決定了盡管搜索引擎返回的結(jié)果數(shù)據(jù)十分龐大,但真正可能被用戶所瀏覽的只是前面的很小一部分而已,所以排序策略是至關(guān)重要的,也是搜索引擎成敗的關(guān)鍵。用戶排序模塊的作用是依據(jù)網(wǎng)頁的質(zhì)量進行排序,將價值大的網(wǎng)頁排在前面,以便用戶方便獲得所需資源?,F(xiàn)在的排序算法有很多,諸如HITS、詞頻和位置的加權(quán)排序、基于Alexa的網(wǎng)站排序等等,這里提出的是相似度和PageRank的結(jié)合算法。PageRank基于“從許多優(yōu)質(zhì)網(wǎng)頁鏈接過來的網(wǎng)頁,必定還是優(yōu)質(zhì)網(wǎng)頁”的回歸關(guān)系來判定所有網(wǎng)頁的重要性的。PageRank的思想源于學術(shù)引文機制:當從網(wǎng)頁A鏈接到網(wǎng)頁B時,就認為網(wǎng)頁A投了網(wǎng)頁B一票,增加了B的重要性,最后根據(jù)B的得票數(shù)來評定其重要性。計算公式如下:其中:PR(B)為頁面B的網(wǎng)頁級別;Pi為頁面B的鏈入網(wǎng)頁;PR(Pi)為頁面Pi的網(wǎng)頁級別;C(Pi)為頁面Pi鏈出的鏈接數(shù)量;d為阻尼系數(shù),取值范圍為(0,1),一般為0.85,因為并不是每一個網(wǎng)頁都有出度或入度的;N為總網(wǎng)頁數(shù)量;n為頁面B的入度;(1-d)非鏈接進入頁面瀏覽的概率,即用戶沒有對當前頁面繼續(xù)鏈接訪問,而是轉(zhuǎn)到其他的頁面隨機訪問的概率;(1-d)/N即為隨機訪問頁面B的概率。頁面Pi(i=1,…,n)擁有到頁面B的鏈接,頁面Pi的出度為C(Pi),所以由頁面Pi到頁面B的概率為1/C(Pi),進而頁面Pi通過鏈接進入頁面B的概率為d/C(Pi),那么頁面Pi傳遞給頁面B的PR值則為,入度為n,將n個頁面?zhèn)鬟f給B的PR值求和即可得到通過鏈接傳遞到B的PR值。PageRank算法在很多大型搜索引擎中都有很好的效果,網(wǎng)頁PR值成為網(wǎng)頁質(zhì)量的評價標準。在主題網(wǎng)頁集合中,相似度可以從很大程度上決定該網(wǎng)頁的重要性,與主題越相似,所含的信息也必然與主題也相近,其質(zhì)量也就越高。綜合PageRank和相似度的分析,網(wǎng)頁質(zhì)量可以用下面的方法計算:其中t∈(0,1)。3主題跟蹤計劃的實現(xiàn)3.1確定使用md5算法的生成和傳播信息根據(jù)URL的處理狀態(tài)將URL存放在四個不同的隊列中,分別是等待隊列、處理隊列、異常隊列和完成隊列。當有新的鏈接產(chǎn)生時,為防止重復抓取,則要檢查隊列,查看當前URL是否已經(jīng)被處理過,這勢必要用到查找算法。URL的最大長度可達2083字節(jié),同時URL數(shù)量龐大,用順序匹配顯然是不合理的;URL的排列也沒有什么順序可言,所以用二分法等都是不可取的,這里用到的是MD5算法。信息摘要MD5(Message-Digest)算法,是一種單向的HASH函數(shù),它的功能是將輸入的任意長度的信息,生成一個128位信息,而且不同的輸入得到的結(jié)果不同,通常將它比喻成“信息指紋”,就好像我們每個人都有獨一無二的指紋一樣,MD5算法就是給不同的信息加指紋。根據(jù)它的唯一性,可以對每個URL生成其指紋(MD5值)存儲,將新的URL的指紋與已存儲的URL的指紋進行比較,如果指紋不同,則必定是兩個不同的URL,將該URL加入到等待隊列中等待抓取,否則即表明兩個URL相同,則丟棄。3.2使用線程池的注意事項為了控制速度,使用線程池來實現(xiàn),多線程充分利用資源,提高了效率。當然采用線程池也有一定的弊端,如果因為網(wǎng)絡(luò)不暢通或是其它原因而導致當前占有的資源的線程始終等待,那么其它任務(wù)也會因為等待資源
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司自駕租車合同范例
- 預(yù)售與正式合同范例
- 房屋刷墻合同范例
- 多學科聯(lián)合在臨床研究中的應(yīng)用
- 工程協(xié)議用工合同范例
- 房子建造改裝合同范例
- 庭院經(jīng)濟養(yǎng)殖合同范例
- 軟件研發(fā)外包勞務(wù)合同范例
- 四年級上冊數(shù)學教案-2.3 減法的運算性質(zhì)-西師大版
- 三年級上冊數(shù)學教案-2.2.認識克-蘇教版
- 《色彩構(gòu)成》課件- 第六章 色彩的心理分析
- 流行音樂(中國)
- 敬老院消防應(yīng)急預(yù)案方案及流程
- 股東計劃書模板
- 大數(shù)據(jù)與人工智能智慧樹知到期末考試答案2024年
- 觸式橄欖球智慧樹知到期末考試答案2024年
- 設(shè)備管理中的主要問題和挑戰(zhàn)
- 2024年廣東開放大學《汽車電器設(shè)備構(gòu)造與檢修》形成性考核參考試題庫(含答案)
- 電路分析試題及答案(大學期末考試題)
- 藝術(shù)景觀專業(yè)職業(yè)生涯發(fā)展報告
- 遼寧經(jīng)濟職業(yè)技術(shù)學院單招《語文》考試復習題庫(含答案)
評論
0/150
提交評論