(計算機(jī)應(yīng)用技術(shù)專業(yè)論文)網(wǎng)頁信息凈化方法的研究與實現(xiàn).pdf_第1頁
(計算機(jī)應(yīng)用技術(shù)專業(yè)論文)網(wǎng)頁信息凈化方法的研究與實現(xiàn).pdf_第2頁
(計算機(jī)應(yīng)用技術(shù)專業(yè)論文)網(wǎng)頁信息凈化方法的研究與實現(xiàn).pdf_第3頁
(計算機(jī)應(yīng)用技術(shù)專業(yè)論文)網(wǎng)頁信息凈化方法的研究與實現(xiàn).pdf_第4頁
(計算機(jī)應(yīng)用技術(shù)專業(yè)論文)網(wǎng)頁信息凈化方法的研究與實現(xiàn).pdf_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費閱讀

(計算機(jī)應(yīng)用技術(shù)專業(yè)論文)網(wǎng)頁信息凈化方法的研究與實現(xiàn).pdf.pdf 免費下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

墮簽蓬三堡盔堂堡主堂篁笙苧 摘要 信息技術(shù)的發(fā)展對全世界來說都產(chǎn)生了極大的影響,是當(dāng)前高技術(shù)發(fā)展 中的主流技術(shù),因為信息在人類生活中無處不在,無時無刻的不影響著人類 的生活,對信息的獲得和挖掘成為科學(xué)界關(guān)注的焦點。在互聯(lián)網(wǎng)發(fā)展的初期, 信息量和需求量都比較少,那么用戶可以很容易的找到自己想要的信息,不 過,隨著互聯(lián)網(wǎng)發(fā)展越來越迅速,這個事情變得越來越難了。搜索引擎的產(chǎn) 生使在互聯(lián)網(wǎng)上查找信息又變得相對容易了。但是,在海量的數(shù)據(jù)和異構(gòu)的 信息中存在這大量的網(wǎng)頁噪音,這些噪音嚴(yán)重影響了搜索引擎系統(tǒng)的服務(wù)質(zhì) 量,降低了搜索結(jié)果的準(zhǔn)確度,也增加了服務(wù)器處理過程的時間和空間上的 開銷。 首先,本文詳細(xì)介紹了在網(wǎng)頁凈化系統(tǒng)實現(xiàn)中所用到的關(guān)鍵技術(shù),主要 包括文檔對象模型d o m 的定義及其特點;網(wǎng)頁結(jié)構(gòu),其中包括網(wǎng)頁標(biāo)簽樹表 示,網(wǎng)頁如何用網(wǎng)頁標(biāo)簽樹表示,如何用d o m 樹表示;中文網(wǎng)頁分塊技術(shù), 通過結(jié)合d o m 樹以及h t m l 的一些重要標(biāo)簽對網(wǎng)頁進(jìn)行分塊同時,本文來列舉 了中文網(wǎng)頁分塊的一些規(guī)則,結(jié)合對這些技術(shù)的了解,有助于對本研究課題 功能實現(xiàn)的理解。 然后,本論文分析了信息網(wǎng)行業(yè)搜索引擎的架構(gòu):w e b s e r v e r & s o ,c a c h e 管理系統(tǒng),最新庫,數(shù)據(jù)管理系統(tǒng),及其網(wǎng)頁凈化系統(tǒng)。分別對每個子系統(tǒng) 的功能做了詳細(xì)的闡述,并詳細(xì)介紹了各個子系統(tǒng)之間的關(guān)系,并對整個搜 索過程做了詳細(xì)的說明:用戶從w e b 端的c g i ( 通用網(wǎng)關(guān)接口) 程序輸入查詢 串,c g i 程序?qū)λM(jìn)行合理的分割并把查詢串傳入搜索系統(tǒng),把查詢到相關(guān) 詞的頁面?zhèn)魅刖W(wǎng)頁凈化系統(tǒng),最后把凈化后的頁面通過w e bs e r v e r 端的c g i 程序顯示在瀏覽器中。網(wǎng)頁凈化系統(tǒng)在整個行業(yè)搜索引擎中的作用:通過w e b 端的c g i 程序顯示凈化后的結(jié)果,并對c g i 做了介紹。網(wǎng)頁凈化系統(tǒng) p a g e c l e a n 是本文介紹的重點,也是本論文的核心部分。本文詳細(xì)闡述了 p a g e c l e a n 系統(tǒng)的架構(gòu),實現(xiàn)該系統(tǒng)依據(jù)的規(guī)則,該算法的主要思想及實現(xiàn) 算法的流程。 哈爾濱工程大學(xué)碩士學(xué)位論文 最后,論文給出了網(wǎng)頁凈化系統(tǒng)p a g e c l e a n 狽j 試方法,并根據(jù)測試數(shù)據(jù) 得出結(jié)論:網(wǎng)頁凈化系統(tǒng)p a g e c l e a n 無論是在凈化速度還是在凈化效果上都 具有較好的性能,達(dá)到了預(yù)期的目標(biāo)。 關(guān)鍵詞:網(wǎng)頁凈化:網(wǎng)頁噪聲;超文本標(biāo)記語言;網(wǎng)頁結(jié)構(gòu);萬維網(wǎng) 哈爾濱工程大學(xué)碩士學(xué)位論文 a b s t r a c t t h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g yh a se f f e c to nt h ew h o l ew o r l d ,i t i st h em a i nt e c h n o l o g yd u r i n gt h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y a si t e x i s t sn o w h e r ei nt h eh u m a nl i f ea n de f f e c t sh u m a nl i f e ,g e t t i n gi n f o r m a t i o n b e c o m e st h ef o c u si nt h es c i e n c ec i r c l e s i nt h ee a r l yd a y s ,t h e r ei sl e s sd e m a n do f i n f o r m a t i o n , s o ,p e o p l ec a ng e ti n f o r m a t i o nt h a tt h e yw a n te a s i l y b u ta sw o r l d w i d ew e b d e v e l o p s i tb e c o m e sv e r yh a r dt od o s e a r c he n g i n eb e c o m e si te a s y a g a i n b u tt h e r ei sag r e a td e a lo fw e bn o i s ei ns u c hg r e a tm o u n to fw e b s ,i t r e d u c e st h en i c e t yo fs e a r c he n g i n e a n di n c r e a s e st h el o a do fs e r v e r f i r s t ,t h et h e s i si n 拓o d u e e st h ek e yt e c h n o l o g yo f t h ew e bp u r i f i c a t i o ns y s t e m w h i c hi n c l u d e st h ed e f i n i t i o na n dc h a r a c t e r i s t i co f d o m ( d o c u m e n to b j e c tm o d e l ) t e c h n o l o g y ;w e bs t r u c t u r e :d e n o t a t i o no fw e bl a b e lt r e e , h o wd o e st h ew e b s t r u c t u r ed e n o t e 誠t hw e bl a b e lt r e ea n dd o mt r e e ;w e bp a g es e g m e n t t e c h n o l o g y :w i t ht h ed o mt e c h n o l o g ya n ds o m ei m p o r t a n th t m ll a b e l ,w ec a n s e g m e n tt h ew e bp a g e m e a n w h i l et h i sp a p e rs p e c i a l i z e ss o m ew e bp a g es e g m e n t r o l e s ,a ut h a tc a nh e l py o uu n d e r s t a n dt h ei m p l e m e n to f t h i ss y s t e m t h e n , t h et h e s i sa n a l y z e st h es t r u c t u r eo fh u i c o n gs e a r c he n g i n e : w e b s e r v e ra n ds o ( s h a r e do b j e c t ) ,c a c h e ,n e w e s td a t a b a s e ,d a t a b a s ea n dw e b p u f f ys y s t e m a n dt h er e l a t i o nb e t w e e nt h e s es y s t e m s t h ea n a l y s i so fs e a r c h i n g p r o c e s s :t h eu s e r st y p et h es t r i n gi n t oc o lf r o mw e bs e r v e lc g id e a l sw i t ht h e s e s t r i n g s ,p u tt h e mt os e a r c he n g i n es y s t e m ,t h e np u ta l li n t e r r e l a t e dw e b si n t o p a g e c l e a ns y s t e m ,t h er e s u l tc a nd i s p l a yi nt h eb r o w s e r p a g e c l e a ni st h ek e yp a r t o f t h i st h e s i s w ed i s c u s st h ea r i t h m e t i co f t h i ss y s t e ma n dr u l e so fi m p l e m e n t f i n a l l y , t h et h e s i sd i s c u s s e st h et e s tm e t h o do fp a f e c l e a n ,g e t sc o n c l u s i o n : p a g e c l e a ns y s t e mc a l lr e a c ht h ee x p e c t e dt a r g e t k e yw o r d s :w e bc l e a n ,w e bn o i s e ,h t m l ,w e bs t r u c t u r e ,w w w 哈爾濱工程大學(xué) 學(xué)位論文原創(chuàng)性聲明 本人鄭重聲明:本論文的所有工作,是在導(dǎo)師的指導(dǎo) 下,由作者本人獨立完成的。有關(guān)觀點、方法、數(shù)據(jù)和文 獻(xiàn)的引用已在文中指出,并與參考文獻(xiàn)相對應(yīng)。除文中已 注明引用的內(nèi)容外,本論文不包含任何其他個人或集體已 經(jīng)公開發(fā)表的作品成果。對本論文的研究做出重要貢獻(xiàn)的 個人和集體,均己在文中以明確方式標(biāo)明。本人完全意識 到本聲明的法律結(jié)果由本人承擔(dān)。 作者( 簽字) :鏈 日期:年月日 哈爾濱工程大學(xué)碩士學(xué)位論文 第1 章緒論 1 1 課題背景和意義 本課題來源于北京慧聰網(wǎng)行業(yè)搜索引擎項目?;勐斁W(wǎng)行業(yè)搜索引擎是國 內(nèi)最大的行業(yè)搜索引擎,每天有數(shù)百萬的數(shù)據(jù)流量。其搜索引擎內(nèi)核采用的 是中搜企業(yè)級檢索內(nèi)核?;勐斝袠I(yè)搜索引擎采使用的歷史庫和最新庫都是從 w e b 上抓取的網(wǎng)頁。但是,網(wǎng)頁上存在大量用戶并不關(guān)心的信息,如導(dǎo)航條、 廣告信息、版權(quán)信息以及調(diào)查問卷等內(nèi)容,這些信息稱之為“網(wǎng)頁噪音”。 網(wǎng)頁噪音導(dǎo)致主題漂移( t o p i cd r i f t ) ,使同一網(wǎng)頁存在多個主題的情況。 以整個網(wǎng)頁為粒度的信息搜索結(jié)果不夠準(zhǔn)確,必須深入到網(wǎng)頁內(nèi)部,找出網(wǎng) 頁主題,才能提高信息檢索的準(zhǔn)確性。搜索引擎對整個頁面內(nèi)容建立索引, 因此引入了無關(guān)信息??焖贉?zhǔn)確的識別并清除網(wǎng)頁內(nèi)的噪音內(nèi)容( 我們稱之 為網(wǎng)頁凈化) 是提高搜索引擎處理結(jié)果準(zhǔn)確性的一項關(guān)鍵技術(shù)。首先,網(wǎng)頁 凈化后,沒有了噪音內(nèi)容的干擾,搜索引擎可以以網(wǎng)頁的主題內(nèi)容為處理對 象,從而提高處理結(jié)果的準(zhǔn)確性。其次,網(wǎng)頁凈化可以顯著簡化網(wǎng)頁內(nèi)標(biāo)簽 結(jié)構(gòu)的復(fù)雜性并減小網(wǎng)頁的大小,從而節(jié)省后續(xù)處理過程的時間和空間開銷。 因此,網(wǎng)頁凈化已成為搜索引擎系統(tǒng)預(yù)處理環(huán)節(jié)中一個必不可少的工作“1 。 1 2 課題研究的內(nèi)容 在w e b 信息檢索領(lǐng)域,通常用兩個指標(biāo)評價一個w e b 檢索系統(tǒng),檢索結(jié)果 的相關(guān)性和檢索的速度。 根據(jù)噪音內(nèi)容的粒度大小,w e b 上的噪音內(nèi)容可以被分為兩類。 全局噪音:全局噪音是指w e b 上具有較大粒度的噪音內(nèi)容,它通常包含鏡 像網(wǎng)站以及近似網(wǎng)頁0 1 。全局噪音內(nèi)容不僅影響了w e b 上信息檢索系統(tǒng)( 比如 搜索引擎) 的網(wǎng)頁搜集、索引和檢索結(jié)果排序的質(zhì)量,也使得w e b 信息存儲系 統(tǒng)浪費大量的磁盤空間去保存重復(fù)的網(wǎng)頁。 局部嗓音:局部噪音是指w e b 網(wǎng)頁內(nèi)與網(wǎng)頁主題內(nèi)容無關(guān)的噪音內(nèi)容,比 如:廣告、導(dǎo)航條以及版權(quán)聲明等內(nèi)容。局部噪音使得應(yīng)用程序很難確切得 哈爾濱工程大學(xué)碩士學(xué)位論文 到網(wǎng)頁的主題內(nèi)容,因此它嚴(yán)重的影響了基于網(wǎng)頁內(nèi)容的應(yīng)用程序。同時, 局部噪音很多情況下是伴隨著超鏈出現(xiàn)的,因此,局部噪音也對基于網(wǎng)頁間 鏈接關(guān)系的應(yīng)用程序造成影響 在一個頁面中常見噪音信息包括這樣幾類: 1 ) 導(dǎo)航類:為了維持網(wǎng)頁間的鏈接關(guān)系,方便瀏覽者對網(wǎng)站進(jìn)行瀏覽而 設(shè)置的鏈接。 2 ) 修飾類:為了美化頁面而采用的背景,修飾圖片,動畫等。如站點標(biāo) 志圖片,廣告條。 3 ) 交互類:為了收集用戶提交信息或提供站內(nèi)搜索服務(wù)的表單等。如在 線的問卷調(diào)查表。 4 ) 其它類:網(wǎng)頁中聲明的版權(quán)信息,創(chuàng)建時間,作者等描述性信息。 如果不去除網(wǎng)頁中的噪音內(nèi)容,那么索引子系統(tǒng)必然對噪音內(nèi)容也建立 索引,從而導(dǎo)致僅僅因為查詢詞在某張網(wǎng)頁的噪音內(nèi)容中出現(xiàn),而把該網(wǎng)頁 作為結(jié)果返回,而網(wǎng)頁的主題內(nèi)容可能和這個查詢詞完全無關(guān)??梢钥闯?, 噪音內(nèi)容不僅使索引的規(guī)模變大( 從而會影響效率) ,而且還導(dǎo)致了檢索準(zhǔn) 確性的下降。針對這個問題,文獻(xiàn) 3 中提出了一個去除網(wǎng)頁中噪音內(nèi)容的方 法,該方法首先依據(jù) 標(biāo)簽構(gòu)造網(wǎng)頁的標(biāo)簽樹,進(jìn)而依據(jù) 標(biāo)簽 將一張網(wǎng)頁規(guī)劃為相互嵌套的內(nèi)容塊;而后,對于使用同一個模板作出的網(wǎng) 頁集,找出在該網(wǎng)頁集中多次出現(xiàn)的內(nèi)容,作為冗余內(nèi)容,而在該網(wǎng)頁集中 共同出現(xiàn)較少的內(nèi)容塊就是有效信息塊。實驗證明該方法是有效的,但該方 法必須局限在基于同一個模板的網(wǎng)頁集,而w e b 上的網(wǎng)頁模板不計其數(shù),因此 該方法顯然不夠通用。實際上,任意一張網(wǎng)頁,人是比較容易區(qū)別其中的噪 音內(nèi)容和主題內(nèi)容的。這說明我們有可能追求自動識別一張網(wǎng)頁中的主題內(nèi) 容和噪音內(nèi)容而不需要依賴于一個網(wǎng)頁集合,這樣就可以使去除網(wǎng)頁噪音內(nèi) 容的方法更加通用和獨立。 在主題搜索領(lǐng)域,大量的廣告、導(dǎo)航條等噪音內(nèi)容會導(dǎo)致主題漂移( t o p i c d r i f t ) 。這說明傳統(tǒng)的主題搜索算法中以網(wǎng)頁為粒度構(gòu)造的網(wǎng)絡(luò)圖( w e b g r a p h ) 不夠準(zhǔn)確,必須深入到網(wǎng)頁內(nèi)部將處理單元的粒度縮小,才能提高內(nèi) 容分析的準(zhǔn)確性。文獻(xiàn) 4 中提出一套方法,首先將網(wǎng)頁表示為一棵d o m 樹結(jié) 構(gòu)并找到與主題一致性較高的子樹,然后對這些子樹作特別的處理,從而來 2 哈爾濱工程大學(xué)碩士學(xué)位論文 提高主題提煉的效果。 在網(wǎng)頁信息提取領(lǐng)域,自動識別模式的方法必須要從整個網(wǎng)頁中提取模 式,而不是只針對主題內(nèi)容進(jìn)行提取。因此,在凈化后的網(wǎng)頁上作信息提 取不僅可以排除噪音信息對信息提取的干擾,提高信息提取的準(zhǔn)確性,而且 可以使得網(wǎng)頁中的結(jié)構(gòu)簡單化,提高信息提取的效率。 從上述分析我們看到,噪音內(nèi)容對基于網(wǎng)頁的研究工作的影響是普遍而 嚴(yán)重的,雖然各個領(lǐng)域采用的方法各不相同,但處理的目的都是為了排除網(wǎng) 頁中噪音內(nèi)容的干擾,得到真正的主題內(nèi)容。 參考上述文獻(xiàn)中提出的啟發(fā)式規(guī)則,并結(jié)合我們自己對h t m l 網(wǎng)頁性質(zhì)的 統(tǒng)計和觀察,本文提出了一套更豐富的啟發(fā)式規(guī)則。在這套啟發(fā)式規(guī)則的基 礎(chǔ)上,借助信息檢索領(lǐng)域的方法,結(jié)合h t m l 網(wǎng)頁的特點,提出了一種網(wǎng)頁凈 化的方法和相關(guān)算法。該方法和算法與前述相關(guān)工作相比更為通用,不需要 依賴網(wǎng)頁模板等附加信息也不需要對待處理網(wǎng)頁增加限制條件,比如:屬于 同一個模板。 本文的方法已被應(yīng)用到慧聰網(wǎng)行業(yè)搜索引擎系統(tǒng)中。在行業(yè)搜索引擎, 使用凈化后的網(wǎng)頁進(jìn)行索引,查詢,分類效果得到普遍的提高。 1 3 國內(nèi)外研究現(xiàn)狀 在網(wǎng)頁噪音去除的工作中,可以看到兩類情形: ( 1 ) 基于一個或多個網(wǎng)站中的頁面集進(jìn)行頁面的模板檢測,把為了生成 頁面而在網(wǎng)站中使用的模板作為噪音由頁面中去除“”。 ( 2 ) 基于單一頁面的處理,根據(jù)所處理頁面的d o m 結(jié)構(gòu),可視信息等應(yīng) 用一些啟發(fā)性規(guī)則對頁面內(nèi)的噪音去除。 在第一類情形中:文獻(xiàn) 6 中提出信息塊( c o n t e n tb l o c k ) 概念,對新 聞網(wǎng)站中的頁面進(jìn)行處理。以頁面中t a b l e 標(biāo)記作為處理元素,將頁面分割 成塊,然后由頁面集計算出各塊的信息熵值,當(dāng)熵值小于閾值時,認(rèn)為此塊 為信息塊。此種方法將頁面看作可由t a b l e 分割的集合,并假設(shè)已知塊在頁 面集中分布的先驗知識,這種假設(shè)對于其它類型頁面很難成立。而l i u 等”1 文中,根據(jù)頁面的d o m 結(jié)構(gòu),構(gòu)造s t y l et r e e ,進(jìn)行同一網(wǎng)站內(nèi)頁面模板的 檢測,以排除各頁面內(nèi)的噪音,提高了w e b 挖掘的結(jié)果,但對從任意網(wǎng)站下 哈爾濱工程大學(xué)碩士學(xué)位論文 載的頁面集或第二類情形無效。第二類情形中:文獻(xiàn) 8 提出了根據(jù)布局信息 對頁面分塊的算法,以消除噪音對分類的影響,但其在分塊過程中采用的頁 面布局算法對于h t m l 規(guī)范中的框架,圖層及c s s 不支持,因此頁面布局算法 并不總能反映實際的頁面布局。同時分塊中主要依賴t a b l e 標(biāo)記作為分塊的 主要參考標(biāo)記,因此對于沒有用t a b l e 做布局的頁面不適應(yīng)。此外,文獻(xiàn) 9 利用頁面的d o m 結(jié)構(gòu),依據(jù)一些規(guī)則,對頁面內(nèi)一些元素進(jìn)行了裁減,但對 于鏈接豐富的h u b 頁面,如m s n ,造成頁面中h u b 鏈接被刪除。文獻(xiàn) 1 0 3 提 出了v i p s ( 基于視覺的w e b 頁面分頁算法) 算法,將頁面轉(zhuǎn)化成內(nèi)容結(jié)構(gòu)。 v i p s 基于頁面的可視化信息來進(jìn)行頁面劃分,并定義其內(nèi)聚度。算法通過可 視塊抽取,分隔條檢測及構(gòu)造內(nèi)容結(jié)構(gòu)三步迭代進(jìn)行,以各塊的內(nèi)聚度值與 預(yù)定義的終止條件比較作為迭代的終止條件。此算法對頁面進(jìn)行細(xì)致地劃分, 但并未對噪音數(shù)據(jù)進(jìn)行進(jìn)一步的處理。 1 4 課題實現(xiàn)環(huán)境 本課題是利用北京慧聰網(wǎng)行業(yè)搜索引擎所提供的網(wǎng)頁庫進(jìn)行實驗的。該 網(wǎng)頁凈化系統(tǒng)用c c + + 語言在w i n d o w s 操作系統(tǒng)、f r e e b s du n i x 操作系統(tǒng)系 統(tǒng),開發(fā)平臺上開發(fā)的,使用的工具是v i s u a lc + + 6 0 ,g c c 。 1 4 1 硬件環(huán)境 u n i x 平臺( 雙機(jī)備份) s e r v e r :i b mr 6 0 0 0 m e m o r y :8g b d i s k :8 0g b c l i e n t :w i n d o w s2 0 0 0p r o f e s s i o n a l m e h l o r y : 1g b d i s k :1 0g b 1 4 2 軟件環(huán)境 系統(tǒng)采用c c + + 實現(xiàn),支持在多種操作系統(tǒng)環(huán)境下運行。 1 ) 支持的操作系統(tǒng) w i n d o w s2 0 0 0p r o f e s s i o n a l 、w i n d o w s 2 0 0 0s e r v e r 4 哈爾濱工程大學(xué)碩士學(xué)位論文 u n i x :f r e e b s d 2 ) 支持的g l i b 軟件包 g 1 i b2 2 1 以上 3 ) 支持的數(shù)據(jù)庫系統(tǒng) o r a c l e8 i ( 8 1 7 版本以上) 4 ) 支持的瀏覽器 n e t s c a p e :適用于所有平臺,包括w i n d o w s 和u n i x i e6 0 以上:適用于w i n d o w s 平臺 5 ) 支持的w e b s e r v e r a p a c h e1 3 以上,t o m c a t 3 3 以上 1 5 論文組織 本論文對網(wǎng)頁凈化系統(tǒng)的設(shè)計和實現(xiàn)工作加以總結(jié),論述了開發(fā)該系統(tǒng) 所使用的關(guān)鍵技術(shù);該系統(tǒng)在信息網(wǎng)行業(yè)搜索引擎架構(gòu)中的位置,它與各個 子系統(tǒng)之間的關(guān)系;并對其中的算法進(jìn)行詳細(xì)的描述,滿足系統(tǒng)需求。 本論文組織結(jié)構(gòu)安排如下: 第1 章為緒論部分,介紹了本課題的研發(fā)背景及研究意義,明確了本課 題研究的內(nèi)容,給出了課題的軟硬件實現(xiàn)環(huán)境,同時,介紹了本論文的組織 結(jié)構(gòu),以給人清晰的條理。 第2 章詳細(xì)介紹了在網(wǎng)頁凈化系統(tǒng)實現(xiàn)中所用到的關(guān)鍵技術(shù),主要包括 網(wǎng)頁結(jié)構(gòu):網(wǎng)頁標(biāo)簽樹表示,文檔對象模型d o m 樹定義及其特點,網(wǎng)頁如何 用網(wǎng)頁標(biāo)簽樹表示,如何用d o m 樹表示;網(wǎng)頁結(jié)構(gòu)分塊技術(shù),根據(jù)h t 禮的一 些重要標(biāo)簽對網(wǎng)頁進(jìn)行分塊。對這些技術(shù)的了解,有助于對本研究課題功能 實現(xiàn)的理解。 第3 章介紹了信息網(wǎng)行業(yè)搜索引擎的整體架構(gòu)和各個子系統(tǒng);網(wǎng)頁凈化 系統(tǒng)在行業(yè)搜索引擎架構(gòu)中的位置,它與各個子系統(tǒng)之間的關(guān)系;搜索引擎 的檢索過程及其w e b 端的c g i 程序設(shè)計。 第4 章給出了信息網(wǎng)網(wǎng)頁凈化系統(tǒng)的詳細(xì)設(shè)計方案及其實現(xiàn),其中詳細(xì) 介紹了網(wǎng)頁凈化系統(tǒng)p a g e c l e a n 系統(tǒng)的算法實現(xiàn)依據(jù)的規(guī)則,算法的思想, 算法的流程以及在聯(lián)機(jī)的情況下對網(wǎng)頁凈化的實現(xiàn)。 哈爾濱工程大學(xué)碩士學(xué)位論文 第5 章對該網(wǎng)頁凈化系統(tǒng)進(jìn)行了詳細(xì)的測試和分析。其中介紹了測試的 數(shù)據(jù)集,網(wǎng)絡(luò)環(huán)境,軟件環(huán)境,硬件環(huán)境。詳細(xì)介紹了網(wǎng)頁凈化系統(tǒng)p a g e c l e a n 的凈化速度和凈化效果,并對結(jié)果進(jìn)行了分析,提出了改進(jìn)的優(yōu)化策略。 其中第3 章、第4 章和第5 章分別是本系統(tǒng)的需求、設(shè)計和具體實現(xiàn)及 測試部分,為本文的主題。 在結(jié)論部分對本文的工作做了一個總結(jié)。 6 墮墮鎏三堡奎堂堡主堂堡笙奎 第2 章網(wǎng)頁結(jié)構(gòu)分析及內(nèi)容分塊技術(shù) 這一章將介紹在實現(xiàn)本課題研究的系統(tǒng)所需要的關(guān)鍵技術(shù),主要包括: 網(wǎng)頁結(jié)構(gòu)、網(wǎng)頁標(biāo)簽樹、文檔對象模型d o m 、網(wǎng)頁結(jié)構(gòu)分塊技術(shù)。 2 。1 網(wǎng)頁結(jié)構(gòu)模型 為了方便網(wǎng)頁凈化系統(tǒng)的預(yù)處理,我們用一個統(tǒng)一的結(jié)構(gòu)化的模型表示 預(yù)處理的結(jié)果。該網(wǎng)頁凈化系統(tǒng)結(jié)構(gòu)化模型包括:網(wǎng)頁標(biāo)識、網(wǎng)頁類型、內(nèi) 容類別、標(biāo)題、關(guān)鍵詞、摘要、正文、相關(guān)鏈接等要素。其中正文和相關(guān)鏈 接要素屬于網(wǎng)頁的內(nèi)容數(shù)據(jù),而其他幾項則屬于網(wǎng)頁的元數(shù)據(jù)。下面將對模 型中的各個要素作詳細(xì)描述。 網(wǎng)頁標(biāo)識是對w e b 上網(wǎng)頁的唯一性標(biāo)識,在網(wǎng)頁凈化系統(tǒng)結(jié)構(gòu)化模型中使 用網(wǎng)頁的u r l 作為網(wǎng)頁標(biāo)識。 網(wǎng)頁類型是根據(jù)網(wǎng)頁內(nèi)容的表現(xiàn)形式進(jìn)行劃分的,在本文中將網(wǎng)頁分為 三類:有主題網(wǎng)頁、目錄網(wǎng)頁、圖片網(wǎng)頁。 有主題網(wǎng)頁:網(wǎng)頁中通過文字描述了一件或多件事物,是有一定主題的。 一張具體的新聞網(wǎng)頁就是典型的有主題網(wǎng)頁。 目錄網(wǎng)頁:專門用來提供網(wǎng)頁導(dǎo)向的網(wǎng)頁,因而是超鏈接聚集的網(wǎng)頁。 一般來說,新聞網(wǎng)站的首頁就是典型的目錄網(wǎng)頁。 圖片網(wǎng)頁:網(wǎng)頁的內(nèi)容是通過圖片的形式體現(xiàn)的,其中文字很少,僅僅 是對圖片的一個說明。計算機(jī)學(xué)院網(wǎng)站對導(dǎo)師的介紹網(wǎng)頁就是典型的圖片網(wǎng) 頁。 將網(wǎng)頁分為上述三個類型是因為三類網(wǎng)頁在用途和處理方法上存在較大 的差別。其中目錄網(wǎng)頁與其它兩類網(wǎng)頁的區(qū)別在于網(wǎng)頁在w e b 上發(fā)揮的作用不 同,目錄網(wǎng)頁通常不會具體的講述一件事物,而是提供關(guān)于相關(guān)信息的鏈接 集。而圖片網(wǎng)頁與其它兩類網(wǎng)頁的區(qū)別在于處理的方法不同,由于圖片網(wǎng)頁 的內(nèi)容是通過圖片表達(dá)的而不是通過文字,因而,傳統(tǒng)信息處理領(lǐng)域的方法 對圖片網(wǎng)頁是不夠有效的。三類網(wǎng)頁問的區(qū)別導(dǎo)致很多應(yīng)用領(lǐng)域都會對它們 哈爾濱工程大學(xué)碩士學(xué)位論文 作適當(dāng)?shù)膮^(qū)別。 內(nèi)容類別是對網(wǎng)頁的內(nèi)容進(jìn)行分類的結(jié)果,它是計算機(jī)獲取網(wǎng)頁語義信 息的一個直接手段,在w e b 上的研究領(lǐng)域中有著廣泛的應(yīng)用。它是通過特定的 分類器對網(wǎng)頁內(nèi)容分類得到的,依賴于一定的分類體系。d u b l i nc o r e 中推薦 用內(nèi)容類別作為其中s u b j e c t 元素的值“。 標(biāo)題、關(guān)鍵詞和摘要是概括描述w e b 文檔內(nèi)容的重要的元數(shù)據(jù),對于w e b 信息檢等領(lǐng)域的工作有非常重要的作用; 正文是原始網(wǎng)頁中真正描述主題的部分,可以看作是凈化后的網(wǎng)頁,因 此,在某些具體應(yīng)用中用正文代替原始網(wǎng)頁更為合理。 相關(guān)鏈接是指在本網(wǎng)頁中指向與正文內(nèi)容相關(guān)的網(wǎng)頁的鏈接,而非廣告 等噪音鏈接??梢钥闯?,將正文和相關(guān)超鏈重新組合可以礙到另外一個凈化 尺度的凈化后的網(wǎng)頁。 2 2 網(wǎng)頁表示 網(wǎng)頁的表示是網(wǎng)頁內(nèi)容分析的基礎(chǔ),在網(wǎng)頁內(nèi)容分析過程中通常需要對 網(wǎng)頁內(nèi)容進(jìn)行抽象表示。抽象表示是以網(wǎng)頁制作規(guī)范( h t m l 規(guī)范) 為依據(jù)和 出發(fā)點,構(gòu)造出能體現(xiàn)網(wǎng)頁內(nèi)容結(jié)構(gòu)和內(nèi)容重要性等信息的表示模型,其目 的是充分利用網(wǎng)頁制作規(guī)范,利用網(wǎng)頁中的一些重要的標(biāo)簽,挖掘出網(wǎng)頁中 隱含的信息,最常用的方法是構(gòu)造網(wǎng)頁的標(biāo)簽樹。 網(wǎng)頁標(biāo)簽樹表示: 今天,w e b 上大多數(shù)的文本信息都是以h t m l 網(wǎng)頁的形式存在的。h t m l 是一 個標(biāo)識語言( m a r k u p l a n g u a g e ) ,網(wǎng)頁中的內(nèi)容都存在于標(biāo)簽之中。為了更 清楚的描述網(wǎng)頁內(nèi)容的組織結(jié)構(gòu),通常將網(wǎng)頁中的標(biāo)簽按照出現(xiàn)順序,依次 整理出來并用適當(dāng)?shù)慕Y(jié)構(gòu)記錄下來。由于標(biāo)簽之間的嵌套關(guān)系,標(biāo)簽的整理 結(jié)果自然是一棵樹狀結(jié)構(gòu)。我們把整理一篇網(wǎng)頁中的標(biāo)簽得到的樹狀結(jié)構(gòu)稱 為該網(wǎng)頁的標(biāo)簽樹。為了獲取所需的信息,w e b 上很多領(lǐng)域需要對網(wǎng)頁內(nèi)容進(jìn) 行分析,而隨著研究和應(yīng)用的深入,以整張網(wǎng)頁為單位的分析粒度已經(jīng)不能 滿足需要,這要求我們必須深入到網(wǎng)頁內(nèi)部,將分析對象的粒度縮小,以提 高分析的準(zhǔn)確性“4 。由于網(wǎng)頁中的標(biāo)簽結(jié)構(gòu)是對頁面布局的描述,因而依據(jù) 標(biāo)簽樹對網(wǎng)頁進(jìn)行細(xì)化是合理的。因此,標(biāo)簽樹在網(wǎng)頁內(nèi)容分析工作中經(jīng)常 哈爾濱工程大學(xué)碩士學(xué)位論文 會用到。 目前,有很多構(gòu)造標(biāo)簽樹的工具,他們各有特點。下面我們主要介紹w 3 c d o c u m e n to b j e c tm o d e l ( d o m d o m ) 和h t m lt i d y “”。d 嘶可以為每篇h t 兒 構(gòu)造一個樹狀結(jié)構(gòu),其中網(wǎng)頁內(nèi)的標(biāo)簽作為樹的內(nèi)部節(jié)點,而文字和圖像作 為樹的葉子節(jié)點。h t m lt i d y 也是一個被廣泛使用的標(biāo)簽分析工具,它的特 點是有很強(qiáng)的容錯能力,可以發(fā)現(xiàn)網(wǎng)頁中的標(biāo)簽錯誤( 例如:結(jié)束標(biāo)簽丟失、 結(jié)束標(biāo)簽匹配錯誤等等) 并進(jìn)行較為合理的修正。本文提出的標(biāo)簽樹構(gòu)造 方法則是面向內(nèi)容分析。該方法首先從內(nèi)容分析的角度將標(biāo)簽分類,并以一 種適合內(nèi)容分析工作的方式組織標(biāo)簽信息。另外,在標(biāo)簽樹中包含一定的統(tǒng) 計信息,因此通過標(biāo)簽樹中的信息,可以對網(wǎng)頁有一個大致的了解。 適合內(nèi)容分析的標(biāo)簽樹與通用標(biāo)簽樹相比有這樣幾個特點: 1 ) 在標(biāo)簽樹的框架上,更強(qiáng)調(diào)對網(wǎng)頁內(nèi)容組織結(jié)構(gòu)的刻劃。換言之,內(nèi) 容分析中強(qiáng)調(diào)內(nèi)容塊的概念,而不是任意的標(biāo)簽都構(gòu)成標(biāo)簽樹中的一個結(jié)點。 2 ) 在標(biāo)簽樹中信息的組織上,對內(nèi)容分析經(jīng)常用到的幾類信息按內(nèi)容塊 組織,并且提供可以快速且方便操作的存儲方式。 3 ) 需要有適當(dāng)?shù)拿枋鲂孕畔ⅰT谧鰞?nèi)容分析的時候,除了用標(biāo)簽樹來刻 劃網(wǎng)頁的結(jié)構(gòu),我們通常還希望得到這樣的一些信息:標(biāo)簽樹的規(guī)模( 內(nèi)容 塊的個數(shù)) ,每個內(nèi)容塊的信息量( 可以通過內(nèi)容塊中的字?jǐn)?shù)體現(xiàn)) 、哪些 內(nèi)容塊中有超鏈、哪些內(nèi)容塊中有描述性標(biāo)簽、及相應(yīng)的數(shù)量;而這些信息 在現(xiàn)有工具構(gòu)造的標(biāo)簽樹中是很難直接得到的。鑒于此,本文提出一套適合 內(nèi)容分析的標(biāo)簽樹組織方式及其構(gòu)造方法。 2 3 與網(wǎng)頁結(jié)構(gòu)對應(yīng)的文檔對象模型 隨著i n t e r n e t 的發(fā)展,w e b 正在不斷演變成下一代應(yīng)用平臺,為了獲 得真正的交互式體驗,在客戶機(jī)上動態(tài)處理內(nèi)容是最重要的。w 3 c 的文檔對 象模型( d o m ) 是邁向這一目標(biāo)的重要一步“。 2 3 1 編寫網(wǎng)頁常用語言 1 ) 可標(biāo)記超文本語言h t m l h t m l ,h y p e r t e x tm a r k u pl a n g u a g e ,中文翻譯為“可標(biāo)記超文本語言”。 官方的定義描述為“為了發(fā)布全球化的信息,人們需要一種通用的理解性語 9 哈爾濱工程大學(xué)碩士學(xué)位論文 言,種所有計算機(jī)本質(zhì)上可以理解的發(fā)布母語,i i l f 槲使用n t m l 作為這 種發(fā)布語言”“”。 正是由于有了h t m l 這種通用語言,人們才可以在因特網(wǎng)上發(fā)布多種多樣 的資源,有了h t m l 語言意味著我們可以: 發(fā)布帶有標(biāo)題t i t l e 、文本t e x t 、表格t a b l e 、列表l i s t 、照片等資源 的網(wǎng)絡(luò)文檔。 通過點擊超文本鏈接來瀏覽網(wǎng)絡(luò)文檔; 設(shè)計通過遠(yuǎn)程服務(wù)管理事務(wù),比方說搜索信息、房間預(yù)定、產(chǎn)品訂貨等 等; 設(shè)計通過遠(yuǎn)程服務(wù)管理事務(wù),比如說搜索信息,房間預(yù)定,產(chǎn)品訂貨 等等; 把分析表格、視頻片斷、聲音片斷和其它應(yīng)用程序都直接包含在它們 所在的文檔中。 h t m l 文檔具有結(jié)構(gòu)化格式,這種格式通過i - i t m l 的元素( e l e m e n t ) 來實 現(xiàn),這里列出一些實現(xiàn)的系統(tǒng)中用到的h t m l 元素以及它們的含義: a 和l i n k :到另一個文檔或資源的鏈接; l i n k 和s c r i p t :鏈接到外部的樣式( s t y l e ) 或腳本( s c r i p t ) ; i m g ,o b j e c t ,a p p l e t ,i n p u t 包含一個圖片、對象或頁面中的a p p l e t ; m a p 和a r e a 創(chuàng)建一個圖片映象; f o r m 提交表單; f r a m e 和i f r a m e 創(chuàng)建一個框架文檔; q ,b l o c k q u o t e ,i n s 和d e l 指向外部的引用; 2 ) 可擴(kuò)展標(biāo)記語言) ( m l x m l t m ( e x t e n s i b l em a r k u pl a n g u a g e 一可擴(kuò)展標(biāo)記語言) 的產(chǎn)生是為了 恢復(fù)( s g m lcs t a n d a r dg e n e r a li z e d d a r k u pl a n g u a g e 一標(biāo)準(zhǔn)通用標(biāo)記語 言) 的強(qiáng)大功能和靈活性,而又不帶有s g m l 的復(fù)雜性“。雖然只是s g m l 的一 個“受限制”形式,x m l 卻保留了s g m l 大部分的功能和豐富內(nèi)容,而且仍然 具有s g m l 常用的那些特性。 簡單地說,x m l 就是一種文本。一個x m l 文件就是以特定格式安排的文 本文件。文件可以在任何計算機(jī)系統(tǒng)上使用文本編輯程序來建立。由于它只 1 0 哈爾濱工程大學(xué)碩士學(xué)位論文 是一個文本,因此能夠方便地在各個計算機(jī)系統(tǒng)間甚至在各個計算平臺間傳 輸。例如,在蘋果公司m a c i n t o s h 機(jī)上建立的x m l 文件可發(fā)送到w i n d o w 。或 l i n u x 的p c ,或一個主機(jī)或一個u n i x 服務(wù)器。這種可傳輸性使人們很容易理 解為什么i t 部門和軟件銷售商如此熱烈的歡迎x m l 。 x m l 使用標(biāo)記( 包含在尖括號中的字,例如“ ”) 來識別信息元素。 初看起來,尖括號使x m l 文檔很像h t m l ( h y p e rt e x tm a r k u pl a n g u a g e , 超文本標(biāo)記語言) 文檔。但是h t m l 文檔和x m l 文檔大相徑庭,并且應(yīng)用目的 完全不同。 h t m l 能夠告訴w e b 瀏覽器怎樣繪制和顯示一個文檔。x m l 則說明包含在 一個文檔中的數(shù)據(jù)。 3 ) 可擴(kuò)展超文本標(biāo)記語言x h t m l 可擴(kuò)展超文本標(biāo)記語言( e x t e n s i b l eh y p e r t e x tm a r k u pl a n g u a g e ,簡稱 x h t m l ) 是h t m l 和) ( m l 的混合物,它是為網(wǎng)絡(luò)設(shè)備顯示( 包括w e b 瀏覽器、p d a 設(shè)備和移動電話) 而特別設(shè)計的。2 0 0 2 年1 月2 6 日標(biāo)志了x h t m l1 0 作為 w e b 標(biāo)記的正式w 3 c 推薦的第二個生日“”。 w 3 c 主管t i mb e r n e r s l e e 這樣評價x h t m l :“x h t m l1 0 連接了現(xiàn)在的 w e b 和將來的w e b 它為頁面和網(wǎng)站作者提供了進(jìn)入結(jié)構(gòu)化數(shù)據(jù)x m l 世界 的橋梁,同時仍然能夠保持與支持h t m l4 的用戶代理的可操作性。” w 3 c 聲稱,x h t m l 的主要優(yōu)點是可擴(kuò)展性和可移植性: 1 ) 可擴(kuò)展性:x m l 文檔要求格式良好( 元素嵌套正確) 。使用h t m l ,添加 新的元素組需要更改整個d t d 。在基于x m l 的d t d 中,新的元素組只需要內(nèi) 部一致并且格式良好,就可以添加到現(xiàn)有的d t d 中。這極大地簡化了新元素 集合的開發(fā)和集成。 2 ) 可移植性:越來越頻繁地使用非臺式設(shè)備來訪問因特網(wǎng)文檔。在大多 數(shù)情況下,這些設(shè)備不具備臺式計算機(jī)的計算能力,并且不像標(biāo)準(zhǔn)桌面瀏覽 器那樣可適用于格式差的h t m l 。實際上,如果這些非桌面瀏覽器沒有接收到 格式良好的標(biāo)記( h t m l 或x h t m l ) ,它們可能根本無法顯示文檔。 一個x h t m l 的經(jīng)典例子“”如代碼2 1 1 l 哈爾濱工程大學(xué)碩士學(xué)位論文 v i r t u a ll i b r a r y m o v e dt o v l i b o r g 在這個經(jīng)典的例子中: 1 ) 由于x h t m l 是以x m l 文檔表示的h t m l ,所以它必須在文檔的頂部包括 初始x m l 聲明 2 ) n h t m l 文檔必須由三組標(biāo)準(zhǔn)規(guī)則的其中一組來標(biāo)識。這些規(guī)則存儲在 一個稱為“文檔類型聲明( d o c u m e n tt y p ed e c l a r a t i o n ( d t d ) ) ”的單獨文檔 中,并且使用這些規(guī)則驗證x h t m l 文檔結(jié)構(gòu)的準(zhǔn)確性。 3 ) x h t m l 文檔必須包括完整的頭部區(qū)域。這個區(qū)域包含開始 標(biāo)記 和標(biāo)題標(biāo)記( ) ,然后以結(jié)尾 標(biāo)記結(jié)束。 4 ) x h t m l 文檔必須包含開始和結(jié)尾 標(biāo)記。在這些標(biāo)記中, 您可以放置傳統(tǒng)的h t m l 編碼標(biāo)記。要與x h t m l 符合,這些標(biāo)記的編碼必須是 格式良好的。 5 ) 最后,使用結(jié)尾 標(biāo)記結(jié)束x h t m l 文檔。 2 3 2d o m 的定義及其特點 按照w 3 c 的定義,d o m 是一個允許程序或者腳本能夠動態(tài)地存取和更新 h t m l l 文件內(nèi)容、結(jié)構(gòu)以及風(fēng)格的接口和平臺。d o m 目前主要由兩部分組 1 2 哈爾濱工程大學(xué)碩士學(xué)位論文 成:d o mc o r e 和d o me x t e n s i o n 。d o mc o r e 主要定義了處理x 札文件所 需的功能:d o mh t m l 定義了處理h t m l 文件所需的功能。 d o m 是語言獨立的。d o m 的接口都是符合工業(yè)標(biāo)準(zhǔn)的界面定義語言 i d l ( i n t e r f a c ed e f i n i t i o nl a n g u a g e ) 描述的,不限制用何種語言具體實現(xiàn) 這些接口。d o m 的核心是將面向?qū)ο? o b j e c t o r i e n t e d ) 的概念引入 h t m l 瑚l 文件的處理中。在d o m 以前,無論是h t m l 還是x m l ,均被看作 是包含各種組件的數(shù)據(jù)集合,以面向數(shù)據(jù)的方式管理文件。引入對象后,在 d o m 看來,h t m l x m l 的組件不只包含數(shù)據(jù)本身,每一個h t 札l 中的元素 ( e l e m e n t ) 還包含有方法( m e t h o d ) 和屬性( a t t r i b u t e ) 。d o m 使用這些方法和 屬性的a p i ,通過方法和屬性來存取和管理組件“”。 文檔對象模型( d o m ) 是一種用于h t m l 和x m l 文檔的應(yīng)用程序編程接口 ( a p i ) 。使用文檔對象模型,程序員可以構(gòu)造文檔,增加、修改、或刪除元素 和內(nèi)容,h t m l 中的任何內(nèi)容都可以使用文檔對象模型進(jìn)行存取、修改、刪除 或增加。d o m 是由一組對象和存取、處理文檔對象的接口組成。下面介紹常 用的幾種對象,它們包括文檔,節(jié)點、元素、文本節(jié)點、屬性、n 維樹。 1 ) 文檔( d o c u m e n t ) d o m 的文檔是由分層的節(jié)點對象構(gòu)成,這些節(jié)點對象構(gòu)成一個 h t m l 頁面:文檔是一個節(jié)點,該節(jié)點只有一個元素,這個元素就是它自己。 文檔接口表示整個h t m l 文檔,從概念上講,它是文檔樹的根,提供對文檔 數(shù)據(jù)的存取。 2 ) 節(jié)點( n o d e ) 節(jié)點是一般類型,它涉及一個文檔中存在的所有對象。 3 ) 元素( e l e m e n t ) 在細(xì)讀一個文檔時,最常碰到的東西就是元素,元素是除文本之外的幾 乎每一個對象。元素是從節(jié)點類型推導(dǎo)出來的。元素包含屬性,而且可以是 另一個元素的父類型。 4 ) 文本節(jié)點( t e x tn o d e ) 文本節(jié)點處理文檔中的文本 5 ) 屬性( a t t r i b u t e ) 屬性是元素的基本屬性,因此它們不是元素的子節(jié)點。即使它們是從一 1 3 哈爾濱工程大學(xué)碩士學(xué)位論文 般節(jié)點類型推導(dǎo)出來,它們的行為也與其它節(jié)點的行為不同。例如,對屬性 調(diào)用p a r e n t n o d e ,p r e v i o u s s i b l i n g 和n e x t s i b l i n g ,它們將返回n u l l 。 也就是說,它們不是文檔樹的一部分。 6 ) n 維樹( n a r yt r e e ) n 維樹以像樹一樣的結(jié)構(gòu)表示數(shù)據(jù)。n 維樹具有一個根,這棵樹有子節(jié) 點。如果文檔是根,則它的子節(jié)點是由它下一層的元素和文本節(jié)點構(gòu)成。 2 3 3d o m 和h t m l 樹型邏輯結(jié)構(gòu) 一般來說,h t m l 文件由標(biāo)題( t i t l e ) 、頭( h e a d ) ,段落( p a r a g r a p h ) ,超 鏈( h y p e r l i n k ) 以及其它各種組件組成,并且組件在文件中的順序與顯示順序 相同。d o m 通過對h t m l 文件的解析,生成一個文件的樹型內(nèi)部結(jié)構(gòu),稱為 文件的樹型邏輯結(jié)構(gòu)或邏輯結(jié)構(gòu)。樹型結(jié)構(gòu)可以準(zhǔn)確地描述元素的相對位置 關(guān)系,很適合描述w e b 的半結(jié)構(gòu)化數(shù)據(jù)。從h t m l 文檔到標(biāo)記樹的轉(zhuǎn)化可以 通過h t m l 的語法分析器來完成。文件的樹型邏輯結(jié)構(gòu)與w e b 文檔一一對 應(yīng),可以相互轉(zhuǎn)化,文件的樹型邏輯結(jié)構(gòu)是便于計算機(jī)處理,用來表示 h t m l ) 【m l 文檔的一種數(shù)據(jù)結(jié)構(gòu)。d o m 在進(jìn)行文件解析時,將h t m l 文件看成 一棵樹。 作為樹的根,而h t m l 文件的其它組件被看作樹中的節(jié)點 ( n o d e ) ;節(jié)點可以作為父節(jié)點包含節(jié)點,也可以作為其它節(jié)點的子節(jié)點;同 一層的節(jié)點成為兄弟節(jié)點。 d o m 定義了a p i 允許其它程序瀏覽樹型邏輯結(jié)構(gòu),并且提供存取、添加、 修改和刪除節(jié)點的功能。圖2 1 是一個簡單的例子說明了d o m 是如何建立文 件的邏輯結(jié)構(gòu),其中( a ) 是一個簡單的h t m l 文檔,( b ) 是它的樹型邏輯結(jié)構(gòu)。 從下面的例子可以看出,原來的h t m l 文件被轉(zhuǎn)化為一個樹型結(jié)構(gòu)。其 中 是樹型結(jié)構(gòu)的根節(jié)點; , , 都是 的子節(jié)點, 是它們的父節(jié)點: , , 互為兄弟節(jié)點??梢钥闯鍪褂?樹結(jié)構(gòu)可以達(dá)到以下的好處。 節(jié)點操作,添加、刪除節(jié)點。在特定的節(jié)點中增加新的屬性或節(jié)點,以 及修改節(jié)點的內(nèi)容。在網(wǎng)頁視圖重構(gòu)和轉(zhuǎn)化中可以通過這樣一些操作,不改 變網(wǎng)頁內(nèi)容,而改變內(nèi)容的表現(xiàn)形式和視圖的大小。在標(biāo)記樹的結(jié)構(gòu)上根據(jù) 不同的需要導(dǎo)出或生成一種新的代表h t m l 文檔某方面特征的新的結(jié)構(gòu)。 1 4 哈爾濱工程大學(xué)碩士學(xué)位論文 ad o c u m e n t b o d y ) t h i si sad o c u m e n t t h eb o d yh a st e x t h t m l 文檔( a )樹型邏輯結(jié)構(gòu)( b ) 圖2 1b t m l 文檔及與其對應(yīng)的樹型邏輯結(jié)構(gòu) 2 4 中文網(wǎng)頁分塊模型 實際當(dāng)中,人們在設(shè)計網(wǎng)頁時,常常將網(wǎng)頁分成多個區(qū)域,把不同主題、 不同作用的文字安排在不同的區(qū)域里,類似于報紙、書刊、雜志中的排版。 連貫的文字通常放在一起組成段落,并采用一致的版式表達(dá),而不相關(guān)聯(lián)的 內(nèi)容則用不同的版式加以區(qū)分 2 0 1 。我們是自頂向下來得到我們想要得到的內(nèi) 容塊的。也就是說,我們從文檔樹的根節(jié)點開始向下進(jìn)行塊的提取。我們首 先假定我們的文檔是只有一個大塊的,然后我們通過分析來確定是不是這樣 的,如果分析的結(jié)果是這個大塊的主題并不是一致的,我們就會將它按照子 節(jié)點分成幾個小的塊,然后對于分成的小塊遞歸的使用這個方法。 在看到微軟亞洲研究院的工作之后,我們想到可以使用視覺的因素來為 網(wǎng)頁進(jìn)行分塊。之所以使用視覺因素而不是文本特征的方法,是因為我們考 慮到除了首頁之外的網(wǎng)頁多數(shù)都不是足夠大,無法有效的利用文本特征來區(qū) 分它們,我們還借鑒了瞿有利,于浩,徐國偉的工作 2 1 ,于滿泉,陳鐵睿, 許洪波的工作 2 2 和鄒濤,王繼成的工作 2 3 。 哈爾濱工程大學(xué)碩士學(xué)位論文 我們發(fā)現(xiàn),通常一個網(wǎng)頁含有很多的表格,而這些表格就自然的將網(wǎng)頁 分成了幾個矩形的區(qū)域。而且,這些矩形區(qū)域的視覺特征通常是非常一致的。 同時這些一致的視覺特征的塊的主題也是一致的。這都是因為網(wǎng)頁的制作者 希望讀者可以容易的分辨網(wǎng)頁內(nèi)容才會將相似的內(nèi)容以相似的視覺特征加以 表現(xiàn)。所以我們就可以利用網(wǎng)頁上面的視覺和結(jié)構(gòu)的要素來分割一個網(wǎng)頁。 當(dāng)然這其中我們也需要借助d o m 結(jié)構(gòu),所以我們的工作是加入了視覺要素的 d o m 內(nèi)容抽取。 下面我們來討論比較重要的幾種用來分塊的標(biāo)簽: 1 ) t a b l e ,t a b l e 標(biāo)簽是表格標(biāo)簽。t a b l e 本身的內(nèi)容可以說明很多問題, 如果一個t a b l e 里面又嵌套了其他的t a b l e ,幾乎可以肯定的是,它們的主題 一定是不相關(guān)的。就像是我們經(jīng)??吹降木W(wǎng)頁的例子,左面是一個導(dǎo)航欄, 而右面是一個文本。相反如果一個t a b l e 里面沒有嵌套其他的t a b l e ,那么它 們很有可能是同一主題。這時通常需要考慮t a b l e 的視覺特征,如果這個t a b l e 的內(nèi)容是單一的,那么可以肯定的是它的視覺觀感也是統(tǒng)一的,比如它的字 體,顏色,還有字體的大小。相反的如果一個網(wǎng)頁的t a b l e 的視覺特征是不同 的,比如說,左側(cè)的表格是黃顏色,而右側(cè)的表格是綠顏色,那么它們的內(nèi) 容就有可能是不同的了。不過在這里我們也

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論