




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、湖南大學(xué)畢業(yè)論文 第 I 頁湖南大學(xué)軟件學(xué)院互聯(lián)網(wǎng)網(wǎng)頁文本對象抽取實現(xiàn)技術(shù)摘 要互聯(lián)網(wǎng)中蘊含著大量的關(guān)于現(xiàn)實世界對象的結(jié)構(gòu)化信息。為了能應(yīng)對信息爆炸帶來的嚴重挑戰(zhàn),抽取、集成網(wǎng)頁上各式各樣的文本對象信息,進行對象級別的搜索,迫切需要一些自動化的技術(shù)幫助人們在海量信息中迅速找到自己真正需要的信息。 網(wǎng)頁文本對象抽取實現(xiàn)技術(shù)正是解決這個問題的一種方法。本文以傳統(tǒng)的信息抽取理論和方法為基礎(chǔ),針對目前熱門的博客領(lǐng)域,提出了一種基于 HTML 特征和機器學(xué)習(xí)的博客正文抽取算法。在該算法中,研究了博客網(wǎng)頁的特征,提出了一種基于 HTML 標簽特征的網(wǎng)頁分塊算法,使用決策樹算法對博客數(shù)據(jù)集進行統(tǒng)計訓(xùn)練,采用
2、專門的統(tǒng)計工具 WEKA 對該算法進行了測試和評估,并總結(jié)出該算法的優(yōu)點以及可以改進的地方。最后,展示了基于該博客正文抽取算法的博客搜索引擎 Geeseek 的系統(tǒng)結(jié)構(gòu)和界面演示。該系統(tǒng)屬于新型的垂直搜索引擎,能夠?qū)Σ┛秃筒┪倪M行快速有效的搜索。據(jù)了解,Geeseek 也是目前國內(nèi)高校中第一個博客搜索引擎。關(guān)鍵詞:互聯(lián)網(wǎng),信息爆炸,信息抽取,博客,HTML,機器學(xué)習(xí),決策樹,搜索引擎,Geeseek 湖南大學(xué)畢業(yè)論文 第 II 頁湖南大學(xué)軟件學(xué)院Implementation of text object extraction for Internet web pages Author: Zha
3、ng Hui Tutor: Lin YapingAbstractNowadays, there is a large number of semi-structural information which represents objects in the real world on the Internet. In order to deal with the severe challenge brought by information explosion, extract and integrate all kinds of text object information on web
4、pages, and put up the object-level searching, it cries for the automated technologies to help people find the very information they really need among such a large number of information. The technology of text object extraction is just one of methods to solve this problem.Based on the traditional the
5、ory of Information Extraction and aiming at the blog domain, this paper puts forward an arithmetic implementing the extraction function for the text objects of blog articles with the HTML features and machine learning. In this arithmetic, it analyses the features of blog pages, introduces an arithme
6、tic for web page partition basing on the HTML tag features, uses decision tree to do statistics and training on the blog data set, tests and evaluates this arithmetic using the expert statistical tool, WEKA, and summarizes the advantages as well as the points needing improving. Finally, it shows the
7、 system architecture and interface presentation of the Geeseek, a blog Search Engine which applies the technology of text object extraction for blog pages. This system blongs to the new-style vertical Search Engine and is able to search for the blog home pages and blog article pages quickly and effe
8、ctively. So far as we know, Geeseek is the first blog Search Engine in all the colleges in China.Key words: Internet, information explosion, Information Extraction, blog, HTML, machine 湖南大學(xué)畢業(yè)論文 第 III 頁湖南大學(xué)軟件學(xué)院learning, Search Engine, decision tree , Geeseek目 錄1. 緒論.11.1 課題背景及目的.11.2 國內(nèi)外研究狀況.31.2.1 國
9、內(nèi)研究現(xiàn)狀.31.2.2 國外研究現(xiàn)狀.41.3 課題研究方法.51.4 論文構(gòu)成及研究內(nèi)容.52. Web 信息抽取及網(wǎng)頁文本對象抽取概述.72.1 Web 信息抽取的概念 .72.2 Web 信息抽取的方法 .82.3 Web 信息抽取的典型流程 .92.4 網(wǎng)頁文本對象抽取的理論和方法.113. 博客正文信息抽取系統(tǒng)的設(shè)計.143.1 博客搜索的概況.143.2 博客正文抽取的過程.153.2.1 分類.153.2.2 分塊.183.2.3 統(tǒng)計訓(xùn)練,獲取決策樹.213.3 算法的測試和評估.243.4 博客正文抽取算法的意義和思考.254. 基于博客正文抽取的 Geeseek 搜索引擎
10、.274.1 Geeseek 系統(tǒng)介紹 .274.2 博客正文抽取模塊.284.2.1 博客正文抽取模塊簡介.284.2.2 博客正文抽取模塊的主要數(shù)據(jù)類.294.2.3 博客正文抽取模塊的實現(xiàn)思路.304.3 系統(tǒng)展示.335. 總結(jié).36致 謝.37參考文獻.39湖南大學(xué)畢業(yè)論文 第 1 頁湖南大學(xué)軟件學(xué)院1. 緒論本章介紹了課題的背景和研究現(xiàn)狀,并對全文的內(nèi)容和結(jié)構(gòu)作了概括。1.1 課題背景及目的為了應(yīng)對信息爆炸帶來的挑戰(zhàn),迫切需要一些自動化的技術(shù)幫助人們在海量信息中迅速找到自己真正需要的信息。信息抽取( Information Extraction, IE)正是解決這個問題的一種方法。
11、信息抽取技術(shù)是指從一段文本中抽取指定的事件、事實等信息,形成結(jié)構(gòu)化的數(shù)據(jù)并存入一個數(shù)據(jù)庫,供用戶查詢和使用的過程。也就是從文本中抽取用戶感興趣的事件、實體和關(guān)系,被抽取出來的信息以結(jié)構(gòu)化的形式描述,然后存儲在數(shù)據(jù)庫中,為情報分析和檢測、比價購物、自動文摘、文本分類等各種應(yīng)用提供服務(wù)。廣義上信息抽取技術(shù)的抽取對象并不局限于文本,其他形式存在的信息也可以作為信息抽取的對象,而抽取的結(jié)果則變?yōu)橄鄳?yīng)的結(jié)構(gòu)化數(shù)據(jù)。廣義上信息抽取的過程如圖1.1所示。圖1.1 信息抽取示意圖1從自然語言文本中獲取結(jié)構(gòu)化信息的研究最早開始于20世紀60年代中期,這被看作是信息抽取技術(shù)的初始研究,它以兩個長期的、研究性的自然
12、語言處理項目為代表。 美國紐約大學(xué)開展的Linguistic String項目開始于60年代中期并一直延續(xù)到80年代。該項目的主要研究內(nèi)容是建立一個大規(guī)模的英語計算語法,與之相關(guān)的應(yīng)用是從醫(yī)療領(lǐng)域的X光報告和醫(yī)院出院記錄中抽取信息格式(Information Formats) ,這種信息格式湖南大學(xué)畢業(yè)論文 第 2 頁湖南大學(xué)軟件學(xué)院實際上就是現(xiàn)在所說的模板(Templates) 。 另一個相關(guān)的長期項目是由耶魯大學(xué)Roger Schank及其同事在20世紀70年代開展的有關(guān)故事理解的研究。由他的學(xué)生Gerald De Jong設(shè)計實現(xiàn)的FRUMP系統(tǒng)是根據(jù)故事腳本理論建立的一個信息抽取系統(tǒng)。
13、該系統(tǒng)從新聞報道中抽取信息,內(nèi)容涉及地震、工人罷工等很多領(lǐng)域或場景。該系統(tǒng)采用了期望驅(qū)動(top-down,腳本)與數(shù)據(jù)驅(qū)動(bottom-up,輸入文本)相結(jié)合的處理方法。這種方法被后來的許多信息抽取系統(tǒng)采用。 從20世紀80年代末開始,信息抽取研究蓬勃開展起來,這主要得益于消息理解系列會議(MUC,Message Understanding Conference)的召開。正是MUC系列會議使信息抽取發(fā)展成為自然語言處理領(lǐng)域一個重要分支,并一直推動這一領(lǐng)域的研究向前發(fā)展。2 目前,隨著對信息抽取技術(shù)的不斷發(fā)展,各種抽取系統(tǒng)也層出不窮。當(dāng)前的發(fā)展趨勢在慢慢減少人工標記的分量,而采用非標記的訓(xùn)練
14、模型來實現(xiàn)Web信息抽取。根據(jù)這一趨勢,信息抽取系統(tǒng)可以分成四類:人工構(gòu)造的抽取系統(tǒng)、基于指導(dǎo)的抽取系統(tǒng)、半指導(dǎo)的抽取系統(tǒng)以及非指導(dǎo)的抽取系統(tǒng)。3互聯(lián)網(wǎng)多年的自由發(fā)展使得大量無結(jié)構(gòu)信息的積累成為現(xiàn)實,這些信息為互聯(lián)網(wǎng)用戶帶來更多選擇的同時極大地增大了人們獲得所需信息的復(fù)雜度。網(wǎng)絡(luò)搜索引擎的發(fā)明在一定程度上緩解了這種窘境,通過網(wǎng)絡(luò)搜索引擎服務(wù)商對信息的收集和篩選,人們能夠方便地獲得某些所需信息。這樣就出現(xiàn)了一項與信息抽取密切相關(guān)的研究信息檢索(Information Retrieval, IR)技術(shù)。信息檢索是指將信息按一定的方式組織和存儲起來,并根據(jù)信息用戶的需要找出有關(guān)信息的過程。信息抽取與
15、信息檢索存在差異,主要表現(xiàn)在三個方面: 1、 功能不同。信息檢索系統(tǒng)主要是從大量的文檔集合中找到與用戶需求相關(guān)的文檔列表;而信息抽取系統(tǒng)則旨在從文本中直接獲得用戶感興趣的事實信息。2、 處理技術(shù)不同。信息檢索系統(tǒng)通常利用統(tǒng)計及關(guān)鍵詞匹配等技術(shù),把文本看成詞的集合(bags of words) ,不需要對文本進行深入分析理解;而信息抽取往往要借助自然語言處理技術(shù),通過對文本中的句子以及篇章進行分析處理后才能完成。 3、 適用領(lǐng)域不同。由于采用的技術(shù)不同,信息檢索系統(tǒng)通常是領(lǐng)域無關(guān)的,而信息抽取系統(tǒng)則是領(lǐng)域相關(guān)的,只能抽取系統(tǒng)預(yù)先設(shè)定好的有限種類的事實信息。雖然信息抽取與信息檢索有區(qū)別,但兩種技術(shù)
16、是互補的。為了處理海量文本,信湖南大學(xué)畢業(yè)論文 第 3 頁湖南大學(xué)軟件學(xué)院息抽取系統(tǒng)通常以信息檢索系統(tǒng)(如文本過濾)的輸出作為輸入;而信息抽取技術(shù)又可以用來提高信息檢索系統(tǒng)的性能。二者的結(jié)合能夠更好地服務(wù)于用戶的信息處理需求。2 信息抽取技術(shù)對于搜索引擎的發(fā)展有著重大的意義,它推動著通用搜索引擎向新型的垂直搜索引擎發(fā)展,從而能夠更好地滿足用戶的需要,讓搜索變得更快、更直接、更有效。通用的搜索引擎是基于網(wǎng)頁級別的,因此有時候無法直接獲得想要的信息,而是需要點開很多個鏈接,分別在這些網(wǎng)頁中去找尋所需要的信息。很多時候,用戶得到的信息往往不是事先所期望的,或者信息非常雜亂而零散。通用搜索引擎在這些方
17、面的不足讓人們開始了對搜索引擎更深層、更細致的研究。如今,新型的搜索引擎把研究單元定格在了對象級別?;ヂ?lián)網(wǎng)快速增長的海量資源使得人們對于搜索引擎的查詢結(jié)果有了更高的要求,鑒于PageRank的成功,如何基于文本信息抽取的方法,結(jié)合HTML網(wǎng)頁不同于純文本的各種特征進行網(wǎng)頁信息(包括文本、圖片、音頻和視頻等)的分析和抽取,以改進網(wǎng)絡(luò)搜索引擎,成為互聯(lián)網(wǎng)信息檢索研究者關(guān)注的重要問題?;ヂ?lián)網(wǎng)信息抽取技術(shù)通過將無結(jié)構(gòu)或半結(jié)構(gòu)的互聯(lián)網(wǎng)數(shù)據(jù)結(jié)構(gòu)化,為理解用戶查詢與網(wǎng)絡(luò)文檔之間以及不同網(wǎng)絡(luò)文檔之間的相關(guān)性提供了基礎(chǔ),從而為改進搜索效率和搜索方式提供了良好的理論依據(jù)。對象級別的搜索引擎的一個顯著優(yōu)點是可以利用
18、對象的語義信息,采用直接或者聚合的結(jié)果來響應(yīng)復(fù)雜查詢,將具體的搜索結(jié)果清晰明了地呈獻給用戶。本課題研究的目的旨在傳統(tǒng)信息抽取思想的基礎(chǔ)上,提出一種互聯(lián)網(wǎng)網(wǎng)頁文本對象的抽取實現(xiàn)方法,為解決當(dāng)前博客垂直搜索的問題提供一種切實可行的方式。1.2 國內(nèi)外研究狀況關(guān)于信息抽取的研究在國內(nèi)外已經(jīng)開展了相當(dāng)一段時間,本節(jié)簡要介紹了國內(nèi)外信息抽取技術(shù)研究的進展。1.2.1 國內(nèi)研究現(xiàn)狀國內(nèi)對中文信息提取系統(tǒng)的研究起步較晚,還集中在命名實體識別方面,遵照MUC規(guī)范的完整的中文信息提取系統(tǒng)目前還處于探索階段。Intel中國研究中心在ACL-2000上演示了他們開發(fā)的一個抽取中文命名實體以及實體間關(guān)系的系統(tǒng)。在MU
19、C-6和湖南大學(xué)畢業(yè)論文 第 4 頁湖南大學(xué)軟件學(xué)院MUC-7上,增加了中文系統(tǒng)的評測項目,國立臺灣大學(xué)(National Taiwan University)和新加坡肯特崗數(shù)字實驗室參加了MUC-7中文命名實體識別任務(wù)的評測,測試了中文命名實體(人名、地名、時間、事件等名詞性短語)的識別,取得了與英文命名實體識別系統(tǒng)相近的性能。當(dāng)然這只是對中文信息提取作了比較初步的工作,并不能真正進行中文信息提取。另外,北京大學(xué)計算語言所對中文信息提取也作了比較早的和比較系統(tǒng)的探討,承擔(dān)了兩個有關(guān)中文信息提取項目的工作,即自然科學(xué)基金項目“中文信息提取技術(shù)研究”和IBM北大創(chuàng)新研究院項目“中文信息提取系統(tǒng)的
20、設(shè)計與開發(fā)” 。其目標是研究中文信息提取中的一些基礎(chǔ)性和關(guān)鍵性的問題,為開發(fā)實用的信息提取技術(shù)提供理論指導(dǎo),并具體探討信息提取系統(tǒng)設(shè)計的各個環(huán)節(jié)。4 Intel中國研究中心的Zhang Yimin等人在ACL-2000上演示了他們開發(fā)的一個抽取中文命名實體及其關(guān)系的信息抽取系統(tǒng)。該系統(tǒng)利用基于記憶學(xué)習(xí)(Memory-Based Learning,MBL)算法獲取規(guī)則從而實現(xiàn)信息抽取。這些系統(tǒng)在中文命名實體的自動識別方面取得了一些成績。車萬翔等人使用基于特征向量的有監(jiān)督的機器學(xué)習(xí)算法(SVM和Winnow)對實體關(guān)系進行抽取。兩種算法都選擇命名實體左右兩個詞為特征詞,并得出結(jié)論:信息抽取系統(tǒng)若需
21、要追求抽取的高性能,則選擇SVM算法;若需要追求高的學(xué)習(xí)效率,則選擇Winnow算法。11.2.2 國外研究現(xiàn)狀信息抽取的前身是文本理解,最早開始于20世紀60年代中期,主要是從自然語言文本中獲取結(jié)構(gòu)化信息的研究,這被看作是信息抽取技術(shù)的初始研究。從20世紀80年代末開始,信息抽取研究蓬勃開展起來,這主要有兩個因素對其發(fā)展有重要的影響:一是在線和離線文本數(shù)量的幾何級增加,另一個是“消息理解研討會”(MUC, Message Understanding Conference) 。從1987年開始到1998年共舉行了七屆會議對該領(lǐng)域的關(guān)注和推動。MUC由美國國防高級研究計劃委員會(DARPA, t
22、he Defense Advanced Research Projects Agency)資助,其顯著特點并不是會議本身,而在于對信息抽取系統(tǒng)的評測。近幾年,信息抽取技術(shù)的研究與應(yīng)用更為活躍。在研究方面,主要側(cè)重于以下幾方面:利用機器學(xué)習(xí)技術(shù)增強系統(tǒng)的可移植能力、探索深層理解技術(shù)、篇章分析技術(shù)、多語言文本處理能力、WEB信息抽取(Wrapper)以及對時間信息的處理等等。在應(yīng)用方面,信息抽取應(yīng)用的領(lǐng)域更加廣泛,除自成系統(tǒng)以外,還往往與其湖南大學(xué)畢業(yè)論文 第 5 頁湖南大學(xué)軟件學(xué)院他文檔處理技術(shù)結(jié)合建立功能強大的信息服務(wù)系統(tǒng)。至今,已經(jīng)有不少以信息抽取技術(shù)產(chǎn)品為主的公司出現(xiàn),比較著名的有:Cym
23、fony公司、Bhasha公司、Linguamatics公司、Revsolutions公司等。目前,除了強烈的應(yīng)用需求外,正在推動信息抽取研究進一步發(fā)展的動力主要來自美國國家標準技術(shù)研究所(NIST)組織的自動內(nèi)容抽取(ACE, Automatic Content Extraction)評測會議。這項評測從1999年7月開始醞釀,2000年12月正式開始啟動,從2000年到2007年已經(jīng)舉辦過好幾次評測。這項評測旨在開發(fā)自動內(nèi)容抽取技術(shù)以支持對三種不同來源(普通文本、由自動語音識別ASR得到的文本、由光學(xué)字符識別OCR得到的文本)的語言文本的自動處理,研究的主要內(nèi)容是自動抽取新聞?wù)Z料中出現(xiàn)的實
24、體、關(guān)系、事件等內(nèi)容,即對新聞?wù)Z料中實體、關(guān)系、事件的識別與描述。與MUC相比,目前的ACE評測不針對某個具體的領(lǐng)域或場景,采用基于漏報(標準答案中有而系統(tǒng)輸出中沒有)和誤報(標準答案中沒有而系統(tǒng)輸出中有)為基礎(chǔ)的一套評價體系,還對系統(tǒng)跨文檔處理(Cross-document processing)能力進行評測。這一新的評測會議將把信息抽取技術(shù)研究引向新的高度。41.3 課題研究方法本文針對博客領(lǐng)域,以傳統(tǒng)的信息抽取思想為基礎(chǔ),對博客網(wǎng)頁進行分塊處理,并結(jié)合機器學(xué)習(xí)和統(tǒng)計訓(xùn)練的方法獲得決策樹,從而實現(xiàn)對博客中的文章正文進行抽取的功能。1.4 論文構(gòu)成及研究內(nèi)容本文試著從理論和實現(xiàn)相結(jié)合的角度,
25、提出一種基于博客相關(guān)信息的抽取實現(xiàn)策略。首先,闡述了信息抽取理論的發(fā)展歷史,發(fā)展現(xiàn)狀。分析了互聯(lián)網(wǎng)搜索技術(shù)的發(fā)展現(xiàn)狀,探討信息抽取與信息檢索的區(qū)別和聯(lián)系,并闡述了互聯(lián)網(wǎng)信息抽取在互聯(lián)網(wǎng)搜索中的應(yīng)用狀況;其次,介紹互聯(lián)網(wǎng)信息抽取的概念,方法,典型流程,具體闡述了本文所討論的網(wǎng)頁文本對象抽取的理論和方法;湖南大學(xué)畢業(yè)論文 第 6 頁湖南大學(xué)軟件學(xué)院再次,以博客網(wǎng)頁文本對象抽取為例,介紹了基于博客正文信息抽取系統(tǒng)的實現(xiàn)步驟,給出該抽取實現(xiàn)方法的測試結(jié)果,分析此方法的優(yōu)點和可以進一步改進的地方,并就其意義進行了闡述。 最后,簡要介紹了應(yīng)用互聯(lián)網(wǎng)網(wǎng)頁文本對象抽取技術(shù)的博客搜索引擎原型系統(tǒng)Geeseek
26、搜索引擎。湖南大學(xué)畢業(yè)論文 第 7 頁湖南大學(xué)軟件學(xué)院2. Web 信息抽取及網(wǎng)頁文本對象抽取概述本章主要介紹互聯(lián)網(wǎng)信息抽取的概念、方法、典型流程,具體闡述了本文所討論的網(wǎng)頁文本對象抽取的理論和方法。2.1 Web 信息抽取的概念目前各類信息服務(wù)網(wǎng)站提供了大量的信息資源,但是互聯(lián)網(wǎng)用戶卻很難享受到有效的信息服務(wù),因為用戶不可能天天都去訪問所有這些網(wǎng)站。這祥就形成了一種很尷尬的情況,一方面用戶迫切需要某些信息資料,另一方面提供有關(guān)資料的網(wǎng)站卻很少有人訪問。用戶需要從多個信息數(shù)據(jù)源(通常為各網(wǎng)站中的有關(guān)信息網(wǎng)頁)中同時獲得所需要的信息,并能將它們有效地整合在一起。目前的信息服務(wù)還無法有效地整合多個
27、信息服務(wù)站點的相關(guān)內(nèi)容,因為互聯(lián)網(wǎng)的信息發(fā)布與瀏覽均是基于 HTML 語法而編寫的 Web 網(wǎng)頁來進行的。而 Web 網(wǎng)頁的內(nèi)容描述是針對互聯(lián)網(wǎng)用戶瀏覽而進行的相關(guān)格式定義設(shè)計,并沒有為計算機本身閱讀和理解這些網(wǎng)頁內(nèi)容提供任何特殊的說明與注釋。因此為了從 Web 網(wǎng)頁中抽取所需要的信息內(nèi)容(文本信息塊) 。研究人員開始把目光轉(zhuǎn)向 Web 信息的機器抽取工作。Web 信息抽?。╓eb Information Extraction,簡稱 WIE)是指:給出屬于同一類型的若干樣本網(wǎng)頁。找出它們的源數(shù)據(jù)集的嵌套結(jié)構(gòu),并將源數(shù)據(jù)集從網(wǎng)頁中抽取出來。即通過對原文檔倩息內(nèi)容和結(jié)構(gòu)的分析,抽取出有意義的事實,
28、生成結(jié)構(gòu)化的有價值的信息。信息抽取流程如圖 2.1。圖 2.1 信息抽取流程5Web 信息抽取漸漸成為一個嶄新而熱門的課題,各種應(yīng)用于網(wǎng)絡(luò)數(shù)據(jù)抽取的工具也層出不窮。從互聯(lián)網(wǎng)資源中抽取數(shù)據(jù)的傳統(tǒng)方法就是編寫特定的程序,這種程序被湖南大學(xué)畢業(yè)論文 第 8 頁湖南大學(xué)軟件學(xué)院稱為“Wrapper” 。Wrapper 是一個能夠?qū)⒒?HTML 描述的 Web 網(wǎng)頁內(nèi)容轉(zhuǎn)換為按照某種結(jié)構(gòu)化描述的數(shù)據(jù)集合(例如 XML 數(shù)據(jù)、關(guān)系數(shù)據(jù)庫)的軟件程序。它由信息抽取所需的信息識別與結(jié)構(gòu)影射知識和應(yīng)用這種抽取知識的處理程序組成。根據(jù)各種工具用于產(chǎn)生 Wrapper 而采取的不同技術(shù),目前的 Web 數(shù)據(jù)抽取工
29、具可分為六種:Wrapper 開發(fā)語言,可感知 HTML 的工具,基于 NLP 的工具,Wrapper 歸納工具,基于建模的工具,基于語義的工具。62.2 Web 信息抽取的方法Web 信息抽取的方法主要可以分為以下兩類:一類是基于層次結(jié)構(gòu)的信息抽取歸納方法,如 WHIRL、Ariadne、CiteSeer 等,基于層次結(jié)構(gòu)的 Wrapper 歸納方法。盡管頁面的類型、結(jié)構(gòu)、版面各異,但對于某個網(wǎng)站來說,頁面的組織結(jié)構(gòu)一般具有一些特定的規(guī)律。如內(nèi)容經(jīng)常是以層次結(jié)構(gòu)方式來組織的,頁面中的項目以及項目之間的關(guān)系具有明確的模式?;趯哟谓Y(jié)構(gòu)的 Wrapper歸納方法引入嵌套目錄捕述方法(Embedd
30、edCatalog,簡稱 EC) ,該方法將頁面內(nèi)容按照層次結(jié)構(gòu)樹(EC 樹)的形式加以描述。EC 樹的葉節(jié)點用以描述用戶感興趣的相關(guān)數(shù)據(jù);EC 樹的內(nèi)部節(jié)點用以描述由多個項目組成的列表。其中每個項目既可以是葉節(jié)點,也可以是項目列表(項目嵌套) 。EC 樹中每一條邊均與一個抽取規(guī)則相關(guān)聯(lián),每一個列表節(jié)點與一個列表循環(huán)規(guī)則相關(guān)聯(lián),根據(jù)從根節(jié)點到相應(yīng)葉節(jié)點的路徑。依次從父節(jié)點抽取路徑上的每個子節(jié)點,Wrapper 就能夠從頁面中抽取任何用戶感興趣的項目。另一類是基于概念模型的多記錄信息抽取方法。即對特定 WWW 數(shù)據(jù)源研制相應(yīng)的 Wrapper。通過記錄識別獲得記錄相對應(yīng)的信息塊格式。利用 Wra
31、pper 進行有效的記錄抽取。步驟是設(shè)計構(gòu)造描述特定內(nèi)容的本體模型(Ontology Model) ,并由此產(chǎn)生一個數(shù)據(jù)庫模式以及產(chǎn)生有關(guān)常量、關(guān)鍵字的匹配規(guī)則。抽取信息時系統(tǒng)調(diào)用記錄抽取器將頁面分解為若干單個記錄信息塊,并除去其中的標記。利用由分析器(Parser)產(chǎn)生的匹配規(guī)則,從所獲得的單個信息塊中抽取有關(guān)的對象以及它們之間的關(guān)系。并將他們存入數(shù)據(jù)記錄表(Data-Record Table);最后利用啟發(fā)知識,并根據(jù)有關(guān)的數(shù)據(jù)庫模式,將所獲得的數(shù)據(jù)填人相應(yīng)的數(shù)據(jù)庫中。利用啟發(fā)知識,在所抽取的常量與關(guān)鍵字之間建立關(guān)聯(lián)。并利用層次結(jié)構(gòu)中的約束。來決定如何構(gòu)造數(shù)據(jù)庫中的有關(guān)記錄內(nèi)湖南大學(xué)畢業(yè)論
32、文 第 9 頁湖南大學(xué)軟件學(xué)院容。52.3 Web 信息抽取的典型流程信息抽取技術(shù)是指從一段文本中抽取指定的事件、事實等信息,形成結(jié)構(gòu)化的數(shù)據(jù)并存入一個數(shù)據(jù)庫,供用戶查詢和使用的過程。接下來,以美國勞動部的繼續(xù)教育系統(tǒng)中的課程抽取問題為例,介紹信息抽取的五個主要的子步驟(如圖2.2、圖2.3所示):圖2.2 課程抽取系統(tǒng)中的示例文章7湖南大學(xué)畢業(yè)論文 第 10 頁湖南大學(xué)軟件學(xué)院1、分塊,即找到文本片段開始和結(jié)束的邊界。例如,在此課程抽取系統(tǒng)中,課程題目需要被抽取出來。所以,分塊的任務(wù)就是要找到課程題目的第一個和最后一個單詞,不能包含其他無關(guān)的詞語,也不能剔除過多的詞語。例如在“Intro t
33、o Linguistics is taught”這句話中,你不能把這句話都包含進來,也不能只保留“Intro to”。2、分類,即確定在文本片段中要抽取的是哪一個目標域。例如,需要在“Introduc tion to Bookkeeping”中抽取課程題目,在“Dr. Dallan Quass”抽取課程教師, 并在“This course covers.” 中抽取課程描述。通常,分塊和分類是采用有限狀態(tài)機而結(jié)合在一起實現(xiàn)的。3、聯(lián)合,即確定哪些域是屬于同一條記錄的。例如,一些課程的描述可能包括好幾段文字,而其他的可能就只有一段。因此,在抽取的過程中就必須確定哪些段落是用于描述同一門課程的。這個
34、課程抽取的問題相對而言還比較簡單,課程之間的描述可能是相鄰的,關(guān)系非常緊密。如果要在一篇新聞中抽取一次國際貿(mào)易商討會的相關(guān)信息,例如雙方的代表人是誰,分別來自國家等等,這樣的問題就復(fù)雜得多了。因為要抽取的內(nèi)容關(guān)聯(lián)不大,而且稀疏地分布在文本之中。因此,在這種需要確定兩個實體是否是相互關(guān)聯(lián)的時候,這種過程有時也被稱為“關(guān)系抽取” 。實現(xiàn)了關(guān)系抽取的商業(yè)產(chǎn)品往往比僅僅實現(xiàn)了分類和分塊的要有價值得多。4、標準化,即將信息都標準化成一種統(tǒng)一的形式,這樣能夠進行可靠的比較。例如,課程開設(shè)時間的表達形式多種多樣,如“2-3pm”、 “3pm-4:30pm”、 “1500-1630”等,如果要考察各門課程的開
35、設(shè)是否重現(xiàn)了重疊情況時,就會發(fā)現(xiàn)很難對時間做出比較,此時就需要對時間轉(zhuǎn)化成統(tǒng)一的形式。再譬如,在考慮名字“Wei Li”和“Li, Wei”的時候,也需要確定姓和名的順序。通常,標準化是和去重(即將說明的下一步驟)聯(lián)系在一起的。5、去重,即去除重復(fù)的信息,使得數(shù)據(jù)庫中不會出現(xiàn)重復(fù)的記錄。例如,一門課程可能在一個或多個學(xué)院開設(shè),從而多次出現(xiàn)在不同的網(wǎng)頁中,最終也會被多次地抽取,但是在數(shù)據(jù)庫中只需要保存一條關(guān)于這門課程的記錄。湖南大學(xué)畢業(yè)論文 第 11 頁湖南大學(xué)軟件學(xué)院圖 2.3 課程抽取系統(tǒng)的五個主要子過程72.4 網(wǎng)頁文本對象抽取的理論和方法隨著因特網(wǎng)的普及,網(wǎng)上提供了海量的包括半結(jié)構(gòu)化數(shù)據(jù)
36、的信息源網(wǎng)頁。網(wǎng)頁與傳統(tǒng)的自由文本相比有許多特點,即數(shù)據(jù)量大、更新快、變化快、形式多樣,還包括超鏈接且跨平臺和網(wǎng)站共享,處理自由文本的信息抽取技術(shù)不太適用于對網(wǎng)頁的信息抽取。因此需要開發(fā)一種合適的信息抽取技術(shù)來從大量不同的網(wǎng)頁中抽取信息。無論挖掘的目的是什么,都可以把Web文本挖掘的一般處理過程用圖2.4來概括。湖南大學(xué)畢業(yè)論文 第 12 頁湖南大學(xué)軟件學(xué)院html 文檔集特征的建立特征集的縮減學(xué)習(xí)與知識模式的提取模型質(zhì)量的評價知識模式圖2.4 Intemet上文本數(shù)據(jù)挖掘的一般處理過程8目前解決網(wǎng)頁數(shù)據(jù)抽取問題比較典型的方法有:1、由用戶定義模式并給出模式與HTML網(wǎng)頁的映射關(guān)系。由系統(tǒng)推導(dǎo)
37、出規(guī)則同時生成:以要提取的信息在DOM層次結(jié)構(gòu)中的路徑作為信息抽取的“坐標” ,半自動化地生成提取規(guī)則。然后根據(jù)提取規(guī)則生成JAVA類,將該類作為Web數(shù)據(jù)源Wrapper組成的重要構(gòu)件:將網(wǎng)頁信息抽取知識分為若干層,利用各層模式之間相互聯(lián)系的特點,動態(tài)獲取各層中與HTML頁面內(nèi)容具體描述密切相關(guān)的信息識別模式知識;最終再利用所獲得的多層信息識別模式,完成相應(yīng)各個HTML網(wǎng)頁的具體信息抽取工作。2、基本全自動化的網(wǎng)頁數(shù)據(jù)抽取方法。這類方法只要輸入相應(yīng)的網(wǎng)頁,就能夠自動進行分析和生成Wrapper,并且將數(shù)據(jù)從網(wǎng)頁中抽取出來。在整個過程中需要用戶干預(yù)的地方只是最后的數(shù)據(jù)結(jié)構(gòu)的語義分析部分。但目前
38、這些方法還僅限于基于后臺數(shù)據(jù)庫模式由腳本語言直接生成的網(wǎng)頁(網(wǎng)頁結(jié)構(gòu)基本不變。頁面內(nèi)容全部取自數(shù)據(jù)庫) 。3、自主抽取的方法。這類方法通常以W3C(World Wide Web Consortium)的文檔對象模型DOM為基礎(chǔ),實現(xiàn)由多記錄構(gòu)成的網(wǎng)頁信息內(nèi)容的抽取,對Web頁面表格信息與列表信息進行自主抽取。所謂自主抽取是指根據(jù)用戶的需求去訪問專業(yè)信息服務(wù)網(wǎng)站的相關(guān)頁面,自動抽取用戶感興趣的信息(尤其是多記錄構(gòu)成的表格信息的內(nèi)容) ,而不是以一種固定模式將所有信息內(nèi)容全部都抽取出來。用戶可以定制某網(wǎng)站信息,因此在抽取知識中要加入用戶的興趣描述。抽取過程包括文檔解析和自主抽取兩個階段。見圖2.5
39、。湖南大學(xué)畢業(yè)論文 第 13 頁湖南大學(xué)軟件學(xué)院Web 文檔 DOM抽取結(jié)果文檔解析信息自主抽取圖2.5 信息自主抽取的兩個階段5湖南大學(xué)畢業(yè)論文 第 14 頁湖南大學(xué)軟件學(xué)院3. 博客正文信息抽取系統(tǒng)的設(shè)計本章主要介紹博客搜索的概況,提出基于HTML特征和機器學(xué)習(xí)的博客正文信息抽取算法的設(shè)計方案,對該算法進行測試和評估,并總結(jié)算法的優(yōu)點和需要改進的地方。3.1 博客搜索的概況博客,即Blog或Weblog,這一詞源于“WebLog(網(wǎng)絡(luò)日志)”的縮寫,是一種網(wǎng)絡(luò)個人信息的發(fā)布形式。一個Blog其實就是一個網(wǎng)頁,通常是由簡短并且經(jīng)常更新的post所構(gòu)成,在post中可以插入超鏈接、電子郵件、圖
40、像、動畫、電影、代碼、引用等資源,這些張貼的文章又都是按照年份和日期進行排列的。應(yīng)該說,博客是一個個人性與公共性相結(jié)合的媒介,它充分利用了網(wǎng)絡(luò)雙向互動、超文本鏈接、動態(tài)更新、覆蓋范圍廣的特點,其精髓不是表達個人思想或是記錄個人的日常經(jīng)歷,而是從個人的角度,來精選和鏈接互聯(lián)網(wǎng)上最具有價值的信息、知識與資源,為他人提供共享資源?,F(xiàn)在,人們以博客來共享思想與資源,并且進行相互學(xué)習(xí)的行為已經(jīng)變得越來越流行,博客已經(jīng)逐漸成為了一個技術(shù)交流的場所。由于博客的內(nèi)容具有很高的有用性和共享性,以專門搜索博客文章內(nèi)容的博客搜索引擎應(yīng)運而生。博客搜索引擎是一種專業(yè)搜索引擎,可以掃描互聯(lián)網(wǎng)上數(shù)千萬個較常更新的個人博客
41、,以幫助用戶通過瀏覽或關(guān)鍵詞檢索來查詢自己所需要的信息。目前已初具規(guī)模的博客搜索引擎,包括:中客(http:/)、博客搜索引擎(http:/)、八方(http:/)、Teclmorati(http:/)、BlogStreet(http:/)、DayPop(http:/)、Feedster(http:/www.feedster.tom)、BlogPulse(http:/www.blogpulse.tom)、BlogWise(http:/www.blogwise.tom)、BlogHop(http:/)。9博客作為一個重要的信息傳播和資源共享的平臺,它的核心部分在于博客正文。正文中往往含有豐富的文
42、本、圖片和視頻/音頻信息,是整個博客當(dāng)中信息的主要載體。因此,在博客搜索之中,對博客正文的檢索也是最重要的內(nèi)容。相對于博客昵稱、博湖南大學(xué)畢業(yè)論文 第 15 頁湖南大學(xué)軟件學(xué)院文標題和文章更新時間等信息而言,博客正文的內(nèi)容更復(fù)雜,表現(xiàn)形式更豐富,在網(wǎng)頁中中的位置更靈活。因此,要實現(xiàn)對博客正文的抽取,需要進行大量的觀察、統(tǒng)計、訓(xùn)練和測試工作。本文就提出了一種基于HTML特征和機器學(xué)習(xí)的博客正文抽取實現(xiàn)方法。具體實現(xiàn)過程將在下節(jié)進行詳細介紹。3.2 博客正文抽取的過程本節(jié)詳細介紹基于HTML特征和機器學(xué)習(xí)的博客正文抽取算法的過程。3.2.1 分類分類的主要任務(wù)是根據(jù)頁面內(nèi)容的不同,將網(wǎng)絡(luò)爬蟲抓取到
43、的頁面分成四個類別:1、博客網(wǎng)頁即博客的首頁。這里一般會出現(xiàn)博主昵稱、文章列表等特征明顯的信息。2、博文網(wǎng)頁即博客中某篇文章所在的頁面,這里一般會出現(xiàn)文章標題、更新時間、文章正文以及相關(guān)評論等信息。3、博客相關(guān)網(wǎng)頁博客中除了首頁和博文以外的其他頁面,例如博客中的相冊頁面、好友鏈接頁面等等。4、非博客網(wǎng)頁即非博客范圍內(nèi)的范圍,例如一般的新聞網(wǎng)頁。采用一種基于體裁的增量式博客網(wǎng)頁分類方法,目的是克服基于內(nèi)容方法在博客網(wǎng)頁分類中的無效問題。同時,降低網(wǎng)頁分類中的計算量,提高博客網(wǎng)頁分類的精度。體裁決策樹模型10是使用博客網(wǎng)頁體裁上的特征作為決策樹模型的節(jié)點而生成的樹,樹的葉子節(jié)點即為決策結(jié)果。過度擬
44、合(overfitting)指統(tǒng)計學(xué)中為了建立近乎完美的具有非常多參數(shù)的統(tǒng)計模型,而讓模型非常復(fù)雜,以致模型的預(yù)測性能反而下降。k-折交叉驗證(K-fold cross-validation)是指將樣本集分為k份,其中k-1份作為訓(xùn)練數(shù)據(jù)集,而另外的1份作為驗證數(shù)據(jù)集。用驗證集來驗證所得分類器或者回歸的錯誤碼率。一般需要循環(huán)k次,直到所有k份數(shù)據(jù)全部被選擇一遍為止。信息增益(Information Gain)指分類領(lǐng)域中某屬性為整個分類所能提供的信息量湖南大學(xué)畢業(yè)論文 第 16 頁湖南大學(xué)軟件學(xué)院或貢獻值。本系統(tǒng)的基于體裁的增量式博客網(wǎng)頁分類方法流程圖如下:訓(xùn)訓(xùn)練練集集網(wǎng)網(wǎng)頁頁提提取取體體裁裁
45、特特征征特特征征選選擇擇建建立立體體裁裁決決策策樹樹模模型型是是否否達達到到分分類類所所需需精精度度分分類類器器分分類類結(jié)結(jié)果果評評價價測測試試集集網(wǎng)網(wǎng)頁頁多多次次使使用用測測試試集集進進行行實實驗驗提提取取錯錯誤誤分分類類網(wǎng)網(wǎng)頁頁體體裁裁特特征征優(yōu)優(yōu)化化體體裁裁決決策策樹樹模模型型是是否否圖3.1 基于體裁的增量式博客網(wǎng)頁分類流程圖具體步驟如下:Html特征1、指向相同域名的鏈接數(shù)量 / 所有鏈接數(shù)量;2、指向不同域名的鏈接數(shù)量 / 所有鏈接數(shù)量;3、在以下5組標簽中,某特定標簽數(shù)量 / 所有標簽數(shù)量;4、文本格式: , , , , , , , , , , , , , , , , , , ,
46、 , , , , , , , , , ,;湖南大學(xué)畢業(yè)論文 第 17 頁湖南大學(xué)軟件學(xué)院 5、文檔結(jié)構(gòu): , , , , , , , , , , , , , , , , , , , ,;6、用戶交互: , , , , , , , ;7、導(dǎo)航:計算以下標簽的鏈接屬性 , , 和;8、鏈接數(shù)量:所有域名,外部域名,交互標簽;9、表單元素數(shù)量:Form標簽,復(fù)選框標簽,列表,密碼文本框,文本區(qū)域,按鈕, 單選按鈕,文件上傳;10、表單鏈接數(shù)量:域名;11、標簽數(shù)量:所有強調(diào)(粗體, 斜體, 下滑線) ,字體,腳本,表格,段落,圖片;12、HTML 深度:最大HTML深度,最大table深度;13、U
47、RL 長度:所有URL長度,目錄路徑長度;14、錨文本包含事先定義的關(guān)鍵詞的鏈接數(shù)量 / 所有鏈接數(shù)量;15、URL字符中包含事先定義的關(guān)鍵詞的鏈接數(shù)量 / 所有鏈接數(shù)量。URL特征1、URL是否包含“博客”或者“blog”字符;2、錨文本是否包含“博客”或者“blog”字符;3、URL字符中是否包含比較多的數(shù)字;4、錨文本相同的鏈接數(shù)量 / 所有鏈接數(shù)量;5、URI的長度;6、URL的長度;7、URL中URL的深度;8、在URL中,文件擴展名的數(shù)量,例如:.htm, .asp;9、URL中是否包含日期字符。文本特征1、博客常常包含描述個人觀點的內(nèi)容,例如, “我” , “我們” , “什么”
48、等等;2、每個句子的平均詞語數(shù)量;湖南大學(xué)畢業(yè)論文 第 18 頁湖南大學(xué)軟件學(xué)院3、在鏈接文本中的字符的數(shù)量 / 所有字符數(shù)量;4、某特定標點符號的數(shù)量 / 34種標點符號的所有數(shù)量;5、疑問句的數(shù)量 / 所有句子的數(shù)量;6、感嘆句的數(shù)量 / 所有句子的數(shù)量;7、日期短語的數(shù)量 / 所有詞語數(shù)量;8、位置短語的數(shù)量 / 所有詞語數(shù)量;9、人物短語的數(shù)量 / 所有詞語數(shù)量;10、是否存在高頻詞,其中高頻詞從訓(xùn)練博客網(wǎng)頁中獲取,該高頻詞指具體方式為對訓(xùn)練博客網(wǎng)頁進行分詞,接著進行停用詞刪除,然后統(tǒng)計所有樣本博客中出現(xiàn)頻率很高的詞語;11、描述日期或者時間的詞語數(shù)量。3.2.2 分塊基于內(nèi)容的文本檢
49、索、過濾和分類、聚類等技術(shù)取得了巨大的進展,信息檢索和Web挖掘的研究正朝著精細化、多樣化的方向發(fā)展,人們在對文字內(nèi)容進行處理的基礎(chǔ)上,試圖充分利用Web中蘊含的其他信息,進一步提高傳統(tǒng)的信息檢索和Web挖掘的效果。其中, “網(wǎng)頁分塊”作為一個新穎的技術(shù)點,以其獨特的研究視角,正越來越受到人們的關(guān)注。11在中文搜索引擎的查詢結(jié)果里仍然普遍存在著大量的無關(guān)項和不含具體信息的間接項,使用戶不得不浪費大量的時間在結(jié)果列表中尋找相關(guān)信息。一般的搜索引擎均采用關(guān)鍵字的方法索引和檢索網(wǎng)頁,在這種框架下,所有出現(xiàn)在網(wǎng)頁上的字被用作索引項。但實際的中文網(wǎng)頁里常常含有大量與頁面主題無關(guān)的文字,造成了檢索結(jié)果不準
50、確、不相關(guān)的問題。例如,圖3.2和圖3.3是以“桂林三寶”作為關(guān)鍵字進行檢索時得到的結(jié)果。圖3.2頁面的主要內(nèi)容是一篇介紹吉林的文章,其中提到“ 吉林霧凇,與桂林山水、云南石林、長江三峽并譽為中國四大自然奇觀” ,又恰好在左欄的導(dǎo)航目錄里有“吉林三寶”的條目,使得這個頁面被錯誤的當(dāng)成了相關(guān)項;圖3.3的主要內(nèi)容則是介紹白族的“三道茶” ,但因為在左側(cè)的超鏈接目錄里出現(xiàn)了“桂林三寶” ,真正提供具體信息的應(yīng)該是它指向的頁面,而那個頁面一般也會被檢索到,因此圖3.3是一個多余的間接項。湖南大學(xué)畢業(yè)論文 第 19 頁湖南大學(xué)軟件學(xué)院圖3.2 無關(guān)項的例子12圖3.3 間接項的例子12如果搜索引擎在預(yù)
51、處理階段,把一個頁面上不同主題、不同作用的文字混在一起,那么類似圖3.2的無關(guān)項在之后的檢索和處理過程中是根本無法去除的。商用搜索引擎普遍采用站點聚類技術(shù),把出現(xiàn)在同一個站點上的結(jié)果項合并,雖然可以隱藏大部分的間接項,但會耗費用戶的查詢時間。因此,在預(yù)處理階段過濾掉一些和主題無關(guān)的文字,從而消除前面所提到的無關(guān)項和間接項。為此,出現(xiàn)了“塊”的概念。傳統(tǒng)的信息抽取模型是以單個詞條作為抽取單位。根據(jù)網(wǎng)頁的特點:邏輯內(nèi)容相湖南大學(xué)畢業(yè)論文 第 20 頁湖南大學(xué)軟件學(xué)院互關(guān)聯(lián)的塊會被組織在一起??梢哉J為網(wǎng)頁是由不同的內(nèi)容塊組成的。所以可以根據(jù)網(wǎng)頁信息的格式并結(jié)合HMM的文本信息抽取算法把網(wǎng)頁分成許多小
52、塊。而且分割后的內(nèi)容塊所包含的信息比單一詞條的要多,也更容易機器的識別以及自動抽取。多數(shù)Web文檔都是把標記和文本按照HTML的定義聯(lián)在一起的。標記包括“ ” ,在“ ”之間為標記名稱。標記經(jīng)常成對出現(xiàn),分別為開始標記和結(jié)束標記。開始標記不以“/ ”開頭,而結(jié)束標記以“/ ”開頭。Web 文檔中的任何一對標記都劃分出一個離散的區(qū)域。該離散區(qū)域的開始為開始標記的出現(xiàn)位置;該離散區(qū)域的結(jié)束為開始標記相對應(yīng)的結(jié)束標記的位置。該區(qū)域可以被某些標記繼續(xù)分割為更小的區(qū)域。標記之間相互嵌套,組成了一個嵌套結(jié)構(gòu)。為了更清楚的描述Web文檔各個區(qū)域(由標記劃分的) 之間的關(guān)系以及各個區(qū)域所含的文本量,常使用頁面
53、分析樹來描述Web 文檔。13從大量博客網(wǎng)頁數(shù)據(jù)集的頁面分析樹中我發(fā)現(xiàn)了分塊的方法利用DIV標記的布局特性進行解析。隨著互聯(lián)網(wǎng)的深入發(fā)展,網(wǎng)頁格式越來越復(fù)雜,共同特征越來越少?,F(xiàn)在,每個頁面幾乎都包含網(wǎng)站分類欄、各個主題的導(dǎo)航欄、正文欄、相關(guān)鏈接欄、版權(quán)聲明欄和廣告信息欄。然而,由于標記“DIV”有良好的布局特性,格式復(fù)雜的頁面往往都采用“DIV”標記來進行頁面格式的布局。因此,可利用“DIV”標記對頁面進行解析。 如圖3.4所示,整個頁面用一個大的DIV來布局,它的里面又嵌套著不同的DIV。這樣不斷地嵌套,直至最底層的DIV里面包含著具體的記錄項。文獻 14 就利用標記“table”來對頁面
54、進行解析,把頁面分割成不同的塊。雖然思路簡單,但用DIV標記進行挖掘,對網(wǎng)頁開發(fā)工具制作出來的格式特別復(fù)雜的頁面來說,是比較有效的,它往往能勝任其他方法所應(yīng)付不了的復(fù)雜網(wǎng)頁。所以,在處理門戶網(wǎng)站中的網(wǎng)頁時,這種思想是比較可取的。對多個門戶網(wǎng)站的大量博客數(shù)據(jù)所進行的觀察,也驗證了這種分塊方法的可行性。以網(wǎng)易博客中的一篇博文為例,經(jīng)過分塊后,獲得它的文本塊信息如圖3.5所示圖 3.4頁面格式布局湖南大學(xué)畢業(yè)論文 第 21 頁湖南大學(xué)軟件學(xué)院(不同的塊之間以“*”隔開):圖3.5 博文分塊效果示意圖3.2.3 統(tǒng)計訓(xùn)練,獲取決策樹1、提取特征將博客網(wǎng)頁進行分塊后,將每一個塊的文本作為最小單元,進行特
55、征的提取。通過對大量的博客網(wǎng)頁的HTML代碼的分析,提取出所有博客文章正文塊的特征(系統(tǒng)中的Features類)。在本系統(tǒng)中,這些特征主要包括:_positionOfBlock:塊位置編號,即文本塊的第一標簽在全文標簽當(dāng)中的位置;_numberOfPageTag:整個網(wǎng)頁的標簽總數(shù);_numberOfAllTag:分塊中的標簽總數(shù);_numberOfTextTag:Text類標簽的個數(shù);_lengthOfText:Text類標簽中的文本長度;湖南大學(xué)畢業(yè)論文 第 22 頁湖南大學(xué)軟件學(xué)院_numberOfImgTag:Img標簽的個數(shù);_numberOfATag:A標簽的個數(shù);_numberO
56、fStrongTag: Strong標簽的個數(shù);_numberOfPTag:P標簽的個數(shù);_numberOfBRTag:BR標簽的個數(shù)。2、人工標記從這步開始,需要采用一個工具WEKA。WEKA的全名是懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis) 。同時weka也是新西蘭的一種鳥名,而WEKA的主要開發(fā)者來自新西蘭。WEKA作為一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機器學(xué)習(xí)算法,包括對數(shù)據(jù)進行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。它的數(shù)據(jù)文件是以arff為后綴名的。15以上一步驟中的博
57、文為例,訓(xùn)練數(shù)據(jù)在WEKA中的顯示如圖3.6所示:說明:第一次項NO代表塊的編號,第二項到第十一項表示Features中的十條特征。最后一項的ArticleType是一個二值,YES代表該塊是正文塊,NO代表該塊不是正文塊。 圖3.6 WEKA數(shù)據(jù)顯示實示例圖3、統(tǒng)計訓(xùn)練把每一個博文網(wǎng)頁進行分塊和人工標記后,再將每一個網(wǎng)頁對應(yīng)的arff文件整合在一起,形成訓(xùn)練數(shù)據(jù)集。接下來,采用10折交叉驗證(10-fold cross validation)來選擇湖南大學(xué)畢業(yè)論文 第 23 頁湖南大學(xué)軟件學(xué)院和評估模型??梢钥吹健癑48”算法交叉驗證的結(jié)果之一為“Correctly Classified I
58、nstances 10238 98.8224 %” 。圖 3.7 訓(xùn)練博客數(shù)據(jù)集示意圖4、 獲取決策樹在上一步的訓(xùn)練過程中,右鍵點擊“Results list”剛才出現(xiàn)的那一項,彈出菜單中選擇“Visualize tree”,新窗口里可以看到圖形模式的決策樹,15 如圖3.8所示:湖南大學(xué)畢業(yè)論文 第 24 頁湖南大學(xué)軟件學(xué)院圖 3.8 博文統(tǒng)計訓(xùn)練后獲得的決策樹示意圖在獲得決策樹后,將其編碼實現(xiàn),就可以對經(jīng)過分塊預(yù)處理后的博文頁面進行文章正文的抽取。3.3 算法的測試和評估繼續(xù)使用WEKA工具對該抽取實現(xiàn)方法進行測試。在測試中,使用10238條數(shù)據(jù)進行訓(xùn)練,8190條數(shù)據(jù)進行測試,采用總精確
59、度16來評價算法性能,定義如下:總精確度= 100% (3.1)機器正確標記的單詞數(shù) 所有測試的單詞數(shù)根據(jù)公式(3.1) ,得到的總精確度為94.4964%。如圖3.9所示:湖南大學(xué)畢業(yè)論文 第 25 頁湖南大學(xué)軟件學(xué)院圖3.9 抽取功能測試結(jié)果圖3.4 博客正文抽取算法的意義和思考博客正文抽取最大的意義在于提高搜索的精度。中文搜索引擎經(jīng)常會返回大量的無關(guān)項或者不含具體信息的間接項,產(chǎn)生這類問題的一個原因是網(wǎng)頁中存在著大量與主題無關(guān)的文字。這些為輔助網(wǎng)站組織而增加的文字定義為“噪聲” ,它們通常聚集成塊,且獨立于主題內(nèi)容,僅僅起向?qū)У淖饔茫缂映溄幽夸浕蛘呔哂兴阉鞴δ艿谋韱?。通過對博客正文
60、進行抽取后,僅對正文中的內(nèi)容進行分詞、索引,這樣可以將檢索的匹配定格在主題內(nèi)容之中,而大大的減少了網(wǎng)頁“噪聲”對檢索的干擾,從而提高檢索的效率和精度。另外,通過對博客正文抽取的研究,我們對博客的網(wǎng)頁結(jié)構(gòu)有了很深入的了解。以此為基礎(chǔ),運用發(fā)散思維,可以進一步開展其他方面的研究,例如對文章評論進行抽取、統(tǒng)計博主的活躍程度等等。該算法充分地抓住博客網(wǎng)頁的特定結(jié)構(gòu)特征,利用網(wǎng)頁的HTML標簽特征,研究湖南大學(xué)畢業(yè)論文 第 26 頁湖南大學(xué)軟件學(xué)院出了一種新的網(wǎng)頁分塊算法利用DIV標記的布局特性進行解析。該分塊算法的實現(xiàn)相對而言比較簡單,而且分塊的效果很好。另外,采用專門的統(tǒng)計工具WEKA對大量的數(shù)據(jù)進
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高端制造股份認購及供應(yīng)鏈管理服務(wù)合同
- 股東會決議效力爭議解決協(xié)議范本
- 企業(yè)健康安全顧問合作協(xié)議范本
- 互聯(lián)網(wǎng)廣告股東股權(quán)合作協(xié)議
- 綠色金融股權(quán)收購與綠色項目合作協(xié)議
- 環(huán)保產(chǎn)業(yè)股份買賣與污染治理合同
- 智能制造企業(yè)股東分紅及技術(shù)創(chuàng)新協(xié)議
- 情感糾紛解除協(xié)議書
- 環(huán)保企業(yè)股權(quán)及全部債務(wù)分割轉(zhuǎn)讓及權(quán)益共享協(xié)議
- 創(chuàng)新型中小企業(yè)股權(quán)轉(zhuǎn)讓優(yōu)先購買權(quán)協(xié)議
- DB1309T 256-2021 榆三節(jié)葉蜂綜合防治技術(shù)規(guī)程
- 人教版五四制六下地理復(fù)習(xí)提綱詳細筆記
- 燃氣工程計價規(guī)則及定額應(yīng)用
- 大氣污染控制工程課程設(shè)計-某廠酸洗硫酸煙霧治理設(shè)施設(shè)計
- 人教版小學(xué)三年級下冊英語復(fù)習(xí)課件(164頁PPT)
- 300MW單元機組過熱汽溫控制系統(tǒng)的設(shè)計
- (完整版)銷售人員銷售能力測試及答案解析
- 頂管施工頂管作業(yè)安全技術(shù)交底
- 生物膜(高級生化課件)
- 上海市城鎮(zhèn)排水管道非開挖修復(fù)工程施工質(zhì)量驗收規(guī)程試行520
- 橋架、線槽支架重量計算表
評論
0/150
提交評論