基于heritrix的web信息抽取_第1頁
基于heritrix的web信息抽取_第2頁
基于heritrix的web信息抽取_第3頁
基于heritrix的web信息抽取_第4頁
基于heritrix的web信息抽取_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于Heritrix 的Web信息抽取.txt28 生活是一位睿智的長者,生活是一位博學的老師,它 常常春風化雨,潤物無聲地為我們指點迷津,給我們人生的啟迪。不要吝惜自己的愛,敞開 自己的胸懷,多多給予,你會發(fā)現(xiàn),你也已經沐浴在了愛河里?;? Heirx 的. We rtib 信息抽取 陳俊彬曹樹金 中山大學資訊管理系廣州 5100 006 摘要針對現(xiàn)階段 Web信息抽取技術的不足,提出一種基于 Heritrix的精確抽取方法,由三 個分別獨立的功能模 塊共同完成。與一般信息抽取不同,本方法注重于在精確抽取的前提下實現(xiàn)通用化,做到可 以根據數(shù)據庫表的字 段來進行最小單位的信息抽取,并且較好地

2、解決信息采集通用性和準確性之間的矛盾。. 關鍵詞 HrtiHMLasrWeb 數(shù)據采集 eirx 信息抽取 . Tpre 分類號 G25073 WebInfrtotatosdorti omainExrcinBaenHeirx eun ahnChnJnbiCoSuji DepartmentofInformationManagement , SunYatsenUniversity , Guangzhou510006 Abtathsaeitoueaehdoac ccrtifrainetatoaeoeirxac ccrigthhrafWeno srcTipprnrdcsmtofuaenomtoxrci

3、nbsdnHrtiodnotesotgeobifrmaroxrcintcnlg h ytmiooeftrersetvdueeetfosaafifrtoxrcin, inetatoehooyTessescmpsdoheepciemol Dif ffrnrmuulwyonomainetato thtd iounpeciionael llaeeraty Icnetrattemiim uitofifortiocodigthefedoaln emehosfcsorsswsgnlitaxchnmunnmanacrnotilftbei daase tba KewrseirxifrtoxrcinHTprebi

4、frtocusto yodHrtinomainetatoMLasrWenomainaqiiin 的信息抽取技術需要用戶的大量參與,但自動化程度 不高;而自動化程度高的抽取技術其準確率和適應性 較低,實用性較差。即使是機器學習,也要通過大量的 Web信息抽取(Webinformationextraction, WIE)的樣本學習來提高獲取規(guī)則的自動化程度, 這意味著系 目標是把文本里包含的信息進行結構化處理,轉化成統(tǒng)需要經過較長時間的學習才能獲得較 好的查準率。 特定的結構,以便于理解和利用。隨著 . Intemet 的迅猛縱觀信息抽取技術的發(fā)展歷史,研 究者們提出了 發(fā)展,Web已經成為全球傳

5、播與共享科研、教育、商業(yè)不少優(yōu)秀的抽取策略 原理出發(fā),可 和社會信息等最重要和最具潛力的巨大信息源。面對以將信息抽取技術劃分為 基于自然語言 如此巨大的互聯(lián)網信息庫,如何快速、有效、經濟地得理解方式;基于 基于網頁結構特征 . 。從實現(xiàn)方法的 4個類別: ontology 方式; 到某個主題的所有相關信息就成了當前一個十分熱門方式;基于統(tǒng)計學習的方式?;谧?然語言理解方 的研究課題。與傳統(tǒng)的信息資源相比,Web上信息資式的信息抽取在一定程度上借鑒了自然 語言處理技 源有著分布性、異構性、開放性、動態(tài)性和龐大性等特術,利用子句結構、短語和子句間的 關系建立基于語法 點,這些特點導致 Web上數(shù)

6、據的信息接口和組織形式和語義的抽取規(guī)則,實現(xiàn)信息抽取。其 缺點是抽取速 各不相同,也使得 Web上的信息資源不能被有效的利度慢,使用范圍窄,很難做到通用?;?于 ontology 方式 用。在這樣的背景下,Web信息抽取技術成為了研究主要是利用對數(shù)據本身的描述信息實現(xiàn) 抽取,對網頁 的熱點。結構的依賴較少。只要事先創(chuàng)建的應用領域的ontolo- g)r 足夠強大,系統(tǒng)可以對某一應用領域中各種網頁實 2 艾獻綠述現(xiàn)信息抽取。目前只能對特定領域構建,并且還只能 采用半自動的方式由人工參與,這樣使得該方法要求 在.Web信息抽取領域中,信息抽取的準確性和通很高,工作量巨大?;诰W頁結構特征方 式的特

7、點 用性之間的矛盾一直是該研究領域的難題。性能較好是根據Web頁面的結構來定位信息,在 信息抽取之前 收稿 ri 期: 20 008072 22 修日期: 20 008 09 11 本文起 Ij :貞碼: 1 112 115 本文責任編輯:易【三 112。 LIBRARY AND INFORM ATION SERVICE 通過解析器將 Web文檔解析成語法樹,然后通過自動 或半自動的方式產生抽取規(guī)則,最終轉化為對語法樹 的操作來實現(xiàn)信息的抽取,本策略實現(xiàn)簡單,抽取的準 確性好,但要求人工參與。基于統(tǒng)計學習的信息抽取 策略是根據統(tǒng)計學原理,首先構造一個模型以模擬 信息抽取的過程,應用統(tǒng)計學方法從

8、訓練語料中得出 模型的參數(shù);然后用訓練好的模型對待抽取語料進行 信息抽取。該方法需要經過較長時間的樣本學習,且 實現(xiàn)復雜。 對信息抽取技術的劃分標準其實有很多,并不限 于以上所提。各種信息抽取策略針對特定的場合都有 其獨特的優(yōu)勢,也有其相應的缺點。其中,基于網頁結 構特征的信息抽取是現(xiàn)階段最為常用的抽取手段,實 現(xiàn)起來相對簡單,可進行精確的信息抽取。在現(xiàn)階段 的研究中,已有不少文獻針對這一抽取策略提出了相 對可行的實現(xiàn)方法,例如基于 DOM樹的自動抽取和基 于機器學習的抽取技術。這類方法重點關注信息抽 取的通用性,在準確性方面有待提高。正如前文所述, 通用性和準確性之間的矛盾一直是信息抽取領域

9、的難 題,然而現(xiàn)階段在保證信息抽取的準確性,又不失通用 性的方面還沒有較為理想的實現(xiàn)方法。大部分的抽取 方法都是重點先考慮通用性;也有一些文獻提出了很 好地很精確的抽取方法,但是卻沒有實現(xiàn)相對通用性, 抽取系統(tǒng)的可移植性和可維護性很差,也難以應對千 變萬化的 . Web 頁面。 3 系統(tǒng)分析與設計 筆者在實踐的基礎上提出一種以 Heirx rti 為基礎, 結合 HTML, arser 的信息抽取思路,下面將給出具體實 現(xiàn)方法和抽取系統(tǒng)。本方法注重于在精確抽取的前提 下實現(xiàn)通用化,做到可以根據數(shù)據庫表的字段來進行 最小單位的信息抽取,并且較好地解決信息采集通用 性和準確性之間的矛盾,同時具有較

10、好的可擴展性和 抽取速度。 本抽取系統(tǒng)主要用于對論壇信息的精確抽取,以 實際的例子來闡述一種信息抽取的思路,在設計上采 用分層與模塊分治的設計思想,保證系統(tǒng)有良好的移 植性和擴展性,這個對于變化無常的Web信息來說非 常有必要。 系統(tǒng)主要包括三個模塊:數(shù)據采集模塊、頁面清 洗模塊、數(shù)據庫模塊 ( 見圖 1)。對于待抽取的站點,由 數(shù)據采集模塊根據入口地址對其進行采集,將目標頁 圉雪 jf ff 鉉作 第宙卷第。期 . 20 009 年 5 月 面采集到本地上,通過設定規(guī)則,可以保證系統(tǒng)只存儲 待分析的目標頁面,對頁面清洗模塊的標準化提供很 大方便。頁面清洗模塊負責對高度統(tǒng)一的目標頁面進 行清洗

11、,最終提取出結構化文本,由數(shù)據庫模塊存入對 應的庫表字段中。 數(shù)據采集模塊頁面清洗模塊數(shù)據庫模塊 圖 1 系統(tǒng)結構 E1 在具體實現(xiàn)上,首先需要對待采集站點進行分析, 確定人口地址,如論壇的版面列表地址、新聞網頁的主 頁地址等,本文以逸仙時空 . BBS 為例進行說明,入 地址是 ht ttp : bbssysu edu cn bbsal ll ,即所有版面列 表。在數(shù)據采集模塊, Hrtri 根據入口地址與自定義 eix 的網址篩選規(guī)則,開始對種子 URL進行分析,動態(tài)取 回符合條件的目標頁面文本,即論壇帖子的 html 代 碼,直到遍歷完站點內的所有 URL,為頁面清洗模塊提 供統(tǒng)一的目標

12、頁面。在頁面清洗模塊,由 HTMLparser 和正則表達式對 Heritrix 采集下來的原始頁面進行清 洗,使之轉換為所需的結構化文本,最終由數(shù)據庫模塊 存入 oracle 數(shù)據表中,以供后續(xù)分析和使用。 4 京姣現(xiàn) I 41 數(shù)據采集模塊 數(shù)據采集模塊主要由 Heirx 來完成。 Hrti rtieirx 是一個由Java開發(fā)的開源 Web爬蟲系統(tǒng),用來獲取完 整的、精確的站點內容的深度復制,可通過 . web 用戶 界面啟動、監(jiān)控、調整,允許彈性地定義要獲取的URL。 其最出色之處在于強大的可擴展性,允許開發(fā)者任意 選擇或擴展各個組件,實現(xiàn)特定的抓取邏輯,而且重新 爬行對相同的URL不

13、針對先前的進行替換,其默認提 供的組件完全支持傳統(tǒng)爬蟲的工作。 在 Heirx 架構中中央控制器 Calotol llr rti , rwCnre 是核心組件,決定了整個抓取任務的開始與結束。用 戶在 HertieU 控制臺設置抓取任務后 hrti 首 irxwb! , eirx 先構造 . xst ttnsade 對象, rwCn MLeigHnlr 然后調用 Calo . trl llr 構造一個 CaIotoe 實例并初 oe 的構造函數(shù), rwCnrl llr 始化,這樣 CrawlContol llrer 就具備了運行條件。此時, 只需調用 rqetrwSat 方法就可以啟動線程池

14、eusCaltr() 和 Frnir 以便向線程池中工作線程提供抓取用的 ote , URL鏈接(最開始的是設置好的入口種子鏈接,之后. l13 采集過程界面如圖 是分析出來的新鏈接 ) 。緊接著抓取線程工作開始, 不精確的數(shù)據采集了, 3 所示: 斷循環(huán)通過處理器鏈。除非用戶暫停或終止否則直 到無鏈接可抓,控制器認為任務執(zhí)行完成,將所有線程 關閉。 . 至(,) Heritrix 抓取流程大致如圖 2 所示: . URL的處理器,負責分配 下一個被處理的 URL 對抓取時一些先決條 件的判斷 用于解析網絡傳輸協(xié)議 用于解析當前獲取的 服務器返回的內容 用于將抓取到的信息 用于將解析出來的 U

15、RL有 件地加入到待處理隊列中 圖 2 Herti irx 工作流程 在具體的站點采集中,由于站點有很多其他鏈接, 所以經常會采集到很多其他無關的頁面,這無疑會對 下面的頁面清洗帶來麻煩,而且也降低了采集效率,因 而需要針對要采集的目標頁面來定義網址篩選規(guī)則, 以確保不會采集到其他無關頁面。具體有兩種方式: it 是向 Heritrx 添加自己的 Exractor 來限制解析出來 的URL另外也可以擴展.PostProces ssor ,對進入待處理 隊列的URL進行篩選,以剔除無關的鏈接。下面筆者 用第二種方法做個演示,對逸仙時空 IM 版的所有帖子 進行采集。 逸仙時空 . IM 版的人口

16、地址是 . ht ttp : b bbssysu. educnb bbsdoc?board=IM,對該版的 HTML代碼分析 后可得知,每個帖子的 . URL 為: ,其中. M ad:I ie : M 9837795765所以對 . IRL 地址的篩 8377A是帖子的識別名,f 選主要基于地址中的 borie 關鍵詞。在具體代 ad 和 fl 碼實現(xiàn)上,可以自己開發(fā)一個新的 PostProces ssor 類,繼 承 Frnirceue 父類, shdl oteShdlr 然后重寫父類中的 . ceue () 方法,判斷是否符合地址篩選規(guī)則,在此演示中,只 需判斷是否存在關鍵詞即可。若考慮

17、程序的可重用 性,可把該功能類封裝起來,在需要對其他不同站點進 行采集時,只需重新傳人關鍵詞即可。 最后需要在 . Heritrix 的 . WebUI 中進行一些設置, 制定抓取時的必要參數(shù),然后便可以對目標站點進行 114。LIBRARY AND ION SERVI - NFORMATICE 圖 3 Heritrix 抓取界面 . 42 頁面清洗模塊 所謂頁面清洗,就是根據后續(xù)需求來剔除目標頁 面中不需要的信息內容,從而劃分并提取出精確的信 息塊,例如論壇某張?zhí)拥陌l(fā)表時間、內容、發(fā)表. IP 等,這對于后續(xù)的信息分析等工作起著很重要的作用。 頁面清洗模塊主要由 HTMLparser 來完

18、成。 HT . MLparser是一個純JAVA編寫的HTML解析庫,它不 依賴于其他的JAVA庫,主要用于改造或提取.HTML。 HTMLparser 能超高速解析 . HTML ,而且不易出錯。對 于直接用 HTMLparser 來提取網頁鏈接并實時分析的 方法,本系統(tǒng)的優(yōu)點在于能使 . HMLar Tple 代碼模塊更 加通用化, rtri 采集好的統(tǒng) 因為該模塊處理的是由 Heix 的目標頁面代碼,只需針對頁面代碼特點來確定清 洗代碼而無需考慮抽取鏈接時的其他意外情況,這樣 的思路更有利于系統(tǒng)重用性,如圖4 所示: 頁面清洗模塊 匡 圖 4 頁面清洗流程 目標頁面是 . Heifx r

19、ti 過濾出來的統(tǒng)一度較高的頁 面, HTMLarser 讀取存儲在本地的目標頁面 ( 實際上 就是讀取HTML弋碼),然后依據HTML的規(guī)范解析, 最終得到一棵 . DOM 樹。該樹反映了目標頁面的內容 和結構,包含了頁面的各個元素以及他們之間的層次 構成關系。因為最終的結構化文本需要對應存儲到數(shù) 據庫表的各個字段中,所以需要自定義清洗規(guī)則來定 位到詳細信息,例如發(fā)帖人、發(fā)帖時間和發(fā)帖 IP 等。 自定義規(guī)則最終由 HTMLparser 強大的 API 來實現(xiàn),只 需要簡單的幾行代碼,就可以精確抽取到所需字段。 HTlreoeAsrcNda MLcasr 主要靠 . Nd 、 btatoe

20、和 Tg 來 團雪 jf ff 根工作 第宙卷第0期.20 009 年 5 月 表達HTML Node是形成樹結構表示.HTML的基礎, 所有的數(shù)據表示都是接口Noe的實現(xiàn);btatoe dAsrcNd 是Node的一種具體的類實現(xiàn),起到構成樹形結構的作 用;而Tag則是具體分析的主要內容。HTM哇寸裝了 . I ,:s 0節(jié)點解析處理提供了兩種訪問節(jié)點的方法 Viitoritr 模式和 Fle 模式。這兩種模式都可以用來實現(xiàn)頁 面清洗功能。 Fitr 對 le 模式通過設定一定的過濾條件, 每個節(jié)點進行過濾,返回一個符合規(guī)則的節(jié)點列表。 而 Visitor 模式則是遍歷提取信息,當然這個信息

21、可以 包括某些節(jié)點或者從節(jié)點分析出來的更有效的信息。 相比之下,筆者認為 Fle 模式的目標更為明確, itr 就是提取節(jié)點,所以本系統(tǒng)采用Fle 模式來實現(xiàn)頁面 itr htmlasrfles6 清洗模塊。在具體代碼實現(xiàn)上,HTMLpalser 的 org 種 . Fle , pre itr 包中已經定義了 1itr 在自定義 清洗規(guī)則時根據需求構造自己的 fitr 然后運行過濾, le , 就可以精確地過濾出不同字段信息了。 . 43 數(shù)據庫模塊 數(shù)據庫模塊的主要功能是數(shù)據的持久化保存,為 后續(xù)對信息的處理和加工提供方便。將數(shù)據庫操作作 為一個獨立模塊是出于系統(tǒng)的健壯性和移植性考慮, 如果

22、將數(shù)據庫操作直接放在頁面清洗模塊,必將使得 模塊代碼過于龐雜,不符合分層的思想,而且不能很好 地適應Web信息動態(tài)變化的特點。該模塊的具體策 略可根據實際需求來確定,對系統(tǒng)的性能影響不大。 S結 如何從 . Web 信息中準確挖掘到有價值的信息是 至關重要的。本文提出并實現(xiàn)了一種 . HeirxM rti 和 HT . Lparser相結合的web信息精確抽取的方法,用分層與 模塊分治的思想設計了對應的系統(tǒng),并且對逸仙時空 . BBS進行了試驗采集和抽取。較之以往的方法,本文 所倡導的思路有以下特點:抽取的精確度高,可以根 據數(shù)據庫表的字段進行最小單位的信息抽取;可擴 展性強,針對不同需求,用

23、戶只需在對應模塊內進行修 改,各模塊間互不影響。抽取速度快,各模塊可并行 工作,且頁面清洗都是針對本地的目標頁面,從而極大 地提高了抽取速度。隨著計算機網絡在國內的迅速普 及,Web信息抽取技術會變得越來越重要,希望越來越 多的研究人員能夠參與其中,從而使得 . Web 抽取技術 的自動化程度和準確度越來越高。 參考文獻: . 1 蒲筱哥基于 Web的信息抽取技術研究綜述現(xiàn)代情報,2007 (10) : 215219. 2 火善棟.基于網頁結構特征的網頁主要文本信息抽取策略.現(xiàn) 代計算機 (專業(yè)版 ), 20 008(4) : 73 75. 3 金硯碩,遲呈英,戰(zhàn)學剛.一種基于隱馬爾可夫聚類的

24、信息提 取方法.情報雜志, 2008(3) : 9698. . 4 冀高峰,湯庸,道煒.基于XML的自動學習 Web信息抽取.計 算機科學, 2008(3) : 8790. . 5 蘇新寧,信息檢索理論與技術.北京:科學技術文獻出版社, 2004: 273355. . 6 邱哲,符滔滔.開發(fā)自己的搜索引擎.北京:人民郵電出版社, 2007: 301337. . 7 Hfti oepg. 070Oht tt : rwe . rhv . eirxhmae206 1. . p calracie org 8 HTMLasrhmae07 一 o 5p tpre pre oepg2061 ht tt :

25、hmlasrsourceforge net . 作者簡介 陳俊彬,男, 1986 年生,發(fā)表論文 2 篇;曹樹金,男, 1962 年生,教授,發(fā)表論 文 60 篇。 . ( 上接第 . 104 頁 ) 態(tài)匹配檢索研究,并以圖書檢索為例,不僅可以根據用 戶的請求實時刷新下拉列表,而且還能獲取數(shù)據庫中 沒有的用戶請求,從而為改善用戶體驗,豐富網站內容 提供有價值的參考建議。 參考文獻: . 1 顧留碗,白世彪,戴仕寶.基于 AJAX技術的WebGIS客戶端解 決方案研究地理空間信息, 2008, 6(1) :5961. 2 AlsnR , ShaNT等譯./X基礎教程.人民 seocut tt .

26、金靈, AjI 北京: 郵電出版社, 2006. . 3 FlpCD , Tsrnae , t1 王德民,譯. iioaC , BizraBea .王新穎劉聽, Ajaxa ndPHPweh開發(fā).北京:人民郵電出版社,20 007. . 4 簡單分析 Golug ggs206 2. ht tt : ogeSet 的原理. 08 00p webdn. trueself . cnarchives 248. . 5 趙永屹,宿紅毅,胡韶輝.結合 AJAX與J2EE技術的WEB言息檢 索系統(tǒng)的設計與實現(xiàn).微計算機信息, 20 006, 2 22(9-3) : 149151 . . 作者簡介 吳江壽,男

27、, 1982 年生,碩士研究生,發(fā)表論文 5 篇;劉世洪,男, 1960 年生, 研究員,博士,碩士生導師, 發(fā)表論文 5 0余篇;蘇曉路,女,1961 年生,研究員,碩士生導師,發(fā)表論文 20余篇;鄭火 國,男, 1979年 生,助理研究員,發(fā)表論文 10余篇。. 115 第一章 總論錯誤!未定義書簽 1.1項目背景錯誤!未定義書簽 1.2項目概況錯誤!未定義書簽 1.3 結論與建議 錯誤!未定義書簽 第二章 改造的意義和必要性 錯誤!未定義書簽 2.1項目實施的背景 錯誤!未定義書簽 2.2項目實施的意義和必要性 錯誤!未定義書簽 第三章改造方案.錯誤!未定義書簽 3.1技改前情況.錯誤!未定義書簽 3.2改造方案.錯誤!未定義書簽 第四章 場址方案.錯誤!未定義書簽 4.1場址所在位置現(xiàn)狀錯誤!未定義書簽 4.2場址建設條件錯誤!未定義書簽 第五章 技術方案、設備方案與工程方案 .錯誤!未定義書簽 5.1 技術方案 .錯誤!未定義書簽 5.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論