一種基于樹(shù)的Whois文檔解析方法_第1頁(yè)
一種基于樹(shù)的Whois文檔解析方法_第2頁(yè)
一種基于樹(shù)的Whois文檔解析方法_第3頁(yè)
一種基于樹(shù)的Whois文檔解析方法_第4頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余5頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、一種基于樹(shù)的文檔解析方法目前,大多數(shù)對(duì)攻擊的研究與實(shí)踐是傳統(tǒng)的主動(dòng)探測(cè)和對(duì)安全漏洞的利用。由于這種主動(dòng)探測(cè)需要與目標(biāo)交互,常常容易被目標(biāo)的防火墻或入侵檢測(cè)系統(tǒng)記錄。但是,很多組織忽視了信息泄露的潛在威脅,攻擊者無(wú)須訪問(wèn)組織內(nèi)部的服務(wù)器就可以通過(guò)公共服務(wù)被動(dòng)收集組織內(nèi)部的信息,從而逃避非法檢測(cè)。2004 年, NGS(Next Generation SecuritySoftware Ltd.)1 提出被動(dòng)信息收集(PassiveInformation Gathering) 2 的概念,引起很多組織對(duì)其信息泄露的重視。信息收集的內(nèi)容以Whois 結(jié)果為主。本文從分析信息收集的關(guān)鍵問(wèn)題入手,針對(duì)該類

2、信息的表示特點(diǎn),提出了一種基于樹(shù)的文本解析策略。該方法對(duì)于解決半結(jié)構(gòu)化的文本信息解析具有一定的普遍意義。1 相關(guān)研究根據(jù)不同的獲取方法,信息收集的結(jié)果一般有兩種形式,即 Web文檔和半結(jié)構(gòu)化的文本。1.1 Web 信息抽取 3,4Web信息抽取通常利用包含在Web文檔中的一些元信息、簡(jiǎn)單的句法、分隔符信息等來(lái)完成信息抽取工作。在該類信息抽取系統(tǒng)中多數(shù)使用包裝器來(lái)進(jìn)行信息抽取。包裝器可以由手工創(chuàng)建,或者(半)自動(dòng)化創(chuàng)建。在手工創(chuàng)建包裝器的過(guò)程中,既可以使用知識(shí)工程途徑,也可以使用由特定領(lǐng)域?qū)<覄?chuàng)建的本體論來(lái)手工創(chuàng)建包裝器。為了減輕設(shè)計(jì)者的勞動(dòng)強(qiáng)度,逐漸將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于信息抽取。越來(lái)越多的信息

3、抽取系統(tǒng)是(半)自動(dòng)化地使用機(jī)器學(xué)習(xí)技術(shù)和數(shù)據(jù)挖掘技術(shù)等來(lái)創(chuàng)建的。機(jī)器學(xué)習(xí)中的一些成熟技術(shù)被用來(lái)創(chuàng)建信息抽取系統(tǒng),如歸納邏輯編程、命題規(guī)則學(xué)習(xí)、樸素貝葉斯網(wǎng)絡(luò)、隱馬爾科夫模型等。1.2文本挖掘 5文本挖掘 (Text Mining )是信息挖掘的一個(gè)研究分支,用于基于文本信息的知識(shí)發(fā)現(xiàn)。文本挖掘是利用智能算法,如神經(jīng)網(wǎng)絡(luò)、基于案例的推理、可能性推理等,并結(jié)合文字處理技術(shù),分析大量的非結(jié)構(gòu)化文本源 (如文檔、電子表格、客戶電子郵件、問(wèn)題查詢、網(wǎng)頁(yè)等) ,抽取或標(biāo)記關(guān)鍵字概念,文字間的關(guān)系,并按照內(nèi)容對(duì)文檔進(jìn)行分類,獲取有用的知識(shí)和信息。文本挖掘研究的關(guān)鍵在于文本內(nèi)容的量化表征。針對(duì)面向信息收集的

4、資源提取,目前已成形的文本挖掘和 Web信息提取的方法過(guò)于復(fù)雜,需要找到更適合、更簡(jiǎn)潔的方法。2 問(wèn)題分析泄密信息收集往往是攻擊的前奏,不僅包括對(duì)目標(biāo)實(shí)體信息的公開(kāi)查詢和存儲(chǔ),還包括對(duì)信息的歸類、提取和解析,為進(jìn)一步分析和利用提供便利的信息基礎(chǔ)。泄密信息收集的外延很廣,針對(duì)其服務(wù)的對(duì)象,泄密信息收集的范圍主要是全球范圍內(nèi)與目標(biāo)網(wǎng)絡(luò)特性相關(guān)的網(wǎng)絡(luò)實(shí)體信息。這些信息可以通過(guò)各種渠道的公開(kāi)查詢獲取。收集到的信息對(duì)于目標(biāo)網(wǎng)絡(luò)的定位、網(wǎng)絡(luò)路徑與地理位置的有機(jī)統(tǒng)一、網(wǎng)絡(luò)規(guī)模和拓?fù)浣Y(jié)構(gòu)的探測(cè)與分析均有著重要的價(jià)值。2.1數(shù)據(jù)源收集的數(shù)據(jù)主要來(lái)自以下在線資源:( 1) Internet 服務(wù)注冊(cè)商 6 10全

5、球 IP 地址、 AS信息的注冊(cè)和維護(hù)機(jī)構(gòu)。( 2)域名系統(tǒng)域名的本地及全球注冊(cè)和維護(hù)機(jī)構(gòu)。( 3)搜索引擎獲取組織間鏈接關(guān)系的查詢工具。( 4)其他數(shù)據(jù)集與信息采集相關(guān)的其他數(shù)據(jù)集, 包括 Whois 服務(wù)器信息、 IP 地址管理信息、地理位置信息等。這些信息一般可以借助 Web查詢或相關(guān)協(xié)議查詢,由于通過(guò) Web方式得到的數(shù)據(jù)存在很多 HTML的標(biāo)記信息,解析比較煩瑣。在具體的實(shí)施中更側(cè)重于采用相關(guān)協(xié)議查詢返回的純文本信息,如Whois 查詢、 DNS查詢等。下面顯示了一段 IP 地址的 Whois 查詢結(jié)果。2.2關(guān)鍵問(wèn)題在實(shí)際情況下,不同的數(shù)據(jù)源返回的信息格式往往各不相同,甚至同一數(shù)據(jù)

6、源返回的信息格式也有區(qū)別。另外,有些數(shù)據(jù)源還會(huì)更改其信息的表示格式,造成原來(lái)的解析算法完全不適用。查詢得到的文本內(nèi)容體現(xiàn)了數(shù)據(jù)源的部分信息結(jié)構(gòu);提取過(guò)程中無(wú)須過(guò)多考慮文檔結(jié)構(gòu),重點(diǎn)解決名稱的相似性問(wèn)題,即不同數(shù)據(jù)源在描述同一類數(shù)據(jù)時(shí)會(huì)采用不同的名稱。這樣導(dǎo)致文檔解析功能的擴(kuò)展和更新對(duì)數(shù)據(jù)源的依賴性很大。為了解決這一問(wèn)題,需要找到一種適應(yīng)性強(qiáng)、可擴(kuò)展性好的解析策略。3 信息解析過(guò)程首先引入兩個(gè)特定的概念,即類型和格式。此處類型按照查詢請(qǐng)求分類,對(duì)不同類型的查詢所解析的內(nèi)容有所不同,如對(duì) IP 地址分配信息的查詢結(jié)果,需要解析該地址所在IP地址段的網(wǎng)絡(luò)名稱、組織名、地址、國(guó)家代號(hào)等;而對(duì)AS分配信

7、息的查詢結(jié)果,需要解析該AS的 AS名稱、所屬國(guó)家等,有幾種查詢就存在幾種不同類型。格式是針對(duì)同一類型的不同表示形式而言的,如同樣描述一個(gè)IP 地址段,有的使用“ NetRange:”,有的使用“ inetnum :”,這樣一種類型的查詢結(jié)果可能有很多種不同的格式。從直觀上來(lái)講,對(duì)文本信息的解析往往側(cè)重于針對(duì)不同的文本格式解析不同的內(nèi)容,即一種格式一個(gè)解析算法。此時(shí)針對(duì)不同的格式開(kāi)發(fā)不同的解析算法,如果出現(xiàn)一種新的格式,則增加一種解析算法。這種解析策略適用于文本類型統(tǒng)一、格式較一致的情況。隨著文本類型的增多,文本格式的差異也越來(lái)越大,一種格式一個(gè)解析算法的解析策略已遠(yuǎn)遠(yuǎn)不能適應(yīng)軟件開(kāi)發(fā)的要求。

8、當(dāng)出現(xiàn)不同格式的查詢結(jié)果時(shí), 增加一種解析算法,同時(shí)在調(diào)用這種解析算法前還需要額外的判斷和錯(cuò)誤處理,增加了系統(tǒng)實(shí)現(xiàn)的復(fù)雜性和難度。其軟件效率低、可擴(kuò)展性不好??紤]到同一類型不同格式的文本格式差異不大的特點(diǎn),提出了一種類型一個(gè)解析算法的解析策略。信息解析的基本步驟主要包含以下兩步:( 1)建立文本解析模型。從已收集到的大量文檔集中對(duì)文本分類, 提取特征,建立特征集, 形成解析模型的過(guò)程。該過(guò)程是信息解析的主要過(guò)程,只要文本解析模型能夠涵蓋大部分的文本特征,文本信息的解析就很容易完成了。( 2)解析文本信息。將一個(gè)待解析的源文件在( 1)已經(jīng)建好的文本解析模型中分類并與特征集匹配一次,評(píng)價(jià)解析效果

9、,將解析結(jié)果以數(shù)據(jù)庫(kù)記錄的形式保存。對(duì)于一個(gè)文檔集,文本的類型能夠使用該文檔的來(lái)源標(biāo)志,分類后的文本基本上具有大致相同的特征,此時(shí)對(duì)每一類文本建立文本特征。為了提高解析模型的適應(yīng)性,特征建立后需要針對(duì)文本特征中的同義詞(即指示同一內(nèi)容的關(guān)鍵字)歸類,歸類的過(guò)程即是對(duì)文本特征集的優(yōu)化,由此建立起來(lái)的文本特征能夠基本適應(yīng)文本解析的需要。為了提高文本解析模型的適應(yīng)性,解析模型應(yīng)具有良好的可擴(kuò)展性,隨著文檔集數(shù)量的增加,可以不斷對(duì)該模型進(jìn)行質(zhì)量評(píng)價(jià)和修正,使文本解析模型不斷完善。文本解析模型建立的一般過(guò)程如圖 1 所示。4 文本解析模型4.1文本的分類對(duì)于一個(gè)文檔集,文本的類型能夠根據(jù)該文檔的來(lái)源標(biāo)志

10、,從目前信息采集的內(nèi)容來(lái)看,文本的類型主要有以下幾種:( 1) IP 地址 Whois 查詢結(jié)果文本。( 2)域名 Whois 查詢結(jié)果文本。( 3)自治系統(tǒng) Whois 查詢結(jié)果文本。( 4)地理位置信息查詢結(jié)果 Web文檔。分類后的文本基本上具有大致相同的文本描述特征,使得在確定文本類型的基礎(chǔ)上進(jìn)一步分析文本的格式,建立文本特征相對(duì)簡(jiǎn)化。4.2文本特征的建立文本分類后,針對(duì)單一類型的文本分析其格式特點(diǎn),以類型為單位建立文本特征。文本特征是指關(guān)于文本的元數(shù)據(jù),包含文本的名稱、 日期、大小、來(lái)源、關(guān)鍵字、 內(nèi)容等。文本的解析尤其應(yīng)處理好對(duì)文本特征中關(guān)鍵字的描述。對(duì)文本特征的描述采用特征向量來(lái)表

11、示,每一個(gè)關(guān)鍵字的特征向量描述為其中, V(i) 代表一種類型文本的某個(gè)關(guān)鍵字的特征向量;Keyi 表示該類型文本中的某個(gè)關(guān)鍵字;N(Keyi) 表示該關(guān)鍵字代表的內(nèi)容;W(Keyi) 表示在該類型文本中該關(guān)鍵字的權(quán)值,可以表示該關(guān)鍵字在文本中出現(xiàn)的頻率或出現(xiàn)的必要性等。多個(gè)關(guān)鍵字特征向量的集合就構(gòu)成了該類型文本解析模型的特征矩陣:對(duì)于域名 Whois 查詢,每一個(gè)正常的應(yīng)答文本中均應(yīng)存在特征矩陣中的若干個(gè)關(guān)鍵字,此處權(quán)值W(Keyi) 表示該關(guān)鍵字是否必須存在于應(yīng)答文本中。如果是0,則表示該關(guān)鍵字所指示的內(nèi)容是可選的,在應(yīng)答文本中未必存在。另外,同一種內(nèi)容可能會(huì)在不同文本中用多個(gè)關(guān)鍵字指示,

12、如“域名服務(wù)器”在該特征向量中分別列出了“DomainServers ”“ Name Server ”和“ Domain Servers inListed Order”三種關(guān)鍵字,這表示不同的文本指示一種內(nèi)容使用的關(guān)鍵字可能不同。4.3特征集的優(yōu)化特征集的優(yōu)化是對(duì)已經(jīng)建立好的特征集的進(jìn)一步分析和歸類,從對(duì)文本特征的描述來(lái)看,不同格式的文本中,對(duì)同一內(nèi)容的指示可能采用的關(guān)鍵字并不相同,但該內(nèi)容卻在每一個(gè)該類型的文本中存在(即權(quán)值為1)。從解析的角度來(lái)看,這些關(guān)鍵字是同義詞,解析時(shí)應(yīng)一并考慮,同時(shí)解析過(guò)程中同義詞的選擇應(yīng)該由一個(gè)度量來(lái)表示。在對(duì)特征集的優(yōu)化過(guò)程中,我們?cè)诿恳粋€(gè)關(guān)鍵字的特征向量中增加了關(guān)鍵字優(yōu)先級(jí)的描述。此時(shí),對(duì)于同一種內(nèi)容對(duì)應(yīng)的多個(gè)關(guān)鍵字,如“域名服務(wù)器”在該特征向量中分別列出了“DomainServers ”“ Name Server ”和“ Domain Servers inListed Order”三種關(guān)鍵字,分別由不同的優(yōu)先級(jí)來(lái)描述,相同的 N(Keyi) 表示同義詞,不同的優(yōu)先級(jí)描述在信息解析過(guò)程中對(duì)關(guān)鍵字選取的次序。優(yōu)先級(jí)的引入雖然在特征集的存儲(chǔ)上增加了空間,但在解析過(guò)程中,通過(guò)選擇最可能出現(xiàn)的關(guān)鍵字,減少了關(guān)鍵字匹配失敗的幾

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論