




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
、 設計實現(xiàn)了一款融合數(shù)據(jù)分析、信息檢索、人工免疫等多種技術的大數(shù)據(jù)平臺安全日志分析原型系統(tǒng),實現(xiàn)了對平臺安全日志的多角度次、便捷精準的分析基于開源OLAP引擎Mondrian對網絡檢測系統(tǒng)捕獲的安全日志進行數(shù)據(jù)建模,并運用OLAP技術實現(xiàn)對平臺狀況的多角度分析。利用一種基于安全屬性相似度的聚類算法對大量重復冗余的信息進行合并源搜索引擎ElasticSearch實現(xiàn)了對日志的多種方式查詢并實現(xiàn)了日志搜索結果的、 對網絡的安全信息進行多角度分析,發(fā)現(xiàn)的發(fā)展趨勢和薄弱環(huán)節(jié)。關鍵字:安全日志、分析、信息檢索、人工免Currently,bigdataiswidelyapplied,andthesecurityofbigdatatformisincreasinglyimportant.Theoperationofvarioussoftwareandhardwareoftformandtheinformationofuserbehaviorarerecordedbysystemlogswhichprovidesignificantsupportforprotectingthesafetyofthebigdatatform.Nowadays,mostoflogysissoftwarecanmerelyprovidethebasicfunctionssuchaslogqueryandsimplestatistics.Butthesearchfunctionisrelativelysingle,thestatisticalinformationisquiterough,andit’sunabletododeeperminingonthesecuritylogs,whichcannotmeettheneedsoftheysisoftformsecuritylogs.Thispaperdesignsaprototypesystemforsecuritylogsysisofbigdatatform,whichisimplementedwithafusionofmultidimensionaldataysis,informationretrieval,dataminingandother.Withityoucanconvenientlydosecuritylogysismorecomprehensivelyfromthedeepleveloftheloginformationandtheysisresultswouldbemoreaccurate.MultidimensionaldatamodelingforthealarmlogofsecurityeventwhichiscapturedbythenetworkintrusiondetectionsystembaseonMondrianwhichisanopensourceOLAPengine,thenapplytheOLAPtechnologytoachievetheysisofthenetworksecuritysituationofthebigdatatform.Usingaclusteringalgorithmwhichisbasedonthesimilarityoftheattributesofsecurityeventtomergealargenumberofredundantalarminformationmostofwhicharerepeated,thiscanreducetheburdenonsystemysis.Collectingthetformsystemsecuritylog,extractingthekeyinformationfieldsfromthem,thenachieveavarietyofwaysforlogsearchingbasedonElasticSearchwhichisanopensourcesearchengine.Atthesametime,toimplementthecontextassociationofthesearchresult,whichcanhelpyoutofindwhathappenedaroudthetargetresultlogconveniently.Onthisbasis,thekeyinformationfieldsofthesecuritylogwereclassifiedforstatisticalysis.TogetuseroperationcommandhistoryfromsystemlogandapplyArtificialImmunealgorithmtoimplementetheuser’sabnormaloperationsFinally,thebigdatatformsecuritylogysissystemhasbeenevalutatedrealisticenvironmentandtestedbysomeexperientaldatas.Alltheresultsshowthat,thissystemcanysisthenetworkintrusionsecurityalarmswithdifferentviewwhichcaneffectivelydiscovertheintrusiontrendsandweaknessesofthenetwork.Itsubstantiallyimprovethefunctionsofloginformationsearchingandstatistics,andthissystemcaneffectivelyidentifytheuse’sabnormalbehaviorwhichachieveagoodauditofuser:Securitylog;Multidimensionalysis;Informationretrieval;摘 目 第一章緒 課題來 研究內 第二章相關技術介 OLAP分析技 OLAP的基本概 OLAP的基本操 MDX語 OLAP的實現(xiàn)技 數(shù)據(jù)挖掘的 本章小 第三章安全日志分析系統(tǒng)需求和解決方 安全概念建 基于Mondrian的安全分 基于安全屬性相似度的聚類分 基于Hadoop的日志分類歸 本章小 第四章系統(tǒng)詳細設計與實 Snort警報日志分析模塊的實 Mondrian分析的實 本章小 第五章系統(tǒng)實驗及評估分 實驗一:安全日志分 實驗二:安全日志聚 實驗三:基于Hadoop日志分類歸 本章小 第六章總結與展 參考文 附 附錄一術語 附錄二索 致 圖2.1數(shù)據(jù)庫效 圖2.2OLAP基本操作示 圖2.3數(shù)據(jù)挖掘基本流 圖2.4T細胞和B細胞發(fā)育過 圖2.5克隆選擇算法基本框 圖3.1日志分析系統(tǒng)功能模 圖3.2安全概念模型 圖3.3概念模型 圖3.4主機安全概念模型 圖3.5Level層次樹Schema定 圖3.6基于屬性相似度的聚類算法描 圖3.7日志收集子系統(tǒng)拓撲示意 圖3.8auth.log日志文件內容片 圖3.9authlog解析的正則表達 圖3.10日志上下文關聯(lián)流 圖3.11基于GSP算法的用戶異常行為檢測流 圖3.12用戶操作命令記 圖3.13成熟檢測器的生 圖3.14用戶操作行為異常檢測流 圖4.1大數(shù)據(jù)平臺安全審計系統(tǒng)架構 圖4.2安全日志分析系統(tǒng)架構 圖4.3雪花型數(shù)據(jù)庫映射模 圖4.4LogSearchQuery類設 圖4.6MapReduce多路輸出代碼片 圖4.7檢測器生成算 圖4.8用戶操作異常檢測算 圖5.1實驗環(huán)境部署示 圖5.2MondrianMDX查詢語 圖5.3MDX查詢表格展 圖5.4MDX查詢折線圖展 圖5.5MDX查詢餅形圖展 圖5.6OLAP鉆透結果展 圖5.7相似度聚類參數(shù)及結果簡 圖5.8相似度聚類結果(一 圖5.9相似度聚類結果(二 圖5.10相似度聚類精簡 圖5.11MapReduce進行日志分類不同MapTask下的時間消 圖5.12用戶操作記錄編碼格 圖5.13用戶操作異常行為檢測正確 表2-1系統(tǒng)實現(xiàn)所應用的相關技 表2-2本系統(tǒng)涉及的廣義安全日 表2-3免疫學中的相關概 表2-4異常檢測系統(tǒng)和生物免疫系統(tǒng)的對應關 表3-1本系統(tǒng)收集和分析的日志描 表3-2基本類型模式正則匹配表達 表3-3系統(tǒng)標識模式正則匹配表達 表3-4時間類型模式正則匹配表達 表4-1Snort警報數(shù)據(jù)庫表格 表4-2屬性相似度聚類算法實現(xiàn)中相關類功能說 表4-3屬性相似度聚類算法中參數(shù)說 表4-4警報間整體相似度計算代碼實 表4-5屬性相似度聚類算法實現(xiàn)代 表4-6數(shù)據(jù)庫中選定的事實表和維 表4-7事實表與度量方法設 表4-8部分維表直接映 表4-9維表雪花型擴展映 表4-10Mondrian數(shù)據(jù)源配 表4-11Mondrian項目Web配置列 表4-12部分日志字段信息說 表4-13部分日志解析Grok匹配模式表達 表4-14Query類別說 表4-15MapReduce實現(xiàn)日志分類歸整各階段說 表4-16用戶操作記錄信息二進制編碼信 表5-1系統(tǒng)測試項目及測試內 表5-2MapReduce日志分類歸檔效 表5-3系統(tǒng)用戶操作習 表5-4用戶操作特征屬性及含 表5-5用戶操作異常行為檢測正確 課題來源于軟件與微電子學院軟件測試與質量保證關于大分析、歸檔的軟件流程,重點是使用rian分析技術對大數(shù)據(jù)平臺安全保障系統(tǒng)捕獲的安全日志建立數(shù)據(jù)模型并基于模型進行數(shù)據(jù)分析和結果展早在1980年,著名未來學家·就在《第三次浪潮》一書中把大數(shù)據(jù)生動地稱贊為“第三次浪潮的華美樂章”?,F(xiàn)在,大數(shù)據(jù)時代已經真真切切的融入了我們的生活?;ヂ?lián)網數(shù)據(jù)中心,互聯(lián)網上的數(shù)據(jù)每年都在成倍的增長,幾乎平均每兩年都翻倍一次,而目前互聯(lián)網上百分之九十以上的數(shù)據(jù)都是最近幾年產生的。另外,數(shù)據(jù)也遠非單指人們在互聯(lián)網上發(fā)布的相關信息:企業(yè)的大量生成資料信息,業(yè)務來往信息;銀行,金融信息;鐵路春運,交通、物流以[1]。大數(shù)據(jù)對于企業(yè)來說,就是一座礦山,里面蘊藏著巨大的。從互聯(lián)網企業(yè)到傳統(tǒng)企業(yè),越來越多的開始重視對大數(shù)據(jù)的分析、利用,從中挖掘巨大的而使企業(yè)獲益。在大數(shù)據(jù)逐步成為主流的今天,大數(shù)據(jù)平臺Hadoop及其相關技術起到了基礎性的關鍵作用,成為當前不可或缺的一個技術平臺。由于Hadoop良好的開源性、顯著地降低了應用成本并提高了強大的可擴展性,Hadoop正成為當前的主流大數(shù)據(jù)處理平臺[2],在很多大型上都已經得到了應用,如亞馬遜、 和YahooHadoopHadoop設計之初并沒有進行安全方面的考慮,其運行環(huán)境被假定是安全鍵業(yè)務領域的分析,其涉及到的數(shù)據(jù)也對企業(yè)至關重要,甚至有的是企業(yè)的數(shù)據(jù)。因此,Hadoop平臺的相關安全性問題也變得日益突出[2]:Hadoop缺乏有效的安全認證,容易被冒名使用,用戶節(jié)點,騙取用戶的數(shù)缺乏對集群使用人員的操作,公司內部人員的誤操作或越權操作都可能導致數(shù)據(jù)的。Hadoop平臺的使用,一些對安全性要求較高的行業(yè)企業(yè),如公司,甚至因此放棄了使用Hadoop平臺來分析業(yè)務數(shù)據(jù)??紤]到當前存在的這些安全隱患,Hadoop集群的安全性架構受到了越來越多的關注。HadoopSphereHadoop集群的安全性架構[4],增強了對Hadoop集群的配置管理;結合基于角色,確保職責分離;添加認證機制,對客戶端進行安全認證;完善日志,對集群相關的操作和事務活動進行記錄;對集群性能進行持續(xù)和實警等等。基于上述安全性架構,了為集群部署必不可少的“”,還應加強對捕獲的安全日志信息的分析,找行為也應進行必要的分析挖掘[5],有效的識別用戶的異常操作,如操作,越權操作等,及時發(fā)現(xiàn)內部人員操作不當造成的數(shù)據(jù)。因此,選擇有效的方式對檢測系統(tǒng)捕獲的安全日志進行分析,是反的重要,能夠從大量的網絡信息中發(fā)現(xiàn)行為[6],并能分析 Mondrian分析技術[7]、聚類技術[8]、關聯(lián)分析技術[9]和人工免疫技術[10]等,通過分析平臺的網絡、主機檢測系統(tǒng)捕獲的安全日志和系統(tǒng)相關日安全概念建概念模型[11]是對現(xiàn)實世界中問題域內的事物信息的描述,表征了待解釋的系統(tǒng)到易于用戶理解,應該是簡單、清晰的。本文通過構建安全概念模型,抽象出描述安全信息結構為安全提供統(tǒng)一表示方式對研究分析安全十分重要是在相似計算的基礎上對收集來的數(shù)據(jù)進行有效地分類[12]。本文對捕獲的大量安全進行基于屬性相似的聚類分析,從而找出安全的關聯(lián)關系,設計可行的聚類算法對安全的分析很有幫助。聯(lián)機分析處理技術[13]是針對特定問題對聯(lián)機數(shù)據(jù)進行和分析能夠處理多到多方面的細節(jié)信息,更好的發(fā)現(xiàn)安全發(fā)生的趨勢和異常信息的變化情況。[14]。本文在完成對日志收集整理的基礎上,使用ElasticSearch(一個基于開源軟件LuceneRESTful風格的搜索引擎)對日志信息進行全文檢用到網絡檢測,模式識別等領域。本將結合人工免疫的否定選擇算法,實現(xiàn)本文以安全日志和系統(tǒng)安全日志為出發(fā)點:一方面,通過對Hadoop集群部署網絡檢測系統(tǒng)Snort和主機檢測系統(tǒng)Sagan,獲取到大量的信息和系統(tǒng)安全信息。在此基礎上,抽象出安全的概念模型,設計并實現(xiàn)基于屬性相似度的聚類算法對捕獲的安全進行聚類,同時利用Mondrian建模技術對安全信息進行OLAP分析,可以從不同角度,綜合深ElasticSearch為日志創(chuàng)建索引,實現(xiàn)對日志的全Mapreduce并發(fā)計算框架實現(xiàn)海量構建安全概念模型,抽象出描述安全信息結構作為安全統(tǒng)一的表示方式,作為安全分析的基礎。設計與實現(xiàn)了基于事情屬性相似度的聚類分析算法,對捕獲的大量安全進行聚類分析,從而找出安全的關聯(lián)關系,如端口掃描、DDos等,同時也可以對大量重復的出現(xiàn)的信息進行有效的過濾?;贛ondrian(一種開源的OLAP分析引擎)實現(xiàn)對安全的分析和結果展示可以方便地綜合得到多方面的細節(jié)信息更好的發(fā)現(xiàn)安全發(fā)生ElasticSearch(LuceneRESTfulMapreduce并發(fā)計算框架實現(xiàn)海量日志的高效分類歸檔。 ,第一章首先對本文的研究課題、研究背景作了簡單論述了本文在大數(shù)據(jù)平,第二章主要對本文中將要用到的相關技術進行了介紹,主要包括OLAP分第三章介紹了安全分析和相關日志分析的主要方法首先介紹安全概念模型的構建,給出了基于屬性相似度聚類分析算法的設計,之后基于MondrianMapreduce實現(xiàn)大量日志的高效分類歸檔。基于用戶主機操作日試和性能測試,并對進行了分析和評估。這一章將對基于和日志的大數(shù)據(jù)平臺安全分析子系統(tǒng)用到的關鍵技術進行本 實現(xiàn)的大數(shù)據(jù)平臺安全日志分析系統(tǒng)主要實現(xiàn)了大數(shù)據(jù)平臺安全日志的收集、解析、分析、歸檔,重點是使用rian分析技術對大數(shù)據(jù)平臺安全保障系統(tǒng)捕獲的安全日志建立數(shù)據(jù)模型并基于模型進行數(shù)據(jù)分析和結果展示實現(xiàn)海量日志的統(tǒng)計分析和分類歸檔并結合人工免疫數(shù)據(jù)挖掘算法對用戶操作行為日志進行挖掘分析以便發(fā)現(xiàn)異常的用戶行為在系統(tǒng)設計的過程中主要用到的相關技術如表2-1所示:表2-1SnortMondrianOLAP分ElasticSearchHadoopMapReduce,活動以及這些操作的結果信息按時間順序進行記錄的有序集合[16]。為了記錄計算機的日?;蛘呔W絡主機安全警告和用戶誤操作警報等發(fā)生的日期及時間戳及相關的其他信息。這些日志信息對,處理錯誤計算機正常運行以及計算機,安全日志[17]分為狹義上的安全日志和廣義上的安全日志。狹義上的安全日志特指計算機系統(tǒng)(Windows系統(tǒng)、Linux系統(tǒng))在配置安全策略后捕獲的安全的日括檢測系統(tǒng)產生的安全日志以及數(shù)據(jù)庫,服務器日志等。 主要包括了檢測系統(tǒng)安全警報日志(Snort和Sagan,Linux系統(tǒng)日志,數(shù)據(jù)庫日志,Hadoop平臺日志。具體日志如表2-2所示:表2-2系統(tǒng)認證日安全警報日網絡警報日主機警報日MysqlMysqlMysqlKerberosKerberosKerberosClouderaClouderaClouderaLinux系統(tǒng)日志可能會有細微差別,主要內容是一致的。日志分析主要包括日 及日志數(shù)據(jù)歸檔這么幾個階段[18]日志:由于日志種類繁多,且分布在集群不同的主機結點上,因分析結果展示:生成分析結果報表,并直觀的方式展示給相關人員,便于給系統(tǒng)安全人員提供幫助。OLAP分析技聯(lián)機分析處理(OLAP)的概念最早的(1993年)提出者是關系數(shù)據(jù)庫之父·庫德(E·F·Codd)博士,聯(lián)機分析處理是針對特定問題,對聯(lián)機數(shù)據(jù)進行和分析,能夠處理信息的軟件技術[19]。它主要用于組織大型商務數(shù)據(jù)庫,且能夠有效地可交互的存取,同時保證了數(shù)據(jù)的穩(wěn)定一致,還允許相關決策人員對數(shù)據(jù)進行更次的觀察??梢赃@樣理解,聯(lián)機分析處理是數(shù)據(jù)分析工具的集合,因為它的技術OLAPOLAP采用了分析技術,其關鍵就是把數(shù)據(jù)組織成數(shù)據(jù)庫[20]。這種多維數(shù)據(jù)庫中以軸(axes128個軸)和單元(cell)圖2.1數(shù)據(jù)庫效圖2.1是一個公司的數(shù)據(jù)庫的效果圖,從圖中可以清楚的看到這個不同粒度的層次進行劃分;目的地可以按國家、省份、城市等層次來劃分組織。在OLAP中有如下幾個重要的基本概念[21]:數(shù)據(jù)立方體(Cube):數(shù)據(jù)立方體也被稱為數(shù)據(jù)集,是二維表格的擴展,是數(shù)據(jù)的載體,由一組維度和度量值構成的數(shù)據(jù)空間。的數(shù)字化的信息,一般是一個數(shù)值度量指標,例如,“銷售額”、“利潤額”、“量”O(jiān)LAP的分析操作奠定了基礎。額數(shù)據(jù)在時間維度上的具置(也就是時間軸上的某一點或區(qū)間)。數(shù)據(jù)單元(Cell):每個維的取值組成的數(shù)組和度量對應著數(shù)據(jù)立方體中的一(V1,V2,...,Vn(2014省市,航空,1000噸,表示該公司在2014年第二季度通過航空方式向省市貨物1000噸,這個數(shù)組對應著數(shù)據(jù)立方體中的一OLAP分析能夠使分析人員和決策者能夠從多角度不同側面觀察對數(shù)據(jù)集進行切分和變換來實現(xiàn)多視角分析。OLAP分析中基本的數(shù)據(jù)分析操作有切片等[21]。圖2.2是在數(shù)據(jù)立體上進行分析基本操作的示意圖。2.2OLAPi上的一個切片。切塊(Dice):在數(shù)組的某一特定維度上選取某一區(qū)間段的維成員,也就是在(區(qū),產品,“年月至年月”,營業(yè)額)是一個切塊。鉆取(Drill-down)201320132013MDXMDX是Multi-dimnesioneXpesrsions的縮寫形式,即表達式[22]。它是一種化查詢語言(SQL)的查詢語言,但它不是對SQL的擴展。MDX適合以編程的方式從數(shù)據(jù)庫中進行數(shù)據(jù)檢索,它是以程序方式進行數(shù)據(jù)分析的關鍵。通過MDX可以方便地從多個視角觀察數(shù)據(jù),實現(xiàn)對數(shù)據(jù)立方體的切片、切塊等操作。SQLMDXSELECT<AXIS1>{,<AXIS2>,...}FROM<CUBE>WHERESELECTFROMWHERESELECT子句:選擇一個或多個軸,指明哪些信息(度量值)應該本顯示。FROM子句:指明在哪個數(shù)據(jù)立方體中進行數(shù)據(jù)查詢選擇。WHERE子句:在某個維度的維層上進行數(shù)據(jù)切片。OLAP在實現(xiàn)OLAP的時候,目前主流有兩種實現(xiàn)技術[23]:一種是被稱為聯(lián)機處矩陣需要做稀疏處理操作,對要被綜合的數(shù)據(jù)進行快速索引,在數(shù)據(jù)庫上進行OLAP操作。另一種技術叫做關系型聯(lián)機分析處理(RelationalOnlineyticalProcessing),簡稱為ROLAP,它是利用關系數(shù)據(jù)庫來和管理基本數(shù)據(jù)和聚合數(shù)ROLAP情況下,用戶通過提交分析請求(如MDX查詢表達式),ROLAP分析引擎(Mondrian)SQL語句提交給關系數(shù)據(jù)庫,從關系數(shù)據(jù)庫當?shù)臄?shù)據(jù)庫也是進行ROLAP分析的關鍵。OLAPMOLAPROLAP。那么當OLAPMOLAPROLAP,這是個值得思考的問題。雖然在數(shù)據(jù)方面數(shù)據(jù)表比關系表看似有不少優(yōu)勢。但OLAP實現(xiàn)方式。MOLAPROLAP分別適用于不同場景,在維度較少,數(shù)據(jù)量不大的時候,可實現(xiàn)技術基于關系數(shù)據(jù)庫實現(xiàn)分析,另外由于關系數(shù)據(jù)庫的廣泛應用和ROLAP較大的靈活性,ROLAP成為分析的主要實現(xiàn)方式。本系統(tǒng)針對Snort警報的分析模塊也是基于ROLAP實現(xiàn)的數(shù)據(jù)挖掘(DM,DataMining的縮寫,也被翻譯為數(shù)據(jù)挖礦或資料勘探,是通[15。表示規(guī)律三個主要步驟[24]。析、關聯(lián)分析、分類分析和特異群組分析等[15]。(如可視化,圖形報表)2.32.3分類預測分析法等[15]。k-means是一種經典的聚類算法[25]k個劃關聯(lián)規(guī)則[26]A→B這樣的蘊含式,其中,AB分別成為關聯(lián)規(guī)則的前(consequentRulesApriori算法[27(Prior)Apriori算法在生成完Apriori算法在挖掘較長的頻繁項集時性能通常會比較低下。FP-Growth算法[28]也是基于頻繁項目集的關聯(lián)規(guī)則挖掘算法,它把事務數(shù)據(jù)庫壓縮成一棵頻繁模別預測。經典的分類算法如決策樹分析法,它是在已知發(fā)生概率的基礎上,通過經典的決策樹分析法有C4.5算法[29],它的算法是ID3,以信息論為基礎,把信息熵和信息增益作為分類的衡量標準。C4.5ID3算法的優(yōu)點,同時在如下幾個ID3進行了相關改進:C4.5ID3算法法的不斷進步,對海量數(shù)據(jù)的處理速度,實時性要求等都著相當大的人工免疫系統(tǒng)[30](AIS,ArtificialImmuneSystem的簡稱)是在遺傳算法和人工發(fā)而發(fā)展出來的。D.Dasgupta全面的分析了ANN和AIS之間的異同點[31],在等認為在自適應的多樣性方面,AIS一種是比ANN絡更好的優(yōu)化方法[32]。括抗體、抗原、T淋巴細胞、B淋巴細胞和親和力等。表2-3指生物體為了生理平衡和穩(wěn)定而對一切抗原特異物質所產生的各發(fā)的機能功能,不良功能紊亂等癥狀BBT后的T細胞從胸腺出來到淋巴系統(tǒng),從而起到免疫的作用干細胞,T細胞是在胸腺中成細胞,B細胞是在骨髓內發(fā)育成細胞。它們的2.4所示:2.4TBT細胞的主要功能是釋放淋巴因子,可以直接的宿主細胞,并且能夠調節(jié)其它細胞的活動。T細胞能夠釋放出各種淋巴因子,功能也各不相同,都積極的參與到免疫反應中去,T細胞參與的這種免疫被稱之為細胞免疫。B細胞的功能則是分。為免疫系統(tǒng)自身有著一套完整的、復雜的免疫機制提供保障免疫系統(tǒng)的主要免疫機制有自體受耐(selftolerance、特異識別和免疫應答(immuneresponse)等。。免疫系統(tǒng)對相應特殊的抗原一種無應答狀態(tài)叫做免疫耐受[33]。免疫耐受又在體液循環(huán)調節(jié)的過程中,當某些抗原進入,T細胞通過識別其抗原決B細胞分化成為細胞和漿細胞這種通過抗原決定簇來識別特定抗原的過程叫做T細胞對抗原決定簇的識別識別是通過其自身表面的受體與抗原決免疫應答是免疫系統(tǒng)對外來抗原的識別和清除的生理過程[34]反應,使得內部環(huán)境得以維持穩(wěn)定。免疫這兩個大類。其中固有性免疫又被稱為非特異性免疫或者是性免疫;適應性①具有,與生俱來④同一個物種內部的正常不同間差異不大與性免疫相比,適應性免疫有如下三個主要特點TB細胞庫胞的克隆機制將會被刪除或,即淘汰了那些能與自身抗生反應的淋巴細胞。T細胞發(fā)育成熟過程中,通過偽隨機的重組來制造受體,這樣能夠產生強大的多樣性。然而,新分化生成的還沒有成免疫系統(tǒng)(T細胞)有可能把自身抗原錯誤的識別為非自身抗原,那么該免疫細胞將會被殺死。只有不能與自身蛋白質結合的T細胞才能從胸腺中釋放1994年Forrest及有關人員否定選擇算法[35],主要由如下幾個基本步驟①根據(jù)庫,隨機生成檢測器作為候選檢測器(未成熟檢測器(即否定選擇④若被檢測數(shù)據(jù)與成熟檢測器集合中任何一個檢測器相匹配,則該數(shù)據(jù)為非自R位匹配法和漢明距離表示法。經分析和實驗數(shù)據(jù)表明連R位匹配法更接近生物免疫系統(tǒng)中的匹配過程及特點[36]。T淋巴細胞則能夠對B淋巴細胞進行抑制或促進,B淋巴細胞將會抗原時,這些細胞會被迅速激活,能夠快速的進行免疫反應。出了克隆選擇算法(CSA,ClonalSelectionAlgorithm的簡稱2.5是克隆選擇算2.5斷自我學習更新,接受新的。表2-4淋巴細胞(T、B細胞檢測器本章主要介紹了大數(shù)據(jù)平臺安全日志分析系統(tǒng)設計實現(xiàn)過程中所用到的相關技OAP分析技術基于Mondria(開源OAP分析引擎實現(xiàn)對Snort全警報日志的分析重點介紹了數(shù)據(jù)挖掘技術和人工免疫系統(tǒng)通過對這些技術知識的學習為我們系統(tǒng)的后續(xù)設計實現(xiàn)打下了堅實的基礎。報日志信息(主要包括網絡檢測系統(tǒng)Snort捕獲的日志信息和主機檢測系統(tǒng)Sagan捕獲的主機安全日志信息)和平臺系統(tǒng)日志(包括主機系統(tǒng)日志、數(shù)據(jù)庫日志、平臺日志。其中檢測系統(tǒng)的安全日志記錄著大量安全SnortSnort多聚查異維類詢常分分統(tǒng)檢析析計測3.1:析兩大模塊日志信息記錄著檢測系統(tǒng)捕獲的安全信息,里面記錄著事一個有著多方面描述信息,面對大量的安全記錄,我們考慮對其進行:析,基于不同視角分析安全的發(fā)生頻度,從而可以預判安全的發(fā)展勢態(tài),也可以找出系統(tǒng)的薄弱環(huán)節(jié),進行有針對性的防護。就這些大量的日志中記錄的大量安全而言,它們之間也可能存在著某種聯(lián)系,其中也存在著一些重復的信息,我們利用基于相似度的聚類算法,對這些安全進行聚類分析,找出它們相關安全警告日志是對平臺檢測系統(tǒng)捕獲的安全的記錄描述了平臺網絡及系統(tǒng)受到的詳細信息,這些信息是由我們在平臺部署的網絡檢測系統(tǒng)Snort和主機檢測系統(tǒng)Sagan產生的安全警告信息。這些安全的警告日志為我們分析平臺安全狀況及安全發(fā)展趨勢提供重要的信息。安全概念建安全警告日志記錄了安全詳細信息這些安全包括網絡和主等Emergency等Emergency圖3.2安全概念模型該模型抽象了安全描述的信息結構主要包括Identify用來標識的編號;Classification用來標識的所屬類別,如網絡、系統(tǒng)以及其它分類標準標用來表示安全發(fā)生(獲)的時間;Source表示源,如網絡的源IP,,系統(tǒng)安全中的應用系統(tǒng),文件等對象;Content表示的具體內容,如安全的其它信息,如捕獲該信息的傳感器處理者信息,或者用戶操作, 圖3.3概念模型;圖3.3是在安全概念模型基礎上構建的概念模型,它是針對由特化:其中ID用來表示的唯一標識;把捕獲該的檢測規(guī)則分類用來標識該的類別;以檢測規(guī)則的優(yōu)先級作為該的緊急級別源包括;圖3.4主機安全概念模型圖3.4是構建在安全概念模型基礎上的主機安全模型,它針對是由主機檢測系統(tǒng)Sagan捕獲安全信息的具體情況對安全模型進行了特化其中Servrere表示該的嚴重程度;Source一般為在主要賬戶;Target表示執(zhí)行的某個程序;Message為該的描述信息;Status表示事情的執(zhí)行結果,如用戶iicy執(zhí)su命令切換超級用戶root時,認證錯誤,Status即為FAILED基于Mondrian的安全分上一節(jié)我們構建了安全概念模型,在此基礎上建立了針對Snort捕獲的網絡安全日志信息描述的網絡概念模型它從多個方面描述了一條,這些不同的描述屬性就構成了我們分析的多個維度,結合上一章介紹的OLAP實現(xiàn)技術,選擇基于開源OLAP分析引擎,來實現(xiàn)對信息的分析,并借助JPivot技術進行展示。一、信息屬性選選取信息中相當重要的屬性作為數(shù)據(jù)立方體的不同維度,維度的選擇要有安全警告數(shù)量,可以發(fā)現(xiàn)網絡較集中的時間段,發(fā)現(xiàn)活動的時間規(guī)律,如一般網絡多發(fā)生在夜間,這時候系統(tǒng)管理人員可能對系統(tǒng)比較疏忽,不容易被察覺。通過對不同時段網絡次數(shù)的統(tǒng)計,也可以發(fā)現(xiàn)系統(tǒng)網絡的趨勢。址的數(shù)據(jù)進行,甚至接受該IP的任何數(shù)據(jù)。對也是很重要的信息ID顯得很重要。的一個重要因素,針對不同網絡通信協(xié)議的特點,會有不同的手法。類別:捕獲的警告被分為不同的類別,每個類別又不為不同的優(yōu)先級,這種類別和優(yōu)先級信息對于分析狀況很有幫助。綜上所述,本文對于警告日志信息的分析主要選取時間、源地址、目的端口、傳感器ID、協(xié)議類別、類別及優(yōu)先級作為分析的維度,基于Mondrian開源OLAP引擎來進行數(shù)據(jù)建模在關系數(shù)據(jù)庫數(shù)據(jù)的基礎上,采用ROLAP技術實現(xiàn)OLAP分析。二、MondrianSchema映射數(shù)據(jù)模OLAPOLAP可以通過基于關系數(shù)據(jù)庫的ROLAP技術實現(xiàn)關鍵是建立數(shù)據(jù)模型本文基于Mondrian開源OLAP分析引MondrianSchema定義了一個數(shù)據(jù)庫[38]它包含了一個邏輯模型在這個邏MDXOLAP分析操作。這個邏輯(維度、Hierarchy(層次、Level(級別Member(成員,這些元素與上紹的OLAPSchema的一個xmlSchema文件中定義了邏輯模型與數(shù)據(jù)庫物理模型的映射關系,Mondrian也是根據(jù)這種映射關系把分析的MDX查詢請求轉換為相應的SQL組合查詢請求,得到SchemaCube是多個維度(Dimension)和度量(Measure)的公共區(qū)域。這些度量和維度共用一個事實表。在Cube里面有一個全局的定義了所用的事實表,本文的數(shù)據(jù)Snortevent表為原型,在此基礎上設計成為事實表。6個維表HierarchyLevelprimaryKey真正的形成一個頂級Level,為多層次上卷操作提供了一個最的Level本文設計中對所Hierarchy均采用這種模型。HierarchyprimaryKeyTablejoin而成,這樣就對星型模型進行了拓展,形成雪花型模型。primaryKeyTable就是用來指定多<Dimensionname="Time"type="StandardDimension"foreignKey="time_id"<HierarchyhasAll="true"visible="true"<Levelname="Year"column="year"type="Integer"<Level<Dimensionname="Time"type="StandardDimension"foreignKey="time_id"<HierarchyhasAll="true"visible="true"<Levelname="Year"column="year"type="Integer"<Levelname="Month"column="month"type="Integer"<Levelname="Day"column="day"type="Integer"3.5LevelSchemaMeasureOLAP分析eventdistinct-count函數(shù)。三、安全分析與展IP特征的警報數(shù)量,僅僅提供簡單的統(tǒng)計功能。(2)Snortsnarf:它可以根據(jù)警報的特征碼和IPHTML(3)ACID:網絡的方式變得越來越復雜,Snort捕獲的警報數(shù)量也日益龐本文利用OLAP分析技術,基于開源OLAP引擎Mondrian對Snort警報日志數(shù)據(jù)庫進行建模,結合前端Web展示技術JPivot,可以提供Web圖形界面的分析如對數(shù)據(jù)的切片分塊統(tǒng)計查看不同維度滿足相關條件的統(tǒng)計數(shù)量。34日的警報數(shù)據(jù)信息;協(xié)上只關注通過TCP協(xié)議發(fā)起的警報。MDXMDXquery進行查詢,sql語句,十分簡便。多種報表展示。對于查詢分析的數(shù)據(jù)結果提供多種類型的數(shù)據(jù)報表,如直方圖、餅圖、3D柱狀圖,折線圖等,對結果進行更直觀的展示。,隨著機群平臺的擴展,平臺網絡規(guī)律也日益擴大網絡估計的數(shù)量也會海量的信息中有大量的數(shù)據(jù)冗余更嚴重的是里面還存在著大量的重復信息,,本文結合上節(jié)的分析中安全的屬性信息和基于相似度的聚類算法提出了基于安全屬性相似度的聚類算法對進行聚類分析該算法的思想是對于滿足一定相似度的安全警告信息進行聚合分對于如何衡量警告記錄的相似度我們基于安全的特征屬性之間相似度經過處理,得到安全的相似度。因此,在這里給出幾個相似度計算函數(shù):每個特征屬性的相似度安全警告記錄之間的相似度以及安全警告類和單個安全警告的相似度等。:,,由上節(jié)基于安全屬性的分析可以知道我們可以選取安全警告信息中的一些屬性信息來表征該安全上節(jié)中我們選出的那些關鍵屬性如源IP地址的目的端口捕獲的時間以及協(xié)議類型等。我們只需要對這些關鍵屬:,,相似度的取值區(qū)間通常規(guī)定在[0,1],這個數(shù)值越大代表兩者越相似,0代表兩對應網絡很多是在短時間內進行多次如端口掃描和DDos,性的相似度在整個相似度中顯得很重要,時間屬性的相似度定義為如下(3.1):Sim(Time)=
???|?????
?????|≤
IP
0 |?????????|>IP地址(IPv4)4d1.d2.d3.d4四個十進制數(shù)構成,每個數(shù)0~255d3,d4IP地址的網絡地d3,d4IPd1到d4d11IP卻很可能相差十萬八千里。因此,IP相似度時,d1~d4d1,d2,只要兩者有不同,相d1~d4對相似度的影響依次遞減,通一個區(qū)位的數(shù)值,相差越小越相似。IP地址屬性相似度定義為(3.2):Sim(IP)= ????? Sim(d)=255?|?????
???|?????????????????????|,
?
|≤Sim(Port)
0 |?????????????????????|>{相同或是不同,相同為1,不同為0。協(xié)議屬性相似度定義為Sim(Protocol)={1 ??????????????????=0 ??????????????????≠
安全警告整體相似安全警告間的整體相似度是由它們各個相應屬性間相似度的求和而得到,安全警告整體相似度定義為(3.6):Sim(X,Y)=
?????
新的安全警告信息與聚合類的相似單個安全警告信息與聚合類的相似度是聚類算法的關鍵通常的以空間向量可。由于安全警告信息無法表示成向量形式,對其安全警告信息類也無法得??????(??,??)
∑∑
(????∈ 的關聯(lián)關系,如端口掃描、DDos等,同時也可以對大量重復的出現(xiàn)的信息3.6所示: // //timeAlertsS=//Alertifor AlertClasses) if(s>S){ // //}}if(S>T){ //Alerti屬于Aclass}else new //Alerti}3.6平臺系統(tǒng)日志記錄著系統(tǒng)的運行情況,相關認證信息,用戶操作記錄等重要信息,主要包括主機系統(tǒng)日志Syslog,數(shù)據(jù)庫相關日志、平臺組件日志、認證日日志、Hadoop3-1是本系統(tǒng)收集和分析的具體日志文件描述。表3-1系統(tǒng)認證日安全警告日網絡警告日主機警告日MysqlMysqlMysqlKerberosKerberosKerberosClouderaClouderaCloudera志記錄都收集到日志處理服務器上做統(tǒng)一的處理和因此我們需要搭建一個經過調研,Logstash日志收集軟件滿足我們的系統(tǒng)要求,它是一款開源系統(tǒng),可InputFilterOutput三大模塊,每個模塊有豐富的插件支持,Input模塊支持多種數(shù)據(jù)源輸入,可以滿足我們多源日redis作為緩沖隊列,提高了系統(tǒng)的性能。Filter模塊支持多種日志過濾、及字段提取操作,可以使用正則表達式,grep、grok多種方式處理日志,支同時可以把處理過的日志輸入到ElasticSearch(一款開源搜索引擎),在此基礎上實現(xiàn)3.7所示:3.7日志記錄了系統(tǒng)軟硬件資源的運行情況以及系統(tǒng)的詳細描述,一條日志記錄通常有多個數(shù)據(jù)字描述記錄的詳細信息常見日志字段信息包括系統(tǒng)時間戳、(SuccessfulFailureCRuby的庫文件和Grok可以把非結構化的日志、信息提取轉換為結構化的信息Json(1)表3-2\b(?:[1-9][0-\b(?:[0-的重要位置信息,用來表示發(fā)生的位置和相關資源。表3-3時間類型,時間是日志記錄的最重要內容之一,它標志著發(fā)生的先后順序,由關聯(lián)起來的序列是日志分析和檢測分析的重要線索。由于時間的不同地區(qū),組織的不同表示形式,如歐洲日期表示和日期表示就有明顯的不同,3-8給出了常用時間相關模式的正則匹配表達式。表3-4(?:0?[1-9]|1[0-(?:[0-5][0-(?:Z|[+-3.8所示:MarMar223:19:37mastersudo:pam_unix(sudo:session):sessionopenedforuserrootbyiicy(uid=1000)Mar223:19:42mastersudo:pam_unix(sudo:session):sessionclosedforuserrootMar223:20:09mastersu[6020]:SuccessfulsuforrootbyiicyMar223:20:09mastersu[6020]:+/dev/pts/0iicy:rootMar223:20:09mastersu[6020]:pam_unix(su:session):sessionopenedforuserrootby3.8auth.logauthlog3.9authlog的正則匹配表達式:AUTHLOGAUTHLOG%{SYSLOGTIMESTAMP:Timestamp}%{SYSLOGHOST:srcHost}NT:Pid}\])?:3.9authlog抽取出來,以結構化的數(shù)據(jù)來查詢,在那些不能以字段表達的日志信息中,也包AILEDSUCCESSElasticSearch等,這些字段和字段值以Json對的形式建立索引,因此可以實現(xiàn)基于字段的檢索查iicy的相關日志(如操作記錄,審計記錄等,只需對user=iicyiicyiicy的全文關鍵字檢索也能搜到與用戶iicy相關的日志,但這些日志可能有其它日志信息中提到iicy的,這并不是我們想要的結果。而基于字段的查詢則更加符合我們的查詢需求,基于布爾表達式的條件查詢是在基于文本關鍵字檢索和基于字段信息檢索的基礎上,結合邏輯運算與()、或()、非()構成復合條件的布爾表達式查詢方iicyuseriicyDlogypeatLogDramuD“l(fā)ed方式表達,快捷而精確的定位到了人們需要的信息。useriicyANDlogTypeuserOperationANDtimestamp:16:00:00”]2181516以滿足日志檢索相關日志記錄而日志檢索結果則不需要按照相關度由高到低的序列(由近及遠3.10su入su命令進行用戶權限切換的日志記錄,分析人員在找到這些記錄之后,往往還需要了解在執(zhí)行su命令的前后,用戶還做了哪些操作,因此還需要得到該記錄的前后ElasticSearch對每條日志記錄進行了索引,在進query相關的日志條目,打亂了日志原有的在日志文統(tǒng)進行破壞或竊取相關信息等這些日志記錄在日后審計和責任的時候都起們進行歸檔,以便日后分析,數(shù)據(jù)挖掘,相關查證等使用。Hadoop的HDFS文件系統(tǒng)是用來海量數(shù)據(jù)的分布式文件系統(tǒng),把從各個集群節(jié)點收集過來的日志文件集中到HDFS上利用MapReduce并行計算框架[39],可以高效的完成日志分類歸檔,并對其進行分類統(tǒng)計。我們把集中的日志文件在HDFSMapReduce以便日后分析處理。日志記錄以Json文本形式,這樣有利于日志信息的提取。進行通過用戶當前行為序列與正常用戶行為模式序列作比較是否發(fā)生明顯偏離來發(fā)現(xiàn)用戶的異常行為及時的發(fā)現(xiàn)行為以及用戶的操作不當或者越權行為。GSP(GeneralizedSequentialPatterns)算法[40]AprioriAllAprioriAllApriori類算法的一種序列挖掘算法,因此,GSPApriori類的序列挖掘算法。由上節(jié)知道,user.log日志中記錄了用戶使用系統(tǒng)時所執(zhí)行的所有s命令,因每次登錄和退出系統(tǒng)的時間以用戶每次登錄所執(zhí)行令序列作為一串獨立令GSP3.11GSPLinux系統(tǒng)用戶通過執(zhí)行各種s命令完成各項工作,可以通過用戶所執(zhí)行的s命令序列來描述正常的系統(tǒng)用戶行為輪廓。而非用戶或者者經常Mar716:37:54masteriicy:[euid=iicy]:from:294854922MarMar716:37:54masteriicy:[euid=iicy]:from:294854922Mar716:38:07masteriicy:[euid=iicy]:from:294854922Mar716:45:07masteriicy:[euid=iicy]:from:294854922[/home/iicy]mysql–uroot-Mar716:45:19masteriicy:[euid=iicy]:from:294854922[/var]cd3.12master;登錄IP地址:29;執(zhí)行的操作命令:mysql;操作執(zhí)行的時間戳:Mar716:38:07 主要分為兩大階段,第一階段如圖3.13所示,主要是利用否定選擇算法生成成熟檢3.14SelfSelf是否SelfSelf集合,記錄與檢測器匹配檢測器是檢測異常數(shù)量較多的檢測器,因此它可以有較,是否否是大于大于展展安 展存儲層安層的4.14.1(1)安全對象層:該層包含了安全審計的對象,主要有系統(tǒng)網絡,主機,數(shù)據(jù)庫Hadoop集群應用等。(2)層:該層主要由部署在平臺集群上的網絡系統(tǒng)、主機檢測各個層次的的。(3)層:該層主要用于安全日志、安全本體及審計規(guī)則等數(shù)據(jù)的,主要MysqlHDFS文件系統(tǒng)構成。功能層:該層是系統(tǒng)的,主要包括安全日志的處理、分析、和相關展示層:該層是安全審計相關報表數(shù)據(jù)和安全信息的展示,是一個統(tǒng)一4.2所示:4.2①Snort警報日志分析模塊:該模塊主要對網絡檢測系統(tǒng)Snort捕獲的警重復記錄信息,同時有效發(fā)現(xiàn)網絡行為,如端口掃描,SYN等;利用MondrianOLAP分析引擎對Snort警報日志數(shù)據(jù)庫建立數(shù)據(jù)庫,對警報日志進分析,從不同視角分析網絡的發(fā)展趨勢和規(guī)律②綜合日志分析模塊:該模塊對平臺系統(tǒng)集群各個結點和不同組件收集到的安合法用戶賬戶的操作以系統(tǒng)內部人員的越權操作。③綜合審計模塊:該模塊結合用戶行為模式庫以及統(tǒng)計分析等技術實現(xiàn)綜合審計,對行為,不合規(guī)操作進行記錄和。④響應模塊:該模塊將審計生成的發(fā)送給相關人員處理表4-1Snortint(10)int(10)int(10)int(10)int(10)IPsmallint(5)源端IPsmallint(5)目的端4-2ParameterManager表4-24-3中所列,它們主要用于相似度的計ParameterManager類用來管理算法中所有參數(shù),并用單例模式實現(xiàn),全局表4-3IPIPportporttt表4-4publicpublicdoublegetSimilarity(Evente1,Evente2)doubles=if(e1.equals(e2)) return1.0;s+=w_src_ip*getIpSimilarity(e1.getSrc_ip(),e2.getSrc_ip());s+=w_dst_ip*getIpSimilarity(e1.getDst_ip(),s+=w_src_port*getPortSimilarity(e1.getSrc_port(),e2.getSrc_port());s+=w_dst_port*getPortSimilarity(e1.getDst_port(),s+=w_protocol*getProtocolSimilarity(e1.getProtocol(),e2.getProtocol());s+=w_time*getTimeSimiliarity(e1.getTime(),e2.getTime());return}4-5是其實現(xiàn)的代碼部分。表4-5屬性相似度聚類算法實現(xiàn)代doubledoublemax_similarity EventClasstarget_class for(EventClassec:event_classes)doublesimilarity //intcnt tor<Event>it= while(it.hasPrevious()&&cnt<pm.getLastest_num()){}similarity //if(similarity>max_similarity)target_class //max_similarity //}}if(pm.getThreshold()<max_similarity){ else event_classes.add(newEventClass(e,event_classes.size()+}一、數(shù)據(jù)庫映在第三章我們講述了如何把關系數(shù)據(jù)庫利用MondrianSchema映射維數(shù)據(jù)庫,從而來進行分析。首先,要選定事實表(中心表,并確定分析時涉及的相關維Join操作擴展為雪花模型,將這些關系數(shù)據(jù)庫表映射成為一個數(shù)據(jù)庫模型表4-6是數(shù)據(jù)庫中選定的事實表和維表4-6數(shù)據(jù)庫中選定的事實表和維IPTCPUDP通過編寫MondrianSchema文件,把選定的事實表和維表映射到數(shù)據(jù)庫中,這個Schema文件中定義了邏輯模型與數(shù)據(jù)庫物理模型的映射關系,Mondrian也是根據(jù)這種映射關系把分析的MDX查詢請求轉換為相應的SQL組合查詢請求,得到分析的查詢結果。4-74-84-9schema映射文件的部分內容。表4-7<Schema<Schemaname="Snort"description="SnortEvent<Cubename="SnortEventStastics"caption="SnortEventStastics"visible="true"cache="true"<Measurename="EventsCounter"column="event_id"aggregator="distinct-count"Identifier_1 <pi>Integer <pi>Integer<M> Integer Integer Identifier_1 <pi>Integer <pi>Integer<M> Integer Integer Identifier_1 <pi>Integer <pi>Integer<M> Integer Integer Identifier_1 Variablecharacters(60)sig_class_id<pi>Identifier_1event_id<pi>Integer<M>sensor_id<pi>Integer<M>priorityInteger Integer Integer source target source target Identifier_1time_id<pi>Integer<M>year<pi>Integer<M>monthInteger Identifier_1 <pi>Integer<M> Identifier_1Variablecharacters(255)<pi><Dimensionname="Time"type="StandardDimension"visible="true"foreignKey="time_id"<HierarchyhasAll="false"visible="true"<Levelname="Year"visible="true"column="year"type="Integer"<Levelname="Month"visible="true"column="month"type="Integer"<Levelname="Day"visible="true"column="day"type="Integer"4.34-8SchemaLevelOLAP表4-8protocol_id<pi>Integer Characters(10)Identifier_1表4-9<Dimension<Dimensionname="Signature"type="StandardDimension"foreignKey="signature"<Hierarchyvisible="true"hasAll="true"allMemberName="AllallMemberCaption="AllSignatures"primaryKey="sig_id"<JoinleftKey="sig_class_id"<Levelname="SignatureClass"visible="true"column="sig_class_name"type="String"<Levelname="Signature"visible="true"table="signature"type="Integer"二、查詢展MondrianOLAP引擎提供JPivot技術實現(xiàn)數(shù)據(jù)分析的展示及圖形界面操作,OLAPweb項目中。首先,需要在databases.xml文件中配置數(shù)據(jù)源,配置如表4-10所示。主要包括展URL,OLAP引擎提供者,服務類型以及底層關系型數(shù)據(jù)庫信息(包括數(shù)據(jù)庫服務器地址、數(shù)據(jù)庫名,用戶名,等,類型,類標識名等。表4-10Mondrian <Catalog<Definition>/WEB-web.xmlFilter(jpivot的前端控制器,判斷用戶請求是否到的庫,具體配置項目如表4-11所示。表4-11MondrianWebMDXOLAPxmlaDiswcf庫jpivot庫Grok插件,編寫相應的日志解析4-12列出了部分日志提取的關鍵信息字段說明。解析出來的日志信息字段將以JSON格式。表4-12Http4-13Grok表4-13GrokGrok ip}%{USER:ident}HTTP/%{NUMBER:httpversion})?-)"%{NUMBER:response}(?:%{NUMBER:bytes}|-)%{QS:referrer}%{QS:agent}\[euid=%{USER:authUser}\]:from:%{IP:logIp}%{NUMBER:srcPort}%{NUMBER:dstPort}\[%{PATH:exePath}\](?<Command>\w+)%{GREEDYDATA:param}ElasticSearch,把收集的日志記錄及解析提取的日志信的關鍵信息字段索引,一共實現(xiàn)五種查詢方式,Query4.4所示:-type:-query_name:+toString():+toQueryString():+toQueryString():-name:-value:+toQueryString():+toQueryString():-name:-value: +toQueryString()-lhs:-rhs:-op:-name:-low:-up:-regex:+toQueryString():-value:4-14Query表4-14QueryQuery詢“Successful,詢“^[a-“user:iicy“hostname:master”詢“ip:00AND“timestamp:(12:00:00,MapReduce任務并發(fā)執(zhí)行可以實現(xiàn)快速高效的海量量日志的分Multi-Output4-15。表4-15MapReduceInputHDFSMapReduceMapkeyvalueShuffleReduceReducekey的valuekeyOutputMapReduceMapper實現(xiàn)日志記錄的解析,并按類型分發(fā)給publicpublicclassMultipleTextOutputFormat<KextendsMultipleOutputFormat<K, parable,VextendsprivateTextOutputFormat<K,V>theTextOutputFormat=protectedRecordWriter<K,V>getBaseRecordWriter(FileSystemfs,JobConfjob,Stringname,Progressablearg3)throwsIOException{if(theTextOutputFormat==null)theTextOutputFormat=newTextOutputFormat<K,}returntheTextOutputFormat.getRecordWriter(fs,job,name,}protectedStringgenerateFileNameForKeyValue(Kkey,Vvalue,Stringname){returnname+"_"+value.toString();}}4.6MapReduce4-16是 確定的用戶操作信息字段對應二進制編碼信息表4-1632IP,IPv4,328ID,0~25525621root9用戶可能執(zhí)行令,Linux系統(tǒng)命令供3164419512Linux318個,可擴展增加新令,對這些命令依次編號1~318,0號表示未知命令,將這些命令解參見我的同學的[41]《一種基于本體的安全信息管理原型系統(tǒng)建模及應相應算法流程設計已經在第三章給出相應描述下面是其偽代碼描述的相關講Self}while({thenif(SR相匹配 4.7,與檢測器匹配檢測器是檢測異常數(shù)量較多的檢測器,因此它可以有較大的,12.12.rMmm (m(rMm相匹配if(r與M中某一檢測器相匹配 r為異常操作;gotoend;rC中的檢測器匹配Mr(一)Windowslinux操作系統(tǒng),CPU:DualCore2266MHz,64位;內存:DD31333MHz,3GB;操作系統(tǒng):Windows7Enterprise和Ubuntu12.04;Java虛擬機版本:OracleJDK1.6;網絡檢測系統(tǒng):Snort-(二)開發(fā)集成平臺:Eclipse數(shù)據(jù)庫:Mysql-Server5.5;3)MondrianOLAP引擎:Mondrian3.5.1;4)Hadoop集群:CHD-4.3.5日志分析的基于屬性相似度的聚類算法和Mondrian分析的實現(xiàn)做了詳細介紹;本章將通過仿真數(shù)據(jù)和實際數(shù)據(jù)對大數(shù)據(jù)平臺安全日志分析系統(tǒng)的相關算法進括Snort日志分析展示、基于屬性相似度的聚類實驗結果分析與評估、日志1表5-1Snort日志展實際捕獲數(shù)據(jù)的分析展Snort日志聚類效針對檢測測試數(shù)據(jù)集聚類效果分HadoopMapReduce用戶操作異常檢測準確檢測器壓縮表示及檢測器對性能的提升系統(tǒng)的實驗環(huán)境是在利用CDH(ClouderaDistributedHadoop)搭建了Hadoop機群在機群上分別部署了網絡檢測系統(tǒng)Snort主機檢測系統(tǒng)Snorby、LogstashHadoopKerberos權限認證。系統(tǒng)環(huán)境部5.1Hadoop5master節(jié)點和四個slaverMaster同時也作為Snort和Logstash的中心節(jié)點,slaver節(jié)點機器上則部署相應的。HadoopSlave04Snortagent04Logstashagent04HadoopSlave03Snortagent03Logstashagent03HadoopSlave02Snortagent02Logstashagent02HadoopSlave01Snortagent01Logstashagent01HadoopMasterSnortCenterLogstashCenter5.1實驗一:安全日志分本實驗是通過網絡系統(tǒng)Snort在大數(shù)據(jù)平臺系統(tǒng)進行了分布式部署,在一周時間內所捕獲的所有安全警報,共產生了67138條安全日志信息,通過本實現(xiàn)的基于Mondrian的分析技術對這些日志信息進行了分析展示。圖5.2是利用MDX查詢語言編寫的查詢語句。5.2MondrianMDX上述查詢語句是通過MondrianOLAP操作切塊條件為協(xié)議為TCP且由感器eth0捕獲到的,選取Signature維和Priority維的相關數(shù)目進行展示,查詢結果的表格展示如圖5.3所示:圖5.3MDX查詢表格展MDX查詢結果除了使用數(shù)據(jù)表格展示之外,還提供多種數(shù)據(jù)報表,直觀的5.45.5分別是查詢結果的折線圖和餅型圖展示方式。5.4MDX5.5MDX加強的地方。由圖5.3可以看出,Priority為3的安全警報占據(jù)了85%,mand-decode是除了unknown類別的最多的種類,需要對這種加強防范5.6OLAP由MondrianOLAP分析查詢結果展示的表格,可以執(zhí)行相應的鉆取、鉆透5.6bad-unkown類的,TCP協(xié)議eth0產生的警報日志信息的鉆透結果展示,我們可以詳細的看到每條警報日志5.70.7164495.7No.3779No.3779 29801-->58-->16933-->0-->22-->UDP-->2014-03-1806:06:17.0==>29802-->58-->16933-->0-->22-->UDP-->2014-03-1806:06:17.0==>29803-->58-->16933-->0-->22-->UDP-->2014-03-1806:06:17.0==>29804-->58-->16933-->0-->22-->UDP-->2014-03-1806:06:17.0==>5.8相似度聚類結果(一5.9IP地址00UDP探測報文,由這些特法還可以有效的發(fā)現(xiàn)DDos、SYN的。No.2983Cla:59325.9相似度聚
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- YY/T 1949-2024人工智能醫(yī)療器械數(shù)據(jù)集專用要求:糖尿病視網膜病變眼底彩照
- 度合同制速記服務與保密全文
- 水產養(yǎng)殖合同范本專業(yè)版
- 租賃合同范本:車輛租賃協(xié)議
- 建筑設計服務合同樣本版
- 生態(tài)林地保護承包合同書樣本
- 企業(yè)貸款合同、利息計算標準
- 企業(yè)風險控制反擔保合同模板
- 公租房解除合同范本
- 化工原料采購合同范本大全
- DLT 5630-2021 輸變電工程防災減災設計規(guī)程-PDF解密
- 2024年新疆維吾爾自治區(qū)專升本考試大學政治測試題含解析
- 邊坡噴錨施工工藝
- 2016-2023年婁底職業(yè)技術學院高職單招(英語/數(shù)學/語文)筆試歷年參考題庫含答案解析
- 海鮮酒樓營銷策劃方案
- 電能計量裝置配置規(guī)范
- 有償義工招募方案
- 冬春季節(jié)傳染病防控(流感)
- 潛在供應商審核報告模版13-02
- 《臨床疾病概論》課件
- 安全生產費用使用臺賬
評論
0/150
提交評論