基于 Spark 大數(shù)據(jù)平臺(tái)的云上用戶日志行為審計(jì)系統(tǒng)_第1頁(yè)
基于 Spark 大數(shù)據(jù)平臺(tái)的云上用戶日志行為審計(jì)系統(tǒng)_第2頁(yè)
基于 Spark 大數(shù)據(jù)平臺(tái)的云上用戶日志行為審計(jì)系統(tǒng)_第3頁(yè)
基于 Spark 大數(shù)據(jù)平臺(tái)的云上用戶日志行為審計(jì)系統(tǒng)_第4頁(yè)
基于 Spark 大數(shù)據(jù)平臺(tái)的云上用戶日志行為審計(jì)系統(tǒng)_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

隨著大數(shù)據(jù)及云計(jì)算的快速發(fā)展,越來(lái)越多的企業(yè)將業(yè)務(wù)遷移上云,極大地提高了效率,同時(shí)對(duì)云的審計(jì)也成為新的安全需求。與之對(duì)應(yīng)的則是于云平臺(tái)版本的不斷迭代,不同廠家云平臺(tái)日志格式的差異,種種因素都增加了日志審計(jì)的復(fù)雜性?,F(xiàn)有的云審計(jì)系統(tǒng)多數(shù)是基于某一種云產(chǎn)品的標(biāo)簽化日志,但實(shí)際應(yīng)用中事件日志多為海量的、未標(biāo)簽化的日志,因此從未標(biāo)簽化的海量用戶日志中,發(fā)現(xiàn)和審計(jì)系統(tǒng)中的實(shí)際行為具有重要意義。本文將基于多云上用戶行為產(chǎn)生的大量事件日志,通過(guò)流程挖掘模型,設(shè)計(jì)一種基于非標(biāo)簽化的云上用戶日志的審計(jì)系統(tǒng),同時(shí)在審計(jì)過(guò)程中可以根據(jù)行為追溯到產(chǎn)生該行為的原始日志,形成一條完整的證據(jù)鏈。1云審計(jì)技術(shù)研究現(xiàn)狀及主要問(wèn)題1.1云審計(jì)技術(shù)研究現(xiàn)狀隨著云的廣泛應(yīng)用,越來(lái)越多的業(yè)務(wù)遷移上云,極大地提升了效率、降低了成本。但是在使用過(guò)程中,云上的網(wǎng)絡(luò)安全性也不容忽視。除了有一些常用的主動(dòng)措施來(lái)提高云的安全性,還需要結(jié)合被動(dòng)措施來(lái)保證云的安全性,云審計(jì)是一種常用的提高網(wǎng)絡(luò)安全性的有效手段。云上常見(jiàn)的安全風(fēng)險(xiǎn)主要包括但不限于操作者身份不明確、操作過(guò)程不透明、操作內(nèi)容不可知、操作行為不可控、操作事故無(wú)法定位等。除此之外,用戶的過(guò)失和惡意操作也可能會(huì)危害云上業(yè)務(wù)及數(shù)據(jù)的安全。隨著云計(jì)算技術(shù)的高速發(fā)展,系統(tǒng)透明度越來(lái)越低,用戶和監(jiān)管人員難以感知云上發(fā)生的違規(guī)操作,無(wú)法及時(shí)做出應(yīng)對(duì),降低了云操作系統(tǒng)的整體安全性。同時(shí),云上日志具有海量性、多樣性,日志中噪聲日志占比高,有效信息分布隨機(jī)等特點(diǎn),無(wú)法直接對(duì)云上的日志進(jìn)行分析。這些特點(diǎn)也導(dǎo)致普通的過(guò)濾算法無(wú)法充分過(guò)濾掉噪聲日志。云版本的不斷迭代,也是日志多樣性的原因之一,更增加了日志處理的復(fù)雜性。此外,幾款主流云產(chǎn)品的日志互不相同,難以用同一套日志模型從不同云中提取有效信息。1.2研究需求在云日志中,包含了系統(tǒng)內(nèi)部的安全事件、用戶訪問(wèn)記錄、用戶操作行為、系統(tǒng)運(yùn)行、系統(tǒng)狀態(tài)等各類(lèi)信息。通過(guò)對(duì)云日志的分析處理,能夠有效地獲取云的運(yùn)行狀態(tài),跟蹤記錄用戶操作,極大地增強(qiáng)云的透明度和安全性。云日志的審計(jì)分析結(jié)果,能夠指導(dǎo)對(duì)云平臺(tái)資源的合理化配置、優(yōu)化系統(tǒng)程序、增加防御機(jī)制、修復(fù)系統(tǒng)問(wèn)題,提升云在運(yùn)行過(guò)程中的穩(wěn)定性、可靠性、安全性、合規(guī)性。1.3主要工作云用戶行為審計(jì)系統(tǒng)通過(guò)分析云的運(yùn)行日志,提取用戶操作行為信息,從而記錄用戶操作行為,了解云的運(yùn)行狀態(tài),及時(shí)發(fā)現(xiàn)云上發(fā)生的風(fēng)險(xiǎn)和違規(guī)操作,進(jìn)而提高云的安全性。研究設(shè)計(jì)獨(dú)特的云日志處理算法,能夠高效、準(zhǔn)確地從海量、格式不確定的原始日志中過(guò)濾掉噪聲日志、提取有效信息,將其轉(zhuǎn)化為結(jié)構(gòu)化的、可供大數(shù)據(jù)分析的用戶操作行為數(shù)據(jù)?;诓僮餍袨閿?shù)據(jù),運(yùn)用數(shù)據(jù)分析算法,可以對(duì)用戶的操作行為進(jìn)行行為審計(jì)、合規(guī)性分析等;通過(guò)多維度展示行為數(shù)據(jù),對(duì)于數(shù)據(jù)泄露這一類(lèi)復(fù)雜流程進(jìn)行設(shè)計(jì)分析;同時(shí)還提供了數(shù)據(jù)追溯、數(shù)據(jù)完整性校驗(yàn)、審計(jì)策略、行為還原等功能。2云審計(jì)系統(tǒng)設(shè)計(jì)2.1云審計(jì)系統(tǒng)架構(gòu)云上用戶行為審計(jì)系統(tǒng)由云平臺(tái)采集模塊、數(shù)據(jù)分析模塊、大數(shù)據(jù)平臺(tái)模塊、門(mén)戶展示模塊構(gòu)成。云審計(jì)的系統(tǒng)架構(gòu)如圖1所示。圖1云審計(jì)的系統(tǒng)架構(gòu)云平臺(tái)采集模塊通過(guò)代理或應(yīng)用程序接口(ApplicationProgramInterface,API),從云平臺(tái)獲取原始日志及云平臺(tái)上的租戶、用戶、資產(chǎn)、業(yè)務(wù)信息等元數(shù)據(jù),將原始日志寫(xiě)入大數(shù)據(jù)平臺(tái)模塊的分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS)中,作為整個(gè)數(shù)據(jù)分析模塊的輸入。大數(shù)據(jù)平臺(tái)模塊包括數(shù)據(jù)的存儲(chǔ)組件和大數(shù)據(jù)處理的引擎,存儲(chǔ)組件為HDFS、SQL、Hbase,主要用來(lái)存儲(chǔ)日志數(shù)據(jù)、日志模型、資產(chǎn)用戶元數(shù)據(jù);大數(shù)據(jù)處理引擎為Spark、SparkStreaming,主要用來(lái)批量處理大量數(shù)據(jù)。數(shù)據(jù)分析模塊包括日志預(yù)處理、關(guān)聯(lián)分析、日志結(jié)構(gòu)化幾個(gè)子模塊。日志預(yù)處理模塊調(diào)用大數(shù)據(jù)平臺(tái)的Spark服務(wù),實(shí)現(xiàn)過(guò)濾、模型提取、流程挖掘,得到日志模型。日志結(jié)構(gòu)化模塊調(diào)用SparkStreaming從HDFS中讀取原始日志,根據(jù)日志模型,提取原始日志中的有效信息,并將原始日志轉(zhuǎn)換為結(jié)構(gòu)化日志信息;關(guān)聯(lián)分析模塊通過(guò)日志中提取的ID關(guān)聯(lián)云平臺(tái)的元數(shù)據(jù),找到對(duì)應(yīng)的用戶、資產(chǎn)、權(quán)限信息,并根據(jù)審計(jì)策略判斷該操作行為是否合規(guī);同時(shí)關(guān)聯(lián)分析模塊還實(shí)現(xiàn)了運(yùn)用圖計(jì)算技術(shù)來(lái)識(shí)別云平臺(tái)數(shù)據(jù)泄露路徑的一些模型算法。門(mén)戶展示模塊則負(fù)責(zé)審計(jì)分析結(jié)果的多維度展示,讓用戶能夠直觀地了解當(dāng)前系統(tǒng)用戶操作行為分類(lèi)統(tǒng)計(jì)、合規(guī)性狀況、敏感資產(chǎn)等信息,并支持查閱系統(tǒng)記錄的用戶操作行為。同時(shí),為了審計(jì)的整個(gè)證據(jù)鏈的完整性,也支持從行為溯源到原始日志的操作。2.2核心功能模塊2.2.1日志預(yù)處理模塊日志預(yù)處理主要實(shí)現(xiàn)了日志過(guò)濾、流程挖掘、模型提取,如圖2所示。圖2預(yù)處理流程日志過(guò)濾主要運(yùn)用聚類(lèi)算法從大量無(wú)用的云日志中過(guò)濾掉噪聲日志,保留有效日志,從而提高流程挖掘的準(zhǔn)確性和高效性。流程挖掘

主要實(shí)現(xiàn)了從過(guò)濾后的有效原始日志中提取出屬于同一個(gè)“事件”的操作日志,將其放入某個(gè)事件對(duì)應(yīng)的日志集合。模型提取主要實(shí)現(xiàn)了從原始日志中挖掘出某個(gè)操作對(duì)應(yīng)的日志模型,日志模型包括:操作所觸發(fā)的日志集合,集合中每條日志的正則表達(dá)式,集合中每條日志的關(guān)鍵參數(shù)及其含義。如圖3所示,“事件”是指用戶的一個(gè)操作行為,例如創(chuàng)建虛擬機(jī)、遷移虛擬機(jī)等操作都是一個(gè)事件,執(zhí)行一個(gè)“事件”會(huì)觸發(fā)多條日志,從采集到的日志中挖掘出事件的日志序列,獲取其正則表達(dá)式,提取出描述“事件”的時(shí)間、觸發(fā)者、操作對(duì)象等關(guān)鍵信息的參數(shù),生成一個(gè)“事件”對(duì)應(yīng)的日志模型。圖3日志模型通過(guò)三步處理,最終能夠提取出某個(gè)操作“事件”所對(duì)應(yīng)的日志模型,此時(shí)再由人工標(biāo)注程序提取出事件所對(duì)應(yīng)的具體操作是什么、提取的參數(shù)分別是什么含義,從而得到完整的日志模型。2.2.2日志結(jié)構(gòu)化模塊日志結(jié)構(gòu)化模塊利用日志預(yù)處理模塊中得到的日志模型,從原始日志中提取出用戶操作行為和關(guān)鍵參數(shù),并將其轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),以便于后續(xù)的關(guān)聯(lián)分析、審計(jì)等。結(jié)構(gòu)化模塊的流程如圖4所示。圖4結(jié)構(gòu)化模塊流程SparkStreaming讀取HDFS中的原始日志,經(jīng)過(guò)日志過(guò)濾模塊,然后對(duì)于每行有效日志根據(jù)事件的日志模型庫(kù)去匹配其正則表達(dá)式,如果匹配成功,則可以知道當(dāng)前有效日志屬于哪一個(gè)事件,待某事件的日志模型對(duì)應(yīng)的日志都收集齊了,則從收集到的日志中提取出對(duì)應(yīng)的有效信息,生成一條新的結(jié)構(gòu)化的數(shù)據(jù),并寫(xiě)入數(shù)據(jù)庫(kù)中。結(jié)構(gòu)化后的數(shù)據(jù)都包含操作者、操作內(nèi)容、對(duì)象目標(biāo)、時(shí)間、結(jié)果、失敗原因、原始日志等要素。日志結(jié)構(gòu)化輸出的數(shù)據(jù)庫(kù)表中的每一行表示了一個(gè)單獨(dú)的“事件”,每一列表示了這個(gè)“事件”的要素。實(shí)際的事件日志只能包含有限的信息,因此提取出來(lái)的日志要素往往比需要的要素少,某個(gè)“事件”結(jié)構(gòu)化后的數(shù)據(jù)記錄的要素的飽滿程度,是和該事件觸發(fā)的日志中包含的信息量相關(guān)的。2.2.3關(guān)聯(lián)分析模塊關(guān)聯(lián)分析模塊首先根據(jù)日志結(jié)構(gòu)化模塊結(jié)果庫(kù)中的ID信息,關(guān)聯(lián)云數(shù)據(jù)庫(kù)中的元數(shù)據(jù),例如通過(guò)用戶ID關(guān)聯(lián)用戶的名稱(chēng)、所屬租戶等,后續(xù)用于門(mén)戶展示模塊。同時(shí)根據(jù)關(guān)聯(lián)后的信息,生成審計(jì)策略,依據(jù)審計(jì)策略觸發(fā)告警。(1)告警分析。告警分析是根據(jù)審計(jì)策略檢測(cè)出存在風(fēng)險(xiǎn)的行為的方法,存在風(fēng)險(xiǎn)的行為可以是某個(gè)獨(dú)立的操作,也可以是某一系列操作行為的組合。審計(jì)系統(tǒng)主要是根據(jù)審計(jì)策略對(duì)結(jié)構(gòu)化的數(shù)據(jù)所呈現(xiàn)的用戶行為進(jìn)行分析判斷,從而確定用戶的行為是否存在風(fēng)險(xiǎn)、是否已經(jīng)導(dǎo)致問(wèn)題或者可能造成危害。審計(jì)策略的生成方式主要有如下幾種:①根據(jù)安全規(guī)范和需求,通過(guò)對(duì)“事件”的關(guān)鍵要素如操作內(nèi)容、操作頻率、操作對(duì)象、訪問(wèn)的黑白名單、訪問(wèn)權(quán)限、操作時(shí)間、操作地點(diǎn)、操作IP、操作是否成功等進(jìn)行硬性的規(guī)定來(lái)生成策略,例如:禁止特定時(shí)間段內(nèi)的某些敏感操作,直接禁止某些敏感操作,或者禁止某些特定的用戶執(zhí)行這些敏感操作。②根據(jù)用戶的行為習(xí)慣,取其以往的統(tǒng)計(jì)平均值,自動(dòng)學(xué)習(xí)生成相應(yīng)的策略,包括用戶經(jīng)常訪問(wèn)的對(duì)象、發(fā)起訪問(wèn)的地點(diǎn)、訪問(wèn)頻率、經(jīng)常訪問(wèn)的事件、訪問(wèn)持續(xù)時(shí)間、訪問(wèn)過(guò)程中的網(wǎng)絡(luò)流量等維度。一旦某次操作或者歷史經(jīng)驗(yàn)值不符合或者方差大于閾值,就可以判定為異常行為。③通過(guò)挖掘分析曾經(jīng)安全問(wèn)題發(fā)生前后的歷史行為數(shù)據(jù),采集問(wèn)題發(fā)生前后哪些行為的統(tǒng)計(jì)值發(fā)生了異常變化,可以獲得此類(lèi)問(wèn)題發(fā)生前后云上用戶的操作頻率、操作行為組合、操作發(fā)生時(shí)間、主要操作等方面的征兆信息,從而生成新的審計(jì)策略,達(dá)到同類(lèi)問(wèn)題發(fā)生時(shí)提前告警的目的。④系統(tǒng)支持復(fù)雜流程審計(jì)算法,能夠從一系列連續(xù)的操作事件中,提取出用戶的操作流程,并對(duì)其進(jìn)行合規(guī)性審計(jì),確保用戶操作符合規(guī)定流程。例如在遷移虛擬機(jī)之前必須進(jìn)行備份操作,如果沒(méi)有備份,則視為違規(guī)。通過(guò)這些審計(jì)策略,能夠有效地識(shí)別用戶的違規(guī)和風(fēng)險(xiǎn)操作,生成告警,極大地提高云系統(tǒng)的安全性。告警信息中包含了審計(jì)策略的描述和觸發(fā)本次告警的操作行為信息,以及分析所依賴的原始日志,能夠從告警的行為追溯到關(guān)聯(lián)的原始日志。(2)數(shù)據(jù)泄露檢測(cè)。運(yùn)用圖計(jì)算技術(shù)識(shí)別云平臺(tái)數(shù)據(jù)泄露的相關(guān)路徑,還原云平臺(tái)上因操作行為導(dǎo)致的數(shù)據(jù)泄露場(chǎng)景。先設(shè)置一個(gè)可能觸發(fā)泄露的行為集合,再基于關(guān)系度構(gòu)建子圖的方法,篩選出資源和最遠(yuǎn)行為,獲取影響路徑元素集合,最終采用起點(diǎn)、必經(jīng)點(diǎn)、終點(diǎn)的方式找出數(shù)據(jù)泄露的行為路徑。該方法能夠發(fā)現(xiàn)隱藏在正常行為序列中的數(shù)據(jù)泄露行為序列,最大限度地還原數(shù)據(jù)泄露場(chǎng)景的行為。2.2.4門(mén)戶展示模塊門(mén)戶展示模塊主要展示審計(jì)系統(tǒng)分析出的用戶操作行為數(shù)據(jù)和生成的告警數(shù)據(jù),并進(jìn)行多維度的展示。從多種維度直觀地展示系統(tǒng)的整體狀態(tài)和風(fēng)險(xiǎn)情況。除了對(duì)某個(gè)租戶或者云系統(tǒng)范圍內(nèi)的一段時(shí)間內(nèi)的操作行為頻率、違規(guī)情況等進(jìn)行展示,還可以對(duì)某個(gè)特定的虛擬資源進(jìn)行全生命周期審計(jì),進(jìn)而進(jìn)行多維度的展示。此外,還可以對(duì)某個(gè)獨(dú)立的用戶全生命周期過(guò)程中的所有行為進(jìn)行多維度的分析展示。2.2.5數(shù)據(jù)采集模塊數(shù)據(jù)采集模塊主要分為API采集和文本日志采集兩種。其中,API采集主要是通過(guò)對(duì)接云平臺(tái)的元數(shù)據(jù)服務(wù)來(lái)獲得相關(guān)數(shù)據(jù),文本日志則是通過(guò)與云平臺(tái)的日志服務(wù)器對(duì)接或者通過(guò)在云平臺(tái)內(nèi)部部署日志采集代理的方式實(shí)現(xiàn)。將采集到的數(shù)據(jù)寫(xiě)入HDFS或者消息中間件中,由數(shù)據(jù)分析模塊中的日志預(yù)處理模塊進(jìn)行標(biāo)準(zhǔn)化處理。3云審計(jì)系統(tǒng)實(shí)現(xiàn)3.1系統(tǒng)拓?fù)浣Y(jié)構(gòu)

系統(tǒng)拓?fù)浣Y(jié)構(gòu)如圖5所示。用戶需要通過(guò)堡壘機(jī)登錄到前置機(jī),然后在前置機(jī)上登錄云審計(jì)系統(tǒng),或者查看數(shù)據(jù)庫(kù)。圖5云審計(jì)系統(tǒng)拓?fù)浣Y(jié)構(gòu)3.2系統(tǒng)部署系統(tǒng)部署方式十分靈活,如圖6所示,網(wǎng)絡(luò)中的各種運(yùn)行設(shè)備只需簡(jiǎn)單配置,將日志發(fā)送到數(shù)據(jù)層所在主機(jī)上(可通過(guò)日志接收代理轉(zhuǎn)發(fā)日志數(shù)據(jù)),其余設(shè)備網(wǎng)絡(luò)可通即可,對(duì)網(wǎng)絡(luò)的適應(yīng)性極強(qiáng),既能夠支持集中式的部署方式,也支持跨區(qū)域、分級(jí)分層、物理/邏輯隔離的大規(guī)模網(wǎng)絡(luò)的部署方式,是可水平擴(kuò)展的海量事件采集、存儲(chǔ)、分析平臺(tái)。圖6云審計(jì)系統(tǒng)的可擴(kuò)展性部署4結(jié)語(yǔ)本文主要從基于云上日志來(lái)審計(jì)云上用戶行為的需求出發(fā),描述了基于Spark大數(shù)據(jù)平臺(tái)的信息提取方法,包括:日志過(guò)濾,過(guò)濾掉無(wú)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論