大數(shù)據(jù)技術(shù)在安全領(lǐng)域的應(yīng)用和優(yōu)勢(shì),軟件工程碩士論文_第1頁
大數(shù)據(jù)技術(shù)在安全領(lǐng)域的應(yīng)用和優(yōu)勢(shì),軟件工程碩士論文_第2頁
大數(shù)據(jù)技術(shù)在安全領(lǐng)域的應(yīng)用和優(yōu)勢(shì),軟件工程碩士論文_第3頁
大數(shù)據(jù)技術(shù)在安全領(lǐng)域的應(yīng)用和優(yōu)勢(shì),軟件工程碩士論文_第4頁
大數(shù)據(jù)技術(shù)在安全領(lǐng)域的應(yīng)用和優(yōu)勢(shì),軟件工程碩士論文_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)技術(shù)在安全領(lǐng)域的應(yīng)用和優(yōu)勢(shì),軟件工程碩士論文本篇論文目錄導(dǎo)航:【題目】【第一章】【2.1-2.3】【2.42.5】大數(shù)據(jù)技術(shù)在安全領(lǐng)域的應(yīng)用和優(yōu)勢(shì)【第三章】【4.1-4.5】【4.6】【4.7】【總結(jié)/以下為參考文獻(xiàn)】2.4Sparkmllib庫與基于spark的數(shù)據(jù)挖掘算法。Spark之所以在機(jī)器學(xué)習(xí)方面具有得天獨(dú)厚的優(yōu)勢(shì),有下面幾點(diǎn)原因:〔1〕機(jī)器學(xué)習(xí)算法一般都有很多個(gè)步驟迭代計(jì)算的經(jīng)過,機(jī)器學(xué)習(xí)的計(jì)算需要在屢次迭代后獲得足夠小的誤差或者足夠收斂才會(huì)停止,迭代時(shí)假如使用Hadoop的MapReduce計(jì)算框架,那么計(jì)算時(shí)每次都要進(jìn)行讀/寫磁盤,任務(wù)的啟動(dòng)等工作,這樣的結(jié)果就是導(dǎo)致I/O和CPU大量消耗。而Spark基于內(nèi)存的計(jì)算模型天生就擅于迭代計(jì)算,它能夠在內(nèi)存中直接完成多個(gè)計(jì)算步驟,很少或者只要在必要時(shí)才會(huì)對(duì)磁盤和網(wǎng)絡(luò)進(jìn)行操作,因而講Spark正是機(jī)器學(xué)習(xí)的理想的平臺(tái)。〔2〕從通信的角度講,假如使用Hadoop的MapReduce計(jì)算框架,JobTracker和TaskTracker之間由于是通過heartbeat的方式來進(jìn)行的通信和傳遞數(shù)據(jù),會(huì)導(dǎo)致非常慢的執(zhí)行速度,而Spark具有出色而高效的Akka和Netty通信系統(tǒng),通信效率極高。MLlib〔MachineLearniglib〕是指spark的機(jī)器學(xué)習(xí)算法庫,它集成了常用的一些機(jī)器學(xué)習(xí)算法,它同時(shí)也包含了一些相關(guān)的測(cè)試與數(shù)據(jù)生成器。Spark的設(shè)計(jì)初衷就是為了支持一些迭代的Job,這正好符合很多機(jī)器學(xué)習(xí)算法的特點(diǎn)。在Spark官方首頁中展示了LogisticRegression算法在Spark和Hadoop中運(yùn)行的性能比擬,如此圖以下圖所示。Spark比運(yùn)行LogisticRegression的運(yùn)算場(chǎng)景下比Hadoop的計(jì)算速度快了100倍以上[21].MLlib當(dāng)前支持4種常見的機(jī)器學(xué)習(xí)問題:分類、回歸、聚類和協(xié)同過濾,MLlib在Spark整個(gè)生態(tài)系統(tǒng)中的位置。MLlib基于RDD能夠與SparkSQL、GraphX、SparkStreaming無縫集成,以RDD為基石,4個(gè)子框架可聯(lián)手構(gòu)建大數(shù)據(jù)計(jì)算中心。MLlib主要包含三個(gè)部分:〔a〕底層基礎(chǔ):包括Spark的運(yùn)行庫、矩陣庫和向量庫;〔b〕算法庫:包含廣義線性模型、推薦系統(tǒng)、聚類、決策樹和評(píng)估的算法;〔c〕實(shí)用程序:包括測(cè)試數(shù)據(jù)的生成、外部數(shù)據(jù)的讀入等功能。2.4.1分類算法。分類算法屬于監(jiān)督式學(xué)習(xí),使用類標(biāo)簽已經(jīng)知道的樣本建立一個(gè)分類函數(shù)或分類模型,使用分類模型,能夠?qū)?shù)據(jù)庫中沒有進(jìn)行分類的數(shù)據(jù)進(jìn)行分類。在數(shù)據(jù)挖掘領(lǐng)域中分類是一項(xiàng)重要的任務(wù),當(dāng)前在商業(yè)上應(yīng)用最多,常見的典型應(yīng)用場(chǎng)景有流失預(yù)測(cè)、精到準(zhǔn)確營銷、客戶獲取、個(gè)性偏好等。MLlib當(dāng)前支持分類算法有:邏輯回歸、支持向量機(jī)、樸素貝葉斯和決策樹?!?〕回歸算法?;貧w算法屬于監(jiān)督式學(xué)習(xí),每個(gè)個(gè)體都有一個(gè)與之相關(guān)聯(lián)的實(shí)數(shù)標(biāo)簽,并且我們希望在給出用于表示這些實(shí)體的數(shù)值特征后,所預(yù)測(cè)出的標(biāo)簽值能夠盡可能接近實(shí)際值。MLlib當(dāng)前支持回歸算法有:線性回歸、嶺回歸、Lasso和決策樹?!?〕聚類算法。聚類算法屬于非監(jiān)督式學(xué)習(xí),通常被用于探尋求索性的分析,它意思就是根據(jù)物以類聚的原理,將沒有分類的數(shù)據(jù)集分成不同的組,被分類的同一組數(shù)據(jù)中的數(shù)據(jù)集叫簇,并且對(duì)構(gòu)成這樣的簇的經(jīng)過進(jìn)行描繪敘述的經(jīng)過。聚類的目的就是將屬性類似的一組數(shù)據(jù)集合在一起,也就是講同一簇中的數(shù)據(jù)類似,不同簇的數(shù)據(jù)性質(zhì)不同,常見的典型應(yīng)用場(chǎng)景有客戶細(xì)分、客戶研究、市場(chǎng)細(xì)分、價(jià)值評(píng)估。MLlib當(dāng)前支持廣泛使用的KMmeans聚類算法?!?〕協(xié)同過濾。協(xié)同過濾常被應(yīng)用于推薦系統(tǒng),這些技術(shù)旨在補(bǔ)充用戶-商品關(guān)聯(lián)矩陣中所缺失的部分。MLlib當(dāng)下支持基于模型的協(xié)同過濾,華而不實(shí)用戶和商品通過一小組隱語義因子進(jìn)行表示出,并且這些因子也用于預(yù)測(cè)缺失的元素。2.5大數(shù)據(jù)技術(shù)在安全領(lǐng)域的應(yīng)用和優(yōu)勢(shì)。惡意代碼檢測(cè)、入侵檢測(cè)作為傳統(tǒng)的基于特征的信息安全分析技術(shù)已經(jīng)廣泛被應(yīng)用等,但是伴隨著數(shù)據(jù)量越來越龐大和一些新型的信息安全攻擊的出現(xiàn),傳統(tǒng)的安全技術(shù)已經(jīng)很難應(yīng)付,所以應(yīng)用大數(shù)據(jù)分析技術(shù)對(duì)新型信息安全攻擊進(jìn)行分析已成為業(yè)界研究熱門。Gartner在2020年的報(bào)告中明確指出信息安全正在變成一個(gè)大數(shù)據(jù)分析問題[28].大數(shù)據(jù)安全分析方式方法不但能夠解決海量數(shù)據(jù)的采集和存儲(chǔ),并且結(jié)合機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘方式方法,就愈加能夠愈加主動(dòng)、彈性地去應(yīng)對(duì)未知多變的風(fēng)險(xiǎn)和新型復(fù)雜的違規(guī)行為。因而BDSA〔BigDataSecurityAnalysis,安全大數(shù)據(jù)分析〕應(yīng)運(yùn)而生。固然分析日志,網(wǎng)絡(luò)流量,并為取證和入侵檢測(cè)系統(tǒng)事件已經(jīng)在數(shù)十年的信息安全界的一個(gè)問題,傳統(tǒng)的技術(shù)并不總是缺乏以支持長期的,大規(guī)模的分析有下面幾個(gè)原因:第一,保存了大量的數(shù)據(jù)之前不是經(jīng)濟(jì)上可行的。其結(jié)果是,在傳統(tǒng)的基礎(chǔ)設(shè)施,大多數(shù)事件日志和其他記錄計(jì)算機(jī)活動(dòng)的固定保存期〔例如,60天〕之后刪除。其次,不完好和噪音特征大型非構(gòu)造化數(shù)據(jù)集進(jìn)行分析和復(fù)雜的查詢效率低下。例如,一些流行的安全信息和事件管理〔SIEM〕工具的目的不是分析和管理非構(gòu)造化數(shù)據(jù)并牢固地綁定到預(yù)定義形式。然而,新的大數(shù)據(jù)應(yīng)用也開場(chǎng)變得安全管理軟件的一部分,由于它們能夠幫助清潔,做好準(zhǔn)備,并在異構(gòu),不完好的,嘈雜的格式有效地查詢數(shù)據(jù)。最后,大型數(shù)據(jù)倉庫的管理歷來是昂貴的,他們的部署通常需要強(qiáng)有力的商業(yè)案例。Hadoop框架等大數(shù)據(jù)工具如今大規(guī)模的商品化,可靠集群的部署,因而使處理和分析數(shù)據(jù)的出現(xiàn)了新的機(jī)遇。欺詐檢測(cè)是大數(shù)據(jù)分析最明顯的用處之一:信譽(yù)卡和公司都進(jìn)行了幾十年的大規(guī)模的欺詐檢測(cè)了;然而,對(duì)客戶來講建立基礎(chǔ)設(shè)施來挖掘大數(shù)據(jù)來檢測(cè)欺詐檢測(cè)行為是必要的,但大范圍采用并不夠經(jīng)濟(jì)實(shí)用。大數(shù)據(jù)技術(shù)的主要影響之一是他們正在推動(dòng)各種工業(yè)試圖建立安全監(jiān)控經(jīng)濟(jì)實(shí)惠的基礎(chǔ)設(shè)施。尤其是,新的大數(shù)據(jù)技術(shù),如在Hadoop生態(tài)系統(tǒng)〔包括pig,hive,mahout,和Hadoop〕,流挖掘,復(fù)雜事件處理,且和NoSQL數(shù)據(jù)庫,正在使大型,異構(gòu)數(shù)據(jù)集的分析以史無前例的規(guī)模和速度。這些技術(shù)為信息安全分析在存儲(chǔ)上,維護(hù)和安全信息分析轉(zhuǎn)化方面提供了便利。我們能夠通過查看安全工具怎樣反響在過去十年中改變來發(fā)現(xiàn)這些趨勢(shì)。當(dāng)IDS傳感器的市場(chǎng)不斷的增長,網(wǎng)絡(luò)監(jiān)控的傳感器和記錄工具被部署在企業(yè)網(wǎng)絡(luò);然而,從這些不同的數(shù)據(jù)源的管理警報(bào)成為一項(xiàng)具有挑戰(zhàn)性的任務(wù)。其結(jié)果是,安全廠商開場(chǎng)開發(fā)siems平臺(tái),其目的是聚集和關(guān)聯(lián)告警等網(wǎng)絡(luò)統(tǒng)計(jì)信息,并通過儀表盤提供所有這些信息,證券分析師。如今的大數(shù)據(jù)工具提高通過關(guān)聯(lián),穩(wěn)固和來龍去脈更長的時(shí)間消耗臭氧層物質(zhì)圍更不同的數(shù)據(jù)源提供應(yīng)安全分析師的信息。我們能夠從ZionsBancorporation提出一個(gè)近期的案例研究中看到的大數(shù)據(jù)工具所帶來的的詳細(xì)利益[29].其研究發(fā)現(xiàn),龐大的數(shù)據(jù)量和事件所需要的數(shù)量分析能力已經(jīng)超越了傳統(tǒng)的SIEM系統(tǒng)所能承受的范圍〔對(duì)于一個(gè)月內(nèi)收集的數(shù)據(jù)需要20分鐘喝一個(gè)小時(shí)時(shí)間進(jìn)行研究〕。而在hadoop生態(tài)系統(tǒng)中使用hive進(jìn)行查詢,得到同樣的結(jié)果大約只需要一分鐘,將非構(gòu)造化數(shù)據(jù)和多個(gè)不同的數(shù)據(jù)集的進(jìn)行結(jié)合進(jìn)入一個(gè)單一的分析框架是大數(shù)據(jù)的有前途的特點(diǎn)之一。大數(shù)據(jù)工具也十分適用于apt的檢測(cè)和預(yù)測(cè),apt攻擊攻擊形式緩慢周期長,所以檢測(cè)這些攻擊,我們需要手機(jī)和關(guān)聯(lián)大量的各種各樣的數(shù)據(jù)集做長時(shí)間的歷史關(guān)聯(lián)才能探測(cè)出apt攻擊[30].2.5.1安全大數(shù)據(jù)分析。大數(shù)據(jù)分析技術(shù)給信息安全領(lǐng)域帶來了全新的解決方案,但是好像其它領(lǐng)域一樣,大數(shù)據(jù)的成效并非簡(jiǎn)單地采集數(shù)據(jù),而是需要資源的投入,系統(tǒng)的建設(shè),科學(xué)的分析。Gartner在2020年的報(bào)告中指出,大數(shù)據(jù)技術(shù)作為將來信息架構(gòu)發(fā)展的十大趨勢(shì)之首,具有數(shù)據(jù)量大、種類繁多、速度快、價(jià)值密度低等特點(diǎn)。將大數(shù)據(jù)技術(shù)應(yīng)用到信息安全分析領(lǐng)域,能夠?qū)崿F(xiàn)容量大效率高成本低的安全分析能力?!?〕信息安全分析引入大數(shù)據(jù)的必要性。大數(shù)據(jù)具有4V的特點(diǎn):Volume、Variety、Velocity和Value,可實(shí)現(xiàn)大容量、低成本、高效率的信息安全分析能力,同時(shí)能夠知足處理和分析安全數(shù)據(jù)的要求,將大數(shù)據(jù)分析應(yīng)用于信息安全領(lǐng)域能夠有效的辨別各種攻擊行為或安全事件,具有重大的研究意義和實(shí)用價(jià)值。隨著企業(yè)規(guī)模的增大和安全設(shè)備的增加,信息安全分析的數(shù)據(jù)量呈指數(shù)級(jí)增長。數(shù)據(jù)源豐富、數(shù)據(jù)種類多、數(shù)據(jù)分析維度廣;同時(shí),數(shù)據(jù)生成的速度更快,對(duì)信息安全分析應(yīng)答能力要求也相應(yīng)增長。傳統(tǒng)信息安全分析主要基于流量和日志兩大類數(shù)據(jù),并與資產(chǎn)、業(yè)務(wù)行為、外部情報(bào)等進(jìn)行關(guān)聯(lián)分析。基于流量的安全分析應(yīng)用主要包括惡意代碼檢測(cè)、僵木蠕檢測(cè)、異常流量、Web安全分析等;基于日志的安全分析應(yīng)用主要包括安全審計(jì)、主機(jī)入侵檢測(cè)等。將大數(shù)據(jù)分析技術(shù)引入到信息安全分析中,就是將分散的安全數(shù)據(jù)整合起來,通過高效的采集、存儲(chǔ)、檢索和分析,利用多階段、多層面的關(guān)聯(lián)分析以及異常行為分類預(yù)測(cè)模型,有效的發(fā)現(xiàn)APT攻擊、數(shù)據(jù)泄露、DDoS攻擊、騷擾詐騙、垃圾信息等,提升安全防御的主動(dòng)性。而且,大數(shù)據(jù)分析牽涉的數(shù)據(jù)愈加全面,主要包括應(yīng)用場(chǎng)景本身產(chǎn)生的數(shù)據(jù)、通過某種活動(dòng)或內(nèi)容創(chuàng)建出來的數(shù)據(jù)、相關(guān)背景數(shù)據(jù)及上下文關(guān)聯(lián)數(shù)據(jù)等。怎樣高效合理的處理和分析這些數(shù)據(jù)是安全大數(shù)據(jù)技術(shù)應(yīng)當(dāng)研究的問題。〔2〕安全大數(shù)據(jù)分析方式方法。安全大數(shù)據(jù)分析的核心思想,就是指基于網(wǎng)絡(luò)異常行為分析,它通過對(duì)海量數(shù)據(jù)處理及學(xué)習(xí)建模,從海量數(shù)據(jù)中找出異常行為和相關(guān)特征;針對(duì)不同安全場(chǎng)景設(shè)計(jì)針對(duì)性的關(guān)聯(lián)分析方式方法,發(fā)揮大數(shù)據(jù)存儲(chǔ)和分析的優(yōu)勢(shì),從豐富的數(shù)據(jù)源中進(jìn)行深度挖掘,進(jìn)而挖掘出安全問題。安全大數(shù)據(jù)分析主要包括安全數(shù)據(jù)采集、存儲(chǔ)、檢索和安全數(shù)據(jù)的智能分析?!瞐〕安全數(shù)據(jù)采集、存儲(chǔ)和檢索:基于大數(shù)據(jù)采集、存儲(chǔ)、檢索等技術(shù),能夠從根本上提升安全數(shù)據(jù)分析的效率。采集多種類型的數(shù)據(jù),如業(yè)務(wù)數(shù)據(jù)、流量數(shù)據(jù)、安全設(shè)備日志數(shù)據(jù)及輿情數(shù)據(jù)等。針對(duì)不同的數(shù)據(jù)采用特定的采集方式,提升采集效率。針對(duì)日志信息可采用Chukwa、Flume、Scribe等工具;針對(duì)流量數(shù)據(jù)可采用流量景象方式方法,并使用Storm和Spark技術(shù)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)和分析;針對(duì)格式固定的業(yè)務(wù)數(shù)據(jù),可使用HBase、GBase等列式存儲(chǔ)機(jī)制,通過MapReduce和Hive等分析方式方法,能夠?qū)崟r(shí)的對(duì)數(shù)據(jù)進(jìn)行檢索,大大提升數(shù)據(jù)處理效率?!瞓〕安全數(shù)據(jù)的智能分析:并行存儲(chǔ)和NoSQL數(shù)據(jù)庫提升了數(shù)據(jù)分析和查詢的效率,從海量數(shù)據(jù)中精到準(zhǔn)確地挖掘安全問題還需要智能化的分析工具,主要包括ETL〔如預(yù)處理〕、統(tǒng)計(jì)建模工具〔如回歸分析、時(shí)間序列預(yù)測(cè)、多元統(tǒng)計(jì)分析理論〕、機(jī)器學(xué)習(xí)工具〔如貝葉斯網(wǎng)絡(luò)、邏輯回歸、決策樹、隨機(jī)森利〕、社交網(wǎng)絡(luò)工具〔如關(guān)聯(lián)分析、隱馬爾可夫模型、條件隨機(jī)場(chǎng)〕等。常用的大數(shù)據(jù)分析思路有先驗(yàn)分析方式方法、分類預(yù)測(cè)分析方式方法、概率圖模型、關(guān)聯(lián)分析方式方法等??墒褂肕ahout和MLlib等分析工具對(duì)數(shù)據(jù)進(jìn)行挖掘分析。綜上,一個(gè)完備的安全大數(shù)據(jù)分析平臺(tái)應(yīng)自下而上分為數(shù)據(jù)采集層、大數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)挖掘分析層、可視化展示層。主要通過數(shù)據(jù)流、日志、業(yè)務(wù)數(shù)據(jù)、情報(bào)信息等多源異構(gòu)數(shù)據(jù)進(jìn)行分布式融合分析,針對(duì)不同場(chǎng)景搭建分析模型,最終實(shí)現(xiàn)信息安全的可管可控,展現(xiàn)整體安全態(tài)勢(shì)。2.5.2基于網(wǎng)絡(luò)流量的大數(shù)據(jù)分析。在互聯(lián)網(wǎng)出口進(jìn)行旁路流量監(jiān)控,使用Hadoop存儲(chǔ)及Storm、Spark流分析技術(shù),通過大數(shù)據(jù)分析技術(shù)梳理業(yè)務(wù)數(shù)據(jù),深度分析所面臨的安全風(fēng)險(xiǎn)。主要分析思路是采集Netflow原始數(shù)據(jù)、路由器配置數(shù)據(jù)、僵

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論