復雜網(wǎng)絡數(shù)據(jù)挖掘論文_第1頁
復雜網(wǎng)絡數(shù)據(jù)挖掘論文_第2頁
復雜網(wǎng)絡數(shù)據(jù)挖掘論文_第3頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、復雜網(wǎng)絡數(shù)據(jù)挖掘論文1復雜網(wǎng)絡數(shù)據(jù)流密度分析 對于一個多種網(wǎng)絡形式并存的復雜網(wǎng)絡,假設復雜網(wǎng)絡作為一個網(wǎng)絡社區(qū),在復雜網(wǎng)絡中存在的網(wǎng)絡類型數(shù)即社區(qū)數(shù)。我們用一個無向遍歷圖GV,E來表示整個網(wǎng)絡社區(qū),如果網(wǎng)絡中有兩個節(jié)點有兩條不重合的網(wǎng)絡路徑,則說明這兩個節(jié)點處于一個網(wǎng)絡環(huán)路當中,網(wǎng)絡中的數(shù)據(jù)流需要經(jīng)過網(wǎng)絡環(huán)路到達特定的節(jié)點。當在某個時間段里需要傳送的數(shù)據(jù)流個數(shù)大于網(wǎng)絡節(jié)點數(shù)時,則說明該網(wǎng)絡的數(shù)據(jù)流密度較大,為了能夠準確地在復雜網(wǎng)絡中挖掘出所需的數(shù)據(jù)流,則需要根據(jù)數(shù)據(jù)流密度來劃分整個網(wǎng)絡社區(qū),尋找數(shù)據(jù)流處于哪個社區(qū),再確定數(shù)據(jù)流所在社區(qū)的環(huán)路。在這里我們通過設計算法確定網(wǎng)絡數(shù)據(jù)流密度,來對復雜網(wǎng)

2、絡進行社區(qū)劃分,再對社區(qū)進行無向環(huán)路遍歷,并通過遍歷得到該社區(qū)網(wǎng)絡的所環(huán)路,確定所需查詢的數(shù)據(jù)流位于哪個環(huán)路。以下為復雜網(wǎng)絡中需要用到的符號說明。 2增量子空間數(shù)據(jù)挖掘算法 為了能夠有效地在復雜網(wǎng)絡中挖掘出目的數(shù)據(jù)流,使用了復雜網(wǎng)絡數(shù)據(jù)流密度的分析方法在對復雜網(wǎng)絡進行社區(qū)劃分后,通過對社區(qū)網(wǎng)絡進行無向環(huán)路遍歷并得到社區(qū)網(wǎng)絡的所有環(huán)路。接下來挖掘算法先后挖掘出目的數(shù)據(jù)流所屬的社區(qū)以及環(huán)路,最終確定目的數(shù)據(jù)流的具體位置。 2.1基于社區(qū)網(wǎng)絡遍歷的數(shù)據(jù)流挖掘 當數(shù)據(jù)流i與社區(qū)k的相關度最大時,說明數(shù)據(jù)流i位于社區(qū)k的可能性就最大。但是當多個數(shù)據(jù)流的大小區(qū)別不大時,以數(shù)據(jù)流的大小作為指標來定義相關度會

3、導致挖掘精度較低。這里我們也引入數(shù)據(jù)流的特征集和數(shù)據(jù)流中的分組隊列長度來計算相關度。 2.2基于多增量空間的數(shù)據(jù)流挖掘 在采用基于社區(qū)網(wǎng)絡遍歷的數(shù)據(jù)流挖掘方法得到數(shù)據(jù)流的所屬社區(qū)后,我們接著采用基于多增量空間的數(shù)據(jù)流挖掘方法來挖掘出數(shù)據(jù)流的所屬環(huán)路。先將社區(qū)網(wǎng)絡的環(huán)路進行多增量空間擴展,即先得到 目標數(shù)據(jù)流所經(jīng)過的環(huán)路,再得到數(shù)據(jù)流所經(jīng)過的節(jié)點與時間的相關系數(shù),這樣就可以在時空上確定目的數(shù)據(jù)流位于環(huán)路的哪個節(jié)點中。 3實驗結(jié)果 為了驗證本文提出的基于復雜網(wǎng)絡數(shù)據(jù)流密度的增量子空間數(shù)據(jù)挖掘算法的效果,我們通過matlab7.0軟件進行算法仿真,其中仿真的復雜網(wǎng)絡由多種網(wǎng)絡形式組成,網(wǎng)絡節(jié)點有20

4、0個,數(shù)據(jù)流大小為500bytes,節(jié)點的接收能耗為10nJ/bit,發(fā)射能耗為50nJ/bit,進行信號處理和功率放大的能耗為10nJ/bit。其他節(jié)點干擾而產(chǎn)生的能量消耗為5nJ/bit。在對本文算法進行分析的過程中,我們采用了對比分析的方法,Lopez-Yanez等人提出一種基于時間序列數(shù)據(jù)挖掘的新的關聯(lián)模型,該模型是基于伽瑪分類,是一種監(jiān)督模式識別模型,目的是為了挖掘已知模式中的時間序列,以預測未知的值。由Negrevergne等人提出的一種PARAMINER算法:一個通用的模式挖掘算法的多核架構(gòu)。多核架構(gòu)采用的是一種新的數(shù)據(jù)集縮減技術(shù)(稱之為EL-還原),在算法中通過結(jié)合新的技術(shù)用于

5、處理多核心架構(gòu)的并行執(zhí)行數(shù)據(jù)集。為了驗證本文算法的挖掘有效性,我們分別在增多節(jié)點數(shù)量和社區(qū)網(wǎng)絡數(shù)的情況下獲取算法的數(shù)據(jù)挖掘精度。實驗采用的精度為NMI16,實驗結(jié)果如圖3和圖4所示。在不同節(jié)點數(shù)量下基于復雜網(wǎng)絡數(shù)據(jù)流密度的增量子空間數(shù)據(jù)挖掘算法的挖掘精度更高,挖掘精度高于85%,而文獻14的挖掘精度在77%以上,挖掘精度在76%以上。因為、提出的關聯(lián)模型、提出的多核架構(gòu)沒有準確把握數(shù)據(jù)流在不同時間段里與環(huán)路位置的相關情況。而本文算法采用社區(qū)網(wǎng)絡遍歷和多增量空間的方法可以有效地確定這種相關性。圖4為不同社區(qū)數(shù)下的算法挖掘精度,從圖中可以看出,當社區(qū)網(wǎng)絡的種類增多時,會對算法的挖掘精度造成影響,本文算法的挖掘精度在社區(qū)數(shù)為10時是95.7%,當社區(qū)數(shù)增加到50時為87.5%。而基于時間序列數(shù)據(jù)挖掘方法的挖掘精度在社區(qū)數(shù)為10時是88.6%,在社區(qū)數(shù)為50時是77.4%,而PARAMINER算法在社區(qū)數(shù)為10時是86.7%,社區(qū)數(shù)為50時是78.2%。因此從數(shù)據(jù)分析來看,本文算法的數(shù)據(jù)挖掘精度在社區(qū)數(shù)增多時仍能保持在較高水平。 4結(jié)論 為了提高網(wǎng)絡數(shù)據(jù)流的挖掘精度,本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論