




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
... Chapter10 AnomalyDetection......10異常檢測1個。比較和對比不同的技術(shù)的異常檢測,在第10.1節(jié)。特別是,試圖確定在這種情況下定義的異常使用的不同的技術(shù)可能等同于或在何種情況下可能會使傳感,但不會。一定要考慮到不同類型的數(shù)據(jù)。第一,注意到,近距離和密度的異常流量檢測技術(shù)是相關(guān)的。具體而言,高濃度的鄰居一點意味著,很多點都靠近它,反之亦然。在實踐中,密度通常定義的距離,但它也可以使用定義的基于網(wǎng)格的方法。"基于模型的方法幾乎可用于任何底層的技術(shù),適合模型的數(shù)據(jù)。但是請注意,特定的模型、統(tǒng)計或其他方式,必須假設(shè)的。因此,基于模型的方法是受到限制的數(shù)據(jù)可以被應(yīng)用。例如,如果該模型假設(shè)的高斯分布,則它不能應(yīng)用到數(shù)據(jù)的非高斯分布。在其他方面,近距離和密度的辦法不使任何特定的假設(shè)的數(shù)據(jù),雖然定義的一種不正常的現(xiàn)象也不同而有不同的感應(yīng)——或密度為基礎(chǔ)的技術(shù)。近距離的方法可用于幾乎任何類型的數(shù)據(jù),但近距離的度量必須選擇適當?shù)?。例?歐幾里德距離通常用于密集型的、低維度的數(shù)據(jù),而余弦相似性測量用于稀疏的、高維數(shù)據(jù)。因為密度通常定義的接近、密度為基礎(chǔ)的方法也可用于幾乎任何類型的數(shù)據(jù)。不過意思的密度較不明顯的是,在非歐幾里德空間的數(shù)據(jù)。近距離和密度的異常檢測方法通常可以產(chǎn)生類似的結(jié)果,雖然有相當大的差異的技術(shù),不考慮濃度差異在整個數(shù)據(jù)集或使用不同的感應(yīng)的措施相同的數(shù)據(jù)集?;谀P偷姆椒?/p>
往往會有很大的不同,從proximityand密度為基礎(chǔ)的辦法。請考慮以下定義的異常:異常是一種objectthat非常有影響力的建立的數(shù)據(jù)模型。比較一下此定義,標準模型為基礎(chǔ)的definitionof反常的情況。標準的基于模型的定義標注對象不適合模型非常以及不正常的現(xiàn)象。雖然這些對象通常都是非常有影響的模型,它也可以是一項非常有影響力的對象可以配合的很好。是什么規(guī)模的數(shù)據(jù)集<小型、中型或大型的>是這definitionappropriate嗎?這一定義通常更適合較小的數(shù)據(jù)集,至少如果我們談?wù)摰氖且幻浅S杏绊懥Φ膶ο?。不過,相對較小的組有高度影響力的對象可以有重大影響的一種模式,但仍然配合得好,即使是中等或較大的數(shù)據(jù)集。在一種異常檢測、對象表示為點ina多維空間的點分為連續(xù)的炮彈,每個殼是一層周圍的一組點的,如外接多邊形。對象是一種不正常的現(xiàn)象如果在外殼。而定義的一種不正常的現(xiàn)象在部分10.1.2是這一定義最密切有關(guān)的嗎?這一定義的是關(guān)系最密切的距離的方法。<二>名稱的兩個問題的這一定義的一種不正常的現(xiàn)象。對于"外接多邊形"的辦法,遠距離的con的攪擾多邊形的中心點可以有很大差異。如果該分發(fā)點的不是對稱的。這種方法并沒有設(shè)定有意義的編號的ICAL中的反?,F(xiàn)象的分數(shù)。關(guān)聯(lián)分析可以用來查找異常情況如下所示。找到強大的協(xié)會模式,這涉及到某些最小數(shù)量的對象。異常是那些對象不屬于任何這種形態(tài)。為使這一更為具體的,我們注意到,hyperclique關(guān)聯(lián)模式的討論在第6.8節(jié)"特別適合于采用這種辦法。具體地說,由于用戶選擇的h的信任級別、最大hyperclique模式的對象都找到。所有的對象,并不出現(xiàn)在最大模式hyperclique至少三個大小可分為離群值。此種技術(shù)屬于任何類別的討論,thischapter嗎?如果是這樣,這一?在hyperclique,所有成對的對象有保障的余弦相似性的信任或更高。因此,這種方法也可以被看作是一種近距離的方法。但是,而不是一種狀態(tài)的距離的對象就某一特定的對象,有的要求在成對的組合中所有的對象。名稱一種潛在的力量和一種潛在的弱點,采取這一做法。實力,這種方法是<1>的對象不屬于任何大小3hyperclique不強烈連接到其他對象,并可能反常的現(xiàn)象,<2>它是計算的效率。潛在的弱點是<1>該方法不指定數(shù)值異常的分數(shù),但簡單的分類對象為正常或異常,<2>它是不可能直接控制對象的數(shù)目分為異常情況,因為只有參數(shù)是h的信任和支持的閾值和<3>的數(shù)據(jù)需要KeywordforDISCRETIZEDMethod〔將EQUAL_AREAS。討論技術(shù),結(jié)合多種異常檢測技術(shù)提高了識別的異常對象??紤]這兩個監(jiān)督,不受監(jiān)督的情況下。在監(jiān)督的情況下,我們可以利用合奏分類技術(shù)。在這些不同的是,這一分類的對象是由相結(jié)合的分類法的分類器的數(shù)量,例如,通過投票。在不受監(jiān)督的方式、投票的方法也可以使用。請注意這是假設(shè),我們有二元賦值的對象是一種不正常的現(xiàn)象。如果我們有異常的分數(shù),那么分數(shù)可以合并在某些方式,例如平均或最小、產(chǎn)生的總分數(shù)。描述可能的時間復(fù)雜度為異常檢測approachesbased的以下方法:基于模型的使用群集、proximitybased和密度。沒有知識的具體方法是必需的。而是把重點放在基本的計算需求的每個方法,例如所需的時間來計算密度的每個對象。如果K意味著群集的復(fù)雜性是由查找群集。這需要一定的時間成比例的對象的個數(shù),即
O<m>。距離和密度的方法,通常需要計算所有的成對穿過天空,因此,復(fù)雜性往往是
O<m2>。在某些情況下,例如,在低維數(shù)據(jù)、特殊技術(shù),如R*樹或k-d樹可用于計算最近的鄰國的對象更有效,即
O<m日志m>,這可以減少總體復(fù)雜性當該技術(shù)僅基于最近的鄰居。另外,基于網(wǎng)格的方法來計算密度可降低復(fù)雜性,密度為基礎(chǔ)的異常檢測到
O<m>,但這種方法不準確,只有有效的較低層面。"Grubbs’檢測,所描述的算法10.1,這是一種更statisticallysophisticated程序檢測異常值,定義
1030。這是迭代和也考慮到的是,在z分數(shù)不正常分布。這種算法計算的z得分,每個值的樣本平均值和標準偏差的當前設(shè)置的值。該值與最大程度的z分數(shù)是被丟棄的如果其z分數(shù)大于
gc的臨界值的測試的離群值的顯著性水平
α。重復(fù)這一過程直到?jīng)]有對象的消除。請注意,樣本平均值、標準偏差和
GC
的更新在每次迭代。算法10.1
Grubbs'的辦法,消除異常。1:
輸入的值和
α{m的
值的個數(shù),
α
是參數(shù),
tc
是一種價值選擇,使
α
=
prob<x
≥
tc>的
t
分布的
m
-2個自由度。2:
重復(fù)3: 計算樣本平均值<x>和標準偏差<sx>。
4: 計算值
gc
以便
prob<|Z|≥
gc>=
α。<在
tc
和5: 計算z分數(shù)的每個值,即
z
=<x
-
x>/sx。6: 讓
g
=max|Z|,即找到z分數(shù)的最大的規(guī)模和
g。7: 如果
g>gc
然后8: 消除對應(yīng)的值
g。9: M
←
m
-110: EndIf11:
直到
沒有對象的消除。什么是限制的值
用于Grubbs’測試的
方法m無窮大嗎?使用顯著性水平為0.05。請注意,這可能是更好的措詞。該數(shù)值的表達方法
、tc。但嚴格來說這不是一種限制為
tc
取決于
m。"。此外,該值的
tc
將繼續(xù)增加,
m,盡管速度緩慢。
M
=1020,
tc
=93的意義價值為0.05。描述在詞語的含義上的結(jié)果。分發(fā)的
g
是變成
t
分布為
m的
增加。許多統(tǒng)計測試異常值,環(huán)境whicha幾百的意見有很大的數(shù)據(jù)集。我們研究的局限性,這種解決辦法。對一組000值,怎么可能是我們的異常值25KG復(fù)合紙袋的測試說價值是一種離群值如果大于三個標準偏差的平均值?<假定正態(tài)分布>。這個問題應(yīng)該問有多少離異我們會因為對象這一問題的目的是表明,即使是很小的概率的一種離群的產(chǎn)量很大數(shù)目的異常值的大型數(shù)據(jù)集。概率是不受影響的對象的數(shù)目。的概率是0.00135的單側(cè)偏移為3的標準偏差或0.0027英寸的雙面的偏差。因此,該數(shù)量的異常對象將是1350或2700。沒有辦法,國家有異常值是對象的異常lowprobability需要加以調(diào)整,當處理大型數(shù)據(jù)集的嗎?如果是這樣的話,如何?有上千個異常值<根據(jù)指定的定義>的對象。我們可以選擇接受這些對象作為異常值或愿意增加閾值以使較少的離群值的結(jié)果。Prob函數(shù)x>=1e-<x-μ>Σ-1<Prob函數(shù)x>=1e-<x-μ>Σ-1<x-2√"。 <10.1><2π>m|Σ|1/2使用的是樣本平均值
x
和協(xié)方差矩陣
為估計的平均
微米
和協(xié)方差矩陣
Σ"分別顯示日志<prob<x>>是同等的馬哈拉諾比斯之間距離的數(shù)據(jù)點
x
和樣本平均值
x
加恒定的,并不取決于
x。"。如果我們用的是樣本平均值和協(xié)方差的估計的
0.13μ
和Σ分別然后不斷的和經(jīng)常性的因素并不影響該命令在這一數(shù)量中,只有它們的嚴重程度。因此,如果我們想要的距離的數(shù)量,我們可以只保留變量的一部分,這是馬哈拉諾比斯的距離。比較下面兩個措施在何種程度上對象的belongsto群集:<1>距離,可以從對象的中心,其最近的群集和<2>的silhouette系數(shù)一節(jié)中所述的8.52。第一項措施是比較有限的,因為它無視這一事實,該對象也可關(guān)閉到另一群集。Silhouette系數(shù)既考慮到距離的對象以其群集及其距離的其它群集。因此,它可以提供更多的信息如何強烈的對象所屬的群集分配的??紤]<相對距離>K意味著計劃的異常值檢測中所述第10.5和隨附的圖、圖10.10。這點在底部的緊湊型群集圖圖10.10有較高的異常點的得分比那些點在頂部的緊湊的群集。為什么?這意味著點拉有點向上從中心的緊湊型群集的點D。假設(shè)我們選擇組的數(shù)目,要多很多,例如,10。將建議的技術(shù)仍然是有效的,找到最極致的離群值在頂部的圖嗎?為什么可以或不可以嗎?第這一點就會成為群集本身。使用相對距離的調(diào)整對不同的密度。給予最低亦相差0.92厘的這種做法可能會導(dǎo)致錯誤的結(jié)論。如果絕對的距離是非常重要的。例如,考慮心率監(jiān)測的患者。如果心率高于或低于指定范圍的值,然后將該有的物理含義。這是不正確的不識別任何病人超出該范圍的異常,即使可能有一組的患者較為相似,都有不正常的心率。如果概率是正常的對象是被歸類為一種不正常的現(xiàn)象是0.01不懂概率的異常對象是被歸類為不正常的是0.99,那么什么是虛假報警率和檢測率99%的對象都是正常的嗎?<使用定義如下。>數(shù)量的異常檢測檢測率 = 總數(shù)量的異常數(shù)量的虛假的異常虛假報警率。 = 數(shù)量的對象分為異常情況檢測率只需99%。虛假報警率=0.99m×0.01/<0.99m×0.01訪問速度。01米×0.99=0.50=50%。當一項全面的培訓將是可用的、受控的異常檢測技術(shù)通??梢猿搅瞬皇鼙O(jiān)督的異常時的技術(shù)績效評估是使用的措施,例如檢測和虛假報警率。然而,在某些情況下,例如,在欺詐檢測、新類型的異?,F(xiàn)象始終是發(fā)展的。性能可的評價根據(jù)檢測和虛假報警率,因為它通常是可以確定的,經(jīng)調(diào)查后,是否有對象<交易>是正常的。討論的相對優(yōu)點的監(jiān)督與非監(jiān)督異常檢測,在這樣的條件下。當新的異常現(xiàn)象進行檢測,不受監(jiān)督的異常檢測計劃必須被使用。但是,監(jiān)控異常檢測的技術(shù)仍很重要用于檢測已知類型的異常。因此,這兩種監(jiān)督與非監(jiān)督異常檢測方法應(yīng)該被使用。有很好的例子,這種情況是網(wǎng)絡(luò)入侵檢測。配置文件或簽字可以創(chuàng)造良好的已知類型的入侵,但無法檢測到新的類型的入侵??紤]一組文檔已從一種多l(xiāng)argerset各種不同的文檔,使所選的文檔都是不同的。如果我們考慮文檔,沒有高度相關(guān)<連接、類似>在一起是不正常的,那么所有的文檔,我們選擇了可能會被歸類為不正常的現(xiàn)象。它是可能的數(shù)據(jù)設(shè)置為僅包括有異常的對象或是此種濫用的名詞嗎?的內(nèi)涵是不正常的現(xiàn)象是很罕見的,許多的定義的一種不正常的現(xiàn)象納入這一概念在某種程度上。但是,在有些情況下,一種不正常的現(xiàn)象通常不經(jīng)常出現(xiàn),如出現(xiàn)網(wǎng)絡(luò)故障,但有十分具體的定義。這使它能夠區(qū)分一種不正常的現(xiàn)象,是絕對意義上的和的情況出現(xiàn)在大部分對象都是不正常的。此外,在提供的數(shù)學或算法定義的一種不正常的現(xiàn)象,它可能發(fā)生,這些定義產(chǎn)生的情況下,很多或所有對象的數(shù)據(jù)集可以被歸類為不正常的現(xiàn)象。另一種觀點可能會說,如果它是無法界定的有意義的正常情況,然后再所有的對象都是不正常的。<"獨特"一詞是通常用在這方面。>總之,這可以被視為是一種哲學或語義的問題。良好的論點<雖然可能不是無爭議的一部分>可以說,這是有可能的集合中的對象大多是或所有的異常情況??紤]的點集,大多數(shù)點所在區(qū)域的低密度、布塔的幾點都是在各區(qū)域的密度高。如果我們定義一種異常現(xiàn)象的點在某一區(qū)域的低密度、然后最點會被歸類為不正常的現(xiàn)象。這是一種適當?shù)氖褂妹芏葹榛A(chǔ)的定義異?;虿粦?yīng)該的定義進行修改以某種方式嗎?如果濃度有絕對的意義,例如分配的域名,然后它可能是完全合理的考慮大部分的點是不正常的。<請參閱
答案以前的練習。>然而,在許多情況下,適當?shù)淖龇ㄊ鞘褂靡环N異常檢測技術(shù)的相對密度。考慮的一組點的均勻地分布在時間間隔[0、1]。是統(tǒng)計概念的離群值的不常用的觀察值有意義的數(shù)據(jù)?不是真的。傳統(tǒng)的統(tǒng)計概念的過度依賴的概念與對象相對較低的概率都是可疑的。均勻分布,沒有這種區(qū)分。分析人士適用的異常檢測算法的數(shù)據(jù)集和findsa的異常情況。奇怪的是,分析師會對異常檢測算法的不正常的現(xiàn)象。討論行為的異常檢測方法本章所述。<如果可能,請嘗試此為真正
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 畢業(yè)班學生心理疏導(dǎo)計劃
- 口算除法 (教學設(shè)計)-2023-2024學年三年級下冊數(shù)學人教版
- 投資咨詢工程師常見錯誤試題及答案2024
- 注冊會計師跨國公司財務(wù)試題及答案
- Unit 4 Plants around us大單元備課 (教學設(shè)計)-2024-2025學年人教PEP版(2024)英語三年級上冊
- 2024年預(yù)算員考試實務(wù)試題及答案分享
- 品牌管理的重要性試題及答案
- 理解全媒體運營師的數(shù)據(jù)驅(qū)動營銷:試題及答案
- 2024年人力資源管理師考試精要試題及答案
- 2024人力資源管理師科目試題及答案
- 外交學院專職輔導(dǎo)員招聘真題2024
- 市場攤位租賃合同
- 浙江省寧波市“十?!?025屆高三下學期3月聯(lián)考英語試卷答案
- 水聲通信組網(wǎng)技術(shù)第二講-水聲信道傳輸特性
- 2025年3月版安全環(huán)境職業(yè)健康法律法規(guī)標準文件清單
- 2025年河南工業(yè)和信息化職業(yè)學院單招職業(yè)技能測試題庫參考答案
- 2025年吉林鐵道職業(yè)技術(shù)學院單招職業(yè)技能測試題庫及參考答案
- 2025年春統(tǒng)編版七年級語文下冊 第三單元 閱讀綜合實踐(公開課一等獎創(chuàng)新教案+)
- 信息通信工程安全施工指南
- DB33T 1134-2017 靜鉆根植樁基礎(chǔ)技術(shù)規(guī)程
- 信息系統(tǒng)監(jiān)理師(中級)考試題庫(含答案)
評論
0/150
提交評論