




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、傳說寶可夢識別12.10匯報人:陳科锜基于孤立森林的異常值檢測1孤立森林算法2背景與數(shù)據(jù)集3數(shù)據(jù)預(yù)處理4訓(xùn)練結(jié)果CONTENTS1孤立森林PART 0101孤立森林 背景介紹4異常的定義針對于不同類型的異常,要用不同的算法來進行檢測,而孤立森林算法主要針對的是連續(xù)型結(jié)構(gòu)化數(shù)據(jù)中的異常點。使用孤立森林(Isolation Forest,簡稱為iForest)的前提是,將異常點定義為那些 “容易被孤立的離群點” 可以理解為分布稀疏,且距離高密度群體較遠的點。從統(tǒng)計學(xué)來看,在數(shù)據(jù)空間里,若一個區(qū)域內(nèi)只有分布稀疏的點,表示數(shù)據(jù)點落在此區(qū)域的概率很低,因此可以認(rèn)為這些區(qū)域的點是異常的。也就是說,孤立森林
2、算法的理論基礎(chǔ)有兩點: 異常數(shù)據(jù)占總樣本量的比例很??; 異常點的特征值與正常點的差異很大。01孤立森林 背景介紹501孤立森林 算法原理601孤立森林 算法原理701孤立森林 算法原理801孤立森林 注意事項9若訓(xùn)練樣本中異常樣本的比例較高,可能會導(dǎo)致最終結(jié)果不理想,因為這違背了該算法的理論基礎(chǔ);異常檢測跟具體的應(yīng)用場景緊密相關(guān),因此算法檢測出的 “異常” 不一定是實際場景中的真正異常,所以在特征選擇時,要盡量過濾不相關(guān)的特征。2背景與數(shù)據(jù)集PART 0202背景 寶可夢簡介11寶可夢(,Pokmon)是GAME FREAK公司開發(fā)的精靈寶可夢系列游戲及其衍生動畫中的神奇生物,有些寶可夢和人類
3、友好地居住在一起;有些野生寶可夢則棲息于草叢、洞窟或是大海里。寶可夢從蛋中出生,許多寶可夢可以進化成另一種寶可夢,從而體型變大或者能力變強。寶可夢可以學(xué)會各種招式,使用招式可以對戰(zhàn)或進行各種活動。已知的寶可夢可以依據(jù)特征分為18種屬性,如水火草電等,屬性之間具有相克關(guān)系。也有同時擁有2種屬性的寶可夢。02背景 寶可夢簡介12傳說的寶可夢通常出現(xiàn)于寶可夢系列的封面,在該款游戲的劇情中扮演重要角色。傳說的寶可夢往往擁有非常強大的力量,并且數(shù)量十分稀少。它們有的被奉為傳說中的神明或神使、有的被認(rèn)為是世間某物的創(chuàng)造者或管理者、有的甚至在過去引起了巨大的災(zāi)害。還有部分傳說的寶可夢是人類為了某些目的而制造
4、的強大寶可夢,其中不乏以其他傳說的寶可夢為范本所制成的寶可夢。02數(shù)據(jù)集介紹13來源:/dataset/dataDetail?dataId=83064本數(shù)據(jù)涵蓋了從第一代到第七代共801只寶可夢的信息。數(shù)據(jù)特征上包含了基礎(chǔ)的能力值,對于其他屬性的克制能力,身高,體重,種類等等。數(shù)據(jù)字段:見jupyter notebook3數(shù)據(jù)預(yù)處理PART 0303選擇特征15原案例:除name,Japanese_name,pokedex_number外的所有維度改進:合并“type1”和“type2”為“types”變“abilities”為“first_ability”(正則)去掉“classficati
5、on”,“against_?”,“capture_rate”、“percentage_male”、“generation”、“base_happiness”03字符串編碼16標(biāo)簽編碼 LabelEncoder:對分類特征進行編碼,即對不連續(xù)的數(shù)值或文本進行編碼。給每個標(biāo)簽分配一個 0 n_class-1 之間的編碼,將其映射為連續(xù)的數(shù)值獨熱編碼 OneHotEncoder:用 n 位狀態(tài)寄存器對 n 個狀態(tài)編碼,在任意時刻只有 1 位有效LabelEncoder 和 OneHotEncoder 混合使用先用 LabelEncoder 將文本編碼為數(shù)值再將 Label 傳入 OneHotEnco
6、der 進行編碼* 在后續(xù)的調(diào)整過程中,發(fā)現(xiàn)OneHot編碼并沒有明顯提升算法的精度,卻增加了時間開銷,故將其舍去,直接用LabelEncoder進行編碼4訓(xùn)練結(jié)果PART 0404小結(jié)18孤立森林與其他異常檢測算法的差異孤立森林的創(chuàng)新點包括以下四個:Partial models:在訓(xùn)練過程中,每棵孤立樹都是隨機選取部分樣本;No distance or density measures:不同于 KMeans、DBSCAN 等算法,孤立森林不需要計算有關(guān)距離、密度的指標(biāo),可大幅度提升速度,減小系統(tǒng)開銷;Linear time complexity:因為基于 ensemble,所以有線性時間復(fù)雜度。通
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 河道垃圾清理施工方案
- 外墻保溫真石漆勞務(wù)分包合同
- 房屋居間租賃服務(wù)合同
- 嘉興拆煙囪施工方案
- 合同協(xié)議生產(chǎn)合同
- 心理學(xué)認(rèn)知過程與個性發(fā)展題庫
- 人力資源行業(yè)數(shù)據(jù)統(tǒng)計表一覽(按職位類型)
- 個人學(xué)習(xí)成長記錄表
- 吉林壓花地坪施工方案
- 建筑勞務(wù)木工班組合同
- 空中乘務(wù)職業(yè)教育專業(yè)教學(xué)資源庫申報書
- 人教版PEP五年級下冊英語unit1單元復(fù)習(xí)課件
- 心肌炎病人的護理
- 四川麻將業(yè)余一級考級題庫
- 【人教版】三年級下冊數(shù)學(xué)課件《口算乘法》兩位數(shù)乘兩位數(shù)優(yōu)秀(第1課時)
- 《小小理財家》課件PPT
- 《相交線與平行線》復(fù)習(xí)課一等獎?wù)n件
- 部編版四年級語文下冊第3單元大單元整體教學(xué)設(shè)計課件(教案配套)
- q gw2sjss.65金風(fēng)風(fēng)力發(fā)電機組防腐技術(shù)rna部分歸檔版
- 廉政建設(shè)監(jiān)理實施細則
- 健康證體檢表
評論
0/150
提交評論