




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 isl 20001第二十章第二十章 應(yīng)用範例應(yīng)用範例 20.1 概況 讀者可以學(xué)習(xí)每一個例子中資料採礦人員對具體問題的典型處理辦法。例子所使用的資料集比資料採礦人員實際處理的資料要小得多,但這樣正好可以將讀者的注意力吸引到資料採礦的具體操作之上,而不是資料本身問題。 對於複雜的資料採礦應(yīng)用,讀者可以參考clementine應(yīng)用範本(cats)上的指導(dǎo)手冊,可以和當(dāng)?shù)氐膕pss辦事處聯(lián)繫索取這張cd。 isl 2000220.2 狀態(tài)監(jiān)測範例狀態(tài)監(jiān)測範例 該例子是透過監(jiān)測一臺機器的狀態(tài)資訊來識別和預(yù)測故障狀態(tài)的問題。資料是一些連續(xù)的時間序列。每筆記錄是該機器狀態(tài)的“快照”,包含以下內(nèi)容: 時間
2、 time ,整數(shù) 功率 power,整數(shù) 溫度 temperature,整數(shù) 電壓 pressure.,0表示正常,1表示瞬間電壓報警 正常執(zhí)行時間 uptime,上次正常運轉(zhuǎn)至今的時間 狀態(tài) status,0表示正常, 不同的故障狀態(tài)編碼101, 202,303 結(jié)果 outcome,該序列中出現(xiàn)的故障碼,若無故障發(fā)生爲0 isl 20003 每一筆時間序列均是一組來自機器正常執(zhí)行期間和後續(xù)故障期間的記錄組成,如下表所示 isl 2000420.2.1 審視資料審視資料 若溫度或功率的時間序列包含了可以察覺的模式,那麼我們就可以從故障條件來區(qū)分不同的機器故障,並有可能預(yù)測故障的出現(xiàn)。以溫度
3、和功率爲觀察對象,該資料流程將時間序列按照三個不同的故障類型分類,産生了六個時序圖。圖 20-1 condplot流 isl 20005圖20-2 溫度和功率時序圖 isl 20006 顯示了故障 202 的溫度和功率時序模式有別於故障 303 和 101。在故障 202 的模式中,溫度隨時間遞增,而功率不斷震盪;其他故障模式則不然。但是故障 303 和 101 的溫度和功率時序模式則區(qū)別不大。兩者的溫度依時間不變,功率逐漸下降;但是看起來故障 303的功率隨時間下降得更快。 從圖形看來,溫度和功率的變化以及波動程度,與故障的預(yù)測和識別是息息相關(guān)的 isl 2000720.2.2 資料準備資料
4、準備圖20-3 流condlearn isl 20008節(jié)點序列說明如下: variable file nodevariable file node:讀取資料檔案 cond1n derive pressure warningsderive pressure warnings:計算瞬間電壓報警的數(shù)目,在時間回 復(fù)到0時重置 derive derive tempinctempinc:溫度變化率,運算式爲diff1(temp,time) derive derive powerincpowerinc:功率變化率,運算式爲diff1(power,time) derive derive powerflux
5、powerflux.:功率變化反轉(zhuǎn)標記,用t標識 derive derive powerstatepowerstate.:功率狀態(tài)標記,分爲 stable 和 fluctuating。 powerchangepowerchange:在前五個時間段中powerinc 的均值 tempchangetempchange:在前五個時間段中tempinc 的均值 discard initial (select)discard initial (select):去掉每個時間序列中的第一條記錄 discard fieldsdiscard fields:過濾掉部分欄位元 typetype:定義 outcome
6、 的方向爲 out isl 2000920.2.3 學(xué)習(xí)學(xué)習(xí) 文件 condlearn.str 中資料流程是用來訓(xùn)練本範例的c5.0模型和神經(jīng)網(wǎng)路模型的。神經(jīng)網(wǎng)路需要一定的時間進行訓(xùn)練,但也可以提早的打斷訓(xùn)練並保存産生出的合理的結(jié)果。提示兩個新的模型節(jié)點已經(jīng)産生了:其中一個是神經(jīng)網(wǎng)路模型,一個是c5.0模型。圖 20-4 帶有産生模型節(jié)點的模型管理器 isl 20001020.2.4 測試測試 把生成的模型節(jié)點加入到流程中,插入一個type節(jié)點並連接到已産生的神經(jīng)網(wǎng)路模型節(jié)點;將神經(jīng)網(wǎng)路模型節(jié)點連接到生成的c5.0節(jié)點,再將c5.0節(jié)點連接到一個新的分析節(jié)點。然後編輯初始的來源節(jié)點並導(dǎo)入測試資
7、料檔案cond2n。 圖 20-5 測試訓(xùn)練後的網(wǎng)路 isl 20001120.3 欺詐稽查範例欺詐稽查範例 背景是關(guān)於農(nóng)業(yè)發(fā)展貸款的申請,每一條記錄描述的是某一個農(nóng)場對某種具體貸款類型的申請。我們主要考慮兩種貸款類型:土地開發(fā)貸款和退耕貸款。要解決的業(yè)務(wù)問題是找出那些就農(nóng)場類型和大小說來申請貸款過多的“主兒”。圖20-6 解釋fraud.str流操作的流程圖 isl 20001220.3.1 資料獲取資料獲取 使用一個變數(shù)檔節(jié)點來連接到資料集grantfraudn.db 。該資料包含九個欄位名: id. 唯一的識別字 name. 申請人名 region.地理位置(midlands/north
8、/southwest/southeast) landquality. 整型農(nóng)場主對地産質(zhì)量的聲明 rainfall. 整型農(nóng)場的年降雨量 farmincome. 實型農(nóng)場的年産量 maincrop. 主要作物 (maize/wheat/potatoes/rapeseed) claimtype.申請貸款類(decommission_land/arable_dev). claimvalue. 實型申請貸款數(shù)額 isl 20001320.3.2 資料探索資料探索 在這一環(huán)節(jié)上,使用探索性的圖形來分析資料是個好辦法。這有助於形成一些對建模有用的假設(shè)。 我們首先考慮資料中可能存在的欺詐類型。一種可能性是
9、一個農(nóng)場多次申請貸款援助。假設(shè)在資料集每個農(nóng)場有一個唯一的識別字,那麼計算出每個識別字出現(xiàn)的次數(shù)是件容易的事。將資料連接到一個分佈節(jié)點(distribution node)並選定名爲 name 欄位。圖20-7 顯示若干個農(nóng)場存在多次申請。 isl 200014圖20-7 撥款申請分佈 isl 200015 爲了探索其他可能的欺詐形式,我們可以撇開多次申請的記錄,將注意力集中到只申請過一次的記錄上來??梢杂眠x擇節(jié)點(select node)刪除相應(yīng)的記錄。圖20-8 去除多重申請 isl 200016 我們可以使用clementine建立一個迴歸模型,以農(nóng)場大小,主要作物類型,土壤質(zhì)量等爲引數(shù)
10、來估計一個農(nóng)場的收入是多少。在建模以前,需要在導(dǎo)出節(jié)點derived node中使用clem語言來生成一個新的欄位。我們用如下的運算式來估計估計農(nóng)場收入:圖20-9 估計農(nóng)場收入 isl 200017 爲了發(fā)現(xiàn)那些偏離估計值的農(nóng)場, 我們需要生成一個 diff 欄位,代表估計值與實際值偏離的百分數(shù)。圖 20-10 比較收入偏差 isl 200018 由diff的直方圖可以幫助我們發(fā)現(xiàn)偏離的特徵。將直方圖按照 claimtype 進行層疊,進一步看看申報的類型對偏離有影響。 圖20-11 偏差百分比的直方圖 看來所有較大的偏差都發(fā)生在 arable_dev類型的申請時,因此,我們只選擇 arab
11、le_dev類貸款申請作爲研究對象。將一個選擇節(jié)點select node加到導(dǎo)出節(jié)點 diff 的後面,使用clem運算式claimtype = arable_dev進行篩選。 isl 20001920.3.3 訓(xùn)練神經(jīng)網(wǎng)路訓(xùn)練神經(jīng)網(wǎng)路 經(jīng)過探索性資料分析,我們發(fā)現(xiàn)將真實值和通過一系列因變數(shù)得到的期望值進行比較似乎是有用的。神經(jīng)網(wǎng)路可以用來處理此類問題。神經(jīng)網(wǎng)路使用資料中的變數(shù),對目標變數(shù)或回應(yīng)進行預(yù)測。使用預(yù)測的結(jié)果,我們可以探索偏離正常值的記錄或記錄組。 在建模之前,我們首先將一個類型節(jié)點type node 加到目前的流程中。因爲需要用資料中的變數(shù)來預(yù)測所申請的貸款金額,所以將claimv
12、alue的方向設(shè)置爲out。 isl 200020圖20-12 爲神經(jīng)網(wǎng)路模型定義輸入和輸出變數(shù) isl 200021 附加上一個神經(jīng)網(wǎng)路節(jié)點並執(zhí)行之。待此神經(jīng)網(wǎng)路經(jīng)過訓(xùn)練後,將産生的模型加到流程中並給出預(yù)測值與實際申請值的對照圖。圖20-13 比較預(yù)測和真實聲明值 isl 200022 導(dǎo)出一個名爲claimdiff 欄位,類似於前面導(dǎo)出的“income differences”欄位。此導(dǎo)出節(jié)點使用如下的clem運算式:(abs(claimvalue - $n-claimvalue) / claimvalue) * 100 增加一個分隔帶到直方圖中,右擊帶區(qū)生成一個選擇節(jié)點,進一步察看那些claimdiff 值較大的資料,比如對 claimdiff 50% 的申請進行深入地調(diào)查。 isl 20002320.4 總結(jié) 本例建
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大學(xué)生心理健康教育活動
- 未來展望中級經(jīng)濟師試題及答案
- 行政管理經(jīng)濟法新教材試題及答案
- 經(jīng)濟法概論考試大綱試題及答案
- 響應(yīng)式Web開發(fā)項目教程(HTML5 CSS3 Bootstrap)(第3版) 課件 第2章 CSS頁面樣式美化
- 語文變色龍課件設(shè)計與實施
- 通訊設(shè)備銷售及技術(shù)支持合作協(xié)議
- 新能源技術(shù)研發(fā)與轉(zhuǎn)讓合同書
- 服裝設(shè)計及生產(chǎn)流程優(yōu)化指南
- 水利水電工程工作的實際案例解析試題及答案
- 2024建筑消防設(shè)施檢測報告書模板
- 甲狀腺良性結(jié)節(jié)、微小癌及頸部轉(zhuǎn)移性淋巴結(jié)熱消融治療專家共識
- 教師基本功競賽生物學(xué)科試卷及答案
- 智能控制技術(shù)在機電控制系統(tǒng)中的應(yīng)用
- 社區(qū)檔案管理培訓(xùn)課件
- 樓頂停機坪建設(shè)可行性方案
- 2024年化工自動化控制儀表理論考試題及答案
- 砂石料供應(yīng)、運輸、售后服務(wù)方案-1
- 辦理用電戶更名過戶聲明書范本
- 建設(shè)工程質(zhì)量管理手冊范本
- 中國文化遺產(chǎn)資料長城100字
評論
0/150
提交評論