模糊探勘課件_第1頁(yè)
模糊探勘課件_第2頁(yè)
模糊探勘課件_第3頁(yè)
模糊探勘課件_第4頁(yè)
模糊探勘課件_第5頁(yè)
已閱讀5頁(yè),還剩52頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第三章 資料前置處理1第三章 資料前置處理簡(jiǎn)介資料前置處理的主要工作 遺缺填補(bǔ)法雜訊去除法資料正規(guī)化資料形式轉(zhuǎn)換*資料型態(tài)轉(zhuǎn)換*資料模糊化*總結(jié)2資料未經(jīng)處理的問(wèn)題資料不完整 (data incomplete)資料中某些屬性值有遺缺缺少某些分析時(shí)需要用到的屬性,Ex:性別資料有雜訊 (noise)資料有錯(cuò)誤或是特例(outlier)造成資料不一致 (data inconsistency)由不同來(lái)源整合而得所產(chǎn)生商品在臺(tái)灣是以臺(tái)幣,在美國(guó)則是美金計(jì)價(jià)有高品質(zhì)的資料,才有高品質(zhì)的探勘結(jié)果3第三章 資料前置處理簡(jiǎn)介資料前置處理的主要工作 遺缺填補(bǔ)法雜訊去除法資料正規(guī)化資料形式轉(zhuǎn)換*資料型態(tài)轉(zhuǎn)換*資料

2、模糊化*總結(jié)4前置處理的主要工作資料整合整合後的資料(貯存室=資料倉(cāng)儲(chǔ))清理過(guò)的資料資料轉(zhuǎn)換準(zhǔn)備進(jìn)行探勘的資料各種不同來(lái)源的資料資料清理5資料整合資料整合 (data integration) 解決多重資料來(lái)源的整合問(wèn)題主要工作消除資料不一致數(shù)值不一致 (data value conflict),Ex :?jiǎn)挝徊灰痪V目不一致 (schema conflict),Ex:屬性名稱不一,會(huì)員姓名和顧客姓名消除資料重複性數(shù)值重複,Ex:A和B資料表有同一會(huì)員資料綱目重複,Ex:生日和年齡6資料清理 (1)確認(rèn)資料正確性、完整性常見(jiàn)的資料正確性問(wèn)題7資料清理 (2)確認(rèn)資料完整性常見(jiàn)的資料完整性問(wèn)題:8資

3、料清理 (3)其它清理工作遺缺填補(bǔ):人工填補(bǔ)或自動(dòng)填補(bǔ)雜訊消除:雜訊使探勘結(jié)果有相當(dāng)大的偏差,必須將雜訊移除或?qū)①Y料做平緩化處理 (smoothing) 9資料轉(zhuǎn)換資料統(tǒng)整化(data aggregation) 加總、統(tǒng)計(jì)或是建立資料方塊(data cube) 目的:將資料做初步整理,使得資料更適合探勘一種資料精簡(jiǎn)化處理資料一般化(data generalization) 資料的概念階層 (concept hierarchy) 向上提升會(huì)員地址用城市或是北中南東四區(qū)取代可將某屬性中所包含的不同數(shù)值減少,資料精簡(jiǎn)的方法之一建立新屬性(attribute construction) 利用舊屬性將探

4、勘所需的新屬性建立生日屬性產(chǎn)生年齡屬性10第三章 資料前置處理簡(jiǎn)介資料前置處理的主要工作 遺缺填補(bǔ)法雜訊去除法資料正規(guī)化資料形式轉(zhuǎn)換*資料型態(tài)轉(zhuǎn)換*資料模糊化*總結(jié)11資料遺缺原因資料建立時(shí)未輸入故意或是不小心造成資料沒(méi)有被輸入設(shè)備故障例如收銀機(jī)故障,導(dǎo)致顧客消費(fèi)明細(xì)無(wú)法輸入因資料內(nèi)容不一致而被刪除當(dāng)資料內(nèi)容不一致時(shí),為了避免錯(cuò)誤的資料影響分析的準(zhǔn)確性,可能會(huì)將該項(xiàng)資料以空值取代,因此產(chǎn)生資料的遺缺12資料遺缺處理方法-直接忽略法處理資料遺缺最簡(jiǎn)單的方法適用時(shí)機(jī)進(jìn)行分類探勘時(shí),若資料的分類標(biāo)記 (class label)為空值,這筆資料因無(wú)法被正確分類,便可直接刪除,Ex:信用等級(jí)適用對(duì)象蒐集

5、資料量很多、遺缺資料只佔(zhàn)一小部分缺點(diǎn)資料遺缺比例很可觀時(shí),會(huì)造成大量資料流失13資料遺缺處理方法-人工填補(bǔ)法處理資料遺缺的現(xiàn)象,可採(cǎi)用人工來(lái)填補(bǔ)範(fàn)例當(dāng)某會(huì)員資料的生日屬性有遺缺,可打電話詢問(wèn)該會(huì)員,以取得其生日並加以填補(bǔ)。缺點(diǎn)當(dāng)資料遺缺較多時(shí),耗時(shí)且人力負(fù)擔(dān)沉重。14資料遺缺處理方法-自動(dòng)填補(bǔ)法主要兩種方式填入一個(gè)通用的常數(shù)值如填入 “未知/unknown” ,成為一個(gè)新的類別填入該屬性的整體平均值不會(huì)對(duì)統(tǒng)計(jì)結(jié)果造成太大的影響優(yōu)點(diǎn):可以在不影響統(tǒng)計(jì)結(jié)果的情況下,保留此資料屬性缺點(diǎn)是不夠客觀更精確作法是用推論法求出較可能的值來(lái)填入方法基本上有兩種,一種是貝式方程式 (Bayesian formu

6、la),另一種方法是利用決策樹 (decision tree) 15第三章 資料前置處理簡(jiǎn)介資料前置處理的主要工作 遺缺填補(bǔ)法雜訊去除法資料正規(guī)化資料形式轉(zhuǎn)換*資料型態(tài)轉(zhuǎn)換*資料模糊化*總結(jié)16雜訊的處理方法結(jié)合電腦和人工檢視結(jié)合電腦偵測(cè)與人工檢視,Ex:大於或小於平均值百分之二十以上的資料便有可能是雜訊,接著再利用人工方式確認(rèn)缺點(diǎn):需要人力介入,曠日費(fèi)時(shí),不實(shí)際資料平緩化處理回歸分析法 (regression analysis) 將資料套入回歸函數(shù)以消除雜訊裝箱法 (binning method)將資料排序並切割成數(shù)個(gè)箱子用所有資料的平均值、中位數(shù)或邊界值來(lái)取代箱子中的每一筆資料以消除雜訊包

7、括等寬分割法(或稱等距分割法)和等深分割法(或稱等頻分割法)17裝箱法 - 等寬分割法等寬分割法(或稱等距分割法,Equal Width/Distance)將資料的數(shù)值範(fàn)圍劃分為N 個(gè)間隔相同的區(qū)間若A和B分別為此屬性中的最小與最大值,則每個(gè)區(qū)間的間隔大小為:W = (B-A)/N.Ex:假設(shè)欲分析顧客年齡與購(gòu)買商品種類的關(guān)係,將12個(gè)顧客年齡資料排序依序如下:12, 15, 18, 21, 28, 33, 36, 45, 50, 52 , 60 , 80 欲分割為四個(gè)箱子則箱子寬度=(80-12)/4=17箱子 1 (12-28): 12, 15, 18, 21, 28箱子 2 (29-45

8、): 33, 36, 45箱子 3 (46-62): 50, 52 , 60箱子 4 (63-80): 80最直覺(jué)的分割法,但資料有雜訊或特例對(duì)分割結(jié)果的影響很大(探勘結(jié)果影響很大)不適用於偏斜的資料(skew data)18等寬分割法示意圖12,15,18,21,28 箱子箱子33,36,45 箱子50,52,60 80 箱子19裝箱法 - 等深分割法等深分割法(或稱等頻分割法, Equal Depth/Frequency)將資料劃分為N 個(gè)資料數(shù)量大致相同的區(qū)間(個(gè)數(shù))例同上,將12個(gè)顧客年齡資料排序依序如下:12, 15, 18, 21, 28, 33, 36, 45, 50, 52 ,

9、 60 , 80四個(gè)箱子則每個(gè)箱子均含三筆資料(寬度12/4=3)箱子 1 : 12, 15, 18箱子 2 : 21, 28, 33箱子 3 : 36, 45, 50箱子 4 :52 , 60 , 80資料分布(scaling)良好但類別屬性(categorical attributes)較難處理20等深分割法示意圖12, 15, 18 箱子21, 28, 33 箱子箱子52, 60, 80 36, 45, 50 箱子21等深分割法裝箱資料的平緩處理 以平均值消除雜訊箱子 1 (12,15, 18 ): 15,15,15 箱子 2 (21, 28, 33) :28, 28, 28箱子 3 (

10、36, 45, 50): 44, 44, 44箱子 4 (52, 60, 80): 64, 64, 64以中位數(shù)消除雜訊箱子 1 (12,15, 18 ): 15,15,15 箱子 2 (21, 28, 33) : 28, 28, 28箱子 3 (36, 45, 50): 45, 45, 45箱子 4 (52, 60, 80): 60, 60, 60以邊界值消除雜訊箱子 1 (12,15, 18 ): 12, 18, 18 箱子 2 (21, 28, 33) :21, 33, 33箱子 3 (36, 45, 50): 36, 50, 50箱子 4 (52, 60, 80): 52, 52, 8

11、022等寬分割法裝箱資料的平緩處理 以平均值消除雜訊箱子 1 (12, 15, 18, 21, 28): 19, 19, 19, 19, 19 箱子 2 (33, 36, 45) :38, 38, 38箱子 3 (50, 52 , 60): 54, 54, 54箱子 4 (80): 80以中位數(shù)消除雜訊箱子 1 (12, 15, 18, 21, 28): 18, 18, 18, 18, 18 箱子 2 (33, 36, 45) :36, 36, 36箱子 3 (50, 52 , 60): 52, 52, 52箱子 4 (80): 80以邊界值消除雜訊箱子 1 (12, 15, 18, 21,

12、28): 12, 12, 12, 28, 28箱子 2 (33, 36, 45) :33, 33, 45箱子 3 (50, 52 , 60): 50, 50, 60箱子 4 (80): 8023第三章 資料前置處理簡(jiǎn)介資料前置處理的主要工作 遺缺填補(bǔ)法雜訊去除法資料正規(guī)化資料形式轉(zhuǎn)換*資料型態(tài)轉(zhuǎn)換*資料模糊化*總結(jié)24資料正規(guī)化 資料正規(guī)化(Data normalization)將資料重新分布在一個(gè)較小且特定的範(fàn)圍內(nèi)例如: 臺(tái)灣的平均所得遠(yuǎn)高於菲律賓, 即使年收入均以臺(tái)幣作單位, 直接將兩國(guó)顧客的年收入用數(shù)值相比仍然不夠客觀, 此時(shí)便需要正規(guī)化到同一個(gè)標(biāo)準(zhǔn)下做評(píng)比。資料正規(guī)化的方法極值正規(guī)化(

13、Min-max normalization)Z-分?jǐn)?shù)正規(guī)化(Z-score normalization)十進(jìn)位正規(guī)化(Normalization by decimal scaling)25極值正規(guī)化公式範(fàn)例: :假設(shè)一般臺(tái)灣上班族的月收入範(fàn)圍為 20000, 100000,而一般菲律賓上班族的月收入範(fàn)圍為 2000, 10000;在臺(tái)灣收入30000元相當(dāng)於在菲律賓收入多少?適合用在需要將資料規(guī)範(fàn)在某一個(gè)指定範(fàn)圍內(nèi)的情況P3-12 :正規(guī)化前數(shù)值,範(fàn)圍a, b:正規(guī)化後數(shù)值,範(fàn)圍c, d26Z-分?jǐn)?shù)正規(guī)化公式範(fàn)例:假設(shè)臺(tái)灣人月收入平均為35000元, 標(biāo)準(zhǔn)差是10000元,利用Z-分?jǐn)?shù)法將月

14、收入30000元做正規(guī)化,將得到 負(fù)數(shù)表示收入低於平均,正數(shù)表示高於平均適合用在需要了解數(shù)值與平均分佈之間的關(guān)係時(shí)P3-1327十進(jìn)位正規(guī)化公式範(fàn)例:假設(shè)臺(tái)灣上班族最高月收入為100000元,因此使得正規(guī)化後的結(jié)果小於或等於1的最小整數(shù)為5。則月收入30000元經(jīng)由十進(jìn)位正規(guī)化之後將會(huì)得到適合用在要將數(shù)字壓縮到區(qū)間 0,1 的情況 i是使得Max(| |)1的最小整數(shù)28第三章 資料前置處理簡(jiǎn)介資料前置處理的主要工作 遺缺填補(bǔ)法雜訊去除法資料正規(guī)化資料形式轉(zhuǎn)換*資料型態(tài)轉(zhuǎn)換*資料模糊化*總結(jié)29資料探勘中的資料形式資料形式 (data forms) 分為四種本文形式:內(nèi)容或是文件,可看作是字串

15、集合時(shí)間形式:存時(shí)間序列(time series) ,記錄隨時(shí)間 而變的資料交易形式:記錄交易的項(xiàng)目關(guān)聯(lián)形式:即關(guān)聯(lián)式資料庫(kù)中的表格30資料探勘技術(shù)適用之資料形式多層次資料一般化 (multilevel data generalization)發(fā)掘之知識(shí):資料庫(kù)中發(fā)掘較高層次的資料觀點(diǎn)(view) ,也就是發(fā)掘出所謂的概念階層 (concept hierarchy) 合適之資料形式:關(guān)聯(lián)形式分類法 (data classification)發(fā)掘之知識(shí):在訓(xùn)練樣本中發(fā)掘分類規(guī)則,分類新資料合適之資料形式:關(guān)聯(lián)形式群集分析 (cluster analysis)發(fā)掘之知識(shí):根據(jù)資料樣本的樣式 (pa

16、ttern), 將相似的資料樣本分成一個(gè)群集合適之資料形式:關(guān)聯(lián)形式31資料探勘技術(shù)適用之資料形式關(guān)連法則探勘 (association rules mining)發(fā)掘之知識(shí):龐大交易資料中找出交易的關(guān)連性合適之資料形式:交易形式資料時(shí)間序列分析 (time series analysis)發(fā)掘之知識(shí):分析不同時(shí)間點(diǎn)的資料值變化,發(fā)掘規(guī)則合適之資料形式:時(shí)間形式資料以樣式為基礎(chǔ)的相似搜尋 (pattern-based similarity search)發(fā)掘之知識(shí):預(yù)先設(shè)定目標(biāo)樣式及差異容忍度,找出與目標(biāo)樣式之相似度在差異容忍度範(fàn)圍內(nèi)的物件,可分成文字搜尋以及時(shí)間序列搜尋合適之資料形式:文字搜

17、尋本文形式 時(shí)間序列時(shí)間形式32資料探勘與資料形式的關(guān)係資料探勘技術(shù)多層次資料一般化分類法群集分析關(guān)連法則探勘時(shí)間序列分析以樣式為基礎(chǔ)的相似搜尋 關(guān)聯(lián)形式交易形式時(shí)間形式本文形式33資料型式的轉(zhuǎn)換 以購(gòu)物網(wǎng)站所用的資料庫(kù)為例記錄顧客所買的每樣商品資料,包括:交易編號(hào)、會(huì)員帳號(hào)、商品編號(hào)、交易時(shí)間、交易數(shù)量、付款方式若分析顧客同一天購(gòu)買的商品間關(guān)連性,目前交易表內(nèi)所存的資料 格式並無(wú)法直接套用關(guān)連法則探勘演算法,要經(jīng)以下步驟轉(zhuǎn)化Step 1 - 選取相關(guān)屬性:選出會(huì)員帳號(hào)、商品編號(hào)、交易時(shí)間三個(gè)屬性。 Step 2 - 精簡(jiǎn)資料:將精確至年月日時(shí)分秒的交易時(shí)間簡(jiǎn)化為只包含年月日的交易日期。 St

18、ep 3- 轉(zhuǎn)換資料形式:依照會(huì)員帳號(hào)及交易日期將同一會(huì)員同一天的交易紀(jì)錄集合成一筆交易形式的資料。 34第三章 資料前置處理簡(jiǎn)介資料前置處理的主要工作 遺缺填補(bǔ)法雜訊去除法資料正規(guī)化資料形式轉(zhuǎn)換*資料型態(tài)轉(zhuǎn)換*資料模糊化*總結(jié)35資料探勘中的資料型態(tài) 離散型 (discrete)預(yù)先定義的資料集合所組成集合中兩個(gè)值的距離無(wú)法直接計(jì)算像布林型態(tài)(例如:性別)、列舉型態(tài)(例如:職業(yè)等)、或是字串型態(tài)(例如:地址)均屬於此類型連續(xù)型 (continuous)數(shù)字型態(tài)(例如:平均月收入)或是日期型態(tài)(例如:生日)均屬於此類型36資料探勘技術(shù)適用之資料型態(tài)(1)離散型監(jiān)督式學(xué)習(xí)法 ( supervis

19、ed learning )分類法連續(xù)型監(jiān)督式學(xué)習(xí)法非監(jiān)督式學(xué)習(xí)法( unsupervised learning )群集分析法37資料探勘技術(shù)適用之資料型態(tài)(2)特性型態(tài)資料型態(tài)範(fàn)例兩值間的距離分類探勘群集分析理解度離散型布林型態(tài)列舉型態(tài)字串型態(tài)較難計(jì)算適合不適合較高連續(xù)型數(shù)字型態(tài)日期型態(tài)較易計(jì)算適合適合較低38資料型態(tài)的轉(zhuǎn)換離散型轉(zhuǎn)換成連續(xù)型資料Step1:用相似性矩陣定義值與值的距離或相似度Step2:再利用值與值的距離或是相似度把離散的 資料形態(tài)表示成連續(xù)的資料型態(tài)連續(xù)型轉(zhuǎn)換成離散型資料Step1:利用群集分析法將數(shù)值型態(tài)資料分群Step2:接著將群集做合適名稱,再利用群集的名稱 代替群集

20、內(nèi)所包含的數(shù)值型資料轉(zhuǎn)換成離 散型資料39第三章 資料前置處理簡(jiǎn)介資料前置處理的主要工作 遺缺填補(bǔ)法雜訊去除法資料正規(guī)化資料形式轉(zhuǎn)換*資料型態(tài)轉(zhuǎn)換*資料模糊化*總結(jié)40資料模糊化在二進(jìn)位邏輯中只有兩個(gè)可能的值(成立或不成立)現(xiàn)實(shí)生活中的許多概念的表達(dá),並非只有成立或是不成立這樣極端的值所能描述 不適合用來(lái)處理不確定性 (uncertainty) 1965年Zadeh提出模糊集合 (fuzzy sets) 與 模糊邏輯 (fuzzy logic) 的概念描述真實(shí)世界中許多不明確、含糊不清的事物 41模糊集合與模糊邏輯模糊集合 (fuzzy sets)傳統(tǒng)集合:只有是與否兩種情況模糊集合:每個(gè)元素

21、均有特定的歸屬程度例如:160cm(0.0) 170cm(0.5) 175cm(0.75) 180cm(1.0)模糊邏輯(fuzzy logic) 利用模糊定量詞(fuzzy quantifiers) 來(lái)表達(dá)大多數(shù)的、相當(dāng)多、不很多模糊命題(fuzzy propositions) 湯姆很年輕或是明天可能下雨 42模糊資料探勘包括四個(gè)主要的處理程序:模糊化(fuzzification)模糊資料探勘 (Fuzzy Data Mining)模糊推論(fuzzy inference)解模糊化(defuzzification)。 43模糊化主要是將所有語(yǔ)言變數(shù)的實(shí)際輸入值(如年齡、 年收入)透過(guò)語(yǔ)言值

22、(linguistic value)的模糊成員函數(shù) (membership function)求得模糊輸入值 (fuzzy input)後,接著進(jìn)行資料探勘 找出大量資料當(dāng)中的模糊規(guī)則,進(jìn)行模糊推論, 得出模糊輸出值,最後再經(jīng)由解模糊化將推論完 成所獲得的最終結(jié)果值轉(zhuǎn)換為另一個(gè)語(yǔ)言變數(shù)的語(yǔ)言值 44模糊化範(fàn)例範(fàn)例定義年齡成員函數(shù),輸入數(shù)值 “約翰是67歲”,取67歲平行於縱軸,分別與年輕和年老 函數(shù)曲線相交約翰年輕的程度為0.46 ,約翰年老的程度為0.92年老年青1.00.920.4600 67 100年齡程度45模糊資料探勘 模糊化語(yǔ)句所呈現(xiàn)的知識(shí)規(guī)則稱為模糊規(guī)則模糊規(guī)則 Rj 可表示其中

23、 xi (i = 1, 2, ., n) 為輸入,y 為輸出;輸入 語(yǔ)意值 Aij 和輸出語(yǔ)意值 Bj (j = 1, 2, , N) 分別 是定義於 Xi 和 Y 的模糊集合範(fàn)例IF 股價(jià)近期上漲AND 上漲持續(xù)時(shí)間短AND 成交量變小 THEN 未來(lái)股價(jià)會(huì)可能會(huì)持續(xù)上漲46模糊推論主要以近似推理 (approximate reasoning) 的方式,根據(jù)知識(shí)庫(kù)中的規(guī)則進(jìn)行模糊推論得出結(jié)果運(yùn)算方式將模糊規(guī)則的前件部 (antecedent part) 各項(xiàng)輸入值與語(yǔ)意值 所得進(jìn)行模糊匹配轉(zhuǎn)換成模糊集合後規(guī)則庫(kù)中有關(guān)的模糊邏輯運(yùn)算子AND、OR、NOT, 便等效於模糊集合的交集、聯(lián)集、補(bǔ)集運(yùn)算, 所得的結(jié)果稱為該條規(guī)則的觸發(fā)強(qiáng)度 (firing strength) 47模糊推論過(guò)程觸發(fā)強(qiáng)度 (firing strength):代表第j條規(guī)則的觸發(fā)強(qiáng)度,交集 代表AND運(yùn)算 經(jīng)由觸發(fā)強(qiáng)度可得出第j個(gè)模糊基底函數(shù) 48模糊推論範(fàn)例STEP1 假設(shè)模糊規(guī)則如下:規(guī)則 1:IF X

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論