裝箱法-南華大學(xué)資訊管理學(xué)系暨研究所課件_第1頁
裝箱法-南華大學(xué)資訊管理學(xué)系暨研究所課件_第2頁
裝箱法-南華大學(xué)資訊管理學(xué)系暨研究所課件_第3頁
裝箱法-南華大學(xué)資訊管理學(xué)系暨研究所課件_第4頁
裝箱法-南華大學(xué)資訊管理學(xué)系暨研究所課件_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2023/10/1DataMining1Chapter3DataPreprocessing2023/8/8DataMining12023/10/1DataMining2

簡介

(1/4)所謂的資料前置處理是指在進(jìn)行資料探勘之前,為了讓資料更適合進(jìn)行探勘的工作,對於資料所做的預(yù)先處理動(dòng)作。在整個(gè)資料探勘的過程當(dāng)中,資料前置處理所需要花費(fèi)的功夫通常是最多的,同時(shí)資料前置處理也是對探勘品質(zhì)影響最大的一個(gè)關(guān)鍵步驟。

資料前置處理的主要目的就是解決資料品質(zhì)不良的問題,使得探勘結(jié)果的品質(zhì)得以提升。

2023/8/8DataMining2簡介(1/4)所2023/10/1DataMining3

簡介(2/4)未經(jīng)處理的資料可能存在許多品質(zhì)不良的情況:資料不完整(dataincomplete)

資料不完整的情況最常見的便是資料中有某些屬性值有遺缺。例如:某顧客填寫會員資料表時(shí),可能遺漏了填寫年齡這一欄。一般在線上作業(yè)的資料庫系統(tǒng),除非管理者將資料庫中的每一個(gè)欄位均設(shè)定為不可接受空值(null),否則即有可能在某些欄位出現(xiàn)資料遺缺的情況。

2023/8/8DataMining3簡介(2/4)未2023/10/1DataMining4

簡介(3/4)資料有雜訊(noise)

此問題多半是因資料有錯(cuò)誤或是特例(outlier)所造成的。例如,顧客填寫會員資料表時(shí),有可能因?yàn)橐Wo(hù)自己的隱私而故意填寫錯(cuò)誤的資料。雜訊不一定全是故意填錯(cuò)造成的,也有可能是因?yàn)樘顚戀Y料時(shí)不小心或是資料中原本就包含特例而產(chǎn)生的。例如:一般男生的身高大多介於165公分到185公分之間,然而有一位顧客的身高是197公分,這便是一個(gè)特例。雜訊不僅可能導(dǎo)致探勘的結(jié)果不正確,也有可能會誤導(dǎo)探勘的結(jié)果分析。

2023/8/8DataMining4簡介(3/4)資2023/10/1DataMining5

簡介(4/4)資料不一致(datainconsistency)

資料不一致的情況有許多,主要是因?yàn)橘Y料由不同來源整合而得所產(chǎn)生。例如某一跨國性的企業(yè),其商品在臺灣是以臺幣計(jì)價(jià),而在美國則是以美金計(jì)價(jià);當(dāng)兩國的銷售資料被整合在一起做探勘時(shí),若沒有經(jīng)過適當(dāng)?shù)膯挝晦D(zhuǎn)換,便會產(chǎn)生完全不正確的探勘結(jié)果。

有高品質(zhì)的資料,才有高品質(zhì)的探勘結(jié)果2023/8/8DataMining5簡介(4/4)資2023/10/1DataMining6資料前置處理的主要工作

資料前置處理主要包含資料整合(dataintegration)、資料清理(datacleaning)以及資料轉(zhuǎn)換(datatransformation)等三項(xiàng)工作。2023/8/8DataMining6資料前置處理的主要工2023/10/1DataMining71.資料整合

DataIntegration所謂的資料整合便是將多重來源的資料整合在一個(gè)貯存庫中,因此資料整合最主要的目的便是解決多重資料來源的整合問題。DataWarehouse資料整合的主要工作有二:

消除資料不一致

消除資料重複性

2023/8/8DataMining71.資料整合Dat2023/10/1DataMining8資料不一致的情況

(1/2)數(shù)值不一致(datavalueconflict)例如商品價(jià)格在某個(gè)資料來源中用臺幣計(jì)價(jià),而在另一個(gè)資料來源中卻用美金計(jì)價(jià)。這種數(shù)值單位不一致的現(xiàn)象,透過單位換算,使數(shù)值的計(jì)算單位統(tǒng)一,即可消除。另外一種數(shù)值不一致的情況是不同來源的資料內(nèi)容不相同。例如:同一位會員在A資料表中記錄的年齡是30歲,然而在B資料表中卻是25歲。因?yàn)闊o法判定究竟哪一個(gè)資料表是正確的,通常會採取的作法是將該屬性的資料刪除,以空值來取代,以消除內(nèi)容不一致的情況。

2023/8/8DataMining8資料不一致的情況(2023/10/1DataMining9資料不一致的情況(2/2)綱目不一致(schemaconflict)多半是屬性名稱不一致所造成的。例如有的資料來源用「會員姓名」這個(gè)屬性名稱,而另一個(gè)資料來源卻用「顧客姓名」這個(gè)屬性名稱,雖然名稱並不相同,但實(shí)際所代表的意義卻是一樣的,可以透過屬性更名的動(dòng)作來進(jìn)行統(tǒng)一。

2023/8/8DataMining9資料不一致的情況(2023/10/1DataMining10資料重複性的情況

數(shù)值重複例如整合中發(fā)現(xiàn)A資料表中有某會員的資料,在B資料表中也有同一位會員的資料,則可刪除其中一筆記錄,以免造成資料重複。

綱目重複例如資料經(jīng)整合之後發(fā)現(xiàn)其中同時(shí)包含生日以及年齡這兩個(gè)屬性,因?yàn)槟挲g可以從生日推導(dǎo)出來,因此可以將年齡這個(gè)屬性刪掉以避免資料重複。

2023/8/8DataMining10資料重複性的情況2023/10/1DataMining112.資料清理DataCleaning

資料清理的步驟主要目的是確認(rèn)資料的正確性以及完整性,使得資料探勘能夠順利進(jìn)行。

2023/8/8DataMining112.資料清理Da2023/10/1DataMining12常見的資料正確性問題檢查內(nèi)容說明屬性的有效值或有效範(fàn)圍例如:性別屬性的值不是男性就是女性;生日的月份應(yīng)該介於1和12之間。數(shù)值的唯一性例如:身分證字號或是顧客編號不可有重複。參考完整性(referentialintegrity)例如:存在於訂單資料表中的會員編號必須同時(shí)存在於會員資料表中。資料的合理性驗(yàn)證例如:從會員的生日計(jì)算出該會員的年齡只有10歲,但是該會員所填寫的學(xué)歷卻是博士,顯然不合理。

2023/8/8DataMining12常見的資料正確性問2023/10/1DataMining13常見的資料完整性問題

檢查內(nèi)容說明是否缺少探勘所需的屬性例如:當(dāng)我們想要探勘顧客年齡與購買商品種類的關(guān)係時(shí),卻發(fā)現(xiàn)資料庫中並未包含年齡這個(gè)屬性。是否只包含統(tǒng)計(jì)整合過的資訊,而缺少詳細(xì)的單筆資料例如:當(dāng)我們想要分析某網(wǎng)站的瀏覽率以了解一天當(dāng)中那一個(gè)時(shí)段最多人拜訪這個(gè)網(wǎng)站時(shí),卻發(fā)現(xiàn)該網(wǎng)站每天只有記錄一筆當(dāng)天的總瀏覽人次,而缺少每個(gè)小時(shí)的瀏覽人次資料。缺少的屬性有時(shí)可以從其他屬性推導(dǎo)而出。例如:如果資料庫中有生日這個(gè)屬性,便可利用生日將顧客的年齡計(jì)算出來,而產(chǎn)生原本缺少的年齡屬性。若是探勘所需的屬性確實(shí)無法取得,那麼就必須修正探勘的目標(biāo),以便使資料探勘的工作可以繼續(xù)進(jìn)行。

2023/8/8DataMining13常見的資料完整性問2023/10/1DataMining14其它相關(guān)的資料清理工作

遺缺填補(bǔ):為了不讓屬性值有遺缺的資料影響探勘的結(jié)果,在進(jìn)行資料探勘之前,應(yīng)該設(shè)法把遺缺的資料填補(bǔ)進(jìn)去。填補(bǔ)的方式又可分為人工填補(bǔ)或是自動(dòng)填補(bǔ)。雜訊消除:由於雜訊的存在有可能會使探勘的結(jié)果有相當(dāng)大的偏差,因此必須將雜訊移除或是將資料做適當(dāng)?shù)钠骄徎幚?smoothing),以降低或是消除雜訊對於探勘結(jié)果的影響。2023/8/8DataMining14其它相關(guān)的資料清理2023/10/1DataMining15DataCleaning-遺缺填補(bǔ)法

資料遺缺的原因資料建立時(shí)未輸入:可能是故意或是不小心造成資料在建立時(shí)沒有被輸入。例如,因?yàn)閾?dān)心個(gè)人資料曝光故意不填身分證號碼,或是因?yàn)槭韬雎┨铍娫?。若資料庫中的欄位未設(shè)定為不可接受空值,便有機(jī)會產(chǎn)生資料遺缺的情況。

設(shè)備故障:例如因?yàn)槭浙y機(jī)故障導(dǎo)致顧客的消費(fèi)明細(xì)無法即時(shí)輸入。

當(dāng)資料內(nèi)容不一致時(shí),為了避免錯(cuò)誤的資料影響分析的準(zhǔn)確性,可能會將該項(xiàng)資料以空值取代,因此產(chǎn)生資料的遺缺。

2023/8/8DataMining15DataClea2023/10/1DataMining16資料遺缺的處理方法

(1/2)直接忽略法

直接忽略該筆內(nèi)容有遺缺的資料。

這種作法特別適用在進(jìn)行分類探勘時(shí),若是某筆資料的分類標(biāo)記(classlabel)為空值,那麼這筆資料因無法被正確分類,便可直接刪除。例如要找出顧客信用等級的分類規(guī)則時(shí),信用等級這個(gè)屬性便是所謂的分類標(biāo)記;若有一筆顧客資料其信用等級欄位存放的是空值,這筆資料便無法作為信用等級分類規(guī)則探勘時(shí)的依據(jù),因此這筆資料可直接刪除。

雖然直接忽略法相當(dāng)容易,然而如果資料遺缺的比例很可觀時(shí),此法會造成大量的資料流失,反而不利於探勘。

直接忽略法較適用於所蒐集的資料量很多,但遺缺的資料只佔(zhàn)其中一小部分的情況。

2023/8/8DataMining16資料遺缺的處理方法2023/10/1DataMining17資料遺缺的處理方法(2/2)人工填補(bǔ)法

為了處理資料遺缺的現(xiàn)象,可採用人工來填補(bǔ)遺缺的資料。例如當(dāng)某會員資料的生日屬性有遺缺時(shí),可打電話詢問該會員以取得其生日加以填補(bǔ)。

人力的負(fù)擔(dān)將會十分沉重。

自動(dòng)填補(bǔ)法在資料遺缺的處理方法上,較為實(shí)際且可行的作法便是自動(dòng)填補(bǔ)法。最簡單的自動(dòng)填補(bǔ)法便是填入一個(gè)通用的常數(shù)值,例如,填入“未知”。當(dāng)這個(gè)屬性被用來當(dāng)做分類標(biāo)記時(shí),“未知”會成為一個(gè)新的類別,得到適當(dāng)?shù)姆诸愐?guī)則。

另外一種自動(dòng)填補(bǔ)法是填入該屬性的整體平均值。就統(tǒng)計(jì)的觀點(diǎn)而言,將遺缺的資料自動(dòng)填入該屬性的整體(或同類)平均值,將不會對統(tǒng)計(jì)的結(jié)果造成太大的影響。

2023/8/8DataMining17資料遺缺的處理方法2023/10/1DataMining18DataCleaning-雜訊去除法

雜訊產(chǎn)生的原因和資料遺缺產(chǎn)生的原因大同小異,有可能是資料收集儀器暫時(shí)故障,或是資料輸入時(shí)的疏忽,或是資料本來就存在的特例等等。

消除雜訊可以透過雜訊的辨識方法將雜訊找出並且移除,也可以利用資料的平緩化處理將雜訊對於探勘結(jié)果的影響加以平緩。

2023/8/8DataMining18DataClea2023/10/1DataMining19辨識雜訊的方法

辨識雜訊最簡單的作法就是結(jié)合電腦偵測與人工檢視。先利用電腦計(jì)算偵測出可疑的數(shù)值,例如大於或小於平均值百分之二十以上的資料便有可能是雜訊,接著再用人工的方式確認(rèn)這些可疑的資料是否真的是雜訊。這個(gè)方法雖然簡單,但因需要人力介入,曠日費(fèi)時(shí),並不實(shí)際。另一種方法是用群集分析法先將資料做分群,分群之後未能落於任一群集的零散資料便可認(rèn)定為雜訊。當(dāng)雜訊所在的資料被辨識出來之後,便可將之移除。

2023/8/8DataMining19辨識雜訊的方法辨2023/10/1DataMining20資料平緩化處理的方法(裝箱法)裝箱法(binningmethod)的基本概念是先將資料做排序,排序後將資料分組裝入箱子中,接著再用各個(gè)箱子中所有資料的平均值、中位數(shù)、或邊界值來取代箱子中的每一筆資料。

裝箱法主要有兩種:等寬分割法(或者稱為等距分割法),以及等深分割法(或稱為等頻分割法)。所謂的等寬分割法是指依照資料的數(shù)值範(fàn)圍來劃分資料分組的區(qū)間,而等深分割法則是依照資料的個(gè)數(shù)來劃分資料分組的區(qū)間。

2023/8/8DataMining20資料平緩化處理的方2023/10/1DataMining21等寬分割法

(1/3)等寬分割法將資料依數(shù)值範(fàn)圍劃分為N個(gè)間隔相同的區(qū)間。假設(shè)A和B分別為該屬性中的最小與最大值,要將資料劃分成N個(gè)區(qū)間,則每個(gè)區(qū)間的寬度W=(B-A)/N。例如,欲分析顧客年齡與購買商品種類的關(guān)係,使用了12個(gè)顧客作為分析對象,其年齡分別為:12,15,18,21,28,33,36,45,50,52,60,80,如果要消除年齡屬性的雜訊,可將此12人的年齡分割成四個(gè)箱子來進(jìn)行裝箱法的處理。因?yàn)榇四挲g屬性的最大值是80,最小值是12,因此箱子的寬度便是最大值減最小值再除以箱子的個(gè)數(shù),即(80-12)/4=17,得到的箱子寬度就是17。

2023/8/8DataMining21等寬分割法(1/2023/10/1DataMining22等寬分割法(2/3)箱子一所裝的是介在12和28之間的年齡資料,箱子二裝29~45,箱子三裝46~62,箱子四裝63~80。因此箱子一會裝五個(gè)數(shù)字:12,15,18,21,28,箱子二會裝三個(gè)數(shù)字:33,36,45,箱子三會裝三個(gè)數(shù)字:50,52,60,第四個(gè)箱子只裝一個(gè)數(shù)字:80

。2023/8/8DataMining22等寬分割法(2/2023/10/1DataMining23等寬分割法(3/3)等寬分割法雖然頗符合直覺,然而當(dāng)資料有雜訊或特例時(shí),此種分割方法將對探勘結(jié)果有很大的影響。以前圖為例,前面11個(gè)數(shù)字的分布還算平均,然而第四個(gè)箱子卻只包含一個(gè)數(shù)字80,這一個(gè)數(shù)字很有可能是個(gè)特例。由於利用等寬分割法時(shí),如果遇到特別高或是特別低的數(shù)值,用最大值和最小值作為區(qū)間範(fàn)圍所計(jì)算出的箱子寬度,可能會造成裝入箱子裡的資料個(gè)數(shù)不平均的問題,因此等寬分割法並不適合用在偏斜的資料(skewdata)上。

2023/8/8DataMining23等寬分割法(3/2023/10/1DataMining24等深分割法(1/2)

等深分割法是將資料劃分為數(shù)個(gè)相同數(shù)量而非相同間隔的資料區(qū)間。以相同例子做說明,12個(gè)會員的年齡分別如下:12,15,18,21,28,33,36,45,50,52,60,80,欲分割成四個(gè)箱子,12/4=3,因此每一個(gè)箱子放三個(gè)數(shù)字。箱子一放12,15,18,箱子二放21,28,33,箱子三放36,45,50,而箱子四放52,60,80。

2023/8/8DataMining24等深分割法(1/2023/10/1DataMining25等深分割法(2/2)等深分割法的資料分佈比等寬分割法好,箱子內(nèi)含的資料量比較平均,即使資料有偏斜的情況也可以處理。無論是採用等深分割或是等寬分割,裝箱法最大的缺點(diǎn)便是不容易處理類別型態(tài)的屬性。例如:職業(yè)屬性的可能值有金融/保險(xiǎn)、房地產(chǎn)、政府機(jī)關(guān)、軍警、教育/研究等等,然而這些職業(yè)類別並沒有先後次序,無法進(jìn)行排序,因此比較不適合用裝箱法來處理雜訊。

2023/8/8DataMining25等深分割法(2/2023/10/1DataMining26裝箱資料的平緩處理(1/3)

平均值法:以平均值取代個(gè)別的數(shù)字來消除雜訊。以等深分割法的例子來說,箱子一中裝著12,15,18,此三數(shù)的平均值為15(如果有小數(shù)點(diǎn)即自動(dòng)進(jìn)位),因此便以15,15,15取代12,15,18。箱子二裝著21,28,33,平均值為28,因此以28,28,28取代21,28,33。以此類推,箱子三裝的36,45,50以平均值取代成44,44,44;箱子四裝的52,60,80,以平均值取代成64,64,64。經(jīng)過這樣的處理後可以發(fā)現(xiàn),原本年齡80是一個(gè)特例,但被平緩化處理成64之後,其值便接近正常值了,由此可見平緩化的處理確實(shí)可消除雜訊。

2023/8/8DataMining26裝箱資料的平緩處理2023/10/1DataMining27裝箱資料的平緩處理(2/3)中位數(shù):以中位數(shù)取代個(gè)別的數(shù)字來消除雜訊。

以12,15,18這三個(gè)數(shù)字而言,位於中間的是15,因此就用15,15,15來取代12,15,18;21,28,33這三個(gè)數(shù)字中位於中間的是28,因此就用28,28,28取代21,28,33。依此類推,36,45,50取代成45,45,45;52,60,80則取代成60,60,60。

中位數(shù)較平均值容易排除極端值的影響。在箱子四中放著52,60,80,其中80是一個(gè)相對較大的數(shù)字,但還不算太極端,如果80換成120,52,60,120的平均值為77,對於其他數(shù)字而言,仍可視為特例。因此平均值的方式無法完全避免極端的特例對平緩後的數(shù)值所產(chǎn)生的影響。若是採用中位數(shù)來處理,不管80被換成100、1000、或是10000,其中位數(shù)仍為60。

2023/8/8DataMining27裝箱資料的平緩處理2023/10/1DataMining28裝箱資料的平緩處理(3/3)邊界值法:以邊界值取代個(gè)別的數(shù)字來消除雜訊。

若是一數(shù)值離最小值較接近便用最小值取代,若離最大值較接近便用最大值取代。例如:12,15,18這個(gè)箱子中,15與最小值12和最大值18的距離相同,因此可任選12或18來取代15;假設(shè)選擇18,則取代的結(jié)果為12,18,18。然而在21,28,33這個(gè)箱子中,28距離33較21近,因此便用33取代28,成為21,33,33。

若是箱子四中有十個(gè)數(shù)字分別為52,52,52,52,52,52,60,60,60,80,其中60距離52較近,因此前九個(gè)數(shù)字都會用52來取代,只有最後一個(gè)數(shù)字維持80。平均下來,極端值對整個(gè)統(tǒng)計(jì)結(jié)果的影響便可減少。用邊界值來消除雜訊時(shí),雖然仍可看到雜訊的存在,但是雜訊的影響力已被降低。

2023/8/8DataMining28裝箱資料的平緩處理2023/10/1DataMining293.資料轉(zhuǎn)換DataTransformation資料轉(zhuǎn)換的主要目的是將資料內(nèi)容轉(zhuǎn)換成更容易探勘或是探勘結(jié)果可信度更高的狀態(tài)?;A(chǔ)的資料轉(zhuǎn)換工作包括資料統(tǒng)整化(dataaggregation)、資料一般化(datageneralization)以及建立新屬性(attributeconstruction)等。進(jìn)階的資料轉(zhuǎn)換工作包括資料正規(guī)化、資料形式(dataforms)轉(zhuǎn)換、資料形態(tài)轉(zhuǎn)換以及資料模糊化等等。DataReduction2023/8/8DataMining293.資料轉(zhuǎn)換Da2023/10/1DataMining30資料統(tǒng)整

資料統(tǒng)整是指將現(xiàn)有的資料做加總、統(tǒng)計(jì)或是建立資料方塊。例如:將商品銷售資料按照銷售地區(qū)或是商品類別做加總。資料統(tǒng)整的目的是將資料做初步的整理,使得資料更適合探勘的工作。例如:整合後的資料中有每一天的商品銷售紀(jì)錄,然而想要進(jìn)行的探勘工作是找出銷售業(yè)績與氣候的關(guān)係。由於以每一天的數(shù)據(jù)來看,很可能因?yàn)橘Y料變化太大而找不出規(guī)律性,因此可以嘗試將銷售資料按銷售月份做加總,同時(shí)將氣溫按照月份作平均,用統(tǒng)整過後的資訊來進(jìn)行探勘,有時(shí)會更容易探勘出隱藏在資料中的規(guī)律性。

2023/8/8DataMining30資料統(tǒng)整資料統(tǒng)整2023/10/1DataMining31資料一般化

資料一般化是指將資料的概念階層(concepthierarchy)向上提升。例如:將會員的詳細(xì)地址用城市或是北中南東四區(qū)來取代。資料一般化可將某屬性中所包含的不同數(shù)值減少,以增加探勘結(jié)果的可用性。(DataReduction)

2023/8/8DataMining31資料一般化資料一2023/10/1DataMining32建立新屬性

利用舊屬性將探勘所需的新屬性建立出來。例如:整合後的資料只包含會員的生日,然而探勘時(shí)要用的屬性是會員的年齡,由於年齡可以從生日推算而出,因此可在此步驟建立出所需要的年齡屬性。(DerivedVariables)

2023/8/8DataMining32建立新屬性利用舊2023/10/1DataMining33資料正規(guī)化DataNormalization

資料正規(guī)化的主要目的是將不同標(biāo)準(zhǔn)之下所記錄的資料轉(zhuǎn)換到同一個(gè)標(biāo)準(zhǔn),以便提高分析時(shí)的準(zhǔn)確度。資料的正規(guī)化會將資料重新分佈在一個(gè)較小而且特定的範(fàn)圍內(nèi)。

例如:臺灣人民的平均所得遠(yuǎn)高於菲律賓人。一個(gè)月賺一萬八千元臺幣在臺灣算是中低收入,然而在菲律賓,這卻是相當(dāng)於三個(gè)大學(xué)教授的薪水。若是直接拿兩國人民的收入數(shù)字來做比較,便會產(chǎn)生不夠客觀的問題。

2023/8/8DataMining33資料正規(guī)化Dat2023/10/1DataMining34極值正規(guī)化(1/2)極值正規(guī)化的公式如下:

其中v為正規(guī)化前的數(shù)值,其範(fàn)圍為[a,b];

v’為正規(guī)化後的數(shù)值,其範(fàn)圍為[c,d]。abcdvv’2023/8/8DataMining34極值正規(guī)化(1/2023/10/1DataMining35極值正規(guī)化(2/2)假設(shè)一般臺灣上班族的月收入範(fàn)圍為[20000,100000],而一般菲律賓上班族的月收入範(fàn)圍為[2000,10000];在臺灣收入30000元相當(dāng)於在菲律賓收入多少?

v=30000a=20000b=100000c=2000d=10000

將以上數(shù)字代入公式中即可求得v正規(guī)化後的數(shù)值為極值正規(guī)化適合用在需要將資料規(guī)範(fàn)在某一個(gè)指定範(fàn)圍內(nèi)的情況。2023/8/8DataMining35極值正規(guī)化(2/2023/10/1DataMining36Z-分?jǐn)?shù)正規(guī)化公式範(fàn)例:假設(shè)臺灣人月收入平均為35000元,標(biāo)準(zhǔn)差是10000元,利用Z-分?jǐn)?shù)法將月收入30000元做正規(guī)化,將得到

負(fù)數(shù)表示收入低於平均,正數(shù)表示高於平均;結(jié)果之絕對值越小,表示偏離平均值程度越小,反之越高Z-分?jǐn)?shù)正規(guī)化適合用在需要了解數(shù)值與平均分佈之間的關(guān)係時(shí)2023/8/8DataMining36Z-分?jǐn)?shù)正規(guī)化公式2023/10/1DataMining37十進(jìn)位正規(guī)化

十進(jìn)位正規(guī)化之公式如下:

,其中i是使得Max(|v’|)

1的最小整數(shù)。

假設(shè)臺灣上班族最高月收入為100000元,因此使得正規(guī)化後的結(jié)果小於或等於1的最小整數(shù)i為5。則月收入30000元經(jīng)由十進(jìn)位正規(guī)化之後將會得到:

十進(jìn)位正規(guī)化適合用在要將數(shù)字壓縮到區(qū)間[0,1]的情況。2023/8/8DataMining37十進(jìn)位正規(guī)化十進(jìn)2023/10/1DataMining38資料形式轉(zhuǎn)換

資料探勘技術(shù)所能處理的資料形式(dataforms)通??煞譃樗姆N:本文形式、時(shí)間形式、交易形式、關(guān)聯(lián)形式。本文形式:通常表示內(nèi)容或是文件,可看作是字串的集合。例如:新聞或是各種網(wǎng)頁的內(nèi)容。

時(shí)間形式:通常儲存著時(shí)間序列(timeseries),記錄隨時(shí)間而改變的資料。例如:證劵交易的行情變化或是顧客的交易歷程。

交易形式:記錄交易的項(xiàng)目。例如:顧客單次採購的商品項(xiàng)目所成之集合。

關(guān)聯(lián)形式:即關(guān)聯(lián)式資料庫中的表格,是最常用的資料形式,可儲存多種型態(tài)的資料。

2023/8/8DataMining38資料形式轉(zhuǎn)換資料2023/10/1DataMining39資料探勘技術(shù)適用之資料形式(1/6)

多層次資料一般化

(multileveldatageneralization)

主要目標(biāo)是要在資料庫中發(fā)掘出較高層次的資料觀點(diǎn)(view),以表達(dá)某些人類比較容易了解的觀念。例如了解來自不同區(qū)域的學(xué)生各科成績之間的關(guān)係。(concepthierarchy)合適之資料形式:關(guān)聯(lián)形式,主要乃藉由收集統(tǒng)計(jì)關(guān)聯(lián)式資料庫表格的對應(yīng)屬性資料,以發(fā)掘出較高層次的資料觀點(diǎn)。2023/8/8DataMining39資料探勘技術(shù)適用之2023/10/1DataMining40資料探勘技術(shù)適用之資料形式(2/6)

分類法

(dataclassification)

主要目的是在訓(xùn)練樣本中發(fā)掘出分類的規(guī)則,以用來分類新進(jìn)資料。合適之資料形式:適用於關(guān)聯(lián)形式的資料,以關(guān)聯(lián)式資料庫表格來儲存訓(xùn)練樣本,以一個(gè)屬性做為分類的目標(biāo)屬性,其中記錄著資料樣本的分類標(biāo)記(classlabel),而其他屬性則被當(dāng)作分類演算法的輸入數(shù)據(jù)。2023/8/8DataMining40資料探勘技術(shù)適用之2023/10/1DataMining41資料探勘技術(shù)適用之資料形式(3/6)

群集分析

(clusteranalysis)

根據(jù)資料樣本的樣式(pattern),將最相似的資料樣本分成一個(gè)群集;同一群集的資料樣本差異性小,而不同群集的資料樣本差異性大。

合適之資料形式如同分類法,適用於關(guān)聯(lián)形式的資料,以關(guān)聯(lián)式資料庫表格來儲存欲進(jìn)行群集分析探勘的資料樣本。

2023/8/8DataMining41資料探勘技術(shù)適用之2023/10/1DataMining42資料探勘技術(shù)適用之資料形式(4/6)

關(guān)連法則探勘

(associationrulesmining)

關(guān)連法則探勘的主要目的是在龐大的交易資料中找出交易項(xiàng)目的關(guān)連性。合適之資料形式:通常應(yīng)用在交易形式的資料中。

時(shí)間序列分析(timeseriesanalysis)

追蹤並分析不同時(shí)間點(diǎn)的資料值變化,以發(fā)掘出可預(yù)測未來發(fā)展的規(guī)則。合適之資料形式:通常運(yùn)用在時(shí)間形式的資料上。2023/8/8DataMining42資料探勘技術(shù)適用之2023/10/1DataMining43資料探勘技術(shù)適用之資料形式(5/6)

以樣式為基礎(chǔ)的相似搜尋

(pattern-basedsimilaritysearch)

預(yù)先設(shè)定一個(gè)目標(biāo)樣式以及一個(gè)差異容忍度,找出與目標(biāo)樣式之相似度在差異容忍度範(fàn)圍內(nèi)的物件,可分成文字搜尋以及時(shí)間序列搜尋兩類。

合適之資料形式:本文形式的資料適用於文字的相似搜尋,而時(shí)間形式的資料適用於時(shí)間序列的相似搜尋。

2023/8/8DataMining43資料探勘技術(shù)適用之2023/10/1DataMining44資料探勘技術(shù)適用之資料形式(6/6)

2023/8/8DataMining44資料探勘技術(shù)適用之2023/10/1DataMining45資料型式的轉(zhuǎn)換

(1/2)範(fàn)例一:假設(shè)交易資料表記錄著顧客所購買的每一樣商品的資料,包括:交易編號、會員帳號、商品編號、交易時(shí)間、交易數(shù)量、付款方式。若我們想要分析顧客同一天購買的商品之間的關(guān)連性,以目前交易資料表內(nèi)所儲存的資料格式並無法直接套用於關(guān)連法則探勘的演算法,因此在探勘之前必須先進(jìn)行以下的資料前置處理步驟:選取相關(guān)屬性:選出會員帳號、商品編號、交易時(shí)間這三個(gè)屬性。

精簡資料:將精確至年月日時(shí)分秒的交易時(shí)間簡化為只包含年月日的交易日期。

轉(zhuǎn)換資料形式:依照會員帳號及交易日期將同一會員同一天的交易記錄集合成為一筆交易形式的資料。

2023/8/8DataMining45資料型式的轉(zhuǎn)換(2023/10/1DataMining46資料型式的轉(zhuǎn)換(2/2)範(fàn)例二:若我們想要利用分類演算法針對本文形式的資料,例如新聞或是網(wǎng)頁等文件,進(jìn)行分類規(guī)則的探勘。由於分類法一般乃是適用於關(guān)聯(lián)形式的資料,因此必須先將欲進(jìn)行分類的文件內(nèi)容轉(zhuǎn)換成資料屬性的形式,才能夠進(jìn)行分類的探勘工作。我們可以將文件當(dāng)中出現(xiàn)頻率最高的十個(gè)關(guān)鍵字找出來,分別記錄在十個(gè)資料屬性當(dāng)中,當(dāng)作分類法的輸入數(shù)據(jù),另外再增加一個(gè)屬性,記錄文件的類別,當(dāng)做分類法的類別標(biāo)記屬性,如此一來,便可利用一般的分類演算法進(jìn)行文件分類探勘的工作。

(如memory-basedreasoning)2023/8/8DataMining46資料型式的轉(zhuǎn)換(2023/10/1DataMining47資料型態(tài)轉(zhuǎn)換(1/3)

不同的資料探勘演算法均有其適合的資料型態(tài),為了應(yīng)用適當(dāng)?shù)馁Y料探勘演算法以獲取所需的知識種類,進(jìn)行資料探勘前必須先將資料型態(tài)做轉(zhuǎn)換。

在資料探勘中,可以把這些資料型態(tài)分成離散型(discrete)或是連續(xù)型(continuous)兩種類型。

2023/8/8DataMining47資料型態(tài)轉(zhuǎn)換(12023/10/1DataMining48資料型態(tài)轉(zhuǎn)換(2/3)離散型的資料其屬性值是由預(yù)先定義的資料集合所組成的,資料集合中兩個(gè)值的距離並無法直接計(jì)算像布林型態(tài)(例如:性別)、列舉型態(tài)(例如:職業(yè)等)、或是字串型態(tài)(例如:地址)均屬於此類型。

以性別屬性而言,可能的值只

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論