數(shù)據(jù)挖掘2第二章數(shù)據(jù)預(yù)處理_第1頁(yè)
數(shù)據(jù)挖掘2第二章數(shù)據(jù)預(yù)處理_第2頁(yè)
數(shù)據(jù)挖掘2第二章數(shù)據(jù)預(yù)處理_第3頁(yè)
數(shù)據(jù)挖掘2第二章數(shù)據(jù)預(yù)處理_第4頁(yè)
數(shù)據(jù)挖掘2第二章數(shù)據(jù)預(yù)處理_第5頁(yè)
已閱讀5頁(yè),還剩63頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

主要內(nèi)容ECUST--JingZhang1為什么要對(duì)數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)為什么要數(shù)據(jù)預(yù)處理?ECUST--JingZhang2真實(shí)世界的數(shù)據(jù)是“臟的”不完整:有些感興趣的屬性缺少屬性值,或者僅僅具備聚集數(shù)據(jù),而非具體數(shù)據(jù)噪聲:包含錯(cuò)誤或者存在偏離期望值的離群值不一致性:在代碼或者名稱上存在差異沒(méi)有高質(zhì)量的數(shù)據(jù),也就沒(méi)有高質(zhì)量的挖掘結(jié)果!高質(zhì)量的決策必須依賴于高質(zhì)量的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)也需要高質(zhì)量的數(shù)據(jù)如何衡量數(shù)據(jù)的質(zhì)量?ECUST--JingZhang3如何衡量數(shù)據(jù)的質(zhì)量?準(zhǔn)確性(Accuracy)完整性(Completeness)一致性(Consistency)時(shí)效性(Timeliness)可信性(Believability)可解釋性(Interpretability)數(shù)據(jù)預(yù)處理中的主要任務(wù)4數(shù)據(jù)清理(Datacleaning)填充缺失值,平滑噪聲數(shù)據(jù),鑒別或者移除離群點(diǎn),糾正不一致性問(wèn)題數(shù)據(jù)集成(Dataintegration)從多個(gè)數(shù)據(jù)庫(kù),數(shù)據(jù)立方體(cube)或者文件中集成數(shù)據(jù)變換(Datatransformation)規(guī)范化和聚集數(shù)據(jù)歸約(Datareduction)減少數(shù)據(jù)的字段數(shù)目,但是仍然產(chǎn)生相同或者近似的分析結(jié)果數(shù)據(jù)離散化(Datadiscretization)數(shù)據(jù)歸約的一部分,對(duì)于從數(shù)值數(shù)據(jù)自動(dòng)產(chǎn)生概念分層非常有用數(shù)據(jù)預(yù)處理的形式ECUST--JingZhang5數(shù)據(jù)預(yù)處理ECUST--JingZhang6為什么要對(duì)數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)描述性數(shù)據(jù)匯總描述性數(shù)據(jù)匯總獲得數(shù)據(jù)的總體印象識(shí)別數(shù)據(jù)的典型性質(zhì),凸顯噪聲或離群點(diǎn)度量中心趨勢(shì)度量均值(mean)中位數(shù)(median)眾數(shù)(mode)中列數(shù)(midrange)離中心趨勢(shì)度量四分位數(shù)(quartiles)四分位數(shù)極差(interquartilerange,IQR)方差(variance)7度量數(shù)據(jù)的中心趨勢(shì)均值(Mean)

:代數(shù)度量加權(quán)算術(shù)平均(Weightedarithmeticmean):截?cái)嗑担═rimmedmean):去除極端值注:分布式度量:是一種通過(guò)如下方法計(jì)算度量:將數(shù)據(jù)集劃分成較小的子集,計(jì)算每個(gè)子集的度量,然后合并計(jì)算結(jié)果,得到原(整個(gè))數(shù)據(jù)集的度量值。如sum(),count()代數(shù)數(shù)量:可以通過(guò)應(yīng)用一個(gè)代數(shù)函數(shù)于一個(gè)或多個(gè)分布度量計(jì)算的度量。如mean()度量數(shù)據(jù)的中心趨勢(shì)中位數(shù)(Median):整體度量如果總數(shù)為奇數(shù),則為中間那個(gè)數(shù);如果為偶數(shù),則為中間兩個(gè)值的平均值對(duì)于已經(jīng)按照某值劃分的組數(shù)據(jù),可以利用插值計(jì)算中位數(shù)的近似值:L1是中位數(shù)區(qū)間的下界,N是整個(gè)數(shù)據(jù)集的值的個(gè)數(shù),是低于中位數(shù)區(qū)間的所有區(qū)間的頻率和,是中位數(shù)區(qū)間的頻率,width是中位數(shù)區(qū)間的寬度。(34)9度量數(shù)據(jù)的中心趨勢(shì)眾數(shù)(Mode):整體度量數(shù)據(jù)集中出現(xiàn)頻率最高的值單峰Unimodal,雙峰bimodal,三峰trimodal對(duì)于適度傾斜(非對(duì)稱)的單峰頻率曲線,有如下經(jīng)驗(yàn)關(guān)系:中列數(shù)(Midrange):代數(shù)度量數(shù)據(jù)集的最大和最小值的平均值ECUST--JingZhang1004February2023DataMining:ConceptsandTechniques11

對(duì)稱數(shù)據(jù)vs.傾斜數(shù)據(jù)對(duì)稱與正傾斜和負(fù)傾斜數(shù)據(jù)的中位數(shù)、均值和眾數(shù)positivelyskewednegativelyskewedsymmetric12度量數(shù)據(jù)的離散程度極差(range),四分位數(shù)(Quartiles),離群點(diǎn)(outliers)和盒圖(boxplots)Range(極差):max()-min()Quartiles(四分位數(shù)):Q1(25thpercentile),Q3(75thpercentile)Inter-quartilerange(中間四分位數(shù)極差):IQR=Q3–

Q1Fivenumbersummary(五數(shù)概括):min,Q1,median,

Q3,maxBoxplot(盒圖):盒的端點(diǎn)是四分位數(shù);中位數(shù)用盒內(nèi)的線標(biāo)記;僅當(dāng)最小最大觀測(cè)值超過(guò)四分位數(shù)不到1.5xIQR時(shí),盒外的兩條線延伸到最小和最大觀測(cè)值,否則,胡須出現(xiàn)在四分位數(shù)的1.5xIQR之內(nèi)的最極端的觀測(cè)值處終止;離群點(diǎn)單獨(dú)表示。Outlier(離群值):通常為高于/低于1.5xIQR的值。13

盒圖分析Five-numbersummaryofadistributionMinimum,Q1,Median,Q3,MaximumBoxplotDataisrepresentedwithaboxTheendsoftheboxareatthefirstandthirdquartiles,i.e.,theheightoftheboxisIQRThemedianismarkedbyalinewithintheboxWhiskers:twolinesoutsidetheboxextendedtoMinimumandMaximumOutliers:pointsbeyondaspecifiedoutlierthreshold,plottedindividually度量數(shù)據(jù)的離散程度方差(Variance)和標(biāo)準(zhǔn)差(standarddeviation)Variance:(algebraic,scalablecomputation)Standarddeviation

σ

isthesquarerootofvarianceσ2作為發(fā)散性度量,標(biāo)準(zhǔn)差的基本性質(zhì)如下σ是關(guān)于均值的發(fā)散,僅當(dāng)選擇均值作為中心度量時(shí)使用。僅當(dāng)不存在發(fā)散時(shí),即當(dāng)所有的觀測(cè)值具有相同值時(shí),σ=0,否則σ>0。ECUST--JingZhang14數(shù)據(jù)預(yù)處理ECUST--JingZhang15為什么要對(duì)數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)數(shù)據(jù)清理ECUST--JingZhang16數(shù)據(jù)清理任務(wù)填充空缺值平滑噪聲數(shù)據(jù)糾正不一致的數(shù)據(jù)空缺值17數(shù)據(jù)不總是可用的很多記錄的許多屬性難以獲取,比如:在銷(xiāo)售數(shù)據(jù)中客戶的收入情況很難掌握。數(shù)據(jù)缺省的原因裝備的故障由于和其他數(shù)據(jù)不一致而被刪除了由于理解錯(cuò)誤而未被錄入某些數(shù)據(jù)在錄入的時(shí)候并不認(rèn)為是重要的,因此沒(méi)錄入沒(méi)有注冊(cè)歷史或者數(shù)據(jù)改變了…….空缺的數(shù)據(jù)可能需要被推斷出來(lái)空缺值18忽略該記錄:當(dāng)類(lèi)標(biāo)號(hào)缺少時(shí)通常這樣做(假定挖掘任務(wù)涉及分類(lèi)或者描述)。除非元組有多個(gè)屬性缺少值,否則該方法不是很有效。當(dāng)每個(gè)屬性缺少值的百分比變化很大時(shí),它的性能非常差。人工填寫(xiě)空缺值:一般地說(shuō),該方法很費(fèi)時(shí),并且當(dāng)數(shù)據(jù)集很大、缺少很多值時(shí),該方法可能行不通。使用一個(gè)全局的常量填寫(xiě)空缺值,例如“unknown”,但是這可能會(huì)引入一個(gè)新類(lèi)型?!使用屬性的中心度量(如均值、中位數(shù))填充空缺值使用與給定元組屬同一類(lèi)的所有樣本的屬性均值或中位數(shù):例如,若將顧客按credit_risk分類(lèi),使用具有相同信用度的顧客的平均收入替換income中的空缺值使用最可能的值去填充空缺值:基于推導(dǎo)的使用貝葉斯公式或者決策樹(shù)噪聲數(shù)據(jù)ECUST--JingZhang19噪聲(noise):

是一個(gè)測(cè)量變量中的隨機(jī)錯(cuò)誤或偏差不正確的屬性值可能導(dǎo)致數(shù)據(jù)轉(zhuǎn)換問(wèn)題技術(shù)限制命名轉(zhuǎn)換過(guò)程的不一致性其他需要數(shù)據(jù)清理的數(shù)據(jù)問(wèn)題重復(fù)記錄不完整數(shù)據(jù)不一致數(shù)據(jù)如何處理噪聲數(shù)據(jù)?ECUST--JingZhang20分箱(binning)首先,把數(shù)據(jù)排序,把排序后數(shù)據(jù)分到等深的箱中接著,用按箱平均值、中心值、邊界值等平滑技術(shù)平滑化數(shù)據(jù)聚類(lèi)檢測(cè)和移除離群點(diǎn)回歸利用回歸函數(shù)填充數(shù)據(jù),從而平滑化數(shù)據(jù)簡(jiǎn)單離散化方法:分箱ECUST--JingZhang21等寬劃分將整個(gè)區(qū)域劃分成N個(gè)相同大小的間隔若A和B是這個(gè)屬性的最小值和最大值,則各個(gè)間隔的寬度為:W=(B-A)/N.等寬分箱法是最直接的分箱方法但是離群點(diǎn)可能會(huì)影響表示傾斜的數(shù)據(jù)并不能夠很好地被處理等深劃分將整個(gè)區(qū)域劃分為N個(gè)間隔,各個(gè)間隔中所包含的樣本數(shù)目大致相同具有較好的數(shù)據(jù)擴(kuò)展性數(shù)據(jù)平滑的分箱方法22

price的排序后數(shù)據(jù)(美元):4,8,15,21,21,24,25,28,34劃分為(等深的)箱:-箱1:4,8,15-箱2:21,21,24-箱3:25,28,34用箱平均值平滑:-箱1:9,9,9-箱2:22,22,22-箱3:29,29,29用箱邊界值平滑:-箱1:4,4,15-箱2:21,21,24-箱3:25,25,34聚類(lèi)分析ECUST--JingZhang23回歸ECUST--JingZhang24數(shù)據(jù)預(yù)處理ECUST--JingZhang25為什么要對(duì)數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)數(shù)據(jù)集成26數(shù)據(jù)集成將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉(cāng)庫(kù))中模式集成從不同的數(shù)據(jù)源集成元數(shù)據(jù)實(shí)體識(shí)別問(wèn)題:來(lái)自多個(gè)信息源的現(xiàn)實(shí)世界的實(shí)體如何才能“匹配”?例如,A.cust-idB.cust-number數(shù)據(jù)沖突的檢測(cè)與處理對(duì)于現(xiàn)實(shí)世界的同一實(shí)體,來(lái)自不同數(shù)據(jù)源的屬性值可能不同可能原因:不同的表示方式,不同的度量標(biāo)準(zhǔn),例如公制單位和英制單位處理數(shù)據(jù)集成中的冗余數(shù)據(jù)當(dāng)多個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)集成時(shí),會(huì)產(chǎn)生冗余數(shù)據(jù)在不同數(shù)據(jù)庫(kù)中,相同的屬性可能具備不同的名稱一個(gè)屬性可能由另外一張表的多個(gè)字段推導(dǎo)出,例如:年收入有些冗余可以被相關(guān)分析檢測(cè)到對(duì)多數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行仔細(xì)的數(shù)據(jù)集成,可以減少/避免冗余和矛盾,并且能提高挖掘的速度和質(zhì)量ECUST--JingZhang2728相關(guān)分析(數(shù)值數(shù)據(jù))相關(guān)系數(shù)(Correlationcoefficient)(alsocalledPearson’sproductmomentcoefficient)其中n是元組個(gè)數(shù),

分別是p和q的平均值,σp是

σq分別是p和q的標(biāo)準(zhǔn)差,Σ(pq)是pq叉積的和(即,對(duì)于每個(gè)元組,A的值乘以該元組B的值)。如果rp,q>0,p與q正相關(guān),值越大,相關(guān)性越強(qiáng).rp,q=0:相互獨(dú)立;rp,q<0:負(fù)相關(guān)。29相關(guān)分析(離散數(shù)據(jù))Χ2(chi-square)testΧ2

值越大,兩個(gè)變量越相關(guān)實(shí)際值與期望值差別越大,則其對(duì)Χ2

值貢獻(xiàn)越大。相關(guān)性不包含因果性例如:醫(yī)院是的數(shù)量與偷車(chē)賊的數(shù)量是相關(guān)的,實(shí)際上它們都與另一個(gè)變量相關(guān):人口數(shù)量數(shù)據(jù)變換ECUST--JingZhang30平滑:去掉數(shù)據(jù)中的噪聲聚集:對(duì)數(shù)據(jù)進(jìn)行匯總和聚集離散化:數(shù)值屬性的原始值用區(qū)間標(biāo)簽或概念標(biāo)簽替換規(guī)范化:將屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間屬性構(gòu)造:由給定的屬性構(gòu)造新的屬性,并添加到屬性集中由標(biāo)稱數(shù)據(jù)產(chǎn)生概念分層:用高層次概念替換低層次“原始”數(shù)據(jù)。數(shù)據(jù)變換:規(guī)范化31最小-最大規(guī)范化將A的值v映射到區(qū)間[new_minA,new_maxA]中的v’z-score規(guī)范化屬性A的值基于A的平均值和標(biāo)準(zhǔn)差規(guī)范化,A的值v被規(guī)范化為v’。小數(shù)定標(biāo)規(guī)范化通過(guò)移動(dòng)屬性A的小數(shù)點(diǎn)的位置進(jìn)行規(guī)范化。小數(shù)點(diǎn)的移動(dòng)位數(shù)依賴于A的最大絕對(duì)值。A的值v被規(guī)范化為v’。其中,j

是使得Max(||)<1的最小整數(shù)。數(shù)據(jù)預(yù)處理ECUST--JingZhang32為什么要對(duì)數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)數(shù)據(jù)歸約策略

ECUST--JingZhang33數(shù)據(jù)倉(cāng)庫(kù)可以存儲(chǔ)數(shù)千兆字節(jié)的數(shù)據(jù):在海量數(shù)據(jù)上進(jìn)行復(fù)雜數(shù)據(jù)分析和數(shù)據(jù)挖掘需要很長(zhǎng)時(shí)間數(shù)據(jù)歸約數(shù)據(jù)歸約技術(shù)可以用來(lái)得到數(shù)據(jù)集的規(guī)約表示,它在規(guī)模上要小得多,但能產(chǎn)生同樣(或幾乎同樣的)的分析結(jié)果數(shù)據(jù)歸約策略維規(guī)約:減少所考慮的隨機(jī)變量或?qū)傩缘膫€(gè)數(shù)數(shù)量規(guī)約:用替代的、較小的數(shù)據(jù)表示形式替換原數(shù)據(jù)數(shù)據(jù)壓縮:使用變換以得到元數(shù)據(jù)的規(guī)約或壓縮表示。數(shù)據(jù)立方體聚集ECUST--JingZhang34數(shù)據(jù)立方體的最低層為基本方體,最高層為頂點(diǎn)方體,中間層為方體。對(duì)應(yīng)于感興趣實(shí)體的聚集數(shù)據(jù)數(shù)據(jù)立方體中聚集的多層次進(jìn)一步減少了要處理數(shù)據(jù)的大小有關(guān)聚集信息的查詢,如果可能的話,應(yīng)當(dāng)使用數(shù)據(jù)立方體回答屬性子集選擇定義:通過(guò)刪除不相關(guān)或者冗余的屬性(或維)減少數(shù)據(jù)集目標(biāo):找出最小屬性集,使得數(shù)據(jù)類(lèi)的概率分布盡可能接近原數(shù)據(jù)集的概率分布優(yōu)點(diǎn):減少了出現(xiàn)在發(fā)現(xiàn)模式上的屬性的數(shù)目,使得模式更易于理解啟發(fā)式方法:逐步向前選擇(空集開(kāi)始,每次添一最優(yōu)屬性)逐步向后刪除(滿集開(kāi)始,每次刪一最差屬性)向前選擇和向后刪除的結(jié)合決策樹(shù)歸納ECUST--JingZhang35ECUST--JingZhang36決策樹(shù)歸納初始屬性集合:{A1,A2,A3,A4,A5,A6}A4?A1?A6?Class1Class2Class1Class2>歸約后的屬性集合:{A1,A4,A6}如何判斷屬性的重要性?ECUST--JingZhang37很多方法,例如:informationgain(ID3)gainratio(C4.5)giniindex2contingencytablestatisticsuncertaintycoefficient維歸約(數(shù)據(jù)壓縮)ECUST--JingZhang38數(shù)據(jù)壓縮分類(lèi)無(wú)損壓縮有損壓縮串壓縮典型的無(wú)損壓縮已有廣泛的理論和協(xié)調(diào)的算法但是只允許有限的數(shù)據(jù)操作音頻/圖像壓縮典型的有損壓縮,逐步加細(xì)有時(shí)可以只重構(gòu)信號(hào)的小片斷,而無(wú)需重構(gòu)整個(gè)信號(hào)數(shù)據(jù)壓縮39OriginalDataCompressedDatalosslessOriginalDataApproximatedlossy小波變換40離散小波變換(DWT):一種線性信號(hào)處理技術(shù)近似壓縮技術(shù):僅僅保存一小部分最強(qiáng)的小波系數(shù)類(lèi)似于離散傅立葉變換(DFT),但是DWT是更好的有損壓縮,空間局部性相當(dāng)好方法:輸入數(shù)據(jù)向量的長(zhǎng)度L必須是2的整數(shù)冪(必要時(shí)可在數(shù)據(jù)向量后加0)每個(gè)變換涉及兩個(gè)應(yīng)用函數(shù)。第一個(gè)使用數(shù)據(jù)平滑,第二個(gè)進(jìn)行加權(quán)差分,產(chǎn)生數(shù)據(jù)的細(xì)節(jié)特征兩個(gè)函數(shù)作用于輸入數(shù)據(jù)對(duì),產(chǎn)生兩個(gè)長(zhǎng)度為L(zhǎng)/2的數(shù)據(jù)集。一般地,他們分別代表輸入數(shù)據(jù)平滑后的低頻和高頻內(nèi)容兩個(gè)函數(shù)遞歸地作用于前面循環(huán)得到的數(shù)據(jù)集,直到結(jié)果集的長(zhǎng)度為2由以上迭代得到的數(shù)據(jù)集中選擇值,指定其為數(shù)據(jù)變換的小波系數(shù)。小波變換的優(yōu)點(diǎn)小波空間局部性好,有利于保留局部細(xì)節(jié)

對(duì)噪音和數(shù)據(jù)的輸入順序不敏感計(jì)算復(fù)雜度為O(N),具有較高的計(jì)算效率小波變換可以用于高維數(shù)據(jù)小波變換的有損壓縮比當(dāng)前的商業(yè)標(biāo)準(zhǔn)JPEG壓縮好小波變換有許多實(shí)際應(yīng)用,包括:指紋圖像壓縮,計(jì)算機(jī)視覺(jué),時(shí)間序列數(shù)據(jù)分析和數(shù)據(jù)清理。ECUST--JingZhang41主成分分析ECUST--JingZhang42假定待壓縮的數(shù)據(jù)由N個(gè)元組或者數(shù)據(jù)向量組成,取自k個(gè)維。主成分分析(PCA)搜索c(且c<=k)個(gè)最能夠代表數(shù)據(jù)的k-維正交向量。元數(shù)據(jù)集被歸約到一個(gè)由c個(gè)主要成分上的N個(gè)數(shù)據(jù)向量構(gòu)成的空間上(維歸約)每一個(gè)數(shù)據(jù)矢量都是c個(gè)主要成分矢量的線性組合僅僅針對(duì)數(shù)值型數(shù)據(jù)對(duì)高維數(shù)據(jù)較為有效與小波變換比,PCA能較好地處理稀疏數(shù)據(jù),而小波變換更適合高維數(shù)據(jù)。主成份分析ECUST--JingZhang43基本過(guò)程對(duì)輸入數(shù)據(jù)規(guī)范化,使得每個(gè)屬性都落入相同的區(qū)間。PCA計(jì)算c個(gè)規(guī)范正交向量,作為規(guī)范化輸入數(shù)據(jù)的基。這些向量被稱為主成份,輸入數(shù)據(jù)是主成份的線性組合。對(duì)主成分按“重要性”或強(qiáng)度降序排列。通過(guò)去掉較弱的成分來(lái)壓縮數(shù)據(jù)。ECUST--JingZhang44X1X2Y1Y2主成分分析數(shù)值規(guī)約ECUST--JingZhang45數(shù)值規(guī)約技術(shù)通過(guò)選擇替代的、’較小的‘?dāng)?shù)據(jù)表示形式來(lái)減少數(shù)據(jù)量。參數(shù)方法和非參數(shù)方法參數(shù)方法假設(shè)數(shù)據(jù)適合一些模型,評(píng)估模型參數(shù),使得只需存放模型參數(shù),而不是實(shí)際數(shù)據(jù)(離群點(diǎn)也可能被存放)如對(duì)數(shù)線性模型:估計(jì)離散的多維概率分布。非參數(shù)方法不必假設(shè)模型主要包括:直方圖,聚類(lèi)和選樣?;貧w和對(duì)數(shù)線性模型線性回歸:對(duì)數(shù)據(jù)建模,使之適合一條直線兩個(gè)參數(shù),α和β確定這條直線,能夠利用手頭的數(shù)據(jù)進(jìn)行估計(jì)通常使用最小平方法來(lái)確定直線方程的系數(shù)多元回歸是線性回歸的擴(kuò)充,相應(yīng)變量是多維特征向量的線性函數(shù)。Y=b0+b1X1+b2X2.對(duì)數(shù)線性模型:近似離散的多維概率分布回歸和對(duì)數(shù)線性模型都可用于稀疏數(shù)據(jù)。對(duì)于高維數(shù)據(jù),回歸可能是計(jì)算密集的,而對(duì)數(shù)線性模型則可以表現(xiàn)出很好的可伸縮性。ECUST--JingZhang46直方圖一種流行的數(shù)據(jù)歸約技術(shù)把數(shù)據(jù)分成不同的桶,存儲(chǔ)每個(gè)桶的平均值劃分規(guī)則等寬等頻(等深)V最優(yōu):具有最小方差的直方圖。直方圖的方差是每個(gè)桶代表的原來(lái)值的加權(quán)和,其中權(quán)等于桶中值的個(gè)數(shù)。MaxDiff:桶的邊界是具有β-1個(gè)最大差的對(duì),其中β是用戶指定的桶數(shù)ECUST--JingZhang47聚類(lèi)ECUST--JingZhang48把數(shù)據(jù)集劃分成聚類(lèi),使得類(lèi)內(nèi)數(shù)據(jù)相似,類(lèi)間數(shù)據(jù)不相似,從而只存儲(chǔ)聚類(lèi)的表示如果數(shù)據(jù)是聚集的,聚類(lèi)技術(shù)將十分有效,而當(dāng)數(shù)據(jù)有噪聲時(shí)將失去它的有效性可以層次聚類(lèi)且被存儲(chǔ)在多維索引樹(shù)結(jié)構(gòu)中抽樣ECUST--JingZhang49用數(shù)據(jù)的較小隨機(jī)樣本(子集)表示大的數(shù)據(jù)集。選擇數(shù)據(jù)的代表子集簡(jiǎn)單隨機(jī)取樣在有傾斜數(shù)據(jù)時(shí)可能會(huì)執(zhí)行得比較差抽樣方法簡(jiǎn)單選擇n個(gè)樣本,不回放(SRSWOR)簡(jiǎn)單選擇n個(gè)樣本,回放(SRSWR)聚類(lèi)抽樣分層抽樣把數(shù)據(jù)庫(kù)D劃分為互不相交的部分,稱作“層”,則通過(guò)對(duì)每一層的簡(jiǎn)單隨機(jī)取樣就可以得到D的分層選樣當(dāng)數(shù)據(jù)傾斜時(shí),可以幫助確保樣本的代表性抽樣的復(fù)雜性子線性于數(shù)據(jù)的大小。ECUST--JingZhang50抽樣(Sampling)SRSWORSRSWR原始數(shù)據(jù)SRSWOR:簡(jiǎn)單選取n個(gè)樣本,不回放SRSWR:簡(jiǎn)單選取n個(gè)樣本,回放聚類(lèi)抽樣ECUST--JingZhang51原始數(shù)據(jù)聚類(lèi)抽樣數(shù)據(jù)預(yù)處理ECUST--JingZhang52為什么要對(duì)數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)離散化ECUST--JingZhang53屬性的三種類(lèi)型:標(biāo)稱屬性—來(lái)自無(wú)序集中的值序數(shù)屬性—來(lái)自有序集的值連續(xù)屬性—實(shí)數(shù)離散化:把連續(xù)的屬性值區(qū)間劃分成多個(gè)區(qū)間一些分類(lèi)算法只接受分類(lèi)屬性通過(guò)離散化壓縮數(shù)據(jù)大小為進(jìn)一步分析作準(zhǔn)備離散化和概念分層ECUST--JingZhang54離散化

通過(guò)將一個(gè)連續(xù)型的屬性劃分成少數(shù)幾個(gè)間隔范圍,從而降低取值的數(shù)目。間隔的標(biāo)簽被用于表示該字段的真實(shí)值。概念分層將低級(jí)的概念(例如以數(shù)值形式表示年齡字段)轉(zhuǎn)化為更高級(jí)別的概念(例如,以青年,中年,老年表示年齡字段)。針對(duì)數(shù)值型數(shù)據(jù)的離散化和概念層次化ECUST--JingZhang55分箱(前面已講過(guò))直方圖分析基于熵的離散化基于Χ2(chi-square)分析的區(qū)間合并聚類(lèi)分析根據(jù)直觀劃分離散化直方圖ECUST--JingZhang56一個(gè)常用的非監(jiān)督數(shù)據(jù)規(guī)約技術(shù)將數(shù)據(jù)劃分成多個(gè)桶(buckets),并且以平均值(總和)表示每個(gè)桶能夠通過(guò)動(dòng)態(tài)規(guī)劃的方法優(yōu)化生成基于熵的離散化利用熵的值遞歸地劃分?jǐn)?shù)值屬性A的值,產(chǎn)生分層的離散化。給定一個(gè)樣本集S,基于熵對(duì)A離散化的方法如下:A的每個(gè)值可以認(rèn)為是一個(gè)潛在的區(qū)間邊界或閾值T。給定S,所選擇的閾值時(shí)這樣的值,它使其后劃分得到的信息增益最大。信息增益是:其中,s1和s2分別對(duì)應(yīng)于s中滿足條件A<T和A》T的樣本。對(duì)于給定集合,它的熵函數(shù)Ent根據(jù)集合中樣本的類(lèi)分布來(lái)計(jì)算。例如,給定m個(gè)類(lèi),Si的熵為:(pi是類(lèi)i在Si中的概率)確定閾值的過(guò)程遞歸的用于所得到的每個(gè)劃分,直到滿足某個(gè)終止條件,如:實(shí)驗(yàn)證明基于熵的離散化可以壓縮數(shù)據(jù)量,提高分類(lèi)的準(zhǔn)確性57基于Χ2(chi-square)分析的區(qū)間合并基本思想對(duì)于精確的離散化,相對(duì)類(lèi)頻率在一個(gè)區(qū)間內(nèi)應(yīng)當(dāng)相當(dāng)一致。如果兩個(gè)鄰近的區(qū)間具有非常類(lèi)似的類(lèi)分布,則這兩個(gè)區(qū)間可以合并。否則,它們應(yīng)該保持分開(kāi)過(guò)程把數(shù)值屬性A的每個(gè)不同值看做一個(gè)區(qū)間對(duì)每對(duì)相鄰區(qū)間進(jìn)行Χ2檢驗(yàn)把具有最小Χ2值的相鄰區(qū)間合并在一起以上各步遞歸進(jìn)行,直到滿足預(yù)先定義的終止標(biāo)準(zhǔn)ECUST--JingZhang58聚類(lèi)ECUST--JingZhang59將數(shù)據(jù)集合劃分為多個(gè)簇,然后僅僅以簇代表數(shù)據(jù)如果數(shù)據(jù)本身可以分為多個(gè)簇,則較為有效每一個(gè)簇可以進(jìn)一步分成若干子簇,形成較低的概念層。簇可以聚集在一起,以形成分層結(jié)構(gòu)中較高的概念層標(biāo)稱數(shù)據(jù)的概念分層生成ECUST--JingZhang60由用戶或?qū)<以谀J郊?jí)顯示地說(shuō)明屬性的部分序通過(guò)顯式數(shù)據(jù)分組說(shuō)明分層結(jié)構(gòu)的一部分說(shuō)明屬性集,但不說(shuō)明他們的偏序只說(shuō)明部分屬性集屬性集的說(shuō)明ECUST--JingZhang61概念分層可以根據(jù)給定屬性集中每一個(gè)屬性的不同屬性值的個(gè)數(shù)自動(dòng)生成。具有最多不同屬性值的屬性放在分層中的最低層數(shù)據(jù)預(yù)處理ECUST--JingZhang62為什么要對(duì)數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)小結(jié)ECUST--JingZhang63數(shù)據(jù)預(yù)處理對(duì)于數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘都是一個(gè)重要的問(wèn)題數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理和數(shù)據(jù)集成數(shù)據(jù)歸約和特征選擇離散化和概念分層盡管已經(jīng)提出了一些數(shù)據(jù)預(yù)處理的方法,數(shù)據(jù)預(yù)處理仍然是一個(gè)活躍研究領(lǐng)域推薦參考文獻(xiàn)ECUST--JingZhang64R.Agrawal,J.Han,andH.Mannila,ReadingsinDataMining:ADatabasePerspective,MorganKaufmann(inpreparation)U.M.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy.AdvancesinKnowledgeDiscoveryandDataMining.AAAI/MITPress,1996U.Fayyad,G.Grinstein,andA.Wierse,InformationVisualizationinDataMiningandKnowledgeDiscovery,MorganKaufmann,2001J.HanandM.Kamber.DataMining:ConceptsandTechniques.MorganKaufmann,2001D.J.

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論