數(shù)據(jù)挖掘?qū)д?第2章(v4)_第1頁(yè)
數(shù)據(jù)挖掘?qū)д?第2章(v4)_第2頁(yè)
數(shù)據(jù)挖掘?qū)д?第2章(v4)_第3頁(yè)
數(shù)據(jù)挖掘?qū)д?第2章(v4)_第4頁(yè)
數(shù)據(jù)挖掘?qū)д?第2章(v4)_第5頁(yè)
已閱讀5頁(yè),還剩73頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第2章數(shù)據(jù)數(shù)據(jù)類(lèi)型數(shù)據(jù)質(zhì)量數(shù)據(jù)預(yù)處理相似性和相異性度量2.1數(shù)據(jù)類(lèi)型

2.1.1屬性與度量

2.1.2數(shù)據(jù)集的類(lèi)型

3數(shù)據(jù)數(shù)據(jù)集是數(shù)據(jù)對(duì)象的集合數(shù)據(jù)對(duì)象用一組刻畫(huà)對(duì)象基本特性(如物體質(zhì)量或事件發(fā)生時(shí)間)的屬性描述數(shù)據(jù)對(duì)象的其他名稱(chēng)記錄、點(diǎn)、向量、模式、事件、案例、樣本、觀測(cè)或?qū)嶓w屬性(attribute

)是對(duì)象的性質(zhì)或特性,他因?qū)ο蠖悾螂S時(shí)間而變化屬性的其他名稱(chēng)變量、特性、字段、特征或維AttributesObjects屬性如何測(cè)量和描述,既取決于事物本身的客觀性質(zhì),也和所掌握的技術(shù)手段相關(guān)。涉及到測(cè)量精度:海岸線長(zhǎng)度。虹膜顏色(分幾類(lèi)顏色描述、RBG均值描述、RBG直方圖描述)04二月2023數(shù)據(jù)挖掘?qū)д?測(cè)量標(biāo)度是將數(shù)值或符號(hào)與對(duì)象的屬性相關(guān)聯(lián)的規(guī)則。屬性的性質(zhì)不必與用來(lái)度量它的值的性質(zhì)相同。屬性的類(lèi)型序性質(zhì)、可加性序性質(zhì)04二月2023數(shù)據(jù)挖掘?qū)д?屬性的類(lèi)型屬性的類(lèi)型,即測(cè)量標(biāo)度類(lèi)型,取決于下列4種數(shù)值性質(zhì):屬性值(數(shù)值)的性質(zhì)1、Distinctness(相異性): = 2、Order(序): <> 3、Addition(加法): +- Multiplication(乘法): */屬性的類(lèi)型不同,允許的操作不同04二月2023數(shù)據(jù)挖掘?qū)д?屬性的類(lèi)型Therearedifferenttypesofattributes標(biāo)稱(chēng)(Nominal)Examples:郵編、雇員ID序數(shù)(Ordinal)Examples:成績(jī)、街道號(hào)碼區(qū)間(Interval)Examples:日期、溫度比率(Ratio)Examples:絕對(duì)溫度、長(zhǎng)度、年齡、計(jì)數(shù)04二月2023數(shù)據(jù)挖掘?qū)д?表2-2不同的屬性類(lèi)型屬性類(lèi)型描

述例

子操

作標(biāo)稱(chēng)屬性的值僅僅只是不同的名字,即標(biāo)稱(chēng)值只提供足夠的信息以區(qū)分對(duì)象(=,)郵政編碼、雇員ID號(hào)、眼球顏色、性別眾數(shù)、熵、列聯(lián)相關(guān)、2檢驗(yàn)序數(shù)屬性的值提供足夠的信息確定對(duì)象的序(<,>)礦石硬度、{好,較好,最好}、成績(jī)、街道號(hào)碼中值、百分位、秩相關(guān)、游程檢驗(yàn)、符號(hào)檢驗(yàn)對(duì)于區(qū)間屬性,值之間的差是有意義的,即存在測(cè)量單位(,)日歷日期、攝氏或華氏溫度均值、標(biāo)準(zhǔn)差、皮爾遜相關(guān)、t和F檢驗(yàn)對(duì)于比率變量,差和比率都是有意義的(*,/)絕對(duì)溫度、貨幣量、計(jì)數(shù)、年齡、質(zhì)量、長(zhǎng)度、電流幾何平均、調(diào)和平均、百分比變差分類(lèi)的(定性的)數(shù)值的(定量的)標(biāo)稱(chēng)序數(shù)區(qū)間比率04二月2023數(shù)據(jù)挖掘?qū)д?表2-3定義屬性層次的變換屬性類(lèi)型變

換注

釋任何一對(duì)一變換,例如值的一個(gè)排列如果所有雇員的ID號(hào)都重新賦值,不會(huì)導(dǎo)致任何不同值的保序變換,即新值=f(舊值),其中f是單調(diào)函數(shù)包括概念好、較好、最好的屬性可以完全等價(jià)地用值{1,2,3}或用{0.5,1,10}表示新值

=a×舊值+b,其中a、b是常數(shù)華氏和攝氏溫度標(biāo)度零度的位置和1度的大?。▎挝唬┎煌轮?a×舊值長(zhǎng)度可以用米或英尺度量分類(lèi)的(定性的)數(shù)值的(定量的)標(biāo)稱(chēng)序數(shù)區(qū)間比率04二月2023數(shù)據(jù)挖掘?qū)д?用值的個(gè)數(shù)描述屬性:離散vs.連續(xù)屬性離散屬性(DiscreteAttribute)有限或無(wú)限可數(shù)(countableinfinite)個(gè)值例:郵政編碼,計(jì)數(shù),文檔集的詞常表示為整數(shù)變量.注意:二元屬性(binaryattributes)是離散屬性的特例連續(xù)屬性(ContinuousAttribute)屬性值為實(shí)數(shù)例:溫度,高度,重量.實(shí)踐中,實(shí)數(shù)只能用有限位數(shù)字的數(shù)度量和表示.連續(xù)屬性一般用浮點(diǎn)變量表示.04二月2023數(shù)據(jù)挖掘?qū)д?0數(shù)據(jù)集的一般特性維度(Dimensionality)數(shù)據(jù)集的維度是數(shù)據(jù)集中的對(duì)象具有的屬性數(shù)目維災(zāi)難(CurseofDimensionality)維歸約(dimensionalityreduction)稀疏性(Sparsity)如具有非對(duì)稱(chēng)特征的數(shù)據(jù)集,一個(gè)對(duì)象的大部分屬性上的值都為0只存儲(chǔ)和處理非零值分辨率(Resolution)

數(shù)據(jù)的模式依賴(lài)于分辨率——度量尺度(scale)在數(shù)米的分辨率下,地球表面看上去很不平坦,但在數(shù)十公里的分辨率下卻相對(duì)平坦小時(shí)標(biāo)度下的氣壓變化反映風(fēng)暴或其他天氣系統(tǒng)的移動(dòng);在月標(biāo)度下,這些現(xiàn)象就檢測(cè)不到04二月2023數(shù)據(jù)挖掘?qū)д?1數(shù)據(jù)集類(lèi)型(三大類(lèi))記錄數(shù)據(jù)數(shù)據(jù)矩陣(DataMatrix)文本數(shù)據(jù)(DocumentData):每篇文檔可以表示成一個(gè)文檔-詞矩陣

事務(wù)數(shù)據(jù)(TransactionData)基于圖形(Graph)的數(shù)據(jù)WorldWideWeb分子結(jié)構(gòu)(MolecularStructures)有序(Ordered)數(shù)據(jù)空間數(shù)據(jù)(SpatialData)時(shí)間數(shù)據(jù)(TemporalData)序列數(shù)據(jù)(SequentialData)04二月2023數(shù)據(jù)挖掘?qū)д?2數(shù)據(jù)集類(lèi)型1:記錄數(shù)據(jù):數(shù)據(jù)矩陣數(shù)據(jù)矩陣:如果一個(gè)數(shù)據(jù)集中的所有數(shù)據(jù)對(duì)象都具有相同的數(shù)值屬性集,則數(shù)據(jù)對(duì)象可以看做是多維空間中的點(diǎn),其中每個(gè)位代表描述對(duì)象的一個(gè)不同屬性。這樣的數(shù)據(jù)集可以用一個(gè)mXn的矩陣表示pregplaspresskininsumasspediageclass61487235033.60.62750positive1856629026.60.35131negative8183640023.30.67232positive04二月2023數(shù)據(jù)挖掘?qū)д?3數(shù)據(jù)集類(lèi)型1:記錄數(shù)據(jù):事務(wù)數(shù)據(jù)典型的記錄數(shù)據(jù):事務(wù)數(shù)據(jù)或購(gòu)物籃數(shù)據(jù)04二月2023數(shù)據(jù)挖掘?qū)д?4數(shù)據(jù)集類(lèi)型2:基于圖形的數(shù)據(jù)1帶有對(duì)象之間聯(lián)系的數(shù)據(jù)Examples:HTMLLinks04二月2023數(shù)據(jù)挖掘?qū)д?5數(shù)據(jù)集類(lèi)型2:基于圖形的數(shù)據(jù)2具有圖形對(duì)象的數(shù)據(jù)對(duì)象具有結(jié)構(gòu),即對(duì)象包含具有聯(lián)系的子對(duì)象例:苯分子的球—棍圖,包含碳原子(黑色)和氫原子(灰色)04二月2023數(shù)據(jù)挖掘?qū)д?6數(shù)據(jù)集類(lèi)型3:有序數(shù)據(jù):時(shí)序數(shù)據(jù)有序數(shù)據(jù)有多種,常常涉及時(shí)間或空間序時(shí)序數(shù)據(jù)(sequentialdata)也稱(chēng)時(shí)間數(shù)據(jù)(temporaldata)時(shí)間次序重要,但具體時(shí)間不重要例:事務(wù)序列04二月2023數(shù)據(jù)挖掘?qū)д?7數(shù)據(jù)集類(lèi)型3:有序數(shù)據(jù):序列數(shù)據(jù)序列數(shù)據(jù)(sequencedata)個(gè)體項(xiàng)的序列例:基因組序列數(shù)據(jù)DNA都由4種核苷酸A,T,G和C構(gòu)造沒(méi)有時(shí)間標(biāo)記,但與時(shí)序數(shù)據(jù)類(lèi)似重要的是在序列中的位置04二月2023數(shù)據(jù)挖掘?qū)д?8數(shù)據(jù)集類(lèi)型3:有序數(shù)據(jù):時(shí)間序列數(shù)據(jù)

時(shí)間序列數(shù)據(jù)(timeseriesdata)特殊的時(shí)序數(shù)據(jù),其中每個(gè)記錄都是一個(gè)時(shí)間序列(timeseries),即一段時(shí)間的測(cè)量序列時(shí)間自相關(guān)(temporalautocorrelation),即如果兩個(gè)測(cè)量的時(shí)間很接近,這些測(cè)量的值通常非常相似04二月2023數(shù)據(jù)挖掘?qū)д?9數(shù)據(jù)集類(lèi)型3:有序數(shù)據(jù):空間數(shù)據(jù)空間數(shù)據(jù)具有空間屬性,如位置或區(qū)域例:不同的地理位置收集的氣象數(shù)據(jù)(降水量、氣溫、氣壓)空間自相關(guān)性(spatialautocorrelation):物理上靠近的對(duì)象趨向于在其他方面也相似右圖每月是空間數(shù)據(jù),顯示多月是時(shí)間-空間數(shù)據(jù)(Spatial-TemporalData)2.2數(shù)據(jù)質(zhì)量2.2數(shù)據(jù)質(zhì)量

2.2.1測(cè)量和數(shù)據(jù)收集問(wèn)題 1.測(cè)量誤差和數(shù)據(jù)收集錯(cuò)誤 2.噪聲和偽像 3.精度、偏倚、準(zhǔn)確率 4.離群點(diǎn) 5.遺漏值 6.不一致的值 7.重復(fù)的值2.2.2數(shù)據(jù)質(zhì)量:應(yīng)用問(wèn)題04二月2023數(shù)據(jù)挖掘?qū)д?2測(cè)量誤差和數(shù)據(jù)收集錯(cuò)誤測(cè)量誤差和數(shù)據(jù)收集錯(cuò)誤測(cè)量誤差(measurementerror)測(cè)量過(guò)程導(dǎo)致的任何問(wèn)題,表現(xiàn)為記錄值與實(shí)際值不同數(shù)據(jù)收集錯(cuò)誤(datacollectionerror)遺漏數(shù)據(jù)對(duì)象或?qū)傩灾?,或不正確地包含數(shù)據(jù)對(duì)象等錯(cuò)誤測(cè)量誤差和數(shù)據(jù)收集錯(cuò)誤都可能是系統(tǒng)的或隨機(jī)的04二月2023數(shù)據(jù)挖掘?qū)д?3測(cè)量誤差和數(shù)據(jù)收集錯(cuò)誤數(shù)據(jù)中可能存在的問(wèn)題噪聲(測(cè)量誤差的隨機(jī)部分)離群點(diǎn)(可能同時(shí)涉及測(cè)量誤差和數(shù)據(jù)收集錯(cuò)誤)遺漏值(可能同時(shí)涉及測(cè)量誤差和數(shù)據(jù)收集錯(cuò)誤)不一致的值(可能同時(shí)涉及測(cè)量誤差和數(shù)據(jù)收集錯(cuò)誤)重復(fù)的值(可能同時(shí)涉及測(cè)量誤差和數(shù)據(jù)收集錯(cuò)誤)04二月2023數(shù)據(jù)挖掘?qū)д?4

噪聲和偽像噪聲是測(cè)量誤差的隨機(jī)部分可能扭曲值或附加的謬誤對(duì)象Examples:distortionofaperson’svoicewhentalkingonapoorphoneand“snow”ontelevisionscreenTwoSineWavesTwoSineWaves+Noise04二月2023數(shù)據(jù)挖掘?qū)д?5精度、偏倚、準(zhǔn)確率精度:precision偏倚:bias準(zhǔn)確率:accuracy04二月2023數(shù)據(jù)挖掘?qū)д?6

離群點(diǎn)離群點(diǎn)(Outliers)dataobjectswithcharacteristicsthatareconsiderablydifferentthanmostoftheotherdataobjectsinthedataset04二月2023數(shù)據(jù)挖掘?qū)д?7

遺漏值原因Informationisnotcollected

(e.g.,peopledeclinetogivetheirageandweight)Attributesmaynotbeapplicabletoallcases

(e.g.,annualincomeisnotapplicabletochildren)處理EliminateDataObjectsorAttribute刪除數(shù)據(jù)對(duì)象或?qū)傩訣stimateMissingValues估計(jì)遺漏值IgnoretheMissingValueDuringAnalysis分析時(shí)忽略遺漏值04二月2023數(shù)據(jù)挖掘?qū)д?8

不一致的值數(shù)據(jù)可能包含不一致的值例如,地址字段,其中列出了郵政編碼和城市,但是特定的郵政編碼區(qū)域并不包含在該城市糾正不一致需要附加或冗余信息時(shí)間序列數(shù)據(jù)中的不一致可能是使用不同的測(cè)量手段例:海洋表面溫度(SST)1958~1982年用船或浮標(biāo)收集SST1983年之后使用衛(wèi)星收集SST兩組數(shù)據(jù),每組內(nèi)的年相互之間趨向于正相關(guān),但與另一組的年負(fù)相關(guān)04二月2023數(shù)據(jù)挖掘?qū)д?9

重復(fù)數(shù)據(jù)Datasetmayincludedataobjectsthatareduplicates,oralmostduplicatesofoneanotherMajorissuewhenmergingdatafromheterogeneoussourcesExamples:同一個(gè)人具有多個(gè)email地址SamepersonwithmultipleemailaddressesDatacleaning重復(fù)數(shù)據(jù)需要進(jìn)行數(shù)據(jù)清洗Processofdealingwithduplicatedataissues04二月2023數(shù)據(jù)挖掘?qū)д?0數(shù)據(jù)質(zhì)量:應(yīng)用問(wèn)題時(shí)效性有些數(shù)據(jù)收集后就開(kāi)始老化例如,顧客的購(gòu)買(mǎi)行為或Web瀏覽模式的快照只代表有限時(shí)間內(nèi)的真實(shí)情況如果數(shù)據(jù)已經(jīng)過(guò)時(shí),則基于它的模型和模式也已經(jīng)過(guò)時(shí)。相關(guān)性可用的數(shù)據(jù)必須包含應(yīng)用所需要的信息例如,構(gòu)造一個(gè)模型,預(yù)測(cè)駕駛事故發(fā)生率如果忽略了關(guān)于駕駛員的年齡和性別信息,那么除非這些信息可以間接地通過(guò)其他屬性得到,否則模型的精度可能是有限的2.3數(shù)據(jù)預(yù)處理04二月2023數(shù)據(jù)挖掘?qū)д?2數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理方法聚集(Aggregation)抽樣(Sampling)維歸約(DimensionalityReduction)特征子集選擇(Featuresubsetselection)特征創(chuàng)建(Featurecreation)離散化與二元化(DiscretizationandBinarization)屬性變換(AttributeTransformation)04二月2023數(shù)據(jù)挖掘?qū)д?3聚集Aggregation(聚集):Combiningtwoormoreattributes(orobjects)intoasingleattribute(orobject)將兩個(gè)或多個(gè)對(duì)象合并成單個(gè)對(duì)象PurposeDatareduction(數(shù)據(jù)歸約)ReducethenumberofattributesorobjectsChangeofscale(標(biāo)度轉(zhuǎn)換)Citiesaggregatedintoregions,states,countries,etcMore“stable”data(更穩(wěn)定的數(shù)據(jù))Aggregateddatatendstohavelessvariability缺點(diǎn):丟失有趣的細(xì)節(jié)04二月2023數(shù)據(jù)挖掘?qū)д?4聚集:例子VariationofPrecipitationinAustralia(澳大利亞降水量)平均月降水量標(biāo)準(zhǔn)差直方圖平均年降水量標(biāo)準(zhǔn)差直方圖04二月2023數(shù)據(jù)挖掘?qū)д?5抽樣抽樣是一種選擇數(shù)據(jù)對(duì)象子集進(jìn)行分析的常用方法

統(tǒng)計(jì)學(xué)抽樣vs數(shù)據(jù)挖掘抽樣統(tǒng)計(jì)學(xué)抽樣的原因是因?yàn)榈玫礁信d趣的整個(gè)數(shù)據(jù)集的代價(jià)太高數(shù)據(jù)挖掘使用抽樣是因?yàn)樘幚硭袛?shù)據(jù)的代價(jià)太高有效抽樣的原則:代表性保留原數(shù)據(jù)集的性質(zhì)抽樣方法簡(jiǎn)單抽樣(SimpleRandomSampling)Thereisanequalprobabilityofselectinganyparticularitem簡(jiǎn)單無(wú)放回抽樣(Samplingwithoutreplacement)Aseachitemisselected,itisremovedfromthepopulation簡(jiǎn)單有放回抽樣(Samplingwithreplacement)Objectsarenotremovedfromthepopulationastheyareselectedforthesample.Insamplingwithreplacement,thesameobjectcanbepickedupmorethanonce分層抽樣(Stratifiedsampling)Splitthedataintoseveralpartitions;thendrawrandomsamplesfromeachpartition每組抽相同個(gè)數(shù)vs按比例自適應(yīng)(adaptive)或漸進(jìn)抽樣(progressivesampling)原因:有時(shí)難以預(yù)先確定樣本集大小方法:從一個(gè)小樣本開(kāi)始,然后增加樣本容量直至得到足夠容量的樣本04二月2023數(shù)據(jù)挖掘?qū)д?7樣本大小:例子從8000個(gè)點(diǎn)分別抽2000和500個(gè)點(diǎn)2000個(gè)點(diǎn)的樣本保留了數(shù)據(jù)集的大部分結(jié)構(gòu)500個(gè)點(diǎn)的樣本丟失了許多結(jié)構(gòu)8000points 2000Points 500Points04二月2023數(shù)據(jù)挖掘?qū)д?8維歸約數(shù)據(jù)集包含大量特征例:文檔數(shù)據(jù)集,數(shù)以萬(wàn)計(jì)的詞對(duì)應(yīng)數(shù)以萬(wàn)計(jì)的屬性維災(zāi)難(curseofdimensionality)隨著數(shù)據(jù)維度的增加,許多數(shù)據(jù)分析變得非常困難。特殊地,隨著維度增加,數(shù)據(jù)在它所占據(jù)的空間中越來(lái)越稀疏對(duì)于分類(lèi),這可能意味沒(méi)有足夠的數(shù)據(jù)對(duì)象來(lái)創(chuàng)建模型對(duì)于聚類(lèi),點(diǎn)之間的密度和距離的定義(對(duì)聚類(lèi)是至關(guān)重要的)變得不太有意義結(jié)果:對(duì)于高維數(shù)據(jù),許多分類(lèi)和聚類(lèi)算法(以及其他數(shù)據(jù)分析算法)都有麻煩——分類(lèi)準(zhǔn)確率降低,聚類(lèi)質(zhì)量下降技術(shù)PCA:PrincipleComponentAnalysis主成分分析SVD:SingularValueDecomposition奇異值分解04二月2023數(shù)據(jù)挖掘?qū)д?9維歸約:PCAGoalistofindaprojectionthatcapturesthelargestamountofvariationindataFindtheeigenvectorsofthecovariancematrixTheeigenvectorsdefinethenewspacex2x1e04二月2023數(shù)據(jù)挖掘?qū)д?0特征子集選擇特征子集選擇是降低維度的另一種方法。當(dāng)存在冗余特征(Redundantfeatures)、不相關(guān)特征(Irrelevantfeatures)時(shí),使用特征的一個(gè)子集,能在降低維度的同時(shí)避免丟失信息。特征子集選擇的技術(shù):Brute-forceapproach暴力窮舉:Embeddedapproaches嵌入方法:FeatureselectionoccursnaturallyaspartofthedataminingalgorithmFilterapproaches過(guò)濾方法:FeaturesareselectedbeforedataminingalgorithmisrunWrapperapproaches包裝方法:Usethedataminingalgorithmasablackboxtofindbestsubsetofattributes04二月2023數(shù)據(jù)挖掘?qū)д?1特征創(chuàng)建Createnewattributesthatcancapturetheimportantinformationinadatasetmuchmoreefficientlythantheoriginalattributes三種一般方法:特征提取FeatureExtractiondomain-specific高度針對(duì)具體領(lǐng)域(如:人臉檢測(cè)、指紋識(shí)別)映射數(shù)據(jù)到新的空間MappingDatatoNewSpace特征構(gòu)造FeatureConstructioncombiningfeatures從多個(gè)原特征構(gòu)造新的特征04二月2023數(shù)據(jù)挖掘?qū)д?2特征創(chuàng)建:映射數(shù)據(jù)到新空間傅里葉變換(Fouriertransform)小波變換(Wavelettransform)例:傅里葉變換左:兩個(gè)sin波;中:兩個(gè)sin波之和+噪聲;檢測(cè)不到模式右:傅里葉變換到頻譜;兩個(gè)尖峰對(duì)應(yīng)于兩個(gè)無(wú)噪聲的時(shí)間序列TwoSineWavesTwoSineWaves+NoiseFrequency04二月2023數(shù)據(jù)挖掘?qū)д?3特征創(chuàng)建:特征構(gòu)造原始數(shù)據(jù)集的特征具有必要的信息,但其形式不適合數(shù)據(jù)挖掘算法由原特征構(gòu)造的新特征可能比原特征更有用例:文物數(shù)據(jù)庫(kù)每件文物的特征包括:體積和質(zhì)量,以及其他信息文物材質(zhì)(類(lèi)):木材、陶土、青銅、黃金原特征不適合分類(lèi)構(gòu)造新特征:密度=質(zhì)量/體積常依據(jù)專(zhuān)家意見(jiàn)04二月2023數(shù)據(jù)挖掘?qū)д?4離散化和二元化為什么要離散化/二元化減少屬性值個(gè)數(shù),便于挖掘,結(jié)果知識(shí)表達(dá)更簡(jiǎn)潔、更易于理解、更易使用離散化產(chǎn)生概念分層結(jié)構(gòu),可以在不同抽象層進(jìn)行挖掘有些算法需要離散屬性有些算法需要二元屬性1、離散屬性二元化2、連續(xù)屬性離散化3、具有過(guò)多值的離散屬性非監(jiān)督vs監(jiān)督離散化差別:是否使用類(lèi)信息04二月2023數(shù)據(jù)挖掘?qū)д?5變量變換變量/屬性變換(variable/attributetransformation)Afunctionthatmapstheentiresetofvaluesofagivenattributetoanewsetofreplacementvaluessuchthateacholdvaluecanbeidentifiedwithoneofthenewvalues簡(jiǎn)單變換Simplefunctions:xk,log(x),ex,|x|,1/x注意:可能改變數(shù)據(jù)的特性例:變換1/x壓縮了大于1的值,但是放大了0和1之間的值04二月2023數(shù)據(jù)挖掘?qū)д?6變量變換:標(biāo)準(zhǔn)化/規(guī)范化標(biāo)準(zhǔn)化(standardization)規(guī)范化(normalization)在數(shù)據(jù)挖掘中不區(qū)分在統(tǒng)計(jì)學(xué)有不同涵義目標(biāo):使整個(gè)值的集合具有特定的性質(zhì)例:設(shè)是屬性值的均值,sx是它們的標(biāo)準(zhǔn)差,變換

創(chuàng)建一個(gè)新的變量,它具有均值0和標(biāo)準(zhǔn)差1

可以用中位數(shù)取代均值可以絕對(duì)標(biāo)準(zhǔn)差(absolutestandarddeviation)取代標(biāo)準(zhǔn)差2.4相似性和相異性的度量2.4相似性和相異性的度量2.4.1基礎(chǔ) 1.相似性和相異性的定義 2.相似性和相異性的變換2.4.2簡(jiǎn)單屬性間的相似/相異度2.4.3數(shù)據(jù)對(duì)象間的相異度2.4.4數(shù)據(jù)對(duì)象間的相似度2.4.5鄰近性度量的例子04二月2023數(shù)據(jù)挖掘?qū)д?9相似性和相異性相似性(Similarity)Numericalmeasureofhowaliketwodataobjectsare.Ishigherwhenobjectsaremorealike.Oftenfallsintherange[0,1]相異性(Dissimilarity)NumericalmeasureofhowdifferentaretwodataobjectsLowerwhenobjectsaremorealikeMinimumdissimilarityisoften0Upperlimitvaries鄰近性(Proximity)referstoasimilarityordissimilarity04二月2023數(shù)據(jù)挖掘?qū)д?0pandqaretheattributevaluesfortwodataobjects簡(jiǎn)單屬性的相似/相異度04二月2023數(shù)據(jù)挖掘?qū)д?1數(shù)據(jù)對(duì)象的相異度:歐幾里得距離歐氏距離n是維數(shù),而xk和yk分別是x和y的第k個(gè)屬性(分量)04二月2023數(shù)據(jù)挖掘?qū)д?2閔可夫斯基距離Minkowski距離是歐氏距離的推廣Whererisaparameterr=1.城市街區(qū)距離(又稱(chēng)為曼哈頓距離)Cityblock(Manhattan,taxicab,L1norm)distance.AcommonexampleofthisistheHammingdistance,whichisjustthenumberofbitsthataredifferentbetweentwobinaryvectorsr=2.歐幾里得距離Euclideandistancer

.上確界距離“supremum”(Lmaxnorm,L

norm)distance.Thisisthemaximumdifferencebetweenanycomponentofthevectors04二月2023數(shù)據(jù)挖掘?qū)д?3距離的性質(zhì)Distances,suchastheEuclideandistance,havesomewellknownproperties.非負(fù)性。Non-negativity:d(x,y)0forallxandy,andd(x,y)=

0onlyifx=y.對(duì)稱(chēng)性。Symmetry:d(x,y)=d(y,x)forallxandy.三角不等式。TriangleInequality:d(x,z)

d(x,y)+d(y,z)forallpointsx,y,andz.whered(x,y)isthedistance(dissimilarity)betweenpoints(dataobjects),xandy.Adistancethatsatisfiesthesepropertiesisametric04二月2023數(shù)據(jù)挖掘?qū)д?4非度量的相異度有些相異度都不滿(mǎn)足一個(gè)或多個(gè)度量性質(zhì)例1.集合差每個(gè)對(duì)象是一個(gè)集合相異度用集合差的元素個(gè)數(shù)定義d(A,B)=size(AB)一般地,可能ABBA,size(AB)size(BA)定義d(A,B)=size(AB)+size(BA)例2.時(shí)間詳見(jiàn)P432.4相似性和相異性的度量2.4.1基礎(chǔ) 1.相似性和相異性的定義 2.相似性和相異性的變換2.4.2簡(jiǎn)單屬性間的相似/相異度2.4.3數(shù)據(jù)對(duì)象間的相異度2.4.4數(shù)據(jù)對(duì)象間的相似度2.4.5鄰近性度量的例子04二月2023數(shù)據(jù)挖掘?qū)д?6數(shù)據(jù)對(duì)象之間的相似度設(shè)s(x,y)是數(shù)據(jù)點(diǎn)x和y之間的相似度(通常,0s(x,y)1)s(x,y)=1,iffx=y(0s(x,y)1)s(x,y)=s(y,x)三角不等式(或類(lèi)似的性質(zhì))通常不成立2.4相似性和相異性的度量2.4.1基礎(chǔ) 1.相似性和相異性的定義 2.相似性和相異性的變換2.4.2簡(jiǎn)單屬性間的相似/相異度2.4.3數(shù)據(jù)對(duì)象間的相異度2.4.4數(shù)據(jù)對(duì)象間的相似度2.4.5鄰近性度量的例子04二月2023數(shù)據(jù)挖掘?qū)д?8簡(jiǎn)單匹配系數(shù)/Jaccard系數(shù)設(shè)x和y是兩個(gè)對(duì)象,都由n個(gè)二元屬性組成f00=x取0并且y取0的屬性個(gè)數(shù)f01=x取0并且y取1的屬性個(gè)數(shù)f10=x取1并且y取0的屬性個(gè)數(shù)f11=x取1并且y取1的屬性個(gè)數(shù)簡(jiǎn)單匹配系數(shù)(SimpleMatchingCoefficient,SMC)Jaccard系數(shù)(JaccardCoefficient)04二月2023數(shù)據(jù)挖掘?qū)д?9簡(jiǎn)單匹配系數(shù)/Jaccard系數(shù):例例:兩個(gè)對(duì)象x和yx=(1,0,0,0,0,0,0,0,0,0)y=(0,0,0,0,0,0,1,0,0,1)f01=2x取0并且y取1的屬性個(gè)數(shù)f10=1x取1并且y取0的屬性個(gè)數(shù)f00=7x取0并且y取0的屬性個(gè)數(shù)f11=0x取1并且y取1的屬性個(gè)數(shù)04二月2023數(shù)據(jù)挖掘?qū)д?0余弦相似度設(shè)x和y是兩個(gè)向量,則“”表示向量點(diǎn)積||x||是向量x的長(zhǎng)度幾何解釋其中,x’=x/||x||,y’=y/||y||是長(zhǎng)度為1的向量04二月2023數(shù)據(jù)挖掘?qū)д?1余弦相似度:例例:兩個(gè)數(shù)據(jù)向量對(duì)象x=(3,2,0,5,0,0,0,2,0,0)y=(1,0,0,0,0,0,0,1,0,2) xy=31+20+00+50+00+00+00+21+00+02=5cos(x,y)=5/(5.482.45)=0.3104二月2023數(shù)據(jù)挖掘?qū)д?2廣義Jaccard系數(shù)廣義Jaccard系數(shù)Tanimoto系數(shù)設(shè)x和y是兩個(gè)向量,則04二月2023數(shù)據(jù)挖掘?qū)д?3相關(guān)性對(duì)象之間的相關(guān)性是對(duì)象屬性之間線性聯(lián)系的度量設(shè)x和y是兩個(gè)向量標(biāo)準(zhǔn)差協(xié)方差皮爾森相關(guān)(Pearson’scorrelation)系數(shù)1corr(x,y)1.corr(x,y)=0,不相關(guān).corr(x,y)=1(1),正(負(fù))相關(guān)04二月2023數(shù)據(jù)挖掘?qū)д?4相關(guān)性:可視化Scatterplotsshowingthesimilarityfrom–1to1.04二月2023數(shù)據(jù)挖掘?qū)д?5鄰近度計(jì)算問(wèn)題1距離度量的標(biāo)準(zhǔn)化和相關(guān)性屬性具有不同的值域問(wèn)題:距離可能被具有較大值域的屬性左右處理:變換到相同值域某些屬性之間相關(guān):使用Mahalanobis距離(馬氏距離)

mahalanobis(x,y)=(xy)1(xy)T

其中,1是數(shù)據(jù)協(xié)方差矩陣的逆協(xié)方差矩陣是這樣的矩陣,它的第ij個(gè)元素是第i個(gè)和第j個(gè)屬性的協(xié)方差馬氏距離它是一種有效的計(jì)算兩個(gè)未知樣本集的相似度的方法。與歐氏距離不同的是它考慮到各種特性之間的聯(lián)系,即獨(dú)立于測(cè)量尺度。04二月2023數(shù)據(jù)挖掘?qū)д?6鄰近度計(jì)算問(wèn)題1:例例:1000個(gè)點(diǎn),其x屬性和y屬性的相關(guān)度為0.6.在橢圓長(zhǎng)軸兩端的兩個(gè)大點(diǎn)之間的歐幾里得距離為14.7,但Mahalanobis距離僅為604二月2023數(shù)據(jù)挖掘?qū)д?7鄰近度計(jì)算問(wèn)題2組合異種屬性的相似度Sometimesattributesareofmanydifferenttypes,butanoverallsimilarityisneeded算法2.1異種對(duì)象的相似度1:對(duì)于第k個(gè)屬性,計(jì)算相似度sk(x,y),在區(qū)間[0,1]中。2:對(duì)于第k個(gè)屬性,定義一個(gè)指示變量k,如下:k=0,如果第k個(gè)屬性是非對(duì)稱(chēng)屬性,并且兩個(gè)對(duì)象在該屬性上的值都是0,或者如果一個(gè)對(duì)象的第k個(gè)屬性具有遺漏值k

=1,否則3:使用如下公式計(jì)算兩個(gè)對(duì)象之間的總相似度:附錄04二月2023數(shù)據(jù)挖掘?qū)д?9離散化和二元化為什么要離散化/二元化減少屬性值個(gè)數(shù),便于挖掘,結(jié)果知識(shí)表達(dá)更簡(jiǎn)潔、更易于理解、更易使用離散化產(chǎn)生概念分層結(jié)構(gòu),可以在不同抽象層進(jìn)行挖掘有些算法需要離散屬性有些算法需要二元屬性非監(jiān)督vs監(jiān)督離散化差別:是否使用類(lèi)信息04二月2023數(shù)據(jù)挖掘?qū)д?0離散屬性二元化1方法1如果

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論