版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Chapter10:
復(fù)雜數(shù)據(jù)類型的挖掘廣東商學(xué)院信息學(xué)院胡建軍數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘1Chapter10:
復(fù)雜數(shù)據(jù)類型的挖掘廣東商學(xué)院信息學(xué)院1CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖掘空間數(shù)據(jù)庫(kù)挖掘多媒體數(shù)據(jù)庫(kù)挖掘時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫(kù)挖掘Web挖掘2CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖2CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖掘空間數(shù)據(jù)庫(kù)挖掘多媒體數(shù)據(jù)庫(kù)挖掘時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫(kù)挖掘Web挖掘3CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖3數(shù)據(jù)挖掘的對(duì)象簡(jiǎn)單數(shù)據(jù)關(guān)系數(shù)據(jù)庫(kù)、事務(wù)數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)復(fù)雜類型數(shù)據(jù)復(fù)雜對(duì)象、空間數(shù)據(jù)、多媒體數(shù)據(jù)、時(shí)間序列數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)等
挖掘技術(shù):基本挖掘技術(shù)的擴(kuò)展 針對(duì)復(fù)雜數(shù)據(jù)類型的新技術(shù) 實(shí)施知識(shí)挖掘的方法4數(shù)據(jù)挖掘的對(duì)象簡(jiǎn)單數(shù)據(jù)44復(fù)雜數(shù)據(jù)對(duì)象的多維分析 和描述性挖掘商品化數(shù)據(jù)倉(cāng)庫(kù)和OLAP工具用于多維分析的局限: 維———非數(shù)字?jǐn)?shù)據(jù) 度量———聚集值復(fù)雜數(shù)據(jù)對(duì)象的概化及其概化數(shù)據(jù)的應(yīng)用復(fù)雜數(shù)據(jù)的組織及存儲(chǔ)方法類、類/子類對(duì)象:對(duì)象標(biāo)識(shí)、屬性、方法5復(fù)雜數(shù)據(jù)對(duì)象的多維分析 和描述性挖掘商品化數(shù)據(jù)倉(cāng)庫(kù)和OLA5復(fù)雜結(jié)構(gòu)數(shù)據(jù)的概化復(fù)雜結(jié)構(gòu)數(shù)據(jù):集合、元組、列表、樹、記錄等及其組合;概化方法:保持原結(jié)構(gòu)不變,概化其屬性把原結(jié)構(gòu)扁平化,概化扁平化的結(jié)構(gòu)用高層概念或聚集匯總低沉結(jié)構(gòu)返回原結(jié)構(gòu)的類型或概貌6復(fù)雜結(jié)構(gòu)數(shù)據(jù)的概化復(fù)雜結(jié)構(gòu)數(shù)據(jù):66集合值集合值一般概化方法:將集合中的每個(gè)值概化為其對(duì)應(yīng)的更高級(jí)別的概念導(dǎo)出集合的一般特征(元素個(gè)數(shù)、區(qū)間、平均值、最大值等)示例:業(yè)余愛好{網(wǎng)球,曲棍球,國(guó)際象棋,小提琴,任天堂游戲
}概化:{體育,音樂(lè),電子游戲}{體育(3),音樂(lè)(1),電子游戲(1)}7集合值集合值77列表值/序列值列表值/序列值類似于集合值屬性的概化,要求保持元素的次序。一般概化方法:將列表中的每個(gè)值概化為對(duì)應(yīng)的高層概念導(dǎo)出列表的一般特征(長(zhǎng)度、元素類型、平均值、最大值等)8列表值/序列值列表值/序列值88空間和多媒體數(shù)據(jù)的概化聚集和近似計(jì)算空間數(shù)據(jù) 例:土地規(guī)劃多媒體數(shù)據(jù)圖像:尺寸、顏色、形狀、紋理、方位等音樂(lè):音調(diào)、節(jié)拍、樂(lè)器等文本:摘要、關(guān)鍵詞等9空間和多媒體數(shù)據(jù)的概化聚集和近似計(jì)算99對(duì)象的概化對(duì)象標(biāo)識(shí)符 沿類/子類層次結(jié)構(gòu)概化繼承特性 數(shù)據(jù)概化對(duì)直接數(shù)據(jù)與繼承數(shù)據(jù)同等對(duì)待方法方法本身不能概化,但是可以對(duì)方法導(dǎo)出的數(shù)據(jù)進(jìn)行概化10對(duì)象的概化對(duì)象標(biāo)識(shí)符1010CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖掘空間數(shù)據(jù)庫(kù)挖掘多媒體數(shù)據(jù)庫(kù)挖掘時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫(kù)挖掘Web挖掘11CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖11空間數(shù)據(jù)庫(kù)挖掘空間數(shù)據(jù)庫(kù)及其一般特點(diǎn)存儲(chǔ)了大量與空間有關(guān)的數(shù)據(jù)包含拓?fù)?距離信息復(fù)雜的、多維的索引結(jié)構(gòu)訪問(wèn)通過(guò)空間數(shù)據(jù)的方法,通常需要空間推理、地理計(jì)算、空間知識(shí)表示技術(shù)空間數(shù)據(jù)挖掘:要綜合數(shù)據(jù)挖掘與空間數(shù)據(jù)庫(kù)技術(shù)12空間數(shù)據(jù)庫(kù)挖掘空間數(shù)據(jù)庫(kù)及其一般特點(diǎn)1212空間數(shù)據(jù)庫(kù)挖掘傳統(tǒng)空間數(shù)據(jù)分析(統(tǒng)計(jì)方法)的不足統(tǒng)計(jì)方法通常假設(shè)空間分布的數(shù)據(jù)間是統(tǒng)計(jì)上獨(dú)立的,但現(xiàn)實(shí)是空間對(duì)象間是相互關(guān)聯(lián)的;大部分統(tǒng)計(jì)模型只有具有相當(dāng)豐富領(lǐng)域知識(shí)和統(tǒng)計(jì)方面經(jīng)驗(yàn)的統(tǒng)計(jì)專家才用得起來(lái);統(tǒng)計(jì)方法不適用符號(hào)值,或不完整或非確定的數(shù)據(jù),對(duì)大規(guī)模數(shù)據(jù)庫(kù)其計(jì)算代價(jià)也十分昂貴。空間數(shù)據(jù)挖掘?qū)?duì)傳統(tǒng)的空間分析方法加以擴(kuò)展,重點(diǎn)解決其高效性,可伸縮性,與數(shù)據(jù)庫(kù)系統(tǒng)的緊密結(jié)合,改進(jìn)與用戶的交互,以及新的知識(shí)的發(fā)現(xiàn)。
13空間數(shù)據(jù)庫(kù)挖掘傳統(tǒng)空間數(shù)據(jù)分析(統(tǒng)計(jì)方法)的不足1313空間關(guān)聯(lián)分析
空間關(guān)聯(lián)規(guī)則形如:AB[s%,c%]其中A和B空間和非空間謂詞的集合,s%表示規(guī)則的支持度,c%表示規(guī)則的的可信度。例:Is_a(X,”school”)∧close_to(X,“sports_center”)?close_to(X,“park”)[0.5%,80%]此規(guī)則表明80%靠近體育中心的學(xué)校同時(shí)也靠近公園,并且有0。5%的數(shù)據(jù)符合這一規(guī)則。
14空間關(guān)聯(lián)分析空間關(guān)聯(lián)規(guī)則形如:AB14空間聚類方法
空間數(shù)據(jù)聚類是要在一個(gè)較大的多維數(shù)據(jù)集中根據(jù)距離的計(jì)算找出簇,或稠密區(qū)域。
15空間聚類方法空間數(shù)據(jù)聚類是要在一個(gè)較大的多維15空間分類和空間趨勢(shì)分析空間分類指分析空間對(duì)象導(dǎo)出與一定空間特征有關(guān)的分類模式,如郊區(qū),高速公路,河流的鄰接。空間趨勢(shì)分析處理的是另一類問(wèn)題:根據(jù)某空間維找出變化趨勢(shì)。
例如,當(dāng)離城市中心越來(lái)越遠(yuǎn)時(shí),我們要分析經(jīng)濟(jì)形勢(shì)的變化趨勢(shì),或離海洋越來(lái)越遠(yuǎn)時(shí),氣候與植物的變化趨勢(shì)。
16空間分類和空間趨勢(shì)分析空間分類指分析空間對(duì)象導(dǎo)出與一定空間特16CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖掘空間數(shù)據(jù)庫(kù)挖掘多媒體數(shù)據(jù)庫(kù)挖掘時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫(kù)挖掘Web挖掘17CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖17多媒體數(shù)據(jù)庫(kù)挖掘多媒體數(shù)據(jù)庫(kù)是指存儲(chǔ)和管理大量多媒體對(duì)象的數(shù)據(jù)庫(kù),如音頻數(shù)據(jù),圖象數(shù)據(jù),視頻數(shù)據(jù),序列數(shù)據(jù),以及超文本數(shù)據(jù),包含文本,文本標(biāo)記(textmarkup),和鏈接(linkage)。多媒體數(shù)據(jù)的相似搜索
主要考慮兩種多媒體標(biāo)引和檢索系統(tǒng):(1)基于描述的檢索系統(tǒng),主要是在圖象描述之上建立標(biāo)引和執(zhí)行對(duì)象檢索,如關(guān)鍵字,標(biāo)題,尺寸,創(chuàng)建時(shí)間等;(2)基于內(nèi)容的檢索系統(tǒng),它支持基于圖象內(nèi)容的檢索,如顏色構(gòu)成,質(zhì)地,形狀,對(duì)象,和小波變換等。多媒體數(shù)據(jù)的分類和預(yù)測(cè)分析
多媒體數(shù)據(jù)中的關(guān)聯(lián)規(guī)則挖掘
18多媒體數(shù)據(jù)庫(kù)挖掘多媒體數(shù)據(jù)庫(kù)是指存儲(chǔ)和管理大量多媒體對(duì)象的數(shù)18CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖掘空間數(shù)據(jù)庫(kù)挖掘多媒體數(shù)據(jù)庫(kù)挖掘時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫(kù)挖掘Web挖掘19CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖19時(shí)序數(shù)據(jù)庫(kù)和序列數(shù)據(jù)庫(kù)時(shí)序數(shù)據(jù)庫(kù):由隨時(shí)間變化的序列或事件組成的數(shù)據(jù)庫(kù)等時(shí)間間隔測(cè)得的數(shù)據(jù)(regularintervals)時(shí)序數(shù)據(jù)庫(kù)是一種序列數(shù)據(jù)庫(kù)序列數(shù)據(jù)庫(kù):由有序事件序列組成的數(shù)據(jù)庫(kù)可有時(shí)間標(biāo)記,也可以沒(méi)有時(shí)間標(biāo)記可以是時(shí)序數(shù)據(jù)庫(kù),也可以不是。如WEB遍歷。20時(shí)序數(shù)據(jù)庫(kù)和序列數(shù)據(jù)庫(kù)時(shí)序數(shù)據(jù)庫(kù):由隨時(shí)間變化的序列或事件組20時(shí)序數(shù)據(jù)例子Time-seriesplot21時(shí)序數(shù)據(jù)例子Time-seriesplot2121時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘(一)趨勢(shì)分析
通過(guò)對(duì)趨勢(shì),循環(huán),季節(jié)和非規(guī)則成分的運(yùn)動(dòng)的系統(tǒng)分析,使人們可以在較合理的情況下,制定出長(zhǎng)期或短期的預(yù)測(cè)(即預(yù)報(bào)時(shí)序)
相似搜索
找出與給定查詢序列最接近的數(shù)據(jù)序列。子序列匹配(subsequencematching)是找出與給定序列相似的所有數(shù)據(jù)序列,整體序列匹配(wholesequencematching)是找出彼此間相似的序列。
例 如:對(duì)金融市場(chǎng)的分析(如股票數(shù)據(jù)分析),醫(yī)療診斷(如心電圖分析),和科學(xué)與工程數(shù)據(jù)庫(kù)(如能量消耗分析)等
22時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘(一)趨勢(shì)分析2222時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘(一)序列模式挖掘(sequencepatternmining)是指挖掘相對(duì)時(shí)間或其它模式出現(xiàn)頻率高的模式。
周期分析(periodicityanalysis)
對(duì)周期模式的挖掘,即在時(shí)序數(shù)據(jù)庫(kù)中找出重復(fù)出現(xiàn)的模式。
例如:
季節(jié),潮汐,行星軌道,每日能源消耗,每日交通模式
23時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘(一)序列模式挖掘(sequence23CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖掘空間數(shù)據(jù)庫(kù)挖掘多媒體數(shù)據(jù)庫(kù)挖掘時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫(kù)挖掘Web挖掘24CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖24文本數(shù)據(jù)庫(kù)和信息檢索(IR)文本數(shù)據(jù)庫(kù)半結(jié)構(gòu)化數(shù)據(jù):它既不是完全無(wú)結(jié)構(gòu)的也不是完全結(jié)構(gòu)的。例如,一個(gè)文檔可能包含結(jié)構(gòu)字段,如標(biāo)題,作者,出版日期,長(zhǎng)度,分類,等等,也可能包含大量的非結(jié)果化的文本成分,如摘要和內(nèi)容。典型的信息檢索問(wèn)題是基于用戶的輸入(如關(guān)鍵字或樣例文檔)定位相關(guān)的文檔。典型的信息檢索系統(tǒng)聯(lián)機(jī)圖書館目錄聯(lián)機(jī)文檔管理系統(tǒng)信息檢索與數(shù)據(jù)庫(kù)系統(tǒng)DB:并發(fā)控制、恢復(fù)、事務(wù)管理、更新IR:非結(jié)構(gòu)化文檔、基于關(guān)鍵字的近似搜索25文本數(shù)據(jù)庫(kù)和信息檢索(IR)文本數(shù)據(jù)庫(kù)2525文本檢索的基本度量查準(zhǔn)率:反映正確性查全率:反映全面性RelevantRelevant&RetrievedRetrievedAllDocuments應(yīng)該被檢索到的26文本檢索的基本度量查準(zhǔn)率:反映正確性RelevantRele26文本檢索的基本度量查準(zhǔn)率:反映正確性查全率:反映全面性RelevantRelevant&RetrievedRetrievedAllDocuments實(shí)際被檢索到的27文本檢索的基本度量查準(zhǔn)率:反映正確性RelevantRele27文本檢索的基本度量查準(zhǔn)率:反映正確性查全率:反映全面性RelevantRelevant&RetrievedRetrievedAllDocuments28文本檢索的基本度量查準(zhǔn)率:反映正確性RelevantRele28基于關(guān)鍵字的檢索在關(guān)鍵字檢索中,文檔被看作字符串,可用一組關(guān)鍵字識(shí)別查詢由關(guān)鍵字表達(dá)式構(gòu)成例子,汽車and
修理店查詢應(yīng)考慮同義詞問(wèn)題,如:修理和維修困難同義詞問(wèn)題(Synonymy):文檔與Key相關(guān),但Key在文檔中不出現(xiàn)多義詞問(wèn)題(Polysemy):同一Key在不同的上下文有不同的含義,如Mine。29基于關(guān)鍵字的檢索在關(guān)鍵字檢索中,文檔被看作字符串,可用一組關(guān)29基于相似性的檢索(1)相似檢索是指基于一組共同的關(guān)鍵字找出相似的文檔檢索結(jié)果基于相關(guān)度,即:與關(guān)鍵詞的近似性,關(guān)鍵詞的出現(xiàn)頻率等。非用詞表(Stoplist)無(wú)關(guān)的高頻詞,如:a,the,of,for,etc.文檔不同時(shí),非用詞表也不同30基于相似性的檢索(1)相似檢索是指基于一組共同的關(guān)鍵字找出相30基于相似性的檢索(2)
由于相似文檔具有相似的相對(duì)詞頻,因此我們可以基于頻率表中的相對(duì)詞頻,計(jì)算一組文檔的相似性。
詞頻矩陣相似度:基于一組關(guān)鍵詞的文檔相似性相關(guān)詞的出現(xiàn)次數(shù)余弦距離:缺點(diǎn):當(dāng)詞數(shù)T和文檔數(shù)目D很大時(shí),高的維數(shù)導(dǎo)致低的計(jì)算效率,且出現(xiàn)大的稀疏向量。用奇異值分解(SVD)技術(shù)減小詞頻矩陣大小保留詞頻矩陣中最有意義的K行和K列,K值為幾百。詞/文檔d1d2d3d4d5d6d7t13218431687215430t2354917156826392t32232167462892251731基于相似性的檢索(2)由于相似文檔具有相似的相對(duì)詞頻,因此31文本數(shù)據(jù)挖掘的類型1.基于關(guān)鍵字的關(guān)聯(lián)分析2.文檔分類分析32文本數(shù)據(jù)挖掘的類型1.基于關(guān)鍵字的關(guān)聯(lián)分析3232基于關(guān)鍵字的關(guān)聯(lián)分析動(dòng)機(jī)收集經(jīng)常一起出現(xiàn)的關(guān)鍵字或詞匯,然后找出其關(guān)聯(lián)或相互關(guān)系關(guān)聯(lián)分析過(guò)程文檔預(yù)處理:文本數(shù)據(jù)分解,詞根處理,過(guò)濾非用詞等調(diào)用關(guān)聯(lián)挖掘算法將每一文檔看作一個(gè)事務(wù)將文檔中的關(guān)鍵詞組看作事務(wù)中的一組事務(wù)項(xiàng)33基于關(guān)鍵字的關(guān)聯(lián)分析動(dòng)機(jī)3333文檔分類動(dòng)機(jī)自動(dòng)對(duì)大量聯(lián)機(jī)文檔(web頁(yè)面,e-mail等)進(jìn)行分類組織,以便于對(duì)文檔進(jìn)行檢索和分析。分類過(guò)程數(shù)據(jù)預(yù)處理:提出關(guān)鍵字和詞匯定義訓(xùn)練集和測(cè)試集調(diào)用分類算法創(chuàng)建分類模式測(cè)試分類模式應(yīng)用導(dǎo)出的分類模式對(duì)其他新的、未知的聯(lián)機(jī)文檔分類文檔分類與關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)分類之間的區(qū)別文檔數(shù)據(jù)庫(kù)是非結(jié)構(gòu)化的,沒(méi)有“屬性-值”對(duì)34文檔分類動(dòng)機(jī)3434CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖掘空間數(shù)據(jù)庫(kù)挖掘多媒體數(shù)據(jù)庫(kù)挖掘時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫(kù)挖掘Web挖掘35CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖35Web挖掘挑戰(zhàn)對(duì)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘而言,Web太龐大了Web頁(yè)面數(shù)據(jù)太復(fù)雜:沒(méi)有結(jié)構(gòu),不標(biāo)準(zhǔn)不斷增長(zhǎng),不斷變化廣泛的用戶群體僅有很小部分的Web數(shù)據(jù)是有用的或相關(guān)的99%的Web信息對(duì)99%的Web用戶是無(wú)用的36Web挖掘挑戰(zhàn)3636Web搜索引擎基于索引:搜索Web頁(yè)面,對(duì)Web頁(yè)面作索引,建立和存儲(chǔ)大量的基于關(guān)鍵字的索引,定位包含關(guān)鍵字的Web頁(yè)面不足之處:對(duì)任一范圍的話題,返回的文檔數(shù)太龐大很多與話題相關(guān)的文檔并不包含相應(yīng)的關(guān)鍵字(多義問(wèn)題)37Web搜索引擎基于索引:3737如何高效地發(fā)現(xiàn)和利用因特網(wǎng)上的資源?Web挖掘38如何高效地發(fā)現(xiàn)和3838Web挖掘
Web挖掘可分為三類:Web內(nèi)容挖掘(Webcontentmining),Web結(jié)構(gòu)挖掘(Webstructuremining),Web使用記錄的挖掘(Webusagemining)。39Web挖掘Web挖掘可分為三類:3939挖掘Web鏈接結(jié)構(gòu)權(quán)威Web頁(yè)面:不僅相關(guān),而且高質(zhì)量,或針對(duì)該話題具有權(quán)威性超鏈能夠推斷權(quán)威頁(yè)面Web頁(yè)面包含指向其他頁(yè)面的超鏈超鏈包含了大量人類潛在的注釋超鏈可以看作是作者對(duì)鏈接頁(yè)面的認(rèn)可Web超鏈結(jié)構(gòu)存在的問(wèn)題并不是每一個(gè)超鏈都代表對(duì)尋找內(nèi)容的認(rèn)可導(dǎo)航、廣告因競(jìng)爭(zhēng)、商業(yè)等原因而不鏈接權(quán)威廣告權(quán)威頁(yè)面很少具有特別的描述40挖掘Web鏈接結(jié)構(gòu)權(quán)威Web頁(yè)面:不僅相關(guān),而且高質(zhì)量,或針40Web使用記錄的挖掘Web日志記錄提供了有關(guān)Web動(dòng)態(tài)的豐富信息典型的Web日志記錄條目包含了所請(qǐng)求的URL,發(fā)出請(qǐng)求的IP地址,時(shí)間戳等在Weblog記錄上可以進(jìn)行數(shù)據(jù)挖掘,用于找出關(guān)聯(lián)模式,序列模式,和Web訪問(wèn)趨勢(shì)等。
41Web使用記錄的挖掘Web日志記錄提供了有關(guān)Web動(dòng)態(tài)的豐41EndQuestions?Let’sdiscussit!Thankyou!!!ProfessorJiaweiHan42EndQuestions?Thankyou!!!Prof42Chapter10:
復(fù)雜數(shù)據(jù)類型的挖掘廣東商學(xué)院信息學(xué)院胡建軍數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘43Chapter10:
復(fù)雜數(shù)據(jù)類型的挖掘廣東商學(xué)院信息學(xué)院43CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖掘空間數(shù)據(jù)庫(kù)挖掘多媒體數(shù)據(jù)庫(kù)挖掘時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫(kù)挖掘Web挖掘44CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖44CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖掘空間數(shù)據(jù)庫(kù)挖掘多媒體數(shù)據(jù)庫(kù)挖掘時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫(kù)挖掘Web挖掘45CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖45數(shù)據(jù)挖掘的對(duì)象簡(jiǎn)單數(shù)據(jù)關(guān)系數(shù)據(jù)庫(kù)、事務(wù)數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)復(fù)雜類型數(shù)據(jù)復(fù)雜對(duì)象、空間數(shù)據(jù)、多媒體數(shù)據(jù)、時(shí)間序列數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)等
挖掘技術(shù):基本挖掘技術(shù)的擴(kuò)展 針對(duì)復(fù)雜數(shù)據(jù)類型的新技術(shù) 實(shí)施知識(shí)挖掘的方法46數(shù)據(jù)挖掘的對(duì)象簡(jiǎn)單數(shù)據(jù)446復(fù)雜數(shù)據(jù)對(duì)象的多維分析 和描述性挖掘商品化數(shù)據(jù)倉(cāng)庫(kù)和OLAP工具用于多維分析的局限: 維———非數(shù)字?jǐn)?shù)據(jù) 度量———聚集值復(fù)雜數(shù)據(jù)對(duì)象的概化及其概化數(shù)據(jù)的應(yīng)用復(fù)雜數(shù)據(jù)的組織及存儲(chǔ)方法類、類/子類對(duì)象:對(duì)象標(biāo)識(shí)、屬性、方法47復(fù)雜數(shù)據(jù)對(duì)象的多維分析 和描述性挖掘商品化數(shù)據(jù)倉(cāng)庫(kù)和OLA47復(fù)雜結(jié)構(gòu)數(shù)據(jù)的概化復(fù)雜結(jié)構(gòu)數(shù)據(jù):集合、元組、列表、樹、記錄等及其組合;概化方法:保持原結(jié)構(gòu)不變,概化其屬性把原結(jié)構(gòu)扁平化,概化扁平化的結(jié)構(gòu)用高層概念或聚集匯總低沉結(jié)構(gòu)返回原結(jié)構(gòu)的類型或概貌48復(fù)雜結(jié)構(gòu)數(shù)據(jù)的概化復(fù)雜結(jié)構(gòu)數(shù)據(jù):648集合值集合值一般概化方法:將集合中的每個(gè)值概化為其對(duì)應(yīng)的更高級(jí)別的概念導(dǎo)出集合的一般特征(元素個(gè)數(shù)、區(qū)間、平均值、最大值等)示例:業(yè)余愛好{網(wǎng)球,曲棍球,國(guó)際象棋,小提琴,任天堂游戲
}概化:{體育,音樂(lè),電子游戲}{體育(3),音樂(lè)(1),電子游戲(1)}49集合值集合值749列表值/序列值列表值/序列值類似于集合值屬性的概化,要求保持元素的次序。一般概化方法:將列表中的每個(gè)值概化為對(duì)應(yīng)的高層概念導(dǎo)出列表的一般特征(長(zhǎng)度、元素類型、平均值、最大值等)50列表值/序列值列表值/序列值850空間和多媒體數(shù)據(jù)的概化聚集和近似計(jì)算空間數(shù)據(jù) 例:土地規(guī)劃多媒體數(shù)據(jù)圖像:尺寸、顏色、形狀、紋理、方位等音樂(lè):音調(diào)、節(jié)拍、樂(lè)器等文本:摘要、關(guān)鍵詞等51空間和多媒體數(shù)據(jù)的概化聚集和近似計(jì)算951對(duì)象的概化對(duì)象標(biāo)識(shí)符 沿類/子類層次結(jié)構(gòu)概化繼承特性 數(shù)據(jù)概化對(duì)直接數(shù)據(jù)與繼承數(shù)據(jù)同等對(duì)待方法方法本身不能概化,但是可以對(duì)方法導(dǎo)出的數(shù)據(jù)進(jìn)行概化52對(duì)象的概化對(duì)象標(biāo)識(shí)符1052CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖掘空間數(shù)據(jù)庫(kù)挖掘多媒體數(shù)據(jù)庫(kù)挖掘時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫(kù)挖掘Web挖掘53CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖53空間數(shù)據(jù)庫(kù)挖掘空間數(shù)據(jù)庫(kù)及其一般特點(diǎn)存儲(chǔ)了大量與空間有關(guān)的數(shù)據(jù)包含拓?fù)?距離信息復(fù)雜的、多維的索引結(jié)構(gòu)訪問(wèn)通過(guò)空間數(shù)據(jù)的方法,通常需要空間推理、地理計(jì)算、空間知識(shí)表示技術(shù)空間數(shù)據(jù)挖掘:要綜合數(shù)據(jù)挖掘與空間數(shù)據(jù)庫(kù)技術(shù)54空間數(shù)據(jù)庫(kù)挖掘空間數(shù)據(jù)庫(kù)及其一般特點(diǎn)1254空間數(shù)據(jù)庫(kù)挖掘傳統(tǒng)空間數(shù)據(jù)分析(統(tǒng)計(jì)方法)的不足統(tǒng)計(jì)方法通常假設(shè)空間分布的數(shù)據(jù)間是統(tǒng)計(jì)上獨(dú)立的,但現(xiàn)實(shí)是空間對(duì)象間是相互關(guān)聯(lián)的;大部分統(tǒng)計(jì)模型只有具有相當(dāng)豐富領(lǐng)域知識(shí)和統(tǒng)計(jì)方面經(jīng)驗(yàn)的統(tǒng)計(jì)專家才用得起來(lái);統(tǒng)計(jì)方法不適用符號(hào)值,或不完整或非確定的數(shù)據(jù),對(duì)大規(guī)模數(shù)據(jù)庫(kù)其計(jì)算代價(jià)也十分昂貴??臻g數(shù)據(jù)挖掘?qū)?duì)傳統(tǒng)的空間分析方法加以擴(kuò)展,重點(diǎn)解決其高效性,可伸縮性,與數(shù)據(jù)庫(kù)系統(tǒng)的緊密結(jié)合,改進(jìn)與用戶的交互,以及新的知識(shí)的發(fā)現(xiàn)。
55空間數(shù)據(jù)庫(kù)挖掘傳統(tǒng)空間數(shù)據(jù)分析(統(tǒng)計(jì)方法)的不足1355空間關(guān)聯(lián)分析
空間關(guān)聯(lián)規(guī)則形如:AB[s%,c%]其中A和B空間和非空間謂詞的集合,s%表示規(guī)則的支持度,c%表示規(guī)則的的可信度。例:Is_a(X,”school”)∧close_to(X,“sports_center”)?close_to(X,“park”)[0.5%,80%]此規(guī)則表明80%靠近體育中心的學(xué)校同時(shí)也靠近公園,并且有0。5%的數(shù)據(jù)符合這一規(guī)則。
56空間關(guān)聯(lián)分析空間關(guān)聯(lián)規(guī)則形如:AB56空間聚類方法
空間數(shù)據(jù)聚類是要在一個(gè)較大的多維數(shù)據(jù)集中根據(jù)距離的計(jì)算找出簇,或稠密區(qū)域。
57空間聚類方法空間數(shù)據(jù)聚類是要在一個(gè)較大的多維57空間分類和空間趨勢(shì)分析空間分類指分析空間對(duì)象導(dǎo)出與一定空間特征有關(guān)的分類模式,如郊區(qū),高速公路,河流的鄰接??臻g趨勢(shì)分析處理的是另一類問(wèn)題:根據(jù)某空間維找出變化趨勢(shì)。
例如,當(dāng)離城市中心越來(lái)越遠(yuǎn)時(shí),我們要分析經(jīng)濟(jì)形勢(shì)的變化趨勢(shì),或離海洋越來(lái)越遠(yuǎn)時(shí),氣候與植物的變化趨勢(shì)。
58空間分類和空間趨勢(shì)分析空間分類指分析空間對(duì)象導(dǎo)出與一定空間特58CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖掘空間數(shù)據(jù)庫(kù)挖掘多媒體數(shù)據(jù)庫(kù)挖掘時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫(kù)挖掘Web挖掘59CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖59多媒體數(shù)據(jù)庫(kù)挖掘多媒體數(shù)據(jù)庫(kù)是指存儲(chǔ)和管理大量多媒體對(duì)象的數(shù)據(jù)庫(kù),如音頻數(shù)據(jù),圖象數(shù)據(jù),視頻數(shù)據(jù),序列數(shù)據(jù),以及超文本數(shù)據(jù),包含文本,文本標(biāo)記(textmarkup),和鏈接(linkage)。多媒體數(shù)據(jù)的相似搜索
主要考慮兩種多媒體標(biāo)引和檢索系統(tǒng):(1)基于描述的檢索系統(tǒng),主要是在圖象描述之上建立標(biāo)引和執(zhí)行對(duì)象檢索,如關(guān)鍵字,標(biāo)題,尺寸,創(chuàng)建時(shí)間等;(2)基于內(nèi)容的檢索系統(tǒng),它支持基于圖象內(nèi)容的檢索,如顏色構(gòu)成,質(zhì)地,形狀,對(duì)象,和小波變換等。多媒體數(shù)據(jù)的分類和預(yù)測(cè)分析
多媒體數(shù)據(jù)中的關(guān)聯(lián)規(guī)則挖掘
60多媒體數(shù)據(jù)庫(kù)挖掘多媒體數(shù)據(jù)庫(kù)是指存儲(chǔ)和管理大量多媒體對(duì)象的數(shù)60CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖掘空間數(shù)據(jù)庫(kù)挖掘多媒體數(shù)據(jù)庫(kù)挖掘時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫(kù)挖掘Web挖掘61CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖61時(shí)序數(shù)據(jù)庫(kù)和序列數(shù)據(jù)庫(kù)時(shí)序數(shù)據(jù)庫(kù):由隨時(shí)間變化的序列或事件組成的數(shù)據(jù)庫(kù)等時(shí)間間隔測(cè)得的數(shù)據(jù)(regularintervals)時(shí)序數(shù)據(jù)庫(kù)是一種序列數(shù)據(jù)庫(kù)序列數(shù)據(jù)庫(kù):由有序事件序列組成的數(shù)據(jù)庫(kù)可有時(shí)間標(biāo)記,也可以沒(méi)有時(shí)間標(biāo)記可以是時(shí)序數(shù)據(jù)庫(kù),也可以不是。如WEB遍歷。62時(shí)序數(shù)據(jù)庫(kù)和序列數(shù)據(jù)庫(kù)時(shí)序數(shù)據(jù)庫(kù):由隨時(shí)間變化的序列或事件組62時(shí)序數(shù)據(jù)例子Time-seriesplot63時(shí)序數(shù)據(jù)例子Time-seriesplot2163時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘(一)趨勢(shì)分析
通過(guò)對(duì)趨勢(shì),循環(huán),季節(jié)和非規(guī)則成分的運(yùn)動(dòng)的系統(tǒng)分析,使人們可以在較合理的情況下,制定出長(zhǎng)期或短期的預(yù)測(cè)(即預(yù)報(bào)時(shí)序)
相似搜索
找出與給定查詢序列最接近的數(shù)據(jù)序列。子序列匹配(subsequencematching)是找出與給定序列相似的所有數(shù)據(jù)序列,整體序列匹配(wholesequencematching)是找出彼此間相似的序列。
例 如:對(duì)金融市場(chǎng)的分析(如股票數(shù)據(jù)分析),醫(yī)療診斷(如心電圖分析),和科學(xué)與工程數(shù)據(jù)庫(kù)(如能量消耗分析)等
64時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘(一)趨勢(shì)分析2264時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘(一)序列模式挖掘(sequencepatternmining)是指挖掘相對(duì)時(shí)間或其它模式出現(xiàn)頻率高的模式。
周期分析(periodicityanalysis)
對(duì)周期模式的挖掘,即在時(shí)序數(shù)據(jù)庫(kù)中找出重復(fù)出現(xiàn)的模式。
例如:
季節(jié),潮汐,行星軌道,每日能源消耗,每日交通模式
65時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘(一)序列模式挖掘(sequence65CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖掘空間數(shù)據(jù)庫(kù)挖掘多媒體數(shù)據(jù)庫(kù)挖掘時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫(kù)挖掘Web挖掘66CourseOutline復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖66文本數(shù)據(jù)庫(kù)和信息檢索(IR)文本數(shù)據(jù)庫(kù)半結(jié)構(gòu)化數(shù)據(jù):它既不是完全無(wú)結(jié)構(gòu)的也不是完全結(jié)構(gòu)的。例如,一個(gè)文檔可能包含結(jié)構(gòu)字段,如標(biāo)題,作者,出版日期,長(zhǎng)度,分類,等等,也可能包含大量的非結(jié)果化的文本成分,如摘要和內(nèi)容。典型的信息檢索問(wèn)題是基于用戶的輸入(如關(guān)鍵字或樣例文檔)定位相關(guān)的文檔。典型的信息檢索系統(tǒng)聯(lián)機(jī)圖書館目錄聯(lián)機(jī)文檔管理系統(tǒng)信息檢索與數(shù)據(jù)庫(kù)系統(tǒng)DB:并發(fā)控制、恢復(fù)、事務(wù)管理、更新IR:非結(jié)構(gòu)化文檔、基于關(guān)鍵字的近似搜索67文本數(shù)據(jù)庫(kù)和信息檢索(IR)文本數(shù)據(jù)庫(kù)2567文本檢索的基本度量查準(zhǔn)率:反映正確性查全率:反映全面性RelevantRelevant&RetrievedRetrievedAllDocuments應(yīng)該被檢索到的68文本檢索的基本度量查準(zhǔn)率:反映正確性RelevantRele68文本檢索的基本度量查準(zhǔn)率:反映正確性查全率:反映全面性RelevantRelevant&RetrievedRetrievedAllDocuments實(shí)際被檢索到的69文本檢索的基本度量查準(zhǔn)率:反映正確性RelevantRele69文本檢索的基本度量查準(zhǔn)率:反映正確性查全率:反映全面性RelevantRelevant&RetrievedRetrievedAllDocuments70文本檢索的基本度量查準(zhǔn)率:反映正確性RelevantRele70基于關(guān)鍵字的檢索在關(guān)鍵字檢索中,文檔被看作字符串,可用一組關(guān)鍵字識(shí)別查詢由關(guān)鍵字表達(dá)式構(gòu)成例子,汽車and
修理店查詢應(yīng)考慮同義詞問(wèn)題,如:修理和維修困難同義詞問(wèn)題(Synonymy):文檔與Key相關(guān),但Key在文檔中不出現(xiàn)多義詞問(wèn)題(Polysemy):同一Key在不同的上下文有不同的含義,如Mine。71基于關(guān)鍵字的檢索在關(guān)鍵字檢索中,文檔被看作字符串,可用一組關(guān)71基于相似性的檢索(1)相似檢索是指基于一組共同的關(guān)鍵字找出相似的文檔檢索結(jié)果基于相關(guān)度,即:與關(guān)鍵詞的近似性,關(guān)鍵詞的出現(xiàn)頻率等。非用詞表(Stoplist)無(wú)關(guān)的高頻詞,如:a,the,of,for,etc.文檔不同時(shí),非用詞表也不同72基于相似性的檢索(1)相似檢索是指基于一組共同的關(guān)鍵字找出相72基于相似性的檢索(2)
由于相似文檔具有相似的相對(duì)詞頻,因此我們可以基于頻率表中的相對(duì)詞頻,計(jì)算一組文檔的相似性。
詞頻矩陣相似度:基于一組關(guān)鍵詞的文檔相似性相關(guān)詞的出現(xiàn)次數(shù)余弦距離:缺點(diǎn):當(dāng)詞數(shù)T和文檔數(shù)目D很大時(shí),高的維數(shù)導(dǎo)致低的計(jì)算效率,且出現(xiàn)大的稀疏向量。用奇異值分解(SVD)技術(shù)減小詞頻矩陣大小保留詞頻矩陣中最有意義的K行和K列,K值為幾百。詞/文檔d1d2d3d4d5d6d7t13218431687215430t2354917156826392t32232167462892251773基于相似性的檢索(2)由于相似文檔具有相似的相對(duì)詞頻,因此73文本數(shù)據(jù)挖掘的類型1.基于關(guān)鍵字的關(guān)聯(lián)分析2.文檔分類分析74文本數(shù)據(jù)挖掘的類型1.基于關(guān)鍵字的關(guān)聯(lián)分析3274基于關(guān)鍵字的關(guān)聯(lián)分析動(dòng)機(jī)收集經(jīng)常一起出現(xiàn)的關(guān)鍵字或詞匯,然后找出其關(guān)聯(lián)或相互關(guān)系關(guān)聯(lián)分析過(guò)程文檔預(yù)處理:文本數(shù)據(jù)分解,詞根處理,過(guò)濾非用詞等調(diào)用關(guān)聯(lián)挖掘算法將每一文檔看作一
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年房屋交易過(guò)戶協(xié)議書
- 事業(yè)單位合同工權(quán)益保障條例
- 2025年電子產(chǎn)品供應(yīng)與銷售合作協(xié)議
- 2025年產(chǎn)品質(zhì)量保障合作協(xié)議
- 2025年便利店業(yè)務(wù)轉(zhuǎn)讓協(xié)議范本
- 專利許可經(jīng)營(yíng)合同
- 個(gè)人汽車抵押借款合同范文
- 產(chǎn)業(yè)合作投資合同意向書
- IT人才培養(yǎng)及勞動(dòng)合同樣本
- DB6103T 34-2025 奶山羊選種選配技術(shù)規(guī)范
- 2024年循環(huán)水操作工(中級(jí))職業(yè)鑒定理論考試題庫(kù)((含答案))
- 《電子技術(shù)基礎(chǔ)(第二版)》中職技工全套教學(xué)課件
- 人教版五年級(jí)上冊(cè)小數(shù)乘除法豎式計(jì)算題200道及答案
- 五年級(jí)上冊(cè)美術(shù)《傳統(tǒng)門飾》課件
- DL∕T 1309-2013 大型發(fā)電機(jī)組涉網(wǎng)保護(hù)技術(shù)規(guī)范
- (2020版)煤礦安全生產(chǎn)標(biāo)準(zhǔn)化管理體系評(píng)分表
- 城鄉(xiāng)低保待遇協(xié)議書
- DL-T5153-2014火力發(fā)電廠廠用電設(shè)計(jì)技術(shù)規(guī)程
- 華為HCIA-Storage H13-629考試練習(xí)題
- 遼寧省撫順五十中學(xué)2024屆中考化學(xué)全真模擬試卷含解析
- 2024年中國(guó)科學(xué)技術(shù)大學(xué)少年創(chuàng)新班數(shù)學(xué)試題真題(答案詳解)
評(píng)論
0/150
提交評(píng)論