版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第一章緒論
內(nèi)容提要數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展
數(shù)據(jù)挖掘研究的發(fā)展趨勢數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘技術(shù)的分類問題數(shù)據(jù)挖掘常用的知識表示模式與方法不同數(shù)據(jù)存儲形式下的數(shù)據(jù)挖掘問題粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用分析數(shù)據(jù)挖掘技術(shù)的商業(yè)需求分析隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)庫應(yīng)用的規(guī)模、范圍和深度不斷擴大,網(wǎng)絡(luò)環(huán)境成為主流等等。產(chǎn)生“數(shù)據(jù)豐富而信息貧乏(DataRich&InformationPoor)”現(xiàn)象。在強大的商業(yè)需求的驅(qū)動下,商家們開始注意到有效地解決大容量數(shù)據(jù)的利用問題具有巨大的商機;學(xué)者們開始思考如何從大容量數(shù)據(jù)集中獲取有用信息和知識的方法。隨著信息技術(shù)的高速發(fā)展,人們希望能夠提供更高層次的數(shù)據(jù)處理功能。新的需求推動新的技術(shù)的誕生。數(shù)據(jù)(Data)、信息(Information)和知識(Knowledge)是廣義數(shù)據(jù)表現(xiàn)的不同形式。數(shù)據(jù)、信息和知識datainformationknowledge數(shù)據(jù)挖掘產(chǎn)生的技術(shù)背景數(shù)據(jù)挖掘是相關(guān)學(xué)科充分發(fā)展的基礎(chǔ)上被提出和發(fā)展的。主要的相關(guān)技術(shù):數(shù)據(jù)庫等信息技術(shù)的發(fā)展統(tǒng)計學(xué)深入應(yīng)用人工智能技術(shù)的研究和應(yīng)用數(shù)據(jù)挖掘是一個多學(xué)科交叉技術(shù)
DataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceAI/MachineLearningVisualization數(shù)據(jù)庫系統(tǒng)的發(fā)展60年代:簡單文件處理系統(tǒng)向數(shù)據(jù)庫系統(tǒng)變革。70年代:層次、網(wǎng)絡(luò)和關(guān)系型數(shù)據(jù)庫普及。
80年代:RDBS及其相關(guān)工具、數(shù)據(jù)索引及數(shù)據(jù)組織技術(shù)被廣泛采用;中期開始,分布式數(shù)據(jù)庫廣發(fā)討論,關(guān)系數(shù)據(jù)庫技術(shù)和新型技術(shù)的結(jié)合。90年代:數(shù)據(jù)庫領(lǐng)域中的新內(nèi)容、新應(yīng)用、新技術(shù)層出不窮,形成了龐大的數(shù)據(jù)庫家族;人們期望分析預(yù)測、決策支持等高級應(yīng)用,Datamininganddatawarehousing等出現(xiàn)。本世紀開始:Datamining得到理論/技術(shù)深化。統(tǒng)計學(xué)的深入應(yīng)用強大有效的數(shù)理統(tǒng)計方法和工具,已成為信息咨詢業(yè)的基礎(chǔ)。統(tǒng)計分析技術(shù)是基于嚴格的數(shù)學(xué)理論和高超的應(yīng)用技巧的。數(shù)據(jù)挖掘技術(shù)是數(shù)理統(tǒng)計分析應(yīng)用的延伸和發(fā)展。和數(shù)據(jù)庫技術(shù)的結(jié)合性研究人工智能技術(shù)的研究和應(yīng)用人工智能:爭議最多,強大生命專家系統(tǒng)曾經(jīng)的驕傲,但是諸多難題:知識獲取成為專家系統(tǒng)研究中公認的瓶頸問題。知識表示成為一大難題:知識工程師與領(lǐng)域?qū)<?。對常識和百科知識出奇地貧乏:人工智能學(xué)家Feigenbaum估計,一般人擁有的常識存入計算機大約有100萬條事實和抽象經(jīng)驗法則,離開常識的專家系統(tǒng)有時會比傻子還傻。數(shù)據(jù)挖掘繼承了專家系統(tǒng)的高度實用性特點,并且以數(shù)據(jù)為基本出發(fā)點,客觀地挖掘知識。機器學(xué)習(xí)得到了充分研究和發(fā)展:理論和算法。數(shù)據(jù)挖掘研究在繼承已有的人工智能,特別是機器學(xué)習(xí)的研究成果基礎(chǔ)上,成為新的研究分支。第一章緒論
內(nèi)容提要數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展數(shù)據(jù)挖掘研究的發(fā)展趨勢
數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘技術(shù)的分類問題數(shù)據(jù)挖掘常用的知識表示模式與方法不同數(shù)據(jù)存儲形式下的數(shù)據(jù)挖掘問題粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用分析數(shù)據(jù)挖掘處于研究和應(yīng)用探索階段經(jīng)過十幾年的研究和實踐,數(shù)據(jù)挖掘技術(shù)已經(jīng)吸收了許多學(xué)科的最新研究成果、獨具特色支。大部分學(xué)者認為數(shù)據(jù)挖掘的研究仍然處于廣泛研究和探索階段:一方面,數(shù)據(jù)挖掘的概念已經(jīng)被廣泛接受。另一方面,數(shù)據(jù)挖掘的大面積應(yīng)用還有待時日。隨著KDD在學(xué)術(shù)界和工業(yè)界的影響越來越大,數(shù)據(jù)挖掘的研究向著更深入和實用技術(shù)方向發(fā)展:大學(xué)等研究機構(gòu)的大多數(shù)基礎(chǔ)性研究集中在數(shù)據(jù)挖掘理論、挖掘算法等的探討上。公司的研究更注重和實際商業(yè)問題結(jié)合。數(shù)據(jù)挖掘的經(jīng)濟價值已經(jīng)顯現(xiàn)出來:Gartner報告中列舉重要影響的五項關(guān)鍵技術(shù),其中KDD和人工智能排名第一。數(shù)據(jù)挖掘研究聚焦點數(shù)據(jù)挖掘在如下幾個方面需要重點開展工作:數(shù)據(jù)挖掘技術(shù)與特定商業(yè)邏輯的平滑集成問題:“啤酒與尿布”數(shù)據(jù)挖掘技術(shù)與特定數(shù)據(jù)存儲類型的適應(yīng)問題:大型數(shù)據(jù)的選擇與規(guī)格化問題:數(shù)據(jù)的噪音、信息丟失等問題的處理;針對特定挖掘方法進行數(shù)據(jù)規(guī)格化等問題。數(shù)據(jù)挖掘系統(tǒng)的構(gòu)架與交互式挖掘技術(shù):在具體的實現(xiàn)機制等方面仍需細化和深入研究。良好的交互式挖掘(InteractionMining)。數(shù)據(jù)挖掘語言與系統(tǒng)的可視化問題數(shù)據(jù)挖掘理論與算法研究一方面,面向?qū)嶋H應(yīng)用目標的挖掘理論等待探索和創(chuàng)新。另一方面,隨著數(shù)據(jù)挖掘技術(shù)本身和相關(guān)技術(shù)的發(fā)展。第一章緒論
內(nèi)容提要數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展數(shù)據(jù)挖掘研究的發(fā)展趨勢數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘技術(shù)的分類問題數(shù)據(jù)挖掘常用的知識表示模式與方法不同數(shù)據(jù)存儲形式下的數(shù)據(jù)挖掘問題粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用分析從商業(yè)角度看數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘從本質(zhì)上是一種新商業(yè)信息處理技術(shù):從低層次的聯(lián)機查詢,提高到?jīng)Q策支持、分析預(yù)測等高級應(yīng)用。通過對數(shù)據(jù)的統(tǒng)計、分析、綜合和推理,發(fā)現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)性、未來趨勢以及一般性的概括知識等,這些知識性的信息可以用來指導(dǎo)高級商務(wù)活動。從決策、分析和預(yù)測等高級商業(yè)目的看,原始數(shù)據(jù)只是未被開采的礦山,需要挖掘和提煉才能獲得對商業(yè)目的有用的規(guī)律性知識。從商業(yè)角度看,數(shù)據(jù)挖掘是按企業(yè)的既定業(yè)務(wù)目標,對大量企業(yè)數(shù)據(jù)進行深層次分析以揭示隱藏、未知的規(guī)律性并將其模型化,支持商業(yè)決策。數(shù)據(jù)挖掘的技術(shù)含義數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD:KnowledgeDiscoveryinDatabases)是比數(shù)據(jù)挖掘出現(xiàn)更早的一個名詞。KDD與DataMining的關(guān)系,有不同的看法:KDD看成數(shù)據(jù)挖掘的一個特例:這是早期比較流行的觀點。數(shù)據(jù)挖掘是KDD的一個關(guān)鍵步驟:這種觀點得到大多數(shù)學(xué)者認同。KDD與DataMining含義相同:事實上,在現(xiàn)今的許多場合,如技術(shù)綜述等,這兩個術(shù)語仍然不加區(qū)分地使用著。也有其他的說法:KDD在人工智能界更流行,而DataMining在數(shù)據(jù)庫界更多。在研究領(lǐng)域被稱作KDD,在工程領(lǐng)域則稱之為數(shù)據(jù)挖掘。數(shù)據(jù)挖掘定義數(shù)據(jù)挖掘定義有廣義和狹義之分。從廣義的觀點,數(shù)據(jù)挖掘是從大型數(shù)據(jù)集(可能是不完全的、有噪聲的、不確定性的、各種存儲形式的)中,挖掘隱含在其中的、人們事先不知道的、對決策有用的知識的過程。從這種狹義的觀點上,我們可以定義數(shù)據(jù)挖掘是從特定形式的數(shù)據(jù)集中提煉知識的過程。下列技術(shù)不是數(shù)據(jù)挖掘:OLTPExpertsystemsSmallMLStatisticalprograms
數(shù)據(jù)挖掘研究的理論基礎(chǔ)數(shù)據(jù)挖掘方法可以是基于數(shù)學(xué)理論的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。從研究者可能是來自于數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、計算機科學(xué)以及其他方面的學(xué)者和工程技術(shù)人員,他們會從不同的視點進行探討性研究。有下面一些重要的理論視點值得關(guān)注:模式發(fā)現(xiàn)(PatternDiscovery)架構(gòu)規(guī)則發(fā)現(xiàn)(RuleDiscovery)架構(gòu)基于概率和統(tǒng)計理論微觀經(jīng)濟學(xué)觀點(MicroeconomicView)基于數(shù)據(jù)壓縮(DataCompression)理論基于歸納數(shù)據(jù)庫(InductiveDatabase)理論可視化數(shù)據(jù)挖掘(VisualDataMining)等等第一章緒論
內(nèi)容提要數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展數(shù)據(jù)挖掘研究的發(fā)展趨勢數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘技術(shù)的分類問題數(shù)據(jù)挖掘常用的知識表示模式與方法不同數(shù)據(jù)存儲形式下的數(shù)據(jù)挖掘問題粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用分析根據(jù)挖掘任務(wù)分類或預(yù)測模型發(fā)現(xiàn)數(shù)據(jù)總結(jié)與聚類發(fā)現(xiàn)關(guān)聯(lián)規(guī)則發(fā)現(xiàn)序列模式發(fā)現(xiàn)相似模式發(fā)現(xiàn)混沌模式發(fā)現(xiàn)依賴關(guān)系或依賴模型發(fā)現(xiàn)異常和趨勢發(fā)現(xiàn)等根據(jù)挖掘?qū)ο箨P(guān)系數(shù)據(jù)庫挖掘面向?qū)ο髷?shù)據(jù)庫挖掘空間數(shù)據(jù)庫挖掘時態(tài)數(shù)據(jù)庫挖掘文本數(shù)據(jù)源挖掘多媒體數(shù)據(jù)庫挖掘異質(zhì)數(shù)據(jù)庫挖掘遺產(chǎn)數(shù)據(jù)庫挖掘web數(shù)據(jù)挖掘等根據(jù)挖掘方法機器學(xué)習(xí)方法統(tǒng)計方法聚類分析方法神經(jīng)網(wǎng)絡(luò)(NeuralNetwork)方法遺傳算法(GeneticAlgorithm)方法數(shù)據(jù)庫方法近似推理和不確定性推理方法基于證據(jù)理論和元模式的方法現(xiàn)代數(shù)學(xué)分析方法粗糙集(RoughSet)或模糊集方法集成方法等根據(jù)知識類型挖掘廣義型知識挖掘差異型知識挖掘關(guān)聯(lián)型知識挖掘預(yù)測型知識挖掘偏離型(異常)知識挖掘不確定性知識等第一章緒論
內(nèi)容提要數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展數(shù)據(jù)挖掘研究的發(fā)展趨勢數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘技術(shù)的分類問題數(shù)據(jù)挖掘常用的知識表示模式與方法不同數(shù)據(jù)存儲形式下的數(shù)據(jù)挖掘問題粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用分析知識表示模式分類數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)知識,知識要通過一定的模式給出。通過對數(shù)據(jù)挖掘中知識表示模式及其所采用方法的分析,可以更清楚地了解數(shù)據(jù)挖掘系統(tǒng)的特點。主要知識模式類型有:廣義知識(Generalization)關(guān)聯(lián)知識(Association)類知識(Class/Cluster)預(yù)測型知識(Prediction)特異型知識(Exception)
廣義知識挖掘廣義知識是指描述類別特征的概括性知識。對細節(jié)數(shù)據(jù)的所蘊涵的概念特征的概括和抽象的過程。主要方法有:概念描述(ConceptDescription):對某類對象內(nèi)涵特征的概括:特征性(Characterization)描述:描述某類對象的共同特征。區(qū)別性(Discrimination)描述:描述不同類對象之間的區(qū)別。多維數(shù)據(jù)分析可以看作是一種廣義知識挖掘的特例多層次概念描述問題:由數(shù)據(jù)歸納出的概念是有層次的。例如,“北京工業(yè)大學(xué)”能歸納出“北京市”、“中國”、“亞洲”等層次。銷售表SALES(ENO,ENAME,EAGE,VALUE,DEPT),它的每個屬性的定義域都可能存在蘊涵于領(lǐng)域知識內(nèi)的概念延伸,如DEPT。概念分層(ConceptHierarchy)技術(shù):將低層概念集映射到高層概念集的方法,是一個常用的處理多層次概念描述的方法。主要的概念分層方法模式分層(SchemaHierarchy):利用屬性在特定背景知識下的語義層次形成不同層次的模式關(guān)聯(lián)。這種關(guān)聯(lián)是一種的全序或偏序關(guān)系。例如,DEPT的模式分層結(jié)構(gòu)可能是:DEPT→COMPANY→CITY→COUNTRY。集合分組分層(Set-GroupingHierarchy):將屬性在特定背景知識下的取值范圍合理分割,形成替代的離散值或區(qū)間集合。例如,年齡EAGE可以抽象成{[20,29],[30,39],[40,49],[50,59]}或者{青年,中年,老年}。操作導(dǎo)出分層(Operation-DrivedHierarchy):有些屬性可能包含多類信息。例如,一個跨國公司的雇員號可能包含這個雇員的所在的部門、城市、國家和雇傭的時間等。對這類對象可以作為背景知識定義它的結(jié)構(gòu),通過編碼解析等操作完成概念的抽象。基于規(guī)則分層(Rule-BasedHierarchy):通過定義背景知識的抽象規(guī)則,形成不同層次上的概念的抽象。關(guān)聯(lián)知識挖掘關(guān)聯(lián)知識挖掘的目的就是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)信息。關(guān)聯(lián)知識反映一個事件和其他事件之間的依賴或關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序(TimeSeries)關(guān)聯(lián)、因果關(guān)聯(lián)、數(shù)量關(guān)聯(lián)等。從廣義上講,關(guān)聯(lián)分析是數(shù)據(jù)挖掘的本質(zhì)。關(guān)聯(lián)規(guī)則挖掘(AssociationRuleMining)是關(guān)聯(lián)知識發(fā)現(xiàn)的最常用方法:關(guān)聯(lián)規(guī)則的研究最早的分支之一,最著名的Apriori算法。是數(shù)據(jù)挖掘研究中比較深入的分支,許多關(guān)聯(lián)規(guī)則挖掘的理論和算法已經(jīng)被提出。類知識挖掘類知識(Class)刻畫了一類事物,這類事物具有共同特征,并明顯和不同類事物相區(qū)別。
有兩個基本的方法來挖掘類知識:分類:分類是數(shù)據(jù)挖掘中的一個重要的目標和任務(wù),研究最多。分類的目的是學(xué)會一個分類模型(稱作分類器):數(shù)據(jù)→類分類技術(shù)是一種有指導(dǎo)的學(xué)習(xí)(SupervisedLearning)。聚類:數(shù)據(jù)挖掘的目標之一是進行聚類分析。聚類是把一組個體按照相似性歸成若干類別,目的是使屬于同一類別的個體之間的差別盡可能小,而不同類別上的個體間的差別盡可能的大。聚類屬于無指導(dǎo)學(xué)習(xí)(UnsupervisedLearning)),形成的簇(Cluster),刻畫了數(shù)據(jù)所蘊涵的類知識。分類中的基礎(chǔ)方法決策樹方法:基本分類技術(shù)之一,如ID3及改進算法ID4、ID5、C4.5、C5.0等;針對大訓(xùn)練樣本集的SLIQ、SPRINT、雨林(Rainforest)BOAT等。貝葉斯分類:具有堅實的理論基礎(chǔ),理論上具有較小的出錯率。但是,它的適應(yīng)性差。神經(jīng)網(wǎng)絡(luò):作為一個相對獨立的研究分支已經(jīng)很早被提出,高的抗干擾能力,可以對未訓(xùn)練數(shù)據(jù)進行分類等優(yōu)點。遺傳算法:是基于進化理論的機器學(xué)習(xí)方法。類比學(xué)習(xí):最典型的方法是k-最臨近分類(k-NearestNeighborClassification)方法,它屬于懶散學(xué)習(xí)法。其他方法:如粗糙集(RoughSet)、模糊集(FuzzySet)方法等。
主要聚類的技術(shù)基于劃分的聚類方法:k-平均算法是統(tǒng)計學(xué)中的一個經(jīng)典聚類方法,它以預(yù)先定義好的簇平均值,構(gòu)造劃分?;趯哟蔚木垲惙椒ǎ和ㄟ^對源數(shù)據(jù)庫中的數(shù)據(jù)進行層次分解,達到目標簇的逐步生成。凝聚(Agglomeration):由小到大逐步合并、評價。分裂(Division)由大到小逐步分裂、評價?;诿芏鹊木垲惙椒ǎ夯诿芏鹊木垲惙椒ㄊ峭ㄟ^度量區(qū)域所包含的對象數(shù)目來形成最終目標的。如果一個區(qū)域的密度超過指定的值,那么它就需要進一步分解。基于網(wǎng)格的聚類方法:對象空間離散化成有限的網(wǎng)格單元,聚類工作在這種網(wǎng)格結(jié)構(gòu)上進行?;谀P偷木垲惙椒ǎ好總€簇假定一個模型,尋找數(shù)據(jù)對給定模型的最佳擬和。預(yù)測型知識挖掘預(yù)測型知識(Prediction)是指由歷史的數(shù)據(jù)產(chǎn)生的并能推測未來數(shù)據(jù)趨勢的知識。預(yù)測性挖掘主要是對未來數(shù)據(jù)的概念分類和趨勢輸出。分類技術(shù)可以用于產(chǎn)生預(yù)測型的類知識。統(tǒng)計學(xué)中的回歸方法等可以通過歷史數(shù)據(jù)直接產(chǎn)生對未來數(shù)據(jù)預(yù)測的連續(xù)值,因而這些預(yù)測型知識已經(jīng)蘊藏在諸如趨勢曲線等輸出形式中。預(yù)測型知識的挖掘可以結(jié)合經(jīng)典的統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)等技術(shù)來研究。預(yù)測型知識挖掘中的典型方法趨勢預(yù)測模式:主要是針對那些具有時序(TimeSeries)屬性的數(shù)據(jù),如股票價格等,或者是序列項目(SequenceItems)的數(shù)據(jù),如年齡和薪水對照等,發(fā)現(xiàn)長期的趨勢變化等。周期分析模式:主要是針對那些數(shù)據(jù)分布和時間的依賴性很強的數(shù)據(jù)進行周期模式的挖掘。例如,服裝在某季節(jié)或所有季節(jié)的銷售周期。序列模式:主要是針對歷史事件發(fā)生次序的分析形成預(yù)測模式來對未來行為進行預(yù)測。例如,預(yù)測“三年前購買計算機的客戶有很大概率會買數(shù)字相機”。神經(jīng)網(wǎng)絡(luò):在預(yù)測型知識挖掘中,神經(jīng)網(wǎng)絡(luò)也是很有用的模式結(jié)構(gòu)。特異型知識挖掘特異型知識(Exception)是源數(shù)據(jù)中所蘊涵的極端特例或明顯區(qū)別于其他數(shù)據(jù)的知識描述,它揭示了事物偏離常規(guī)的異常規(guī)律。特異知識挖掘的價值:例如,在Web站點發(fā)現(xiàn)那些區(qū)別于正常登錄行為的用戶特點以防止入侵。金融、電信欺詐等分類中的反常實例、不滿足普通規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、數(shù)據(jù)聚類外的離群值等許多技術(shù)可以擴展到特異型知識挖掘中,如:孤立點(Outlier)分析:孤立點是指不符合數(shù)據(jù)一般模型的數(shù)據(jù)。在類知識挖掘中,孤立點分析是不能歸入正常類知識中的零散數(shù)據(jù)再分析。異常序列分析:在一系列行為或事件對應(yīng)的序列中發(fā)現(xiàn)明顯不符合一般規(guī)律的特異型知識。特異規(guī)則發(fā)現(xiàn):產(chǎn)生并評價雖然具有低支持度但可能很有價值的規(guī)則。第一章緒論
內(nèi)容提要數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展數(shù)據(jù)挖掘研究的發(fā)展趨勢數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘技術(shù)的分類問題數(shù)據(jù)挖掘常用的知識表示模式與方法不同數(shù)據(jù)存儲形式下的數(shù)據(jù)挖掘問題
粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用分析數(shù)據(jù)挖掘方法與數(shù)據(jù)存儲類型數(shù)據(jù)挖掘技術(shù)應(yīng)該應(yīng)用到任何數(shù)據(jù)存儲方式的知識挖掘中,但是因為源數(shù)據(jù)的存儲類型的不同,挖掘的挑戰(zhàn)性和技術(shù)會不同。近年來的研究表明數(shù)據(jù)挖掘所涉及的數(shù)據(jù)存儲類型越來越豐富,除了一些有通用價值的模型、構(gòu)架等研究外,也開展了一些針對復(fù)雜或新型數(shù)據(jù)存儲方式下的挖掘技術(shù)或算法的研究。主要的數(shù)據(jù)類型:事務(wù)數(shù)據(jù)庫(TransactionalDatabase)關(guān)系型數(shù)據(jù)庫(RelatedDatabase)數(shù)據(jù)倉庫(DataWarehouse)在關(guān)系模型基礎(chǔ)上發(fā)展的新型數(shù)據(jù)庫面向應(yīng)用的新型數(shù)據(jù)源Web數(shù)據(jù)事務(wù)數(shù)據(jù)庫中的數(shù)據(jù)挖掘一個事務(wù)數(shù)據(jù)庫是對事務(wù)型數(shù)據(jù)的收集。1993年,當(dāng)Agrawal等開始討論數(shù)據(jù)挖掘問題時,是以購物籃分析(MarketBasketAnalysis)作為商業(yè)應(yīng)用背景的。從事務(wù)數(shù)據(jù)庫中發(fā)現(xiàn)知識是數(shù)據(jù)挖掘中研究較早但至今仍然很活躍的問題。通過特定的技術(shù)對事務(wù)數(shù)據(jù)庫進行挖掘,可以獲得動態(tài)行為所蘊藏的關(guān)聯(lián)規(guī)則、分類、聚類以及預(yù)測等知識模式。第三章將詳細講解關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)挖掘關(guān)系型數(shù)據(jù)庫是由一系列數(shù)據(jù)表組成的,相當(dāng)成熟:成熟的語義模型(像實體-關(guān)系模型);成熟的DBMS(像Oracle)成熟的查詢語言(像SQL語言;可視化的輔助工具和優(yōu)化軟件。一些更深入和亟待解決的問題:多維知識挖掘:傳統(tǒng)的事務(wù)數(shù)據(jù)庫挖掘所研究的知識一般是單維的,但是,在關(guān)系型數(shù)據(jù)庫中,多維的知識更普遍和有應(yīng)用價值。單維:“購買計算機的人也購買打印機”。多維:“什么樣購買計算機的人也購買打印機的可能性更大?”。多表挖掘:關(guān)系型數(shù)據(jù)庫是一系列表集合。因此,多表挖掘是必然的。數(shù)量數(shù)據(jù)挖掘:關(guān)系型數(shù)據(jù)庫經(jīng)常包含非離散數(shù)量屬性(如工資)。多層知識挖掘:數(shù)據(jù)及其關(guān)聯(lián)總是可在多個不同的概念層上來理解它。知識評價問題:是關(guān)系型數(shù)據(jù)庫中數(shù)據(jù)挖掘在應(yīng)用必須要解決的問題。約束數(shù)據(jù)挖掘問題:在約束指導(dǎo)下進行,提高效率和準確度。數(shù)據(jù)倉庫中的數(shù)據(jù)挖掘數(shù)據(jù)倉庫中的數(shù)據(jù)是按著主題來組織的。存儲的數(shù)據(jù)可以從歷史的觀點提供信息。雖然一些數(shù)據(jù)倉庫輔助工具可以幫助完成數(shù)據(jù)分析,但是發(fā)現(xiàn)蘊藏在數(shù)據(jù)內(nèi)部的知識模式及其按知識工程方法來完成高層次的工作仍需要數(shù)據(jù)挖掘技術(shù)支持。數(shù)據(jù)挖掘不僅伴隨數(shù)據(jù)倉庫而產(chǎn)生,而且隨著應(yīng)用深入產(chǎn)生了許多新的課題。如果我們把數(shù)據(jù)挖掘作為高級數(shù)據(jù)分析手段來看,那么它是伴隨數(shù)據(jù)倉庫技術(shù)提出并發(fā)展起來的。OLAP盡管在許多方面和數(shù)據(jù)挖掘是有區(qū)別的,但是它們在應(yīng)用目標上有很大的重合度。數(shù)據(jù)挖掘更看中數(shù)據(jù)分析后所形成的知識表示模式,而OLAP更注重利用多維等高級數(shù)據(jù)模型實現(xiàn)數(shù)據(jù)的聚合。某種意義上,可以把數(shù)據(jù)挖掘看作是OLAP的高級形式,OLAM(聯(lián)機分析挖掘)。新型數(shù)據(jù)庫中的數(shù)據(jù)挖掘?qū)ο蟆P(guān)系型數(shù)據(jù)庫(Object-RalationalDatabase)挖掘;面向?qū)ο髷?shù)據(jù)庫的挖掘;空間數(shù)據(jù)庫的挖掘;時態(tài)數(shù)據(jù)庫的挖掘;工程數(shù)據(jù)庫(EngineeringDatabase)的挖掘;多媒體數(shù)據(jù)庫(MultimediaDatabase)的挖掘;等等Web數(shù)據(jù)源中的數(shù)據(jù)挖掘隨著Internet的廣泛使用,Web蘊藏著豐富有用信息。面向Web的數(shù)據(jù)挖掘比面向數(shù)據(jù)庫的數(shù)據(jù)挖掘要復(fù)雜多:異構(gòu)數(shù)據(jù)源環(huán)境:每個站點的信息和組織都不一樣;存在大量的無結(jié)構(gòu)的文本信息、復(fù)雜的多媒體信息;站點使用和安全性、私密性要求各異等等。數(shù)據(jù)的復(fù)雜性:有些是無結(jié)構(gòu)的(如Web頁),通常都是用長的句子或短語來表達文檔類信息;有些可能是半結(jié)構(gòu)的(如Email,HTML頁)。動態(tài)變化的應(yīng)用環(huán)境:Web的信息是頻繁變化的,像新聞、股票等信息是實時更新的。這種高變化也體現(xiàn)在頁面的動態(tài)鏈接和隨機存取上。Web上的用戶是難以預(yù)測的。Web上的數(shù)據(jù)環(huán)境是高噪音的。Web挖掘的研究主要流派Web結(jié)構(gòu)挖掘:挖掘Web上的鏈接結(jié)構(gòu)。通過Web頁面間的鏈接信息可以識別出權(quán)威頁面(AuthoritativePage)、安全隱患(非法鏈接)等。Web使用挖掘?qū)eb上的Log日志記錄的挖掘Web上的Log日志記錄了包括URL請求、IP地址及時間等訪問信息。分析和發(fā)現(xiàn)Log日志中蘊藏的規(guī)律可以幫助我們識別潛在的客戶、跟蹤Web服務(wù)的質(zhì)量以及偵探非法訪問的隱患等。Web內(nèi)容挖掘:Web的內(nèi)容是豐富的,而且構(gòu)成成分是復(fù)雜的(無結(jié)構(gòu)的、半結(jié)構(gòu)的等),對內(nèi)容的分析是重要而艱巨的工作。Web的內(nèi)容主要是包含文本、聲音、圖片等的文檔信息。文本挖掘(TextMining)和Web搜索引擎(SearchEngine)等相關(guān)領(lǐng)域的研究。多媒體信息挖掘技術(shù)。第一章緒論
內(nèi)容提要數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展數(shù)據(jù)挖掘研究的發(fā)展趨勢數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘技術(shù)的分類問題數(shù)據(jù)挖掘常用的知識表示模式與方法不同數(shù)據(jù)存儲形式下的數(shù)據(jù)挖掘問題粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用
數(shù)據(jù)挖掘的應(yīng)用分析粗糙集理論簡介粗糙集理論是一種研究不精確、不確定性知識的數(shù)學(xué)工具,由波蘭科學(xué)家Z.Pawlak在1982年首先提出的。粗糙集一經(jīng)提出就立刻引起數(shù)據(jù)挖掘研究人員的注意,并被廣泛討論。粗糙集的知識形成思想可以概括為:一種類別對應(yīng)于一個概念,知識由概念組成。粗糙集對不精確概念的描述方法是通過下近似(LowerApproximation)和上近似(UpperApproximation)概念來表示:一個概念(或集合)的下近似概念(或集合)中的元素肯定屬于該概念(或集合)一個概念(或集合)的上近似概念(或集合)只是可能屬于該概念。信息系統(tǒng)粗糙集把客觀世界抽象為一個信息系統(tǒng)。一個信息系統(tǒng)S是四元組S=<U,A,V,f>:U是對象(或事例)的有限集合,記為U={x1,x2,...,xn}。A是屬性的有限集合,記為A={A1,A2,...Am}。屬性集A常常又劃分為兩個集合C和D,即A=C∪D,C∩D=,C表示條件屬性集,D表示決策屬性集。V是屬性的值域集,記為V={V1,V2,...,Vm},其中Vi是屬性Ai的值域;f是信息函數(shù)(InformationFunction),即f:U×AV,f(xi,Aj)∈Vj。f(e,a)的值確定記錄e關(guān)于屬性a的取值。基于某個屬性集A的所有等價記錄的集合,被定義為等價類。屬于同一等價類的記錄稱為基于屬性集A的劃分。近似空間(ApproximationSpace)近似空間有一個二元組<U,R(B)>給出:U是對象(或事例)的有限集合,記為U={x1,x2,...,xn};B是A的屬性子集,R(B)是U上的二元等價關(guān)系,即R(B)={(x1,x2)|f(x1,b)=f(x2,b),b∈B}。R(B)也稱無區(qū)別關(guān)系(IndiscernibilityRelation)。
R(B)把U劃分為k個等價類R*(B)={X1,X2,...,Xk}。即對任意的x1,x2∈Xi,有(x1,x2)∈R(B)
;對任意的x1∈Xi,x2∈Xj,ij,有(x1,x2)
R(B)
。下近似和上近似定義對任意一個概念(或集合)O,B是U的一個子集,O的下近似定義為:其中[x]R(B)表示x在R(B)上的等價類。O的上近似定義為:設(shè)有兩個屬性集B1,B2,B1是B2的真子集,如果R(B1)=R(B2),則稱B2可歸約為B1。如果屬性集B不可進一步歸約,則稱B是U的一個約簡或歸約子。粗糙集中的約簡概念極小屬性集:去掉任何一個屬性,都將使得該屬性集對應(yīng)的規(guī)則覆蓋反例,即導(dǎo)致規(guī)則與例子的不一致。極大屬性集:向它加入任何一個不屬于它的屬性,則會使得該屬性集對應(yīng)的規(guī)則覆蓋更少的正例。粗糙集中的約簡是極小屬性集,約簡對應(yīng)的規(guī)則為極小規(guī)則,極大屬性集對應(yīng)的規(guī)則為極大規(guī)則。挖掘的目標:獲得的極小規(guī)則的盡可能簡潔形式(即極小屬性集盡可能的小)?;跇O小規(guī)則和極大規(guī)則的概念,我們就可以實現(xiàn)極小規(guī)則和極大規(guī)則的生成。粗糙集在KDD中的應(yīng)用舉例規(guī)則學(xué)習(xí)和決策表推導(dǎo)。在保證簡化后的決策系統(tǒng)具有與原先系統(tǒng)一樣的分類能力的前提條件下,通過使用知識簡約和范疇簡約,將決策系統(tǒng)簡化并且找到最?。ㄗ疃蹋Q策規(guī)則集合,以達到最大限度泛化的目的。知識簡約。簡約和相對簡約在粗糙集中十分重要,它反應(yīng)了一個決策系統(tǒng)的本質(zhì)。通過對條件屬性集合的簡約,可以保證簡化后的決策系統(tǒng)具有與原先系統(tǒng)一樣的分類能力。屬性相關(guān)分析。粗糙集方法中的屬性重要程度可以用來衡量該屬性對分類的影響程度,它與ID3中的信息增益類似,可以證明兩者在一定條件下是等價的。進行數(shù)據(jù)預(yù)處理。粗糙集方法可以去掉多余屬性,可提高發(fā)現(xiàn)效率,降低錯誤率等
第一章緒論
內(nèi)容提要數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展數(shù)據(jù)挖掘研究的發(fā)展趨勢數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘技術(shù)的分類問題
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024家裝精裝修協(xié)議條款模板
- 三角函數(shù)題型分類總結(jié)
- 足浴購買合同范本
- 助理勞務(wù)合同范本
- 養(yǎng)兔場招工合同范本
- 特色農(nóng)業(yè)生態(tài)觀光園建設(shè)項目可行性研究報告(完整版)
- 2024年安全生產(chǎn)管理協(xié)議模板
- 果園投資合同范本
- 金融工程導(dǎo)論學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 物理化學(xué)Ⅱ B學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 閱讀指導(dǎo)《我爸爸》導(dǎo)讀課件
- 保安部崗位設(shè)置圖
- DB31T 1295-2021 立體花壇技術(shù)規(guī)程
- 部編版《道德與法治》五年級上冊第10課《傳統(tǒng)美德 源遠流長》優(yōu)質(zhì)課件
- 消防工程施工驗收單樣板
- 中央空調(diào)人員培訓(xùn)內(nèi)容表
- 發(fā)現(xiàn)生活中的美-完整版PPT
- 小學(xué)道德與法治人教三年級上冊第三單元安全護我成長-《遭遇陌生人》教案
- CAMDS操作方法及使用技巧
- 平狄克《微觀經(jīng)濟學(xué)》(第8版)筆記和課后習(xí)題詳解
- 最優(yōu)化理論與算法課程教學(xué)大綱
評論
0/150
提交評論