




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第1章 認(rèn)識數(shù)據(jù)挖掘數(shù)據(jù)挖掘定義機(jī)器學(xué)習(xí)數(shù)據(jù)查詢專家系統(tǒng)數(shù)據(jù)挖掘過程/作用/技術(shù)/應(yīng)用Weka數(shù)據(jù)挖掘軟件本章目標(biāo)掌握數(shù)據(jù)挖掘的定義了解機(jī)器學(xué)習(xí)中的基本方法概念學(xué)習(xí)歸納學(xué)習(xí)有指導(dǎo)的學(xué)習(xí)無指導(dǎo)的聚類了解與數(shù)據(jù)挖掘有關(guān)的數(shù)據(jù)查詢、專家系統(tǒng)了解數(shù)據(jù)挖掘的過程、作用、技術(shù)、應(yīng)用掌握Weka數(shù)據(jù)挖掘軟件的使用方法07 八月 2022第2頁,共65頁1.1 數(shù)據(jù)挖掘定義數(shù)據(jù)挖掘(Data Mining)技術(shù)角度利用一種或多種計算機(jī)學(xué)習(xí)技術(shù),從數(shù)據(jù)中自動分析并提取信息的處理過程。目的是尋找和發(fā)現(xiàn)數(shù)據(jù)中潛在的有價值的信息、知識、規(guī)律、聯(lián)系和模式。數(shù)據(jù)挖掘與計算機(jī)科學(xué)有關(guān),一般使用機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)、聯(lián)機(jī)分析處理
2、、專家系統(tǒng)和模式識別等多種方法來實現(xiàn)。學(xué)科角度數(shù)據(jù)挖掘是一門交叉學(xué)科,涉及數(shù)據(jù)庫技術(shù)、人工智能技術(shù)、統(tǒng)計學(xué)、可視化技術(shù)、并行計算等多種技術(shù)。07 八月 2022第4頁,共65頁商業(yè)角度商業(yè)智能信息處理技術(shù);圍繞商業(yè)目標(biāo)開展的,對大量商業(yè)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù),揭示隱藏的、未知的或驗證已知的規(guī)律性,是一種深層次的商業(yè)數(shù)據(jù)分析方法。 07 八月 2022第5頁,共65頁數(shù)據(jù)挖掘(Data Mining)1.2 機(jī)器學(xué)習(xí)1.2.1 概念學(xué)習(xí)通過對大量實例進(jìn)行訓(xùn)練,從中發(fā)現(xiàn)經(jīng)驗化規(guī)律的過程。機(jī)器學(xué)習(xí)結(jié)果的通常表現(xiàn)形式為概念。機(jī)器最擅長的是學(xué)習(xí)概念。概念(Con
3、cept)具有某些共同特征的對象、符號或事件的集合。概念可以從三個不同的角度來看待07 八月 2022第7頁,共65頁1.2.1 概念學(xué)習(xí)1、傳統(tǒng)角度(Classical View)所有概念都有明確的定義。2、概率角度(Probabilistic View)對個別樣本實例進(jìn)行概括性描述,概括性說明構(gòu)成了概率角度中的概念。3、樣本角度(Exemplar View)樣本角度中的概念是將某個概念中的典型實例組成一個集合,使用該集合來描述概念定義。07 八月 2022第8頁,共65頁1.2.2 歸納學(xué)習(xí)(Induction-Based Learning)基于歸納的學(xué)習(xí)機(jī)器學(xué)習(xí)方式人類學(xué)習(xí)最重要方式之一
4、人類通過對事物的特定實例的觀察,對所掌握的已有經(jīng)驗材料研究。歸納學(xué)習(xí)從歸納中獲取和探索新知識,并以概念的形式表現(xiàn)出來的學(xué)習(xí)。07 八月 2022第9頁,共65頁1.2.3 有指導(dǎo)的學(xué)習(xí)(Supervised Learning)定義通過對大量已知分類或輸出結(jié)果值的實例進(jìn)行訓(xùn)練,調(diào)整分類模型的結(jié)構(gòu),達(dá)到建立能夠準(zhǔn)確分類或預(yù)測未知模型的目的。這種基于歸納的概念學(xué)習(xí)過程被稱為有指導(dǎo)(監(jiān)督)的學(xué)習(xí)。數(shù)據(jù)實例(Instance)用于有指導(dǎo)學(xué)習(xí)的樣本數(shù)據(jù)訓(xùn)練實例(Training Instance)用于訓(xùn)練的實例檢驗實例(Test Instance)分類模型建立完成后,經(jīng)過檢驗實例進(jìn)行檢驗,判斷模型是否能夠
5、很好地應(yīng)用在未知實例的分類或預(yù)測中。07 八月 2022第10頁,共65頁【例1.1】給定如表1.1所示的數(shù)據(jù)集T,使用有指導(dǎo)的學(xué)習(xí)方法建立分類模型,對未知類別的實例進(jìn)行分類。表1.1 感冒診斷假想數(shù)據(jù)集序號Increased-lym淋巴細(xì)胞升高Leukocytosis白細(xì)胞升高Fever發(fā)燒Acute-onset起病急Sore-throat咽痛Cooling-effect退熱效果Group群體發(fā)病Cold-type感冒類型1YesNoYesYesNoGoodYesViral2NoYesYesNoYesNot goodYesBacterial3YesNoYesYesYesGoodYesVira
6、l4YesNoNoYesNoUnknownNoViral5NoNoNoNoYesUnknownNoBacterial6NoYesYesYesYesNot goodNoBacterial7NoYesYesNoYesNot goodNoViral8YesNoYesNoNoGoodYesViral9YesYesYesYesYesGoodYesViral10YesYesYesNoYesNot goodNoBacterial07 八月 2022第12頁,共65頁表1.1 感冒診斷假想數(shù)據(jù)集決策樹(Decision Tree)倒立樹,非葉子節(jié)點(diǎn)表示在一個屬性上的分類檢查,葉子節(jié)點(diǎn)表示決策判斷的結(jié)果,該結(jié)果
7、選擇了正確分類較多實例的分類。決策樹有很多算法(第2章)07 八月 2022第13頁,共65頁圖1.1 感冒類型診斷C4.5決策樹分類未知實例分類模型建立和檢驗完成后,就可以實際投入使用,即用該模型對未知分類的實例進(jìn)行分類。07 八月 2022第14頁,共65頁表1.2 未知分類的數(shù)據(jù)實例序號Increased-lym淋巴細(xì)胞升高Leukocytosis白細(xì)胞升高Fever發(fā)燒Acute-onset起病急Sore-throat咽痛Cooling-effect退熱效果Group群體發(fā)病Cold-type感冒類型NoYesYesNoNoNot goodNo?YesNoYesNoYesGoodNo?
8、產(chǎn)生式規(guī)則決策樹一般都可以被翻譯為一個產(chǎn)生式規(guī)則集合。產(chǎn)生式規(guī)則的格式為:IF 前提條件 THEN 結(jié)論圖1.1翻譯為4條產(chǎn)生式規(guī)則(1)IF Sore-throat = No THEN Cold-type = Viral(2)IF Sore-throat = Yes & Cooling-effect = Good THEN Cold-type = Viral (3)IF Sore-throat = Yes & Cooling-effect = Not good THEN Cold-type = Bacterial(4)IF Sore-throat = Yes & Cooling-effect
9、 = Unknown THEN Cold-type = Bacterial07 八月 2022第15頁,共65頁1.2.4 無指導(dǎo)的聚類(Unsupervised Clustering)無指導(dǎo)(監(jiān)督)聚類一種無指導(dǎo)(無教師)的學(xué)習(xí);在學(xué)習(xí)訓(xùn)練之前,無預(yù)先定義好分類的實例,數(shù)據(jù)實例按照某種相似性度量方法,計算實例之間的相似程度,將最為相似的實例聚類在一個組簇(Cluster)中,再解釋和理解每個簇的含義,從中發(fā)現(xiàn)聚類的意義。07 八月 2022第16頁,共65頁【例1.2】給定如表1.1所示的數(shù)據(jù)集T,使用無指導(dǎo)聚類方法,對所有實例進(jìn)行分類,解釋每個簇的含義。挖掘準(zhǔn)備刪除Cold-type(感冒
10、類型)屬性選擇算法無指導(dǎo)聚類有很多種算法,K-means(K-均值)算法、凝聚聚類方法、概念分層Cobweb算法、EM算法等。K-means算法是一種最為常用和易用的算法。指定初始簇K-means(K-均值)算法在聚類前指定一個初始的簇的個數(shù),本例指定為2。07 八月 2022第18頁,共65頁聚類結(jié)果聚類為兩個簇,每個簇有5個實例,分別為Cluster0 = 1,3,4,8,9Cluster1 = 2,5,6,7,10每個簇的概念結(jié)構(gòu)可以表示為一個產(chǎn)生式規(guī)則(1)IF Increased-lym = Yes & Cooling-effect =Good THEN Cluster = 0(ru
11、le accuracy = 4/4 = 100%,rule coverage = 4/5 = 80%)(2)IF Sore-throat = Yes & Cooling-effect = Not good THEN Cluster = 1(rule accuracy = 4/4 = 100%,rule coverage = 4/5 = 80%)07 八月 2022第19頁,共65頁1.3 數(shù)據(jù)查詢數(shù)據(jù)查詢(Data Query)通過數(shù)據(jù)查詢語言在數(shù)據(jù)中找出所需要的數(shù)據(jù)或信息。什么時候使用數(shù)據(jù)挖掘,什么時候使用數(shù)據(jù)查詢呢?獲取淺知識或多維知識(Multidimensional Knowledge
12、)獲取數(shù)據(jù)中潛在的、隱藏的信息或知識隱含知識(Hidden Knowledge)07 八月 2022第21頁,共65頁1.4 專家系統(tǒng)專家系統(tǒng)(Expert System)一種具有“智能”的計算機(jī)軟件系統(tǒng)。能夠模擬某個領(lǐng)域的人類專家的決策過程,解決那些需要人類專家處理的復(fù)雜問題。一般包含以規(guī)則形式表示的領(lǐng)域?qū)<业闹R和經(jīng)驗,系統(tǒng)就是利用這些知識和方法進(jìn)行推理和判斷,從而解決該領(lǐng)域中實際問題。專家(Expert)有能力解決領(lǐng)域中復(fù)雜問題的人通常被稱為該領(lǐng)域中的專家(Expert)07 八月 2022第23頁,共65頁專家系統(tǒng)方法 與 數(shù)據(jù)挖掘方法07 八月 2022第24頁,共65頁圖1.2專家
13、系統(tǒng)方法vs 數(shù)據(jù)挖掘方法1.5 數(shù)據(jù)挖掘的過程KDD過程數(shù)據(jù)挖掘是KDD過程中的一個階段(第3章)一次數(shù)據(jù)挖掘?qū)嶒灧譃?個步驟(1)準(zhǔn)備數(shù)據(jù),包括準(zhǔn)備訓(xùn)練數(shù)據(jù)和檢驗數(shù)據(jù)(2)選擇一種數(shù)據(jù)挖掘技術(shù)或算法,將數(shù)據(jù)提交給數(shù)據(jù)挖掘軟件(3)解釋和評估結(jié)果(4)模型應(yīng)用07 八月 2022第26頁,共65頁圖1.3 數(shù)據(jù)挖掘?qū)嶒炦^程示意圖1.5.1 準(zhǔn)備數(shù)據(jù)是整個數(shù)據(jù)挖掘過程中較為重要和費(fèi)時費(fèi)力的階段。在明確數(shù)據(jù)挖掘目標(biāo)后,可以通過從傳統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)倉庫和平面文件三種途徑收集和抽取數(shù)據(jù)。1、傳統(tǒng)數(shù)據(jù)庫操作型數(shù)據(jù)庫(Operational Database),它是面向日常事務(wù)處理的數(shù)據(jù)庫,通常結(jié)構(gòu)為關(guān)系
14、模型。數(shù)據(jù)庫中包含若干個規(guī)范化了的二維關(guān)系表。2、數(shù)據(jù)倉庫數(shù)據(jù)倉庫(Data Warehouse)是面向決策支持而不是日常事務(wù)處理而設(shè)計的。3、平面文件一些數(shù)據(jù)量較小的數(shù)據(jù)集可以存儲在如Excel電子表格、.csv、.arff等平面文件中。07 八月 2022第27頁,共65頁1.5.2 挖掘數(shù)據(jù)選擇一種數(shù)據(jù)挖掘技術(shù)或算法,將數(shù)據(jù)提交給數(shù)據(jù)挖掘工具,應(yīng)用該算法建立模型。選擇數(shù)據(jù)挖掘技術(shù)或算法需要考慮(1)判斷學(xué)習(xí)是有指導(dǎo)的還是無指導(dǎo)的。(2)數(shù)據(jù)集中的哪些實例和屬性提交給數(shù)據(jù)挖掘工具;哪些數(shù)據(jù)實例作為訓(xùn)練數(shù)據(jù);哪些數(shù)據(jù)實例作為檢驗數(shù)據(jù)。(3)如何設(shè)置數(shù)據(jù)挖掘算法的參數(shù)。07 八月 2022第2
15、8頁,共65頁1.5.3 解釋和評估結(jié)果對數(shù)據(jù)挖掘的輸出進(jìn)行檢查,評估其是否達(dá)到挖掘目標(biāo),確定所發(fā)現(xiàn)的信息或知識是有價值的。數(shù)據(jù)挖掘的評估工具有多種(第5章)如果結(jié)果不理想,可以(1)(2)進(jìn)行重復(fù)實驗,直到得到滿意結(jié)果為止。(1)使用或選擇新的數(shù)據(jù)實例或?qū)傩裕?)選擇新的數(shù)據(jù)挖掘算法或參數(shù)一個數(shù)據(jù)挖掘過程是個迭代的過程。07 八月 2022第29頁,共65頁1.5.4 模型應(yīng)用數(shù)據(jù)挖掘的終極目標(biāo)。可以應(yīng)用分類模型解決如例1.1中的疾病診斷問題;可以應(yīng)用聚類模型解決對顧客的分類,找出不同類中顧客的行為特征,從而為諸如促銷活動等提供決策支持;可以通過應(yīng)用關(guān)聯(lián)分析模型,找出顧客購買的商品之間的關(guān)聯(lián)
16、關(guān)系,對于貨架擺放、商品促銷等提供決策支持。07 八月 2022第30頁,共65頁1.6 數(shù)據(jù)挖掘的作用數(shù)據(jù)挖掘的作用兩大類建立有指導(dǎo)的學(xué)習(xí)模型和無指導(dǎo)聚類模型。因變量(Dependent Variables)有指導(dǎo)的學(xué)習(xí)模型中的輸出屬性的值依賴于輸入屬性的取值,所以輸出屬性又被稱為因變量自變量(Independent Variables)相對的,輸入屬性被稱為自變量07 八月 2022第32頁,共65頁數(shù)據(jù)挖掘的作用07 八月 2022第33頁,共65頁圖1.4數(shù)據(jù)挖掘的作用1.7 數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)(Data Mining Technique)對一組數(shù)據(jù)應(yīng)用一種數(shù)據(jù)挖掘方法。一般由一
17、個數(shù)據(jù)挖掘算法和一個相關(guān)的知識結(jié)構(gòu),如樹結(jié)構(gòu)或規(guī)則來定義的。07 八月 2022第35頁,共65頁1.7.1 神經(jīng)網(wǎng)絡(luò)(Neural Network)一種具有統(tǒng)計特性的數(shù)學(xué)模型。創(chuàng)建思想源于人類神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)、功能和運(yùn)行過程。試圖模擬人腦功能來完成學(xué)習(xí)。已經(jīng)成功地應(yīng)用于多個領(lǐng)域的問題中,是非常流行的數(shù)據(jù)挖掘技術(shù)??梢越⒂兄笇?dǎo)學(xué)習(xí)模型和無指導(dǎo)聚類模型。輸入屬性必須是數(shù)值的,輸出屬性可以是數(shù)值的也可以是分類的。07 八月 2022第36頁,共65頁前饋(Feed-Forward)神經(jīng)網(wǎng)常用的有指導(dǎo)的學(xué)習(xí)模型。全連接每一層的每個節(jié)點(diǎn)都與其下一層的所有節(jié)點(diǎn)相連接,而同層節(jié)點(diǎn)之間不相連。每個網(wǎng)絡(luò)連接上
18、都具有權(quán)重值,如w1j、w2j、w3j。07 八月 2022第37頁,共65頁圖1.5 三層全連接前饋神經(jīng)網(wǎng)建立神經(jīng)網(wǎng)絡(luò)模型的兩個階段第一個階段學(xué)習(xí)訓(xùn)練階段將每個實例的輸入屬性值提交給輸入層節(jié)點(diǎn)。神經(jīng)網(wǎng)絡(luò)使用輸入值和網(wǎng)絡(luò)連接權(quán)重值來計算每個實例的輸出。將每個實例的輸出和希望的網(wǎng)絡(luò)輸出進(jìn)行比較,希望值和計算輸出值之間的誤差通過修改連接權(quán)值傳回網(wǎng)絡(luò)。當(dāng)達(dá)到一定的迭代次數(shù)后或當(dāng)網(wǎng)絡(luò)收斂到一個預(yù)定的最低錯誤率時,訓(xùn)練終止。第二個階段檢驗階段固定網(wǎng)絡(luò)權(quán)重,將模型用于計算新實例的輸出值。07 八月 2022第38頁,共65頁1.7.2 回歸分析(Regression Analysis)一種統(tǒng)計分析方法。可
19、以用來確定兩個或兩個以上變量之間的定量的依賴關(guān)系,并建立一個數(shù)學(xué)方程作為數(shù)學(xué)模型,來概化一組數(shù)值數(shù)據(jù),進(jìn)而進(jìn)行數(shù)值數(shù)據(jù)的估值和預(yù)測。應(yīng)用非常廣泛。07 八月 2022第39頁,共65頁辦公樓數(shù)據(jù)集序號Space(x1)Offices(x2)Entrances(x3)Age(x4)Value1231022201420002233322121440003235631.5331510004237932431500005240223531390006242542231690007244821.5991260008247122341429009249433231630001025174455169000
20、112540232214900007 八月 2022第40頁,共65頁表1.3 辦公樓數(shù)據(jù)集回歸模型07 八月 2022第41頁,共65頁y = 27.642500 + 12 529.773 + 2553.212234.2425 + 52 317.83 = 158 257.56 使用回歸方程預(yù)估辦公樓的價值。設(shè)有一座未知價值的辦公樓,面積為 2500、3個辦公室、2 個入口,已使用 25 年,則其估計價值計算所得,為158 257.56。1.7.3 關(guān)聯(lián)分析一種關(guān)聯(lián)規(guī)則(Association Rule)挖掘技術(shù),用于發(fā)現(xiàn)數(shù)據(jù)中屬性之間的有價值的聯(lián)系。關(guān)聯(lián)規(guī)則可以有多個輸出屬性,一個規(guī)則的輸出
21、屬性可以在另一規(guī)則中作為輸入屬性。關(guān)聯(lián)分析用來發(fā)現(xiàn)潛在的令人感興趣的商品購買組合,是購物籃分析的常用技術(shù)。關(guān)聯(lián)分析有多種算法,其中最著名的為Agrawal等人于1993年提出的Apriori關(guān)聯(lián)分析算法。Apriori算法不支持?jǐn)?shù)值型數(shù)據(jù),在使用該算法之前,需要進(jìn)行必要的數(shù)據(jù)變換。07 八月 2022第42頁,共65頁【例1.3】應(yīng)用Apriori算法,對表1.1中的數(shù)據(jù)集進(jìn)行關(guān)聯(lián)分析,找出感冒癥狀之間的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)規(guī)則生成三條關(guān)聯(lián)規(guī)則(1)IF Leukocytosis = Yes THEN Fever = Yes(rule accuracy = 5/5 = 100%,rule cover
22、age = 5/8 = 62.5%)(2)IF Increased-lym = No THEN Sore-throat=Yes(rule accuracy = 4/4 = 100%,rule coverage = 4/7 = 57.1%)(3) IF Cooling-effect = Good THEN Fever = Yes(rule accuracy = 4/4 = 100%,rule coverage = 4/8 = 50%)07 八月 2022第44頁,共65頁1.7.4 聚類技術(shù)基于劃分的聚類方法(K-means算法)基于分層的聚類方法基于模型的聚類方法。07 八月 2022第45頁
23、,共65頁1.8 數(shù)據(jù)挖掘的應(yīng)用1.8.1應(yīng)用領(lǐng)域07 八月 2022第47頁,共65頁圖1.6 網(wǎng)站公布的2012年數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域1.8.2 成功案例除了最著名的沃爾瑪?shù)哪虿己推【浦?,還有(1)Empire Blue Cross公司利用DWT,甄別出虛假開立醫(yī)療憑據(jù)的醫(yī)生,節(jié)省濫賠支出。(2)金融犯罪強(qiáng)制網(wǎng)絡(luò)AI系統(tǒng)(FAIS)使用DWT ,識別大型現(xiàn)金交易中可能存在的洗錢行為。(3)加拿大西門菲沙大學(xué)(Simon Fraser)的KDD研究組根據(jù)其擁有的十幾年的客戶數(shù)據(jù),進(jìn)行數(shù)據(jù)挖掘分析,提出了新的電話收費(fèi)和管理辦法,制定出公司和客戶都受益的優(yōu)惠政策。(4)美國梅?。∕ellon)銀
24、行使用Intelligent Agent數(shù)據(jù)挖掘工具提高銷售和定價金融產(chǎn)品的準(zhǔn)確率。(5)美國西部通信(US West Communications)根據(jù)家庭大小、家庭成員平均年齡和所在地特征,使用數(shù)據(jù)挖掘和數(shù)據(jù)倉庫來確定客戶的傾向和需要,從而幫助簽約新客戶和增加與新客戶的交易額。(6)使用貝葉斯分類數(shù)據(jù)挖掘技術(shù),薩莎(Sacha)等人成功地通過心肌SPECT圖像對心肌灌注進(jìn)行分類,診斷患者是否患有冠心病。(7)20世紀(jì)Fox公司利用數(shù)據(jù)挖掘技術(shù)分析票房收入來確定在各個市場環(huán)境中更容易被接受的演員和故事情節(jié)。(8)科學(xué)界普遍認(rèn)為存在兩種射線爆。慕克吉(Mukherjee)等人使用統(tǒng)計聚類分析法
25、發(fā)現(xiàn)了第三類射線爆。(9)NBA球隊使用IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件Advanced Scout系統(tǒng)來優(yōu)化他們的戰(zhàn)術(shù)組合。(10)全球十大視頻網(wǎng)站之一Netflix公司應(yīng)用大數(shù)據(jù)的挖掘技術(shù),成功營銷熱播劇紙牌屋。07 八月 2022第48頁,共65頁1.9 Weka數(shù)據(jù)挖掘軟件1.9.1 Weka簡介Weka(Waikato Environment for Knowledge Analysis,懷卡托智能分析環(huán)境)誕生于 University of Waikato(新西蘭懷卡托大學(xué))。基于Java 的免費(fèi)開源軟件。集成了有關(guān)數(shù)據(jù)挖掘的機(jī)器學(xué)習(xí)算法和統(tǒng)計技術(shù),具有數(shù)據(jù)預(yù)處理、分類、聚類、關(guān)聯(lián)
26、分析、屬性選擇和交互式可視化等功能。操作簡單、易學(xué)易用,作為入門軟件完成簡單挖掘工作。若未安裝 JRE,需下載包含 JRE 的 Weka 版本(Weka 3.6.10)07 八月 2022第50頁,共65頁1. Weka的特點(diǎn)Weka軟件特點(diǎn)(1)跨平臺;(2)支持結(jié)構(gòu)化文本文件、數(shù)據(jù)挖掘格式文件和數(shù)據(jù)庫接口;(3)可處理連續(xù)型數(shù)值數(shù)據(jù)和離散型(字符型和日期型)數(shù)據(jù);(4)具有缺失數(shù)據(jù)處理、噪聲處理、標(biāo)準(zhǔn)化、數(shù)據(jù)離散化、屬性構(gòu)造、轉(zhuǎn)換變量、拆分?jǐn)?shù)據(jù)、數(shù)據(jù)平滑等數(shù)據(jù)預(yù)處理功能;(5)具有分類、聚類、關(guān)聯(lián)和可視化等數(shù)據(jù)挖掘功能;(6)提供算法組合、用戶自定義算法嵌入、算法參數(shù)設(shè)置功能;(7)能夠生成基本報告、測試報告、輸出格式,實現(xiàn)模型解釋、模型比較、數(shù)據(jù)評分功能;(8)具有數(shù)據(jù)、挖掘過程及挖掘結(jié)果可視化功能。07 八月 2022第52頁,共65頁2. Weka的文件格式ARFF文件Weka默認(rèn)使用ARFF(Attribute-Relation File Format)。一種ASCII文本文件格式,由兩部分組成第一部分為頭信息(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 1秋天 教學(xué)設(shè)計-2024-2025學(xué)年語文一年級上冊統(tǒng)編版
- 長沙電力職業(yè)技術(shù)學(xué)院《創(chuàng)意教學(xué)法》2023-2024學(xué)年第二學(xué)期期末試卷
- 綿陽師范學(xué)院《體育課健美操》2023-2024學(xué)年第二學(xué)期期末試卷
- 1《沁園春 長沙》教學(xué)設(shè)計 2024-2025學(xué)年統(tǒng)編版高中語文必修上冊
- Unit 6 Food Lesson 4 (教學(xué)設(shè)計)-2024-2025學(xué)年人教精通版(2024)英語三年級上冊
- 河南醫(yī)學(xué)高等專科學(xué)校《現(xiàn)代審計學(xué)(英語)》2023-2024學(xué)年第二學(xué)期期末試卷
- 河北北方學(xué)院《粵劇藝術(shù)賞析》2023-2024學(xué)年第二學(xué)期期末試卷
- 中國醫(yī)科大學(xué)《建筑綜合體實訓(xùn)休閑娛樂空間》2023-2024學(xué)年第二學(xué)期期末試卷
- 蘭州博文科技學(xué)院《機(jī)器人建模和仿真》2023-2024學(xué)年第二學(xué)期期末試卷
- 《改造我們的學(xué)習(xí)》教學(xué)設(shè)計 2023-2024學(xué)年統(tǒng)編版高中語文選擇性必修中冊
- 第6課歐洲的思想解放運(yùn)動教學(xué)設(shè)計2023-2024學(xué)年中職高一下學(xué)期高教版(2023)世界歷史
- 2024年云南省昆明市選調(diào)生考試(公共基礎(chǔ)知識)綜合能力題庫必考題
- 2024年湖南高速鐵路職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫參考答案
- 腎性高血壓的護(hù)理
- 2024年時事政治熱點(diǎn)題庫200道附完整答案【必刷】
- 中國歷史地理概況智慧樹知到期末考試答案章節(jié)答案2024年復(fù)旦大學(xué)
- 2024年山東信息職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫及答案解析
- 關(guān)于辦理物業(yè)管理交接事宜告知函
- 《電解富氫水機(jī)》課件
- 教學(xué)能力大賽-教學(xué)實施報告《大學(xué)英語2c》
- 江蘇農(nóng)牧科技職業(yè)學(xué)院單招《職業(yè)技能測試》參考試題庫(含答案)
評論
0/150
提交評論