汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)_第1頁
汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)_第2頁
汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)_第3頁
汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)_第4頁
汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)xxx公司汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)文件編號(hào):文件日期:修訂次數(shù):第1.0次更改批準(zhǔn)審核制定方案設(shè)計(jì),管理制度汕頭大學(xué)2019數(shù)據(jù)挖掘期末復(fù)習(xí)資料(浩軍老師班)考試范圍:數(shù)據(jù)預(yù)處理、數(shù)據(jù)關(guān)聯(lián)分析、分類與預(yù)測、SVM、K-MEANS、聚類考試題型:簡答題,復(fù)習(xí)請以實(shí)驗(yàn)相關(guān)內(nèi)容為主數(shù)據(jù)挖掘課程的主要內(nèi)容:1.數(shù)據(jù)挖掘概述2.數(shù)據(jù)預(yù)處理3.數(shù)據(jù)挖掘算法-關(guān)聯(lián)分析4.數(shù)據(jù)挖掘算法-分類與預(yù)測5.數(shù)據(jù)挖掘算法-聚類分析一、數(shù)據(jù)挖掘概述什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘概念:從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)(機(jī)器學(xué)習(xí))的綜合。數(shù)據(jù)挖掘定義:數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)的特征:大容量、含噪音(不完全、不正確)、異質(zhì)數(shù)據(jù)(多種數(shù)據(jù)類型混合的數(shù)據(jù)源,來自互聯(lián)網(wǎng)的數(shù)據(jù)是典型的例子)數(shù)據(jù)挖掘有哪些步驟?確定預(yù)測目標(biāo)統(tǒng)計(jì)數(shù)據(jù)特征根據(jù)數(shù)據(jù)特征進(jìn)行數(shù)據(jù)預(yù)處理應(yīng)用數(shù)據(jù)挖掘模型(分類、聚類、關(guān)聯(lián)分析、離群點(diǎn)挖掘、標(biāo)記等)分析模型的準(zhǔn)確率找出影響模型準(zhǔn)確率的因素,回到第3步迭代直到模型足夠完美。二、數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理有哪些步驟?數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)歸約數(shù)據(jù)變換與數(shù)據(jù)離散化為什么要進(jìn)行數(shù)據(jù)預(yù)處理?現(xiàn)實(shí)世界的數(shù)據(jù)是不完整的、含有噪聲的、不一致的、冗余的。低質(zhì)量的數(shù)據(jù)將導(dǎo)致低質(zhì)量的挖掘結(jié)果。1)現(xiàn)實(shí)世界的數(shù)據(jù)一般是臟的、不完整的和不一致的。2)數(shù)據(jù)預(yù)處理技術(shù)可以改進(jìn)數(shù)據(jù)的質(zhì)量,從而有助于提高其后的挖掘過程的精度和性能。3)高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù),因此數(shù)據(jù)預(yù)處理是知識(shí)發(fā)現(xiàn)過程的重要步驟。數(shù)據(jù)的質(zhì)量涉及的三個(gè)要素是?

準(zhǔn)確性,完整性和一致性?,F(xiàn)實(shí)世界的數(shù)據(jù)一般是臟的不完整的不一致的。數(shù)據(jù)預(yù)處理技術(shù)可以改善數(shù)據(jù)的質(zhì)量。如何填充數(shù)據(jù)中存在的缺失值?忽略元組(刪除)使用一個(gè)全局常量填充空缺值(例如NULL)使用屬性的平均值、眾數(shù)、中位數(shù)來填充空缺值人工填充空缺值數(shù)據(jù)清理補(bǔ)充缺失的屬性值:使用屬性的中心度量(如均值或者中位數(shù)或者眾數(shù)(頻率度量出現(xiàn)單峰)填充缺失值。使用最可能的值填充缺失值(可以用回歸,使用貝葉斯形式化方法)光滑數(shù)據(jù),去掉噪聲:噪聲是被測量的變量的隨機(jī)誤差或者方差。數(shù)據(jù)光滑的技術(shù):分箱法,把有序的數(shù)據(jù)數(shù)量等頻地分到箱子中,可以用箱的均值光滑,用箱的邊界值光滑,用箱的中位數(shù)光滑。數(shù)據(jù)集成將數(shù)據(jù)由多個(gè)數(shù)據(jù)源合并成一個(gè)一致的數(shù)據(jù)存儲(chǔ),如數(shù)據(jù)倉庫(集成多個(gè)數(shù)據(jù)庫)。數(shù)據(jù)歸約可以通過如聚集、刪除冗余特征或者聚類來降低數(shù)據(jù)的規(guī)模。(得到數(shù)據(jù)的簡化表示)簡化數(shù)據(jù)、但產(chǎn)生相同或者相似的結(jié)果通過選擇替代的、“較小的”數(shù)據(jù)表示形式來減少數(shù)據(jù)量。數(shù)據(jù)變換(例如,規(guī)范化,離散化)可以把數(shù)據(jù)壓縮到較小的區(qū)間,如0.0到1.0。這可以提高涉及距離度量的挖掘算法的準(zhǔn)確率和效率。規(guī)范化和聚集數(shù)據(jù)最小-最大規(guī)范化最小-最大規(guī)范化:將原始數(shù)據(jù)v經(jīng)線性變換,映射到區(qū)間[new_minA,new_maxA]選擇區(qū)間,找到數(shù)據(jù)最大值和最小值,進(jìn)行區(qū)間規(guī)范化離群點(diǎn)可能影響規(guī)范化零族規(guī)范化z-score規(guī)范化(零均值規(guī)范化):屬性A的值基于A的平均值和標(biāo)準(zhǔn)差規(guī)范化。對(duì)離群點(diǎn)不敏感離散化:通俗的說,離散化是在不改變數(shù)據(jù)相對(duì)大小的條件下,對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的縮小。概念解釋離群點(diǎn):與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對(duì)象數(shù)據(jù)錯(cuò)誤不可避免數(shù)據(jù)輸入和獲取過程出現(xiàn)的錯(cuò)誤數(shù)據(jù)集成表現(xiàn)出來的錯(cuò)誤數(shù)據(jù)傳輸過程所引入的錯(cuò)誤分箱:通過考察數(shù)據(jù)的“近鄰”(周圍的值)來光滑有序數(shù)據(jù)的值。局部光滑。回歸:(線性回歸,多元線性回歸)用一個(gè)函數(shù)(回歸函數(shù))擬合數(shù)據(jù)來光滑數(shù)據(jù)。聚類:將類似的值聚集為簇??梢宰R(shí)別并刪除離群點(diǎn)、解決數(shù)據(jù)的不一致基本描述數(shù)據(jù)匯總的圖形顯示(數(shù)據(jù)排序后使用)盒圖(需要先將數(shù)據(jù)進(jìn)行有序排列):

盒圖可以用五數(shù)概括(上下四分位數(shù)、中位數(shù)、上下邊緣)四分位數(shù)是3個(gè)值,把排序的數(shù)據(jù)集分成4個(gè)相等的部分。盒的端點(diǎn)一般在四分位數(shù)上,使得盒的長度是四分位數(shù)的極差I(lǐng)QR(上四分位數(shù)75%,下四分位數(shù)25%)中位數(shù)用盒內(nèi)的線標(biāo)記。盒外兩條虛線(稱為胡須)延伸到最小和最大的觀測值(上邊緣、下邊緣)。超過過四分位數(shù)1.5*IQR時(shí),單獨(dú)畫出離群點(diǎn),否則讓胡須擴(kuò)展到它們。直方圖:通常讓一個(gè)桶代表給定屬性的一個(gè)連續(xù)值域。概括給定屬性分布的圖形方法,每個(gè)矩形等寬。分位數(shù)圖:是一種觀察單變量數(shù)據(jù)分布的簡單有效的方法。分位數(shù)-分位數(shù)圖可以查看一個(gè)分布到另外一個(gè)分布是否有漂移(確定間隔)散布圖(散點(diǎn)圖):是一種觀察雙變量數(shù)據(jù)的有用的方法,用于觀察點(diǎn)簇和離群點(diǎn),或考察相關(guān)聯(lián)系的可能性。確定兩個(gè)數(shù)值變量之間看上去是否存在聯(lián)系、模式或者趨勢的有效圖形之一。兩個(gè)變量屬性的三個(gè)關(guān)系可以從散點(diǎn)圖上看出來:正相關(guān)、負(fù)相關(guān)、不相關(guān)。分布式度量、代數(shù)度量、整體度量的概念1)分布式度量:可以通過如下方法計(jì)算度量(即函數(shù)):將數(shù)據(jù)集劃分成較小的子集,計(jì)算每個(gè)子集的度量,然后合并計(jì)算結(jié)果,得到原(整個(gè))數(shù)據(jù)集的度量值。sum()、count()、min()、max()2)代數(shù)度量:可以通過應(yīng)用一個(gè)代數(shù)函數(shù)于一個(gè)或多個(gè)分布度量計(jì)算的度量(平均數(shù)sum/count)3)整體度量:必須對(duì)整個(gè)數(shù)據(jù)集計(jì)算的度量。例如:中位數(shù)、眾數(shù)三、數(shù)據(jù)關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則挖掘(AssociationRuleMining)是數(shù)據(jù)挖掘中最活躍的研究內(nèi)容之一。一個(gè)典型的關(guān)聯(lián)規(guī)則的例子:70%購買了牛奶的顧客將傾向于同時(shí)購買面包。發(fā)現(xiàn)這樣的關(guān)聯(lián)規(guī)則可以為市場預(yù)測、決策和策劃等方面提供依據(jù)。技術(shù)用語解釋:頻繁模式是頻繁地出現(xiàn)在數(shù)據(jù)集中的模式(如項(xiàng)集、子序列、子結(jié)構(gòu))頻繁項(xiàng)集:例如,頻繁地同時(shí)出現(xiàn)在交易數(shù)據(jù)集中的商品項(xiàng)目(如牛奶與面包)的集合是頻繁項(xiàng)集。序列模式:例如,先買PC,然后是數(shù)碼相機(jī),再后是內(nèi)存卡,如果它頻繁地出現(xiàn)在歷史數(shù)據(jù)庫中,則稱它為一個(gè)頻繁的序列模式。子結(jié)構(gòu):一個(gè)子結(jié)構(gòu)可能涉及不同的結(jié)構(gòu)形式,如子圖、子樹或者子格,它可能與項(xiàng)集或者子序列結(jié)合在一起。如果一個(gè)子結(jié)構(gòu)頻繁地出現(xiàn),則稱它為頻繁的結(jié)構(gòu)模式。關(guān)聯(lián)規(guī)則中的支持度和置信度?規(guī)則的支持度和置信度是規(guī)則興趣度的兩種度量。它們分別反映所發(fā)現(xiàn)規(guī)則的有用性和確定性。Computer=>antivirus_software[support=2%;confidence=60%]表示所分析的所有事物的2%顯示計(jì)算機(jī)和殺毒軟件被同時(shí)購買,置信度60%意味購買計(jì)算機(jī)的顧客60%也購買了殺毒軟件。支持度(項(xiàng)集X在交易集中出現(xiàn)的概率)可信度(置信度)關(guān)聯(lián)規(guī)則的可信度(Confidence)是指包含X和Y的交易數(shù)與包含X的交易數(shù)之比:關(guān)聯(lián)規(guī)則的可信度反映了如果交易中包含X,則交易中同時(shí)出現(xiàn)Y的概率。例如:關(guān)聯(lián)規(guī)則R1:{bread}{milk}的可信度為confidence(R1)=support({bread,milk})/support({bread})=0.5/0.7=5/7。項(xiàng)目與項(xiàng)集設(shè)I={i1,i2,…,im}是由m個(gè)不同項(xiàng)目構(gòu)成的集合,其中的每個(gè)ik(k=1,2,…,m)被稱為一個(gè)項(xiàng)目(Item)。例如:在超市的關(guān)聯(lián)規(guī)則挖掘中,項(xiàng)目就是顧客購買的各種商品,如:bread,milk等。項(xiàng)目的集合I被稱為項(xiàng)目集合(Itemset),簡稱項(xiàng)集。I中元素個(gè)數(shù)稱為項(xiàng)集的長度;例如:超市出售6種商品,即:項(xiàng)集I中包含6個(gè)項(xiàng)目,則I的長度為6。長度為k的項(xiàng)集稱為k-項(xiàng)集(k-Itemset)。例如:對(duì)于項(xiàng)集{cake,milk},可稱為2-項(xiàng)集。項(xiàng)集的最小支持度與頻繁集用于發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的項(xiàng)集必須滿足的最小支持度的閾值,稱為項(xiàng)集的最小支持度(MinimumSupport),記為supmin。從統(tǒng)計(jì)意義上講,它表示用戶關(guān)心的關(guān)聯(lián)規(guī)則必須滿足的最低重要性。只有滿足最小支持度的項(xiàng)集才能產(chǎn)生關(guān)聯(lián)規(guī)則。支持度大于或等于supmin的項(xiàng)集稱為頻繁項(xiàng)集,簡稱頻繁集,反之則稱為非頻繁集。通常,k-項(xiàng)集如果滿足supmin,可稱為k-頻繁集,記作Lk。強(qiáng)關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則的最小支持度(MinimumSupport)表示關(guān)聯(lián)規(guī)則需要滿足的最低支持度,記為supmin。關(guān)聯(lián)規(guī)則的最小可信度(MinimumConfidence)表示關(guān)聯(lián)規(guī)則需要滿足的最低可信度,記為confmin。如果關(guān)聯(lián)規(guī)則同時(shí)滿足如下兩個(gè)條件:support(XY)supminconfidence(XY)confmin稱關(guān)聯(lián)規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則,否則稱為弱關(guān)聯(lián)規(guī)則。在挖掘關(guān)聯(lián)規(guī)則時(shí),產(chǎn)生的關(guān)聯(lián)規(guī)則要經(jīng)過supmin和confmin的衡量,篩選出來的強(qiáng)關(guān)聯(lián)規(guī)則才能用于指導(dǎo)決策。關(guān)聯(lián)規(guī)則的挖掘:經(jīng)典算法:Apriori算法關(guān)聯(lián)規(guī)則挖掘包含以下兩個(gè)步驟:首先,找出所有頻繁集;其次,由頻繁集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。Apriori算法通過多次掃描數(shù)據(jù)集,找出所有頻繁集,然后用這些頻繁集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則Apriori算法通過迭代來窮舉出數(shù)據(jù)集中的所有頻繁集。算法過程:輸入數(shù)據(jù)集D,最小支持度閾值SUPmin首先,產(chǎn)生1-頻繁集L1;其次,在L1上通過連接和修剪產(chǎn)生2-頻繁集L2;依次類推,可在Lk上通過連接和修剪產(chǎn)生(k+1)-頻繁集Lk+1;最后,直到無法產(chǎn)生新的頻繁集為止。連接:只相差一個(gè)項(xiàng)目的兩個(gè)項(xiàng)集才能進(jìn)行連接(集合“并”操作)。例如:由L2生成C3的過程中,L2中的{A,C}和{B,C}只相差一個(gè)項(xiàng)目,因此它們可以連接生成{A,B,C}。但是,L2中的{A,C}和{B,E}無法進(jìn)行連接。修剪:去除子集不是頻繁集的項(xiàng)集。Apriori算法的性質(zhì):頻繁集的所有非空子集也一定是頻繁的。例如:雖然L2中的{A,C}和{B,C}可以連接生成{A,B,C},但是由于{A,B,C}的子集{A,B}不是頻繁集(不在L2中),因此,需要從C3中刪除{A,B,C}。描述算法過程:輸入:數(shù)據(jù)集D,最小支持度閾值supmin。K=1產(chǎn)生CK:K-候選頻繁集根據(jù)最小支持度篩選K-候選頻繁集生成LK:K-頻繁集循環(huán)2~3步驟,直到無法生成新的頻繁集為止輸出可以產(chǎn)生關(guān)聯(lián)規(guī)則的所有頻繁集L。Apriori的挑戰(zhàn)與改進(jìn)思路挑戰(zhàn)多遍事務(wù)數(shù)據(jù)庫掃描候選頻繁項(xiàng)集的數(shù)目巨大候選項(xiàng)集的計(jì)數(shù)工作量較大改進(jìn)Apriori:思路減少事務(wù)數(shù)據(jù)庫掃描次數(shù)減少候選項(xiàng)集數(shù)目有效支持候選項(xiàng)集的計(jì)數(shù)提高Apriori的有效性基于散列的技術(shù)事務(wù)壓縮劃分抽樣動(dòng)態(tài)項(xiàng)集技術(shù)四、數(shù)據(jù)分類與預(yù)測分類有那些方法,優(yōu)缺點(diǎn)

判定樹歸納分類(缺失數(shù)據(jù)敏感)-優(yōu)點(diǎn):1.決策樹易于理解和解釋2.能夠同時(shí)處理數(shù)據(jù)型和常規(guī)型屬性3.在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。4.如果給定一個(gè)觀察的模型,那么根據(jù)所產(chǎn)生的決策樹很容易推出相應(yīng)的邏輯表達(dá)式。-缺點(diǎn):一、對(duì)于那些各類別樣本數(shù)量不一致的數(shù)據(jù),在決策樹當(dāng)中,信息增益的結(jié)果偏向于那些具有更多數(shù)值的特征。二、決策樹處理缺失數(shù)據(jù)時(shí)的困難。三、過度擬合問題的出現(xiàn)。四、忽略數(shù)據(jù)集中屬性之間的相關(guān)性。樸素貝葉斯分類:(缺失數(shù)據(jù)不敏感)-優(yōu)點(diǎn):易于實(shí)現(xiàn),對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡單,常用于文本分類。小規(guī)模數(shù)據(jù)表現(xiàn)好.-缺點(diǎn):需要知道先驗(yàn)概率,很多時(shí)候先驗(yàn)概率基于假設(shè),假設(shè)類條件獨(dú)立假設(shè)不一定總是成立。樸素貝葉斯分類無法對(duì)屬性之間的依賴關(guān)系建模。人工神經(jīng)網(wǎng)絡(luò)分類(缺失數(shù)據(jù)不敏感)-優(yōu)點(diǎn):分類的準(zhǔn)確度高,并行分布處理能力強(qiáng),分布存儲(chǔ)及學(xué)習(xí)能力強(qiáng),對(duì)噪聲神經(jīng)有較強(qiáng)的魯棒性和容錯(cuò)能力,能充分逼近復(fù)雜的非線性關(guān)系,具備聯(lián)想記憶的功能等。缺點(diǎn):神經(jīng)網(wǎng)絡(luò)需要大量的參數(shù)。不能觀察之間的學(xué)習(xí)過程,輸出結(jié)果難以解釋,會(huì)影響到結(jié)果的可信度和可接受程度;學(xué)習(xí)時(shí)間過長,甚至可能達(dá)不到學(xué)習(xí)的目的。SVM支持向量機(jī)(缺失數(shù)據(jù)敏感)SVM的優(yōu)點(diǎn):一、可以解決小樣本情況下的機(jī)器學(xué)習(xí)問題。二、可以提高泛化性能。三、可以解決高維問題。四、可以解決非線性問題。五、可以避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小點(diǎn)問題。SVM的缺點(diǎn):一、對(duì)缺失數(shù)據(jù)敏感。二、對(duì)非線性問題沒有通用解決方案,必須謹(jǐn)慎選擇Kernelfunction來處理。遺傳算法的優(yōu)點(diǎn):一、與問題領(lǐng)域無關(guān)切快速隨機(jī)的搜索能力。二、搜索從群體出發(fā),具有潛在的并行性,可以進(jìn)行多個(gè)個(gè)體的同時(shí)比較,魯棒性好三、搜索使用評(píng)價(jià)函數(shù)啟發(fā),過程簡單。四、使用概率機(jī)制進(jìn)行迭代,具有隨機(jī)性。五、具有可擴(kuò)展性,容易與其他算法結(jié)合。遺傳算法的缺點(diǎn):一、遺傳算法的編程實(shí)現(xiàn)比較復(fù)雜,首先需要對(duì)問題進(jìn)行編碼,找到最優(yōu)解之后還需要對(duì)問題進(jìn)行解碼,二、另外三個(gè)算子的實(shí)現(xiàn)也有許多參數(shù),如交叉率和變異率,并且這些參數(shù)的選擇嚴(yán)重影響解的品質(zhì),而目前這些參數(shù)的選擇大部分是依靠經(jīng)驗(yàn).沒有能夠及時(shí)利用網(wǎng)絡(luò)的反饋信息,故算法的搜索速度比較慢,要得要較精確的解需要較多的訓(xùn)練時(shí)間。三、算法對(duì)初始種群的選擇有一定的依賴性,能夠結(jié)合一些啟發(fā)算法進(jìn)行改進(jìn)。K-最臨近分類KNN優(yōu)點(diǎn)簡單好用,容易理解,精度高,理論成熟,既可以用來做分類也可以用來做回歸;可用于數(shù)值型數(shù)據(jù)和離散型數(shù)據(jù);訓(xùn)練時(shí)間復(fù)雜度為O(n);無數(shù)據(jù)輸入假定;對(duì)異常值不敏感。缺點(diǎn):計(jì)算復(fù)雜性高;空間復(fù)雜性高;樣本不平衡問題(即有些類別的樣本數(shù)量很多,而其它樣本的數(shù)量很少);一般數(shù)值很大的時(shí)候不用這個(gè),計(jì)算量太大。但是單個(gè)樣本又不能太少,否則容易發(fā)生誤分。最大的缺點(diǎn)是無法給出數(shù)據(jù)的內(nèi)在含義。聚類分析有哪些方法它們的優(yōu)缺點(diǎn)是什么k-means: 是一種典型的劃分聚類算法,它用一個(gè)聚類的中心來代表一個(gè)簇,即在迭代過程中選擇的聚點(diǎn)不一定是聚類中的一個(gè)點(diǎn),該算法只能處理數(shù)值型數(shù)據(jù)。優(yōu)點(diǎn):k均值聚類法快速高效,特別是大量數(shù)據(jù)時(shí),準(zhǔn)確性高一些,但是需要你自己指定聚類的類別數(shù)量均值漂移聚類高斯混合模型最大期望聚類什么是分類、什么是預(yù)測?分類預(yù)測類標(biāo)識(shí)(離散的)基于帶類標(biāo)識(shí)的數(shù)據(jù)構(gòu)建分類模型,然后使用分類模型對(duì)未知類標(biāo)識(shí)的數(shù)據(jù)分類預(yù)測對(duì)連續(xù)值函數(shù)建模,即預(yù)測未知或丟失的值分類——一個(gè)兩步的過程建立模型:描述數(shù)據(jù)中的類每個(gè)元組/樣本都屬于由其類標(biāo)識(shí)所確定的類用于構(gòu)建模型的數(shù)據(jù)集被稱為訓(xùn)練數(shù)據(jù)集模型的表現(xiàn)形式有分類規(guī)則,判定樹,和數(shù)學(xué)公式使用模型進(jìn)行分類:將未知類標(biāo)識(shí)的數(shù)據(jù)分類評(píng)估模型的預(yù)測準(zhǔn)確率將模型預(yù)測的測試樣本的類與測試樣本的類標(biāo)識(shí)進(jìn)行比較模型的預(yù)測準(zhǔn)確率等于被模型正確分類的測試樣本在測試數(shù)據(jù)集中所占的比例測試數(shù)據(jù)集應(yīng)該與訓(xùn)練數(shù)據(jù)集相互獨(dú)立,否則將會(huì)產(chǎn)生過擬合問題如果模型的預(yù)測準(zhǔn)確率可以接受,就可用模型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論