版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
汕頭大學數(shù)據(jù)挖掘期末復習汕頭大學數(shù)據(jù)挖掘期末復習汕頭大學數(shù)據(jù)挖掘期末復習xxx公司汕頭大學數(shù)據(jù)挖掘期末復習文件編號:文件日期:修訂次數(shù):第1.0次更改批準審核制定方案設計,管理制度汕頭大學2019數(shù)據(jù)挖掘期末復習資料(浩軍老師班)考試范圍:數(shù)據(jù)預處理、數(shù)據(jù)關聯(lián)分析、分類與預測、SVM、K-MEANS、聚類考試題型:簡答題,復習請以實驗相關內容為主數(shù)據(jù)挖掘課程的主要內容:1.數(shù)據(jù)挖掘概述2.數(shù)據(jù)預處理3.數(shù)據(jù)挖掘算法-關聯(lián)分析4.數(shù)據(jù)挖掘算法-分類與預測5.數(shù)據(jù)挖掘算法-聚類分析一、數(shù)據(jù)挖掘概述什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘概念:從大量數(shù)據(jù)中尋找其規(guī)律的技術,是統(tǒng)計學、數(shù)據(jù)庫技術和人工智能技術(機器學習)的綜合。數(shù)據(jù)挖掘定義:數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)的特征:大容量、含噪音(不完全、不正確)、異質數(shù)據(jù)(多種數(shù)據(jù)類型混合的數(shù)據(jù)源,來自互聯(lián)網(wǎng)的數(shù)據(jù)是典型的例子)數(shù)據(jù)挖掘有哪些步驟?確定預測目標統(tǒng)計數(shù)據(jù)特征根據(jù)數(shù)據(jù)特征進行數(shù)據(jù)預處理應用數(shù)據(jù)挖掘模型(分類、聚類、關聯(lián)分析、離群點挖掘、標記等)分析模型的準確率找出影響模型準確率的因素,回到第3步迭代直到模型足夠完美。二、數(shù)據(jù)預處理數(shù)據(jù)預處理有哪些步驟?數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)歸約數(shù)據(jù)變換與數(shù)據(jù)離散化為什么要進行數(shù)據(jù)預處理?現(xiàn)實世界的數(shù)據(jù)是不完整的、含有噪聲的、不一致的、冗余的。低質量的數(shù)據(jù)將導致低質量的挖掘結果。1)現(xiàn)實世界的數(shù)據(jù)一般是臟的、不完整的和不一致的。2)數(shù)據(jù)預處理技術可以改進數(shù)據(jù)的質量,從而有助于提高其后的挖掘過程的精度和性能。3)高質量的決策必然依賴于高質量的數(shù)據(jù),因此數(shù)據(jù)預處理是知識發(fā)現(xiàn)過程的重要步驟。數(shù)據(jù)的質量涉及的三個要素是?
準確性,完整性和一致性?,F(xiàn)實世界的數(shù)據(jù)一般是臟的不完整的不一致的。數(shù)據(jù)預處理技術可以改善數(shù)據(jù)的質量。如何填充數(shù)據(jù)中存在的缺失值?忽略元組(刪除)使用一個全局常量填充空缺值(例如NULL)使用屬性的平均值、眾數(shù)、中位數(shù)來填充空缺值人工填充空缺值數(shù)據(jù)清理補充缺失的屬性值:使用屬性的中心度量(如均值或者中位數(shù)或者眾數(shù)(頻率度量出現(xiàn)單峰)填充缺失值。使用最可能的值填充缺失值(可以用回歸,使用貝葉斯形式化方法)光滑數(shù)據(jù),去掉噪聲:噪聲是被測量的變量的隨機誤差或者方差。數(shù)據(jù)光滑的技術:分箱法,把有序的數(shù)據(jù)數(shù)量等頻地分到箱子中,可以用箱的均值光滑,用箱的邊界值光滑,用箱的中位數(shù)光滑。數(shù)據(jù)集成將數(shù)據(jù)由多個數(shù)據(jù)源合并成一個一致的數(shù)據(jù)存儲,如數(shù)據(jù)倉庫(集成多個數(shù)據(jù)庫)。數(shù)據(jù)歸約可以通過如聚集、刪除冗余特征或者聚類來降低數(shù)據(jù)的規(guī)模。(得到數(shù)據(jù)的簡化表示)簡化數(shù)據(jù)、但產生相同或者相似的結果通過選擇替代的、“較小的”數(shù)據(jù)表示形式來減少數(shù)據(jù)量。數(shù)據(jù)變換(例如,規(guī)范化,離散化)可以把數(shù)據(jù)壓縮到較小的區(qū)間,如0.0到1.0。這可以提高涉及距離度量的挖掘算法的準確率和效率。規(guī)范化和聚集數(shù)據(jù)最小-最大規(guī)范化最小-最大規(guī)范化:將原始數(shù)據(jù)v經(jīng)線性變換,映射到區(qū)間[new_minA,new_maxA]選擇區(qū)間,找到數(shù)據(jù)最大值和最小值,進行區(qū)間規(guī)范化離群點可能影響規(guī)范化零族規(guī)范化z-score規(guī)范化(零均值規(guī)范化):屬性A的值基于A的平均值和標準差規(guī)范化。對離群點不敏感離散化:通俗的說,離散化是在不改變數(shù)據(jù)相對大小的條件下,對數(shù)據(jù)進行相應的縮小。概念解釋離群點:與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對象數(shù)據(jù)錯誤不可避免數(shù)據(jù)輸入和獲取過程出現(xiàn)的錯誤數(shù)據(jù)集成表現(xiàn)出來的錯誤數(shù)據(jù)傳輸過程所引入的錯誤分箱:通過考察數(shù)據(jù)的“近鄰”(周圍的值)來光滑有序數(shù)據(jù)的值。局部光滑?;貧w:(線性回歸,多元線性回歸)用一個函數(shù)(回歸函數(shù))擬合數(shù)據(jù)來光滑數(shù)據(jù)。聚類:將類似的值聚集為簇??梢宰R別并刪除離群點、解決數(shù)據(jù)的不一致基本描述數(shù)據(jù)匯總的圖形顯示(數(shù)據(jù)排序后使用)盒圖(需要先將數(shù)據(jù)進行有序排列):
盒圖可以用五數(shù)概括(上下四分位數(shù)、中位數(shù)、上下邊緣)四分位數(shù)是3個值,把排序的數(shù)據(jù)集分成4個相等的部分。盒的端點一般在四分位數(shù)上,使得盒的長度是四分位數(shù)的極差IQR(上四分位數(shù)75%,下四分位數(shù)25%)中位數(shù)用盒內的線標記。盒外兩條虛線(稱為胡須)延伸到最小和最大的觀測值(上邊緣、下邊緣)。超過過四分位數(shù)1.5*IQR時,單獨畫出離群點,否則讓胡須擴展到它們。直方圖:通常讓一個桶代表給定屬性的一個連續(xù)值域。概括給定屬性分布的圖形方法,每個矩形等寬。分位數(shù)圖:是一種觀察單變量數(shù)據(jù)分布的簡單有效的方法。分位數(shù)-分位數(shù)圖可以查看一個分布到另外一個分布是否有漂移(確定間隔)散布圖(散點圖):是一種觀察雙變量數(shù)據(jù)的有用的方法,用于觀察點簇和離群點,或考察相關聯(lián)系的可能性。確定兩個數(shù)值變量之間看上去是否存在聯(lián)系、模式或者趨勢的有效圖形之一。兩個變量屬性的三個關系可以從散點圖上看出來:正相關、負相關、不相關。分布式度量、代數(shù)度量、整體度量的概念1)分布式度量:可以通過如下方法計算度量(即函數(shù)):將數(shù)據(jù)集劃分成較小的子集,計算每個子集的度量,然后合并計算結果,得到原(整個)數(shù)據(jù)集的度量值。sum()、count()、min()、max()2)代數(shù)度量:可以通過應用一個代數(shù)函數(shù)于一個或多個分布度量計算的度量(平均數(shù)sum/count)3)整體度量:必須對整個數(shù)據(jù)集計算的度量。例如:中位數(shù)、眾數(shù)三、數(shù)據(jù)關聯(lián)分析關聯(lián)規(guī)則挖掘(AssociationRuleMining)是數(shù)據(jù)挖掘中最活躍的研究內容之一。一個典型的關聯(lián)規(guī)則的例子:70%購買了牛奶的顧客將傾向于同時購買面包。發(fā)現(xiàn)這樣的關聯(lián)規(guī)則可以為市場預測、決策和策劃等方面提供依據(jù)。技術用語解釋:頻繁模式是頻繁地出現(xiàn)在數(shù)據(jù)集中的模式(如項集、子序列、子結構)頻繁項集:例如,頻繁地同時出現(xiàn)在交易數(shù)據(jù)集中的商品項目(如牛奶與面包)的集合是頻繁項集。序列模式:例如,先買PC,然后是數(shù)碼相機,再后是內存卡,如果它頻繁地出現(xiàn)在歷史數(shù)據(jù)庫中,則稱它為一個頻繁的序列模式。子結構:一個子結構可能涉及不同的結構形式,如子圖、子樹或者子格,它可能與項集或者子序列結合在一起。如果一個子結構頻繁地出現(xiàn),則稱它為頻繁的結構模式。關聯(lián)規(guī)則中的支持度和置信度?規(guī)則的支持度和置信度是規(guī)則興趣度的兩種度量。它們分別反映所發(fā)現(xiàn)規(guī)則的有用性和確定性。Computer=>antivirus_software[support=2%;confidence=60%]表示所分析的所有事物的2%顯示計算機和殺毒軟件被同時購買,置信度60%意味購買計算機的顧客60%也購買了殺毒軟件。支持度(項集X在交易集中出現(xiàn)的概率)可信度(置信度)關聯(lián)規(guī)則的可信度(Confidence)是指包含X和Y的交易數(shù)與包含X的交易數(shù)之比:關聯(lián)規(guī)則的可信度反映了如果交易中包含X,則交易中同時出現(xiàn)Y的概率。例如:關聯(lián)規(guī)則R1:{bread}{milk}的可信度為confidence(R1)=support({bread,milk})/support({bread})=0.5/0.7=5/7。項目與項集設I={i1,i2,…,im}是由m個不同項目構成的集合,其中的每個ik(k=1,2,…,m)被稱為一個項目(Item)。例如:在超市的關聯(lián)規(guī)則挖掘中,項目就是顧客購買的各種商品,如:bread,milk等。項目的集合I被稱為項目集合(Itemset),簡稱項集。I中元素個數(shù)稱為項集的長度;例如:超市出售6種商品,即:項集I中包含6個項目,則I的長度為6。長度為k的項集稱為k-項集(k-Itemset)。例如:對于項集{cake,milk},可稱為2-項集。項集的最小支持度與頻繁集用于發(fā)現(xiàn)關聯(lián)規(guī)則的項集必須滿足的最小支持度的閾值,稱為項集的最小支持度(MinimumSupport),記為supmin。從統(tǒng)計意義上講,它表示用戶關心的關聯(lián)規(guī)則必須滿足的最低重要性。只有滿足最小支持度的項集才能產生關聯(lián)規(guī)則。支持度大于或等于supmin的項集稱為頻繁項集,簡稱頻繁集,反之則稱為非頻繁集。通常,k-項集如果滿足supmin,可稱為k-頻繁集,記作Lk。強關聯(lián)規(guī)則關聯(lián)規(guī)則的最小支持度(MinimumSupport)表示關聯(lián)規(guī)則需要滿足的最低支持度,記為supmin。關聯(lián)規(guī)則的最小可信度(MinimumConfidence)表示關聯(lián)規(guī)則需要滿足的最低可信度,記為confmin。如果關聯(lián)規(guī)則同時滿足如下兩個條件:support(XY)supminconfidence(XY)confmin稱關聯(lián)規(guī)則為強關聯(lián)規(guī)則,否則稱為弱關聯(lián)規(guī)則。在挖掘關聯(lián)規(guī)則時,產生的關聯(lián)規(guī)則要經(jīng)過supmin和confmin的衡量,篩選出來的強關聯(lián)規(guī)則才能用于指導決策。關聯(lián)規(guī)則的挖掘:經(jīng)典算法:Apriori算法關聯(lián)規(guī)則挖掘包含以下兩個步驟:首先,找出所有頻繁集;其次,由頻繁集產生強關聯(lián)規(guī)則。Apriori算法通過多次掃描數(shù)據(jù)集,找出所有頻繁集,然后用這些頻繁集產生強關聯(lián)規(guī)則Apriori算法通過迭代來窮舉出數(shù)據(jù)集中的所有頻繁集。算法過程:輸入數(shù)據(jù)集D,最小支持度閾值SUPmin首先,產生1-頻繁集L1;其次,在L1上通過連接和修剪產生2-頻繁集L2;依次類推,可在Lk上通過連接和修剪產生(k+1)-頻繁集Lk+1;最后,直到無法產生新的頻繁集為止。連接:只相差一個項目的兩個項集才能進行連接(集合“并”操作)。例如:由L2生成C3的過程中,L2中的{A,C}和{B,C}只相差一個項目,因此它們可以連接生成{A,B,C}。但是,L2中的{A,C}和{B,E}無法進行連接。修剪:去除子集不是頻繁集的項集。Apriori算法的性質:頻繁集的所有非空子集也一定是頻繁的。例如:雖然L2中的{A,C}和{B,C}可以連接生成{A,B,C},但是由于{A,B,C}的子集{A,B}不是頻繁集(不在L2中),因此,需要從C3中刪除{A,B,C}。描述算法過程:輸入:數(shù)據(jù)集D,最小支持度閾值supmin。K=1產生CK:K-候選頻繁集根據(jù)最小支持度篩選K-候選頻繁集生成LK:K-頻繁集循環(huán)2~3步驟,直到無法生成新的頻繁集為止輸出可以產生關聯(lián)規(guī)則的所有頻繁集L。Apriori的挑戰(zhàn)與改進思路挑戰(zhàn)多遍事務數(shù)據(jù)庫掃描候選頻繁項集的數(shù)目巨大候選項集的計數(shù)工作量較大改進Apriori:思路減少事務數(shù)據(jù)庫掃描次數(shù)減少候選項集數(shù)目有效支持候選項集的計數(shù)提高Apriori的有效性基于散列的技術事務壓縮劃分抽樣動態(tài)項集技術四、數(shù)據(jù)分類與預測分類有那些方法,優(yōu)缺點
判定樹歸納分類(缺失數(shù)據(jù)敏感)-優(yōu)點:1.決策樹易于理解和解釋2.能夠同時處理數(shù)據(jù)型和常規(guī)型屬性3.在相對短的時間內能夠對大型數(shù)據(jù)源做出可行且效果良好的結果。4.如果給定一個觀察的模型,那么根據(jù)所產生的決策樹很容易推出相應的邏輯表達式。-缺點:一、對于那些各類別樣本數(shù)量不一致的數(shù)據(jù),在決策樹當中,信息增益的結果偏向于那些具有更多數(shù)值的特征。二、決策樹處理缺失數(shù)據(jù)時的困難。三、過度擬合問題的出現(xiàn)。四、忽略數(shù)據(jù)集中屬性之間的相關性。樸素貝葉斯分類:(缺失數(shù)據(jù)不敏感)-優(yōu)點:易于實現(xiàn),對缺失數(shù)據(jù)不太敏感,算法也比較簡單,常用于文本分類。小規(guī)模數(shù)據(jù)表現(xiàn)好.-缺點:需要知道先驗概率,很多時候先驗概率基于假設,假設類條件獨立假設不一定總是成立。樸素貝葉斯分類無法對屬性之間的依賴關系建模。人工神經(jīng)網(wǎng)絡分類(缺失數(shù)據(jù)不敏感)-優(yōu)點:分類的準確度高,并行分布處理能力強,分布存儲及學習能力強,對噪聲神經(jīng)有較強的魯棒性和容錯能力,能充分逼近復雜的非線性關系,具備聯(lián)想記憶的功能等。缺點:神經(jīng)網(wǎng)絡需要大量的參數(shù)。不能觀察之間的學習過程,輸出結果難以解釋,會影響到結果的可信度和可接受程度;學習時間過長,甚至可能達不到學習的目的。SVM支持向量機(缺失數(shù)據(jù)敏感)SVM的優(yōu)點:一、可以解決小樣本情況下的機器學習問題。二、可以提高泛化性能。三、可以解決高維問題。四、可以解決非線性問題。五、可以避免神經(jīng)網(wǎng)絡結構選擇和局部極小點問題。SVM的缺點:一、對缺失數(shù)據(jù)敏感。二、對非線性問題沒有通用解決方案,必須謹慎選擇Kernelfunction來處理。遺傳算法的優(yōu)點:一、與問題領域無關切快速隨機的搜索能力。二、搜索從群體出發(fā),具有潛在的并行性,可以進行多個個體的同時比較,魯棒性好三、搜索使用評價函數(shù)啟發(fā),過程簡單。四、使用概率機制進行迭代,具有隨機性。五、具有可擴展性,容易與其他算法結合。遺傳算法的缺點:一、遺傳算法的編程實現(xiàn)比較復雜,首先需要對問題進行編碼,找到最優(yōu)解之后還需要對問題進行解碼,二、另外三個算子的實現(xiàn)也有許多參數(shù),如交叉率和變異率,并且這些參數(shù)的選擇嚴重影響解的品質,而目前這些參數(shù)的選擇大部分是依靠經(jīng)驗.沒有能夠及時利用網(wǎng)絡的反饋信息,故算法的搜索速度比較慢,要得要較精確的解需要較多的訓練時間。三、算法對初始種群的選擇有一定的依賴性,能夠結合一些啟發(fā)算法進行改進。K-最臨近分類KNN優(yōu)點簡單好用,容易理解,精度高,理論成熟,既可以用來做分類也可以用來做回歸;可用于數(shù)值型數(shù)據(jù)和離散型數(shù)據(jù);訓練時間復雜度為O(n);無數(shù)據(jù)輸入假定;對異常值不敏感。缺點:計算復雜性高;空間復雜性高;樣本不平衡問題(即有些類別的樣本數(shù)量很多,而其它樣本的數(shù)量很少);一般數(shù)值很大的時候不用這個,計算量太大。但是單個樣本又不能太少,否則容易發(fā)生誤分。最大的缺點是無法給出數(shù)據(jù)的內在含義。聚類分析有哪些方法它們的優(yōu)缺點是什么k-means: 是一種典型的劃分聚類算法,它用一個聚類的中心來代表一個簇,即在迭代過程中選擇的聚點不一定是聚類中的一個點,該算法只能處理數(shù)值型數(shù)據(jù)。優(yōu)點:k均值聚類法快速高效,特別是大量數(shù)據(jù)時,準確性高一些,但是需要你自己指定聚類的類別數(shù)量均值漂移聚類高斯混合模型最大期望聚類什么是分類、什么是預測?分類預測類標識(離散的)基于帶類標識的數(shù)據(jù)構建分類模型,然后使用分類模型對未知類標識的數(shù)據(jù)分類預測對連續(xù)值函數(shù)建模,即預測未知或丟失的值分類——一個兩步的過程建立模型:描述數(shù)據(jù)中的類每個元組/樣本都屬于由其類標識所確定的類用于構建模型的數(shù)據(jù)集被稱為訓練數(shù)據(jù)集模型的表現(xiàn)形式有分類規(guī)則,判定樹,和數(shù)學公式使用模型進行分類:將未知類標識的數(shù)據(jù)分類評估模型的預測準確率將模型預測的測試樣本的類與測試樣本的類標識進行比較模型的預測準確率等于被模型正確分類的測試樣本在測試數(shù)據(jù)集中所占的比例測試數(shù)據(jù)集應該與訓練數(shù)據(jù)集相互獨立,否則將會產生過擬合問題如果模型的預測準確率可以接受,就可用模型
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 開工會議紀要內容范文(3篇)
- 私營企業(yè)股東合作協(xié)議書(35篇)
- 天津市重點校聯(lián)考2024-2025學年高一上學期期中考試歷史試題(無答案)
- 陜西省漢中市期中聯(lián)考2024-2025學年高一上學期11月期中化學試題(含答案)
- 遼寧省撫順市六校協(xié)作體2024-2025學年高一上學期期中語文試卷(含答案)
- 黑龍江省哈爾濱工業(yè)大學附屬中學2024-2025學年八年級上學期期中考試地理試題(含答案)
- 吉林省“BEST合作體”2023-2024學年高二年級下冊7月期末考試生物試題(解析版)
- 出口貨物運輸代理協(xié)議樣本
- 企業(yè)員工檔案托管協(xié)議專業(yè)版
- 工程監(jiān)理勞動合同書
- 央視新址主樓鋼結構起重吊裝技術
- IYB培訓—成本核算ppt課件
- 梁-彎矩圖-梁-內力圖--(剪力圖與彎矩圖)(共47頁)
- S7-1200PLC的PID工藝功能
- 幾大類資管產品的比較
- 水利工程防汛應急救援預案
- 安徽醫(yī)科大學一附院高新分院-工程概況詳解
- 中藥材、中藥飲片的驗收
- 老垃圾填埋作業(yè)方案
- 中考英語作文評分標準
- 老年服務倫理與禮儀課件
評論
0/150
提交評論