大數(shù)據(jù)復習提綱(共16頁)_第1頁
大數(shù)據(jù)復習提綱(共16頁)_第2頁
大數(shù)據(jù)復習提綱(共16頁)_第3頁
大數(shù)據(jù)復習提綱(共16頁)_第4頁
大數(shù)據(jù)復習提綱(共16頁)_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上1、 線性判別函數(shù)的正負和數(shù)值大小的幾何意義正(負)表示樣本點位于判別界面法向量指向的正(負)半空間中;絕對值正比于樣本點到判別界面的距離。2、 感知器算法特點收斂性:經(jīng)過算法的有限次迭代運算后,求出了一個使所有樣本都能正確分類的W,則稱算法是收斂的。感知器算法是在模式類別線性可分條件下才是收斂的。感知器算法只對線性可分樣本有收斂的解,對非線性可分樣本集會造成訓練過程的震蕩,這也是它的缺點。3、 聶曼-皮爾遜判決準則、最小最大判決準則等區(qū)別聶曼-皮爾遜判決準則主要用于某一種判決錯誤較另一種判決錯誤更為重要情況;最小最大判別準則主要用于先驗概率未知的情況。4、 馬式距離

2、較之于歐式距離的優(yōu)點 優(yōu)點:馬氏距離不受量綱的影響,兩點之間的馬氏距離與原始數(shù)據(jù)的測量單位無關。由標準化數(shù)據(jù)和中心化數(shù)據(jù)(即原始數(shù)據(jù)與均值之差)計算出的二點之間的馬氏距離相同。馬氏距離還可以排除變量之間的相關性的干擾。 缺點:夸大了變化微小的變量的作用。受協(xié)方差矩陣不穩(wěn)定的影響,馬氏距離并不總是能順利計算出。尺度不變性;考慮了模式的分布 5、 關聯(lián)規(guī)則的經(jīng)典算法有哪些Apriori 算法;FP-tree;基于劃分的算法Apriori算法、GRI算法、Carma6、 分類的過程或步驟答案一:ppt上的1、模型構建(歸納)通過對訓練集合的歸納,建立分類模型。2、預測應用(推論)根據(jù)建立的分類模型,

3、對測試集合進行測試。答案二:老師版本的訓練樣本的收集 訓練集的預處理、模型的選擇、模型的訓練(問老師后理解整理)7、 分類評價標準1)正確率(accuracy) 就是被分對的樣本數(shù)除以所有的樣本數(shù),通常來說,正確率越高,分類器越好; 2)錯誤率(error rate) 錯誤率則與正確率相反,描述被分類器錯分的比例,error rate = (FP+FN)/(P+N),對某一個實例來說,分對與分錯是互斥事件,所以 accuracy =1 -  error rate; 3)靈敏度(sensitive) sensitive = TP/P,表示的是所有正例中被分對的比例,衡量了分類器對正例的

4、識別能力; 4)特效度(specificity) specificity = TN/N, 表示的是所有負例中被分對的比例,衡量了分類器對負例的識別能力; 5)精度(precision) 精度是精確性的度量,表示被分為正例的示例中實際為正例的比例, precision=TP/(TP+FP); 6)召回率(recall) 召回率是覆蓋面的度量,度量有多個正例被分為正例, recall=TP/(TP+FN)=TP/P= sensitive,可以看到召回率與靈敏度是一樣的。 正確率:它表示的預測結果正確比例。包括正例和負例。精確度:它表示的是預測是正例的結果中,實際為正例的比例。召回率:它表示的是實際

5、為正例樣本中,預測也為正例的比例。綜合指標:F1=2*精確率*召回率/精確率+召回率,它實際上精確度和召回率的一個綜合指標。8、 支持向量機及常見的核函數(shù)選擇 SVM的目的是尋找泛化能力好的決策函數(shù),即由有限樣本量的訓練樣本所得的決策函數(shù),在對獨立的測試樣本做預測分類時,任然保證較小的誤差。本質(zhì):求解凸二次優(yōu)化問題,能夠保證所找到的極值解就是全局最優(yōu)解。 支持向量機的標準:使兩類樣本到分類面的最短距離之和盡可能大支持向量機基本思想:通過訓練誤差和類間寬度之間的權衡,得到一個最優(yōu)超平面 支持向量機是利用分類間隔的思想進行訓練的,它依賴于對數(shù)據(jù)的預處理,即在更高維的空間表達原始模式。通過適當?shù)牡揭?/p>

6、個足夠高維的非線性映射,分別屬于兩類的原始數(shù)據(jù)就能夠被一個超平面來分隔。支持向量機的基本思想可以概括為:首先通過非線性變換將輸入空間變換到一個高維空間,然后在這個新空間中求取最優(yōu)線性分類面,而這種非線性變換是通過定義適當?shù)膬?nèi)積函數(shù)來實現(xiàn)的。支持向量機求得的分類函數(shù)形式上類似于一個神經(jīng)網(wǎng)絡,其輸出是若干中間層節(jié)點的線性組合,而每一個中間層節(jié)點對應于輸入樣本與一個支持向量的內(nèi)積,因此也被叫做支持向量網(wǎng)絡。 9、 什么是數(shù)據(jù)樣本、什么是機器學習樣本:研究中實際觀測或調(diào)查的一個個體叫樣本機器學習:機器學習通過從數(shù)據(jù)里提取規(guī)則或模式來把數(shù)據(jù)轉(zhuǎn)換成信息。經(jīng)典定義:利用經(jīng)驗改善系統(tǒng)自身的性能,隨著該領域的發(fā)

7、展,主要做智能數(shù)據(jù)分析。機器學習:利用經(jīng)驗改善系統(tǒng)自身的性能隨著該領域的發(fā)展,主要做智能數(shù)據(jù)分析10、 機器學習的一般步驟1、 問題識別、數(shù)據(jù)理解:明確系統(tǒng)與組織之間的關鍵問題,分析數(shù)據(jù)的價值和質(zhì)量2、 數(shù)據(jù)準備、數(shù)據(jù)預處理:將數(shù)據(jù)匯集在一起,形成數(shù)據(jù)挖掘庫或數(shù)據(jù)集市3、 模型選擇:通過分析,選擇幾個合適的模型4、 訓練模型:使用機器學習算法或統(tǒng)計方法對大量的數(shù)據(jù)進行建模分析,從而獲得對系統(tǒng)最適合的模型5、 模型測試:將真實數(shù)據(jù)帶入模型,進行運算6、 模型驗證:模型評價包含兩個方面:功能性評價,和服務性評價11. 樣本屬性的主要類型 屬性有四種類型:1、連續(xù)性屬性2、二值離散型3、多值離散型4

8、、混合類型12信息增益信息增益是特征選擇中的一個重要指標,來衡量一個屬性區(qū)分以上數(shù)據(jù)樣本的能力,它定義為一個特征能夠為分類系統(tǒng)帶來多少信息,帶來的信息越多,該特征越重要。信息增益量越大,這個屬性作為一棵樹的根節(jié)點就能使這棵樹更簡潔. 信息增益就是前后信息的差值,在決策樹分類問題中,即就是決策樹在進行屬性選擇劃分前和劃分后的信息差值。信息增益 = 先驗熵(信息熵)-條件熵 (表示信息消除隨機不確定性的程度)13核函數(shù)SVM的判別方程14. Adaboost的判別函數(shù) 16.聚類分析有哪些主要距離度量方法歐氏距離(Euclidean distance):曼哈頓距離(Manhattan distan

9、ce):閔可夫斯基距離(Minkowski distance:17、頻繁項集頻繁項集:有一系列集合,這些集合有些相同的元素,集合中同時出現(xiàn)頻率高的元素形成一個子集,滿足一定閾值條件,就是頻繁項集。頻繁項集:在所有訓練元組中同時出現(xiàn)的次數(shù)超過人工定義的閾值的項集稱為頻繁項集。18、 支持度項目集 X 的支持度 support (X) 是 D 中事務包含 X 的百分比,它是概率P (X):support (X) = P (X) = (包含 X 的事務數(shù) / D 的事務總數(shù))×100%若 support(X) 不小于指定的最小支持度,則稱 X 為頻繁項目集(簡稱頻集),否則稱 X 為非頻繁

10、項目集(簡稱非頻集) 。支持度:項集同時出現(xiàn)的次數(shù)19.可信度XÞY 對事務集 D 的置信度 (confidence) 定義為 D 中包含有 X 的事務數(shù)與同時包含 Y 的百分比。這是條件概率 P(Y | X) 即:confidence (XÞY) = P(Y | X)= (包含 X 和Y的事務數(shù)/包含X的事務數(shù))×100%20關聯(lián)規(guī)則關聯(lián)規(guī)則是形如“XÞY”的蘊涵式,其中 XI,YI,并且 XY = Æ,X 稱為規(guī)則的條件,Y 稱為規(guī)則的結果。在不知道關聯(lián)函數(shù)或關聯(lián)函數(shù)不確定的情況下,為了反映所發(fā)現(xiàn)規(guī)則的有用性和確定性,關聯(lián)分析生成的規(guī)則都要

11、滿足最小支持度閥值和最小置信度閥值。21 什么是貝葉斯網(wǎng)絡及作用貝葉斯網(wǎng)絡是描述隨機變量(事件)之間依賴關系的一種圖形模式,是一種可用來進行推理的模型。貝葉斯網(wǎng)絡通過有向圖的形式來表示隨機變量間的因果關系,并通過條件概率將這種因果關系量化。一個貝葉斯網(wǎng)絡由網(wǎng)絡結構和條件概率表兩部分組成。 作用:貝葉斯網(wǎng)絡的預測、診斷和訓練、因果預測、原因診斷、解釋遠離22、決策樹算法及步驟1 生成一顆空決策樹和一張訓練樣本屬性集;2 若訓練樣本集T 中所有的樣本都屬于同一類, 則生成結點T , 并終止學習算法;否則3 根據(jù)某種策略從訓練樣本屬性表中選擇屬性 A 作為測試屬性, 生成測試結點A 4 若A的取值為

12、v1,v2,vm, 則根據(jù)A 的取值的 不同,將T 劃分成 m個子集T1,T2,Tm;5 從訓練樣本屬性表中刪除屬性A;6 轉(zhuǎn)步驟2, 對每個子集遞歸調(diào)用CLS;23、ID3算法及步驟1 決定分類屬性;2 對目前的數(shù)據(jù)表,建立一個節(jié)點N3 如果數(shù)據(jù)庫中的數(shù)據(jù)都屬于同一個類,N就是樹葉,在樹葉上標出所屬的類4 如果數(shù)據(jù)表中沒有其他屬性可以考慮,則N也是樹葉,按照少數(shù)服從多數(shù)的原則在樹葉上標出所屬類別5 否則,根據(jù)平均信息期望值E或GAIN值選出一個最佳屬性作為節(jié)點N的測試屬性6 節(jié)點屬性選定后,對于該屬性中的每個值: 從N生成一個分支,并將數(shù)據(jù)表中與該分支有關的數(shù)據(jù)收集形成分支節(jié)點的數(shù)據(jù)表,在表

13、中刪除節(jié)點屬性那一欄如果分支數(shù)據(jù)表非空,則運用以上算法從該節(jié)點建立子樹。24、bp網(wǎng)絡的優(yōu)缺點BP神經(jīng)網(wǎng)絡具有以下優(yōu)點: 1) 非線性映射能力:BP神經(jīng)網(wǎng)絡實質(zhì)上實現(xiàn)了一個從輸入到輸出的映射功能,數(shù)學理論證明三層的神經(jīng)網(wǎng)絡就能夠以任意精度逼近任何非線性連續(xù)函數(shù)。這使得其特別適合于求解內(nèi)部機制復雜的問題,即BP神經(jīng)網(wǎng)絡具有較強的非線性映射能力。 2) 自學習和自適應能力:BP神經(jīng)網(wǎng)絡在訓練時,能夠通過學習自動提取輸出、輸出數(shù)據(jù)間的“合理規(guī)則”,并自適應的將學習內(nèi)容記憶于網(wǎng)絡的權值中。即BP神經(jīng)網(wǎng)絡具有高度自學習和自適應的能力。 3) 泛

14、化能力:所謂泛化能力是指在設計模式分類器時,即要考慮網(wǎng)絡在保證對所需分類對象進行正確分類,還要關心網(wǎng)絡在經(jīng)過訓練后,能否對未見過的模式或有噪聲污染的模式,進行正確的分類。也即BP神經(jīng)網(wǎng)絡具有將學習成果應用于新知識的能力。 4) 容錯能力:BP神經(jīng)網(wǎng)絡在其局部的或者部分的神經(jīng)元受到破壞后對全局的訓練結果不會造成很大的影響,也就是說即使系統(tǒng)在受到局部損傷時還是可以正常工作的。即BP神經(jīng)網(wǎng)絡具有一定的容錯能力。 BP神經(jīng)網(wǎng)絡也暴露出了越來越多的缺點和不足,比如: 1) 局部極小化問題:從數(shù)學角度看,傳統(tǒng)的BP神經(jīng)網(wǎng)絡為一種局部搜索的優(yōu)化方法,它要解決

15、的是一個復雜非線性化問題,網(wǎng)絡的權值是通過沿局部改善的方向逐漸進行調(diào)整的,這樣會使算法陷入局部極值,權值收斂到局部極小點,從而導致網(wǎng)絡訓練失敗。加上BP神經(jīng)網(wǎng)絡對初始網(wǎng)絡權重非常敏感,以不同的權重初始化網(wǎng)絡,其往往會收斂于不同的局部極小,這也是很多學者每次訓練得到不同結果的根本原因。 2) BP 神經(jīng)網(wǎng)絡算法的收斂速度慢:由于BP神經(jīng)網(wǎng)絡算法本質(zhì)上為梯度下降法,它所要優(yōu)化的目標函數(shù)是非常復雜的,因此,必然會出現(xiàn)“鋸齒形現(xiàn)象”,這使得BP算法低效;又由于優(yōu)化的目標函數(shù)很復雜,它必然會在神經(jīng)元輸出接近0或1的情況下,出現(xiàn)一些平坦區(qū),在這些區(qū)域內(nèi),權值誤差改變很小,使訓

16、練過程幾乎停頓;BP神經(jīng)網(wǎng)絡模型中,為了使網(wǎng)絡執(zhí)行BP算法,不能使用傳統(tǒng)的一維搜索法求每次迭代的步長,而必須把步長的更新規(guī)則預先賦予網(wǎng)絡,這種方法也會引起算法低效。以上種種,導致了BP神經(jīng)網(wǎng)絡算法收斂速度慢的現(xiàn)象。  3) BP 神經(jīng)網(wǎng)絡結構選擇不一:BP神經(jīng)網(wǎng)絡結構的選擇至今尚無一種統(tǒng)一而完整的理論指導,一般只能由經(jīng)驗選定。網(wǎng)絡結構選擇過大,訓練中效率不高,可能出現(xiàn)過擬合現(xiàn)象,造成網(wǎng)絡性能低,容錯性下降,若選擇過小,則又會造成網(wǎng)絡可能不收斂。而網(wǎng)絡的結構直接影響網(wǎng)絡的逼近能力及推廣性質(zhì)。因此,應用中如何選擇合適的網(wǎng)絡結構是一個重要的問題。 4)

17、0;應用實例與網(wǎng)絡規(guī)模的矛盾問題:BP神經(jīng)網(wǎng)絡難以解決應用問題的實例規(guī)模和網(wǎng)絡規(guī)模間的矛盾問題,其涉及到網(wǎng)絡容量的可能性與可行性的關系問題,即學習復雜性問題。 5) BP神經(jīng)網(wǎng)絡預測能力和訓練能力的矛盾問題:預測能力也稱泛化能力或者推廣能力,而訓練能力也稱逼近能力或者學習能力。一般情況下,訓練能力差時,預測能力也差,并且定程度上,隨著訓練能力地提高,預測能力會得到提高。但這種趨勢不是固定的,其有一個極限,當達到此極限時,隨著訓練能力的提高,預測能力反而會下降,也即出現(xiàn)所謂“過擬合”現(xiàn)象。出現(xiàn)該現(xiàn)象的原因是網(wǎng)絡學習了過多的樣本細節(jié)導致,學習出的模型已不能反映樣本內(nèi)含的規(guī)律,所

18、以如何把握好學習的度,解決網(wǎng)絡預測能力和訓練能力間矛盾問題也是BP神經(jīng)網(wǎng)絡的重要研究內(nèi)容。 6)BP神經(jīng)網(wǎng)絡樣本依賴性問題:網(wǎng)絡模型的逼近和推廣能力與學習樣本的典型性密切相關,而從問題中選取典型樣本實例組成訓練集是一個很困難的問題。25、什么是過擬合,怎么解決過擬合 過擬合問題是指過于完美擬合了訓練集數(shù)據(jù),而對新的樣本失去了一般性,不能有效預測新樣本,訓練誤差特別小,實際誤差特別大。泛化能力極差。造成過擬合的原因可能是特征量太多或者模型函數(shù)過于復雜。解決方法:主要通過1、模型簡化2.減少特征數(shù)量.3、衰減,4、交叉驗證5、減少特征6、正則化26、衡量模式識別與機器學習算法優(yōu)劣的標準時

19、間復雜性、空間復雜性、可讀性、一致性、泛化能力、健壯性、精度、時間復雜度:同樣輸入規(guī)模(問題規(guī)模)花費多少時間空間復雜度:同樣輸入規(guī)?;ㄙM多少空間(主要內(nèi)存)上兩點越小越好穩(wěn)定性:會因輸入同而導致穩(wěn)定情況發(fā)生算法思路否簡單:越簡單越容易實現(xiàn)越好空間復雜度:指執(zhí)行這個算法所需要的內(nèi)存空間時間復雜度:指執(zhí)行算法所需要的計算工作量可讀性:指一個算法可供人們閱讀的容易程度。泛化能力:指機器學習算法對新鮮樣本的適應能力。健壯性:指一個算法對不合理數(shù)據(jù)輸入的反應能力和處理能力,也成為容錯性。 27、什么是有監(jiān)督學習、什么無監(jiān)督學習 監(jiān)督學習方法用來對數(shù)據(jù)實現(xiàn)分類,分類規(guī)則通過訓練獲得。該訓練集由帶分類號的

20、數(shù)據(jù)集組成,因此監(jiān)督學習方法的訓練過程是離線的。非監(jiān)督學習方法不需要單獨的離線訓練過程,也沒有帶分類號(標號)的訓練數(shù)據(jù)集,一般用來對數(shù)據(jù)集進行分析,如聚類,確定其分布的主分量等。有監(jiān)督學習就是分類,通過已有的訓練樣本去訓練得到一個最優(yōu)模型,然后利用這個最優(yōu)模型將所有輸入映射為相應的輸出,對于輸出進行判斷實現(xiàn)分類,這就對未知數(shù)據(jù)進行了分類。監(jiān)督學習中的典型例子是KNN和SVM。 無監(jiān)督學習與監(jiān)督學習的不同之處,主要是它沒有訓練樣本,而是直接對數(shù)據(jù)進行建模。典型案例就是聚類了,其目的是把相似的東西聚在一起,而不關心這一類是什么。聚類算法通常只需要知道如何計算相似度就可以了,它可能不具有實際意義。

21、28、什么是Fisher判別準則、感知準則、支持向量機感知準則的異同 相同點:都是用來進行線性判別的,感知器和向量機要求樣本線性可分,支持向量機解決非線性問題也是將非線性轉(zhuǎn)化為線性,本質(zhì)上還是線性判別。不同點:Fisher是將樣本投射到一維 使類間樣本盡量分開感知器和支持向量機是將低維轉(zhuǎn)化為高維 再將高維還原到低維,但感知器只找到一個分類面即可,支持向量機要求找最優(yōu)分類面。 Fisher準則:根據(jù)兩類樣本一般類內(nèi)密集, 類間分離的特點,尋找線性分類器最佳的法線向量方向,使兩類樣本在該方向上的投影滿足類內(nèi)盡可能密集,類間盡可能分開。該種度量通過類內(nèi)離散矩陣Sw和類間離散矩陣Sb實現(xiàn)。感知準則函數(shù)

22、:準則函數(shù)以使錯分類樣本到分界面距離之和最小為原則。其優(yōu)點是通過錯分類樣本提供的信息對分類器函數(shù)進行修正,這種準則是人工神經(jīng)元網(wǎng)絡多層感知器的基礎。支持向量機:基本思想是在兩類線性可分條件下,所設計的分類器界面使兩類之間的間隔為最大, 它的基本出發(fā)點是使期望泛化風險盡可能小。Fisher線性判別:可以考慮把d維空間的樣本投影到一條直線上,形成一維空間,即把維數(shù)壓縮到一維,這在數(shù)學上容易辦到,然而,即使樣本在d維空間里形成若干緊湊的互相分得開的集群,如果把它們投影到一條任意的直線上,也可能使得幾類樣本混在一起而變得無法識別。但是在一般情況下,總可以找到某個方向,使得在這個方向的直線上,樣本的投影

23、能分開得最好。問題是如何根據(jù)實際情況找到這條最好的、最易于分類的投影線,這就是Fisher算法所要解決的基本問題。 支持向量機(SVM ) SVM可以分類線性與非線性數(shù)據(jù)。SVM的原理是將訓練數(shù)據(jù)轉(zhuǎn)化進入更高的維度,再檢查這個維度中的最優(yōu)間隔距離,或者不同分類中的邊界。在SVM中,這些邊界被稱為“超平面”,通過定位支持向量來劃分,或者通過最能夠定義類型的個例及其邊界。邊界是與超平面平行的線條,定義為超平面及其支持向量之間的最短距離。SVM的宏偉概念概括起來就是:如果有足夠多的維度,就一定能發(fā)現(xiàn)將兩個類別分開的超平面,從而將數(shù)據(jù)庫成員的類別進行非線性化。當重復足夠多的次數(shù),就可以生成足夠多的超平

24、面,在N個空間維度中,分離所有的類別。29、基于最小錯誤率的貝葉斯決策及基于最小風險的貝葉斯決策解決實際問題。假設在某個地區(qū)細胞識別中正常(w1)和異常(w2)兩類先驗概率分別為 P(w1)=0.9,P(w2)=0.1,現(xiàn)有一待識別的細胞,其觀察值為x,從類條件概率密度分布曲線上查得,并且已知,試對該細胞x用一下兩種方法進行分類:1. 基于最小錯誤率的貝葉斯決策;2. 基于最小風險的貝葉斯決策;請分析兩種結果的異同及原因。答:1.2. 30、貝葉斯決策算法、fisher算法、感知器算法、提升算法、k-近鄰算法、Apriori 算法、fp-tree算法、k-均值算法步驟及偽代碼。1. 貝葉斯決策

25、算法 (1)基于最小錯誤率的貝葉斯決策 (2)基于最小風險的貝葉斯決策最小風險貝葉斯決策規(guī)則為 如果,則最小風險貝葉斯決策的實現(xiàn)步驟: 在已知P(j),p(x|j),j=1,2,c及給出待識別的x的情況下,根據(jù)貝葉斯公式計算出后驗概率:j=1,2,c利用計算出的后驗概率及決策表,按(2-15)計算出采取,i=1,2,a的條件風險R(|x)i=1,2,a對中得到的a個條件風險值R(|x),i=1,2,a 進行比較,找出使條件風險最小的決策,即即 就是最小風險貝葉斯決策。 注意與基于最小錯誤率的貝葉斯決策的對比2.fisher算法3. 感知器算法4、提升算法輸入: ( x1, y1 ),

26、 ( x2, y 2 ) ( xm , ym ), 其中, xiX, yiY = + 1, - 1。初始化: D1 (i) = 1 /m; *  表示第一次迭代中, 每個訓練例M的權重都為1 /mfor t= 1 to T;  *  T 為迭代次數(shù), 通常為經(jīng)驗值在Dt下訓練;得到弱的假設ht: X  + 1, - 1;  * 即得到第t次的預測函數(shù)計算ht的錯誤率: t = Dt (i)  ( ht(xi

27、)Yi );令at = 1 /2 ln( ( 1- t ) / t );  *  ht 的權重更改權值:   *   Zt 為歸一化因子循環(huán)結束, 輸出H(x):5.  k-近鄰算法n 設這N個樣本中,來自1類的樣本有N1個,來自2類的樣本有N2個,來自c類的樣本有Nc個,若k1,k2,kc分別是k個近鄰中屬于1,2,c類的樣本數(shù),定義判別函數(shù)為gi(x) = ki,i =1,2,c (4-71)使用 k-近鄰算法將每組數(shù)據(jù)劃分到某個類中,其 偽

28、代碼如下:對未知類別屬性的數(shù)據(jù)集中的每個點依次執(zhí)行以下操作:1.計算已知類別數(shù)據(jù)集中的點與當前點之間的距離;2.按照距離遞增交序排序;3.選取與當前點距離最小的k個點;4.確定前k個點所在類別的出現(xiàn)頻率;5.返回前k個點出現(xiàn)頻率最高的類別作為當前點的預測分類。注意:距離函數(shù)決定了哪些樣本是待分類本的K個最近鄰居,它的選取取決于實際的數(shù)據(jù)和決策問題。如果樣本是空間中點,最常用的是歐幾里德距離。其它常用的距離函是由絕對距離、平方差和標準差。 歐幾里德距離: 點 x = (x1,.,xn) 和 y = (y1,.,yn) 之間的距離為 向量 

29、0;的自然長度,即該點到原點的距離為 它是一個純數(shù)值。在歐幾里得度量下,兩點之間直線最短。   3. 決定K的取值  鄰居的個數(shù)對分類的結果有一定的影響,一般先確定一個初始值,再進行調(diào)整,直到找到合適的值為止。 如何選擇一個最佳的K值取決于數(shù)據(jù)。一般情況下,在分類時較大的K值能夠減小噪聲的影響。但會使類別之間的界限變得模糊。一個較好的K值能通過各種啟發(fā)式技術來獲取,比如,交叉驗證。 噪聲和非相關性特征向量的存在會使K近鄰算法的準確性減小。對于選擇特征向量進行分類已經(jīng)作了很多研究。一個普遍的做法是利用進化算法優(yōu)化功能擴展,還有一種較普遍的方法是利用訓練樣本的互信息進行選擇特征

30、。6.Apriori 算法描述 Apriori 算法描述1. 使用逐層迭代找出頻繁項集輸入:事務數(shù)據(jù)庫 D;最小支持度閾值;輸出:D 中的頻繁項集;2. 求候選項集的集合 Ck 子過程輸入:頻繁(k-1)-項集 Lk-1;輸出:候選項集的集合 Ck;3. 由頻繁項集產(chǎn)生關聯(lián)規(guī)則輸入:所有頻繁項集集合 L=k>1 Lk; L 中每個頻繁項集的支持頻度; 最小可信度 min_conf ;輸出:關聯(lián)規(guī)則;處理流程: 對于所有頻繁 k-項集集合 Lk ( k>1) 對于 Lk中的每個頻繁 k-項集 l 對于 l 的每個非空子集 s : 如果support_count(l)/support_count(s)min_conf;則輸出關聯(lián)規(guī)則 “s =>(l-s)”。7.FP-treeStep 1: 遍歷一次數(shù)據(jù)庫,導出頻繁項(1項集)的集合和支持度計數(shù)(頻率),并且以降序排序。Step 2: 構造FP-treeStep 3: 根據(jù)第二步得到的FP-Tree, 為1項頻繁項集中的每一項構造條件FP-Tree.Step 4: 得到頻繁模式(頻繁項集).K均值聚類算法k均值算法先隨機選取K個對象作為初始的聚類中心。然后計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。聚

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論