數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法_第1頁
數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法_第2頁
數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法_第3頁
數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法_第4頁
數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法_第5頁
已閱讀5頁,還剩66頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第四章分類算法1數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024目錄分類算法概述概率模型樸素貝葉斯算法向量空間模型010203042數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024目錄K鄰近分類器0506多問題的分類3數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024分類算法的概述014數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024引言機(jī)器學(xué)習(xí)算法的最普通類型是什么監(jiān)督學(xué)習(xí)算法-就是我們教計(jì)算機(jī)如何做事情無監(jiān)督學(xué)習(xí)算法-在非監(jiān)督學(xué)習(xí)中,我們將讓計(jì)算機(jī)自己學(xué)習(xí)5數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024引言監(jiān)督學(xué)習(xí)可分為分類回歸6數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024引言監(jiān)督學(xué)習(xí)可分為兩類什么樣的數(shù)據(jù)適合分類算法?考慮案例中的數(shù)據(jù)類型查看sklearn中數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu)回顧第3章介紹的鳶尾花卉數(shù)據(jù)集呢?“教”是什么意思?7數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024一個(gè)關(guān)于分類學(xué)習(xí)的例子我們來看一個(gè)問題當(dāng)我們獲得一些關(guān)于腫瘤的醫(yī)療數(shù)據(jù),我們怎么讓機(jī)器判斷腫瘤是良性的還是惡性的呢?引言8數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024引言9數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024引言10數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024例子實(shí)現(xiàn)了什么?指我們給算法一個(gè)數(shù)據(jù)集,并且給定正確答案在分類學(xué)習(xí)中,數(shù)據(jù)集中的每個(gè)數(shù)據(jù),算法都知道數(shù)據(jù)的“正確答案”算法將算出更多新的結(jié)果如瘤是惡性的還是良性的引言11數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024引言分類方法的定義分類分析的是根據(jù)已知類別的訓(xùn)練集數(shù)據(jù),建立分類模型,并利用該分類模型預(yù)測未知類別數(shù)據(jù)對象所屬的類別。12數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024引言分類方法的應(yīng)用模式識別(PatternRecognition),就是通過計(jì)算機(jī)用數(shù)學(xué)技術(shù)方法來研究模式的自動處理和判讀。模式識別的目標(biāo)往往是識別,即分析出待測試的樣本所屬的模式類別13數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024引言分類方法的應(yīng)用預(yù)測,從利用歷史數(shù)據(jù)記錄中自動推導(dǎo)出對給定數(shù)據(jù)的推廣描述,從而能對未來數(shù)據(jù)進(jìn)行類預(yù)測14數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024現(xiàn)實(shí)應(yīng)用案例用行為分析物品識別、圖像檢測電子郵件的分類(垃圾郵件和非垃圾郵件等)新聞稿件的分類、手寫數(shù)字識別、個(gè)性化營銷中的客戶群分類、圖像/視頻的場景分類等引言15數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024引言分類器分類的實(shí)現(xiàn)方法是創(chuàng)建一個(gè)分類器(分類函數(shù)或模型),該分類器能把待分類的數(shù)據(jù)映射到給定的類別中。創(chuàng)建分類的過程與機(jī)器學(xué)習(xí)的一般過程一致16數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024引言分類器的構(gòu)建回顧構(gòu)建一個(gè)機(jī)器學(xué)習(xí)框架的基本步驟:(1)數(shù)據(jù)的加載。(2)選擇模型。(3)模型的訓(xùn)練。(4)模型的預(yù)測。(5)模型的評測。(6)模型的保存。17數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024引言訓(xùn)練數(shù)據(jù)集分類算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分類規(guī)則分類器的構(gòu)建圖示18數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024引言分類規(guī)則測試集未知數(shù)據(jù)(Jeff,Professor,4)Tenured?分類器的構(gòu)建圖示19數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024引言分類器的構(gòu)建標(biāo)準(zhǔn)使用下列標(biāo)準(zhǔn)比較分類和預(yù)測方法預(yù)測的準(zhǔn)確率:模型正確預(yù)測新數(shù)據(jù)的類編號的能力速度:產(chǎn)生和使用模型的計(jì)算花銷健壯性:給定噪聲數(shù)據(jù)或有空缺值的數(shù)據(jù),模型正確預(yù)測的能力可伸縮性:對大量數(shù)據(jù),有效的構(gòu)建模型的能力可解釋性:學(xué)習(xí)模型提供的理解和洞察的層次biao20數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024概率模型貝葉斯簡介貝葉斯(約1701-1761),英國數(shù)學(xué)家貝葉斯方法源于他生前解決逆概的一篇文章21數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024概率模型貝葉斯要解決的問題使正向概率:假設(shè)袋子里有N個(gè)白球,M個(gè)黑球,隨機(jī)摸一個(gè),摸出黑球的概率有多大逆向概率:如果事先不知道袋子里黑白球的比例,隨機(jī)摸出幾個(gè)球,根據(jù)這些球的顏色,可以推測袋子里面的黑白球比例22數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024概率模型一個(gè)例子23數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024概率模型一個(gè)例子男生總是穿長褲,女生則一半穿長褲一半穿裙子正向概率:隨機(jī)選取一個(gè)學(xué)生,穿長褲的概率和穿裙子的概率是多大逆向概率:迎面走來一個(gè)穿長褲的學(xué)生,無法確定該學(xué)生的性別,請問該學(xué)生是女生的概率有多大24數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024概率模型一個(gè)例子假設(shè)學(xué)校里面人的總數(shù)是U穿長褲的男生:U*P(Boy)*P(Pants|Boy)

P(Boy)是男生的概率=60% P(Pants|Boy)是條件概率,即在Boy的條件下,穿長褲的概率是多大,這里是100%穿長褲的女生:U*P(Girl)*P(Pants|Girl)25數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024概率模型一個(gè)例子求解:穿長褲的總數(shù):U*P(Boy)*P(Pants|Boy)+U*P(Girl)*P(Pants|Girl)穿長褲的人為女生的概率:P(Girl|Pants) =U*P(Girl)*P(Pants|Girl)/穿長褲的總數(shù) =U*P(Girl)*P(Pants|Girl)/[U*P(Boy)*P(Pants|Boy)+U*P(Girl)*P(Pants|Girl)]26數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024概率模型一個(gè)例子與總?cè)藬?shù)有關(guān)嗎?分子分母均包含總?cè)藬?shù),結(jié)果與總?cè)藬?shù)無關(guān),可以消去P(Girl|Pants)=P(Girl)*P(Pants|Girl)/[P(Boy)*P(Pants|Boy)+P(Girl)*P(Pants|Girl)]分母就是P(Pants)27數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024概率模型貝葉斯公式28數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024樸素貝葉斯樸素貝葉斯分類器我們介紹的第一個(gè)分類學(xué)習(xí)方法是樸素貝葉斯(NaiveBayes)模型,它是一種基于概率的學(xué)習(xí)方法“樸素”指的是條件的獨(dú)立性我們一起通過一個(gè)例子來了解一下樸素貝葉斯分類算法29數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024樸素貝葉斯樸素貝葉斯案例現(xiàn)在給我們的問題是,如果一對男女朋友,男生想女生求婚,男生的四個(gè)特點(diǎn)分別是不帥,性格不好,身高矮,不上進(jìn),請你判斷一下女生是嫁還是不嫁?30數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024樸素貝葉斯算法樸素貝葉斯案例31數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024樸素貝葉斯算法樸素貝葉斯案例這是一個(gè)典型的分類問題數(shù)學(xué)問題就是比較p(嫁|(不帥、性格不好、身高矮、不上進(jìn)))與p(不嫁|(不帥、性格不好、身高矮、不上進(jìn)))32數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024樸素貝葉斯算法樸素貝葉斯案例聯(lián)系到我們的樸素貝葉斯公式:33數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024樸素貝葉斯算法樸素貝葉斯案例求p(嫁|(不帥、性格不好、身高矮、不上進(jìn)),這是我們不知道的,但是通過樸素貝葉斯公式可以轉(zhuǎn)化為好求的三個(gè)量p(不帥、性格不好、身高矮、不上進(jìn)|嫁)、p(不帥、性格不好、身高矮、不上進(jìn))、p(嫁)34數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024樸素貝葉斯算法樸素貝葉斯案例其中p(不帥、性格不好、身高矮、不上進(jìn)|嫁)=p(不帥|嫁)*p(性格不好|嫁)*p(身高矮|嫁)*p(不上進(jìn)|嫁)那么我就要分別統(tǒng)計(jì)后面幾個(gè)概率,也就得到了左邊的概率!35數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024樸素貝葉斯算法樸素貝葉斯案例我們將上面公式整理一下如下:36數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024樸素貝葉斯算法下面我將一個(gè)一個(gè)的進(jìn)行統(tǒng)計(jì)計(jì)算(在數(shù)據(jù)量很大的時(shí)候,中心極限定理,頻率是等于概率的)p(嫁)=?首先我們整理訓(xùn)練數(shù)據(jù)中,嫁的樣本數(shù)如下:則p(嫁)=6/12(總樣本數(shù))=1/2樸素貝葉斯案例37數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024樸素貝葉斯算法則p(嫁)=6/12(總樣本數(shù))=1/2樸素貝葉斯案例38數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024樸素貝葉斯算法p(不帥|嫁)=?統(tǒng)計(jì)滿足樣本數(shù)如下:則p(不帥|嫁)=3/6=1/2在嫁的條件下,看不帥有多少樸素貝葉斯案例39數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024樸素貝葉斯算法樸素貝葉斯案例求出其他統(tǒng)計(jì)量的概論代入=(1/2*1/6*1/6*1/6*1/2)/(1/3*1/3*7/12*1/3)40數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024樸素貝葉斯算法思考剛才的案例,我們做了哪些事情1、找到一個(gè)已知分類的待分類項(xiàng)集合,這個(gè)集合叫做訓(xùn)練樣本集樸素貝葉斯41數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024樸素貝葉斯算法2、統(tǒng)計(jì)得到在各類別下各個(gè)特征屬性的條件概率估計(jì),即只計(jì)算P(a1|y1),P(a2|y1)......的概率而不是聯(lián)合概率樸素貝葉斯42數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024樸素貝葉斯分類器分類3、假設(shè)各個(gè)特征屬性是條件獨(dú)立的,則根據(jù)貝葉斯定理有如下推導(dǎo):

樸素貝葉斯43數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024樸素貝葉斯分類器分類分母對于所有類別為常數(shù),我們只要將分子最大化皆可。又因?yàn)楦魈卣鲗傩允菞l件獨(dú)立的,所以有:樸素貝葉斯44數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024樸素貝葉斯分類算法1、設(shè)x={a1,a2,a3,......am}為一個(gè)待分類項(xiàng),而每個(gè)a為x的一個(gè)特征屬性。2、有類別集合C={y1,y2,......yn}。3、計(jì)算P(y1|x),P(y2|x),......,P(yn|x),。4、如果,P(yk|x)=max{P(y1|x),P(y2|x),......,P(yn|x)},則x屬于yk。樸素貝葉斯45數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024概率模型討論P(yáng)(a|y)的估計(jì)樸素貝葉斯分類的關(guān)鍵:計(jì)算條件概率P(a|y),當(dāng)特征屬性為離散值時(shí),使用頻率即可用來估計(jì)P(a|y)下面重點(diǎn)討論特征屬性是連續(xù)值的情況。46數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024概率模型討論P(yáng)(a|y)的估計(jì)當(dāng)特征屬性為連續(xù)值時(shí),通常假定其值服從高斯分布(也稱正態(tài)分布)。即:

47數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024概率模型討論P(yáng)(a|y)的估計(jì)計(jì)算出訓(xùn)練樣本各類別中特征項(xiàng)劃分的各均值和標(biāo)準(zhǔn)差,即可得到需要的估計(jì)值P(a|y)均值與標(biāo)準(zhǔn)差的計(jì)算在此不再贅述。48數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024概率模型討論P(yáng)(a|y)=0的估計(jì)另一個(gè)需要討論的問題就是當(dāng)P(a|y)=0怎么辦?當(dāng)某個(gè)類別下某個(gè)特征項(xiàng)劃分沒有出現(xiàn)時(shí),就是產(chǎn)生這種現(xiàn)象,這會令分類器質(zhì)量大大降低49數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024概率模型討論P(yáng)(a|y)=0的估計(jì)為了解決這個(gè)問題,我們引入Laplace校準(zhǔn),它的思想非常簡單,就是對沒類別下所有劃分的計(jì)數(shù)加1,這樣如果訓(xùn)練樣本集數(shù)量充分大時(shí),并不會對結(jié)果產(chǎn)生影響,并且解決了上述頻率為0的尷尬局面50數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024概率模型高斯和多項(xiàng)式樸素貝葉斯數(shù)據(jù)集類型的不同,數(shù)據(jù)的分布也不同什么樣的數(shù)據(jù)適合使用高斯?什么樣的數(shù)據(jù)適合使用多項(xiàng)式貝葉斯?了解多項(xiàng)式分布和高斯分布51數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024樸素貝葉斯算法樸素貝葉斯案例加載數(shù)據(jù)fromsklearnimportdatasetsiris=datasets.load_iris()導(dǎo)入模型>>>fromsklearn.naive_bayesimportGaussianNB>>>gnb=GaussianNB()52數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024樸素貝葉斯算法樸素貝葉斯案例訓(xùn)練模型+預(yù)測數(shù)據(jù)y_pred=gnb.fit(iris.data,iris.target).predict(iris.data)輸出print("Numberofmislabeledpointsoutofatotal%dpoints:%d"%(iris.data.shape[0],(iris.target!=y_pred).sum()))53數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024向量空間模型向量空間模型空間中具有大小和方向的量叫做空間向量我們可以想象我們我們所分析的數(shù)據(jù)的每一個(gè)屬性視為一個(gè)向量維度,我們輸入的數(shù)據(jù)其實(shí)是某個(gè)高維向量空間中的一個(gè)點(diǎn)54數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024向量空間模型向量空間模型很多基于向量空間的分類器在分類決策時(shí)用到距離的概念??臻g距離計(jì)算方法:歐氏距離(Euclideandistance)55數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024向量空間模型向量空間模型在二維和三維空間中的歐式距離的就是兩點(diǎn)之間的距離,二維的公式是d=sqrt((x1-x2)^2+(y1-y2)^2)56數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024向量空間模型向量空間模型三維的公式是d=sqrt(x1-x2)^2+(y1-y2)^2+(z1-z2)^2)推廣到n維空間57數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024向量空間模型向量空間模型進(jìn)行分類空間向量如何進(jìn)行分類?在向量空間的分類中,我們必須要做的工作是定義類別之間的邊界,從而得到分類的結(jié)果58數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024KNN算法KNN分類器算法K近鄰(KNearestNeighbors,KNN)算法,又稱為KNN算法思想是尋找與待分類的樣本在特征空間中距離最近的K個(gè)已標(biāo)記樣本(即K個(gè)近鄰),以這些樣本的標(biāo)記為參考,通過投票等方式,將占比例最高的類別標(biāo)記賦給待標(biāo)記樣本59數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024KNN算法KNN分類器K面通過一個(gè)簡單的例子說明一下:如下圖,綠色圓要被決定賦予哪個(gè)類,是紅色三角形還是藍(lán)色四方形?60數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024KNN算法KNN分類器如果K=3,由于紅色三角形所占比例為2/3,綠色圓將被賦予紅色三角形那類61數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024KNN算法KNN分類器如果K=5,藍(lán)色四方形比例為3/5,因此綠色圓被賦予藍(lán)色四方形類。62數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024KNN算法KNN分類器算法KNN算法需要確定K值、距離度量和分類決策規(guī)則K值過小時(shí),只有少量的訓(xùn)練樣本對預(yù)測起作用,容易發(fā)生過擬合,或者受含噪聲訓(xùn)練數(shù)據(jù)的干擾導(dǎo)致錯(cuò)誤K值過大,過多的訓(xùn)練樣本對預(yù)測起作用,當(dāng)不同類別樣本數(shù)量不均衡時(shí),結(jié)果偏向數(shù)量占優(yōu)的樣本63數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024KNN算法KNN分類器算法距離度量在KNN中,通過計(jì)算對象間距離來作為各個(gè)對象之間的相似性指標(biāo),距離一般使用歐氏距離或曼哈頓距離:64數(shù)據(jù)挖掘技術(shù)與應(yīng)用分類算法5/8/2024KNN算法KNN分類器算法1)計(jì)算測試數(shù)據(jù)與各個(gè)訓(xùn)練數(shù)據(jù)之間的距離;2)按照距離的遞增關(guān)系進(jìn)行排序;3)選取距離最小

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論