版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
5.3常用核心技術(shù)031.決策樹2.貝葉斯分類器3.人工神經(jīng)網(wǎng)絡(luò)4.卷積神經(jīng)網(wǎng)絡(luò)5.3.1決策樹
決策樹(decisiontree)模型是一種具有可解釋性的樹形機(jī)器學(xué)習(xí)模型,能夠從帶有噪音的小樣本數(shù)據(jù)中進(jìn)行學(xué)習(xí),適用于解決具有離散目標(biāo)值的監(jiān)督學(xué)習(xí)問題。根結(jié)點(diǎn)內(nèi)部結(jié)點(diǎn)或非葉子結(jié)點(diǎn)葉子結(jié)點(diǎn)邊5.3.1決策樹1.分類問題訓(xùn)練集實(shí)例學(xué)號輸入數(shù)據(jù)x標(biāo)簽y考試成績作業(yè)完成情況課上注意力出勤率學(xué)習(xí)狀態(tài)1優(yōu)秀按時(shí)完成分散高好2良好按時(shí)完成集中低好3優(yōu)秀不能完成分散高好4較差按時(shí)完成集中高好5良好按時(shí)完成一般高好6優(yōu)秀按時(shí)完成一般低好7優(yōu)秀按時(shí)完成集中低好8較差不能完成一般高差9較差按時(shí)完成一般低差10優(yōu)秀不能完成一般低差11良好不能完成一般高差12良好不能完成一般低差13較差不能完成分散高差14較差不能完成分散低差
所謂分類問題是根據(jù)已知樣本的某些特征,判斷一個(gè)新的樣本屬于哪種已知的樣本類。多元分類二分類N個(gè)樣本的訓(xùn)練集可以表示為集合D={(x1,y1),(x2,y2),?,(xn,yn)}
設(shè):X~輸入數(shù)據(jù)x所在空間Y~標(biāo)簽y所在空間
監(jiān)督學(xué)習(xí)目標(biāo):f:X→Y訓(xùn)練過程:調(diào)整模型f(x)自身參數(shù)訓(xùn)練結(jié)果:f(x)的近似模型。2.訓(xùn)練集5.3.1決策樹訓(xùn)練集實(shí)例學(xué)號特征向量x標(biāo)簽y考試成績作業(yè)完成情況課上注意力出勤率學(xué)習(xí)狀態(tài)1優(yōu)秀按時(shí)完成分散高好2良好按時(shí)完成集中低好3優(yōu)秀不能完成分散高好4較差按時(shí)完成集中高好5良好按時(shí)完成一般高好6優(yōu)秀按時(shí)完成一般低好7優(yōu)秀按時(shí)完成集中低好8較差不能完成一般高差9較差按時(shí)完成一般低差10優(yōu)秀不能完成一般低差11良好不能完成一般高差12良好不能完成一般低差13較差不能完成分散高差14較差不能完成分散低差特征取值范圍類別取值范圍類別類別值范圍(Y)學(xué)習(xí)狀態(tài){好,差}樣本表示(x=(a1,a2,a3,a4),y)(x=(優(yōu)秀,按時(shí)完成,一般,高),y=好)5.3.1決策樹人類完成分類任務(wù)的邏輯推理過程常??梢员怀橄鬄閷Ψ诸悓ο蟮囊幌盗刑卣鲗傩赃M(jìn)行測試的過程。從根結(jié)點(diǎn)到葉子結(jié)點(diǎn)的一條路徑代表了一個(gè)決策過程的測試序列,一個(gè)數(shù)據(jù)點(diǎn)從根結(jié)點(diǎn)進(jìn)入決策樹后,會根據(jù)其特征值選擇一條這樣的路徑,最終進(jìn)入某個(gè)葉結(jié)點(diǎn)代表的分類類別得到最終的分類結(jié)果。3.基本原理示例5.3.1決策樹4.基本算法輸出:以node為根結(jié)點(diǎn)的一棵決策樹5.3.1決策樹訓(xùn)練集計(jì)算示例
據(jù)此,選擇信息增益最大的特征“作業(yè)完成情況”作為根結(jié)點(diǎn)
信息熵是信息論中廣泛使用的一個(gè)度量標(biāo)準(zhǔn),它可以度量任意樣本集合中類別的“純度”。二分類信息熵計(jì)算公式:信息熵Ent(D)=-p1log2p1–p2log2p2其中:D代表一個(gè)集合;p1代表D中正例樣本的比例;p2代表D中反例樣本的比例;0log20定義為0信息增益
一個(gè)特征的信息增益就是使用這個(gè)特征劃分樣本集合而導(dǎo)致的信息熵降低程度
5.3.1決策樹測試和評估例:測試集T包含兩個(gè)測試數(shù)據(jù):T={(良好,按時(shí)完成,一般,低,好),(較差,不能完成,一般,低,差)}結(jié)論:
決策樹在這個(gè)小型測試集上達(dá)到了100%的正確率測試集中樣本格式:
(x=(a1,a2,a3,a4),y)5.3.2貝葉斯分類器
1.概率模型例如,對于學(xué)習(xí)狀態(tài)判斷問題,已知一個(gè)學(xué)生考試成績良好,能按時(shí)完成作業(yè),課上注意力一般,出勤率低,需要判斷其學(xué)習(xí)狀態(tài)。該問題可表達(dá)為以下形式:
P(學(xué)習(xí)狀態(tài)=好|(考試成績=良好,作業(yè)完成情況=按時(shí)完成,課上注意力=一般,出勤率=低))P(學(xué)習(xí)狀態(tài)=差|(考試成績=良好,作業(yè)完成情況=按時(shí)完成,課上注意力=一般,出勤率=低))(1)概率隨機(jī)事件出現(xiàn)的可能性大小,表示為P(A)。0.概率知識
(2)概率分布隨機(jī)變量取值的概率規(guī)律,即隨機(jī)變量各種可能結(jié)果發(fā)生的概率。(3)條件概率
條件概率是指事件A在另外一個(gè)事件B已經(jīng)發(fā)生條件下的發(fā)生概率,表示為P(A|B)。
條件概率P(y|x):表示已知x的情況下屬于某個(gè)分類y∈Y發(fā)生的概率有多大;分類器f(x):選擇能使P(y|x)最大的類別y,即在已知x的情況下選擇最有可能的類別y作為輸出結(jié)果分類器f(x)輸出:選取上面兩個(gè)條件概率較大者的學(xué)習(xí)狀態(tài)作為判斷結(jié)果。5.3.2貝葉斯分類器3.貝葉斯分類器
2.貝葉斯定理
根據(jù)貝葉斯定理
例:根據(jù)訓(xùn)練集樣本計(jì)算學(xué)習(xí)狀態(tài)為好和學(xué)習(xí)狀態(tài)為差的概率。
5.3.2貝葉斯分類器例:以下表為訓(xùn)練樣本集合,判斷一個(gè)考試成績良好、能按時(shí)完成作業(yè)、課上注意力一般、出勤率低的學(xué)生的學(xué)習(xí)狀態(tài)。
比較以上兩個(gè)計(jì)算結(jié)果,學(xué)習(xí)狀態(tài)好的計(jì)算結(jié)果更大,因此判定該學(xué)生的學(xué)習(xí)狀態(tài)為好。學(xué)號xy考試成績作業(yè)完成情況課上注意力出勤率學(xué)習(xí)狀態(tài)1優(yōu)秀按時(shí)完成分散高好2良好按時(shí)完成集中低好3優(yōu)秀不能完成分散高好4較差按時(shí)完成集中高好5良好按時(shí)完成一般高好6優(yōu)秀按時(shí)完成一般低好7優(yōu)秀按時(shí)完成集中低好8較差不能完成一般高差9較差按時(shí)完成一般低差10優(yōu)秀不能完成一般低差11良好不能完成一般高差12良好不能完成一般低差13較差不能完成分散高差14較差不能完成分散低差樸素貝葉斯分類器:
5.3.3人工神經(jīng)網(wǎng)絡(luò)1.神經(jīng)元
人工神經(jīng)網(wǎng)絡(luò)(英文縮寫ANN)是一個(gè)用大量結(jié)點(diǎn)(神經(jīng)元)經(jīng)廣泛連接構(gòu)成的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),它以數(shù)學(xué)模型模擬神經(jīng)元活動,是基于模仿大腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能而建立的一種信息處理系統(tǒng)。非線性函數(shù)f(u)5.3.3人工神經(jīng)網(wǎng)絡(luò)1.神經(jīng)元常用的激活函數(shù)5.3.3人工神經(jīng)網(wǎng)絡(luò)1.神經(jīng)元(1)神經(jīng)元數(shù)學(xué)模型既有逼近線性函數(shù)的能力,也有逼近非線性函數(shù)的能力,其應(yīng)用范圍非常大。(2)在構(gòu)造神經(jīng)網(wǎng)絡(luò)時(shí),其神經(jīng)元的傳遞函數(shù)和轉(zhuǎn)換函數(shù)就已經(jīng)確定了,如果想要改變網(wǎng)絡(luò)輸出的大小,只能修改網(wǎng)絡(luò)神經(jīng)元的權(quán)重和閾值參數(shù),因此神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)就是改變神經(jīng)元中參數(shù)的過程。(3)當(dāng)訓(xùn)練一個(gè)神經(jīng)元的時(shí)候,就是在不斷地調(diào)整神經(jīng)元數(shù)學(xué)模型中的參數(shù),當(dāng)模型訓(xùn)練好以后,參數(shù)就確定下來了,因此,可以認(rèn)為一個(gè)模型學(xué)到的知識被儲存于這些參數(shù)中了。(5)對于回歸任務(wù)來說,訓(xùn)練神經(jīng)元相當(dāng)于尋找一條能夠擬合集合點(diǎn)的直線,使得集合點(diǎn)到直線的距離最短(誤差最小)。(4)對于分類任務(wù)來說,訓(xùn)練神經(jīng)元相當(dāng)于尋找一個(gè)界限把不同類型的集合點(diǎn)分開,然后通過Sigmoid函數(shù)將其映射到0~1之間。5.3.3人工神經(jīng)網(wǎng)絡(luò)2.前饋神經(jīng)網(wǎng)絡(luò)(2)在人工神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元處理單元可表示不同的對象,例如字母、像素、特征、概念或者一些有意義的抽象模式,而網(wǎng)絡(luò)自身通常都是對某種算法或者函數(shù)的逼近,也可能是對一種邏輯策略的表達(dá)。
前饋神經(jīng)網(wǎng)絡(luò)(英文縮寫FNN)是一種特殊的人工神經(jīng)網(wǎng)絡(luò),它采用單向結(jié)構(gòu),每一層包含若干個(gè)神經(jīng)元,每個(gè)神經(jīng)元只與前一層的神經(jīng)元相連,可以接收前一層神經(jīng)元的信號,并產(chǎn)生輸出信號給下一層神經(jīng)元。(1)前饋神經(jīng)網(wǎng)絡(luò)的第1層叫輸入層,最后一層叫輸出層,其他中間層叫隱藏層。前饋神經(jīng)網(wǎng)絡(luò)可以沒有隱藏層,也可以有一至多個(gè)隱藏層。整個(gè)網(wǎng)絡(luò)中無反饋,信號從輸入層向輸出層單向傳播,可用一個(gè)有向無環(huán)圖表示。(3)人工神經(jīng)網(wǎng)絡(luò)輸出可以根據(jù)實(shí)際問題設(shè)置1個(gè)、2個(gè)或多個(gè)輸出端。(4)前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)簡單,應(yīng)用廣泛,它通過簡單非線性神經(jīng)元的復(fù)合映射,可獲得復(fù)雜的非線性處理能力,能夠逼近任意連續(xù)函數(shù),也可以表達(dá)復(fù)雜的邏輯策略。5.3.3人工神經(jīng)網(wǎng)絡(luò)3.前饋神經(jīng)網(wǎng)絡(luò)的訓(xùn)練
多層前饋神經(jīng)網(wǎng)絡(luò)可以看作是非線性復(fù)合函數(shù),它的學(xué)習(xí)過程就是將輸入沿著網(wǎng)絡(luò)結(jié)構(gòu)的方向一層一層的正向傳播直到輸出層,然后再根據(jù)輸出值和標(biāo)簽之間的誤差通過反向傳播算法(BP)對權(quán)重和閾值進(jìn)行更新。然后循環(huán)整個(gè)過程,直到滿足最大迭代次數(shù)或者在驗(yàn)證集上的錯(cuò)誤率趨于平穩(wěn)。正向“虎”=?誤差反向推斷正向“狗”滿足要求5.3.4卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)(英文縮寫CNN)是一類基于卷積運(yùn)算的多層前饋神經(jīng)網(wǎng)絡(luò),它具有表征學(xué)習(xí)能力,能夠?qū)斎胄畔⑦M(jìn)行平移不變分類,特別適宜處理視覺方面的問題,是深度學(xué)習(xí)的代表模型之一。5.3.4卷積神經(jīng)網(wǎng)絡(luò)(1)
輸入層
卷積神經(jīng)網(wǎng)絡(luò)的輸入層可以處理多維數(shù)據(jù),最常見的是輸入層接收二維數(shù)組。如果是彩色圖像則需要3個(gè)二維數(shù)組,分別存放RGB三個(gè)通道的像素值,這樣就可以把1張彩色圖像存放到1個(gè)三維數(shù)組中。1個(gè)二維數(shù)組可以存放1個(gè)矩陣,1個(gè)矩陣可以表示1張黑白圖像。數(shù)組中的每個(gè)元素存放圖像對應(yīng)像素點(diǎn)的灰度值,0表示最暗,255表示最亮。5.3.4卷積神經(jīng)網(wǎng)絡(luò)
(2)卷積層卷積層的功能是對輸入數(shù)據(jù)進(jìn)行特征提取,其內(nèi)部包含多個(gè)卷積核,可以提取不同的特征。
④卷積運(yùn)算是指從輸入數(shù)據(jù)(被卷積圖像)的左上角開始,取一個(gè)與卷積核同樣大小的活動窗口(感受野),窗口中輸入數(shù)據(jù)與卷積核元素對應(yīng)起來相乘再相加,其計(jì)算結(jié)果放入新圖像對應(yīng)窗口的中心位置,然后,活動窗口向右移動一列并作同樣的運(yùn)算。以此類推,從左到右、從上到下依次運(yùn)算,即可得到一幅新的卷積圖像,這幅新圖像通常稱作特征圖。①1個(gè)卷積核類似于1個(gè)前饋神經(jīng)網(wǎng)絡(luò)的神經(jīng)元,組成卷積核的每個(gè)元素都對應(yīng)1個(gè)權(quán)重系數(shù)。②卷積層內(nèi)每個(gè)神經(jīng)元都與前一層局部區(qū)域中相鄰的多個(gè)點(diǎn)相連,區(qū)域的大小取決于卷積核的大小,卷積核的大小被稱為“感受野”。③卷積核在工作時(shí),“感受野”像一個(gè)移動窗口一樣有規(guī)律地掃過輸入數(shù)據(jù),在移動的過程中,卷積核與“感受野”內(nèi)的輸入數(shù)據(jù)做卷積運(yùn)算,然后經(jīng)激活函數(shù)對卷積運(yùn)算結(jié)果做非線性變換。被卷積圖像特征圖卷積核5.3.4卷積神經(jīng)網(wǎng)絡(luò)
(3)池化層①卷積層提取特征后,其輸出的特征圖會被傳遞至池化層進(jìn)行池化操作。最大值池化操作②池化操作(Pooling)可采用尺寸2
2的池化窗口,以步長為2從左到右、從上到下依次對特征圖進(jìn)行最大值采樣,即每個(gè)采樣操作都是從4個(gè)數(shù)字中取最大值作為該區(qū)域的概括。③通過池化操作,降低了卷積層輸出的特征維度(特征圖分辨率降低),縮小了連接到后層的結(jié)點(diǎn)個(gè)數(shù),減少了神經(jīng)網(wǎng)絡(luò)中參數(shù)數(shù)量,能夠在保留主要特征的情況下大幅減少計(jì)算量,同時(shí)也提高了信息的抽象程度。5.3.4卷積神經(jīng)網(wǎng)絡(luò)
(4)全連接層①在卷積神經(jīng)網(wǎng)絡(luò)的最后部分通常使用1到2個(gè)全連接層來完成分類任務(wù)。④特征圖在全連接層中不需要保留空間拓?fù)浣Y(jié)構(gòu),進(jìn)入全連接層的特征圖需要被轉(zhuǎn)為一維向量并通過全連接層送給輸出層。②全連接層等價(jià)于多層前饋神經(jīng)網(wǎng)絡(luò)中的隱藏層,它的每一個(gè)結(jié)點(diǎn)都與上一層的所有結(jié)點(diǎn)相連,用來把前邊提取到的特征組合起來。③全連接層本身不具有特征提取能力,它的主要作用是對提取的高級特征進(jìn)行非線性組合以達(dá)到分類的目的。全連接層結(jié)構(gòu)5.3.4卷積神經(jīng)網(wǎng)絡(luò)
(5)輸出層輸出層的結(jié)構(gòu)和工作原理與前饋神經(jīng)網(wǎng)絡(luò)中的輸出層相同,它的輸出內(nèi)容依賴于具體的任務(wù)需求。①對于線性回歸問題,可以直接使用線性函數(shù)作為輸出以便能夠獲得一個(gè)連續(xù)值;②對于多類別分類問題,通常使用softmax函數(shù)作為輸出層的激活函數(shù)以便確定輸入所屬類別。③softmax函數(shù)可以輸出屬于每個(gè)類別的概率,其概率總和為1,一般取輸出值中最大者作為最終的分類結(jié)果。5.3.4卷積神經(jīng)網(wǎng)絡(luò)輸入層卷積層池化層全連接層輸出層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)5.3.4卷積神經(jīng)網(wǎng)絡(luò)
怎樣識別
?
CNN基本原理
怎樣識別
?
x具有兩個(gè)對角線和一個(gè)交叉線3個(gè)特征。對應(yīng)這3個(gè)特征,可以定義3個(gè)卷積核,3個(gè)卷積核可以匹配X中3種不同的特征。當(dāng)卷積核與圖像X進(jìn)行卷積運(yùn)算時(shí),與卷積核匹配的特征就被一一提取出來卷積核設(shè)計(jì)思路1:定義一個(gè)與X一樣的模板(卷積核)思路2:尋找X的特征卷積核定義了某種模式,卷積運(yùn)算是在計(jì)算每個(gè)位置與該模式的相似程度,當(dāng)前位置與該模式越像,響應(yīng)越強(qiáng)。當(dāng)卷積核一小塊一小塊地與被卷積圖像進(jìn)行比對時(shí),被卷積圖像中的特征就可以被提取出來。提取特征5.3.4卷積神經(jīng)網(wǎng)絡(luò)---CNN基本原理
提前特征的結(jié)果提前特征后,方格內(nèi)數(shù)值越接近1,表示對應(yīng)位置和特征的匹配越完整,越是接近0,表示對應(yīng)位置沒有任何匹配,而接近-1則表示對應(yīng)位置和特征沒有什么關(guān)聯(lián),因此可以通過ReLU函數(shù)把負(fù)值變成0。這樣,就可以通過數(shù)值的大小判斷出特征所在的位置。特征圖5.3.4卷積神經(jīng)網(wǎng)絡(luò)
提前特征的結(jié)果CNN基本原理只有與卷積核匹配的區(qū)域才是真正有用的信息,而其他區(qū)域得出的數(shù)值對判定該特征是否存在的影響比較小。為了有效地減少計(jì)算量,卷積神經(jīng)網(wǎng)絡(luò)使用池化操作保留了每一小塊內(nèi)的最大值,也就是相當(dāng)于保留了這一塊最佳的匹配結(jié)果,而舍棄了那些與該特征關(guān)系不大的信息。池化功能5.3.4卷積神經(jīng)網(wǎng)絡(luò)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 集裝箱交易合同案例
- 法定節(jié)假日有哪些
- 六年級道德與法治上冊 第三單元 我們的國家機(jī)構(gòu) 5《國家機(jī)構(gòu)有哪些》教案2 新人教版
- 高中化學(xué)《離子反應(yīng)》教學(xué)設(shè)計(jì)
- 2024年春八年級物理下冊 第九章 第1節(jié) 壓強(qiáng)教案 (新版)新人教版
- 2024-2025學(xué)年高中生物 第二章 細(xì)胞的化學(xué)組成 2.2 細(xì)胞中的脂質(zhì)教案 蘇教版必修1
- 安徽省長豐縣八年級生物上冊 6.1.1 嘗試對生物進(jìn)行分類教案 (新版)新人教版
- 2024-2025學(xué)年高中化學(xué) 第4章 第3節(jié) 蛋白質(zhì)和核酸教案 新人教版選修5
- 汽車試驗(yàn)技術(shù) 課件 項(xiàng)目1 汽車試驗(yàn)概述
- 綜合能源托管合同(2篇)
- 山西省晉中市多校2024-2025學(xué)年九年級上學(xué)期期中語文試題
- 居間權(quán)益保障協(xié)議
- 勞動法專業(yè)知識講座
- 安徽省合肥市第四十五中學(xué)2023-2024學(xué)年八年級上學(xué)期期中數(shù)學(xué)試題(滬科版)
- 風(fēng)電場護(hù)欄網(wǎng)施工方案
- 足球校本課程開發(fā)方案
- 《地方導(dǎo)游基礎(chǔ)知識》1.4 山西地方導(dǎo)游基礎(chǔ)知識-題庫及答案
- 房屋租賃合同excel表
- 6《芣苢》《插秧歌》聯(lián)讀公開課一等獎(jiǎng)創(chuàng)新教學(xué)設(shè)計(jì)(任務(wù)式)統(tǒng)編版高中語文必修上冊
- 【歷史】2024-2025學(xué)年部編版七年級上冊歷史知識清單
- 人教版(2024新版)七年級全一冊信息技術(shù)第1-30課全冊教學(xué)設(shè)計(jì)
評論
0/150
提交評論