機器學(xué)習(xí)與大數(shù)據(jù)技術(shù)PPT完整全套教學(xué)課件

上傳人：b*** IP屬地：浙江上傳時間：2023-09-08 格式：PPTX 頁數(shù)：709 大?。?.55MB 積分：35 舉報 版權(quán)申訴

機器學(xué)習(xí)與大數(shù)據(jù)技術(shù)PPT完整全套教學(xué)課件_第2頁

機器學(xué)習(xí)與大數(shù)據(jù)技術(shù)PPT完整全套教學(xué)課件_第3頁

機器學(xué)習(xí)與大數(shù)據(jù)技術(shù)PPT完整全套教學(xué)課件_第4頁

機器學(xué)習(xí)與大數(shù)據(jù)技術(shù)PPT完整全套教學(xué)課件_第5頁

已閱讀5頁，還剩704頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

機器學(xué)習(xí)與大數(shù)據(jù)技術(shù)第1章緒論第2章機器學(xué)習(xí)的理論與方法第3章深度學(xué)習(xí)理論與方法第4章大數(shù)據(jù)處理技術(shù)第5章農(nóng)業(yè)大數(shù)據(jù)與農(nóng)業(yè)智能第6章圖像處理與分析技術(shù)第7章機器學(xué)習(xí)、大數(shù)據(jù)技術(shù)和圖像處理技術(shù)在農(nóng)業(yè)中的應(yīng)用第8章Python基礎(chǔ)第9章Python數(shù)據(jù)處理與機器學(xué)習(xí)第一章機器學(xué)習(xí)大數(shù)據(jù)人工智能常用工具緒論創(chuàng)新與貢獻研究意義選題背景第一章1956年達特茅斯會議上計算機專家約翰·麥卡錫首先提出了“人工智能”的概念。1980年美國卡內(nèi)基梅隆大學(xué)設(shè)計并實現(xiàn)了具有知識庫和推理功能的專家系統(tǒng)。1997年IBM公司的“深藍”戰(zhàn)勝了國際象棋世界冠軍卡斯帕羅夫。2016年谷歌AlphaGO戰(zhàn)勝了著名的韓國棋手李世石和中國的圍棋天才柯潔。圖1-1AlphaGO戰(zhàn)勝柯潔創(chuàng)新與貢獻研究意義選題背景第一章ElaineRich認為人工智能是研究如何利用計算機模擬人腦從事推理、規(guī)劃、設(shè)計和學(xué)習(xí)等思維活動，協(xié)助人類解決復(fù)雜的工程問題。Winston認為人工智能是那些使知覺、推理和行為成為可能的計算的研究。StuartRussell則把人工智能定義為：像人一樣思考的系統(tǒng)，像人一樣行動的系統(tǒng)。人工智能至今尚沒有一個統(tǒng)一的定義。專家和學(xué)者們從不同的角度出發(fā)，給出了各自的定義：機器學(xué)習(xí)的發(fā)展可以追溯到1950年。其發(fā)展過程大體經(jīng)歷了3個重要時期，即推理期、知識期和學(xué)習(xí)期。1970年前稱為推理期，主要標(biāo)志是讓機器具有簡單的邏輯推理能力。1970年后稱為知識期，主要標(biāo)志是1965年E.A.Feigenbaum等人研制了世界上首個專家系統(tǒng)。

80年代至今稱為學(xué)習(xí)期，主要標(biāo)志是讓機器從樣本中學(xué)習(xí)。創(chuàng)新與貢獻研究意義選題背景第一章1983年，美國加洲理工學(xué)院

J.J.Hopfield

教授提出了著名的Hopfield反饋神經(jīng)網(wǎng)絡(luò)。1986年，D.E.Rumelhat等人提出了BP神經(jīng)網(wǎng)絡(luò)。1995年，美國的Vapnik教授提出了基于統(tǒng)計學(xué)習(xí)理論的支持向量機，產(chǎn)生了以支持向量機為代表的核機器學(xué)習(xí)方法，如：核聚類和核主成分分析等。深度學(xué)習(xí)是機器學(xué)習(xí)和人工智能的一個重要組成部分，來源于人工神經(jīng)網(wǎng)絡(luò)研究和發(fā)展。最早是由加拿大多倫多大學(xué)計算機系的教授GeoffreyE.Hinton于2006年提出，Hinton通過pre-training較好地解決了多層網(wǎng)絡(luò)難以訓(xùn)練的問題。深度學(xué)習(xí)近年來在圖像識別和語音識別上取得了突破性的進展，深度學(xué)習(xí)的成功主要歸功于三大因素，即大數(shù)據(jù)、大模型和大算力，深度學(xué)習(xí)的優(yōu)越性能將人工智能推向了新的高潮。創(chuàng)新與貢獻研究意義選題背景第一章創(chuàng)新與貢獻研究意義選題背景第一章數(shù)據(jù)倉庫之父BillInmon早在20世紀90年代就經(jīng)常提起大數(shù)據(jù)。自2008年9月國際著名的期刊《Nature》出版了大數(shù)據(jù)?？詠恚髷?shù)據(jù)的處理、分析和利用已經(jīng)成為各行各業(yè)和科研人員關(guān)注的焦點。目前，大數(shù)據(jù)幾乎是家喻戶曉，成為當(dāng)今非常熱門的話題。從電視上經(jīng)?？梢钥吹接嘘P(guān)大數(shù)據(jù)的新聞，如：中央電視臺將大數(shù)據(jù)分析技術(shù)應(yīng)用于新聞報道中，推出了兩會大數(shù)據(jù)、春運大數(shù)據(jù)和五一大數(shù)據(jù)等相關(guān)欄目。美國政府把大數(shù)據(jù)視為“未來的新石油”，中國政府將大數(shù)據(jù)上升為國家戰(zhàn)略，大數(shù)據(jù)產(chǎn)業(yè)正在逐步地進入成熟期。圖1-2兩會大數(shù)據(jù)欄目創(chuàng)新與貢獻研究意義選題背景第一章

物聯(lián)網(wǎng)(InternetofThings)的概念是由MITAuto-ID中心Ashton教授1999年提出的。其原理是利用各種傳感設(shè)備，如射頻識別裝置、紅外感應(yīng)器、全球定位系統(tǒng)、激光掃描器等種種裝置與互聯(lián)網(wǎng)結(jié)合起來從而形成的一個巨大網(wǎng)絡(luò)。國家標(biāo)準GB7665-87對傳感器的定義是：“能感受規(guī)定的被測量并按照一定的規(guī)律轉(zhuǎn)換成可用信號的器件或裝置，通常由敏感元件和轉(zhuǎn)換元件組成”。通俗的講，物聯(lián)網(wǎng)就是物與物相聯(lián)的互聯(lián)網(wǎng)。目前，各種傳感器廣泛地應(yīng)用到我們的衣食住行等日常生活中，如：濕度傳感器、氣體煙霧傳感器、超聲波傳感器和空氣質(zhì)量傳感器等。傳感器正在朝著微型化、智能化、多功能化和無線網(wǎng)絡(luò)化的方向發(fā)展。和發(fā)達國家相比，我國自主傳感器核心技術(shù)仍需不斷提高，高端傳感器芯片以進口為主，市場競爭較為激烈。創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)1.1.1概述機器學(xué)習(xí)簡單地講就是讓機器模擬人類的學(xué)習(xí)過程，來獲取新的知識或技能，并通過自身的學(xué)習(xí)完成指定的工作或任務(wù)，目標(biāo)是讓機器能像人一樣具有學(xué)習(xí)能力。機器學(xué)習(xí)的本質(zhì)是樣本空間的搜索和模型的泛化能力。目前，機器學(xué)習(xí)研究的主要內(nèi)容有3類，分別是模式識別(PatternRecognition)、回歸分析(RegressionAnalysis)和概率密度估計(ProbabilityDensityEstimation）。模式識別又稱為模式分類，是利用計算機對物理對象進行分類的過程，目的是在錯誤概率最小的情況下，使識別的結(jié)果與客觀物體盡可能的相一致。顯然模式識別的方法離不開機器學(xué)習(xí)?；貧w分析是研究兩個或兩個以上的變量和自變量之間的相互依賴關(guān)系，是數(shù)據(jù)分析的重要方法之一。概率密度估計是機器學(xué)習(xí)挖掘數(shù)據(jù)規(guī)律的重要方法。創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)1.1.2評價準則評價指標(biāo)是機器學(xué)習(xí)非常重要的一個環(huán)節(jié)。機器學(xué)習(xí)的任務(wù)不同，評價指標(biāo)可能就不同。同一種機器學(xué)習(xí)算法針對不同的應(yīng)用，可以采用不同的評價指標(biāo)，每個指標(biāo)的側(cè)重點不一樣。下面介紹常用的機器學(xué)習(xí)評價指標(biāo)。1

準確率(Accuracy)2召回率(Precision-Recall)3ROC(ReceiverOperatingCharacteristic)曲線4交叉驗證（Cross-Validation）5欠擬合與過擬合問題(Under-fittingandOver-fitting)1準確率(Accuracy)創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)

樣本分類時，被正確分類的樣本數(shù)與樣本總數(shù)之比稱為準確率，與準確率對應(yīng)的是錯誤率，錯誤率是錯分樣本數(shù)與總樣本數(shù)之比。

顯然，準確率并沒有反映出不同類別錯分樣本的情況。例如：對于一個二類分類問題，準確率并不能反映出第一類和第二類分別錯分樣本的個數(shù)。但是，在實際應(yīng)用中，因為不同類別下錯分樣本的代價或成本不同，往往需要知道不同類別錯分樣本的情況。例如：在醫(yī)學(xué)影像分類過程中，未患有乳腺癌被錯分類為患有乳腺癌癥，與患有乳腺癌被錯分類為未患有乳腺癌癥的重要性顯然是不一樣的。另外，數(shù)據(jù)分布不平衡時，樣本占大多數(shù)的類主導(dǎo)了準確率的計算等情況。這就需要求出不同類別的準確率。創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)2召回率(Precision-Recall)

召回率指的是分類正確的正樣本個數(shù)占所有的正樣本個數(shù)的比例。它表示的是數(shù)據(jù)集中的正樣本有多少被預(yù)測正確。創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)PositiveRate，F(xiàn)PR）。ROC曲線下方面積（TheAreaUnderTheROCCurve，AUC）是指ROC曲線與x軸、點(1，0)和點(1，1)圍繞的面積。ROC曲線如圖1-1所示。顯然，0<=AUC<=1。假設(shè)閾值以上是陽性，以下是陰性，若隨機抽取一個陽性樣本和一個陰性樣本，分類器正確判斷陽性樣本的值高于陰性樣本的幾率。在圖1-3示例中，有三類分類器，AUC值分為0.8、0.78和0.80，AUC值越大的分類器正確率越高。3ROC(ReceiverOperatingCharacteristic)曲線ROC曲線是分類器的一種性能指標(biāo)，可以實現(xiàn)不同分類器性能比較。不同的分類器比較時，畫出的每個分類器的ROC曲線，將曲線下方面積作為判斷模型好壞的指標(biāo)。ROC曲線的縱軸是“真正例率”（TruePositiveRate，TPR），橫軸是“假正例率”（False圖1-3ROC曲線交叉驗證的基本思想：將數(shù)據(jù)分成訓(xùn)練集和測試集。在訓(xùn)練集上訓(xùn)練模型，然后利用測試集模擬實際的數(shù)據(jù)，對訓(xùn)練模型進行調(diào)整或評價，最后選擇在驗證數(shù)據(jù)上表現(xiàn)最好的模型。交叉驗證法的優(yōu)點是可以在一定程度上減小過擬合，還可以從有限的數(shù)據(jù)中獲取盡可能多的有效信息。常用的交叉驗證的方法有：（1）K折交叉驗證（2）留一交叉驗證（LeaveOneOutCrossValidation）創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)4交叉驗證（Cross-Validation）創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)（1）K折交叉驗證K折交叉驗證的基本思想：將數(shù)據(jù)隨機的劃分為K等份，將其中的K-1份作為訓(xùn)練集，剩余的1份作為測試集，計算K組測試結(jié)果的平均值作為模型精度的估計，并作為當(dāng)前K折交叉驗證下模型的性能指標(biāo)。K折交叉驗證實現(xiàn)了數(shù)據(jù)的重復(fù)利用。一般情況下，K的取值為10。針對不同的應(yīng)用場景，可以根據(jù)實際情況確定K值，數(shù)據(jù)量或樣本數(shù)較大時，K的取值可以大于10。

數(shù)據(jù)量或樣本數(shù)較小時，K的取值可以小于10。（2）留一交叉驗證（LeaveOneOutCrossValidation）留一交叉驗證的基本思想：假設(shè)有N個樣本，將每一個樣本作為測試樣本，其它N-1個樣本作為訓(xùn)練樣本，得到N個分類器和N個測試結(jié)果。用這N個結(jié)果的平均值來衡量模型的性能。留一交叉驗證是K折交叉驗證的特例。創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)機器學(xué)習(xí)過程中，模型對未知數(shù)據(jù)的預(yù)測能力稱為泛化能力(GeneralizationAbility)，是評估算法性能的重要評價指標(biāo)(EvaluationMetrics)。泛化指的是訓(xùn)練模型對未知樣本的適應(yīng)能力。優(yōu)秀的機器學(xué)習(xí)模型其泛化能力強。過擬合是由于訓(xùn)練模型中涉及的參數(shù)過多，或參加訓(xùn)練的數(shù)據(jù)量太小等原因，導(dǎo)致了微小的數(shù)據(jù)擾動都會產(chǎn)生較大的變化或影響，造成了模型對已知數(shù)據(jù)預(yù)測精度很高，而對未知數(shù)據(jù)預(yù)測精度較低的現(xiàn)象，即測試樣本輸出和期望的值相差較大，也稱為泛化誤差較大。5欠擬合與過擬合問題(Under-fitting

andOver-fitting)通常情況下，解決過擬合問題的方法有兩種：（1）利用正則化來控制模型的復(fù)雜度，改善或減少過度擬合的問題。（2）根據(jù)實際問題增加足夠的訓(xùn)練數(shù)據(jù)。欠擬合是模型在訓(xùn)練和預(yù)測時，其準確率都較低的現(xiàn)象。產(chǎn)生的原因可能是模型過于簡單，沒有充分的擬合所有的數(shù)據(jù)。解決欠擬合問題的方法是優(yōu)化和改進模型，或采用其它的機器學(xué)習(xí)算法。創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)1.1.3分類根據(jù)機器學(xué)習(xí)算法的學(xué)習(xí)方式，機器學(xué)習(xí)分為以下三種。1有監(jiān)督學(xué)習(xí)(SupervisedLearning)2無監(jiān)督學(xué)習(xí)(UnsupervisedLearning)3半監(jiān)督學(xué)習(xí)（Semi-SupervisedLearning）創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)有監(jiān)督學(xué)習(xí)是利用一組已知類別的樣本調(diào)整分類器的參數(shù)，使其達到所要求性能的學(xué)習(xí)過程，也稱為有老師的學(xué)習(xí)。有監(jiān)督學(xué)習(xí)的過程是：首先利用有標(biāo)號的樣本進行訓(xùn)練，構(gòu)建相應(yīng)的學(xué)習(xí)模型。然后，再利用這個模型對未知樣本數(shù)據(jù)進行分類和預(yù)測。這個學(xué)習(xí)過程與人類認識事物的過程非常相似。常用有監(jiān)督學(xué)習(xí)的算法有：貝葉斯分類、決策樹和支持向量機等。1有監(jiān)督學(xué)習(xí)(SupervisedLearning)創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)無監(jiān)督學(xué)習(xí)是對無標(biāo)號樣本的學(xué)習(xí)，以發(fā)現(xiàn)訓(xùn)練樣本集中的結(jié)構(gòu)性知識的學(xué)習(xí)過程，也稱為無老師的學(xué)習(xí)。無監(jiān)督學(xué)習(xí)事先并不需要知道樣本的類別，而是通過某種方法，按照相似度的大小進行分類的過程。它與監(jiān)督學(xué)習(xí)的不同之處，在于事先并沒有任何訓(xùn)練樣本，而是直接對數(shù)據(jù)進行建模。常用無監(jiān)督學(xué)習(xí)的算法有：聚類算法和期望最大化算法。2無監(jiān)督學(xué)習(xí)(UnsupervisedLearning)創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)半監(jiān)督學(xué)習(xí)是有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相結(jié)合的學(xué)習(xí)，是利用有類標(biāo)號的數(shù)據(jù)和無類標(biāo)號的數(shù)據(jù)進行學(xué)習(xí)的過程。其特點是利用少量有標(biāo)號樣本和大量無標(biāo)號樣本進行機器學(xué)習(xí)。在數(shù)據(jù)采集過程中，采集海量的無標(biāo)號數(shù)據(jù)相對容易，而采集海量的有標(biāo)號樣本則相對困難，因為對無標(biāo)號樣本的標(biāo)記工作可能會耗費大量的人力、物力和財力。例如：利用計算機輔助醫(yī)學(xué)圖像分析和判讀的過程中，可以從醫(yī)院獲得海量的醫(yī)學(xué)圖像作為訓(xùn)練數(shù)據(jù)，但如果要求把這些海量圖像中的病灶都標(biāo)注出來，則是不現(xiàn)實的?，F(xiàn)實世界中通常存在大量的未標(biāo)注樣本，但有標(biāo)記樣本則比較少，因此半監(jiān)督學(xué)習(xí)的研究是非常重要的。3半監(jiān)督學(xué)習(xí)（Semi-SupervisedLearning）創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)1.1.4常用工具1WEKAWEKA是一款常用的、開源的機器學(xué)習(xí)和數(shù)據(jù)挖掘工具，主要功能有：數(shù)據(jù)預(yù)處理、分類、回歸和關(guān)聯(lián)規(guī)則等。WEKA內(nèi)集成了決策樹和貝葉斯分類等眾多機器學(xué)習(xí)算法，是數(shù)據(jù)分析和挖掘的技術(shù)人員常用的工具之一。2Python語言Python是一種面向?qū)ο蟮木幊陶Z言，由荷蘭人GuidovanRossum于1989年發(fā)明，最早的公開發(fā)行版是在1991年。Python提供了大量的基礎(chǔ)代碼庫，極大地方便了用戶進行程序編寫。Python語言在數(shù)據(jù)挖掘和分析、機器學(xué)習(xí)和數(shù)據(jù)可視化等方面發(fā)揮了巨大的作用。目前，Python是最熱門的人工智能和機器學(xué)習(xí)的編程語言。創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)3MatlabMatlab是美國MathWorks公司出品的一款商用軟件，是科研工作者、工程師和大學(xué)生必備的數(shù)據(jù)分析工具之一。主要用于科學(xué)計算，如數(shù)值計算、數(shù)據(jù)分析數(shù)據(jù)可視化、數(shù)字圖像處理和數(shù)字信號處理等，4R語言R語言是一種為統(tǒng)計計算和圖形顯示而設(shè)計的語言環(huán)境，是貝爾實驗室開發(fā)的S語言的一種實現(xiàn)。它提供了有彈性的、互動的環(huán)境分析，也提供了若干統(tǒng)計程序包，以及一系列統(tǒng)計和圖形顯示工具，用戶只需根據(jù)統(tǒng)計模型，指定相應(yīng)的數(shù)據(jù)庫及相關(guān)的參數(shù)，便可靈活機動的進行數(shù)據(jù)分析等工作。目前，R語言在數(shù)據(jù)挖掘和分析、機器學(xué)習(xí)和數(shù)據(jù)可視化方面發(fā)揮了巨大的作用。創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)5深度學(xué)習(xí)框架深度學(xué)習(xí)的發(fā)展離不開高性能的框架與硬件的支持。隨著半導(dǎo)體工藝和微電子等技術(shù)的飛速發(fā)展，支持深度學(xué)習(xí)的硬件環(huán)境也在飛速發(fā)展，出現(xiàn)了以多核CPU（CentralProcessingUnit）、高性能圖形處理器GPU（GraphicsProcessingUnit）、APU（AcceleratedProcessingUnit）等處理器為代表的高性能并行計算系統(tǒng)，為深度學(xué)習(xí)分析和挖掘奠定了硬件基礎(chǔ)。目前，深度學(xué)習(xí)大都在使用GPU在各種框架上進行模型訓(xùn)練，深層神經(jīng)網(wǎng)絡(luò)在GPU上運算的速度要比CPU快一個數(shù)量級。隨著深度學(xué)習(xí)研究和應(yīng)用的不斷深入，各種開源的深度學(xué)習(xí)框架不斷涌現(xiàn)，目前常用的深度學(xué)習(xí)框架有Caffe、TensorFlow、Theano、Torch、CNTK等。下面簡單地介紹幾種常用的深度學(xué)習(xí)框架。創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)Caffe是一個被廣泛使用的開源深度學(xué)習(xí)框架，由加州大學(xué)伯克利的Ph.D.賈揚清開發(fā)。Caffe是首個主流的工業(yè)級深度學(xué)習(xí)工具，運行穩(wěn)定，代碼質(zhì)量高，適用對穩(wěn)定性要求高的生產(chǎn)環(huán)境。目前在計算機視覺領(lǐng)域Caffe依然是最流行的工具包，并且有很多擴展。Caffe最開始設(shè)計時的目標(biāo)只針對于圖像，沒有考慮文本、語音等數(shù)據(jù)，因此對卷積神經(jīng)網(wǎng)絡(luò)的支持非常好，但對時間序列RNN、LSTM等支持得不是特別充分。許多的研究人員采用Caffe做人臉識別、位置檢測和目標(biāo)追蹤等，很多深度學(xué)習(xí)的論文也都是使用Caffe來實現(xiàn)其模型的。（1）Caffe創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)Google公司開源的TensorFlow框架是相對高階的機器學(xué)習(xí)庫，用戶可以方便地用它設(shè)計各種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，是理想的深度學(xué)習(xí)開發(fā)平臺。TensorFlow使用了向量運算的符號圖方法，使得指定新網(wǎng)絡(luò)變得比較容易，但是不支持雙向RNN和3D卷積。TensorFlow移植性高，一份代碼幾乎不經(jīng)過修改就輕松地部署到有任意數(shù)量CPU或GPU的PC、服務(wù)器或者移動設(shè)備上。TensorFlow框架針對生產(chǎn)環(huán)境高度優(yōu)化，產(chǎn)品級的高質(zhì)量代碼和設(shè)計可以保證在生產(chǎn)環(huán)境中穩(wěn)定運行。（2）TensorFlow創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)Theano由Lab團隊開發(fā)并維護，是一個高性能的符號計算及深度學(xué)習(xí)庫。Theano因其出現(xiàn)時間早，一度被認為是深度學(xué)習(xí)研究和應(yīng)用的重要標(biāo)準之一。Theano專門為處理大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練的計算而設(shè)計，其核心是一個數(shù)學(xué)表達式的編譯器，可以鏈接各種可以加速的庫，將用戶定義的各種計算編譯為高效的底層代碼。（3）Theano創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)Torch是一個高效的科學(xué)計算庫，含有大量的機器學(xué)習(xí)、計算機視覺、信號處理和網(wǎng)絡(luò)的庫算法。Torch對卷積網(wǎng)絡(luò)的支持非常好，通過很多非官方的擴展支持大量的RNN模型。（4）Torch創(chuàng)新與貢獻研究意義選題背景第一章1.1機器學(xué)習(xí)框架名稱底層語言操作語言CaffeC++Python，C++，matlabTensorFlowC++，PythonPython，C++TheanoPython，CPythonTorchC，LuaC，Lua，C++KerasPythonPythonMXNetC++，Python等Python，C++CNTKC++C++，PythonCNTK是由微軟公司推出的開源深度學(xué)習(xí)工具包，性能優(yōu)于Caffe、Theano、TensoFlow，支持CPU和GPU兩種模式。各種框架的底層語言和操作語言的比較，詳見表1-1所示。表1-1各種深度學(xué)習(xí)框架的比較（5）CNTK創(chuàng)新與貢獻研究意義選題背景第一章1.2大數(shù)據(jù)大數(shù)據(jù)迅速發(fā)展成為當(dāng)今科技界和企業(yè)界甚至世界各國政府關(guān)注的熱點?！禢ature》和《Science》等國際頂尖學(xué)術(shù)期刊相繼出版?？接懘髷?shù)據(jù)帶來的機遇和挑戰(zhàn)。美國政府把大數(shù)據(jù)視為“未來的新石油”，一個國家擁有數(shù)據(jù)的規(guī)模和運用數(shù)據(jù)的能力將成為綜合國力的重要組成部分，對數(shù)據(jù)的占有和控制將成為國家間和企業(yè)間新的爭奪焦點?！按髷?shù)據(jù)時代”已然來臨。迄今并沒有公認的關(guān)于“大數(shù)據(jù)”的定義。一般認為大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合。從宏觀世界角度看，大數(shù)據(jù)是融合物理世界、信息空間和人類社會三元世界的紐帶。從信息產(chǎn)業(yè)角度看，作為新一代信息技術(shù)重要組成部分的大數(shù)據(jù)已成為經(jīng)濟增長的新引擎。從社會經(jīng)濟角度看，大數(shù)據(jù)已成為第二經(jīng)濟的核心和支撐。第二經(jīng)濟是指處理器、傳感器、執(zhí)行器等以及運行在其上的經(jīng)濟活動。相較于傳統(tǒng)數(shù)據(jù)，人們將大數(shù)據(jù)的特征總結(jié)成4V，即數(shù)據(jù)量大（Volume）、多樣性（Variety）、價值密度低（Value）和高速度（Velocity）。大數(shù)據(jù)的主要難點并不在于數(shù)據(jù)量大，因為通過對計算機系統(tǒng)的擴展可以在一定程度上緩解數(shù)據(jù)量大帶來的挑戰(zhàn)。大數(shù)據(jù)真正難點來自于數(shù)據(jù)多樣性和高速度。數(shù)據(jù)類型多樣使得系統(tǒng)不僅要處理結(jié)構(gòu)化數(shù)據(jù)，還要處理文本、視頻等非結(jié)構(gòu)化數(shù)據(jù)。在金融分析、航空航天等行業(yè)，數(shù)據(jù)處理速度要求非常高，時間就是效益。傳統(tǒng)的數(shù)據(jù)處理算法無法滿足快速響應(yīng)的需求，因此迫切需要新型算法的支持。為了應(yīng)對大數(shù)據(jù)面臨的挑戰(zhàn)，以Google為代表的互聯(lián)網(wǎng)企業(yè)近幾年推出了各種不同類型的大數(shù)據(jù)處理系統(tǒng)，推進了深度學(xué)習(xí)、知識計算、可視化等技術(shù)在大數(shù)據(jù)背景下的發(fā)展。創(chuàng)新與貢獻研究意義選題背景第一章1.2大數(shù)據(jù)創(chuàng)新與貢獻研究意義選題背景第一章1.3人工智能人工智能(ArtificialIntelligence，AI)定義為：一門融合了計算機科學(xué)、統(tǒng)計學(xué)、腦神經(jīng)學(xué)和社會科學(xué)的前沿綜合性學(xué)科。它的目標(biāo)是希望計算機擁有像人一樣的智力，可以替代人類實現(xiàn)識別、認知、分類和決策等多種功能。在發(fā)展過程中，人工智能主要形成了3大學(xué)術(shù)流派，即符號主義(Symbolicism)、連接主義(Connectionism)和行為主義(Actionism)。創(chuàng)新與貢獻研究意義選題背景第一章1.3人工智能符號主義又稱邏輯主義或計算機學(xué)派。符號主義學(xué)派最早在1956年提出的“人工智能”的概念，這個學(xué)派的代表人物有紐厄爾(Newell)和西蒙(Simon)等。符號主義認為，人工智能起源于數(shù)學(xué)邏輯，人的過程就是符號操作的過程，通過了解和分析人的認知過程，讓計算機來模擬實現(xiàn)人所具有的相應(yīng)功能。符號主義的發(fā)展大概經(jīng)歷了2個階段：推理期（20世紀50年代–20世紀70年代），知識期（20世紀70年代以后）。在“推理期”，人們基于符號知識表示，通過演繹推理技術(shù)取得了很大的成就；在“知識期”，人們基于符號表示，通過獲取和利用領(lǐng)域知識來建立專家系統(tǒng)，在人工智能走向工程應(yīng)用中取得了很大的成功。創(chuàng)新與貢獻研究意義選題背景第一章1.3人工智能連接主義又稱仿生學(xué)派或生理學(xué)派。連接主義認為，人工智能源于仿生學(xué)，特別是對人腦模型的研究，人的思維基元是神經(jīng)元，而不是符號處理過程。20世紀60~70年代，連接主義，尤其是對以感知機(Perceptron)為代表的腦模型的研究出現(xiàn)過熱潮，由于受到當(dāng)時的理論模型、生物原型和技術(shù)條件的限制，腦模型研究在20世紀70年代后期至80年代初期落入低潮。直到Hopfield教授在1982年和1984年發(fā)表2篇重要論文，提出用硬件模擬神經(jīng)網(wǎng)絡(luò)以后，連接主義再次煥發(fā)生機。1986年，魯梅爾哈特(Rumelhart)等人提出多層網(wǎng)絡(luò)中的反向傳播算法(BP)算法。進入21世紀后，連接主義卷土重來，提出了“深度學(xué)習(xí)”的概念。創(chuàng)新與貢獻研究意義選題背景第一章1.3人工智能行為主義又稱為進化主義或控制論學(xué)派。行為主義認為，人工智能源于控制論，早在20世紀40~50年代控制論思想就成為時代思潮的重要內(nèi)容，對早期人工智能工作者有較大的影響。早期的研究工作重點是在研究模擬人在控制過程中的智能行為和作用，如：對自適應(yīng)、自尋優(yōu)、自組織及自學(xué)習(xí)等控制論體系的基礎(chǔ)上，進行對“控制論動物”的研制。20世紀60~70年代，基于上述控制論體系的研究取得了一定的進展，為20世紀80年代出現(xiàn)的智能控制和智能機器人奠定了基礎(chǔ)。在20世紀末行為主義以人工智能新學(xué)派的面孔出現(xiàn)，布魯克斯(Brooks)的六足行走機器人是典型代表，該機器人是一個基于感知-動作模式模擬昆蟲行為的控制系統(tǒng)，被認為是新一代的“控制論動物”。創(chuàng)新與貢獻研究意義選題背景第一章1.3人工智能20世紀80年代，機器學(xué)習(xí)成為一個獨立的科學(xué)領(lǐng)域，各種機器學(xué)習(xí)技術(shù)百花初綻。E．A．Feigenbaum等人在著名的《人工智能手冊》中，把機器學(xué)習(xí)劃分為“機械學(xué)習(xí)”、“示教學(xué)習(xí)”、“類比學(xué)習(xí)”和“歸納學(xué)習(xí)”。機械學(xué)習(xí)將外界的輸入信息全部存儲下來，等到需要時原封不動的取出來；示教學(xué)習(xí)和類比學(xué)習(xí)就是“從指令中學(xué)習(xí)”和“通過觀察和發(fā)現(xiàn)學(xué)習(xí)”；歸納學(xué)習(xí)就是從樣例中學(xué)習(xí)。二十世紀80年代以來研究最多的就是歸納學(xué)習(xí)，它包括：監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)等。歸納學(xué)習(xí)有兩大主流：符號主義學(xué)習(xí)和連接主義學(xué)習(xí)，前者代表算法有決策樹和基于邏輯的學(xué)習(xí)，后者代表算法有基于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)。20世紀90年代中期，統(tǒng)計學(xué)習(xí)閃亮登場，并迅速占據(jù)主流舞臺，代表性技術(shù)是支持向量機以及更一般的“核方法”。我們目前所說的機器學(xué)習(xí)方法，一般認為是統(tǒng)計機器學(xué)習(xí)方法。創(chuàng)新與貢獻研究意義選題背景第一章1.3人工智能人工智能的“智能”之處主要體現(xiàn)在計算智能、感知智能和認知智能三個方面。計算智能是機器可以智能化存儲和運算的能力；感知智能是使機器具有像人類一樣的“聽、看、說、認”的能力；認知能力是使機器具有思考和理解的能力。推動人工智能發(fā)展的三大要素是數(shù)據(jù)資源、核心算法和計算能力。當(dāng)前人工智能領(lǐng)域技術(shù)主要包括語言識別、機器人、自然語言處理、圖像識別和專家系統(tǒng)等。人工智能、機器學(xué)習(xí)和深度學(xué)習(xí)三者之間是包含關(guān)系，人工智能的研究最早包含了機器學(xué)習(xí)，或者說機器學(xué)習(xí)是其核心組成部分，人工智能與機器學(xué)習(xí)密不可分。目前，人工智能的熱點是深度學(xué)習(xí)，深度學(xué)習(xí)是機器學(xué)習(xí)的一種方法或技術(shù)。深度學(xué)習(xí)在圖像識別和語音識別中識別精度的大幅提高，加速了人臉識別、無人駕駛、電影推薦、機器人問答系統(tǒng)和機器翻譯等各個領(lǐng)域的應(yīng)用進程逐步形成了“人工智能+”的趨勢。創(chuàng)新與貢獻研究意義選題背景第一章1.4圖像處理技術(shù)照片、視頻等各種數(shù)字圖像是機器學(xué)習(xí)和大數(shù)據(jù)技術(shù)重要的應(yīng)用對象之一。圖像處理就是對輸入的原始圖像進行某種線性或非線性的變換，使輸出結(jié)果符合某種需求。圖像處理技術(shù)的基本內(nèi)容有：圖像變換、圖像增強、圖像去噪、圖像壓縮、圖像復(fù)原、圖像分割和二值圖像處理，還有常用的小波變換、傅里葉變換和圖等模型等等。圖像的理解與分析是對原始圖像進行特征的選擇和提取，對原始圖像所包含的知識或信息進行解讀和分析的過程。圖像處理技術(shù)是計算機視覺的基礎(chǔ)。計算機視覺通過圖像分析，和對場景的語義表示的提取，讓計算機模擬人眼和人腦進行工作，計算機視覺的發(fā)展離不開機器學(xué)習(xí)的支持，隨著深度學(xué)習(xí)的不斷發(fā)展，圖像識別精度的大大提高，計算機視覺領(lǐng)域的發(fā)展前景非常廣闊。機器學(xué)習(xí)與大數(shù)據(jù)技術(shù)第二章回歸分析與最小二乘法聚類遺傳算法蟻群算法機器學(xué)習(xí)的理論與方法粒子群算法支持向量機隱馬爾科夫模型人工神經(jīng)網(wǎng)絡(luò)創(chuàng)新與貢獻研究意義選題背景第二章機器學(xué)習(xí)則是研究機器模仿人類的學(xué)習(xí)過程，進行知識和技能獲取，是一門涉及到計算機科學(xué)與技術(shù)、概率論與統(tǒng)計學(xué)和認知科學(xué)等多個領(lǐng)域的交叉學(xué)科。學(xué)習(xí)是人類區(qū)別于低級動物，自身所具有的重要智能行為。其應(yīng)用十分廣泛，如：數(shù)據(jù)挖掘、計算機視覺、自然語言處理、語音和手寫識別和機器人研發(fā)等各個領(lǐng)域。分類問題：在有監(jiān)督學(xué)習(xí)任務(wù)中，預(yù)測變量為離散變量。創(chuàng)新與貢獻研究意義選題背景第二章2.1回歸分析與最小二乘法回歸問題：在有監(jiān)督學(xué)習(xí)任務(wù)中，預(yù)測變量為連續(xù)變量。回歸分析是一種用于確定兩種或兩種以上變量間相互依賴關(guān)系的統(tǒng)計分析方法。按照問題所涉及變量的多少，可將回歸分析分為一元回歸分析和多元回歸分析。按照自變量與因變量之間是否存在線性關(guān)系，分為線性回歸分析和非線性回歸分析。如果在某個回歸分析問題中，只有兩個變量，一個自變量和一個因變量，且自變量與因變量之間的函數(shù)關(guān)系能夠用一條直線來近似表示，那么稱其為一元線性回歸分析。創(chuàng)新與貢獻研究意義選題背景第一章2.1回歸分析與最小二乘法回歸分析的基本步驟如下：創(chuàng)新與貢獻研究意義選題背景第二章2.1回歸分析與最小二乘法分析預(yù)測目標(biāo)，確定自變量和因變量；建立合適的回歸預(yù)測模型；

相關(guān)性分析；

檢測回歸預(yù)測模型，計算預(yù)測的誤差；

計算并確定預(yù)測值。最小二乘法又稱為最小平方法，是一種常用的數(shù)學(xué)優(yōu)化方法。最小二乘法的原理是通過最小化誤差平方和尋找與數(shù)據(jù)匹配的最佳函數(shù)。最小二乘法的應(yīng)用十分廣泛，既可以用于參數(shù)估計，也可以用于曲線擬合，以及一些其他的優(yōu)化問題。創(chuàng)新與貢獻研究意義選題背景第二章2.1回歸分析與最小二乘法創(chuàng)新與貢獻研究意義選題背景第二章

對于一元線性回歸模型，假設(shè)從總體中獲取了組觀察值，其中。那么這組觀察值在二維平面直角坐標(biāo)系中對應(yīng)的就是平面中的個點，此時有無數(shù)條曲線可以擬合這個點。通常情況下，希望回歸函數(shù)能夠盡可能好地擬合這組值。綜合來看，當(dāng)這條直線位于樣本數(shù)據(jù)的中心位置時似乎最合理。因此，選擇最佳擬合曲線的標(biāo)準可確定為：總擬合誤差（即總殘差）最小。對于總擬合誤差，有三個標(biāo)準可供選擇：（1）用“殘差和”表示總擬合誤差，但“殘差和”會出現(xiàn)相互抵消的問題。（2）用“殘差絕對值”表示總擬合誤差，但計算絕對值相對來說較為麻煩。（3）用“殘差平方和”表示總擬合誤差。最小二乘法采用的就是“殘差平方和最小”所確定的直線。用“殘差平方和”計算方便，而且對異常值會比較敏感。2.1回歸分析與最小二乘法創(chuàng)新與貢獻研究意義選題背景第二章假設(shè)回歸模型（擬合函數(shù)）為：

則樣本的誤差為：

其中為的預(yù)測值（擬合值），為對應(yīng)的實際值。最小二乘法的損失函數(shù)也就是殘差平方和，即：

通過最小化來確定直線方程，即確定和，此時該問題變成了求函數(shù)的極值的問題。根據(jù)高等數(shù)學(xué)的知識可知，極值通常是通過令導(dǎo)數(shù)或者偏導(dǎo)數(shù)等于0而得到，因此，求關(guān)于未知參數(shù)和的偏導(dǎo)數(shù)：2.1回歸分析與最小二乘法創(chuàng)新與貢獻研究意義選題背景第二章通過令偏導(dǎo)數(shù)為0，可求解函數(shù)的極值點，即：2.1回歸分析與最小二乘法將樣本數(shù)據(jù)代入，即可得到和的具體指。創(chuàng)新與貢獻研究意義選題背景第二章2.2.1簡介作為一種無監(jiān)督機器學(xué)習(xí)方法，聚類經(jīng)常用于數(shù)據(jù)挖掘和模式識別。

2.2聚類聚類（ClusterAnalysis）是將數(shù)據(jù)集中的所有樣本根據(jù)相似度的大小進行劃分，形成兩個或多個類（簇）的過程。簇是數(shù)據(jù)集中相似的樣本集合。聚類沒有訓(xùn)練過程，是一種無標(biāo)準的學(xué)習(xí)，同時也是一種無監(jiān)督學(xué)習(xí)。創(chuàng)新與貢獻研究意義選題背景第二章分類的根本區(qū)別在于：分類是需要有標(biāo)號的樣本進行訓(xùn)練。2.2聚類聚類算法可分為：基于劃分方法的、基于層次方法的、基于密度方法的、基于網(wǎng)格方法的和基于模型方法的聚類?；趯哟蔚木垲愔饕校浩胶獾鳒p聚類法（BIRCH算法）、基于密度的聚類方法（DBSCAN算法）和使用代表點的聚類方法（CURE算法）等；基于劃分的聚類方法主要有：K均值聚類算法（K-means聚類算法）、K中心點算法（K-mediods聚類算法）和隨機搜索聚類算法（CLARANS聚類算法）等。創(chuàng)新與貢獻研究意義選題背景第一章2.2聚類2.2.2基本原理

聚類的結(jié)果是類內(nèi)樣本的相似度高，類間樣本的相似度低。相似性的度量通常采用樣本間的距離來表示，距離函數(shù)值的大小反應(yīng)相似的程度，相似度越大兩個樣本間的距離函數(shù)的值越小，相似度越小兩個樣本間的距離函數(shù)值越大。

聚類是按照相似性大小，將無標(biāo)號的數(shù)據(jù)集劃分為若干類或簇的過程。常用的距離計算方法有：創(chuàng)新與貢獻研究意義選題背景第二章

歐氏距離2.2聚類

曼哈頓距離

明氏距離

歐氏距離創(chuàng)新與貢獻研究意義選題背景第二章歐氏距離又叫歐幾里得距離，是最常見的距離表示法。假設(shè)，，則它們之間的距離為：

即兩項間的差是每個變量值差的平方和再取平方根，目的是計算其間的整體距離，即不相似性。歐氏距離的優(yōu)點是計算公式比較簡單，缺點是不能將樣本的不同屬性（即各指標(biāo)或各變量）之間的差別等同看待，在某些特定的應(yīng)用背景中不能滿足要求。一般的聚類大都采用歐氏距離。1.歐式距離（EuclideanDistance）2.2聚類創(chuàng)新與貢獻研究意義選題背景第二章曼哈頓距離也稱為城市街區(qū)距離(CityBlockDistance)，是在歐幾里德空間的固定直角坐標(biāo)系上兩點所形成的線段對軸產(chǎn)生的投影的距離總和。二維平面兩點與間的曼哈頓距離定義為：

兩個n維向量與間的曼哈頓距離：

要注意的是，曼哈頓距離依賴坐標(biāo)系統(tǒng)的轉(zhuǎn)度，而非系統(tǒng)在坐標(biāo)軸上的平移或映射。2.曼哈頓距離（ManhattanDistance）2.2聚類創(chuàng)新與貢獻研究意義選題背景第二章明式距離也被稱作閔氏距離，可以理解為N維空間的距離，是歐式距離的擴展，兩個n維變量與間的明氏距離定義為：

其中p是一個變參數(shù)。根據(jù)變參數(shù)的不同，明氏距離可以表示一類的距離：（1）當(dāng)時，明氏距離即為曼哈頓距離。（2）當(dāng)時，明氏距離即為歐式距離。（3）當(dāng)時，明式距離即為切比雪夫距離。3.明氏距離（MinkowskiDistance）2.2聚類創(chuàng)新與貢獻研究意義選題背景第二章余弦距離，也稱為余弦相似度，是用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小的度量。對于二維空間，其定義為：

假設(shè)向量a、b的坐標(biāo)分別為、。則：設(shè)向量，，推廣到多維：

余弦距離通過測量兩個向量內(nèi)積空間夾角的余弦值來度量它們的相似性。余弦值的范圍在[-1，1]之間，值越趨近于1，代表兩個向量的方向越接近，越相似；越趨近于-1，他們的方向越相反，越不相似；越趨近于0，表示兩個向量近乎于正交。余弦距離可以用在任何維度的向量比較中，在高維正空間中的采用較多。4.余弦距離

（CosineSimilarity）2.2聚類創(chuàng)新與貢獻研究意義選題背景第一章2.2聚類2.2.3常用聚類算法

常用的幾種聚類算法：

K近鄰算法（KNN）

K均值聚類（K-means）

K中心點聚類（K-mediods）

K近鄰算法是一種常見的有監(jiān)督的聚類算法，也是非參數(shù)分類的重要方法之一。K近鄰的優(yōu)點在于算法原理比較簡單，容易理解和實現(xiàn)，不需要先驗知識等。缺點在于計算量較大，在處理孤立點或噪聲方面精度較低。

K中心點聚類算法是對K均值聚類的改進，屬于基于劃分方法的聚類。與K均值聚類算法相比，優(yōu)點是減輕了對孤立點的敏感性，提高了聚類結(jié)果的準確率。缺點是算法的復(fù)雜性比K均值聚類算法高。K中心聚類算法與K均值聚類算法最大的區(qū)別在于選擇將簇內(nèi)離平均值最近的對象作為該簇的中心，而不是將簇內(nèi)各對象的平均值作為簇的中心。

K均值聚類是劃分方法中經(jīng)典的聚類算法之一。優(yōu)點是算法簡單，聚類效果較好，效率較高，對于處理大數(shù)據(jù)集有較好的可伸縮性。缺點是K值需要事先指定，受孤立點或噪聲的影響較大，而且由于算法本身是迭代的，最終得到的結(jié)果有可能是局部最優(yōu)而不是全局最優(yōu)。創(chuàng)新與貢獻研究意義選題背景第二章1.K近鄰算法基本思想2.2聚類K近鄰算法的基本思想是針對測試集中的一個樣本點，在已經(jīng)學(xué)習(xí)并且完成分類的樣本空間中找到k個距離最近的樣本點，距離的計算通常采用歐氏距離或明式距離。如果找到的k個樣本點大多屬于某一個類別，則可以判定該樣本也屬于這個類別。

K近鄰算法（KNN）創(chuàng)新與貢獻研究意義選題背景第二章K近鄰算法的實現(xiàn)主要有以下3個要素：2.2聚類1）數(shù)據(jù)特征的量化。如果數(shù)據(jù)特征中存在非數(shù)值類型，則需要運用一定的手段量化成數(shù)值。若樣本中存在顏色這一特征屬性，可將顏色轉(zhuǎn)化成灰度值來計算距離；或為了保證參數(shù)取值較大時的影響力覆蓋參數(shù)取值較小時的影響力，通常需要對樣本的特征數(shù)值進行歸一化處理。2）樣本間距離計算公式的選擇。常見的距離計算公式有歐氏距離、曼哈頓距離、明式距離、余弦距離等。不同情況下對公式的選擇不同，如：樣本變量為連續(xù)型時，通常采用歐氏距離；樣本變量為非連續(xù)型時，通常采用明式距離。3）K值的選擇。K為自定義的常數(shù)，K值的選擇對聚類的結(jié)果有很大的影響。通常采用交叉驗證法確定K的取值，且K的取值一般小于訓(xùn)練樣本數(shù)的平方根。

K近鄰算法（KNN）創(chuàng)新與貢獻研究意義選題背景第二章2.K近鄰算法過程2.2聚類K近鄰具體描述如下：1）構(gòu)建訓(xùn)練集和測試集，使訓(xùn)練集按照已有的標(biāo)準分成離散型數(shù)值類或連續(xù)型數(shù)值類。2）根據(jù)樣本集為離散型或連續(xù)型選擇適當(dāng)?shù)木嚯x計算公式，計算測試集中的數(shù)據(jù)與各個訓(xùn)練集數(shù)據(jù)之間的距離，并排序。3）利用交叉驗證法確定K的取值，并選擇距離最小的K個點。4）確定K個點所在類別的出現(xiàn)頻率，選擇出現(xiàn)頻率最高的類別作為測試集的預(yù)測類。

K近鄰算法（KNN）創(chuàng)新與貢獻研究意義選題背景第二章1.K均值算法基本思想2.2聚類K均值算法的基本思想是將n個樣本點劃分或聚類成K個簇，使得簇內(nèi)具有較高的相似度，而簇間的相似度較低。首先確定所要聚類的最終數(shù)目K，并從樣本中隨機選擇K個樣本作為中心；其次將集合中每個數(shù)據(jù)點被劃分到與其距離最近的簇中心所在的類簇之中，形成K個聚類的初始分布；然后對分配完的每一個類簇內(nèi)對象計算平均值，重新確定新的簇中心，繼續(xù)進行數(shù)據(jù)分配過程；迭代執(zhí)行若干次，若簇中心不再發(fā)生變化，則完成了將數(shù)據(jù)對象完全分配至所屬的類簇中，且聚類準則函數(shù)收斂；否則繼續(xù)執(zhí)行迭代過程，直至聚類準則函數(shù)收斂。

K均值聚類（K-means）創(chuàng)新與貢獻研究意義選題背景第二章2.K均值算法過程2.2聚類K均值算法具體描述如下：假設(shè)給定的n個樣本是，每個，其中樣本間的距離選擇歐氏距離。輸入：n個樣本和簇的數(shù)目K；輸出：K個簇，且平方誤差準則最小。具體步驟：（1）確定所要聚類的最終數(shù)目K，并從樣本中隨機選擇K個樣本作為中心，即。

K均值聚類（K-means）創(chuàng)新與貢獻研究意義選題背景第二章（2）重復(fù)以下過程，直至誤差平方和準則函數(shù)E收斂至某個固定值。2.2聚類{對每個樣本i，計算并確定其應(yīng)屬類別：

對于每一個類j，重新計算類的簇中心：

計算E，并判斷其是否收斂于某個固定的值。}其中K為確定的值，代表樣本i與K個類中距離最近的類，取值為，簇中心代表對屬于同一個類的樣本中心點的預(yù)測。聚類準則函數(shù)用于判斷聚類質(zhì)量的高低，一般采用誤差平方和準則函數(shù)E的值變化情況判斷是否繼續(xù)進行迭代過程，E的值在每次迭代過程中逐漸減小，最終收斂至一個固定的值，則迭代過程結(jié)束，否則繼續(xù)執(zhí)行迭代過程，直至E收斂。誤差平方和準則函數(shù)E定義如下：

其中，E是所有樣本點的平方誤差的總和，p是某一樣本點，mi是簇Ci的平均值。

K均值聚類（K-means）創(chuàng)新與貢獻研究意義選題背景第二章1.K中心點算法基本思想2.2聚類K中心算法的基本思想是首先確定所要聚類的最終數(shù)目K，并從樣本中隨機選擇K個樣本作為中心；其次將集合中每個數(shù)據(jù)點被劃分到與其距離最近的簇中心所在的類簇之中，形成K個聚類的初始分布；反復(fù)地利用各簇中的非中心點樣本來替代中心點樣本，并計算各簇中各中心點樣本與非中心點樣本的距離之和；迭代執(zhí)行若干次，尋找最小距離之和，通過不斷更新各距離值來不斷調(diào)整聚類的結(jié)果。

K中心點聚類（K-mediods）創(chuàng)新與貢獻研究意義選題背景第二章2.K中心點算法過程2.2聚類K中心點算法具體描述如下：假設(shè)給定的n個樣本是，每個，其中樣本間的距離選擇歐氏距離。輸入：n個樣本和簇的數(shù)目K；輸出：K個簇。

K中心點聚類（K-mediods）創(chuàng)新與貢獻研究意義選題背景第二章2.2聚類具體步驟：（1）確定所要聚類的最終數(shù)目K，并從樣本中隨機選擇K個樣本作為中心，即。（2）對每個樣本p，計算并確定其應(yīng)屬類別，使得其歐氏距離M最小。

（3）調(diào)整聚類中心，隨機選取一個非簇中心樣本代替，重新分配所有剩余樣本p，使得

（4）若，則=，否則本次迭代中不發(fā)生變化。（5）重復(fù)執(zhí)行以上步驟，直到步驟（3）中不再成立，否則繼續(xù)迭代執(zhí)行（2）。

K中心點聚類（K-mediods）創(chuàng)新與貢獻研究意義選題背景第二章2.3.1簡介遺傳算法（GeneticAlgorithm）也稱為進化算法，是Michigan大學(xué)的Holland教授受達爾文的進化論的啟發(fā)，借鑒生物進化過程，于1975年提出的一種隨機啟發(fā)式搜索算法。

2.3遺傳算法創(chuàng)新與貢獻研究意義選題背景第二章2.3.2基本原理遺傳算法的基本思想是將問題域中的萬能解作為個體，反復(fù)對群體進行交叉、變異和選擇操作，通過比較每個個體的適應(yīng)度值，淘汰差的個體，最終求得最優(yōu)解或滿意解。遺傳算法具體步驟如下：（1）初始化群體；（2）計算群體上每個個體的適應(yīng)度值；（3）按由個體適應(yīng)度值所決定的某個規(guī)則選擇將進入下一代的個體；（4）按概率參數(shù)PXOVER進行交叉操作；（5）按概率參數(shù)PMUTATION進行突變操作；（6）沒有滿足某種停止條件，則轉(zhuǎn)第(2)步，否則進入(7)；（7）輸出種群中適應(yīng)度值最優(yōu)的個體作為問題的滿意解或最優(yōu)解。程序的停止條件最簡單的有如下兩種：完成了預(yù)先給定的進化代數(shù)則停止；種群中的最優(yōu)個體在連續(xù)若干代沒有改進或平均適應(yīng)度在連續(xù)若干代基本沒有改進時停止。2.3遺傳算法創(chuàng)新與貢獻研究意義選題背景第二章圖2-1遺傳算法流程圖2.3遺傳算法創(chuàng)新與貢獻研究意義選題背景第二章遺傳算法的實現(xiàn)有6個主要因素：參數(shù)的編碼、初始種群的設(shè)定、適應(yīng)度函數(shù)的設(shè)計、遺傳操作、算法控制參數(shù)的設(shè)定和約束條件的處理。（1）編碼與解碼編碼是將一個問題的可行解從其解空間轉(zhuǎn)換到遺傳算法的搜索空間的轉(zhuǎn)化方法。主要的編碼方法有：二進制編碼、浮點數(shù)編碼、格雷編碼及多參數(shù)編碼等。估計編碼的三個準則是完備性、健全性和非冗余性。解碼又稱為譯碼，是由遺傳算法解空間向問題空間的轉(zhuǎn)換。（2）選擇選擇是在群體中選擇出生命力較強的個體產(chǎn)生新的群體的過程，目的是使得群體中個體的適應(yīng)度接近最優(yōu)解。常見的選擇算子有隨機競爭選擇、輪盤賭選擇、最佳保留選擇、確定式選擇、期望值選擇、均勻排序等。（3）交叉交叉是按某種方式對兩個相互配對的染色體進行相互交換部分基因的操作，從而形成兩個新的個體。常見的適用于二進制編碼與浮點數(shù)編碼的交叉算子有：兩點交叉、多點交叉、算子交叉以及均勻交叉。2.3遺傳算法創(chuàng)新與貢獻研究意義選題背景第二章（4）變異變異是指將個體染色體編碼串中的某些基因位上的基因值用該基因位上的其它等位基因來替換，從而形成新的個體。常見的適用于二進制編碼與浮點數(shù)編碼的變異算子有基本位變異、均勻變異、邊界變異、非均勻變異以及高斯近似變異。（5）適應(yīng)度函數(shù)適應(yīng)度函數(shù)又稱為評價函數(shù)，是根據(jù)目標(biāo)函數(shù)確定的、用于區(qū)分群體中個體好壞的標(biāo)準。目標(biāo)函數(shù)可正可負，而適應(yīng)度函數(shù)是非負的，因此需要在目標(biāo)函數(shù)與適應(yīng)度函數(shù)之間進行適當(dāng)?shù)淖儞Q。設(shè)計適應(yīng)度函數(shù)時主要遵照以下四條標(biāo)準：1）函數(shù)滿足連續(xù)、非負、單值及最大化；2）合理性、一致性；3）計算量??；4）通用性強。評價個體適應(yīng)度的一般過程是：1）對個體編碼串進行解碼處理，得到個體的表現(xiàn)型；2）通過個體的表現(xiàn)型計算對應(yīng)的個體目標(biāo)函數(shù)值；3）根據(jù)最優(yōu)化問題的類型，將目標(biāo)函數(shù)值按照一定的轉(zhuǎn)換規(guī)則計算出個體的適應(yīng)度。2.3遺傳算法創(chuàng)新與貢獻研究意義選題背景第二章（6）約束條件處理約束條件處理主要有搜索空間限定法和可行解變換法。搜索空間限定法是通過對遺傳算法的搜索空間大小加以限制，在搜索空間中表示一個個體的點與解空間中表示一個可行解的點間建立一一對應(yīng)的關(guān)系?？尚薪庾儞Q法是在個體基因型向表現(xiàn)型變換的過程中，增加使其滿足約束條件的處理過程，也就是說，尋找個體基因型與表現(xiàn)型多對一的變換關(guān)系，擴大搜索空間，使得進化過程中所產(chǎn)生的個體可以通過這種變換轉(zhuǎn)化成解空間中滿足約束條件的一個可行解。2.3遺傳算法創(chuàng)新與貢獻研究意義選題背景第二章2.3.3

特點與應(yīng)用遺傳算法的特點（1）以決策變量的編碼作為運算對象。借鑒染色體和基因的概念，模仿自然界生物的遺傳和進化機理。（2）使用概率搜索技術(shù)，而不是確定性規(guī)則。（3）直接以適應(yīng)度作為搜索信息，無需借助導(dǎo)數(shù)等其它輔助信息。（4）使用多個點的搜索信息，具有隱含并行性。2.3遺傳算法創(chuàng)新與貢獻研究意義選題背景第二章遺傳算法的應(yīng)用2.3遺傳算法遺傳算法不依賴于問題的具體領(lǐng)域，對問題的種類有很強的魯棒性，所以廣泛應(yīng)用于函數(shù)優(yōu)化、組合優(yōu)化，例如：遺傳算法已經(jīng)在求解旅行商問題、背包問題、裝箱問題、圖形劃分問題等方面得到成功的應(yīng)用。此外，遺傳算法在生產(chǎn)調(diào)度問題、自動控制、機器人學(xué)、圖像處理等方面獲得了廣泛的運用。創(chuàng)新與貢獻研究意義選題背景第二章2.4.1簡介

2.4蟻群算法

蟻群算法(AntColonyOptimization，ACO)，最早是由MarcoDorigo等人于1991年提出的，是在圖中尋找優(yōu)化路徑的概率型算法?；舅枷雭碜晕浵佋趯ふ沂澄镞^程中發(fā)現(xiàn)最短路徑的行為。蟻群在尋找食物時，通過分泌信息素交流覓食信息，從而能在沒有任何提示的情況下找到從食物源到巢穴的最短路徑，并在周圍環(huán)境發(fā)生變化后，自適應(yīng)地搜索新的最佳路徑。蟻群算法的優(yōu)點是算法簡單，實現(xiàn)容易。創(chuàng)新與貢獻研究意義選題背景第二章2.4.2基本原理

2.4蟻群算法首先介紹蟻群算法中的參數(shù)：設(shè)蟻群中所有螞蟻的數(shù)量為m，所有城市之間的信息素為矩陣pheromon，最短路徑為bestLength，最佳路徑為bestTour。每只螞蟻都有自己的內(nèi)存，內(nèi)存中用一個禁忌表（Tabu）來存儲該螞蟻已經(jīng)訪問過的城市，表示其在以后的搜索中將不能訪問這些城市，用一個允許訪問的城市表（Allowed）來存儲該螞蟻還可以訪問的城市，用一個矩陣（Delta）來存儲它在一個循環(huán)（或者迭代）中給所經(jīng)過的路徑釋放的信息素；此外還有一些數(shù)據(jù)，運行次數(shù)MAX_GEN次，運行時間t，控制參數(shù)，螞蟻行走完全程的總成本或距離（tourLength）等。創(chuàng)新與貢獻研究意義選題背景第二章蟻群算法計算過程如下：圖2-2蟻群算法流程圖2.4蟻群算法（1）初始化（2）選擇節(jié)點（3）更新信息素矩陣（4）檢查終止條件（5）輸出最優(yōu)值創(chuàng)新與貢獻研究意義選題背景第二章（1）初始化t=0時，對所有參數(shù)進行初始化。設(shè)置bestLength為正無窮，bestTour為空，將所有螞蟻的Delt矩陣所有元素初始化為0，Tabu表清空，向Allowed表中加入所有的城市節(jié)點，用隨機選擇或人工指定的方法它們的起始位置，在Tabu表中加入起始節(jié)點，Allowed表中去掉該起始節(jié)點。2.4蟻群算法創(chuàng)新與貢獻研究意義選題背景第二章（2）選擇節(jié)點為每只螞蟻選擇下一個節(jié)點，該節(jié)點只能從Allowed表中以通過公式（2-1）計算得到的概率搜索到，每搜到一個節(jié)點，就將該節(jié)點加入到Tabu表中，并且從Allowed表中刪除該節(jié)點。重復(fù)n-1次該過程，直到所有的城市都遍歷過一次。遍歷完所有節(jié)點后，將起始節(jié)點加入到Tabu表中。此時Tabu表元素數(shù)量為n+1（n為城市數(shù)量），Allowed表元素數(shù)量為0。接下來按照公式（2-2）計算每個螞蟻的Delta矩陣值。最后計算最佳路徑，比較每個螞蟻的路徑成本，然后與bestLength比較，若它的路徑成本比bestLength小，則將該值賦予bestLength，并且將其Tabu賦予BestTour并將該城市節(jié)點加到bestTour中。2.4蟻群算法創(chuàng)新與貢獻研究意義選題背景第二章（2）選擇節(jié)點其中k表示第k個螞蟻，表示選擇城市j的概率，表示城市i，j在第t時刻的信息素濃度，表示從城市i到城市j的可見度，，表示城市i，j之間的成本。表示螞蟻k在城市i與j之間留下的信息素。表示螞蟻k完成一個循環(huán)所經(jīng)過路徑的總成本，即tourLength，，，Q均為控制參數(shù)。（2-1）（2-2）2.4蟻群算法創(chuàng)新與貢獻研究意義選題背景第二章（3）更新信息素矩陣令t=t+n，按照公式（2-3）更新信息素矩陣phermone。其中為t+n時刻城市i與j之間的信息素濃度，為控制參數(shù)，為城市i與j之間信息素經(jīng)過一個迭代后的增量。并且有其中由公式計算得到。（2-3）2.4蟻群算法創(chuàng)新與貢獻研究意義選題背景第二章（4）檢查終止條件如果達到最大迭代次數(shù)MAX_GEN，則算法終止，轉(zhuǎn)到第（5）步；否則，重新初始化所有螞蟻的Delt矩陣中所有元素為0，Tabu表清空，Allowed表中加入所有的城市節(jié)點，隨機選擇或人工指定它們的起始位置，在Tabu表中加入起始節(jié)點，Allowed表中去掉該起始節(jié)點，重復(fù)執(zhí)行（2）（3）（4）步。（5）輸出最優(yōu)值2.4蟻群算法創(chuàng)新與貢獻研究意義選題背景第二章2.4.3特點與應(yīng)用

2.4蟻群算法1.特點（1）自組織：蟻群算法的組織指令來自于系統(tǒng)內(nèi)部的，在獲得空間、時間或者功能結(jié)構(gòu)過程中，沒有受到外界的影響，即蟻群算法能夠在沒有外界環(huán)境的影響下使系統(tǒng)的熵增加，具有良好的自組織能力。（2）并行化：每只螞蟻個體搜索最優(yōu)解的過程彼此獨立，僅通過信息激素進行通信，所以蟻群算法可以看作一個分布式的多agent系統(tǒng)，在問題空間中多個不同的點位同時進行解的搜索，不僅降低了算法的時間復(fù)雜性，還可以使算法具有一定的全局搜索能力。（3）正反饋：螞蟻能夠找到最短路徑的過程依賴于路徑上堆積的信息激素，信息激素堆積是一個正反饋的過程，其反饋方式是在較優(yōu)解的路徑上留下更多的信息激素，而信息激素越多又會吸引更多的螞蟻，正反饋的過程又引導(dǎo)整個系統(tǒng)向最優(yōu)解的方向進化。（4）魯棒性：蟻群算法對初始路線要求不高，即最終結(jié)果不依賴初始路線的選擇，在搜索過程中也不需要人為調(diào)整。創(chuàng)新與貢獻研究意義選題背景第二章2.4.3特點與應(yīng)用

2.4蟻群算法1.應(yīng)用近年來隨著對蟻群算法理論與實際應(yīng)用研究的不斷深入，蟻群算法被應(yīng)用于求解經(jīng)典的旅行商問題及其他領(lǐng)域的優(yōu)化問題和邊界條件優(yōu)化問題，如生產(chǎn)調(diào)度問題、圖像處理、車輛路徑問題及機器人路徑規(guī)劃問題等。創(chuàng)新與貢獻研究意義選題背景第二章2.5.1簡介2.5粒子群算法粒子群算法（ParticleSwarmOptimization，PSO）是一種由Kennedy等學(xué)者從鳥類尋找食物的過程中得到啟發(fā)，于1995年提出的新型群體智能優(yōu)化算法。粒子群算法同遺傳算法以及蟻群算法等群體智能算法類似，都是受生物群體啟發(fā)的優(yōu)化算法。其基本思想來自鳥群在覓食過程中發(fā)現(xiàn)最優(yōu)位置的行為。鳥群在尋找食源的過程中，通過不斷進行最優(yōu)位置信息的交流，每只鳥根據(jù)最優(yōu)位置調(diào)整自己的飛行速度和飛行方向，最終找到食源。創(chuàng)新與貢獻研究意義選題背景第二章2.5.2基本原理

2.5粒子群算法假設(shè)一個n維的目標(biāo)搜索空間中含有m個粒子，每個粒子的位置對應(yīng)一個n維向量，第i個粒子的局部最優(yōu)值為，當(dāng)前種群的最優(yōu)位置為，每個粒子所對應(yīng)的運動速度也是一個n維的向量。在粒子的運動過程中，粒子群中的每一個粒子會根據(jù)公式（2-4）和（2-5）來更新自己的運動速度，根據(jù)公式（2-6）更新自己的位置。（2-4）（2-5）（2-6）創(chuàng)新與貢獻研究意義選題背景第二章2.5.2基本原理2.5粒子群算法其中，，k為粒子群迭代的次數(shù)（），為隨機數(shù)函數(shù)，在[0，1]之間隨機選取。為非負數(shù)，表示粒子自身的認知系數(shù)，表示粒子的社會認知系數(shù)。為最大的運動速度，為最小的運動速度，兩者的值通常由用戶根據(jù)經(jīng)驗來定義，用來對運動速度進行調(diào)整。對于公式（2-7）來說代表前次運動的速度，它使得粒子在全部的搜素空間中有向各個方向伸張的趨勢，表示自身的認知過程，它通過粒子自身的運動來獲得認知能力。表示學(xué)習(xí)其他粒子經(jīng)驗的過程，該過程是粒子群中每個粒子相互分享學(xué)習(xí)經(jīng)驗的過程。創(chuàng)新與貢獻研究意義選題背景第二章2.5.2基本原理2.5粒子群算法粒子群算法的實現(xiàn)步驟如下：(1)對粒子群的每個粒子的位置和速度進行隨機的初始化；(2)根據(jù)定義的適應(yīng)度函數(shù)，計算每個粒子的適應(yīng)度值；(3)將粒子的適應(yīng)度值與該粒子局部最優(yōu)位置的適應(yīng)度值相比較，求粒子的局部最優(yōu)解；(4)將全局最優(yōu)位置的適應(yīng)度值與每個粒子的局部位置的適應(yīng)度值相比較，求粒子群的全局最優(yōu)解；(5)根據(jù)公式（2-4）和（2-5）計算每個粒子的運動速度，根據(jù)公式（2-6）計算每個粒子的位置；(6)判斷終止條件是否滿足，如果不滿足，返回第（2）步，否則算法結(jié)束。創(chuàng)新與貢獻研究意義選題背景第二章2.5.3特點與應(yīng)用2.5粒子群算法1.特點（1）速度快：粒子群算法沒有交叉和變異運算，依靠粒子速度完成搜索，并且在迭代進程中只有最優(yōu)的粒子把信息傳遞給其他粒子，搜索速度快。（2）記憶性：粒子群體獲得的歷史最好位置可以被記錄并傳遞給其它粒子的。（3）易于實現(xiàn)：粒子群算法需要調(diào)整的參數(shù)較少，易于實現(xiàn)，結(jié)構(gòu)簡單，它采用實數(shù)編碼，直接由問題的解決定，問題解的變量數(shù)直接作為粒子的維度數(shù)。2.應(yīng)用由于粒子群算法實現(xiàn)簡單，易于理解，且能夠優(yōu)化一些復(fù)雜的問題，常被用于神經(jīng)網(wǎng)絡(luò)的優(yōu)化、函數(shù)參數(shù)的優(yōu)化、電力系統(tǒng)的優(yōu)化等領(lǐng)域，并且有著較好的效果。創(chuàng)新與貢獻研究意義選題背景第二章2.6.1簡介2.6人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)（ArtificialNeuralNetwork，ANN）簡稱為神經(jīng)網(wǎng)絡(luò)(NN)或連接模型（ConnectionistModel）。智庫百科中人工神經(jīng)網(wǎng)絡(luò)的定義是：“人工神經(jīng)網(wǎng)絡(luò)是由人工建立的以有向圖為拓撲結(jié)構(gòu)的動態(tài)系統(tǒng)，它通過對連續(xù)或斷續(xù)的輸入作狀態(tài)相應(yīng)而進行信息處理”。因此，人工神經(jīng)網(wǎng)絡(luò)是基于神經(jīng)網(wǎng)絡(luò)的基本原理，在理解和抽象人腦和外界刺激響應(yīng)機制的基礎(chǔ)上，以網(wǎng)絡(luò)拓撲知識為理論基礎(chǔ)，模擬人腦神經(jīng)系統(tǒng)實現(xiàn)復(fù)雜信息處理機制的數(shù)學(xué)模型，具有自學(xué)能力、聯(lián)想存儲能力以及高速尋優(yōu)能力。創(chuàng)新與貢獻研究意義選題背景第二章2.6.1簡介2.6人工神經(jīng)網(wǎng)絡(luò)1.人工神經(jīng)網(wǎng)絡(luò)發(fā)展（1）初始階段——啟蒙時期（2）第二階段——低潮時期（3）第三階段——復(fù)興時期（發(fā)展期）（4）第四階段——深度學(xué)習(xí)創(chuàng)新與貢獻研究意義選題背景第二章2.6.1簡介2.6人工神經(jīng)網(wǎng)絡(luò)（1）初始階段——啟蒙時期啟蒙時期也稱為形成時期，早在20世紀50年代國外的學(xué)者就開始了對人工神經(jīng)網(wǎng)絡(luò)的研究工作。1943年，美國生理學(xué)家Mcculloch和數(shù)學(xué)家Pitts發(fā)表文章，提出了第一個神經(jīng)元模型（M-P模型），開啟了對人工神經(jīng)網(wǎng)絡(luò)研究的大門。1951年，心理學(xué)家DonalaO.Hebb提出了連接權(quán)值強化的Hebb法則，為構(gòu)造有學(xué)習(xí)功能的的神經(jīng)網(wǎng)絡(luò)模型奠定了基礎(chǔ)。1960年，Widrow和Hoff提出了一種連續(xù)取值的自適應(yīng)線性神經(jīng)元網(wǎng)絡(luò)模型Adaline，提高了分段線性網(wǎng)絡(luò)的訓(xùn)練速度及精度。創(chuàng)新與貢獻研究意義選題背景第二章2.6.1簡介2.6人工神經(jīng)網(wǎng)絡(luò)（2）第二階段——低潮時期1969年，Minsky和Papert在《Perceptrons》一書，從數(shù)學(xué)的角度證明了簡單的線性感知器的功能是有限的，不能有效地應(yīng)用于多層網(wǎng)絡(luò)，由此對神經(jīng)網(wǎng)絡(luò)的研究進入10年左右的低潮期。盡管在低谷時期，也產(chǎn)生了許多重要的研究成果，如1972年芬蘭的Kohonen教授提出的自組織映射（SOM）理論，1980年福島邦彥提出的“新認知機”模型等，為日后神經(jīng)網(wǎng)絡(luò)的理論研究奠定了重要的基礎(chǔ)。創(chuàng)新與貢獻研究意義選題背景第二章2.6.1簡介2.6人工神經(jīng)網(wǎng)絡(luò)（3）第三階段——復(fù)興時期（發(fā)展期）1982年，美國物理學(xué)家Hopfield提出了離散Hopfield神經(jīng)網(wǎng)絡(luò)，并證明了在一定條件下，網(wǎng)絡(luò)可以達到穩(wěn)定的狀態(tài)，再次掀起了神經(jīng)網(wǎng)絡(luò)研究的一個熱潮。1983年Kirkpatrick等人認識到可將模擬退火算法運用到NP完全組合優(yōu)化問題的求解過程中。Hinton與年輕學(xué)者Sejnowski等于1984年合作提出了大規(guī)模并行網(wǎng)絡(luò)學(xué)習(xí)機（后來被稱為Boltzmann機），同時提出了隱單元的概念。1986年，D.E.Rumelhart在多層神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上，提出了多層神經(jīng)網(wǎng)絡(luò)權(quán)值修正的反向傳播學(xué)習(xí)算法——BP算法（Back-Propagation），解決了多層前向神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)問題，證明了多層神經(jīng)網(wǎng)絡(luò)具有很強的學(xué)習(xí)能力，可以完成許多學(xué)習(xí)任務(wù)，解決許多實際問題。1988年，Broomhead和Lowe將徑向基函數(shù)(RadialBasisFunction，RBF)運用到人工神經(jīng)網(wǎng)絡(luò)（ANN）的設(shè)計中，將人工神經(jīng)網(wǎng)絡(luò)的設(shè)計與數(shù)值分析以及線性適應(yīng)濾波聯(lián)系起來。創(chuàng)新與貢獻研究意義選題背景第二章2.6.1簡介2.6人工神經(jīng)網(wǎng)絡(luò)（4）第四階段——深度學(xué)習(xí)2006年，Hinton提出的深度學(xué)習(xí)，是機器學(xué)習(xí)的一個新方法，也是神經(jīng)網(wǎng)絡(luò)的最新發(fā)展。深度學(xué)習(xí)算法打破了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)對層數(shù)的限制，可根據(jù)設(shè)計者需要選擇網(wǎng)絡(luò)層數(shù)，構(gòu)建含多隱層的機器學(xué)習(xí)框架模型，對大規(guī)模數(shù)據(jù)進行訓(xùn)練，從而得到更有代表性的特征信息。創(chuàng)新與貢獻研究意義選題背景第二章2.6.1簡介2.6人工神經(jīng)網(wǎng)絡(luò)1.人工神經(jīng)網(wǎng)絡(luò)研究內(nèi)容神經(jīng)網(wǎng)絡(luò)的研究可分為理論研究和應(yīng)用研究兩個方面。理論研究主要包括：（1）以神經(jīng)生理與認知科學(xué)為基礎(chǔ)，對人類思維以及智能機理進行研究。（2）借鑒神經(jīng)基礎(chǔ)理論的研究成果，運用數(shù)理方法，深入研究網(wǎng)絡(luò)算法，提高穩(wěn)定性、收斂性、容錯性、魯棒性等方面的性能，發(fā)展如神經(jīng)網(wǎng)絡(luò)動力學(xué)、非線性神經(jīng)場等新的網(wǎng)絡(luò)數(shù)理理論，并且嘗試構(gòu)建功能上更加完善、性能上更具優(yōu)越性的神經(jīng)網(wǎng)絡(luò)模型。應(yīng)用研究主要包括：（1）對神經(jīng)網(wǎng)絡(luò)的硬件實現(xiàn)和軟件模擬的研究。（2）神經(jīng)網(wǎng)絡(luò)在模式識別、信號處理、專家系統(tǒng)、優(yōu)化組合、知識工程和機器人控制等領(lǐng)域的應(yīng)用研究。創(chuàng)新與貢獻研究意義選題背景第二章2.6.2神經(jīng)網(wǎng)絡(luò)基礎(chǔ)2.6人工神經(jīng)網(wǎng)絡(luò)1.生物神經(jīng)元

在介紹人工神經(jīng)元之前，首先以人腦神經(jīng)元為例介紹生物神經(jīng)元的結(jié)構(gòu)及特點。人腦中大約有1000億個神經(jīng)元。神經(jīng)元主要由樹突、細胞體、軸突和突觸組成，基本結(jié)構(gòu)如圖所示。樹突的作用是接受信息，細胞體的作用是對接受的信息進行處理，軸突的作用是發(fā)出信息。一個神經(jīng)元的軸突末端與另外一個神經(jīng)元的樹突緊密接觸形成的部分構(gòu)成突觸，用于保證信息的單向傳遞。創(chuàng)新與貢獻研究意義選題背景第二章2.6.2神經(jīng)網(wǎng)絡(luò)基礎(chǔ)2.6人工神經(jīng)網(wǎng)絡(luò)1.生物神經(jīng)元

創(chuàng)新與貢獻研究意義選題背景第二章2.6.2神經(jīng)網(wǎng)絡(luò)基礎(chǔ)2.6人工神經(jīng)網(wǎng)絡(luò)2.人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

人工神經(jīng)元是受人腦神經(jīng)元結(jié)構(gòu)的啟發(fā)而提出的，結(jié)構(gòu)如下圖所示，一個神經(jīng)元結(jié)構(gòu)由輸入向量、激活函數(shù)及輸出向量三部分組成。輸入向量與對應(yīng)的權(quán)值向量分別相乘再取和作為輸入值，在激活函數(shù)的作用下輸出對應(yīng)，其中b為激活函數(shù)的閾值。創(chuàng)新與貢獻研究意義選題背景第二章2.6.2神經(jīng)網(wǎng)絡(luò)基礎(chǔ)2.6人工神經(jīng)網(wǎng)絡(luò)2.人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

創(chuàng)新與貢獻研究意義選題背景第二章2.6.2神經(jīng)網(wǎng)絡(luò)基礎(chǔ)2.6人工神經(jīng)網(wǎng)絡(luò)3.常見激活函數(shù)（ActivationFunction）神經(jīng)網(wǎng)絡(luò)由大量的神經(jīng)元連接組成，每個神經(jīng)元代表一種特定的輸出函數(shù)，稱為激活函數(shù)。激活函數(shù)不是要在神經(jīng)網(wǎng)絡(luò)中發(fā)揮某種激活作用，而是通過某種函數(shù)的形式把生物神經(jīng)元中“激活的神經(jīng)元特征”保留并映射出來。激活函數(shù)具有可微性、單調(diào)性和輸出范圍有限等特點。常用的激活函數(shù)主要有線性函數(shù)、斜面

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

機器學(xué)習(xí)與大數(shù)據(jù)技術(shù)PPT完整全套教學(xué)課件

文檔簡介

溫馨提示

最新文檔

評論

機器學(xué)習(xí)與大數(shù)據(jù)技術(shù)PPT完整全套教學(xué)課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔