版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
Matlab數(shù)據(jù)分析第1章數(shù)據(jù)的基本概念及其應(yīng)用第2章Matlab基礎(chǔ)第3章隨機(jī)模擬第4章數(shù)據(jù)預(yù)處理第5章數(shù)據(jù)探索與分析第6章多元線性回歸模型第7章聚類分析第8章分類第1章數(shù)據(jù)的基本概念及其應(yīng)用1.1數(shù)據(jù)與數(shù)據(jù)處理1.1.1數(shù)據(jù)的相關(guān)基本概念1.數(shù)據(jù)2.大數(shù)據(jù)(1)Volume(大量)數(shù)據(jù)存儲單位從過去的GB、TB,到現(xiàn)在的PB、EB、ZB量級了。(2)Velocity(高速)生活中每個人都離不開互聯(lián)網(wǎng),每個人每天都在向大數(shù)據(jù)中心提供大量的信息,通過互聯(lián)網(wǎng)傳輸,大數(shù)據(jù)的產(chǎn)生非常迅速。(3)Variety(多樣)廣泛的數(shù)據(jù)來源決定了大數(shù)據(jù)形式的多樣性,任何形式的數(shù)據(jù)都可以產(chǎn)生作用。(4)Value(價值)大數(shù)據(jù)最大的價值在于通過從大量不相關(guān)的各種類型的數(shù)據(jù)中,挖掘出對未來趨勢與模式的預(yù)測分析有價值的數(shù)據(jù)。3.信息1.1數(shù)據(jù)與數(shù)據(jù)處理4.信息量1.1.2數(shù)據(jù)處理的主要概念1.算法2.數(shù)據(jù)挖掘3.機(jī)器學(xué)習(xí)1.1數(shù)據(jù)與數(shù)據(jù)處理1.1.3數(shù)據(jù)處理的流程第一階段:制定目標(biāo)?該組織或單位什么要設(shè)立和研究該項目?缺少什么以及需要什么??該組織或單位正在做什么事情來解決問題?什么還不夠好?是否有可借鑒的經(jīng)驗??你需要什么種類的數(shù)據(jù)以及需要多少?團(tuán)隊需要什么人員、哪些技術(shù)、多少時問?計算資源是什么??該組織或單位如何實施和應(yīng)用你的結(jié)果?為了成功地應(yīng)用部署,必須滿足哪些約束條件?1.1數(shù)據(jù)與數(shù)據(jù)處理第二階段:數(shù)據(jù)準(zhǔn)備?什么數(shù)據(jù)可以我所用??這些數(shù)據(jù)是否有助于解決問題??這些數(shù)據(jù)是否足夠多??數(shù)據(jù)的質(zhì)量是否足夠好?第三階段:建立模型1)特征化。2)打分。3)排序。4)關(guān)聯(lián)。5)分類。1.1數(shù)據(jù)與數(shù)據(jù)處理6)聚類。7)異常檢測。第四階段:評價與批判模型?對你的需求來說是否足夠準(zhǔn)確?它是否能很好地概括需求??它是否比“直觀猜測”表現(xiàn)得更好?比你當(dāng)前使用的任何估計都表現(xiàn)得更好?比之前使用的模型方法是否更好??模型結(jié)果(系數(shù)、聚簇、規(guī)則)在專業(yè)領(lǐng)域的情景是否有意義?也就是說,模型給出的結(jié)果是否符合實際情況??模型是否足夠精確?是否有更好的方式?第五階段:展示結(jié)果和文檔第六階段:模型實施與維護(hù)1.1數(shù)據(jù)與數(shù)據(jù)處理1.1.4數(shù)據(jù)處理的誤區(qū)1.不要用單一類型的數(shù)據(jù)去評價全局2.不要夸大偶然事件,認(rèn)為帶來必然結(jié)果3.避免唯數(shù)據(jù)論4.不是從問題實際出發(fā),寄希望于軟件“黑箱”工具1.2數(shù)據(jù)處理涉及的主要領(lǐng)域1.2.1統(tǒng)計學(xué)1.2.2數(shù)據(jù)挖掘1)處理的數(shù)據(jù)規(guī)模十分龐大,達(dá)到GB、TB數(shù)量級。2)查詢一般是決策制定者提出的即時查詢,往往不能形成精確的查詢要求,需要靠系統(tǒng)本身尋找其可能感興趣的內(nèi)容。3)在一些應(yīng)用領(lǐng)域,由于數(shù)據(jù)變化迅速,因此要求數(shù)據(jù)挖掘能快速做出相應(yīng)反應(yīng)以隨時提供決策支持。4)數(shù)據(jù)挖掘中,規(guī)則的發(fā)現(xiàn)基于統(tǒng)計規(guī)律。5)數(shù)據(jù)挖掘所發(fā)現(xiàn)的規(guī)則是動態(tài)的,它只反映了當(dāng)前狀態(tài)的數(shù)據(jù)庫具有的規(guī)則,隨著不斷地向數(shù)據(jù)庫中加入新數(shù)據(jù),需要隨時對其進(jìn)行更新。1.2數(shù)據(jù)處理涉及的主要領(lǐng)域1.2.3云計算(1)超大規(guī)?!霸啤本哂邢喈?dāng)?shù)囊?guī)模,Google云計算已經(jīng)擁有100多萬臺服務(wù)器,Amazon、IBM、微軟、Yahoo等的“云”均擁有幾十萬臺服務(wù)器。(2)虛擬化云計算支持用戶在任意位置、使用各種終端獲取應(yīng)用服務(wù)。(3)高可靠性“云”使用了數(shù)據(jù)多副本容錯、計算節(jié)點同構(gòu)可互換等措施來保障服務(wù)的高可靠性,使用云計算比使用本地計算機(jī)可靠。(4)通用性云計算不針對特定的應(yīng)用,在“云”的支撐下可以構(gòu)造出千變?nèi)f化的應(yīng)用,同一個“云”可以同時支撐不同的應(yīng)用運行。(5)高可擴(kuò)展性“云”的規(guī)模可以動態(tài)伸縮,滿足應(yīng)用和用戶規(guī)模增長的需要。(6)按需服務(wù)“云”是一個龐大的資源池,可按需購買;云可以像白來水、電、煤氣那樣計費。(7)極其廉價由于“云”的特殊容錯性,可以采用極其廉價的節(jié)點來構(gòu)成云,“云”的自動化集中式管理使大量企業(yè)無須負(fù)擔(dān)日益高昂的數(shù)據(jù)中心管理成本,“云”的通用性使資源的利用率較之1.2數(shù)據(jù)處理涉及的主要領(lǐng)域傳統(tǒng)系統(tǒng)大幅提升,因此用戶可以充分享受“云”的低成本優(yōu)勢,經(jīng)常只要花費幾百美元、幾天時間就能完成以前需要數(shù)萬美元、數(shù)月時間才能完成的任務(wù)。(8)潛在的危險性云計算除了提供計算服務(wù)外,還必然提供了存儲服務(wù)。常見的云計算平臺有以下9個:(1)GoogleAppEngine
GoogleAppEngine是Google提供的服務(wù),允許開發(fā)者在Google的基礎(chǔ)架構(gòu)上運行網(wǎng)絡(luò)應(yīng)用程序。(2)AmazonElasticBeanstalkElasticBeanstalk為在AWS(AmazonWebServices)云中部署和管理應(yīng)用提供了一種方法。(3)微軟云Azure云計算服務(wù)平臺可以使客戶選擇的權(quán)力部署在以云計算基礎(chǔ)的互聯(lián)網(wǎng)服務(wù)上,或通過服務(wù)器,或把它們混合起來以任何方式提供給需要的業(yè)務(wù)。(4)阿里云與傳統(tǒng)的操作系統(tǒng)相比,依托云計算的阿里云OS具有明顯的優(yōu)勢。1.2數(shù)據(jù)處理涉及的主要領(lǐng)域(5)百度BAE平臺針對大數(shù)據(jù)的規(guī)模大、類型多、價值密度低等特征,百度云平臺提供的BAE(百度應(yīng)用引擎)將提供高并發(fā)的處理能力,以滿足處理速度快的要求。(6)新浪SAE云計算平臺作為典型的云計算,SAE采用“所付即所用,所付僅所用”的計費理念,通過日志和統(tǒng)計中心精確地計算每個應(yīng)用的資源消耗(包括CPU、內(nèi)存、磁盤等)。(7)騰訊云騰訊云有著深厚的基礎(chǔ)架構(gòu),并且有著多年對海量互聯(lián)網(wǎng)服務(wù)的經(jīng)驗,可以為開發(fā)者及企業(yè)提供云服務(wù)器、云存儲、云數(shù)據(jù)庫和彈性Web引擎等整體一站式服務(wù)方案。(8)華為云華為云通過基于瀏覽器的云管理平臺,以互聯(lián)網(wǎng)線上自助服務(wù)的方式,為用戶提供云計算IT基礎(chǔ)設(shè)施服務(wù)。(9)盛大云盛大云是一個安全、快捷、自助化Taas和Paas服務(wù)的門戶入口。1.3數(shù)據(jù)處理的主要方法1.3.1數(shù)據(jù)采集(1)數(shù)據(jù)抓取通過程序從現(xiàn)有的網(wǎng)絡(luò)資源中提取相關(guān)信息,錄入到數(shù)據(jù)庫中。(2)數(shù)據(jù)導(dǎo)入將指定的數(shù)據(jù)源導(dǎo)入數(shù)據(jù)庫中,通常支持的數(shù)據(jù)源包括Excel表格、數(shù)據(jù)庫文件、XMI文檔、文本文件以及常用的數(shù)據(jù)庫(如SQLServer、Oracle、MySQL等)。(3)傳感設(shè)備自動采集數(shù)據(jù)有關(guān)數(shù)據(jù)或信息通過傳感設(shè)備傳輸?shù)街骺匕?,主控板對?shù)據(jù)或信息進(jìn)行信號解析、算法分析和數(shù)據(jù)量化,將數(shù)據(jù)通過無線通信方式進(jìn)行傳輸。1.3.2數(shù)據(jù)預(yù)處理(1)數(shù)據(jù)清理它是通過填寫缺失的值、光滑噪聲數(shù)據(jù)、識別或刪除離群點并解決不一致性來“清理”數(shù)據(jù)的。(2)數(shù)據(jù)集成將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來并統(tǒng)一存儲,建立數(shù)據(jù)倉庫的過程實際上就是數(shù)據(jù)集成。1.3數(shù)據(jù)處理的主要方法(3)數(shù)據(jù)變換通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。(4)數(shù)據(jù)歸約數(shù)據(jù)挖掘時往往數(shù)據(jù)量非常大,在少量數(shù)據(jù)上進(jìn)行挖掘分析需要很長的時間,數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約表示,這就使數(shù)據(jù)量小得多,但仍然接近于保持原數(shù)據(jù)的完整性,使結(jié)果與歸約前結(jié)果相同或幾乎相同。1.3.3數(shù)據(jù)分析1)老七種工具,即排列圖、因果圖、分層法、調(diào)查表、散步圖、直方圖、控制圖。2)新七種工具,即關(guān)聯(lián)圖、系統(tǒng)圖、矩陣圖、KJ法、計劃評審技術(shù)、PDPC法、矩陣數(shù)據(jù)圖。1.描述性數(shù)據(jù)分析2.探索性數(shù)據(jù)分析3.驗證性數(shù)據(jù)分析1.3數(shù)據(jù)處理的主要方法1.3.4數(shù)據(jù)挖掘算法1.3數(shù)據(jù)處理的主要方法1.監(jiān)督學(xué)習(xí)模型(1)決策樹決策樹是用于分類和預(yù)測的主要技術(shù)之一,決策樹學(xué)習(xí)是以實例為基礎(chǔ)的歸納學(xué)習(xí)算法,它著眼于從一組無次序、無規(guī)則的實例中推理出以決策樹表示的分類規(guī)則。(2)貝葉斯算法貝葉斯(Bayes)算法是一類利用概率統(tǒng)計知識進(jìn)行分類的算法,如樸素貝葉斯(NaiveBayes)算法。(3)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是一種具有類似于大腦神經(jīng)突觸連接結(jié)構(gòu)并能進(jìn)行信息處理等應(yīng)用的數(shù)學(xué)模型。(4)支持向量機(jī)(SupportVectorMachine,SVM)支持向量機(jī)是根據(jù)統(tǒng)計學(xué)習(xí)理論提出的一種新的學(xué)習(xí)方法,它的最大特點是根據(jù)結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則,以最大化分類間隔構(gòu)造最優(yōu)分類超平面來提高學(xué)習(xí)機(jī)的泛化能力,較好地解決了非線性、高維數(shù)、局部極小點等問題。(5)集成學(xué)習(xí)分類模型集成學(xué)習(xí)是一種機(jī)器學(xué)習(xí)范式,它試圖通過連續(xù)調(diào)用單個的學(xué)習(xí)算法,獲得不同的基學(xué)習(xí)器,然后根據(jù)規(guī)則組合這些學(xué)習(xí)器來解決同一個問題,可以顯著地提高學(xué)習(xí)系統(tǒng)的1.3數(shù)據(jù)處理的主要方法泛化能力。(6)其他分類學(xué)習(xí)模型此外還有l(wèi)ogistics回歸模型、隱馬爾科夫分類模型(HMM)、基于規(guī)則的分類模型等眾多的分類模型,對于處理不同的數(shù)據(jù)、分析不同的問題,各種模型都有自己的特性和優(yōu)勢。2.無監(jiān)督學(xué)習(xí)模型(1)k-means聚類k-means算法的基本思想是初始隨機(jī)給定K個簇中心,按照最鄰近原則把待分類樣本點分到各個簇,然后按平均法重新計算各個簇的質(zhì)心,從而確定新的簇心,一直迭代,直到簇心的移動距離小于某個給定的值。(2)基于密度的聚類根據(jù)密度完成對象的聚類。(3)層次聚類層次聚類就是對給定的數(shù)據(jù)集進(jìn)行層次分解,直到滿足某種條件為止。(4)譜聚類譜聚類(SpectralClustering,SC)是一種基于圖論的聚類方法———將帶權(quán)無向圖劃分為兩個或兩個以上的最優(yōu)子圖,使子圖內(nèi)部盡量相似,而子圖間距離盡量較遠(yuǎn),以達(dá)到常見聚類1.3數(shù)據(jù)處理的主要方法的目的。第2章Matlab基礎(chǔ)2.1
Matlab簡介2.1
Matlab簡介2.1.1Matlab的特點1)Matlab是一個交互式軟件系統(tǒng),輸入一條命令,立即就可以得到該命令的結(jié)果。2)具有強(qiáng)大的數(shù)值計算功能。3)Matlab符號運算功能。4)Matlab繪圖功能。5)編程功能。6)豐富的APPS。7)源程序開放。2.1.2Matlab窗口簡介?命令窗口(CommandWindow)?歷史命令窗口(HistoryCommandWindow)2.1
Matlab簡介?編輯調(diào)試窗口(Edit/DebugWindow)?圖像窗口(FigureWindow)?工作空間(Workspace)?當(dāng)前目錄文件夾(CurrentFolder)?幫助窗口(HelpBrowser)?當(dāng)前路徑窗口(CurrentDirectoryBrowser)本節(jié)將簡單介紹其中幾個窗口的基本操作方式。2.1
Matlab簡介1.命令窗口(CommandWindow)2.1
Matlab簡介2.1
Matlab簡介2.歷史命令窗口(HistoryCommandWindow)3.編輯調(diào)試窗口(Edit/DebugWindow)2.1
Matlab簡介4.圖像窗口(FigureWindow)2.1
Matlab簡介5.工作空間(Workspace)2.1
Matlab簡介2.1
Matlab簡介6.當(dāng)前目錄文件夾(CurrentFolder)2.1
Matlab簡介2.2數(shù)組及其運算2.2.1變量和數(shù)組1.數(shù)值的記述2.變量命名規(guī)則1)變量名、函數(shù)名對字母大小寫是敏感的,如變量myvar和MyVar表示兩個不同的變量。2)變量名的第一個字符必須是英文字母,最多可包含63個字符(英文、數(shù)字和下連符),如myvar201是合法的變量名。3)變量名中不得包含空格、標(biāo)點、運算符,但可以包含下連符。4)盡量避免與預(yù)定義變量名相同。3.Matlab默認(rèn)的預(yù)定義變量2.2數(shù)組及其運算①如果用戶對表中任何一個預(yù)定義變量進(jìn)行賦值,則該變量的默認(rèn)值將被用戶新賦的值“臨時”覆蓋。②在遵循IEEE算法規(guī)則的機(jī)器上,被0除是允許的。2.2數(shù)組及其運算4.數(shù)組2.2數(shù)組及其運算5.數(shù)據(jù)類型2.2數(shù)組及其運算2.2.2變量的初始化1)用賦值語句初始化變量。2)用input函數(shù)從鍵盤輸入初始化變量。3)從文件讀取一個數(shù)據(jù)。1.用賦值語句初始化變量2.用捷徑表達(dá)式賦值3.用內(nèi)置函數(shù)來初始化2.2數(shù)組及其運算4.用關(guān)鍵字input初始化變量2.2.3多維數(shù)組1.多維數(shù)組在內(nèi)存中的存儲2.2數(shù)組及其運算2.用單個下標(biāo)訪問多標(biāo)數(shù)組2.2數(shù)組及其運算2.2.4子數(shù)組1.end函2.子數(shù)組在左邊的賦值語句的使用3.用一標(biāo)量來給子數(shù)組賦值4.子數(shù)組的刪除2.2.5單元陣列2.2數(shù)組及其運算2.2數(shù)組及其運算2.2.6顯示輸出數(shù)據(jù)1.改變默認(rèn)格式2.2數(shù)組及其運算2.disp函數(shù)3.用fprintf函數(shù)格式化輸出數(shù)據(jù)2.2.7數(shù)據(jù)文件2.2.8數(shù)組運算和矩陣運算2.2數(shù)組及其運算2.2數(shù)組及其運算2.2.9內(nèi)置函數(shù)1.常用內(nèi)置函數(shù)2.2數(shù)組及其運算2.其他內(nèi)置函數(shù)(1)randrand產(chǎn)生一個在(0,1)之間的均勻分布的數(shù)。(2)randnrandn產(chǎn)生一個服從N(0,1)正態(tài)分布的隨機(jī)數(shù)。(3)find找出非0元素,也可以查找指定條件的元素,并返回元素所在位置索引。1)示例1:2)示例2:2.2數(shù)組及其運算3)示例3:(4)sort[Y,1]=sort(x)返回索引矩陣I,如果x是一個向量,則Y=x(I)。(5)fprintf格式化數(shù)據(jù)輸出與C語言中的printf函數(shù)用法相似,常見的數(shù)值處理函數(shù)見表2-8。2.2數(shù)組及其運算2.3作圖入門2.3作圖入門2.3.1簡單的直角坐標(biāo)系作圖1.基本作圖操作2.3作圖入門2.3作圖入門2.3作圖入門2.聯(lián)合作圖2.3作圖入門2.3作圖入門2.3作圖入門2.3.2作圖的附加特性1.圖例2.3作圖入門2.3作圖入門2.控制坐標(biāo)軸范圍2.3作圖入門3.在同一坐標(biāo)系內(nèi)畫出多個圖像2.3作圖入門2.3作圖入門4.創(chuàng)建多個圖像窗口5.子窗口2.3作圖入門2.3作圖入門6.對畫線的增強(qiáng)控制2.3作圖入門2.3作圖入門7.極坐標(biāo)圖像2.4
Matlab程序設(shè)計2.4.1關(guān)系運算符和邏輯運算符1.關(guān)系運算符2.4
Matlab程序設(shè)計2.邏輯運算符2.4
Matlab程序設(shè)計3.邏輯函數(shù)2.4.2選擇結(jié)構(gòu)1.if結(jié)構(gòu)2.4
Matlab程序設(shè)計例2.1求一元二次方程的根。步驟1打開Script文件,在CommandWindow中輸入edit命令或按“Ctrl+N”組合鍵。步驟2在edit文件中輸入下述命令:步驟3保存Script文件。步驟4運行和調(diào)試Script文件。2.switch結(jié)構(gòu)例2.2編寫一個學(xué)生成績管理程序。3.try/catch結(jié)構(gòu)2.4
Matlab程序設(shè)計2.4.3循環(huán)結(jié)構(gòu)1.
while循環(huán)例2.3使用歐幾里得算法求兩個整數(shù)的最大公約數(shù),偽代碼如下:2.4
Matlab程序設(shè)計2.for循環(huán)1)在for循環(huán)開始時,Matlab產(chǎn)生了控制表達(dá)式。2)第一次進(jìn)入循環(huán),程序把循環(huán)控制表達(dá)式的第一列賦值于循環(huán)變量index,然后執(zhí)行循環(huán)體內(nèi)的語句。3)在循環(huán)體的語句被執(zhí)行后,程序把循環(huán)控制表達(dá)式的下一列賦值于循環(huán)變量index,程序?qū)⒃僖淮螆?zhí)行循環(huán)體語句。4)只要在循環(huán)控制表達(dá)式中還有剩余的列,步驟3)將會重復(fù)執(zhí)行。例2.4階乘(factorial)函數(shù)。例2.5輸入一系列的測量數(shù),計算它們的平均數(shù)和標(biāo)準(zhǔn)差。1)在2.2節(jié)已經(jīng)學(xué)過,用賦值的方法可以擴(kuò)展一個已知的數(shù)組。2)用for循環(huán)和向量計算是非常常見的。2.4
Matlab程序設(shè)計例2.6為了比較循環(huán)和向量算法執(zhí)行程序所用的時間,分別用這兩種方法編程,測試3個運算所花的時間。1)用for循環(huán)計算1~10000之間的每個整數(shù)的平方,而事先不初始化平方數(shù)組。2)用for循環(huán)計算1~10000之間的每個整數(shù)的平方,而事先初始化平方數(shù)組。3)用向量算法計算1~10000之間的每個整數(shù)的平方。3.break和continue語句例2.7for循環(huán)中的continue語句:2.4
Matlab程序設(shè)計4.循環(huán)嵌套例2.8用兩重for循環(huán)嵌套來計算。例2.9在for循環(huán)嵌套中包含break語句。2.5自定義函數(shù)(1)子程序的獨立檢測每個子程序都可以當(dāng)作一個獨立的單元來編寫。(2)代碼的可復(fù)用性在許多情況下,一個基本的子程序可應(yīng)用在程序的許多地方。(3)遠(yuǎn)離意外副作用函數(shù)通過輸入?yún)?shù)列表(inputargumentlist)從程序中讀取輸入值,通過輸出參數(shù)列表(outputargumentlist)給程序返回結(jié)果。例2.10自定義函數(shù)dist2,用于計算笛卡兒坐標(biāo)系中的點(x1,y1)與點(x2,y2)之間的距離。第3章隨機(jī)模擬3.1隨機(jī)數(shù)的生成1.模擬均勻分布隨機(jī)變量的函數(shù)2.模擬指數(shù)分布隨機(jī)變量的函數(shù)3.模擬正態(tài)分布隨機(jī)變量的函數(shù)3.2蒙特卡羅模擬3.2.1蒙特卡羅模擬估計面積3.2蒙特卡羅模擬3.2蒙特卡羅模擬3.2.2蒙特卡羅模擬尋求近似圓周率3.2蒙特卡羅模擬3.2.3蒙特卡羅模擬解決生日問題3.3隨機(jī)行為的模擬1.一枚正規(guī)硬幣2.一個不正規(guī)的骰子3.3隨機(jī)行為的模擬3.3隨機(jī)行為的模擬3.布朗運動3.4蒙特卡羅模擬應(yīng)用案例:理發(fā)店系統(tǒng)研究1.問題分析2.模型假設(shè)1)60%的顧客只需剪發(fā),40%的顧客既要剪發(fā)又要洗發(fā)。2)每個服務(wù)員剪發(fā)需要的時間為5min,既剪發(fā)又洗發(fā)則需要8min。3)顧客的到達(dá)間隔時間服從指數(shù)分布。4)服務(wù)過程中服務(wù)員不休息。3.變量說明4.模型建立5.系統(tǒng)模擬(1)狀態(tài)(變量)3.4蒙特卡羅模擬應(yīng)用案例:理發(fā)店系統(tǒng)研究1)等待服務(wù)的顧客數(shù)。2)A是否正在服務(wù)。3)B是否正在服務(wù)。(2)實體兩名服務(wù)員和多名顧客。(3)事件1)一名新顧客的到達(dá)2)A開始服務(wù)3)A結(jié)束服務(wù)4)B開始服務(wù)5)B結(jié)束服務(wù)(4)活動1)顧客排隊時間3.4蒙特卡羅模擬應(yīng)用案例:理發(fā)店系統(tǒng)研究2)顧客們到達(dá)的間隔時間3)A的服務(wù)時間4)B的服務(wù)時間6.系統(tǒng)模擬算法設(shè)計7.系統(tǒng)模擬程序第4章數(shù)據(jù)預(yù)處理4.1認(rèn)識數(shù)據(jù)4.1.1屬性4.1.2離散屬性和連續(xù)屬性4.2數(shù)據(jù)預(yù)處理概述1)數(shù)據(jù)清洗是通過填寫缺失的值、光滑噪聲數(shù)據(jù)、識別或刪除離群點,并解決不一致性等方式來“清洗”數(shù)據(jù)的。2)數(shù)據(jù)集成是把不同來源、格式、性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,以便更方便地進(jìn)行數(shù)據(jù)挖掘工作,數(shù)據(jù)集成通過數(shù)據(jù)交換而達(dá)到,主要解決數(shù)據(jù)的分布性和異構(gòu)性的問題。3)數(shù)據(jù)歸約就是得到數(shù)據(jù)集的簡化表示,雖然小得多,但能夠產(chǎn)生同樣的(或幾乎同樣的)分析結(jié)果。4.2數(shù)據(jù)預(yù)處理概述4)數(shù)據(jù)變換是將數(shù)據(jù)從一種表現(xiàn)形式變?yōu)榱硪环N表現(xiàn)形式的過程。4.2.1數(shù)據(jù)清洗1.缺失值處理(1)刪除法刪除法是對缺失值進(jìn)行處理的最原始方法,它將存在缺失值的記錄刪除。(2)插補法它的思想來源是以最可能的值來插補缺失值,比全部刪除不完全樣本所產(chǎn)生的信息丟失要少。1)均值插補。2)回歸插補。3)極大似然估計。2.噪聲過濾(1)回歸法回歸法是用函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù)的。4.2數(shù)據(jù)預(yù)處理概述(2)均值平滑法均值平滑法是指對于具有序列特征的變量用鄰近若干數(shù)據(jù)的均值來替換原始數(shù)據(jù)的方法,如圖4-3所示。(3)離群點分析法離群點分析法是通過聚類等方法來檢測離群點,并將其刪除,從而實現(xiàn)去噪的方法。4.2數(shù)據(jù)預(yù)處理概述(4)小波去噪法在數(shù)學(xué)上,小波去噪的本質(zhì)是一個函數(shù)逼近問題,即如何在由小波母函數(shù)伸縮和平移所展成的函數(shù)空間中,根據(jù)提出的衡量準(zhǔn)則,尋找對原信號的最佳逼近,以完成原信號和噪聲信號的區(qū)分。4.2.2數(shù)據(jù)集成4.2數(shù)據(jù)預(yù)處理概述4.2.3數(shù)據(jù)歸約1)屬性選擇是通過刪除不相關(guān)或冗余的屬性(或維)來減少數(shù)據(jù)量的。2)樣本選擇也就是數(shù)據(jù)抽樣。4.2.4數(shù)掘變換1.標(biāo)準(zhǔn)化2.離散化4.3
Matlab與Excel的數(shù)據(jù)交互4.3.1以交互方式導(dǎo)入數(shù)據(jù)1)Matlab工具條:在主頁選項卡中的變量部分,單擊導(dǎo)入數(shù)據(jù)。2)Matlab命令提示符:輸入“uiimport”,在彈出的窗口中選擇需要導(dǎo)入的數(shù)據(jù)文件,如圖4-5所示。4.3
Matlab與Excel的數(shù)據(jù)交互4.3.2炭取和寫入表1.用readtable讀取表格數(shù)據(jù)2.用writetable寫入表格數(shù)據(jù)4.3
Matlab與Excel的數(shù)據(jù)交互4.3.3大型文件和大型數(shù)據(jù)簡介4.3.4數(shù)據(jù)的清理、平滑和分組等1.清除表中的雜亂數(shù)據(jù)和缺失數(shù)據(jù)(1)加載樣本數(shù)據(jù)從一個逗號分隔的文本文件messy.csv加載樣本數(shù)據(jù)。(2)匯總表使用summary函數(shù)創(chuàng)建匯總表來查看每個變量的數(shù)據(jù)類型、說明、單位和其他描述性統(tǒng)計量。(3)查找具有缺失值的行顯示表T中至少含有一個具有缺失值的行子集。(4)替換缺失值指示符清除相應(yīng)數(shù)據(jù),將代碼-99所指示的缺失值替換標(biāo)準(zhǔn)的Matlab數(shù)值缺失值指示符NaN。(5)刪除具有缺失值的行創(chuàng)建一個新表T3,該表僅包含T中不帶缺失值的行。(6)組織數(shù)據(jù)先根據(jù)C列以降序?qū)3的行進(jìn)行排序,然后根據(jù)A列以升序排序。4.3
Matlab與Excel的數(shù)據(jù)交互2.數(shù)據(jù)平滑和離群值檢測(1)移動均值方法移動均值方法是分批處理數(shù)據(jù)的方法,通常是為了從統(tǒng)計角度表示數(shù)據(jù)中的相鄰點。4.3
Matlab與Excel的數(shù)據(jù)交互4.3
Matlab與Excel的數(shù)據(jù)交互4.3
Matlab與Excel的數(shù)據(jù)交互4.3
Matlab與Excel的數(shù)據(jù)交互4.3
Matlab與Excel的數(shù)據(jù)交互(2)其他的平滑方法1)smoothdata函數(shù)提供幾種平滑選項,如Savitzky-Golay方法,這是一種常用的信號處理平滑技術(shù)。2)穩(wěn)健的Lowess方法是另一種平滑方法,尤其適用于同時包含噪聲和離群值的數(shù)據(jù)。(3)檢測離群值數(shù)據(jù)中的離群值可能使數(shù)據(jù)處理結(jié)果和其他計算量嚴(yán)重失真。4.3
Matlab與Excel的數(shù)據(jù)交互4.3
Matlab與Excel的數(shù)據(jù)交互4.3
Matlab與Excel的數(shù)據(jù)交互4.3
Matlab與Excel的數(shù)據(jù)交互(4)非均勻數(shù)據(jù)并非所有數(shù)據(jù)都由等間隔的點組成,這會影響數(shù)據(jù)處理的方法。4.3
Matlab與Excel的數(shù)據(jù)交互4.3
Matlab與Excel的數(shù)據(jù)交互4.3
Matlab與Excel的數(shù)據(jù)交互3.拆分?jǐn)?shù)據(jù)變量及應(yīng)用(1)加載電力中斷數(shù)據(jù)示例文件outages.csv包含表示美國電力中斷的數(shù)據(jù)。(2)計算最大電力損失確定每個地區(qū)因電力中斷而造成的最大電力損失。(3)計算受影響客戶的數(shù)量確定不同原因和地區(qū)的電力中斷對客戶的影響。(4)計算電力中斷的平均持續(xù)時間確定美國的所有電力中斷的平均持續(xù)時間(以小時為單位)。第5章數(shù)據(jù)探索與分析5.1數(shù)據(jù)的特征統(tǒng)計量5.1.1中心度量趨勢:均值、中位數(shù)、眾數(shù)5.1.2常用的變異程度度量1.極差2.方差3.標(biāo)準(zhǔn)差4.標(biāo)準(zhǔn)差系數(shù)5.四分位數(shù)間距5.1數(shù)據(jù)的特征統(tǒng)計量6.百分位數(shù)5.1.3分布形態(tài)5.2基本統(tǒng)計描述的可視化5.2.1分類型數(shù)據(jù)頻數(shù)分布及其可視化例5.1表5-1是X公司員工收入基本狀況調(diào)查表,用此表數(shù)據(jù)來說明對于分類型數(shù)據(jù)的頻數(shù)統(tǒng)計及其數(shù)據(jù)可視化。5.2基本統(tǒng)計描述的可視化例5.2使用Matlab數(shù)據(jù)統(tǒng)計信息。(1)打開“數(shù)據(jù)統(tǒng)計信息對話框”“數(shù)據(jù)統(tǒng)計信息”對話框可幫助您計算和繪制數(shù)據(jù)的描述性統(tǒng)計量。5.2基本統(tǒng)計描述的可視化5.2基本統(tǒng)計描述的可視化5.2基本統(tǒng)計描述的可視化(2)設(shè)置繪圖上數(shù)據(jù)統(tǒng)計量的格式“數(shù)據(jù)統(tǒng)計信息”對話框使用顏色和線型將統(tǒng)計量與繪圖上的數(shù)據(jù)區(qū)分開來。1)在Matlab窗口中,單擊工具欄中的(編輯繪圖)按鈕。2)雙擊要編輯其顯示屬性的繪圖上的統(tǒng)計量,例如,雙擊表示Station2均值的水平線。(3)將統(tǒng)計量保存到Matlab工作區(qū)執(zhí)行下列步驟可將統(tǒng)計量保存到Matlab工作區(qū)。5.2基本統(tǒng)計描述的可視化(4)查看新結(jié)構(gòu)體變量可輸入變量名稱:5.2基本統(tǒng)計描述的可視化(5)生成代碼文件示例的此部分顯示如何從圖形生成Matlab代碼文件,再將代碼應(yīng)用至新數(shù)據(jù)以重新生成相同格式的繪圖和統(tǒng)計量。5.2.2直方圖1.histogram函數(shù)繪制直方圖5.2基本統(tǒng)計描述的可視化例5.3創(chuàng)建直方圖。1)生成10000個隨機(jī)數(shù)并創(chuàng)建直方圖。2)對分類為25個等距離散化的10000個隨機(jī)數(shù)繪制直方圖,如圖5-13所示。5.2基本統(tǒng)計描述的可視化3)生1000個隨機(jī)數(shù)并創(chuàng)建直方圖。5.2基本統(tǒng)計描述的可視化2.確定基本概率分布1)生成5000個均值5、標(biāo)準(zhǔn)差力2的正態(tài)分布隨機(jī)數(shù)。2)對于均值為5、標(biāo)準(zhǔn)差為2的正態(tài)分布,疊加一個概率密度函數(shù)圖,如圖5-17所示。5.2基本統(tǒng)計描述的可視化例5.4對分類數(shù)據(jù)進(jìn)行繪圖。1)工作區(qū)變量Location是一個字符向量單元數(shù)組,它包含患者就醫(yī)的3個唯一醫(yī)療機(jī)構(gòu)。2)工作區(qū)變量。3)繪制直方圖。4)僅為健康狀況評估為Fair或Poor的患者繪制醫(yī)院位置直方圖,如圖5-19所示。5.2基本統(tǒng)計描述的可視化5)創(chuàng)建餅圖。5.2基本統(tǒng)計描述的可視化6)創(chuàng)建帕累托圖。5.2基本統(tǒng)計描述的可視化7)創(chuàng)建散點圖。5.2.3分位數(shù)圖和經(jīng)驗累計分布函數(shù)5.2基本統(tǒng)計描述的可視化5.2.4分位數(shù)-分位數(shù)圖——q-q圖5.2基本統(tǒng)計描述的可視化5.2基本統(tǒng)計描述的可視化5.2.5箱形圖1)最小值。2)第一個四分位數(shù)(Q1)。3)中位數(shù)(Q2)。4)第三個四分位數(shù)(Q3)。5)最大值。例5.5對于下述這組數(shù)據(jù):331033353450348034803490352035403550
36503730
3925,作出箱形圖。1)畫箱形圖時,把第和第三四分位數(shù)作力箱體的邊緣,Q1=3465,Q3=3600。2)在中位數(shù)(3505)位置與箱體內(nèi)畫一條垂線,因此中位數(shù)線就把數(shù)據(jù)平分為兩部分。3)通過使用四分位數(shù)間距IQR=Q3-Q1,定好界限的位置。5.2基本統(tǒng)計描述的可視化4)圖5-25中的虛線被稱觸須線(Whisker)。5)最后,每個異常值的位置用符號*表示在圖5-25中,看到了一個異常值3925。箱形圖的作用有以下幾個。1)箱形圖非常直觀地反映了樣本數(shù)據(jù)的分散程度以及總體分布的對稱性和尾重。2)利用箱形圖可以直觀地識別樣本數(shù)據(jù)中的異常值。3)可比較幾組數(shù)據(jù)的形狀。5.2基本統(tǒng)計描述的可視化5.2基本統(tǒng)計描述的可視化例5.6繪制均勻分布隨機(jī)樣本與指數(shù)分布隨機(jī)樣本的箱形圖(見圖5-26)。5.2基本統(tǒng)計描述的可視化例5.7繪制服從標(biāo)準(zhǔn)正態(tài)分布隨機(jī)數(shù)箱形圖(見圖5-27)。5.2基本統(tǒng)計描述的可視化5.2.6散點圖5.2基本統(tǒng)計描述的可視化5.2基本統(tǒng)計描述的可視化5.3度量數(shù)據(jù)的相似性和相異性5.3.1數(shù)據(jù)矩陣、相異性矩陣、相似性矩陣1)數(shù)據(jù)矩陣。2)相異性矩陣。3)相似性矩陣。5.3度量數(shù)據(jù)的相似性和相異性5.3.2數(shù)值屬性的相似性:相關(guān)系數(shù)1.協(xié)方差5.3度量數(shù)據(jù)的相似性和相異性5.3度量數(shù)據(jù)的相似性和相異性5.3度量數(shù)據(jù)的相似性和相異性2.相關(guān)系數(shù)3.散點圖矩陣5.3度量數(shù)據(jù)的相似性和相異性5.3度量數(shù)據(jù)的相似性和相異性5.3.3數(shù)值屬性的相異性:距離1.歐幾里得距離(EuclideanDistance)2.曼哈頓距離(ManhattanDistance)5.4數(shù)據(jù)降維——主成分分析1.基本思想5.4數(shù)據(jù)降維——主成分分析2.主成分分析的計算步驟第一步,對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,即z分?jǐn)?shù)規(guī)范化。第二步,計算樣本相關(guān)系數(shù)矩陣,即第三步,計算相關(guān)系數(shù)矩陣R的特征值(??1,??2,?,??p)和相應(yīng)的特征向量??i=[??i1,??i2
,?,??ip](i=1,2,?,P)。5.4數(shù)據(jù)降維——主成分分析第四步,選擇重要的主成分,并寫出主成分表達(dá)式。第五步,計算主成分得分。3.PCA算法的Matlab實現(xiàn)5.4數(shù)據(jù)降維——主成分分析4.案例分析5.4數(shù)據(jù)降維——主成分分析5.4數(shù)據(jù)降維——主成分分析第一步,繪制箱形圖。第二步,使用主成分分析首先要求原來特征相關(guān)性比較密切。有以下兩種方式。5.4數(shù)據(jù)降維——主成分分析①制作散點圖矩陣(見圖5-38)。②計算相關(guān)系數(shù)。第三步,進(jìn)行主成分分析,最好是先將觀察數(shù)據(jù)標(biāo)準(zhǔn)化,再作主成分分析;或者作加權(quán)主成分分析。5.4數(shù)據(jù)降維——主成分分析第四步,選擇主成分,有兩種方式。5.4數(shù)據(jù)降維——主成分分析第五步,解釋主成分。5.4數(shù)據(jù)降維——主成分分析5.4數(shù)據(jù)降維——主成分分析第六步,模型應(yīng)用。第6章多元線性回歸模型1)收集一組包含因變量和白變量的數(shù)據(jù)。2)選定因變量與白變量之間的模型,即一個數(shù)學(xué)式子,利用數(shù)據(jù)按照最小二乘準(zhǔn)則計算模型中的參數(shù)。3)利用統(tǒng)計分析方法對不同的模型進(jìn)行比較,找出與數(shù)據(jù)擬合得最好的模型。4)判斷得到的模型是否適合于這組數(shù)據(jù)。5)利用模型對因變量作出預(yù)測或解釋。常見的回歸算法如下。(1)OLS線性回歸1)工作原理:線性回歸是一項統(tǒng)計建模技術(shù),用來描述作為一個或多個預(yù)測自變量的線性函數(shù)的連續(xù)因變量。2)最佳使用時機(jī):當(dāng)需要易于解釋和快速擬合算法時,線性回歸可作為評估其他更復(fù)雜回歸模型的基準(zhǔn)。(2)非線性回歸1)工作原理:非線性回歸是一種有助于描述試驗數(shù)據(jù)中非線性關(guān)系的統(tǒng)計建模技術(shù)。2)最佳使用時機(jī):當(dāng)數(shù)據(jù)有很強(qiáng)的非線性趨勢,不容易轉(zhuǎn)化成線性空間時,可適用于自定義模型與數(shù)據(jù)擬合。(3)高斯過程回歸1)工作原理:高斯過程回歸(GPR)模型是非參數(shù)模型,用于預(yù)測連續(xù)因變量的值。2)最佳使用時機(jī):適用于對空間數(shù)據(jù)插值,如針對地下水分布的水文地質(zhì)學(xué)數(shù)據(jù)、作為有助于優(yōu)化汽車發(fā)動機(jī)等復(fù)雜設(shè)計的替代模型。(4)SVM回歸1)工作原理:SVM回歸算法類似于SVM分類算法,但經(jīng)過改良,能夠預(yù)測連續(xù)響應(yīng)。2)最佳使用時機(jī):適用于高維數(shù)據(jù)(將會有大量的預(yù)測自變量)。(5)廣叉線性模型1)工作原理:廣義線性模型是使用線性方法的非線性模型的一種特殊情況。2)最佳使用時機(jī):當(dāng)因變量有非正態(tài)分布時,如始終預(yù)期為正值的因變量。(6)回歸決策樹1)工作原理:回歸決策樹類似于分類決策樹,但經(jīng)過改良能夠預(yù)測連續(xù)響應(yīng),如圖6-6所示。應(yīng)用案例預(yù)測能量負(fù)荷1)改進(jìn)模型。2)特征選擇。3)特征變換。4)訓(xùn)練模型。5)超參數(shù)調(diào)優(yōu)。6.1概述6.1概述(1)擬合系數(shù)R2其定義為(2)模型的假定關(guān)于多元回歸模型y=??0+??0x1+??2x2+?+??mxm+??
中誤差項??的假定要注意以下兒點:1)誤差項??是一個隨機(jī)變量,其均值或者期望值力0,即E(??)=0。2)對于所有的白變量x1,x2,…,xm的值,??的方差多是相同的。3)??的值是互相獨立的。4)誤差項??是一個服從隨機(jī)正態(tài)分布的隨機(jī)變量,它反映了y值和由??0+??0x1+??2x2+?+??mxm給出的期望值之間的離差。(3)顯著性檢驗1)F檢驗6.1概述2)t檢驗。(4)多重共線性在回歸分析中使用自變量來表示用于預(yù)測或解釋因變量的任何變量,但是這個術(shù)語并不意味著自變量本身在統(tǒng)計意義上是獨立的。(5)利用回歸模型進(jìn)行預(yù)測利用回歸方程=??0+??0x1+??2x2+?+??mxm,給出一組具體的自變量的值,能得到對應(yīng)的預(yù)測值的點估計。6.2一元曲線擬合6.2.1案例1—百貨商場銷售額步驟1準(zhǔn)備數(shù)據(jù),在命令窗口中輸入以下代碼:步驟2打開“CurveFitting”APP。步驟3在CurveFiting界面選擇對應(yīng)的數(shù)據(jù),在“Xdata”下拉列表框中選擇“x”,在“Ydata”下拉列表框中選擇“y”,如圖6-10所示。步驟4通過從“Degree”下拉列表框中選擇“2”,可將擬合更改為二次多項式。步驟5修改“Fitname”為“poly2”。步驟6展示殘差圖,可選擇“View—ResidualsPlot”菜單命令,用殘差表示這一商業(yè)活動效果更佳。6.2一元曲線擬合步驟7添加新擬合以嘗試其他庫方程式。6.2一元曲線擬合6.2一元曲線擬合6.2一元曲線擬合6.2一元曲線擬合步驟8以同樣方法添加新擬合,在圖6-12所示的圓圈標(biāo)記處單擊下拉箭頭。6.2一元曲線擬合步驟9以同樣的方法創(chuàng)建冪函數(shù)(power)擬合,如圖6-14所示。6.2一元曲線擬合6.2.2確定最優(yōu)擬合6.2.3導(dǎo)出模型到工作空間6.2一元曲線擬合6.2一元曲線擬合6.3多元線性回歸模型6.3.1案例2——牙膏的銷售量6.3多元線性回歸模型6.3多元線性回歸模型1.分析與假設(shè)2.基本模型的建立與求解(1)基本模型的建立了大致分析y與x1和x2的關(guān)系,首先利用表6-1中的數(shù)據(jù)分別作出y對x1和x2的散點圖(見圖6-19)。6.3多元線性回歸模型(2)基本模型求解直接使用Matla中的fitlm求解,代碼保存在ex7_2中,代碼如下:6.3多元線性回歸模型6.3多元線性回歸模型6.3多元線性回歸模型3.基本模型的改進(jìn)6.3多元線性回歸模型6.3.2案例3——白變量含有分類變量的處理1.問題分析6.3多元線性回歸模型2.模型的建立與求解3.殘差圖分析4.考慮自變量的交互影響6.3多元線性回歸模型6.4逐步回歸模型案例4Matlab中的had.mat數(shù)據(jù)集是(Hald,1960)關(guān)于水泥生產(chǎn)的數(shù)據(jù)。6.4逐步回歸模型第7章聚類分析7.1
簡介7.1.1聚類分析的類型1.按分類對象不同進(jìn)行聚類7.1
簡介(1)R型聚類分析的主要作用1)不但可以了解個別變量之間的親疏程度,而且可以了解各個變量組合之間的親疏程度。2)根據(jù)變量的分類結(jié)果以及它們之間的關(guān)系,可以選擇主要變量進(jìn)行Q型聚類分析或回歸分析(R2選擇標(biāo)準(zhǔn))。(2)Q型聚類分析的主要作用1)可以綜合利用多個變量的信息對樣本進(jìn)行分析。2)分類結(jié)果直觀,聚類譜系圖清楚地表現(xiàn)數(shù)值分類的結(jié)果。3)聚類分析所得到的結(jié)果比傳統(tǒng)分類方法更細(xì)致、全面、合理。2.按分類對象的劃分進(jìn)行聚類1)使用自我組織的特征圖或?qū)哟尉垲悾檎覕?shù)據(jù)中可能的結(jié)構(gòu)。2)使用聚類評估,查找給定聚類算法的“最佳”組數(shù)。7.1
簡介3.Matlab中常見的硬聚類算法(1)k均值(kMeans)聚類算法1)原理。2)最佳使用時機(jī)。(2)k中心(kMedoids)聚類算法1)原理。2)最佳使用時機(jī)。7.1
簡介(3)層次聚類算法1)原理。2)最佳使用時機(jī)。(4)自組織映射聚類算法1)原理。2)最佳使用時機(jī)。7.1
簡介4.Matlab中常見的軟聚類算法(1)模糊c均值聚類算法1)原理。2)最佳使用時機(jī)。(2)高斯混合模型聚類算法1)原理。2)最佳使用時機(jī)。7.1
簡介7.1.2聚類分析的依據(jù)1.距離7.1
簡介7.1
簡介2.夾角余弦3.相關(guān)系數(shù)7.2譜系聚類1.譜系聚類法基本思想1)聚類開始時將n個樣品(或p個變量)各自作為一類,并規(guī)定樣品之間的距離和類與類之間的距離。2)將距離最近的兩類合并成一個新類。3)計算新類與其他類之間的距離,重復(fù)進(jìn)行兩個最近類的合并,每次減少一類,直至所有的樣品(或p個變量)合并成一類。2.譜系聚類法基本步驟1)選擇樣本間距離及類間距離。2)計算n個樣本兩兩之間的距離,得到距離矩陣。3)構(gòu)造各類,每個類暫時只含有一個樣本。4)合并符合類間距離定義要求的兩類力一個新類。7.2譜系聚類7.2譜系聚類5)計算新類與當(dāng)前各類的距離。6)畫出譜系聚類圖。7)作出結(jié)論,決定類的個數(shù)和類。3.Matlab中譜系聚類法的主要方法(1)pdist方法pdist方法的主要作用是計算構(gòu)成樣品對的樣品之間的距離,調(diào)用格式如下:1)y=pdist(x)。2)y=pdist(x,metric)。7.2譜系聚類7.2譜系聚類(2)squareform方法squareform方法用來將pdist函數(shù)輸出的距離轉(zhuǎn)化為距離矩陣,也可將距離矩陣轉(zhuǎn)化為距離向量。1)z=squareform(y):將pdist函數(shù)輸出的距離向量轉(zhuǎn)化力距離矩陣。2)y=squareform(z):將距離矩陣轉(zhuǎn)化為距離向量。(3)linkage方法linkage函數(shù)用來創(chuàng)建系統(tǒng)聚類樹,調(diào)用格式如下:1)z=linkage(y):創(chuàng)建系統(tǒng)聚類樹,1是樣品對的距離向量,一般是pdist方法的輸出結(jié)果。2)z=linkage(y,method):利用method參數(shù)指定的方法創(chuàng)建系統(tǒng)聚類樹,method是字符串,可用字符串見表7-2。7.2譜系聚類(4)dendrogram方法dendrogram方法用于創(chuàng)建聚類樹形圖,調(diào)用格式為:(5)inconsistent函數(shù)inconsistent函數(shù)用來計算譜系聚類樹矩陣Z中每次并類得到的鏈接的不一致系數(shù),調(diào)用格式力:7.2譜系聚類(6)clusterdata方法clusterdata函數(shù)調(diào)用了pdist、linkage和cluster函數(shù),用來由原始樣本數(shù)據(jù)矩陣X創(chuàng)建系統(tǒng)聚類。例7.1設(shè)有5個樣品,分別表示北京、上海、安徽、陜西和新疆,每個樣品只測試了一個指標(biāo),指標(biāo)值分別為1、2、6、8、11,若樣品間采用絕對值距離,下面用最短距離法對這5個樣品進(jìn)行聚類。解:計算過程如下。1)計算距離矩陣,代碼如下,結(jié)果如圖7-9所示。7.2譜系聚類7.2譜系聚類2)分步聚類,繪制聚類樹形圖,代碼如下,結(jié)果如圖7-10所示。7.2譜系聚類例7.2(樣品聚類綜合案例)圖7-11所示2007年我國31個省、白治區(qū)、直轄市的城鎮(zhèn)居民家庭平均每人年消費性支出的8個主要數(shù)據(jù)變量,利用譜系聚類法,對各地區(qū)進(jìn)行聚類分析。7.2譜系聚類解:計算過程如下。1)讀取數(shù)據(jù),并進(jìn)行標(biāo)準(zhǔn)化:2)調(diào)用clusterdata函數(shù)進(jìn)行一步聚類:7.2譜系聚類3)分步聚類:4)作出聚類樹形圖,如圖7-12所示。5)確定分類個數(shù)。7.2譜系聚類7.2譜系聚類例7.3(變量聚類綜合案例)在全國服裝標(biāo)準(zhǔn)制定中,對某地區(qū)成年女子的14個部位尺寸(體型尺寸)進(jìn)行了測量,根據(jù)測量數(shù)據(jù)計算得到14個部位尺寸之間的相關(guān)系數(shù)矩陣,試對14個部位進(jìn)行聚類分析。7.2譜系聚類解:計算過程如下。1)讀取數(shù)據(jù)。2)把數(shù)據(jù)轉(zhuǎn)為距離向量,設(shè)xi和xj的相關(guān)系數(shù)為pij,定義它們之間的距離為3)調(diào)用linkage函數(shù)創(chuàng)建系統(tǒng)聚類樹。7.2譜系聚類4)繪制聚類樹形圖,作出的聚類樹形圖如圖7-14所示。7.3
k均值聚類7.3.1k均值聚類概述7.3
k均值聚類7.3
k均值聚類1)從數(shù)據(jù)集中隨機(jī)取k個元素,作次k個簇各自的中心。2)分別計算剩下的元素到h個簇中心的相異度,將這些元素分別劃歸到相異度最低的簇。3)根據(jù)聚類結(jié)果,重新計算個簇各自的中心,計算方法是取簇中所有元素各自維度的算術(shù)平均數(shù)。4)將數(shù)據(jù)集中全部元素按照新的中心重新聚類。5)重復(fù)第4)步,直到聚類結(jié)果不再變化。6)將結(jié)果輸出。7.3
k均值聚類7.3
k均值聚類7.3
k均值聚類7.3.2k均值聚類算法的Matlab函數(shù)1.kmeans函數(shù)(1)idx=kmeans(X,k)將n個觀測點分為k個類,輸入?yún)?shù)X為n×p的矩陣,矩陣的每行對應(yīng)一個點,每列對應(yīng)一個變量。(2)[idx,C]=kmeans(X,k)返回個類的類重心坐標(biāo)矩陣,C是一個k×p的矩陣,第i行元素第i類的類重心坐標(biāo)。(3)[idx,C,sumd」=kmeans(X,k)返回類內(nèi)距離和(即類內(nèi)各點與類重心距離之和)向量sumd,C是一個1xk的矩陣,第i行元素第i類的類內(nèi)距離之和。(4)[idx,C,sumd,D]=kmeans(X,k)返回每個點與每個類重心之間距離矩陣D,D是一個n×k的矩陣,第i行第j列元素第i個點第j類重心之間的距離。(5)[…]=kmeans(X,k,參數(shù)1,值1,參數(shù)2,值2)允許用戶設(shè)置更多的參數(shù)及參數(shù)值,用來7.3
k均值聚類2.silhouette函數(shù)(1)silhouette(X,idx)根據(jù)樣本X和聚類結(jié)果idx繪制輪廓圖。(2)s=silhouette(X,idx)返回輪廓向量s,元素對應(yīng)點的輪廓值。(3)[S,H]=
silhouette(X,idx)返回輪廓向量S和繪圖句柄H。(4)[S,H]=silhouette(X,idx,metric)
metric用來指定距離計算的方法,如'Euclidean'。7.3
k均值聚類例7.5在20世紀(jì)20年代,植物學(xué)家Fisher收集了150個inis標(biāo)本的萼片長度、萼片寬度、花瓣長度和花瓣寬度的測量值,其中50個來自3個物種中的每一個。解:計算過程如下。1)準(zhǔn)備模型:7.3
k均值聚類2)為了更好地理解聚類,首先以花瓣長度和花瓣寬度繪制散點圖,如圖7-24所示。7.3
k均值聚類控制kmeans函數(shù)所用的迭代算法,可用的參數(shù)名和參數(shù)值讀者可以在Matlab的命令窗口運行helpkmeans來學(xué)習(xí)。例7.4針對例7-1的數(shù)據(jù),利用kmeans函數(shù)進(jìn)行k均值聚類算法,代碼和結(jié)果如下:7.3
k均值聚類3)下面調(diào)用kmeans函數(shù)將數(shù)據(jù)集區(qū)分為三類,并繪制聚類輪廓圖。7.3
k均值聚類7.3
k均值聚類7.3
k均值聚類7.3.3k均值聚類算法的特點1)在k均值聚類算法中的k是事先給定的,這個k值的選定是非常難以估計的。2)在k均值聚類算法中,首先需要根據(jù)初始聚類中心來確定一個初始劃分,然后對初始劃分進(jìn)行優(yōu)化。3)k均值聚類算法需要不斷地進(jìn)行樣本分類調(diào)整,不斷地計算調(diào)整后新的聚類中心,因此當(dāng)數(shù)據(jù)量非常大時,算法的時間開銷也非常大。4)k均值聚類算法對一些離散點和初始k值敏感,不同的距離初始值對同樣的數(shù)據(jù)樣本可能得到不同的結(jié)果。7.3
k均值聚類7.3.4k均值聚類算法綜合應(yīng)用例7.6examp:3.xls表列出了43↑國家和地區(qū)3年(1990年、2000年、2006年)的嬰兒死亡率和出生時預(yù)期壽命數(shù)據(jù)。7.3
k均值聚類解:計算過程如下。1)讀取數(shù)據(jù):2)進(jìn)行標(biāo)準(zhǔn)化變換:3)選取初始凝聚點進(jìn)行聚類:7.3
k均值聚類4)繪制輪廓圖:7.3
k均值聚類5)查看聚類結(jié)果:7.4層次聚類7.4.1概述1)如何計算兩個點的距離?2)如何計算兩個類別之間的距離?①最鄰近距離(SingleLinkage),就是取兩個集合中距離最近的兩個點的距離作力這兩個集合的距離,容易造成一種叫做鏈接的效果,兩個聚類明明從“大局”上離得比較遠(yuǎn),但是由于其中個別的點距離比較近就被合并了,并且這樣合并之后鏈接效應(yīng)會進(jìn)一步擴(kuò)大,最后會得到比較松散的聚類。②CompleteLinkage。③GroupAverage。1)待分割的聚類記G,在G中取出一個到其他點的平均距離最遠(yuǎn)的點x,構(gòu)成新聚類H。2)在G中選取這樣的點x',使得x'到G中其他點的平均距離減去x'到H中所有點的平均距離這個差值最大,將其歸入H中。7.4層次聚類3)重復(fù)上一個步驟,直到差值為負(fù)。7.4.2層次聚類算法的Matlab實現(xiàn)例7.7這里仍然以上面的iris數(shù)據(jù)集來實現(xiàn)層次聚類。7.4層次聚類7.4層次聚類7.4.3層次聚類算法的特點1)在凝聚層次聚類算法和分裂層次聚類算法中,都需要用戶提供所希望得到的聚類的單個數(shù)量和閾值作為聚類分析的終止條件,但對于復(fù)雜的數(shù)據(jù)來說這是很難事先判定的。2)由于層次聚類算法要使用距離矩陣,所以它的時間和空間復(fù)雜度都很高,幾乎不能在大數(shù)據(jù)集上使用。7.5高斯混合模型聚類7.5.1簡介1)估計數(shù)據(jù)由每個Component生成的概率(并不是每個Component被選中的概率)。2)估計每個Component的參數(shù)。3)重復(fù)迭代前面兩步,直到似然函數(shù)的值收斂力止。7.5高斯混合模型聚類7.5.2高斯混合模型聚類算法的Matlab實現(xiàn)例7.8在Matlab中可以利用函數(shù)gmdistribution.fit來實現(xiàn)聚類。第8章分類8.1分類算法簡介8.1.1邏輯回歸分類算法1)y是一個定量的變量,這時就用通常的regress函數(shù)對y進(jìn)行回歸。2)y是一個定性的變量,如y=0或1,這時就不能用常規(guī)的regress函數(shù)對y進(jìn)行回歸,而要使用邏輯回歸(LogisticRegression)。1.工作原理2.最佳使用時機(jī)8.1分類算法簡介8.1.2K近鄰分類算法1.エ作原理2.最佳使用時機(jī)3.K近鄰分類算法的具體步驟1)初始化距離為最大值。2)計算未知樣本和每個訓(xùn)練樣本的距離dist。3)得到目前K個最鄰近樣本中的最大距離maxdist。4)如果dist<maxdist,則將訓(xùn)練樣本作為k最近鄰樣本。5)重復(fù)步驟2)~4),直到來知樣本和所有訓(xùn)練樣本的距離都算完。6)統(tǒng)計k個最近鄰樣本中每個類別出現(xiàn)的次數(shù)。7)選擇出現(xiàn)頻率最大的類別作未知類別出現(xiàn)的次數(shù)。8.1分類算法簡介8.1.3支持向量機(jī)分類算法1.工作原理2.最佳使用時機(jī)8.1分類算法簡介8.1.4人工神經(jīng)網(wǎng)絡(luò)分類算法1.工作原理2.最佳使用時機(jī)8.1分類算法簡介8.1.5樸素貝葉斯分類算法1.工作原理2.最佳使用時機(jī)8.1分類算法簡介8.1.6判別分析分類算法1.工作原理2.最佳使用時機(jī)8.1分類算法簡介8.1.7決策樹分類算法1.工作原理2.最佳使用時機(jī)8.1分類算法簡介8.1.8集成學(xué)習(xí)分類算法1)Bagging的訓(xùn)練集是隨機(jī)的,各訓(xùn)練集是獨立的;而Boosting訓(xùn)練集的選擇不是獨立的,每次選擇的訓(xùn)練集都依賴于上一次學(xué)習(xí)的結(jié)果。2)Bagging的每個預(yù)測函數(shù)都沒有權(quán)重;而Boosting根據(jù)每次訓(xùn)練的誤差得到該次預(yù)測函數(shù)的權(quán)重。3)Bagging的各個預(yù)測函數(shù)可以并行生成;而Boosting只能順序生成。1.工作原理2.最佳使用時機(jī)8.2分類的評判8.2.1評判指標(biāo)1)TruePositive(TP):指模型預(yù)測為正(1)的,并且實際上也的確是正(1)的觀察對象的數(shù)量。2)TrueNegative(TN):指模型預(yù)測為負(fù)(0)的,并且實際上也的確是負(fù)(0)的觀察對象的數(shù)量。3)FalsePositive(FP):指模型預(yù)測為正(1)的,并且實際上是負(fù)(0)的觀察對象的數(shù)量。4)FalseNegative(FN):指模型預(yù)測為負(fù)(0)的,并且實際上是正(1)的觀察對象的數(shù)量。8.2分類的評判(1)AccuracyRate(正確率)模型總體正確率,是指模型能正確預(yù)測、識別1和0的對象數(shù)量與預(yù)測對象總數(shù)的比值,公式為(2)Errorrate(錯誤率)模型總體的錯誤率,是指模型錯誤預(yù)測、錯誤識別1和0觀察對象與預(yù)測對象總數(shù)的比值,也即是1減去正確率,公式為(3)Sensitivity(靈敏性)又稱擊中率或真陽率,模型正確識別為正(1)的對象占全部觀察對象中實際為正(1)的對象數(shù)量的比值,公式為8.2分類的評判(4)Specificity(特效性)又稱為真負(fù)率,模型正確識別為負(fù)(0)的對象占全部觀察對象中實際負(fù)(0)的對象數(shù)量的比值,公式為(5)Precision(精度)模型的精度是指模型正確識別正(1)的對象占模型識別正(1)的對象數(shù)量的比值,公式為(6)FalsePositiveRate(錯正率)又稱假陽率,模型錯誤識別為正(1)的對象占實際為負(fù)(0)的對象數(shù)量的比值,即1減去真負(fù)率,公式為8.2分類的評判(7)NegativePredictiveValue(負(fù)元正確率)模型正確識別力負(fù)(0)的對象占模型識別為負(fù)(0)的觀察對象總數(shù)的比值,公式為(8)FalseDiscoveryValue(正元錯誤率)模型錯誤識別正(1)的對象占模型識別正(1)的觀察對象總數(shù)的比值,公式為8.2分類的評判8.2.2ROC曲線和AUC8.3判別分析分類的具體應(yīng)用8.3.1判別分析的定義、特點和類型1.定義2.特點3.判別分析類型(1)距離判別首先根據(jù)已知分類的數(shù)據(jù),分別計算各類的重心,計算新個體到每類的距離,確定最短的距離(歐幾里得距離、馬哈拉諾比斯距離)。(2)Fisher判別利用已知類別個體的指標(biāo)構(gòu)造判別式(同類差別較小、不同類差別較大),按照判別式的值判斷新個體的類別。(3)貝葉斯判別(Bayes判別)計算新樣品屬于各總體的條件概率,比較概率的大小,然后將新樣品判歸次來自概率最大的總體。8.3判別分析分類的具體應(yīng)用8.3.2距離判別1.直接使用馬哈拉諾比斯距離實現(xiàn)距離判別1)計算A、B兩類的均值向量與協(xié)方差陣,即2)計算總體的協(xié)方差矩陣,即3)計算未知樣本x到A、B兩類馬哈拉諾比斯平方距離之差4)作出結(jié)論:若d<0,則x屬于A類;若d>0,則x屬于B類。8.3判別分析分類的具體應(yīng)用例8.1(1989年國際數(shù)學(xué)競賽A題)蠓的分類。解:根據(jù)上述計算過程,Matlab代碼如下:1)計算A、B兩類的均值向量與協(xié)方差陣力8.3判別分析分類的具體應(yīng)用2)計算總體的協(xié)方差矩陣,即3)計算未知樣本×到A、B兩類馬哈拉諾比斯距離之差,即4)若d<0,則x屬于A類;若d>0,則x屬于B類。2.使用Matlab統(tǒng)計工具箱的函數(shù)實現(xiàn)距離判別1)class=classify(sample,training,group)2)class=classify(samp
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 西寧城市職業(yè)技術(shù)學(xué)院《民航服務(wù)英語(二)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年江蘇南通市海門市東布洲科技園集團(tuán)有限公司招聘筆試參考題庫附帶答案詳解
- 2025年河南平頂山市郟縣國有資本運營集團(tuán)有限公司招聘筆試參考題庫附帶答案詳解
- 全國公開課一等獎統(tǒng)編版七年級語文上冊新教材(統(tǒng)編2024版)《誡子書》課件
- 2025年金華蘭溪市糧油總公司招聘筆試參考題庫含答案解析
- 2025年江蘇悅達(dá)集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 2024版文化墻制作安裝合同
- 二零二五年度焊接工程專用焊工聘用合同3篇
- 2024版延期還款合同樣本
- 二零二五年度清潔能源開發(fā)與投資合同
- 道士述職報告
- 綠色貸款培訓(xùn)課件
- 2024年七年級語文上學(xué)期期末作文題目及范文匯編
- 云南省昆明市五華區(qū)2023-2024學(xué)年九年級上學(xué)期期末英語試卷+
- 2023年生產(chǎn)運營副總經(jīng)理年度總結(jié)及下一年計劃
- 2023年中考語文標(biāo)點符號(頓號)練習(xí)(含答案)
- 施工圖審查招標(biāo)文件范文
- 新課標(biāo)人教版數(shù)學(xué)三年級上冊第八單元《分?jǐn)?shù)的初步認(rèn)識》教材解讀
- 布袋式除塵器制造工序檢驗規(guī)定
- 艾滋病、梅毒和乙肝檢測方法介紹及選擇
- 水資源稅納稅申報表附表
評論
0/150
提交評論