Matlab 數(shù)據(jù)分析課件全套康海剛第1-8章數(shù)據(jù)的基本概念及其應(yīng)用-分類

上傳人：y*** IP屬地：山東上傳時間：2025-01-19 格式：PPTX 頁數(shù)：275 大?。?4.30MB 積分：50 舉報 版權(quán)申訴

Matlab 數(shù)據(jù)分析課件全套康海剛第1-8章數(shù)據(jù)的基本概念及其應(yīng)用-分類_第2頁

Matlab 數(shù)據(jù)分析課件全套康海剛第1-8章數(shù)據(jù)的基本概念及其應(yīng)用-分類_第3頁

Matlab 數(shù)據(jù)分析課件全套康海剛第1-8章數(shù)據(jù)的基本概念及其應(yīng)用-分類_第4頁

Matlab 數(shù)據(jù)分析課件全套康海剛第1-8章數(shù)據(jù)的基本概念及其應(yīng)用-分類_第5頁

已閱讀5頁，還剩270頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

Matlab數(shù)據(jù)分析第1章數(shù)據(jù)的基本概念及其應(yīng)用第2章Matlab基礎(chǔ)第3章隨機(jī)模擬第4章數(shù)據(jù)預(yù)處理第5章數(shù)據(jù)探索與分析第6章多元線性回歸模型第7章聚類分析第8章分類第1章數(shù)據(jù)的基本概念及其應(yīng)用1.1數(shù)據(jù)與數(shù)據(jù)處理1.1.1數(shù)據(jù)的相關(guān)基本概念1.數(shù)據(jù)2.大數(shù)據(jù)（1）Volume（大量）數(shù)據(jù)存儲單位從過去的GB、TB，到現(xiàn)在的PB、EB、ZB量級了。（2）Velocity（高速）生活中每個人都離不開互聯(lián)網(wǎng)，每個人每天都在向大數(shù)據(jù)中心提供大量的信息，通過互聯(lián)網(wǎng)傳輸，大數(shù)據(jù)的產(chǎn)生非常迅速。（3）Variety（多樣）廣泛的數(shù)據(jù)來源決定了大數(shù)據(jù)形式的多樣性，任何形式的數(shù)據(jù)都可以產(chǎn)生作用。（4）Value（價值）大數(shù)據(jù)最大的價值在于通過從大量不相關(guān)的各種類型的數(shù)據(jù)中，挖掘出對未來趨勢與模式的預(yù)測分析有價值的數(shù)據(jù)。3.信息1.1數(shù)據(jù)與數(shù)據(jù)處理4.信息量1.1.2數(shù)據(jù)處理的主要概念1.算法2.數(shù)據(jù)挖掘3.機(jī)器學(xué)習(xí)1.1數(shù)據(jù)與數(shù)據(jù)處理1.1.3數(shù)據(jù)處理的流程第一階段：制定目標(biāo)?該組織或單位什么要設(shè)立和研究該項目？缺少什么以及需要什么？?該組織或單位正在做什么事情來解決問題？什么還不夠好？是否有可借鑒的經(jīng)驗？?你需要什么種類的數(shù)據(jù)以及需要多少？團(tuán)隊需要什么人員、哪些技術(shù)、多少時問？計算資源是什么？?該組織或單位如何實施和應(yīng)用你的結(jié)果？為了成功地應(yīng)用部署，必須滿足哪些約束條件？1.1數(shù)據(jù)與數(shù)據(jù)處理第二階段：數(shù)據(jù)準(zhǔn)備?什么數(shù)據(jù)可以我所用？?這些數(shù)據(jù)是否有助于解決問題？?這些數(shù)據(jù)是否足夠多？?數(shù)據(jù)的質(zhì)量是否足夠好？第三階段：建立模型1）特征化。2）打分。3）排序。4）關(guān)聯(lián)。5）分類。1.1數(shù)據(jù)與數(shù)據(jù)處理6）聚類。7）異常檢測。第四階段：評價與批判模型?對你的需求來說是否足夠準(zhǔn)確？它是否能很好地概括需求？?它是否比“直觀猜測”表現(xiàn)得更好？比你當(dāng)前使用的任何估計都表現(xiàn)得更好？比之前使用的模型方法是否更好？?模型結(jié)果（系數(shù)、聚簇、規(guī)則）在專業(yè)領(lǐng)域的情景是否有意義？也就是說，模型給出的結(jié)果是否符合實際情況？?模型是否足夠精確？是否有更好的方式？第五階段：展示結(jié)果和文檔第六階段：模型實施與維護(hù)1.1數(shù)據(jù)與數(shù)據(jù)處理1.1.4數(shù)據(jù)處理的誤區(qū)1.不要用單一類型的數(shù)據(jù)去評價全局2.不要夸大偶然事件，認(rèn)為帶來必然結(jié)果3.避免唯數(shù)據(jù)論4.不是從問題實際出發(fā)，寄希望于軟件“黑箱”工具1.2數(shù)據(jù)處理涉及的主要領(lǐng)域1.2.1統(tǒng)計學(xué)1.2.2數(shù)據(jù)挖掘1）處理的數(shù)據(jù)規(guī)模十分龐大，達(dá)到GB、TB數(shù)量級。2）查詢一般是決策制定者提出的即時查詢，往往不能形成精確的查詢要求，需要靠系統(tǒng)本身尋找其可能感興趣的內(nèi)容。3）在一些應(yīng)用領(lǐng)域，由于數(shù)據(jù)變化迅速，因此要求數(shù)據(jù)挖掘能快速做出相應(yīng)反應(yīng)以隨時提供決策支持。4）數(shù)據(jù)挖掘中，規(guī)則的發(fā)現(xiàn)基于統(tǒng)計規(guī)律。5）數(shù)據(jù)挖掘所發(fā)現(xiàn)的規(guī)則是動態(tài)的，它只反映了當(dāng)前狀態(tài)的數(shù)據(jù)庫具有的規(guī)則，隨著不斷地向數(shù)據(jù)庫中加入新數(shù)據(jù)，需要隨時對其進(jìn)行更新。1.2數(shù)據(jù)處理涉及的主要領(lǐng)域1.2.3云計算（1）超大規(guī)?！霸啤本哂邢喈?dāng)?shù)囊?guī)模，Google云計算已經(jīng)擁有100多萬臺服務(wù)器，Amazon、IBM、微軟、Yahoo等的“云”均擁有幾十萬臺服務(wù)器。（2）虛擬化云計算支持用戶在任意位置、使用各種終端獲取應(yīng)用服務(wù)。（3）高可靠性“云”使用了數(shù)據(jù)多副本容錯、計算節(jié)點同構(gòu)可互換等措施來保障服務(wù)的高可靠性，使用云計算比使用本地計算機(jī)可靠。（4）通用性云計算不針對特定的應(yīng)用，在“云”的支撐下可以構(gòu)造出千變?nèi)f化的應(yīng)用，同一個“云”可以同時支撐不同的應(yīng)用運行。（5）高可擴(kuò)展性“云”的規(guī)模可以動態(tài)伸縮，滿足應(yīng)用和用戶規(guī)模增長的需要。（6）按需服務(wù)“云”是一個龐大的資源池，可按需購買；云可以像白來水、電、煤氣那樣計費。（7）極其廉價由于“云”的特殊容錯性，可以采用極其廉價的節(jié)點來構(gòu)成云，“云”的自動化集中式管理使大量企業(yè)無須負(fù)擔(dān)日益高昂的數(shù)據(jù)中心管理成本，“云”的通用性使資源的利用率較之1.2數(shù)據(jù)處理涉及的主要領(lǐng)域傳統(tǒng)系統(tǒng)大幅提升，因此用戶可以充分享受“云”的低成本優(yōu)勢，經(jīng)常只要花費幾百美元、幾天時間就能完成以前需要數(shù)萬美元、數(shù)月時間才能完成的任務(wù)。（8）潛在的危險性云計算除了提供計算服務(wù)外，還必然提供了存儲服務(wù)。常見的云計算平臺有以下9個：（1）GoogleAppEngine

GoogleAppEngine是Google提供的服務(wù)，允許開發(fā)者在Google的基礎(chǔ)架構(gòu)上運行網(wǎng)絡(luò)應(yīng)用程序。（2）AmazonElasticBeanstalkElasticBeanstalk為在AWS（AmazonWebServices）云中部署和管理應(yīng)用提供了一種方法。（3）微軟云Azure云計算服務(wù)平臺可以使客戶選擇的權(quán)力部署在以云計算基礎(chǔ)的互聯(lián)網(wǎng)服務(wù)上，或通過服務(wù)器，或把它們混合起來以任何方式提供給需要的業(yè)務(wù)。（4）阿里云與傳統(tǒng)的操作系統(tǒng)相比，依托云計算的阿里云OS具有明顯的優(yōu)勢。1.2數(shù)據(jù)處理涉及的主要領(lǐng)域（5）百度BAE平臺針對大數(shù)據(jù)的規(guī)模大、類型多、價值密度低等特征，百度云平臺提供的BAE（百度應(yīng)用引擎）將提供高并發(fā)的處理能力，以滿足處理速度快的要求。（6）新浪SAE云計算平臺作為典型的云計算，SAE采用“所付即所用，所付僅所用”的計費理念，通過日志和統(tǒng)計中心精確地計算每個應(yīng)用的資源消耗（包括CPU、內(nèi)存、磁盤等）。（7）騰訊云騰訊云有著深厚的基礎(chǔ)架構(gòu)，并且有著多年對海量互聯(lián)網(wǎng)服務(wù)的經(jīng)驗，可以為開發(fā)者及企業(yè)提供云服務(wù)器、云存儲、云數(shù)據(jù)庫和彈性Web引擎等整體一站式服務(wù)方案。（8）華為云華為云通過基于瀏覽器的云管理平臺，以互聯(lián)網(wǎng)線上自助服務(wù)的方式，為用戶提供云計算IT基礎(chǔ)設(shè)施服務(wù)。（9）盛大云盛大云是一個安全、快捷、自助化Taas和Paas服務(wù)的門戶入口。1.3數(shù)據(jù)處理的主要方法1.3.1數(shù)據(jù)采集（1）數(shù)據(jù)抓取通過程序從現(xiàn)有的網(wǎng)絡(luò)資源中提取相關(guān)信息，錄入到數(shù)據(jù)庫中。（2）數(shù)據(jù)導(dǎo)入將指定的數(shù)據(jù)源導(dǎo)入數(shù)據(jù)庫中，通常支持的數(shù)據(jù)源包括Excel表格、數(shù)據(jù)庫文件、XMI文檔、文本文件以及常用的數(shù)據(jù)庫（如SQLServer、Oracle、MySQL等）。（3）傳感設(shè)備自動采集數(shù)據(jù)有關(guān)數(shù)據(jù)或信息通過傳感設(shè)備傳輸?shù)街骺匕?，主控板對?shù)據(jù)或信息進(jìn)行信號解析、算法分析和數(shù)據(jù)量化，將數(shù)據(jù)通過無線通信方式進(jìn)行傳輸。1.3.2數(shù)據(jù)預(yù)處理（1）數(shù)據(jù)清理它是通過填寫缺失的值、光滑噪聲數(shù)據(jù)、識別或刪除離群點并解決不一致性來“清理”數(shù)據(jù)的。（2）數(shù)據(jù)集成將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來并統(tǒng)一存儲，建立數(shù)據(jù)倉庫的過程實際上就是數(shù)據(jù)集成。1.3數(shù)據(jù)處理的主要方法（3）數(shù)據(jù)變換通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。（4）數(shù)據(jù)歸約數(shù)據(jù)挖掘時往往數(shù)據(jù)量非常大，在少量數(shù)據(jù)上進(jìn)行挖掘分析需要很長的時間，數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約表示，這就使數(shù)據(jù)量小得多，但仍然接近于保持原數(shù)據(jù)的完整性，使結(jié)果與歸約前結(jié)果相同或幾乎相同。1.3.3數(shù)據(jù)分析1）老七種工具，即排列圖、因果圖、分層法、調(diào)查表、散步圖、直方圖、控制圖。2）新七種工具，即關(guān)聯(lián)圖、系統(tǒng)圖、矩陣圖、KJ法、計劃評審技術(shù)、PDPC法、矩陣數(shù)據(jù)圖。1.描述性數(shù)據(jù)分析2.探索性數(shù)據(jù)分析3.驗證性數(shù)據(jù)分析1.3數(shù)據(jù)處理的主要方法1.3.4數(shù)據(jù)挖掘算法1.3數(shù)據(jù)處理的主要方法1.監(jiān)督學(xué)習(xí)模型（1）決策樹決策樹是用于分類和預(yù)測的主要技術(shù)之一，決策樹學(xué)習(xí)是以實例為基礎(chǔ)的歸納學(xué)習(xí)算法，它著眼于從一組無次序、無規(guī)則的實例中推理出以決策樹表示的分類規(guī)則。（2）貝葉斯算法貝葉斯（Bayes）算法是一類利用概率統(tǒng)計知識進(jìn)行分類的算法，如樸素貝葉斯（NaiveBayes）算法。（3）神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是一種具有類似于大腦神經(jīng)突觸連接結(jié)構(gòu)并能進(jìn)行信息處理等應(yīng)用的數(shù)學(xué)模型。（4）支持向量機(jī)（SupportVectorMachine,SVM）支持向量機(jī)是根據(jù)統(tǒng)計學(xué)習(xí)理論提出的一種新的學(xué)習(xí)方法，它的最大特點是根據(jù)結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則，以最大化分類間隔構(gòu)造最優(yōu)分類超平面來提高學(xué)習(xí)機(jī)的泛化能力，較好地解決了非線性、高維數(shù)、局部極小點等問題。（5）集成學(xué)習(xí)分類模型集成學(xué)習(xí)是一種機(jī)器學(xué)習(xí)范式，它試圖通過連續(xù)調(diào)用單個的學(xué)習(xí)算法，獲得不同的基學(xué)習(xí)器，然后根據(jù)規(guī)則組合這些學(xué)習(xí)器來解決同一個問題，可以顯著地提高學(xué)習(xí)系統(tǒng)的1.3數(shù)據(jù)處理的主要方法泛化能力。（6）其他分類學(xué)習(xí)模型此外還有l(wèi)ogistics回歸模型、隱馬爾科夫分類模型（HMM）、基于規(guī)則的分類模型等眾多的分類模型，對于處理不同的數(shù)據(jù)、分析不同的問題，各種模型都有自己的特性和優(yōu)勢。2.無監(jiān)督學(xué)習(xí)模型（1）k-means聚類k-means算法的基本思想是初始隨機(jī)給定K個簇中心，按照最鄰近原則把待分類樣本點分到各個簇，然后按平均法重新計算各個簇的質(zhì)心，從而確定新的簇心，一直迭代，直到簇心的移動距離小于某個給定的值。（2）基于密度的聚類根據(jù)密度完成對象的聚類。（3）層次聚類層次聚類就是對給定的數(shù)據(jù)集進(jìn)行層次分解，直到滿足某種條件為止。（4）譜聚類譜聚類（SpectralClustering,SC）是一種基于圖論的聚類方法———將帶權(quán)無向圖劃分為兩個或兩個以上的最優(yōu)子圖，使子圖內(nèi)部盡量相似，而子圖間距離盡量較遠(yuǎn)，以達(dá)到常見聚類1.3數(shù)據(jù)處理的主要方法的目的。第2章Matlab基礎(chǔ)2.1

Matlab簡介2.1

Matlab簡介2.1.1Matlab的特點1）Matlab是一個交互式軟件系統(tǒng)，輸入一條命令，立即就可以得到該命令的結(jié)果。2）具有強(qiáng)大的數(shù)值計算功能。3）Matlab符號運算功能。4）Matlab繪圖功能。5）編程功能。6）豐富的APPS。7）源程序開放。2.1.2Matlab窗口簡介?命令窗口（CommandWindow）?歷史命令窗口（HistoryCommandWindow）2.1

Matlab簡介?編輯調(diào)試窗口（Edit/DebugWindow）?圖像窗口（FigureWindow）?工作空間（Workspace）?當(dāng)前目錄文件夾（CurrentFolder）?幫助窗口（HelpBrowser）?當(dāng)前路徑窗口（CurrentDirectoryBrowser）本節(jié)將簡單介紹其中幾個窗口的基本操作方式。2.1

Matlab簡介1.命令窗口（CommandWindow）2.1

Matlab簡介2.1

Matlab簡介2.歷史命令窗口（HistoryCommandWindow）3.編輯調(diào)試窗口（Edit/DebugWindow）2.1

Matlab簡介4.圖像窗口（FigureWindow）2.1

Matlab簡介5.工作空間（Workspace）2.1

Matlab簡介2.1

Matlab簡介6.當(dāng)前目錄文件夾（CurrentFolder）2.1

Matlab簡介2.2數(shù)組及其運算2.2.1變量和數(shù)組1.數(shù)值的記述2.變量命名規(guī)則1）變量名、函數(shù)名對字母大小寫是敏感的，如變量myvar和MyVar表示兩個不同的變量。2）變量名的第一個字符必須是英文字母，最多可包含63個字符（英文、數(shù)字和下連符），如myvar201是合法的變量名。3）變量名中不得包含空格、標(biāo)點、運算符，但可以包含下連符。4）盡量避免與預(yù)定義變量名相同。3.Matlab默認(rèn)的預(yù)定義變量2.2數(shù)組及其運算①如果用戶對表中任何一個預(yù)定義變量進(jìn)行賦值，則該變量的默認(rèn)值將被用戶新賦的值“臨時”覆蓋。②在遵循IEEE算法規(guī)則的機(jī)器上，被0除是允許的。2.2數(shù)組及其運算4.數(shù)組2.2數(shù)組及其運算5.數(shù)據(jù)類型2.2數(shù)組及其運算2.2.2變量的初始化1）用賦值語句初始化變量。2）用input函數(shù)從鍵盤輸入初始化變量。3）從文件讀取一個數(shù)據(jù)。1.用賦值語句初始化變量2.用捷徑表達(dá)式賦值3.用內(nèi)置函數(shù)來初始化2.2數(shù)組及其運算4.用關(guān)鍵字input初始化變量2.2.3多維數(shù)組1.多維數(shù)組在內(nèi)存中的存儲2.2數(shù)組及其運算2.用單個下標(biāo)訪問多標(biāo)數(shù)組2.2數(shù)組及其運算2.2.4子數(shù)組1.end函2.子數(shù)組在左邊的賦值語句的使用3.用一標(biāo)量來給子數(shù)組賦值4.子數(shù)組的刪除2.2.5單元陣列2.2數(shù)組及其運算2.2數(shù)組及其運算2.2.6顯示輸出數(shù)據(jù)1.改變默認(rèn)格式2.2數(shù)組及其運算2.disp函數(shù)3.用fprintf函數(shù)格式化輸出數(shù)據(jù)2.2.7數(shù)據(jù)文件2.2.8數(shù)組運算和矩陣運算2.2數(shù)組及其運算2.2數(shù)組及其運算2.2.9內(nèi)置函數(shù)1.常用內(nèi)置函數(shù)2.2數(shù)組及其運算2.其他內(nèi)置函數(shù)（1）randrand產(chǎn)生一個在（0，1）之間的均勻分布的數(shù)。（2）randnrandn產(chǎn)生一個服從N（0，1）正態(tài)分布的隨機(jī)數(shù)。（3）find找出非0元素，也可以查找指定條件的元素，并返回元素所在位置索引。1）示例1：2）示例2：2.2數(shù)組及其運算3）示例3：(4)sort［Y,1］=sort（x）返回索引矩陣I，如果x是一個向量，則Y=x（I）。（5）fprintf格式化數(shù)據(jù)輸出與C語言中的printf函數(shù)用法相似，常見的數(shù)值處理函數(shù)見表2-8。2.2數(shù)組及其運算2.3作圖入門2.3作圖入門2.3.1簡單的直角坐標(biāo)系作圖1.基本作圖操作2.3作圖入門2.3作圖入門2.3作圖入門2.聯(lián)合作圖2.3作圖入門2.3作圖入門2.3作圖入門2.3.2作圖的附加特性1.圖例2.3作圖入門2.3作圖入門2.控制坐標(biāo)軸范圍2.3作圖入門3.在同一坐標(biāo)系內(nèi)畫出多個圖像2.3作圖入門2.3作圖入門4.創(chuàng)建多個圖像窗口5.子窗口2.3作圖入門2.3作圖入門6.對畫線的增強(qiáng)控制2.3作圖入門2.3作圖入門7.極坐標(biāo)圖像2.4

Matlab程序設(shè)計2.4.1關(guān)系運算符和邏輯運算符1.關(guān)系運算符2.4

Matlab程序設(shè)計2.邏輯運算符2.4

Matlab程序設(shè)計3.邏輯函數(shù)2.4.2選擇結(jié)構(gòu)1.if結(jié)構(gòu)2.4

Matlab程序設(shè)計例2.1求一元二次方程的根。步驟1打開Script文件，在CommandWindow中輸入edit命令或按“Ctrl+N”組合鍵。步驟2在edit文件中輸入下述命令：步驟3保存Script文件。步驟4運行和調(diào)試Script文件。2.switch結(jié)構(gòu)例2.2編寫一個學(xué)生成績管理程序。3.try/catch結(jié)構(gòu)2.4

Matlab程序設(shè)計2.4.3循環(huán)結(jié)構(gòu)1.

while循環(huán)例2.3使用歐幾里得算法求兩個整數(shù)的最大公約數(shù)，偽代碼如下：2.4

Matlab程序設(shè)計2.for循環(huán)1）在for循環(huán)開始時，Matlab產(chǎn)生了控制表達(dá)式。2）第一次進(jìn)入循環(huán)，程序把循環(huán)控制表達(dá)式的第一列賦值于循環(huán)變量index，然后執(zhí)行循環(huán)體內(nèi)的語句。3）在循環(huán)體的語句被執(zhí)行后，程序把循環(huán)控制表達(dá)式的下一列賦值于循環(huán)變量index，程序?qū)⒃僖淮螆?zhí)行循環(huán)體語句。4）只要在循環(huán)控制表達(dá)式中還有剩余的列，步驟3）將會重復(fù)執(zhí)行。例2.4階乘（factorial）函數(shù)。例2.5輸入一系列的測量數(shù)，計算它們的平均數(shù)和標(biāo)準(zhǔn)差。1）在2.2節(jié)已經(jīng)學(xué)過，用賦值的方法可以擴(kuò)展一個已知的數(shù)組。2）用for循環(huán)和向量計算是非常常見的。2.4

Matlab程序設(shè)計例2.6為了比較循環(huán)和向量算法執(zhí)行程序所用的時間，分別用這兩種方法編程，測試3個運算所花的時間。1）用for循環(huán)計算1~10000之間的每個整數(shù)的平方，而事先不初始化平方數(shù)組。2）用for循環(huán)計算1~10000之間的每個整數(shù)的平方，而事先初始化平方數(shù)組。3）用向量算法計算1~10000之間的每個整數(shù)的平方。3.break和continue語句例2.7for循環(huán)中的continue語句：2.4

Matlab程序設(shè)計4.循環(huán)嵌套例2.8用兩重for循環(huán)嵌套來計算。例2.9在for循環(huán)嵌套中包含break語句。2.5自定義函數(shù)（1）子程序的獨立檢測每個子程序都可以當(dāng)作一個獨立的單元來編寫。（2）代碼的可復(fù)用性在許多情況下，一個基本的子程序可應(yīng)用在程序的許多地方。（3）遠(yuǎn)離意外副作用函數(shù)通過輸入?yún)?shù)列表（inputargumentlist）從程序中讀取輸入值，通過輸出參數(shù)列表（outputargumentlist）給程序返回結(jié)果。例2.10自定義函數(shù)dist2，用于計算笛卡兒坐標(biāo)系中的點（x1，y1）與點（x2，y2）之間的距離。第3章隨機(jī)模擬3.1隨機(jī)數(shù)的生成1.模擬均勻分布隨機(jī)變量的函數(shù)2.模擬指數(shù)分布隨機(jī)變量的函數(shù)3.模擬正態(tài)分布隨機(jī)變量的函數(shù)3.2蒙特卡羅模擬3.2.1蒙特卡羅模擬估計面積3.2蒙特卡羅模擬3.2蒙特卡羅模擬3.2.2蒙特卡羅模擬尋求近似圓周率3.2蒙特卡羅模擬3.2.3蒙特卡羅模擬解決生日問題3.3隨機(jī)行為的模擬1.一枚正規(guī)硬幣2.一個不正規(guī)的骰子3.3隨機(jī)行為的模擬3.3隨機(jī)行為的模擬3.布朗運動3.4蒙特卡羅模擬應(yīng)用案例：理發(fā)店系統(tǒng)研究1.問題分析2.模型假設(shè)1）60%的顧客只需剪發(fā)，40%的顧客既要剪發(fā)又要洗發(fā)。2）每個服務(wù)員剪發(fā)需要的時間為5min，既剪發(fā)又洗發(fā)則需要8min。3）顧客的到達(dá)間隔時間服從指數(shù)分布。4）服務(wù)過程中服務(wù)員不休息。3.變量說明4.模型建立5.系統(tǒng)模擬（1）狀態(tài)（變量）3.4蒙特卡羅模擬應(yīng)用案例：理發(fā)店系統(tǒng)研究1）等待服務(wù)的顧客數(shù)。2）A是否正在服務(wù)。3）B是否正在服務(wù)。（2）實體兩名服務(wù)員和多名顧客。（3）事件1）一名新顧客的到達(dá)2）A開始服務(wù)3）A結(jié)束服務(wù)4）B開始服務(wù)5）B結(jié)束服務(wù)（4）活動1）顧客排隊時間3.4蒙特卡羅模擬應(yīng)用案例：理發(fā)店系統(tǒng)研究2）顧客們到達(dá)的間隔時間3）A的服務(wù)時間4）B的服務(wù)時間6.系統(tǒng)模擬算法設(shè)計7.系統(tǒng)模擬程序第4章數(shù)據(jù)預(yù)處理4.1認(rèn)識數(shù)據(jù)4.1.1屬性4.1.2離散屬性和連續(xù)屬性4.2數(shù)據(jù)預(yù)處理概述1）數(shù)據(jù)清洗是通過填寫缺失的值、光滑噪聲數(shù)據(jù)、識別或刪除離群點，并解決不一致性等方式來“清洗”數(shù)據(jù)的。2）數(shù)據(jù)集成是把不同來源、格式、性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中，以便更方便地進(jìn)行數(shù)據(jù)挖掘工作，數(shù)據(jù)集成通過數(shù)據(jù)交換而達(dá)到，主要解決數(shù)據(jù)的分布性和異構(gòu)性的問題。3）數(shù)據(jù)歸約就是得到數(shù)據(jù)集的簡化表示，雖然小得多，但能夠產(chǎn)生同樣的（或幾乎同樣的）分析結(jié)果。4.2數(shù)據(jù)預(yù)處理概述4）數(shù)據(jù)變換是將數(shù)據(jù)從一種表現(xiàn)形式變?yōu)榱硪环N表現(xiàn)形式的過程。4.2.1數(shù)據(jù)清洗1.缺失值處理（1）刪除法刪除法是對缺失值進(jìn)行處理的最原始方法，它將存在缺失值的記錄刪除。（2）插補法它的思想來源是以最可能的值來插補缺失值，比全部刪除不完全樣本所產(chǎn)生的信息丟失要少。1）均值插補。2）回歸插補。3）極大似然估計。2．噪聲過濾（1）回歸法回歸法是用函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù)的。4.2數(shù)據(jù)預(yù)處理概述（2）均值平滑法均值平滑法是指對于具有序列特征的變量用鄰近若干數(shù)據(jù)的均值來替換原始數(shù)據(jù)的方法，如圖4-3所示。（3）離群點分析法離群點分析法是通過聚類等方法來檢測離群點，并將其刪除，從而實現(xiàn)去噪的方法。4.2數(shù)據(jù)預(yù)處理概述（4）小波去噪法在數(shù)學(xué)上，小波去噪的本質(zhì)是一個函數(shù)逼近問題，即如何在由小波母函數(shù)伸縮和平移所展成的函數(shù)空間中，根據(jù)提出的衡量準(zhǔn)則，尋找對原信號的最佳逼近，以完成原信號和噪聲信號的區(qū)分。4.2.2數(shù)據(jù)集成4.2數(shù)據(jù)預(yù)處理概述4.2.3數(shù)據(jù)歸約1）屬性選擇是通過刪除不相關(guān)或冗余的屬性（或維）來減少數(shù)據(jù)量的。2）樣本選擇也就是數(shù)據(jù)抽樣。4.2.4數(shù)掘變換1.標(biāo)準(zhǔn)化2.離散化4.3

Matlab與Excel的數(shù)據(jù)交互4.3.1以交互方式導(dǎo)入數(shù)據(jù)1）Matlab工具條：在主頁選項卡中的變量部分，單擊導(dǎo)入數(shù)據(jù)。2）Matlab命令提示符：輸入“uiimport”，在彈出的窗口中選擇需要導(dǎo)入的數(shù)據(jù)文件，如圖4-5所示。4.3

Matlab與Excel的數(shù)據(jù)交互4.3.2炭取和寫入表1.用readtable讀取表格數(shù)據(jù)2.用writetable寫入表格數(shù)據(jù)4.3

Matlab與Excel的數(shù)據(jù)交互4.3.3大型文件和大型數(shù)據(jù)簡介4.3.4數(shù)據(jù)的清理、平滑和分組等1.清除表中的雜亂數(shù)據(jù)和缺失數(shù)據(jù)（1）加載樣本數(shù)據(jù)從一個逗號分隔的文本文件messy.csv加載樣本數(shù)據(jù)。（2）匯總表使用summary函數(shù)創(chuàng)建匯總表來查看每個變量的數(shù)據(jù)類型、說明、單位和其他描述性統(tǒng)計量。（3）查找具有缺失值的行顯示表T中至少含有一個具有缺失值的行子集。（4）替換缺失值指示符清除相應(yīng)數(shù)據(jù)，將代碼-99所指示的缺失值替換標(biāo)準(zhǔn)的Matlab數(shù)值缺失值指示符NaN。（5）刪除具有缺失值的行創(chuàng)建一個新表T3，該表僅包含T中不帶缺失值的行。（6）組織數(shù)據(jù)先根據(jù)C列以降序?qū)3的行進(jìn)行排序，然后根據(jù)A列以升序排序。4.3

Matlab與Excel的數(shù)據(jù)交互2.數(shù)據(jù)平滑和離群值檢測（1）移動均值方法移動均值方法是分批處理數(shù)據(jù)的方法，通常是為了從統(tǒng)計角度表示數(shù)據(jù)中的相鄰點。4.3

Matlab與Excel的數(shù)據(jù)交互4.3

Matlab與Excel的數(shù)據(jù)交互（2）其他的平滑方法1）smoothdata函數(shù)提供幾種平滑選項，如Savitzky-Golay方法，這是一種常用的信號處理平滑技術(shù)。2）穩(wěn)健的Lowess方法是另一種平滑方法，尤其適用于同時包含噪聲和離群值的數(shù)據(jù)。（3）檢測離群值數(shù)據(jù)中的離群值可能使數(shù)據(jù)處理結(jié)果和其他計算量嚴(yán)重失真。4.3

Matlab與Excel的數(shù)據(jù)交互4.3

Matlab與Excel的數(shù)據(jù)交互（4）非均勻數(shù)據(jù)并非所有數(shù)據(jù)都由等間隔的點組成，這會影響數(shù)據(jù)處理的方法。4.3

Matlab與Excel的數(shù)據(jù)交互4.3

Matlab與Excel的數(shù)據(jù)交互3.拆分?jǐn)?shù)據(jù)變量及應(yīng)用（1）加載電力中斷數(shù)據(jù)示例文件outages.csv包含表示美國電力中斷的數(shù)據(jù)。（2）計算最大電力損失確定每個地區(qū)因電力中斷而造成的最大電力損失。（3）計算受影響客戶的數(shù)量確定不同原因和地區(qū)的電力中斷對客戶的影響。（4）計算電力中斷的平均持續(xù)時間確定美國的所有電力中斷的平均持續(xù)時間（以小時為單位）。第5章數(shù)據(jù)探索與分析5.1數(shù)據(jù)的特征統(tǒng)計量5.1.1中心度量趨勢：均值、中位數(shù)、眾數(shù)5.1.2常用的變異程度度量1.極差2.方差3.標(biāo)準(zhǔn)差4.標(biāo)準(zhǔn)差系數(shù)5.四分位數(shù)間距5.1數(shù)據(jù)的特征統(tǒng)計量6.百分位數(shù)5.1.3分布形態(tài)5.2基本統(tǒng)計描述的可視化5.2.1分類型數(shù)據(jù)頻數(shù)分布及其可視化例5.1表5-1是X公司員工收入基本狀況調(diào)查表，用此表數(shù)據(jù)來說明對于分類型數(shù)據(jù)的頻數(shù)統(tǒng)計及其數(shù)據(jù)可視化。5.2基本統(tǒng)計描述的可視化例5.2使用Matlab數(shù)據(jù)統(tǒng)計信息。（1）打開“數(shù)據(jù)統(tǒng)計信息對話框”“數(shù)據(jù)統(tǒng)計信息”對話框可幫助您計算和繪制數(shù)據(jù)的描述性統(tǒng)計量。5.2基本統(tǒng)計描述的可視化5.2基本統(tǒng)計描述的可視化5.2基本統(tǒng)計描述的可視化（2）設(shè)置繪圖上數(shù)據(jù)統(tǒng)計量的格式“數(shù)據(jù)統(tǒng)計信息”對話框使用顏色和線型將統(tǒng)計量與繪圖上的數(shù)據(jù)區(qū)分開來。1）在Matlab窗口中，單擊工具欄中的（編輯繪圖）按鈕。2）雙擊要編輯其顯示屬性的繪圖上的統(tǒng)計量，例如，雙擊表示Station2均值的水平線。（3）將統(tǒng)計量保存到Matlab工作區(qū)執(zhí)行下列步驟可將統(tǒng)計量保存到Matlab工作區(qū)。5.2基本統(tǒng)計描述的可視化（4）查看新結(jié)構(gòu)體變量可輸入變量名稱：5.2基本統(tǒng)計描述的可視化（5）生成代碼文件示例的此部分顯示如何從圖形生成Matlab代碼文件，再將代碼應(yīng)用至新數(shù)據(jù)以重新生成相同格式的繪圖和統(tǒng)計量。5.2.2直方圖1.histogram函數(shù)繪制直方圖5.2基本統(tǒng)計描述的可視化例5.3創(chuàng)建直方圖。1）生成10000個隨機(jī)數(shù)并創(chuàng)建直方圖。2）對分類為25個等距離散化的10000個隨機(jī)數(shù)繪制直方圖，如圖5-13所示。5.2基本統(tǒng)計描述的可視化3）生1000個隨機(jī)數(shù)并創(chuàng)建直方圖。5.2基本統(tǒng)計描述的可視化2.確定基本概率分布1）生成5000個均值5、標(biāo)準(zhǔn)差力2的正態(tài)分布隨機(jī)數(shù)。2）對于均值為5、標(biāo)準(zhǔn)差為2的正態(tài)分布，疊加一個概率密度函數(shù)圖，如圖5-17所示。5.2基本統(tǒng)計描述的可視化例5.4對分類數(shù)據(jù)進(jìn)行繪圖。1）工作區(qū)變量Location是一個字符向量單元數(shù)組，它包含患者就醫(yī)的3個唯一醫(yī)療機(jī)構(gòu)。2）工作區(qū)變量。3）繪制直方圖。4）僅為健康狀況評估為Fair或Poor的患者繪制醫(yī)院位置直方圖，如圖5-19所示。5.2基本統(tǒng)計描述的可視化5）創(chuàng)建餅圖。5.2基本統(tǒng)計描述的可視化6）創(chuàng)建帕累托圖。5.2基本統(tǒng)計描述的可視化7）創(chuàng)建散點圖。5.2.3分位數(shù)圖和經(jīng)驗累計分布函數(shù)5.2基本統(tǒng)計描述的可視化5.2.4分位數(shù)-分位數(shù)圖——q-q圖5.2基本統(tǒng)計描述的可視化5.2基本統(tǒng)計描述的可視化5.2.5箱形圖1）最小值。2）第一個四分位數(shù)（Q1）。3）中位數(shù)（Q2）。4）第三個四分位數(shù)（Q3）。5）最大值。例5.5對于下述這組數(shù)據(jù)：331033353450348034803490352035403550

36503730

3925，作出箱形圖。1）畫箱形圖時，把第和第三四分位數(shù)作力箱體的邊緣，Q1=3465，Q3=3600。2）在中位數(shù)（3505）位置與箱體內(nèi)畫一條垂線，因此中位數(shù)線就把數(shù)據(jù)平分為兩部分。3）通過使用四分位數(shù)間距IQR=Q3-Q1，定好界限的位置。5.2基本統(tǒng)計描述的可視化4）圖5-25中的虛線被稱觸須線（Whisker）。5）最后，每個異常值的位置用符號*表示在圖5-25中，看到了一個異常值3925。箱形圖的作用有以下幾個。1）箱形圖非常直觀地反映了樣本數(shù)據(jù)的分散程度以及總體分布的對稱性和尾重。2）利用箱形圖可以直觀地識別樣本數(shù)據(jù)中的異常值。3）可比較幾組數(shù)據(jù)的形狀。5.2基本統(tǒng)計描述的可視化5.2基本統(tǒng)計描述的可視化例5.6繪制均勻分布隨機(jī)樣本與指數(shù)分布隨機(jī)樣本的箱形圖（見圖5-26）。5.2基本統(tǒng)計描述的可視化例5.7繪制服從標(biāo)準(zhǔn)正態(tài)分布隨機(jī)數(shù)箱形圖（見圖5-27）。5.2基本統(tǒng)計描述的可視化5.2.6散點圖5.2基本統(tǒng)計描述的可視化5.2基本統(tǒng)計描述的可視化5.3度量數(shù)據(jù)的相似性和相異性5.3.1數(shù)據(jù)矩陣、相異性矩陣、相似性矩陣1）數(shù)據(jù)矩陣。2）相異性矩陣。3）相似性矩陣。5.3度量數(shù)據(jù)的相似性和相異性5.3.2數(shù)值屬性的相似性：相關(guān)系數(shù)1.協(xié)方差5.3度量數(shù)據(jù)的相似性和相異性5.3度量數(shù)據(jù)的相似性和相異性5.3度量數(shù)據(jù)的相似性和相異性2.相關(guān)系數(shù)3.散點圖矩陣5.3度量數(shù)據(jù)的相似性和相異性5.3度量數(shù)據(jù)的相似性和相異性5.3.3數(shù)值屬性的相異性：距離1.歐幾里得距離（EuclideanDistance）2.曼哈頓距離（ManhattanDistance）5.4數(shù)據(jù)降維——主成分分析1.基本思想5.4數(shù)據(jù)降維——主成分分析2.主成分分析的計算步驟第一步，對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理，即z分?jǐn)?shù)規(guī)范化。第二步，計算樣本相關(guān)系數(shù)矩陣，即第三步，計算相關(guān)系數(shù)矩陣R的特征值（??1，??2，?，??p）和相應(yīng)的特征向量??i=［??i1,??i2

，?，??ip］（i=1,2，?，P）。5.4數(shù)據(jù)降維——主成分分析第四步，選擇重要的主成分，并寫出主成分表達(dá)式。第五步，計算主成分得分。3.PCA算法的Matlab實現(xiàn)5.4數(shù)據(jù)降維——主成分分析4.案例分析5.4數(shù)據(jù)降維——主成分分析5.4數(shù)據(jù)降維——主成分分析第一步，繪制箱形圖。第二步，使用主成分分析首先要求原來特征相關(guān)性比較密切。有以下兩種方式。5.4數(shù)據(jù)降維——主成分分析①制作散點圖矩陣（見圖5-38）。②計算相關(guān)系數(shù)。第三步，進(jìn)行主成分分析，最好是先將觀察數(shù)據(jù)標(biāo)準(zhǔn)化，再作主成分分析；或者作加權(quán)主成分分析。5.4數(shù)據(jù)降維——主成分分析第四步，選擇主成分，有兩種方式。5.4數(shù)據(jù)降維——主成分分析第五步，解釋主成分。5.4數(shù)據(jù)降維——主成分分析5.4數(shù)據(jù)降維——主成分分析第六步，模型應(yīng)用。第6章多元線性回歸模型1）收集一組包含因變量和白變量的數(shù)據(jù)。2）選定因變量與白變量之間的模型，即一個數(shù)學(xué)式子，利用數(shù)據(jù)按照最小二乘準(zhǔn)則計算模型中的參數(shù)。3）利用統(tǒng)計分析方法對不同的模型進(jìn)行比較，找出與數(shù)據(jù)擬合得最好的模型。4）判斷得到的模型是否適合于這組數(shù)據(jù)。5）利用模型對因變量作出預(yù)測或解釋。常見的回歸算法如下。（1）OLS線性回歸1）工作原理：線性回歸是一項統(tǒng)計建模技術(shù)，用來描述作為一個或多個預(yù)測自變量的線性函數(shù)的連續(xù)因變量。2）最佳使用時機(jī)：當(dāng)需要易于解釋和快速擬合算法時，線性回歸可作為評估其他更復(fù)雜回歸模型的基準(zhǔn)。（2）非線性回歸1）工作原理：非線性回歸是一種有助于描述試驗數(shù)據(jù)中非線性關(guān)系的統(tǒng)計建模技術(shù)。2）最佳使用時機(jī)：當(dāng)數(shù)據(jù)有很強(qiáng)的非線性趨勢，不容易轉(zhuǎn)化成線性空間時，可適用于自定義模型與數(shù)據(jù)擬合。（3）高斯過程回歸1）工作原理：高斯過程回歸（GPR）模型是非參數(shù)模型，用于預(yù)測連續(xù)因變量的值。2）最佳使用時機(jī)：適用于對空間數(shù)據(jù)插值，如針對地下水分布的水文地質(zhì)學(xué)數(shù)據(jù)、作為有助于優(yōu)化汽車發(fā)動機(jī)等復(fù)雜設(shè)計的替代模型。（4）SVM回歸1）工作原理：SVM回歸算法類似于SVM分類算法，但經(jīng)過改良，能夠預(yù)測連續(xù)響應(yīng)。2）最佳使用時機(jī)：適用于高維數(shù)據(jù)（將會有大量的預(yù)測自變量）。（5）廣叉線性模型1）工作原理：廣義線性模型是使用線性方法的非線性模型的一種特殊情況。2）最佳使用時機(jī)：當(dāng)因變量有非正態(tài)分布時，如始終預(yù)期為正值的因變量。（6）回歸決策樹1）工作原理：回歸決策樹類似于分類決策樹，但經(jīng)過改良能夠預(yù)測連續(xù)響應(yīng)，如圖6-6所示。應(yīng)用案例預(yù)測能量負(fù)荷1）改進(jìn)模型。2）特征選擇。3）特征變換。4）訓(xùn)練模型。5）超參數(shù)調(diào)優(yōu)。6.1概述6.1概述（1）擬合系數(shù)R2其定義為（2）模型的假定關(guān)于多元回歸模型y=??0+??0x1+??2x2+?+??mxm+??

中誤差項??的假定要注意以下兒點：1）誤差項??是一個隨機(jī)變量，其均值或者期望值力0，即E（??）=0。2）對于所有的白變量x1，x2，…，xm的值，??的方差多是相同的。3）??的值是互相獨立的。4）誤差項??是一個服從隨機(jī)正態(tài)分布的隨機(jī)變量，它反映了y值和由??0+??0x1+??2x2+?+??mxm給出的期望值之間的離差。（3）顯著性檢驗1）F檢驗6.1概述2）t檢驗。（4）多重共線性在回歸分析中使用自變量來表示用于預(yù)測或解釋因變量的任何變量，但是這個術(shù)語并不意味著自變量本身在統(tǒng)計意義上是獨立的。（5）利用回歸模型進(jìn)行預(yù)測利用回歸方程=??0+??0x1+??2x2+?+??mxm，給出一組具體的自變量的值，能得到對應(yīng)的預(yù)測值的點估計。6.2一元曲線擬合6.2.1案例1—百貨商場銷售額步驟1準(zhǔn)備數(shù)據(jù)，在命令窗口中輸入以下代碼：步驟2打開“CurveFitting”APP。步驟3在CurveFiting界面選擇對應(yīng)的數(shù)據(jù)，在“Xdata”下拉列表框中選擇“x”，在“Ydata”下拉列表框中選擇“y”，如圖6-10所示。步驟4通過從“Degree”下拉列表框中選擇“2”，可將擬合更改為二次多項式。步驟5修改“Fitname”為“poly2”。步驟6展示殘差圖，可選擇“View—ResidualsPlot”菜單命令，用殘差表示這一商業(yè)活動效果更佳。6.2一元曲線擬合步驟7添加新擬合以嘗試其他庫方程式。6.2一元曲線擬合6.2一元曲線擬合6.2一元曲線擬合6.2一元曲線擬合步驟8以同樣方法添加新擬合，在圖6-12所示的圓圈標(biāo)記處單擊下拉箭頭。6.2一元曲線擬合步驟9以同樣的方法創(chuàng)建冪函數(shù)（power）擬合，如圖6-14所示。6.2一元曲線擬合6.2.2確定最優(yōu)擬合6.2.3導(dǎo)出模型到工作空間6.2一元曲線擬合6.2一元曲線擬合6.3多元線性回歸模型6.3.1案例2——牙膏的銷售量6.3多元線性回歸模型6.3多元線性回歸模型1.分析與假設(shè)2.基本模型的建立與求解（1）基本模型的建立了大致分析y與x1和x2的關(guān)系，首先利用表6-1中的數(shù)據(jù)分別作出y對x1和x2的散點圖（見圖6-19）。6.3多元線性回歸模型（2）基本模型求解直接使用Matla中的fitlm求解，代碼保存在ex7_2中，代碼如下：6.3多元線性回歸模型6.3多元線性回歸模型6.3多元線性回歸模型3.基本模型的改進(jìn)6.3多元線性回歸模型6.3.2案例3——白變量含有分類變量的處理1.問題分析6.3多元線性回歸模型2.模型的建立與求解3.殘差圖分析4.考慮自變量的交互影響6.3多元線性回歸模型6.4逐步回歸模型案例4Matlab中的had.mat數(shù)據(jù)集是（Hald,1960）關(guān)于水泥生產(chǎn)的數(shù)據(jù)。6.4逐步回歸模型第7章聚類分析7.1

簡介7.1.1聚類分析的類型1.按分類對象不同進(jìn)行聚類7.1

簡介（1）R型聚類分析的主要作用1）不但可以了解個別變量之間的親疏程度，而且可以了解各個變量組合之間的親疏程度。2）根據(jù)變量的分類結(jié)果以及它們之間的關(guān)系，可以選擇主要變量進(jìn)行Q型聚類分析或回歸分析（R2選擇標(biāo)準(zhǔn)）。（2）Q型聚類分析的主要作用1）可以綜合利用多個變量的信息對樣本進(jìn)行分析。2）分類結(jié)果直觀，聚類譜系圖清楚地表現(xiàn)數(shù)值分類的結(jié)果。3）聚類分析所得到的結(jié)果比傳統(tǒng)分類方法更細(xì)致、全面、合理。2.按分類對象的劃分進(jìn)行聚類1）使用自我組織的特征圖或?qū)哟尉垲悾檎覕?shù)據(jù)中可能的結(jié)構(gòu)。2）使用聚類評估，查找給定聚類算法的“最佳”組數(shù)。7.1

簡介3.Matlab中常見的硬聚類算法（1）k均值（kMeans）聚類算法1）原理。2）最佳使用時機(jī)。（2）k中心（kMedoids）聚類算法1）原理。2）最佳使用時機(jī)。7.1

簡介（3）層次聚類算法1）原理。2）最佳使用時機(jī)。（4）自組織映射聚類算法1）原理。2）最佳使用時機(jī)。7.1

簡介4.Matlab中常見的軟聚類算法（1）模糊c均值聚類算法1）原理。2）最佳使用時機(jī)。（2）高斯混合模型聚類算法1）原理。2）最佳使用時機(jī)。7.1

簡介7.1.2聚類分析的依據(jù)1.距離7.1

簡介7.1

簡介2.夾角余弦3.相關(guān)系數(shù)7.2譜系聚類1.譜系聚類法基本思想1）聚類開始時將n個樣品（或p個變量）各自作為一類，并規(guī)定樣品之間的距離和類與類之間的距離。2）將距離最近的兩類合并成一個新類。3）計算新類與其他類之間的距離，重復(fù)進(jìn)行兩個最近類的合并，每次減少一類，直至所有的樣品（或p個變量）合并成一類。2.譜系聚類法基本步驟1）選擇樣本間距離及類間距離。2）計算n個樣本兩兩之間的距離，得到距離矩陣。3）構(gòu)造各類，每個類暫時只含有一個樣本。4）合并符合類間距離定義要求的兩類力一個新類。7.2譜系聚類7.2譜系聚類5）計算新類與當(dāng)前各類的距離。6）畫出譜系聚類圖。7）作出結(jié)論，決定類的個數(shù)和類。3.Matlab中譜系聚類法的主要方法（1）pdist方法pdist方法的主要作用是計算構(gòu)成樣品對的樣品之間的距離，調(diào)用格式如下：1）y=pdist（x）。2）y=pdist（x,metric）。7.2譜系聚類7.2譜系聚類（2）squareform方法squareform方法用來將pdist函數(shù)輸出的距離轉(zhuǎn)化為距離矩陣，也可將距離矩陣轉(zhuǎn)化為距離向量。1）z=squareform（y）：將pdist函數(shù)輸出的距離向量轉(zhuǎn)化力距離矩陣。2）y=squareform（z）：將距離矩陣轉(zhuǎn)化為距離向量。（3）linkage方法linkage函數(shù)用來創(chuàng)建系統(tǒng)聚類樹，調(diào)用格式如下：1）z=linkage（y）：創(chuàng)建系統(tǒng)聚類樹，1是樣品對的距離向量，一般是pdist方法的輸出結(jié)果。2）z=linkage（y,method）：利用method參數(shù)指定的方法創(chuàng)建系統(tǒng)聚類樹，method是字符串，可用字符串見表7-2。7.2譜系聚類（4）dendrogram方法dendrogram方法用于創(chuàng)建聚類樹形圖，調(diào)用格式為：（5）inconsistent函數(shù)inconsistent函數(shù)用來計算譜系聚類樹矩陣Z中每次并類得到的鏈接的不一致系數(shù)，調(diào)用格式力：7.2譜系聚類（6）clusterdata方法clusterdata函數(shù)調(diào)用了pdist、linkage和cluster函數(shù)，用來由原始樣本數(shù)據(jù)矩陣X創(chuàng)建系統(tǒng)聚類。例7.1設(shè)有5個樣品，分別表示北京、上海、安徽、陜西和新疆，每個樣品只測試了一個指標(biāo)，指標(biāo)值分別為1、2、6、8、11，若樣品間采用絕對值距離，下面用最短距離法對這5個樣品進(jìn)行聚類。解：計算過程如下。1）計算距離矩陣，代碼如下，結(jié)果如圖7-9所示。7.2譜系聚類7.2譜系聚類2）分步聚類，繪制聚類樹形圖，代碼如下，結(jié)果如圖7-10所示。7.2譜系聚類例7.2（樣品聚類綜合案例）圖7-11所示2007年我國31個省、白治區(qū)、直轄市的城鎮(zhèn)居民家庭平均每人年消費性支出的8個主要數(shù)據(jù)變量，利用譜系聚類法，對各地區(qū)進(jìn)行聚類分析。7.2譜系聚類解：計算過程如下。1）讀取數(shù)據(jù)，并進(jìn)行標(biāo)準(zhǔn)化：2）調(diào)用clusterdata函數(shù)進(jìn)行一步聚類：7.2譜系聚類3）分步聚類：4）作出聚類樹形圖，如圖7-12所示。5）確定分類個數(shù)。7.2譜系聚類7.2譜系聚類例7.3（變量聚類綜合案例）在全國服裝標(biāo)準(zhǔn)制定中，對某地區(qū)成年女子的14個部位尺寸（體型尺寸）進(jìn)行了測量，根據(jù)測量數(shù)據(jù)計算得到14個部位尺寸之間的相關(guān)系數(shù)矩陣，試對14個部位進(jìn)行聚類分析。7.2譜系聚類解：計算過程如下。1）讀取數(shù)據(jù)。2）把數(shù)據(jù)轉(zhuǎn)為距離向量，設(shè)xi和xj的相關(guān)系數(shù)為pij，定義它們之間的距離為3）調(diào)用linkage函數(shù)創(chuàng)建系統(tǒng)聚類樹。7.2譜系聚類4）繪制聚類樹形圖，作出的聚類樹形圖如圖7-14所示。7.3

k均值聚類7.3.1k均值聚類概述7.3

k均值聚類7.3

k均值聚類1）從數(shù)據(jù)集中隨機(jī)取k個元素，作次k個簇各自的中心。2）分別計算剩下的元素到h個簇中心的相異度，將這些元素分別劃歸到相異度最低的簇。3）根據(jù)聚類結(jié)果，重新計算個簇各自的中心，計算方法是取簇中所有元素各自維度的算術(shù)平均數(shù)。4）將數(shù)據(jù)集中全部元素按照新的中心重新聚類。5）重復(fù)第4）步，直到聚類結(jié)果不再變化。6）將結(jié)果輸出。7.3

k均值聚類7.3

k均值聚類7.3.2k均值聚類算法的Matlab函數(shù)1.kmeans函數(shù)（1）idx=kmeans（X,k）將n個觀測點分為k個類，輸入?yún)?shù)X為n×p的矩陣，矩陣的每行對應(yīng)一個點，每列對應(yīng)一個變量。（2）［idx,C］=kmeans（X,k）返回個類的類重心坐標(biāo)矩陣，C是一個k×p的矩陣，第i行元素第i類的類重心坐標(biāo)。（3）［idx,C,sumd」=kmeans（X,k）返回類內(nèi)距離和（即類內(nèi)各點與類重心距離之和）向量sumd，C是一個1xk的矩陣，第i行元素第i類的類內(nèi)距離之和。（4）［idx,C,sumd,D］=kmeans（X,k）返回每個點與每個類重心之間距離矩陣D，D是一個n×k的矩陣，第i行第j列元素第i個點第j類重心之間的距離。（5）［…］=kmeans（X,k，參數(shù)1，值1，參數(shù)2，值2）允許用戶設(shè)置更多的參數(shù)及參數(shù)值，用來7.3

k均值聚類2.silhouette函數(shù)（1）silhouette（X,idx）根據(jù)樣本X和聚類結(jié)果idx繪制輪廓圖。（2）s=silhouette（X,idx）返回輪廓向量s，元素對應(yīng)點的輪廓值。（3）[S,H]=

silhouette（X,idx）返回輪廓向量S和繪圖句柄H。（4）[S,H]=silhouette(X,idx,metric)

metric用來指定距離計算的方法，如'Euclidean'。7.3

k均值聚類例7.5在20世紀(jì)20年代，植物學(xué)家Fisher收集了150個inis標(biāo)本的萼片長度、萼片寬度、花瓣長度和花瓣寬度的測量值，其中50個來自3個物種中的每一個。解：計算過程如下。1）準(zhǔn)備模型：7.3

k均值聚類2）為了更好地理解聚類，首先以花瓣長度和花瓣寬度繪制散點圖，如圖7-24所示。7.3

k均值聚類控制kmeans函數(shù)所用的迭代算法，可用的參數(shù)名和參數(shù)值讀者可以在Matlab的命令窗口運行helpkmeans來學(xué)習(xí)。例7.4針對例7-1的數(shù)據(jù)，利用kmeans函數(shù)進(jìn)行k均值聚類算法，代碼和結(jié)果如下：7.3

k均值聚類3）下面調(diào)用kmeans函數(shù)將數(shù)據(jù)集區(qū)分為三類，并繪制聚類輪廓圖。7.3

k均值聚類7.3

k均值聚類7.3.3k均值聚類算法的特點1）在k均值聚類算法中的k是事先給定的，這個k值的選定是非常難以估計的。2）在k均值聚類算法中，首先需要根據(jù)初始聚類中心來確定一個初始劃分，然后對初始劃分進(jìn)行優(yōu)化。3）k均值聚類算法需要不斷地進(jìn)行樣本分類調(diào)整，不斷地計算調(diào)整后新的聚類中心，因此當(dāng)數(shù)據(jù)量非常大時，算法的時間開銷也非常大。4）k均值聚類算法對一些離散點和初始k值敏感，不同的距離初始值對同樣的數(shù)據(jù)樣本可能得到不同的結(jié)果。7.3

k均值聚類7.3.4k均值聚類算法綜合應(yīng)用例7.6examp：3.xls表列出了43↑國家和地區(qū)3年（1990年、2000年、2006年）的嬰兒死亡率和出生時預(yù)期壽命數(shù)據(jù)。7.3

k均值聚類解：計算過程如下。1）讀取數(shù)據(jù)：2）進(jìn)行標(biāo)準(zhǔn)化變換：3）選取初始凝聚點進(jìn)行聚類：7.3

k均值聚類4）繪制輪廓圖：7.3

k均值聚類5）查看聚類結(jié)果：7.4層次聚類7.4.1概述1）如何計算兩個點的距離？2）如何計算兩個類別之間的距離？①最鄰近距離（SingleLinkage），就是取兩個集合中距離最近的兩個點的距離作力這兩個集合的距離，容易造成一種叫做鏈接的效果，兩個聚類明明從“大局”上離得比較遠(yuǎn)，但是由于其中個別的點距離比較近就被合并了，并且這樣合并之后鏈接效應(yīng)會進(jìn)一步擴(kuò)大，最后會得到比較松散的聚類。②CompleteLinkage。③GroupAverage。1）待分割的聚類記G，在G中取出一個到其他點的平均距離最遠(yuǎn)的點x，構(gòu)成新聚類H。2）在G中選取這樣的點x'，使得x'到G中其他點的平均距離減去x'到H中所有點的平均距離這個差值最大，將其歸入H中。7.4層次聚類3）重復(fù)上一個步驟，直到差值為負(fù)。7.4.2層次聚類算法的Matlab實現(xiàn)例7.7這里仍然以上面的iris數(shù)據(jù)集來實現(xiàn)層次聚類。7.4層次聚類7.4層次聚類7.4.3層次聚類算法的特點1）在凝聚層次聚類算法和分裂層次聚類算法中，都需要用戶提供所希望得到的聚類的單個數(shù)量和閾值作為聚類分析的終止條件，但對于復(fù)雜的數(shù)據(jù)來說這是很難事先判定的。2）由于層次聚類算法要使用距離矩陣，所以它的時間和空間復(fù)雜度都很高，幾乎不能在大數(shù)據(jù)集上使用。7.5高斯混合模型聚類7.5.1簡介1）估計數(shù)據(jù)由每個Component生成的概率（并不是每個Component被選中的概率）。2）估計每個Component的參數(shù)。3）重復(fù)迭代前面兩步，直到似然函數(shù)的值收斂力止。7.5高斯混合模型聚類7.5.2高斯混合模型聚類算法的Matlab實現(xiàn)例7.8在Matlab中可以利用函數(shù)gmdistribution.fit來實現(xiàn)聚類。第8章分類8.1分類算法簡介8.1.1邏輯回歸分類算法1）y是一個定量的變量，這時就用通常的regress函數(shù)對y進(jìn)行回歸。2）y是一個定性的變量，如y=0或1，這時就不能用常規(guī)的regress函數(shù)對y進(jìn)行回歸，而要使用邏輯回歸（LogisticRegression）。1.工作原理2.最佳使用時機(jī)8.1分類算法簡介8.1.2K近鄰分類算法1.エ作原理2.最佳使用時機(jī)3.K近鄰分類算法的具體步驟1）初始化距離為最大值。2）計算未知樣本和每個訓(xùn)練樣本的距離dist。3）得到目前K個最鄰近樣本中的最大距離maxdist。4）如果dist<maxdist，則將訓(xùn)練樣本作為k最近鄰樣本。5）重復(fù)步驟2）~4），直到來知樣本和所有訓(xùn)練樣本的距離都算完。6）統(tǒng)計k個最近鄰樣本中每個類別出現(xiàn)的次數(shù)。7）選擇出現(xiàn)頻率最大的類別作未知類別出現(xiàn)的次數(shù)。8.1分類算法簡介8.1.3支持向量機(jī)分類算法1.工作原理2.最佳使用時機(jī)8.1分類算法簡介8.1.4人工神經(jīng)網(wǎng)絡(luò)分類算法1.工作原理2.最佳使用時機(jī)8.1分類算法簡介8.1.5樸素貝葉斯分類算法1.工作原理2.最佳使用時機(jī)8.1分類算法簡介8.1.6判別分析分類算法1.工作原理2.最佳使用時機(jī)8.1分類算法簡介8.1.7決策樹分類算法1.工作原理2.最佳使用時機(jī)8.1分類算法簡介8.1.8集成學(xué)習(xí)分類算法1）Bagging的訓(xùn)練集是隨機(jī)的，各訓(xùn)練集是獨立的；而Boosting訓(xùn)練集的選擇不是獨立的，每次選擇的訓(xùn)練集都依賴于上一次學(xué)習(xí)的結(jié)果。2）Bagging的每個預(yù)測函數(shù)都沒有權(quán)重；而Boosting根據(jù)每次訓(xùn)練的誤差得到該次預(yù)測函數(shù)的權(quán)重。3）Bagging的各個預(yù)測函數(shù)可以并行生成；而Boosting只能順序生成。1.工作原理2.最佳使用時機(jī)8.2分類的評判8.2.1評判指標(biāo)1）TruePositive（TP）：指模型預(yù)測為正（1）的，并且實際上也的確是正（1）的觀察對象的數(shù)量。2）TrueNegative（TN）：指模型預(yù)測為負(fù)（0）的，并且實際上也的確是負(fù)（0）的觀察對象的數(shù)量。3）FalsePositive（FP）：指模型預(yù)測為正（1）的，并且實際上是負(fù)（0）的觀察對象的數(shù)量。4）FalseNegative（FN）：指模型預(yù)測為負(fù)（0）的，并且實際上是正（1）的觀察對象的數(shù)量。8.2分類的評判（1）AccuracyRate（正確率）模型總體正確率，是指模型能正確預(yù)測、識別1和0的對象數(shù)量與預(yù)測對象總數(shù)的比值，公式為（2）Errorrate（錯誤率）模型總體的錯誤率，是指模型錯誤預(yù)測、錯誤識別1和0觀察對象與預(yù)測對象總數(shù)的比值，也即是1減去正確率，公式為（3）Sensitivity（靈敏性）又稱擊中率或真陽率，模型正確識別為正（1）的對象占全部觀察對象中實際為正（1）的對象數(shù)量的比值，公式為8.2分類的評判（4）Specificity（特效性）又稱為真負(fù)率，模型正確識別為負(fù)（0）的對象占全部觀察對象中實際負(fù)（0）的對象數(shù)量的比值，公式為（5）Precision（精度）模型的精度是指模型正確識別正（1）的對象占模型識別正（1）的對象數(shù)量的比值，公式為（6）FalsePositiveRate（錯正率）又稱假陽率，模型錯誤識別為正（1）的對象占實際為負(fù)（0）的對象數(shù)量的比值，即1減去真負(fù)率，公式為8.2分類的評判（7）NegativePredictiveValue（負(fù)元正確率）模型正確識別力負(fù)（0）的對象占模型識別為負(fù)（0）的觀察對象總數(shù)的比值，公式為（8）FalseDiscoveryValue（正元錯誤率）模型錯誤識別正（1）的對象占模型識別正（1）的觀察對象總數(shù)的比值，公式為8.2分類的評判8.2.2ROC曲線和AUC8.3判別分析分類的具體應(yīng)用8.3.1判別分析的定義、特點和類型1.定義2.特點3.判別分析類型（1）距離判別首先根據(jù)已知分類的數(shù)據(jù)，分別計算各類的重心，計算新個體到每類的距離，確定最短的距離（歐幾里得距離、馬哈拉諾比斯距離）。（2）Fisher判別利用已知類別個體的指標(biāo)構(gòu)造判別式（同類差別較小、不同類差別較大），按照判別式的值判斷新個體的類別。（3）貝葉斯判別（Bayes判別）計算新樣品屬于各總體的條件概率，比較概率的大小，然后將新樣品判歸次來自概率最大的總體。8.3判別分析分類的具體應(yīng)用8.3.2距離判別1.直接使用馬哈拉諾比斯距離實現(xiàn)距離判別1）計算A、B兩類的均值向量與協(xié)方差陣，即2）計算總體的協(xié)方差矩陣，即3）計算未知樣本x到A、B兩類馬哈拉諾比斯平方距離之差4）作出結(jié)論：若d<0，則x屬于A類；若d>0，則x屬于B類。8.3判別分析分類的具體應(yīng)用例8.1（1989年國際數(shù)學(xué)競賽A題）蠓的分類。解：根據(jù)上述計算過程，Matlab代碼如下：1）計算A、B兩類的均值向量與協(xié)方差陣力8.3判別分析分類的具體應(yīng)用2）計算總體的協(xié)方差矩陣，即3）計算未知樣本×到A、B兩類馬哈拉諾比斯距離之差，即4）若d<0，則x屬于A類；若d>0，則x屬于B類。2.使用Matlab統(tǒng)計工具箱的函數(shù)實現(xiàn)距離判別1)class=classify(sample,training,group)2)class=classify(samp

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Matlab 數(shù)據(jù)分析課件全套康海剛第1-8章數(shù)據(jù)的基本概念及其應(yīng)用-分類

文檔簡介

溫馨提示

最新文檔

評論

Matlab 數(shù)據(jù)分析 課件全套 康海剛 第1-8章 數(shù)據(jù)的基本概念及其應(yīng)用-分類

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

Matlab 數(shù)據(jù)分析課件全套康海剛第1-8章數(shù)據(jù)的基本概念及其應(yīng)用-分類