Matlab 數(shù)據(jù)分析 課件 康海剛 第1-5章 數(shù)據(jù)的基本概念及其應用-數(shù)據(jù)探索與分析_第1頁
Matlab 數(shù)據(jù)分析 課件 康海剛 第1-5章 數(shù)據(jù)的基本概念及其應用-數(shù)據(jù)探索與分析_第2頁
Matlab 數(shù)據(jù)分析 課件 康海剛 第1-5章 數(shù)據(jù)的基本概念及其應用-數(shù)據(jù)探索與分析_第3頁
Matlab 數(shù)據(jù)分析 課件 康海剛 第1-5章 數(shù)據(jù)的基本概念及其應用-數(shù)據(jù)探索與分析_第4頁
Matlab 數(shù)據(jù)分析 課件 康海剛 第1-5章 數(shù)據(jù)的基本概念及其應用-數(shù)據(jù)探索與分析_第5頁
已閱讀5頁,還剩148頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Matlab數(shù)據(jù)分析第1章數(shù)據(jù)的基本概念及其應用第2章Matlab基礎第3章隨機模擬第4章數(shù)據(jù)預處理第5章數(shù)據(jù)探索與分析第6章多元線性回歸模型第7章聚類分析第8章分類第1章數(shù)據(jù)的基本概念及其應用1.1數(shù)據(jù)與數(shù)據(jù)處理1.1.1數(shù)據(jù)的相關基本概念1.數(shù)據(jù)2.大數(shù)據(jù)(1)Volume(大量)數(shù)據(jù)存儲單位從過去的GB、TB,到現(xiàn)在的PB、EB、ZB量級了。(2)Velocity(高速)生活中每個人都離不開互聯(lián)網(wǎng),每個人每天都在向大數(shù)據(jù)中心提供大量的信息,通過互聯(lián)網(wǎng)傳輸,大數(shù)據(jù)的產(chǎn)生非常迅速。(3)Variety(多樣)廣泛的數(shù)據(jù)來源決定了大數(shù)據(jù)形式的多樣性,任何形式的數(shù)據(jù)都可以產(chǎn)生作用。(4)Value(價值)大數(shù)據(jù)最大的價值在于通過從大量不相關的各種類型的數(shù)據(jù)中,挖掘出對未來趨勢與模式的預測分析有價值的數(shù)據(jù)。3.信息1.1數(shù)據(jù)與數(shù)據(jù)處理4.信息量1.1.2數(shù)據(jù)處理的主要概念1.算法2.數(shù)據(jù)挖掘3.機器學習1.1數(shù)據(jù)與數(shù)據(jù)處理1.1.3數(shù)據(jù)處理的流程第一階段:制定目標?該組織或單位什么要設立和研究該項目?缺少什么以及需要什么??該組織或單位正在做什么事情來解決問題?什么還不夠好?是否有可借鑒的經(jīng)驗??你需要什么種類的數(shù)據(jù)以及需要多少?團隊需要什么人員、哪些技術、多少時問?計算資源是什么??該組織或單位如何實施和應用你的結果?為了成功地應用部署,必須滿足哪些約束條件?1.1數(shù)據(jù)與數(shù)據(jù)處理第二階段:數(shù)據(jù)準備?什么數(shù)據(jù)可以我所用??這些數(shù)據(jù)是否有助于解決問題??這些數(shù)據(jù)是否足夠多??數(shù)據(jù)的質量是否足夠好?第三階段:建立模型1)特征化。2)打分。3)排序。4)關聯(lián)。5)分類。1.1數(shù)據(jù)與數(shù)據(jù)處理6)聚類。7)異常檢測。第四階段:評價與批判模型?對你的需求來說是否足夠準確?它是否能很好地概括需求??它是否比“直觀猜測”表現(xiàn)得更好?比你當前使用的任何估計都表現(xiàn)得更好?比之前使用的模型方法是否更好??模型結果(系數(shù)、聚簇、規(guī)則)在專業(yè)領域的情景是否有意義?也就是說,模型給出的結果是否符合實際情況??模型是否足夠精確?是否有更好的方式?第五階段:展示結果和文檔第六階段:模型實施與維護1.1數(shù)據(jù)與數(shù)據(jù)處理1.1.4數(shù)據(jù)處理的誤區(qū)1.不要用單一類型的數(shù)據(jù)去評價全局2.不要夸大偶然事件,認為帶來必然結果3.避免唯數(shù)據(jù)論4.不是從問題實際出發(fā),寄希望于軟件“黑箱”工具1.2數(shù)據(jù)處理涉及的主要領域1.2.1統(tǒng)計學1.2.2數(shù)據(jù)挖掘1)處理的數(shù)據(jù)規(guī)模十分龐大,達到GB、TB數(shù)量級。2)查詢一般是決策制定者提出的即時查詢,往往不能形成精確的查詢要求,需要靠系統(tǒng)本身尋找其可能感興趣的內容。3)在一些應用領域,由于數(shù)據(jù)變化迅速,因此要求數(shù)據(jù)挖掘能快速做出相應反應以隨時提供決策支持。4)數(shù)據(jù)挖掘中,規(guī)則的發(fā)現(xiàn)基于統(tǒng)計規(guī)律。5)數(shù)據(jù)挖掘所發(fā)現(xiàn)的規(guī)則是動態(tài)的,它只反映了當前狀態(tài)的數(shù)據(jù)庫具有的規(guī)則,隨著不斷地向數(shù)據(jù)庫中加入新數(shù)據(jù),需要隨時對其進行更新。1.2數(shù)據(jù)處理涉及的主要領域1.2.3云計算(1)超大規(guī)?!霸啤本哂邢喈?shù)囊?guī)模,Google云計算已經(jīng)擁有100多萬臺服務器,Amazon、IBM、微軟、Yahoo等的“云”均擁有幾十萬臺服務器。(2)虛擬化云計算支持用戶在任意位置、使用各種終端獲取應用服務。(3)高可靠性“云”使用了數(shù)據(jù)多副本容錯、計算節(jié)點同構可互換等措施來保障服務的高可靠性,使用云計算比使用本地計算機可靠。(4)通用性云計算不針對特定的應用,在“云”的支撐下可以構造出千變萬化的應用,同一個“云”可以同時支撐不同的應用運行。(5)高可擴展性“云”的規(guī)??梢詣討B(tài)伸縮,滿足應用和用戶規(guī)模增長的需要。(6)按需服務“云”是一個龐大的資源池,可按需購買;云可以像白來水、電、煤氣那樣計費。(7)極其廉價由于“云”的特殊容錯性,可以采用極其廉價的節(jié)點來構成云,“云”的自動化集中式管理使大量企業(yè)無須負擔日益高昂的數(shù)據(jù)中心管理成本,“云”的通用性使資源的利用率較之1.2數(shù)據(jù)處理涉及的主要領域傳統(tǒng)系統(tǒng)大幅提升,因此用戶可以充分享受“云”的低成本優(yōu)勢,經(jīng)常只要花費幾百美元、幾天時間就能完成以前需要數(shù)萬美元、數(shù)月時間才能完成的任務。(8)潛在的危險性云計算除了提供計算服務外,還必然提供了存儲服務。常見的云計算平臺有以下9個:(1)GoogleAppEngine

GoogleAppEngine是Google提供的服務,允許開發(fā)者在Google的基礎架構上運行網(wǎng)絡應用程序。(2)AmazonElasticBeanstalkElasticBeanstalk為在AWS(AmazonWebServices)云中部署和管理應用提供了一種方法。(3)微軟云Azure云計算服務平臺可以使客戶選擇的權力部署在以云計算基礎的互聯(lián)網(wǎng)服務上,或通過服務器,或把它們混合起來以任何方式提供給需要的業(yè)務。(4)阿里云與傳統(tǒng)的操作系統(tǒng)相比,依托云計算的阿里云OS具有明顯的優(yōu)勢。1.2數(shù)據(jù)處理涉及的主要領域(5)百度BAE平臺針對大數(shù)據(jù)的規(guī)模大、類型多、價值密度低等特征,百度云平臺提供的BAE(百度應用引擎)將提供高并發(fā)的處理能力,以滿足處理速度快的要求。(6)新浪SAE云計算平臺作為典型的云計算,SAE采用“所付即所用,所付僅所用”的計費理念,通過日志和統(tǒng)計中心精確地計算每個應用的資源消耗(包括CPU、內存、磁盤等)。(7)騰訊云騰訊云有著深厚的基礎架構,并且有著多年對海量互聯(lián)網(wǎng)服務的經(jīng)驗,可以為開發(fā)者及企業(yè)提供云服務器、云存儲、云數(shù)據(jù)庫和彈性Web引擎等整體一站式服務方案。(8)華為云華為云通過基于瀏覽器的云管理平臺,以互聯(lián)網(wǎng)線上自助服務的方式,為用戶提供云計算IT基礎設施服務。(9)盛大云盛大云是一個安全、快捷、自助化Taas和Paas服務的門戶入口。1.3數(shù)據(jù)處理的主要方法1.3.1數(shù)據(jù)采集(1)數(shù)據(jù)抓取通過程序從現(xiàn)有的網(wǎng)絡資源中提取相關信息,錄入到數(shù)據(jù)庫中。(2)數(shù)據(jù)導入將指定的數(shù)據(jù)源導入數(shù)據(jù)庫中,通常支持的數(shù)據(jù)源包括Excel表格、數(shù)據(jù)庫文件、XMI文檔、文本文件以及常用的數(shù)據(jù)庫(如SQLServer、Oracle、MySQL等)。(3)傳感設備自動采集數(shù)據(jù)有關數(shù)據(jù)或信息通過傳感設備傳輸?shù)街骺匕?,主控板對?shù)據(jù)或信息進行信號解析、算法分析和數(shù)據(jù)量化,將數(shù)據(jù)通過無線通信方式進行傳輸。1.3.2數(shù)據(jù)預處理(1)數(shù)據(jù)清理它是通過填寫缺失的值、光滑噪聲數(shù)據(jù)、識別或刪除離群點并解決不一致性來“清理”數(shù)據(jù)的。(2)數(shù)據(jù)集成將多個數(shù)據(jù)源中的數(shù)據(jù)結合起來并統(tǒng)一存儲,建立數(shù)據(jù)倉庫的過程實際上就是數(shù)據(jù)集成。1.3數(shù)據(jù)處理的主要方法(3)數(shù)據(jù)變換通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉換成適用于數(shù)據(jù)挖掘的形式。(4)數(shù)據(jù)歸約數(shù)據(jù)挖掘時往往數(shù)據(jù)量非常大,在少量數(shù)據(jù)上進行挖掘分析需要很長的時間,數(shù)據(jù)歸約技術可以用來得到數(shù)據(jù)集的歸約表示,這就使數(shù)據(jù)量小得多,但仍然接近于保持原數(shù)據(jù)的完整性,使結果與歸約前結果相同或幾乎相同。1.3.3數(shù)據(jù)分析1)老七種工具,即排列圖、因果圖、分層法、調查表、散步圖、直方圖、控制圖。2)新七種工具,即關聯(lián)圖、系統(tǒng)圖、矩陣圖、KJ法、計劃評審技術、PDPC法、矩陣數(shù)據(jù)圖。1.描述性數(shù)據(jù)分析2.探索性數(shù)據(jù)分析3.驗證性數(shù)據(jù)分析1.3數(shù)據(jù)處理的主要方法1.3.4數(shù)據(jù)挖掘算法1.3數(shù)據(jù)處理的主要方法1.監(jiān)督學習模型(1)決策樹決策樹是用于分類和預測的主要技術之一,決策樹學習是以實例為基礎的歸納學習算法,它著眼于從一組無次序、無規(guī)則的實例中推理出以決策樹表示的分類規(guī)則。(2)貝葉斯算法貝葉斯(Bayes)算法是一類利用概率統(tǒng)計知識進行分類的算法,如樸素貝葉斯(NaiveBayes)算法。(3)神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡是一種具有類似于大腦神經(jīng)突觸連接結構并能進行信息處理等應用的數(shù)學模型。(4)支持向量機(SupportVectorMachine,SVM)支持向量機是根據(jù)統(tǒng)計學習理論提出的一種新的學習方法,它的最大特點是根據(jù)結構風險最小化準則,以最大化分類間隔構造最優(yōu)分類超平面來提高學習機的泛化能力,較好地解決了非線性、高維數(shù)、局部極小點等問題。(5)集成學習分類模型集成學習是一種機器學習范式,它試圖通過連續(xù)調用單個的學習算法,獲得不同的基學習器,然后根據(jù)規(guī)則組合這些學習器來解決同一個問題,可以顯著地提高學習系統(tǒng)的1.3數(shù)據(jù)處理的主要方法泛化能力。(6)其他分類學習模型此外還有l(wèi)ogistics回歸模型、隱馬爾科夫分類模型(HMM)、基于規(guī)則的分類模型等眾多的分類模型,對于處理不同的數(shù)據(jù)、分析不同的問題,各種模型都有自己的特性和優(yōu)勢。2.無監(jiān)督學習模型(1)k-means聚類k-means算法的基本思想是初始隨機給定K個簇中心,按照最鄰近原則把待分類樣本點分到各個簇,然后按平均法重新計算各個簇的質心,從而確定新的簇心,一直迭代,直到簇心的移動距離小于某個給定的值。(2)基于密度的聚類根據(jù)密度完成對象的聚類。(3)層次聚類層次聚類就是對給定的數(shù)據(jù)集進行層次分解,直到滿足某種條件為止。(4)譜聚類譜聚類(SpectralClustering,SC)是一種基于圖論的聚類方法———將帶權無向圖劃分為兩個或兩個以上的最優(yōu)子圖,使子圖內部盡量相似,而子圖間距離盡量較遠,以達到常見聚類1.3數(shù)據(jù)處理的主要方法的目的。第2章Matlab基礎2.1

Matlab簡介2.1

Matlab簡介2.1.1Matlab的特點1)Matlab是一個交互式軟件系統(tǒng),輸入一條命令,立即就可以得到該命令的結果。2)具有強大的數(shù)值計算功能。3)Matlab符號運算功能。4)Matlab繪圖功能。5)編程功能。6)豐富的APPS。7)源程序開放。2.1.2Matlab窗口簡介?命令窗口(CommandWindow)?歷史命令窗口(HistoryCommandWindow)2.1

Matlab簡介?編輯調試窗口(Edit/DebugWindow)?圖像窗口(FigureWindow)?工作空間(Workspace)?當前目錄文件夾(CurrentFolder)?幫助窗口(HelpBrowser)?當前路徑窗口(CurrentDirectoryBrowser)本節(jié)將簡單介紹其中幾個窗口的基本操作方式。2.1

Matlab簡介1.命令窗口(CommandWindow)2.1

Matlab簡介2.1

Matlab簡介2.歷史命令窗口(HistoryCommandWindow)3.編輯調試窗口(Edit/DebugWindow)2.1

Matlab簡介4.圖像窗口(FigureWindow)2.1

Matlab簡介5.工作空間(Workspace)2.1

Matlab簡介2.1

Matlab簡介6.當前目錄文件夾(CurrentFolder)2.1

Matlab簡介2.2數(shù)組及其運算2.2.1變量和數(shù)組1.數(shù)值的記述2.變量命名規(guī)則1)變量名、函數(shù)名對字母大小寫是敏感的,如變量myvar和MyVar表示兩個不同的變量。2)變量名的第一個字符必須是英文字母,最多可包含63個字符(英文、數(shù)字和下連符),如myvar201是合法的變量名。3)變量名中不得包含空格、標點、運算符,但可以包含下連符。4)盡量避免與預定義變量名相同。3.Matlab默認的預定義變量2.2數(shù)組及其運算①如果用戶對表中任何一個預定義變量進行賦值,則該變量的默認值將被用戶新賦的值“臨時”覆蓋。②在遵循IEEE算法規(guī)則的機器上,被0除是允許的。2.2數(shù)組及其運算4.數(shù)組2.2數(shù)組及其運算5.數(shù)據(jù)類型2.2數(shù)組及其運算2.2.2變量的初始化1)用賦值語句初始化變量。2)用input函數(shù)從鍵盤輸入初始化變量。3)從文件讀取一個數(shù)據(jù)。1.用賦值語句初始化變量2.用捷徑表達式賦值3.用內置函數(shù)來初始化2.2數(shù)組及其運算4.用關鍵字input初始化變量2.2.3多維數(shù)組1.多維數(shù)組在內存中的存儲2.2數(shù)組及其運算2.用單個下標訪問多標數(shù)組2.2數(shù)組及其運算2.2.4子數(shù)組1.end函2.子數(shù)組在左邊的賦值語句的使用3.用一標量來給子數(shù)組賦值4.子數(shù)組的刪除2.2.5單元陣列2.2數(shù)組及其運算2.2數(shù)組及其運算2.2.6顯示輸出數(shù)據(jù)1.改變默認格式2.2數(shù)組及其運算2.disp函數(shù)3.用fprintf函數(shù)格式化輸出數(shù)據(jù)2.2.7數(shù)據(jù)文件2.2.8數(shù)組運算和矩陣運算2.2數(shù)組及其運算2.2數(shù)組及其運算2.2.9內置函數(shù)1.常用內置函數(shù)2.2數(shù)組及其運算2.其他內置函數(shù)(1)randrand產(chǎn)生一個在(0,1)之間的均勻分布的數(shù)。(2)randnrandn產(chǎn)生一個服從N(0,1)正態(tài)分布的隨機數(shù)。(3)find找出非0元素,也可以查找指定條件的元素,并返回元素所在位置索引。1)示例1:2)示例2:2.2數(shù)組及其運算3)示例3:(4)sort[Y,1]=sort(x)返回索引矩陣I,如果x是一個向量,則Y=x(I)。(5)fprintf格式化數(shù)據(jù)輸出與C語言中的printf函數(shù)用法相似,常見的數(shù)值處理函數(shù)見表2-8。2.2數(shù)組及其運算2.3作圖入門2.3作圖入門2.3.1簡單的直角坐標系作圖1.基本作圖操作2.3作圖入門2.3作圖入門2.3作圖入門2.聯(lián)合作圖2.3作圖入門2.3作圖入門2.3作圖入門2.3.2作圖的附加特性1.圖例2.3作圖入門2.3作圖入門2.控制坐標軸范圍2.3作圖入門3.在同一坐標系內畫出多個圖像2.3作圖入門2.3作圖入門4.創(chuàng)建多個圖像窗口5.子窗口2.3作圖入門2.3作圖入門6.對畫線的增強控制2.3作圖入門2.3作圖入門7.極坐標圖像2.4

Matlab程序設計2.4.1關系運算符和邏輯運算符1.關系運算符2.4

Matlab程序設計2.邏輯運算符2.4

Matlab程序設計3.邏輯函數(shù)2.4.2選擇結構1.if結構2.4

Matlab程序設計例2.1求一元二次方程的根。步驟1打開Script文件,在CommandWindow中輸入edit命令或按“Ctrl+N”組合鍵。步驟2在edit文件中輸入下述命令:步驟3保存Script文件。步驟4運行和調試Script文件。2.switch結構例2.2編寫一個學生成績管理程序。3.try/catch結構2.4

Matlab程序設計2.4.3循環(huán)結構1.

while循環(huán)例2.3使用歐幾里得算法求兩個整數(shù)的最大公約數(shù),偽代碼如下:2.4

Matlab程序設計2.for循環(huán)1)在for循環(huán)開始時,Matlab產(chǎn)生了控制表達式。2)第一次進入循環(huán),程序把循環(huán)控制表達式的第一列賦值于循環(huán)變量index,然后執(zhí)行循環(huán)體內的語句。3)在循環(huán)體的語句被執(zhí)行后,程序把循環(huán)控制表達式的下一列賦值于循環(huán)變量index,程序將再一次執(zhí)行循環(huán)體語句。4)只要在循環(huán)控制表達式中還有剩余的列,步驟3)將會重復執(zhí)行。例2.4階乘(factorial)函數(shù)。例2.5輸入一系列的測量數(shù),計算它們的平均數(shù)和標準差。1)在2.2節(jié)已經(jīng)學過,用賦值的方法可以擴展一個已知的數(shù)組。2)用for循環(huán)和向量計算是非常常見的。2.4

Matlab程序設計例2.6為了比較循環(huán)和向量算法執(zhí)行程序所用的時間,分別用這兩種方法編程,測試3個運算所花的時間。1)用for循環(huán)計算1~10000之間的每個整數(shù)的平方,而事先不初始化平方數(shù)組。2)用for循環(huán)計算1~10000之間的每個整數(shù)的平方,而事先初始化平方數(shù)組。3)用向量算法計算1~10000之間的每個整數(shù)的平方。3.break和continue語句例2.7for循環(huán)中的continue語句:2.4

Matlab程序設計4.循環(huán)嵌套例2.8用兩重for循環(huán)嵌套來計算。例2.9在for循環(huán)嵌套中包含break語句。2.5自定義函數(shù)(1)子程序的獨立檢測每個子程序都可以當作一個獨立的單元來編寫。(2)代碼的可復用性在許多情況下,一個基本的子程序可應用在程序的許多地方。(3)遠離意外副作用函數(shù)通過輸入?yún)?shù)列表(inputargumentlist)從程序中讀取輸入值,通過輸出參數(shù)列表(outputargumentlist)給程序返回結果。例2.10自定義函數(shù)dist2,用于計算笛卡兒坐標系中的點(x1,y1)與點(x2,y2)之間的距離。第3章隨機模擬3.1隨機數(shù)的生成1.模擬均勻分布隨機變量的函數(shù)2.模擬指數(shù)分布隨機變量的函數(shù)3.模擬正態(tài)分布隨機變量的函數(shù)3.2蒙特卡羅模擬3.2.1蒙特卡羅模擬估計面積3.2蒙特卡羅模擬3.2蒙特卡羅模擬3.2.2蒙特卡羅模擬尋求近似圓周率3.2蒙特卡羅模擬3.2.3蒙特卡羅模擬解決生日問題3.3隨機行為的模擬1.一枚正規(guī)硬幣2.一個不正規(guī)的骰子3.3隨機行為的模擬3.3隨機行為的模擬3.布朗運動3.4蒙特卡羅模擬應用案例:理發(fā)店系統(tǒng)研究1.問題分析2.模型假設1)60%的顧客只需剪發(fā),40%的顧客既要剪發(fā)又要洗發(fā)。2)每個服務員剪發(fā)需要的時間為5min,既剪發(fā)又洗發(fā)則需要8min。3)顧客的到達間隔時間服從指數(shù)分布。4)服務過程中服務員不休息。3.變量說明4.模型建立5.系統(tǒng)模擬(1)狀態(tài)(變量)3.4蒙特卡羅模擬應用案例:理發(fā)店系統(tǒng)研究1)等待服務的顧客數(shù)。2)A是否正在服務。3)B是否正在服務。(2)實體兩名服務員和多名顧客。(3)事件1)一名新顧客的到達2)A開始服務3)A結束服務4)B開始服務5)B結束服務(4)活動1)顧客排隊時間3.4蒙特卡羅模擬應用案例:理發(fā)店系統(tǒng)研究2)顧客們到達的間隔時間3)A的服務時間4)B的服務時間6.系統(tǒng)模擬算法設計7.系統(tǒng)模擬程序第4章數(shù)據(jù)預處理4.1認識數(shù)據(jù)4.1.1屬性4.1.2離散屬性和連續(xù)屬性4.2數(shù)據(jù)預處理概述1)數(shù)據(jù)清洗是通過填寫缺失的值、光滑噪聲數(shù)據(jù)、識別或刪除離群點,并解決不一致性等方式來“清洗”數(shù)據(jù)的。2)數(shù)據(jù)集成是把不同來源、格式、性質的數(shù)據(jù)在邏輯上或物理上有機地集中,以便更方便地進行數(shù)據(jù)挖掘工作,數(shù)據(jù)集成通過數(shù)據(jù)交換而達到,主要解決數(shù)據(jù)的分布性和異構性的問題。3)數(shù)據(jù)歸約就是得到數(shù)據(jù)集的簡化表示,雖然小得多,但能夠產(chǎn)生同樣的(或幾乎同樣的)分析結果。4.2數(shù)據(jù)預處理概述4)數(shù)據(jù)變換是將數(shù)據(jù)從一種表現(xiàn)形式變?yōu)榱硪环N表現(xiàn)形式的過程。4.2.1數(shù)據(jù)清洗1.缺失值處理(1)刪除法刪除法是對缺失值進行處理的最原始方法,它將存在缺失值的記錄刪除。(2)插補法它的思想來源是以最可能的值來插補缺失值,比全部刪除不完全樣本所產(chǎn)生的信息丟失要少。1)均值插補。2)回歸插補。3)極大似然估計。2.噪聲過濾(1)回歸法回歸法是用函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù)的。4.2數(shù)據(jù)預處理概述(2)均值平滑法均值平滑法是指對于具有序列特征的變量用鄰近若干數(shù)據(jù)的均值來替換原始數(shù)據(jù)的方法,如圖4-3所示。(3)離群點分析法離群點分析法是通過聚類等方法來檢測離群點,并將其刪除,從而實現(xiàn)去噪的方法。4.2數(shù)據(jù)預處理概述(4)小波去噪法在數(shù)學上,小波去噪的本質是一個函數(shù)逼近問題,即如何在由小波母函數(shù)伸縮和平移所展成的函數(shù)空間中,根據(jù)提出的衡量準則,尋找對原信號的最佳逼近,以完成原信號和噪聲信號的區(qū)分。4.2.2數(shù)據(jù)集成4.2數(shù)據(jù)預處理概述4.2.3數(shù)據(jù)歸約1)屬性選擇是通過刪除不相關或冗余的屬性(或維)來減少數(shù)據(jù)量的。2)樣本選擇也就是數(shù)據(jù)抽樣。4.2.4數(shù)掘變換1.標準化2.離散化4.3

Matlab與Excel的數(shù)據(jù)交互4.3.1以交互方式導入數(shù)據(jù)1)Matlab工具條:在主頁選項卡中的變量部分,單擊導入數(shù)據(jù)。2)Matlab命令提示符:輸入“uiimport”,在彈出的窗口中選擇需要導入的數(shù)據(jù)文件,如圖4-5所示。4.3

Matlab與Excel的數(shù)據(jù)交互4.3.2炭取和寫入表1.用readtable讀取表格數(shù)據(jù)2.用writetable寫入表格數(shù)據(jù)4.3

Matlab與Excel的數(shù)據(jù)交互4.3.3大型文件和大型數(shù)據(jù)簡介4.3.4數(shù)據(jù)的清理、平滑和分組等1.清除表中的雜亂數(shù)據(jù)和缺失數(shù)據(jù)(1)加載樣本數(shù)據(jù)從一個逗號分隔的文本文件messy.csv加載樣本數(shù)據(jù)。(2)匯總表使用summary函數(shù)創(chuàng)建匯總表來查看每個變量的數(shù)據(jù)類型、說明、單位和其他描述性統(tǒng)計量。(3)查找具有缺失值的行顯示表T中至少含有一個具有缺失值的行子集。(4)替換缺失值指示符清除相應數(shù)據(jù),將代碼-99所指示的缺失值替換標準的Matlab數(shù)值缺失值指示符NaN。(5)刪除具有缺失值的行創(chuàng)建一個新表T3,該表僅包含T中不帶缺失值的行。(6)組織數(shù)據(jù)先根據(jù)C列以降序對T3的行進行排序,然后根據(jù)A列以升序排序。4.3

Matlab與Excel的數(shù)據(jù)交互2.數(shù)據(jù)平滑和離群值檢測(1)移動均值方法移動均值方法是分批處理數(shù)據(jù)的方法,通常是為了從統(tǒng)計角度表示數(shù)據(jù)中的相鄰點。4.3

Matlab與Excel的數(shù)據(jù)交互4.3

Matlab與Excel的數(shù)據(jù)交互4.3

Matlab與Excel的數(shù)據(jù)交互4.3

Matlab與Excel的數(shù)據(jù)交互4.3

Matlab與Excel的數(shù)據(jù)交互(2)其他的平滑方法1)smoothdata函數(shù)提供幾種平滑選項,如Savitzky-Golay方法,這是一種常用的信號處理平滑技術。2)穩(wěn)健的Lowess方法是另一種平滑方法,尤其適用于同時包含噪聲和離群值的數(shù)據(jù)。(3)檢測離群值數(shù)據(jù)中的離群值可能使數(shù)據(jù)處理結果和其他計算量嚴重失真。4.3

Matlab與Excel的數(shù)據(jù)交互4.3

Matlab與Excel的數(shù)據(jù)交互4.3

Matlab與Excel的數(shù)據(jù)交互4.3

Matlab與Excel的數(shù)據(jù)交互(4)非均勻數(shù)據(jù)并非所有數(shù)據(jù)都由等間隔的點組成,這會影響數(shù)據(jù)處理的方法。4.3

Matlab與Excel的數(shù)據(jù)交互4.3

Matlab與Excel的數(shù)據(jù)交互4.3

Matlab與Excel的數(shù)據(jù)交互3.拆分數(shù)據(jù)變量及應用(1)加載電力中斷數(shù)據(jù)示例文件outages.csv包含表示美國電力中斷的數(shù)據(jù)。(2)計算最大電力損失確定每個地區(qū)因電力中斷而造成的最大電力損失。(3)計算受影響客戶的數(shù)量確定不同原因和地區(qū)的電力中斷對客戶的影響。(4)計算電力中斷的平均持續(xù)時間確定美國的所有電力中斷的平均持續(xù)時間(以小時為單位)。第5章數(shù)據(jù)探索與分析5.1數(shù)據(jù)的特征統(tǒng)計量5.1.1中心度量趨勢:均值、中位數(shù)、眾數(shù)5.1.2常用的變異程度度量1.極差2.方差3.標準差4.標準差系數(shù)5.四分位數(shù)間距5.1數(shù)據(jù)的特征統(tǒng)計量6.百分位數(shù)5.1.3分布形態(tài)5.2基本統(tǒng)計描述的可視化5.2.1分類型數(shù)據(jù)頻數(shù)分布及其可視化例5.1表5-1是X公司員工收入基本狀況調查表,用此表數(shù)據(jù)來說明對于分類型數(shù)據(jù)的頻數(shù)統(tǒng)計及其數(shù)據(jù)可視化。5.2基本統(tǒng)計描述的可視化例5.2使用Matlab數(shù)據(jù)統(tǒng)計信息。(1)打開“數(shù)據(jù)統(tǒng)計信息對話框”“數(shù)據(jù)統(tǒng)計信息”對話框可幫助您計算和繪制數(shù)據(jù)的描述性統(tǒng)計量。5.2基本統(tǒng)計描述的可視化5.2基本統(tǒng)計描述的可視化5.2基本統(tǒng)計描述的可視化(2)設置繪圖上數(shù)據(jù)統(tǒng)計量的格式“數(shù)據(jù)統(tǒng)計信息”對話框使用顏色和線型將統(tǒng)計量與繪圖上的數(shù)據(jù)區(qū)分開來。1)在Matlab窗口中,單擊工具欄中的(編輯繪圖)按鈕。2)雙擊要編輯其顯示屬性的繪圖上的統(tǒng)計量,例如,雙擊表示Station2均值的水平線。(3)將統(tǒng)計量保存到Matlab工作區(qū)執(zhí)行下列步驟可將統(tǒng)計量保存到Matlab工作區(qū)。5.2基本統(tǒng)計描述的可視化(4)查看新結構體變量可輸入變量名稱:5.2基本統(tǒng)計描述的可視化(5)生成代碼文件示例的此部分顯示如何從圖形生成Matlab代碼文件,再將代碼應用至新數(shù)據(jù)以重新生成相同格式的繪圖和統(tǒng)計量。5.2.2直方圖1.histogram函數(shù)繪制直方圖5.2基本統(tǒng)計描述的可視化例5.3創(chuàng)建直方圖。1)生成10000個隨機數(shù)并創(chuàng)建直方圖。2)對分類為25個等距離散化的10000個隨機數(shù)繪制直方圖,如圖5-13所示。5.2基本統(tǒng)計描述的可視化3)生1000個隨機數(shù)并創(chuàng)建直方圖。5.2基本統(tǒng)計描述的可視化2.確定基本概率分布1)生成5000個均值5、標準差力2的正態(tài)分布隨機數(shù)。2)對于均值為5、標準差為2的正態(tài)分布,疊加一個概率密度函數(shù)圖,如圖5-17所示。5.2基本統(tǒng)計描述的可視化例5.4對分類數(shù)據(jù)進行繪圖。1)工作區(qū)變量Location是一個字符向量單元數(shù)組,它包含患者就醫(yī)的3個唯一醫(yī)療機構。2)工作區(qū)變量。3)繪制直方圖。4)僅為健康狀況評估為Fair或Poor的患者繪制醫(yī)院位置直方圖,如圖5-19所示。5.2基本統(tǒng)計描述的可視化5)創(chuàng)建餅圖。5.2基本統(tǒng)計描述的可視化6)創(chuàng)建帕累托圖。5.2基本統(tǒng)計描述的可視化7)創(chuàng)建散點圖。5.2.3分位數(shù)圖和經(jīng)驗累計分布函數(shù)5.2基本統(tǒng)計描述的可視化5.2.4分位數(shù)-分位數(shù)圖——q-q圖5.2基本統(tǒng)計描述的可視化5.2基本統(tǒng)計描述的可視化5.2.5箱形圖1)最小值。2)第一個四分位數(shù)(Q1)。3)中位數(shù)(Q2)。4)第三個四分位數(shù)(Q3)。5)最大值。例5.5對于下述這組數(shù)據(jù):331033353450348034803490352035403550

36503730

3925,作出箱形圖。1)畫箱形圖時,把第和第三四分位數(shù)作力箱體的邊緣,Q1=3465

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論