版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1章數(shù)據(jù)挖掘與數(shù)據(jù)分析
概述CONTENTS目錄1.1數(shù)據(jù)分析和挖掘概念1.2數(shù)據(jù)挖掘的進(jìn)化歷程1.3數(shù)據(jù)分析與挖掘的應(yīng)用領(lǐng)域1.4數(shù)據(jù)分析與挖掘1.5
數(shù)據(jù)挖掘的流程1.6
數(shù)據(jù)分析與挖掘經(jīng)典算法1.7SmartbiMining企業(yè)數(shù)據(jù)挖掘平臺(tái)1.8.常用的數(shù)據(jù)分析與挖掘工具1.9.數(shù)據(jù)挖掘與分析對(duì)財(cái)會(huì)工作的影響01數(shù)據(jù)分析和挖掘概念數(shù)據(jù)分析(DataAnalysis)有廣義的數(shù)據(jù)分析和狹義的數(shù)據(jù)分析之分。其中廣義的數(shù)據(jù)分析就是包括狹義的數(shù)據(jù)分析和數(shù)據(jù)挖掘。而我們常說(shuō)的數(shù)據(jù)分析指的是狹義的數(shù)據(jù)分析。它指根據(jù)分析目的,用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法與工具,對(duì)收集來(lái)的數(shù)據(jù)進(jìn)行處理與分析,提取有價(jià)值的信息,發(fā)揮數(shù)據(jù)的作用。數(shù)據(jù)挖掘(DataMining)是指從大量的數(shù)據(jù)中,通過(guò)統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)等方法,挖掘出未知的、且有價(jià)值的信息和知識(shí)的過(guò)程。數(shù)據(jù)分析與挖掘(DataAnalysisandMining)都是基于搜集來(lái)的數(shù)據(jù),應(yīng)用數(shù)學(xué)、統(tǒng)計(jì)、計(jì)算機(jī)等技術(shù)抽取出數(shù)據(jù)中的有用信息,進(jìn)而為決策提供依據(jù)和指導(dǎo)方向。1.1.數(shù)據(jù)分析和挖掘概念02數(shù)據(jù)挖掘的進(jìn)化歷程1.2.數(shù)據(jù)挖掘的進(jìn)化歷程20世紀(jì)60年代數(shù)據(jù)收集階段20世紀(jì)90年代數(shù)據(jù)倉(cāng)庫(kù)決策與支持階段20世紀(jì)80年代數(shù)據(jù)倉(cāng)庫(kù)決策與支持階段21世紀(jì)的現(xiàn)在數(shù)據(jù)分析與挖掘階段03數(shù)據(jù)分析與挖掘的應(yīng)用領(lǐng)域1.3.數(shù)據(jù)分析與挖掘的應(yīng)用領(lǐng)域應(yīng)用領(lǐng)域01電商領(lǐng)域:發(fā)現(xiàn)破壞規(guī)則的“害群之馬”02交通出行領(lǐng)域:為打車(chē)平臺(tái)進(jìn)行私人訂制03醫(yī)療健康領(lǐng)域:找到最佳醫(yī)療方案04銀行風(fēng)險(xiǎn)和客戶(hù)管理領(lǐng)域:預(yù)防和控制資金非法流失,優(yōu)化客戶(hù)服務(wù)05企業(yè)危機(jī)管理領(lǐng)域:挖掘?qū)ζ髽I(yè)經(jīng)營(yíng)決策有用的知識(shí)06市場(chǎng)營(yíng)銷(xiāo)領(lǐng)域:降低了營(yíng)銷(xiāo)成本,提高了營(yíng)銷(xiāo)效率04數(shù)據(jù)分析與挖掘的區(qū)別1.4數(shù)據(jù)分析與挖掘的區(qū)別定義說(shuō)明二者區(qū)別側(cè)重點(diǎn)數(shù)據(jù)分析更側(cè)重于實(shí)際的業(yè)務(wù)知識(shí)數(shù)據(jù)挖掘更側(cè)重于技術(shù)的實(shí)現(xiàn)技能要求最終的輸出形式數(shù)據(jù)分析更多的是統(tǒng)計(jì)描述結(jié)果的呈現(xiàn)數(shù)據(jù)挖掘更多的是模型或規(guī)則的輸出05數(shù)據(jù)挖掘的流程1.5數(shù)據(jù)挖掘的流程01020304LOREMLOREMLOREMLOREM構(gòu)建模型數(shù)據(jù)搜集數(shù)據(jù)清洗明確目標(biāo)應(yīng)用部署模型評(píng)估LOREMLOREM060506數(shù)據(jù)分析與挖掘經(jīng)典算法1.6數(shù)據(jù)分析與挖掘經(jīng)典算法0607經(jīng)典算法08AdaBoost算法09020304K最近鄰分類(lèi)算法樸素貝葉斯模型聚類(lèi)算法支持向量機(jī)(SV)關(guān)聯(lián)規(guī)則算法PageRank算法01C4.510分類(lèi)與回歸樹(shù)05最大期望(EM)算法07SmartbiMining企業(yè)數(shù)據(jù)挖掘平臺(tái)1.7SmartbiMining企業(yè)數(shù)據(jù)挖掘平臺(tái)思邁特企業(yè)數(shù)據(jù)挖掘平臺(tái)(SmartbiMining)是用于預(yù)測(cè)性分析的獨(dú)立產(chǎn)品,旨在為企業(yè)所做的決策提供預(yù)測(cè)性智能。該平臺(tái)不僅可為用戶(hù)提供直觀的流式建模、拖拽式操作和流程化、可視化的建模界面,還提供了大量的數(shù)據(jù)預(yù)處理操作。此外,它內(nèi)置了多種實(shí)用的、經(jīng)典的機(jī)器學(xué)習(xí)算法,這些算法配置簡(jiǎn)單降低了機(jī)器學(xué)習(xí)的使用門(mén)檻,大大節(jié)省了企業(yè)成本,并支持標(biāo)準(zhǔn)的PMML模型輸出,可以將模型發(fā)送到Smartbi統(tǒng)一平臺(tái),與商業(yè)智能平臺(tái)實(shí)現(xiàn)了完美整合。08常用的數(shù)據(jù)分析與挖掘工具1.8常用的數(shù)據(jù)分析與挖掘工具R語(yǔ)言Python語(yǔ)言Weka平臺(tái)SPSS軟件系統(tǒng)SAS軟件系統(tǒng)常用的數(shù)據(jù)分析與挖掘工具09數(shù)據(jù)挖掘與分析對(duì)財(cái)會(huì)工作的影響1.9數(shù)據(jù)挖掘與分析對(duì)財(cái)會(huì)工作的影響首先,使會(huì)計(jì)人員和會(huì)計(jì)部門(mén)的角色定位發(fā)生根本變化。其次,確認(rèn)要素范圍將擴(kuò)展到數(shù)據(jù)資產(chǎn)和數(shù)據(jù)資本,也將更多地采用多維數(shù)據(jù)。挑戰(zhàn)數(shù)據(jù)挖掘主要應(yīng)用在戰(zhàn)略管理會(huì)計(jì)領(lǐng)域,實(shí)現(xiàn)經(jīng)營(yíng)環(huán)境分析、競(jìng)爭(zhēng)能力分析、價(jià)值鏈分析、成本動(dòng)因分析等,構(gòu)建智能財(cái)務(wù)預(yù)警系統(tǒng)應(yīng)用現(xiàn)狀會(huì)計(jì)人員和會(huì)計(jì)部門(mén)的角色定位發(fā)生根本改變,將分別轉(zhuǎn)變?yōu)閿?shù)據(jù)分析師、算法工程師和數(shù)據(jù)分析部門(mén);會(huì)計(jì)確認(rèn)的要素范圍將擴(kuò)展到數(shù)據(jù)資產(chǎn)和數(shù)據(jù)資本,會(huì)計(jì)人員所獲取的單維數(shù)據(jù)也將轉(zhuǎn)為多維數(shù)據(jù);信息使用者將由單向信息傳遞的被動(dòng)接受者變成雙向信息互通的主動(dòng)參與者;企業(yè)及會(huì)計(jì)人都將面臨時(shí)代賦予的機(jī)遇與挑戰(zhàn)。應(yīng)用展望對(duì)財(cái)會(huì)工作的影響感謝觀看第2章數(shù)據(jù)獲取與預(yù)處理CONTENTS目錄2.1數(shù)據(jù)類(lèi)型2.2數(shù)據(jù)獲取2.3數(shù)據(jù)質(zhì)量分析與清洗2.4數(shù)據(jù)特征分析2.5數(shù)據(jù)集成2.6數(shù)據(jù)規(guī)約012.1數(shù)據(jù)類(lèi)型結(jié)構(gòu)化數(shù)據(jù)由二維表結(jié)構(gòu)來(lái)邏輯表達(dá)和實(shí)現(xiàn)的數(shù)據(jù)嚴(yán)格地遵循數(shù)據(jù)格式與長(zhǎng)度規(guī)范2.1數(shù)據(jù)類(lèi)型序號(hào)姓名年齡性別1張三27男2李四33男3王五21男4趙六48女
數(shù)據(jù)特點(diǎn):關(guān)系模型數(shù)據(jù),關(guān)系數(shù)據(jù)庫(kù)表示。
常見(jiàn)格式:MySQL、Oracle、SQLServer等。
應(yīng)用場(chǎng)合:數(shù)據(jù)庫(kù)、系統(tǒng)網(wǎng)站、ERP等。
數(shù)據(jù)采集:數(shù)據(jù)庫(kù)導(dǎo)出、SQL方式等。半結(jié)構(gòu)數(shù)據(jù)比關(guān)系型數(shù)據(jù)庫(kù)或其他數(shù)據(jù)表形式關(guān)聯(lián)起來(lái)的數(shù)據(jù)模型結(jié)構(gòu)更加靈活和普通純文本相比又具有一定的結(jié)構(gòu)性2.1數(shù)據(jù)類(lèi)型數(shù)據(jù)特點(diǎn):非關(guān)系模型數(shù)據(jù),有一定的格式。常見(jiàn)格式:Email、HTML、XML、JSON等。應(yīng)用場(chǎng)合:郵件系統(tǒng)、檔案系統(tǒng)、新聞網(wǎng)站等。數(shù)據(jù)采集:網(wǎng)絡(luò)爬蟲(chóng)、數(shù)據(jù)解析等。非結(jié)構(gòu)化數(shù)據(jù)沒(méi)有固定結(jié)構(gòu)以二進(jìn)制的格式整體進(jìn)行存儲(chǔ)大數(shù)據(jù)時(shí)代,非結(jié)構(gòu)化數(shù)據(jù)扮演著越來(lái)越重要的角色2.1數(shù)據(jù)類(lèi)型數(shù)據(jù)特點(diǎn):沒(méi)有固定格式的數(shù)據(jù)。常見(jiàn)格式:文本、PDF、PPT、圖片、音頻、視頻等。應(yīng)用場(chǎng)合:人臉識(shí)別、文本分析、醫(yī)療影像分析等。數(shù)據(jù)采集:網(wǎng)絡(luò)爬蟲(chóng)、數(shù)據(jù)存檔等。022.2數(shù)據(jù)獲取文件是存儲(chǔ)在輔助存儲(chǔ)器上的數(shù)據(jù)序列,是數(shù)據(jù)的集合和抽象,有兩種展現(xiàn)形式:文本文件和二進(jìn)制文件。文本文件:由單一特定編碼的字符組成,如UTF-8編碼,適用于例如:txt文件,.py文件等。二進(jìn)制文件:直接由比特0和比特1組成,沒(méi)有統(tǒng)一字符編碼,適用于例如:.png文件,.avi文件等文件可以用“文本文件方式”和“二進(jìn)制文件方式”打開(kāi)2.2.1文件存取2.2.1文件存取2.1.txt文件保存:“實(shí)現(xiàn)中華民族偉大復(fù)興”文本方式打開(kāi)二進(jìn)制方式打開(kāi)2.2.1文件存取Python對(duì)文本文件和二進(jìn)制文件采用統(tǒng)一的操作步驟,即“打開(kāi)—操作—關(guān)閉”2.2.1文件存取Python通過(guò)open()函數(shù)打開(kāi)一個(gè)文件,并實(shí)現(xiàn)該文件與一個(gè)程序變量的關(guān)聯(lián),格式如下:<變量名>=open(<文件名>,<打開(kāi)模式>)2.2.1文件存取Python通過(guò)open()函數(shù)打開(kāi)一個(gè)文件,并實(shí)現(xiàn)該文件與一個(gè)程序變量的關(guān)聯(lián),格式如下:<變量名>=open(<文件名>,<打開(kāi)模式>)open()函數(shù)提供了7種基本打開(kāi)模式文件打開(kāi)模式描述'r'只讀模式,默認(rèn)值,如果文件不存在,返回FileNotFoundError'w'覆蓋寫(xiě)模式,文件不存在則創(chuàng)建,存在則完全覆蓋'x'創(chuàng)建寫(xiě)模式,文件不存在則創(chuàng)建,存在則返回FileExistsError'a'追加寫(xiě)模式,文件不存在則創(chuàng)建,存在則在文件最后追加內(nèi)容'b'二進(jìn)制文件模式't'文本文件模式,默認(rèn)值'+'與r/w/x/a一同使用,在原功能基礎(chǔ)上增加同時(shí)讀寫(xiě)功能2.2.1文件存取打開(kāi)模式中,'r'、'w'、'x'、'a'可以和'b'、't'、'+'組合使用,形成既表達(dá)讀寫(xiě)又表達(dá)文件模式的方式打開(kāi)模式含義說(shuō)明r+/rb+讀?。ǜ拢┠J揭宰x/寫(xiě)的形式打開(kāi)文本文件/二進(jìn)制文件,如果文件不存在,open()調(diào)用失敗w+/wb+寫(xiě)入(更新)模式以讀/寫(xiě)的形式創(chuàng)建文本文件/二進(jìn)制文件,如果文件已存在,則清空文件a+/ab+追加(更新)模式以讀/寫(xiě)的形式打開(kāi)文本/二進(jìn)制文件,但只允許在文件末尾添加數(shù)據(jù),若文件不存在,則創(chuàng)建新文件文件使用結(jié)束后,需用close()方法關(guān)閉,釋放文件的使用授權(quán),該方法的使用方式如下:<變量>.close()2.2.1文件存取文件內(nèi)容的讀取當(dāng)文件以文本方式打開(kāi)時(shí),讀寫(xiě)按照字符串方式,采用計(jì)算機(jī)使用的編碼或指定編碼當(dāng)文件以二進(jìn)制方式打開(kāi)時(shí),讀寫(xiě)按照字節(jié)流方式三種文件內(nèi)容讀取方式操作方法描述<f>.read(size=-1)讀入全部?jī)?nèi)容,如果給出參數(shù),讀入前size長(zhǎng)度<f>.readline(size=-1)讀入一行內(nèi)容,如果給出參數(shù)讀入該行前size長(zhǎng)度<f>.readlines(hint=-1)讀入文件所有行,以每行為元素形成列表,如果給出參數(shù),讀入前hint行2.2.1文件存取用戶(hù)輸入文件路徑,以文本文件方式讀入文件內(nèi)容并逐行打印提示用戶(hù)輸入一個(gè)文件名打開(kāi)文件并賦值給文件對(duì)象變量fo文件的全部?jī)?nèi)容通過(guò)fo.readlines()方法讀入到一個(gè)列表中通過(guò)for-in方式遍歷列表2.2.1文件存取文件內(nèi)容寫(xiě)入的3種方法操作方法描述<f>.write(s)向文件寫(xiě)入一個(gè)字符串或字節(jié)流<f>.writelines(lines)將一個(gè)元素全為字符串的列表寫(xiě)入文件<f>.seek(offset)改變當(dāng)前文件操作指針的位置,offset含義如下:0–文件開(kāi)頭;1–當(dāng)前位置;2–文件結(jié)尾2.2.1文件存取2.2.1文件存取fo.seek(0)將文件操作指針?lè)祷氐轿募_(kāi)始2.2.2CSV文件存取CSV(Comma-SeparatedValues),中文通常叫做逗號(hào)分隔值,是一種國(guó)際通用的一維、二維數(shù)據(jù)存儲(chǔ)格式常用pandas庫(kù)處理CSV文件2.2.2CSV文件存取代碼、體重和身高都作為DataFrame的數(shù)據(jù)進(jìn)行了讀取,而索引是系統(tǒng)自動(dòng)生成的0,1,2,3。如果想把代號(hào)作為索引進(jìn)行讀取,則執(zhí)行如下操作2.2.2CSV文件存取文件存儲(chǔ)有多種形式,CSV文件是比較常用而且方便的一種方式,使用pandas庫(kù)中to_csv()函數(shù)進(jìn)行存儲(chǔ)2.2.2CSV文件存取如果不需要dataframe中的索引,可以在to_csv()函數(shù)中設(shè)置index參數(shù)為None2.2.3網(wǎng)絡(luò)爬蟲(chóng)網(wǎng)絡(luò)爬蟲(chóng)是在萬(wàn)維網(wǎng)瀏覽網(wǎng)頁(yè)并按照一定規(guī)則提取信息的腳本或程序Python中常用與網(wǎng)絡(luò)爬蟲(chóng)的庫(kù)有Requests庫(kù)、Scrapy庫(kù)等在進(jìn)行網(wǎng)頁(yè)內(nèi)容爬取時(shí),使用Requests庫(kù)即可滿(mǎn)足要求2.2.3網(wǎng)絡(luò)爬蟲(chóng)性能騷擾法律風(fēng)險(xiǎn)隱私泄露2.2.3網(wǎng)絡(luò)爬蟲(chóng)來(lái)源審查:判斷User‐Agent進(jìn)行限制檢查來(lái)訪HTTP協(xié)議頭的User‐Agent域,只響應(yīng)瀏覽器或友好爬蟲(chóng)的訪問(wèn)發(fā)布公告:Robots協(xié)議告知所有爬蟲(chóng)網(wǎng)站的爬取策略,要求爬蟲(chóng)遵守2.2.3網(wǎng)絡(luò)爬蟲(chóng)/robots.txt2.2.3網(wǎng)絡(luò)爬蟲(chóng)Requests庫(kù)有7個(gè)主要方法,requests.get()是獲取網(wǎng)頁(yè)數(shù)據(jù)的核心函數(shù)操作方法描述requests.request()構(gòu)造一個(gè)請(qǐng)求,支撐以下各方法的基礎(chǔ)方法requests.get()獲取HTML網(wǎng)頁(yè)的主要方法,對(duì)應(yīng)于HTTP的GETrequests.head()獲取HTML網(wǎng)頁(yè)頭信息的方法,對(duì)應(yīng)于HTTP的HEADrequests.post()向HTML網(wǎng)頁(yè)提交POST請(qǐng)求的方法,對(duì)應(yīng)于HTTP的POSTrequests.put()向HTML網(wǎng)頁(yè)提交PUT請(qǐng)求的方法,對(duì)應(yīng)于HTTP的PUTrequests.patch()向HTML網(wǎng)頁(yè)提交局部修改請(qǐng)求,對(duì)應(yīng)于HTTP的PATCHrequests.delete()向HTML頁(yè)面提交刪除請(qǐng)求,對(duì)應(yīng)于HTTP的DELETE2.2.3網(wǎng)絡(luò)爬蟲(chóng)常用數(shù)據(jù)格式JSONHTML/XMLYAML022.3數(shù)據(jù)質(zhì)量分析與清洗2.3.1數(shù)據(jù)質(zhì)量分析數(shù)據(jù)質(zhì)量分析是數(shù)據(jù)預(yù)處理的前提,是數(shù)據(jù)挖掘分析結(jié)論有效性和準(zhǔn)確性的基礎(chǔ),其主要任務(wù)是檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù),臟數(shù)據(jù)一般是指不符合要求,以及不能直接進(jìn)行相應(yīng)分析的數(shù)據(jù),在常見(jiàn)的數(shù)據(jù)挖掘工作中,臟數(shù)據(jù)包括:
缺失值
異常值
不一致的值
重復(fù)數(shù)據(jù)及含有特殊符號(hào)(如#、¥、*)的數(shù)據(jù)本小節(jié)將主要對(duì)數(shù)據(jù)中的缺失值、異常值和一致性進(jìn)行分析。2.3.1數(shù)據(jù)質(zhì)量分析有些信息暫時(shí)無(wú)法獲取,或者獲取信息的代價(jià)太大。有些信息是被遺漏的??赡苁且?yàn)檩斎霑r(shí)認(rèn)為不重要、忘記填寫(xiě)或?qū)?shù)據(jù)理解錯(cuò)誤等一些人為因素而遺漏,也可能是由于數(shù)據(jù)采集設(shè)備的故障、存儲(chǔ)介質(zhì)的故障、傳輸媒體的故障等機(jī)械原因而丟失。屬性值不存在。在某些情況下,缺失值并不意味著數(shù)據(jù)有錯(cuò)誤,對(duì)一些對(duì)象來(lái)說(shuō)屬性值是不存在的,如一個(gè)未婚者的配偶姓名、一個(gè)兒童的固定收入狀況等。缺失值產(chǎn)生的原因2.3.1數(shù)據(jù)質(zhì)量分析數(shù)據(jù)挖掘建模將丟失大量有用信息數(shù)據(jù)挖掘模型所表現(xiàn)出的不確定性更加顯著,模型中蘊(yùn)涵的確定性成分更難把握包含空值的數(shù)據(jù)會(huì)使挖掘建模過(guò)程陷入混亂,導(dǎo)致不可靠的輸出缺失值的影響2.3.1數(shù)據(jù)質(zhì)量分析對(duì)缺失值做簡(jiǎn)單統(tǒng)計(jì)分析統(tǒng)計(jì)缺失值的變量個(gè)數(shù)統(tǒng)計(jì)每個(gè)變量的未缺失數(shù)統(tǒng)計(jì)變量的缺失數(shù)及缺失率缺失值分析2.3.1數(shù)據(jù)質(zhì)量分析異常值分析異常值分析是檢驗(yàn)數(shù)據(jù)是否有錄入錯(cuò)誤以及含有不合常理的數(shù)據(jù)。忽視異常值的存在是十分危險(xiǎn)的,不加剔除地把異常值包括進(jìn)數(shù)據(jù)的計(jì)算分析過(guò)程中,對(duì)結(jié)果會(huì)帶來(lái)不良影響;重視異常值的出現(xiàn),分析其產(chǎn)生的原因,常常成為發(fā)現(xiàn)問(wèn)題進(jìn)而改進(jìn)決策的契機(jī)。異常值是指樣本中的個(gè)別值,其數(shù)值明顯偏離其余的觀測(cè)值。異常值也稱(chēng)為離群點(diǎn),異常值的分析也稱(chēng)為離群點(diǎn)的分析。異常值分析方法主要有:簡(jiǎn)單統(tǒng)計(jì)量分析、3原則、箱型圖分析。2.3.1數(shù)據(jù)質(zhì)量分析異常值分析——簡(jiǎn)單統(tǒng)計(jì)分析可以先做一個(gè)描述性統(tǒng)計(jì),進(jìn)而查看哪些數(shù)據(jù)是不合理的。需要的統(tǒng)計(jì)量主要是最大值和最小值,判斷這個(gè)變量中的數(shù)據(jù)是不是超出了合理的范圍,如身高的最大值為5米,則該變量的數(shù)據(jù)存在異常。2.3.1數(shù)據(jù)質(zhì)量分析異常值分析——3原則如果數(shù)據(jù)服從正態(tài)分布,在3原則下,異常值被定義為一組測(cè)定值中與平均值的偏差超過(guò)三倍標(biāo)準(zhǔn)差的值。在正態(tài)分布的假設(shè)下,距離平均值3之外的值出現(xiàn)的概率為
,屬于極個(gè)別的小概率事件。2.3.1數(shù)據(jù)質(zhì)量分析異常值分析——箱型圖分析箱形圖依據(jù)實(shí)際數(shù)據(jù)繪制,不需要事先假定數(shù)據(jù)服從特定的分布形式,沒(méi)有對(duì)數(shù)據(jù)作任何限制性要求,它只是真實(shí)直觀地表現(xiàn)數(shù)據(jù)分布的本來(lái)面貌;另一方面,箱形圖判斷異常值的標(biāo)準(zhǔn)以四分位數(shù)和四分位距為基礎(chǔ),四分位數(shù)具有一定的魯棒性:多達(dá)25%的數(shù)據(jù)可以變得任意遠(yuǎn)而不會(huì)很大地?cái)_動(dòng)四分位數(shù),所以異常值不能對(duì)這個(gè)標(biāo)準(zhǔn)施加影響,箱形圖識(shí)別異常值的結(jié)果比較客觀。由此可見(jiàn),箱形圖在識(shí)別異常值方面有一定的優(yōu)越性。2.3.1數(shù)據(jù)質(zhì)量分析餐飲系統(tǒng)銷(xiāo)售數(shù)據(jù)質(zhì)量分析2.3.1數(shù)據(jù)質(zhì)量分析一致性分析數(shù)據(jù)不一致性是指數(shù)據(jù)的矛盾性、不相容性。直接對(duì)不一致的數(shù)據(jù)進(jìn)行挖掘,可能會(huì)產(chǎn)生與實(shí)際相違背的挖掘結(jié)果。在數(shù)據(jù)挖掘過(guò)程中,不一致數(shù)據(jù)的產(chǎn)生主要發(fā)生在數(shù)據(jù)集成的過(guò)程中,可能是由于被挖掘數(shù)據(jù)是來(lái)自于從不同的數(shù)據(jù)源、重復(fù)存放的數(shù)據(jù)未能進(jìn)行一致性地更新造成的,比如兩張表中都存儲(chǔ)了用戶(hù)的地址,在用戶(hù)的地址發(fā)生改變時(shí),如果只更新了一張表中的數(shù)據(jù),那么這兩張表中就有了不一致的數(shù)據(jù)。2.3.2數(shù)據(jù)清洗數(shù)據(jù)清洗主要是刪除原始數(shù)據(jù)集中的無(wú)關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù),平滑噪聲數(shù)據(jù),處理缺失值、異常值等。2.3.2數(shù)據(jù)清洗缺失值處理處理缺失值的方法可分為三類(lèi):刪除記錄、數(shù)據(jù)插補(bǔ)和不處理。操作方法描述均值/中位數(shù)/眾數(shù)插補(bǔ)根據(jù)屬性值的類(lèi)型,用該屬性取值的均值/中位數(shù)/眾數(shù)插補(bǔ)使用固定值將缺失的屬性值用一個(gè)常量替換。如廣州一個(gè)工廠外來(lái)務(wù)工人員“基本工資”屬性缺失,可以用2020年廣州市普通外來(lái)務(wù)工人員工資標(biāo)準(zhǔn)這個(gè)固定值代替最近臨插補(bǔ)在記錄中找到與缺失樣本最接近樣本的該屬性值回歸方法根據(jù)已有數(shù)據(jù)和與其相關(guān)的其他變量數(shù)據(jù),建立擬合模型來(lái)預(yù)測(cè)缺失的屬性值插值法2.3.2數(shù)據(jù)清洗均值插補(bǔ)法較為簡(jiǎn)單,其過(guò)程為:求出所有非空值屬性的平均值,并利用平均值對(duì)空值進(jìn)行插補(bǔ)。2.3.2數(shù)據(jù)清洗拉格朗日插值法
第一步:
求已知的n個(gè)點(diǎn)的
次多項(xiàng)式:
將個(gè)點(diǎn)的坐標(biāo)代入多項(xiàng)式函數(shù)
第二步:
將缺失的函數(shù)值對(duì)應(yīng)的點(diǎn)
代入插值多項(xiàng)式得到缺失值的近似值
解出拉格朗日插值多項(xiàng)式2.3.2數(shù)據(jù)清洗異常值處理在數(shù)據(jù)預(yù)處理時(shí),異常值是否剔除,需視具體情況而定,因?yàn)橛行┊惓V悼赡芴N(yùn)含著有用的信息。異常值處理常用方法見(jiàn)下表異常值處理方法方法描述刪除含有異常值的記錄直接將含有異常值的記錄刪除視為缺失值將異常值視為缺失值,利用缺失值處理的方法進(jìn)行平均值修正可用前后兩個(gè)觀測(cè)值的平均值修正該異常值不處理直接在具有異常值的數(shù)據(jù)集上進(jìn)行挖掘建模2.3.2數(shù)據(jù)清洗重復(fù)值處理重復(fù)值是指部分?jǐn)?shù)據(jù)重復(fù)出現(xiàn),從而造成數(shù)據(jù)挖掘結(jié)果的不準(zhǔn)確。部分?jǐn)?shù)據(jù)重復(fù),使用drop_duplicates()函數(shù)去除利用drop()函數(shù)直接刪除某列2.4數(shù)據(jù)特征分析對(duì)數(shù)據(jù)進(jìn)行質(zhì)量分析以后,接下來(lái)就是對(duì)數(shù)據(jù)做特征分析。一般可通過(guò)繪制圖表、計(jì)算某些特征量等手段進(jìn)行數(shù)據(jù)的特征分析,對(duì)數(shù)據(jù)集進(jìn)行深入了解,檢驗(yàn)屬性間的相互關(guān)系,確定觀察對(duì)象感興趣的子集。統(tǒng)計(jì)量分析分布分析對(duì)比分析周期性分析相關(guān)性分析2.4.1統(tǒng)計(jì)量分析用統(tǒng)計(jì)指標(biāo)對(duì)定量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)描述集中趨勢(shì)分析均值中位數(shù)眾數(shù)離散趨勢(shì)分析極差標(biāo)準(zhǔn)差變異系數(shù)四分位數(shù)間距2.4.2分布分析分布分析能揭示數(shù)據(jù)的分布特征和分布類(lèi)型,便于發(fā)現(xiàn)某些特大或特小的可疑值。對(duì)于定量數(shù)據(jù),欲了解其分布形式,是對(duì)稱(chēng)的、還是非對(duì)稱(chēng)的,可做出頻率分布表、繪制頻率分布直方圖、繪制莖葉圖進(jìn)行直觀地分析;對(duì)于定性分類(lèi)數(shù)據(jù),可用餅圖和條形圖直觀地顯示分布情況。2.4.2分布分析定量數(shù)據(jù)的分布分析對(duì)于定量變量而言,做頻率分布分析時(shí)選擇“組數(shù)”和“組寬”是主要的問(wèn)題,一般按照以下步驟:求極差決定組距與組數(shù)決定分點(diǎn)列出頻率分布表繪制頻率分布直方圖遵循的主要原則有:各組之間必須是相互排斥的各組必須將所有的數(shù)據(jù)包含在內(nèi)各組的組寬最好相等2.4.2分布分析某小微企業(yè)的銷(xiāo)售數(shù)據(jù)第一步:求極差極差=最大值-最小值=3960-45=3915第二步:分組這里根據(jù)業(yè)務(wù)數(shù)據(jù)的含義,可取組距為500。組數(shù)=極差/組距=3915/500=7.83=82.4.2分布分析第三步:決定分點(diǎn),如下表:第四步:求出頻率分布直方表根據(jù)分組區(qū)間,統(tǒng)計(jì)二季度銷(xiāo)售數(shù)據(jù)在每個(gè)組段中出現(xiàn)的次數(shù)即頻數(shù),再利用頻數(shù)除以總天數(shù),可以得到相應(yīng)的評(píng)率。例如,銷(xiāo)售額在[0,500)區(qū)間的共有28天,即頻數(shù)為28,頻率為31%。2.4.2分布分析第五步:繪制頻率分布直方圖以二季度每天的銷(xiāo)售額組段為橫軸,以各組段的頻率密度(頻率與組距之比)為縱軸,可以繪制出頻率分布直方圖。2.4.2分布分析定性數(shù)據(jù)的分布分析對(duì)于定性數(shù)據(jù),常常根據(jù)變量的分類(lèi)類(lèi)型來(lái)分組,可以采用餅圖和條形圖來(lái)描述定性變量的分布餅圖的每一個(gè)扇形部分代表每一類(lèi)型的百分比或頻數(shù),根據(jù)定性變量的類(lèi)型數(shù)目將餅圖分成幾個(gè)部分,每一部分的大小與每一類(lèi)型的頻數(shù)成正比;條形圖的高度代表每一類(lèi)型的百分比或頻數(shù),條形圖的寬度沒(méi)有意義。2.4.2分布分析下面左右兩圖分別是菜品A、B、C在某段時(shí)間的餅形和條形銷(xiāo)售量分布圖:2.4.3對(duì)比分析對(duì)比分析是指把兩個(gè)相互聯(lián)系的指標(biāo)數(shù)據(jù)進(jìn)行比較,從數(shù)量上展示和說(shuō)明研究對(duì)象規(guī)模的大小,水平的高低,速度的快慢,以及各種關(guān)系是否協(xié)調(diào)。特別適用于指標(biāo)間的橫縱向比較、時(shí)間序列的比較分析。在對(duì)比分析中,選擇合適的對(duì)比標(biāo)準(zhǔn)是十分關(guān)鍵的步驟,選擇得合適,才能做出客觀的評(píng)價(jià),選擇不合適,評(píng)價(jià)可能得出錯(cuò)誤的結(jié)論。2.4.3對(duì)比分析對(duì)比分析主要有以下兩種形式:第一種:絕對(duì)數(shù)比較
它是利用絕對(duì)數(shù)進(jìn)行對(duì)比,從而尋找差異的一種方法。第二種:相對(duì)數(shù)比較
它是由兩個(gè)有聯(lián)系的指標(biāo)對(duì)比計(jì)算的,用以反映客觀現(xiàn)象之間數(shù)量聯(lián)系程度的綜合指標(biāo),其數(shù)值表現(xiàn)為相對(duì)數(shù)。由于研究目的和對(duì)比基礎(chǔ)不同,相對(duì)數(shù)可以分為以下幾種:
1)結(jié)構(gòu)相對(duì)數(shù)4)強(qiáng)度相對(duì)數(shù)
2)比例相對(duì)數(shù)5)計(jì)劃完成程度相對(duì)數(shù)
3)比較相對(duì)數(shù)6)動(dòng)態(tài)相對(duì)數(shù)2.4.3對(duì)比分析1)結(jié)構(gòu)相對(duì)數(shù):將同一總體內(nèi)的部分?jǐn)?shù)值與全部數(shù)值對(duì)比求得比重,用以說(shuō)明事物的性質(zhì)、結(jié)構(gòu)或質(zhì)量。如居民食品支出額占消費(fèi)支出總額比重、產(chǎn)品合格率等。2)比例相對(duì)數(shù):將同一總體內(nèi)不同部分的數(shù)值對(duì)比,表明總體內(nèi)各部分的比例關(guān)系,如人口性別比例、投資與消費(fèi)比例等。3)比較相對(duì)數(shù):將同一時(shí)期兩個(gè)性質(zhì)相同的指標(biāo)數(shù)值對(duì)比,說(shuō)明同類(lèi)現(xiàn)象在不同空間條件下的數(shù)量對(duì)比關(guān)系。如不同地區(qū)商品價(jià)格對(duì)比,不同行業(yè)、不同企業(yè)間某項(xiàng)指標(biāo)對(duì)比等。2.4.3對(duì)比分析4)強(qiáng)度相對(duì)數(shù):將兩個(gè)性質(zhì)不同但有一定聯(lián)系的總量指標(biāo)對(duì)比,用以說(shuō)明現(xiàn)象的強(qiáng)度、密度和普遍程度。如人均國(guó)內(nèi)生產(chǎn)總值用“元/人”表示,人口密度用“人/平方公里”表示,也有用百分?jǐn)?shù)或千分?jǐn)?shù)表示的,如人口出生率用‰表示。5)計(jì)劃完成程度相對(duì)數(shù):是某一時(shí)期實(shí)際完成數(shù)與計(jì)劃數(shù)對(duì)比,用以說(shuō)明計(jì)劃完成程度。6)動(dòng)態(tài)相對(duì)數(shù):將同一現(xiàn)象在不同時(shí)期的指標(biāo)數(shù)值對(duì)比,用以說(shuō)明發(fā)展方向和變化的速度。如發(fā)展速度、增長(zhǎng)速度等。2.4.3對(duì)比分析拿各菜品的銷(xiāo)售數(shù)據(jù)來(lái)看,從時(shí)間的維度上分析,可以看到甜品部A、海鮮部B、素菜部C三個(gè)部門(mén)之間的銷(xiāo)售金額隨時(shí)間的變化趨勢(shì),了解在此期間哪個(gè)部門(mén)的銷(xiāo)售金額較高,趨勢(shì)比較平穩(wěn),如圖3?5;也可以從單一部門(mén)(如海鮮部)做分析,了解各月份的銷(xiāo)售對(duì)比情況,如下圖:2.4.3對(duì)比分析從總體來(lái)看,三個(gè)部門(mén)的銷(xiāo)售金額呈遞減趨勢(shì);A部門(mén)和C部門(mén)的遞減趨勢(shì)比較平穩(wěn);B部門(mén)的銷(xiāo)售金額在2月份驟降,可以進(jìn)一步分析造成這種現(xiàn)象的業(yè)務(wù)原因,可能是原材料不足造成的。2.4.4周期性分析周期性分析是探索某個(gè)變量是否隨著時(shí)間變化而呈現(xiàn)出某種周期變化趨勢(shì)。周期性趨勢(shì)相對(duì)較長(zhǎng)的有年度周期性趨勢(shì)、季節(jié)性周期趨勢(shì),相對(duì)較短的一般有月度周期性趨勢(shì)、周度周期性趨勢(shì),甚至更短的天、小時(shí)周期性趨勢(shì)。如在做某用電單位用電量趨勢(shì)預(yù)測(cè)過(guò)程中,可以先分析該用電單位日用電量的時(shí)序圖,來(lái)直觀地估計(jì)其用電量變化趨勢(shì)。2.4.4周期性分析下面兩圖分別是正常用戶(hù)和竊電用戶(hù)在2020年2月份與3月份的用電量2.4.4周期性分析正常用戶(hù)和竊電用戶(hù)在2020年2月份與3月份日用電量呈現(xiàn)出周期性,以周為周期,因?yàn)橹苣┎簧习?,所以周末用電量較低。正常用戶(hù)工作日和非工作日的用電量比較平穩(wěn),沒(méi)有太大的波動(dòng)。而竊電用戶(hù)在2020年2月份與3月份日用電量呈現(xiàn)出遞減趨勢(shì)。2.4.5相關(guān)性分析相關(guān)性分析是指對(duì)兩個(gè)或多個(gè)具備相關(guān)性的變量元素進(jìn)行分析,從而衡量?jī)蓚€(gè)變量因素的相關(guān)密切程度,并用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)表示出來(lái)的過(guò)程。相關(guān)性分析方法主要有:直接繪制散點(diǎn)圖繪制散點(diǎn)圖矩陣計(jì)算相關(guān)系數(shù)2.4.5相關(guān)性分析判斷兩個(gè)變量是否具有線(xiàn)性相關(guān)關(guān)系的最直觀的方法是直接繪制散點(diǎn)圖2.4.5相關(guān)性分析繪制散點(diǎn)圖矩陣需要同時(shí)考察多個(gè)變量間的相關(guān)關(guān)系時(shí),可以利用散點(diǎn)圖矩陣來(lái)同時(shí)繪制各變量間的散點(diǎn)圖,從而快速發(fā)現(xiàn)多個(gè)變量間的主要相關(guān)性,這在進(jìn)行多元線(xiàn)性回歸時(shí)尤為重要2.4.5相關(guān)性分析計(jì)算相關(guān)系數(shù)為了更加準(zhǔn)確的描述變量之間的線(xiàn)性相關(guān)程度,可以通過(guò)計(jì)算相關(guān)系數(shù)來(lái)進(jìn)行相關(guān)分析。在二元變量的相關(guān)分析過(guò)程中比較常用的如Pearson相關(guān)系數(shù)、Spearman秩相關(guān)系數(shù)和判定系數(shù)。Pearson相關(guān)系數(shù)一般用于對(duì)定距變量的數(shù)據(jù)進(jìn)行計(jì)算,即分析兩個(gè)連續(xù)性變量之間的關(guān)系,其計(jì)算公式如下:2.4.5相關(guān)性分析Spearman秩相關(guān)系數(shù)用于描述分類(lèi)或等級(jí)變量之間、分類(lèi)或等級(jí)變量與連續(xù)變量之間的關(guān)系。其計(jì)算公式如下:判定系數(shù)判定系數(shù)是相關(guān)系數(shù)的平方,用r^2表示,用來(lái)衡量回歸方程對(duì)y的解釋程度。判定系數(shù)的取值范圍為0≤r^2≤1。r^2越接近于1,表明x與y之間的相關(guān)性越強(qiáng),r^2越接近于0,越表明x與y之間幾乎沒(méi)有線(xiàn)性相關(guān)關(guān)系2.4.5相關(guān)性分析利用餐飲管理系統(tǒng)可以統(tǒng)計(jì)得到不同菜品的日銷(xiāo)量數(shù)據(jù),分析這些菜品日銷(xiāo)售量之間的相關(guān)性可以得到不同菜品之間的相關(guān)關(guān)系,如是替補(bǔ)菜品、互補(bǔ)菜品或者沒(méi)有關(guān)系,為原材料采購(gòu)提供參考結(jié)果顯示,“百合醬蒸鳳爪”與“樂(lè)膳真味雞”“原汁原味菜心”等相關(guān)性較高,而與“翡翠蒸香茜餃”“蜜汁焗餐包”等主食類(lèi)菜品相關(guān)性較低2.5數(shù)據(jù)集成數(shù)據(jù)挖掘需要的數(shù)據(jù)往往分布在不同的數(shù)據(jù)源中,數(shù)據(jù)集成就是將多個(gè)數(shù)據(jù)源合并存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉(cāng)庫(kù))中的過(guò)程。實(shí)體識(shí)別冗余屬性識(shí)別數(shù)據(jù)變換屬性構(gòu)造2.5.1實(shí)體識(shí)別實(shí)體識(shí)別的任務(wù)是檢測(cè)和解決同名異義、異名同義、單位不統(tǒng)一的沖突。如:同名異義:數(shù)據(jù)源A中的屬性ID和數(shù)據(jù)源B中的屬性ID分別描述的是菜品編號(hào)和訂單編號(hào),即描述的是不同的實(shí)體。異名同義:數(shù)據(jù)源A中的sales_dt和數(shù)據(jù)源B中的sales_date都是是描述銷(xiāo)售日期的,即A.sales_dt=B.sales_date。單位不統(tǒng)一:描述同一個(gè)實(shí)體分別用的是國(guó)際單位和中國(guó)傳統(tǒng)的計(jì)量單位。2.5.2冗余屬性識(shí)別數(shù)據(jù)集成往往導(dǎo)致數(shù)據(jù)冗余,如:同一屬性多次出現(xiàn)同一屬性命名不一致導(dǎo)致重復(fù)不同源數(shù)據(jù)的仔細(xì)整合能減少甚至避免數(shù)據(jù)冗余與不一致,以提高數(shù)據(jù)挖掘的速度和質(zhì)量。對(duì)于冗余屬性要先分析檢測(cè)到后再將其刪除。有些冗余屬性可以用相關(guān)分析檢測(cè)到。給定兩個(gè)數(shù)值型的屬性A和B,根據(jù)其屬性值,可以用相關(guān)系數(shù)度量一個(gè)屬性在多大程度上蘊(yùn)含另一個(gè)屬性。2.5.3數(shù)據(jù)變換主要是對(duì)數(shù)據(jù)進(jìn)行規(guī)范化的操作,將數(shù)據(jù)轉(zhuǎn)換成“適當(dāng)?shù)摹备袷?,以適用于挖掘任務(wù)及算法的需要。簡(jiǎn)單函數(shù)變換規(guī)范化連續(xù)屬性離散化2.5.3數(shù)據(jù)變換簡(jiǎn)單函數(shù)變換簡(jiǎn)單函數(shù)變換就是對(duì)原始數(shù)據(jù)進(jìn)行某些數(shù)學(xué)函數(shù)變換,常用的函數(shù)變換包括平方、開(kāi)方、對(duì)數(shù)、差分運(yùn)算等,即:2.5.3數(shù)據(jù)變換數(shù)據(jù)標(biāo)準(zhǔn)化(歸一化)處理是數(shù)據(jù)挖掘的一項(xiàng)基礎(chǔ)工作,不同評(píng)價(jià)指標(biāo)往往具有不同的量綱和量綱單位,數(shù)值間的差別可能很大,不進(jìn)行處理可能會(huì)影響到數(shù)據(jù)分析的結(jié)果,為了消除指標(biāo)之間的量綱和大小不一的影響,需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,將數(shù)據(jù)按照比例進(jìn)行縮放,使之落入一個(gè)特定的區(qū)域,從而進(jìn)行綜合分析。如將工資收入屬性值映射到[-1,1]或者[0,1]之間。下面介紹三種規(guī)范化方法:最小-最大規(guī)范化、零-均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化2.5.3數(shù)據(jù)變換最小-最大規(guī)范化:也稱(chēng)為離差標(biāo)準(zhǔn)化,是對(duì)原始數(shù)據(jù)的線(xiàn)性變換,使結(jié)果值映射到[0,1]之間。
轉(zhuǎn)換函數(shù)如:
其中
為樣本數(shù)據(jù)的最大值,
為樣本數(shù)據(jù)的最小值。
為極差。零-均值規(guī)范化:也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,經(jīng)過(guò)處理的數(shù)據(jù)的平均數(shù)為0,標(biāo)準(zhǔn)差為1。轉(zhuǎn)化函數(shù)為:
其中
為原始數(shù)據(jù)的均值,
為原始數(shù)據(jù)的標(biāo)準(zhǔn)差。小數(shù)定標(biāo)規(guī)范化:通過(guò)移動(dòng)屬性值的小數(shù)位數(shù),將屬性值映射到[-1,1]之間,移動(dòng)的小數(shù)位數(shù)取決于屬性值絕對(duì)值的最大值。轉(zhuǎn)化函數(shù)為:2.5.3數(shù)據(jù)變換2.5.3數(shù)據(jù)變換一些數(shù)據(jù)挖掘算法,特別是某些分類(lèi)算法,要求數(shù)據(jù)是分類(lèi)屬性形式,如ID3算法、Apriori算法等。這樣,常常需要將連續(xù)屬性變換成分類(lèi)屬性,即連續(xù)屬性離散化。離散化的過(guò)程連續(xù)屬性變換成分類(lèi)屬性涉及兩個(gè)子任務(wù):決定需要多少個(gè)分類(lèi)變量,以及確定如何將連續(xù)屬性值映射到這些分類(lèi)值。常用的離散化方法常用的無(wú)監(jiān)督離散化方法有:等寬法、等頻法、基于聚類(lèi)分析的方法2.5.3數(shù)據(jù)變換使用3種離散化方法對(duì)“醫(yī)學(xué)中醫(yī)證型的相關(guān)數(shù)據(jù)”進(jìn)行連續(xù)屬性離散化2.5.4數(shù)據(jù)變換在數(shù)據(jù)挖掘的過(guò)程中,為了幫助提取更有用的信息、挖掘更深層次的模式,提高挖掘結(jié)果的精度,需要利用已有的屬性集構(gòu)造出新的屬性,并加入到現(xiàn)有屬性集合中。比如進(jìn)行防竊漏電診斷建模時(shí),已有的屬性包括進(jìn)入線(xiàn)路供入電量、該條線(xiàn)路上各大用戶(hù)用電量之和,記為供出電量。理論上供入電量和供出電量應(yīng)該是相等的,但是由于在傳輸過(guò)程中的電能損耗,會(huì)使得供入電量略大于供出電量,如果該條線(xiàn)路上的一個(gè)或多個(gè)大用戶(hù)存在竊漏電行為,會(huì)使供入電量遠(yuǎn)大于供出電量。反過(guò)來(lái),為了判斷是否存在有竊漏電行為的大用戶(hù),需要構(gòu)造一個(gè)新的關(guān)鍵指標(biāo)--線(xiàn)損率,該過(guò)程就是構(gòu)造屬性。新構(gòu)造的屬性線(xiàn)損率計(jì)算公式如下:線(xiàn)損率=(供入電量-供出電量)/供入電量線(xiàn)損率的范圍一般在3%~15%,如果遠(yuǎn)遠(yuǎn)超過(guò)該范圍,就可以認(rèn)為該條線(xiàn)路的大用戶(hù)很大可能存在竊漏電等用電異常行為。2.6數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約是將海量數(shù)據(jù)進(jìn)行規(guī)約,規(guī)約之后的數(shù)據(jù)仍接近于保持原數(shù)據(jù)的完整性,但數(shù)據(jù)量小得多。通過(guò)數(shù)據(jù)規(guī)約,可以達(dá)到:降低無(wú)效、錯(cuò)誤數(shù)據(jù)對(duì)建模的影響,提高建模的準(zhǔn)確性少量且具代表性的數(shù)據(jù)將大幅縮減數(shù)據(jù)挖掘所需的時(shí)間降低儲(chǔ)存數(shù)據(jù)的成本2.6.1屬性規(guī)約屬性規(guī)約常用方法有:合并屬性、逐步向前選擇、逐步向后刪除、決策樹(shù)歸納、主成分分析合并屬性初始屬性集:
規(guī)約后屬性集:逐步向前選擇
初始屬性集:
規(guī)約后屬性集:
屬性歸約通過(guò)屬性合并創(chuàng)建新屬性維數(shù),或者通過(guò)直接刪除不相關(guān)的屬性(維)來(lái)減少數(shù)據(jù)維數(shù),從而提高數(shù)據(jù)挖掘的效率,降低計(jì)算成本2.6.1屬性規(guī)約逐步向后刪除
初始屬性集:
規(guī)約后屬性集:決策樹(shù)規(guī)約
初始屬性集:
規(guī)約后屬性集:
2.6.1屬性規(guī)約下面詳細(xì)介紹主成分分析計(jì)算步驟:1)設(shè)原始變量
的觀測(cè)n次數(shù)據(jù)矩陣為:2)將數(shù)據(jù)矩陣中心標(biāo)準(zhǔn)化。為了方便,將標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣仍然記為
。3)求相關(guān)系數(shù)矩陣
的定義為:
其中
4)求
的特征方程
的特征根
。5)確定主成分個(gè)數(shù)m:
,根據(jù)實(shí)際問(wèn)題確定,一般取80%。
2.6.1屬性規(guī)約6)計(jì)算m個(gè)相應(yīng)的單位特征向量:7)計(jì)算主成分:2.6.2數(shù)值規(guī)約數(shù)值規(guī)約通過(guò)選擇替代的、較小的數(shù)據(jù)來(lái)減少數(shù)據(jù)量。數(shù)值規(guī)約可以是有參的,也可以是無(wú)參的。有參方法是使用一個(gè)模型來(lái)評(píng)估數(shù)據(jù),只需存放參數(shù),而不需要存放實(shí)際數(shù)據(jù)。有參的數(shù)值規(guī)約技術(shù)主要有兩種:回歸(線(xiàn)性回歸和多元回歸)和對(duì)數(shù)線(xiàn)性模型(近似離散屬性集中的多維概率分布)。數(shù)值規(guī)約常用方法有直方圖、用聚類(lèi)數(shù)據(jù)表示實(shí)際數(shù)據(jù)、抽樣(采樣)、參數(shù)回歸法。2.6.2數(shù)值規(guī)約數(shù)值規(guī)約通過(guò)選擇替代的、較小的數(shù)據(jù)來(lái)減少數(shù)據(jù)量。數(shù)值規(guī)約可以是有參的,也可以是無(wú)參的。有參方法是使用一個(gè)模型來(lái)評(píng)估數(shù)據(jù),只需存放參數(shù),而不需要存放實(shí)際數(shù)據(jù)。有參的數(shù)值規(guī)約技術(shù)主要有兩種:回歸(線(xiàn)性回歸和多元回歸)和對(duì)數(shù)線(xiàn)性模型(近似離散屬性集中的多維概率分布)。數(shù)值規(guī)約常用方法:直方圖聚類(lèi)抽樣(采樣)參數(shù)回歸法2.6.2數(shù)值規(guī)約直方圖使用分箱來(lái)近似數(shù)據(jù)分布,是一種流行的數(shù)據(jù)歸約形式。屬性A的直方圖將A的數(shù)據(jù)分布劃分為不相交的子集或桶。如果每個(gè)桶只代表單個(gè)屬性值/頻率對(duì),則該桶稱(chēng)為單桶。通常,桶表示給定屬性的一個(gè)連續(xù)區(qū)間。2.6.2數(shù)值規(guī)約聚類(lèi)聚類(lèi)技術(shù)將數(shù)據(jù)元組(即記錄,數(shù)據(jù)表中的一行)視為對(duì)象。它將對(duì)象劃分為簇,使一個(gè)簇中的對(duì)象彼此“相似”,而與其他簇中的對(duì)象“相異”。在數(shù)據(jù)歸約中,用數(shù)據(jù)的簇替換實(shí)際數(shù)據(jù)。該技術(shù)的有效性依賴(lài)于簇的定義是否符合數(shù)據(jù)的分布性質(zhì)。抽樣抽樣也是一種數(shù)據(jù)歸約技術(shù),它用比原始數(shù)據(jù)小得多的隨機(jī)樣本(子集)表示原始數(shù)據(jù)集D。假定原始數(shù)據(jù)集包含n個(gè)元組,可以采用抽樣方法對(duì)原始數(shù)據(jù)集D進(jìn)行抽樣。常用的抽樣方法。s個(gè)樣本無(wú)放回簡(jiǎn)單隨機(jī)抽樣s個(gè)樣本有放回地簡(jiǎn)單隨機(jī)抽樣聚類(lèi)抽樣分層抽樣2.6.2數(shù)值規(guī)約參數(shù)回歸簡(jiǎn)單線(xiàn)性模型和對(duì)數(shù)線(xiàn)性模型可以用來(lái)近似給定的數(shù)據(jù)。用(簡(jiǎn)單)線(xiàn)性模型對(duì)數(shù)據(jù)建模,使之?dāng)M合一條直線(xiàn)y=kx+b,其中k和b分別是直線(xiàn)的斜率和截距,得到k和b之后,即可根據(jù)給定的x預(yù)測(cè)y的值。感謝觀看第3章數(shù)據(jù)可視化CONTENTS目錄3.1Matplotlib庫(kù)入門(mén)3.2pyplot的plot()函數(shù)3.3Matplotlib圖形繪制013.1Matplotlib庫(kù)入門(mén)數(shù)據(jù)可視化可視化技術(shù)是將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像呈現(xiàn)在屏幕上)然后再進(jìn)行視覺(jué)交互Matplotlib是一個(gè)基于Python的繪圖庫(kù)完全支持二維圖形有限支持三維圖形Matplotlib的官網(wǎng)網(wǎng)址為:/index.html3.1Matplotlib庫(kù)入門(mén)3.1Matplotlib庫(kù)入門(mén)3.1Matplotlib庫(kù)入門(mén)Matplotlib庫(kù)由一系列有組織有隸屬關(guān)系的對(duì)象構(gòu)成matplotlib提供了一套快捷命令式的繪圖接口函數(shù),即pyplot子模塊。pyplot將繪圖所需要的對(duì)象構(gòu)建過(guò)程封裝在函數(shù)中,對(duì)用戶(hù)提供了更加友好的接口。3.1Matplotlib庫(kù)入門(mén)plt子庫(kù)提供了一批操作和繪圖函數(shù),每個(gè)函數(shù)代表對(duì)圖像進(jìn)行的一個(gè)操作。這些函數(shù)采用plt.<b>()形式調(diào)用,其中<b>是具體函數(shù)名稱(chēng)。plt子庫(kù)中常用的與繪圖區(qū)域有關(guān)的函數(shù)包括plt.figure()plt.subplot()plt.axes()3.1Matplotlib庫(kù)入門(mén)plt.figure():使用figure()函數(shù)創(chuàng)建一個(gè)全局繪圖區(qū)域plt.figure(figsize=(8,4))plt.subplot():subplot()用于在全局繪圖區(qū)域內(nèi)創(chuàng)建子繪圖區(qū)域plt.subplot(324)plt.axes()plt.axes([0.1,0.1,0.7,0.3],axisbg='y')plt子庫(kù)提供一組讀取和顯示相關(guān)函數(shù),用于在繪圖區(qū)域中增加顯示內(nèi)容及讀入數(shù)據(jù)3.1Matplotlib庫(kù)入門(mén)函數(shù)描述plt.legend()在繪圖區(qū)域中方式繪圖標(biāo)簽(也稱(chēng)圖注)plt.show()顯示創(chuàng)建的繪圖對(duì)象plt.matshow()在窗口顯示數(shù)組矩陣plt.imshow()在axes上顯示圖像plt.imsave()保存數(shù)組為圖像文件plt.imread()從圖像文件中讀取數(shù)組023.2pyplot的plot()函數(shù)plot()函數(shù)是用于繪制直線(xiàn)的最基礎(chǔ)函數(shù)函數(shù)的使用方式為plt.plot(x,y,format_string,**kwargs)x和y可以是numpy計(jì)算出的數(shù)組或列表,分別為X軸和Y軸數(shù)format_string是控制曲線(xiàn)的格式字符串**kwargs表示第二組或更多(x,y,format_string)3.2plot()函數(shù)importmatplotlib.pyplotaspltimportnumpyasnp
a=np.arange(10)#繪制1條曲線(xiàn)時(shí),可以沒(méi)有x軸數(shù)據(jù)plt.plot(a)plt.show()
3.2plot()函數(shù)importmatplotlib.pyplotaspltimportnumpyasnp
a=np.arange(10)#繪制4條曲線(xiàn)plt.plot(a,a*1.5,a,a*2.5,a,a*3.5,a,a*4.5)plt.show()3.2plot()函數(shù)3.2plot()函數(shù)format_string是控制曲線(xiàn)的格式字符串顏色字符說(shuō)明顏色字符說(shuō)明'b'藍(lán)色'm'洋紅色'g'綠色'y'黃色'r'紅色'k'黑色'c'青綠色'w'白色'#008000'RGB某顏色'0.8'灰度值字符串3.2plot()函數(shù)format_string是控制曲線(xiàn)的格式字符串風(fēng)格字符說(shuō)明'‐'實(shí)線(xiàn)'‐‐'破折線(xiàn)'‐.'點(diǎn)劃線(xiàn)':'虛線(xiàn)'''
'無(wú)線(xiàn)條3.2plot()函數(shù)format_string是控制曲線(xiàn)的格式字符串標(biāo)記字符說(shuō)明標(biāo)記字符說(shuō)明標(biāo)記字符說(shuō)明'.'點(diǎn)標(biāo)記'1'下花三角標(biāo)記'h'豎六邊形標(biāo)記','像素標(biāo)記(極小點(diǎn))'2'上花三角標(biāo)記'H'橫六邊形標(biāo)記'o'實(shí)心圈標(biāo)記'3'左花三角標(biāo)記'+'十字標(biāo)記'v'倒三角標(biāo)記'4'右花三角標(biāo)記'x'x標(biāo)記'^'上三角標(biāo)記's'實(shí)心方形標(biāo)記'D'菱形標(biāo)記'>'右三角標(biāo)記'p'實(shí)心五角標(biāo)記'd'瘦菱形標(biāo)記'<'左三角標(biāo)記'*'星形標(biāo)記'|'垂直線(xiàn)標(biāo)記3.2plot()函數(shù)importmatplotlib.pyplotaspltimportnumpyasnp
a=np.arange(10)plt.plot(a,a*1.5,'go',a,a*2.5,'rx’,a,a*3.5,'*',a,a*4.5,'b-.')plt.show()3.2plot()函數(shù)pyplot并不默認(rèn)支持中文
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年包工包料裝修合同范本
- 2024寧波市家具買(mǎi)賣(mài)合同
- 2024出境旅游合同簽署范本出境旅游合同簡(jiǎn)單范本
- 2024年廣告發(fā)布合同范例
- 2024年BIM技術(shù)在智能建筑中的應(yīng)用合同
- 2024年多國(guó)合作打擊貿(mào)易欺詐協(xié)議
- 統(tǒng)考版2025屆高考物理二輪復(fù)習(xí)高考仿真練一含解析
- 2024-2025學(xué)年高中物理第十五章相對(duì)論簡(jiǎn)介12相對(duì)論的誕生時(shí)間和空間的相對(duì)性課時(shí)作業(yè)含解析新人教版選修3-4
- 2024年安全型卷簾門(mén)定制合同
- 2024年云計(jì)算數(shù)據(jù)中心建設(shè)與運(yùn)營(yíng)管理合同
- 商鋪?zhàn)赓U合同完整版下載
- 制作簡(jiǎn)易紙折扇 (教案)-三年級(jí)上冊(cè)勞動(dòng)浙教版
- 電子商務(wù)對(duì)物流管理的影響-電子商務(wù)畢業(yè)論文設(shè)計(jì)
- 肝膽外科診療指南
- 非親子關(guān)系證明模板
- 學(xué)習(xí)投入量表
- 高中美術(shù)-抽象藝術(shù)教學(xué)課件設(shè)計(jì)
- 啄木鳥(niǎo)糾錯(cuò)活動(dòng)方案(八篇)
- 北師大版八年級(jí)生物下冊(cè)《發(fā)酵技術(shù)》評(píng)課稿
- 出口退稅知識(shí)培訓(xùn)
- 王崧舟慈母情深課件
評(píng)論
0/150
提交評(píng)論