《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財會)》課件 第1-3章 數(shù)據(jù)挖掘與數(shù)據(jù)分析概述、數(shù)據(jù)獲取與預處理、數(shù)據(jù)可視化_第1頁
《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財會)》課件 第1-3章 數(shù)據(jù)挖掘與數(shù)據(jù)分析概述、數(shù)據(jù)獲取與預處理、數(shù)據(jù)可視化_第2頁
《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財會)》課件 第1-3章 數(shù)據(jù)挖掘與數(shù)據(jù)分析概述、數(shù)據(jù)獲取與預處理、數(shù)據(jù)可視化_第3頁
《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財會)》課件 第1-3章 數(shù)據(jù)挖掘與數(shù)據(jù)分析概述、數(shù)據(jù)獲取與預處理、數(shù)據(jù)可視化_第4頁
《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財會)》課件 第1-3章 數(shù)據(jù)挖掘與數(shù)據(jù)分析概述、數(shù)據(jù)獲取與預處理、數(shù)據(jù)可視化_第5頁
已閱讀5頁,還剩138頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第1章數(shù)據(jù)挖掘與數(shù)據(jù)分析

概述CONTENTS目錄1.1數(shù)據(jù)分析和挖掘概念1.2數(shù)據(jù)挖掘的進化歷程1.3數(shù)據(jù)分析與挖掘的應用領域1.4數(shù)據(jù)分析與挖掘1.5

數(shù)據(jù)挖掘的流程1.6

數(shù)據(jù)分析與挖掘經(jīng)典算法1.7SmartbiMining企業(yè)數(shù)據(jù)挖掘平臺1.8.常用的數(shù)據(jù)分析與挖掘工具1.9.數(shù)據(jù)挖掘與分析對財會工作的影響01數(shù)據(jù)分析和挖掘概念數(shù)據(jù)分析(DataAnalysis)有廣義的數(shù)據(jù)分析和狹義的數(shù)據(jù)分析之分。其中廣義的數(shù)據(jù)分析就是包括狹義的數(shù)據(jù)分析和數(shù)據(jù)挖掘。而我們常說的數(shù)據(jù)分析指的是狹義的數(shù)據(jù)分析。它指根據(jù)分析目的,用適當?shù)慕y(tǒng)計分析方法與工具,對收集來的數(shù)據(jù)進行處理與分析,提取有價值的信息,發(fā)揮數(shù)據(jù)的作用。數(shù)據(jù)挖掘(DataMining)是指從大量的數(shù)據(jù)中,通過統(tǒng)計學、人工智能、機器學習等方法,挖掘出未知的、且有價值的信息和知識的過程。數(shù)據(jù)分析與挖掘(DataAnalysisandMining)都是基于搜集來的數(shù)據(jù),應用數(shù)學、統(tǒng)計、計算機等技術抽取出數(shù)據(jù)中的有用信息,進而為決策提供依據(jù)和指導方向。1.1.數(shù)據(jù)分析和挖掘概念02數(shù)據(jù)挖掘的進化歷程1.2.數(shù)據(jù)挖掘的進化歷程20世紀60年代數(shù)據(jù)收集階段20世紀90年代數(shù)據(jù)倉庫決策與支持階段20世紀80年代數(shù)據(jù)倉庫決策與支持階段21世紀的現(xiàn)在數(shù)據(jù)分析與挖掘階段03數(shù)據(jù)分析與挖掘的應用領域1.3.數(shù)據(jù)分析與挖掘的應用領域應用領域01電商領域:發(fā)現(xiàn)破壞規(guī)則的“害群之馬”02交通出行領域:為打車平臺進行私人訂制03醫(yī)療健康領域:找到最佳醫(yī)療方案04銀行風險和客戶管理領域:預防和控制資金非法流失,優(yōu)化客戶服務05企業(yè)危機管理領域:挖掘對企業(yè)經(jīng)營決策有用的知識06市場營銷領域:降低了營銷成本,提高了營銷效率04數(shù)據(jù)分析與挖掘的區(qū)別1.4數(shù)據(jù)分析與挖掘的區(qū)別定義說明二者區(qū)別側重點數(shù)據(jù)分析更側重于實際的業(yè)務知識數(shù)據(jù)挖掘更側重于技術的實現(xiàn)技能要求最終的輸出形式數(shù)據(jù)分析更多的是統(tǒng)計描述結果的呈現(xiàn)數(shù)據(jù)挖掘更多的是模型或規(guī)則的輸出05數(shù)據(jù)挖掘的流程1.5數(shù)據(jù)挖掘的流程01020304LOREMLOREMLOREMLOREM構建模型數(shù)據(jù)搜集數(shù)據(jù)清洗明確目標應用部署模型評估LOREMLOREM060506數(shù)據(jù)分析與挖掘經(jīng)典算法1.6數(shù)據(jù)分析與挖掘經(jīng)典算法0607經(jīng)典算法08AdaBoost算法09020304K最近鄰分類算法樸素貝葉斯模型聚類算法支持向量機(SV)關聯(lián)規(guī)則算法PageRank算法01C4.510分類與回歸樹05最大期望(EM)算法07SmartbiMining企業(yè)數(shù)據(jù)挖掘平臺1.7SmartbiMining企業(yè)數(shù)據(jù)挖掘平臺思邁特企業(yè)數(shù)據(jù)挖掘平臺(SmartbiMining)是用于預測性分析的獨立產品,旨在為企業(yè)所做的決策提供預測性智能。該平臺不僅可為用戶提供直觀的流式建模、拖拽式操作和流程化、可視化的建模界面,還提供了大量的數(shù)據(jù)預處理操作。此外,它內置了多種實用的、經(jīng)典的機器學習算法,這些算法配置簡單降低了機器學習的使用門檻,大大節(jié)省了企業(yè)成本,并支持標準的PMML模型輸出,可以將模型發(fā)送到Smartbi統(tǒng)一平臺,與商業(yè)智能平臺實現(xiàn)了完美整合。08常用的數(shù)據(jù)分析與挖掘工具1.8常用的數(shù)據(jù)分析與挖掘工具R語言Python語言Weka平臺SPSS軟件系統(tǒng)SAS軟件系統(tǒng)常用的數(shù)據(jù)分析與挖掘工具09數(shù)據(jù)挖掘與分析對財會工作的影響1.9數(shù)據(jù)挖掘與分析對財會工作的影響首先,使會計人員和會計部門的角色定位發(fā)生根本變化。其次,確認要素范圍將擴展到數(shù)據(jù)資產和數(shù)據(jù)資本,也將更多地采用多維數(shù)據(jù)。挑戰(zhàn)數(shù)據(jù)挖掘主要應用在戰(zhàn)略管理會計領域,實現(xiàn)經(jīng)營環(huán)境分析、競爭能力分析、價值鏈分析、成本動因分析等,構建智能財務預警系統(tǒng)應用現(xiàn)狀會計人員和會計部門的角色定位發(fā)生根本改變,將分別轉變?yōu)閿?shù)據(jù)分析師、算法工程師和數(shù)據(jù)分析部門;會計確認的要素范圍將擴展到數(shù)據(jù)資產和數(shù)據(jù)資本,會計人員所獲取的單維數(shù)據(jù)也將轉為多維數(shù)據(jù);信息使用者將由單向信息傳遞的被動接受者變成雙向信息互通的主動參與者;企業(yè)及會計人都將面臨時代賦予的機遇與挑戰(zhàn)。應用展望對財會工作的影響感謝觀看第2章數(shù)據(jù)獲取與預處理CONTENTS目錄2.1數(shù)據(jù)類型2.2數(shù)據(jù)獲取2.3數(shù)據(jù)質量分析與清洗2.4數(shù)據(jù)特征分析2.5數(shù)據(jù)集成2.6數(shù)據(jù)規(guī)約012.1數(shù)據(jù)類型結構化數(shù)據(jù)由二維表結構來邏輯表達和實現(xiàn)的數(shù)據(jù)嚴格地遵循數(shù)據(jù)格式與長度規(guī)范2.1數(shù)據(jù)類型序號姓名年齡性別1張三27男2李四33男3王五21男4趙六48女

數(shù)據(jù)特點:關系模型數(shù)據(jù),關系數(shù)據(jù)庫表示。

常見格式:MySQL、Oracle、SQLServer等。

應用場合:數(shù)據(jù)庫、系統(tǒng)網(wǎng)站、ERP等。

數(shù)據(jù)采集:數(shù)據(jù)庫導出、SQL方式等。半結構數(shù)據(jù)比關系型數(shù)據(jù)庫或其他數(shù)據(jù)表形式關聯(lián)起來的數(shù)據(jù)模型結構更加靈活和普通純文本相比又具有一定的結構性2.1數(shù)據(jù)類型數(shù)據(jù)特點:非關系模型數(shù)據(jù),有一定的格式。常見格式:Email、HTML、XML、JSON等。應用場合:郵件系統(tǒng)、檔案系統(tǒng)、新聞網(wǎng)站等。數(shù)據(jù)采集:網(wǎng)絡爬蟲、數(shù)據(jù)解析等。非結構化數(shù)據(jù)沒有固定結構以二進制的格式整體進行存儲大數(shù)據(jù)時代,非結構化數(shù)據(jù)扮演著越來越重要的角色2.1數(shù)據(jù)類型數(shù)據(jù)特點:沒有固定格式的數(shù)據(jù)。常見格式:文本、PDF、PPT、圖片、音頻、視頻等。應用場合:人臉識別、文本分析、醫(yī)療影像分析等。數(shù)據(jù)采集:網(wǎng)絡爬蟲、數(shù)據(jù)存檔等。022.2數(shù)據(jù)獲取文件是存儲在輔助存儲器上的數(shù)據(jù)序列,是數(shù)據(jù)的集合和抽象,有兩種展現(xiàn)形式:文本文件和二進制文件。文本文件:由單一特定編碼的字符組成,如UTF-8編碼,適用于例如:txt文件,.py文件等。二進制文件:直接由比特0和比特1組成,沒有統(tǒng)一字符編碼,適用于例如:.png文件,.avi文件等文件可以用“文本文件方式”和“二進制文件方式”打開2.2.1文件存取2.2.1文件存取2.1.txt文件保存:“實現(xiàn)中華民族偉大復興”文本方式打開二進制方式打開2.2.1文件存取Python對文本文件和二進制文件采用統(tǒng)一的操作步驟,即“打開—操作—關閉”2.2.1文件存取Python通過open()函數(shù)打開一個文件,并實現(xiàn)該文件與一個程序變量的關聯(lián),格式如下:<變量名>=open(<文件名>,<打開模式>)2.2.1文件存取Python通過open()函數(shù)打開一個文件,并實現(xiàn)該文件與一個程序變量的關聯(lián),格式如下:<變量名>=open(<文件名>,<打開模式>)open()函數(shù)提供了7種基本打開模式文件打開模式描述'r'只讀模式,默認值,如果文件不存在,返回FileNotFoundError'w'覆蓋寫模式,文件不存在則創(chuàng)建,存在則完全覆蓋'x'創(chuàng)建寫模式,文件不存在則創(chuàng)建,存在則返回FileExistsError'a'追加寫模式,文件不存在則創(chuàng)建,存在則在文件最后追加內容'b'二進制文件模式't'文本文件模式,默認值'+'與r/w/x/a一同使用,在原功能基礎上增加同時讀寫功能2.2.1文件存取打開模式中,'r'、'w'、'x'、'a'可以和'b'、't'、'+'組合使用,形成既表達讀寫又表達文件模式的方式打開模式含義說明r+/rb+讀?。ǜ拢┠J揭宰x/寫的形式打開文本文件/二進制文件,如果文件不存在,open()調用失敗w+/wb+寫入(更新)模式以讀/寫的形式創(chuàng)建文本文件/二進制文件,如果文件已存在,則清空文件a+/ab+追加(更新)模式以讀/寫的形式打開文本/二進制文件,但只允許在文件末尾添加數(shù)據(jù),若文件不存在,則創(chuàng)建新文件文件使用結束后,需用close()方法關閉,釋放文件的使用授權,該方法的使用方式如下:<變量>.close()2.2.1文件存取文件內容的讀取當文件以文本方式打開時,讀寫按照字符串方式,采用計算機使用的編碼或指定編碼當文件以二進制方式打開時,讀寫按照字節(jié)流方式三種文件內容讀取方式操作方法描述<f>.read(size=-1)讀入全部內容,如果給出參數(shù),讀入前size長度<f>.readline(size=-1)讀入一行內容,如果給出參數(shù)讀入該行前size長度<f>.readlines(hint=-1)讀入文件所有行,以每行為元素形成列表,如果給出參數(shù),讀入前hint行2.2.1文件存取用戶輸入文件路徑,以文本文件方式讀入文件內容并逐行打印提示用戶輸入一個文件名打開文件并賦值給文件對象變量fo文件的全部內容通過fo.readlines()方法讀入到一個列表中通過for-in方式遍歷列表2.2.1文件存取文件內容寫入的3種方法操作方法描述<f>.write(s)向文件寫入一個字符串或字節(jié)流<f>.writelines(lines)將一個元素全為字符串的列表寫入文件<f>.seek(offset)改變當前文件操作指針的位置,offset含義如下:0–文件開頭;1–當前位置;2–文件結尾2.2.1文件存取2.2.1文件存取fo.seek(0)將文件操作指針返回到文件開始2.2.2CSV文件存取CSV(Comma-SeparatedValues),中文通常叫做逗號分隔值,是一種國際通用的一維、二維數(shù)據(jù)存儲格式常用pandas庫處理CSV文件2.2.2CSV文件存取代碼、體重和身高都作為DataFrame的數(shù)據(jù)進行了讀取,而索引是系統(tǒng)自動生成的0,1,2,3。如果想把代號作為索引進行讀取,則執(zhí)行如下操作2.2.2CSV文件存取文件存儲有多種形式,CSV文件是比較常用而且方便的一種方式,使用pandas庫中to_csv()函數(shù)進行存儲2.2.2CSV文件存取如果不需要dataframe中的索引,可以在to_csv()函數(shù)中設置index參數(shù)為None2.2.3網(wǎng)絡爬蟲網(wǎng)絡爬蟲是在萬維網(wǎng)瀏覽網(wǎng)頁并按照一定規(guī)則提取信息的腳本或程序Python中常用與網(wǎng)絡爬蟲的庫有Requests庫、Scrapy庫等在進行網(wǎng)頁內容爬取時,使用Requests庫即可滿足要求2.2.3網(wǎng)絡爬蟲性能騷擾法律風險隱私泄露2.2.3網(wǎng)絡爬蟲來源審查:判斷User‐Agent進行限制檢查來訪HTTP協(xié)議頭的User‐Agent域,只響應瀏覽器或友好爬蟲的訪問發(fā)布公告:Robots協(xié)議告知所有爬蟲網(wǎng)站的爬取策略,要求爬蟲遵守2.2.3網(wǎng)絡爬蟲/robots.txt2.2.3網(wǎng)絡爬蟲Requests庫有7個主要方法,requests.get()是獲取網(wǎng)頁數(shù)據(jù)的核心函數(shù)操作方法描述requests.request()構造一個請求,支撐以下各方法的基礎方法requests.get()獲取HTML網(wǎng)頁的主要方法,對應于HTTP的GETrequests.head()獲取HTML網(wǎng)頁頭信息的方法,對應于HTTP的HEADrequests.post()向HTML網(wǎng)頁提交POST請求的方法,對應于HTTP的POSTrequests.put()向HTML網(wǎng)頁提交PUT請求的方法,對應于HTTP的PUTrequests.patch()向HTML網(wǎng)頁提交局部修改請求,對應于HTTP的PATCHrequests.delete()向HTML頁面提交刪除請求,對應于HTTP的DELETE2.2.3網(wǎng)絡爬蟲常用數(shù)據(jù)格式JSONHTML/XMLYAML022.3數(shù)據(jù)質量分析與清洗2.3.1數(shù)據(jù)質量分析數(shù)據(jù)質量分析是數(shù)據(jù)預處理的前提,是數(shù)據(jù)挖掘分析結論有效性和準確性的基礎,其主要任務是檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù),臟數(shù)據(jù)一般是指不符合要求,以及不能直接進行相應分析的數(shù)據(jù),在常見的數(shù)據(jù)挖掘工作中,臟數(shù)據(jù)包括:

缺失值

異常值

不一致的值

重復數(shù)據(jù)及含有特殊符號(如#、¥、*)的數(shù)據(jù)本小節(jié)將主要對數(shù)據(jù)中的缺失值、異常值和一致性進行分析。2.3.1數(shù)據(jù)質量分析有些信息暫時無法獲取,或者獲取信息的代價太大。有些信息是被遺漏的??赡苁且驗檩斎霑r認為不重要、忘記填寫或對數(shù)據(jù)理解錯誤等一些人為因素而遺漏,也可能是由于數(shù)據(jù)采集設備的故障、存儲介質的故障、傳輸媒體的故障等機械原因而丟失。屬性值不存在。在某些情況下,缺失值并不意味著數(shù)據(jù)有錯誤,對一些對象來說屬性值是不存在的,如一個未婚者的配偶姓名、一個兒童的固定收入狀況等。缺失值產生的原因2.3.1數(shù)據(jù)質量分析數(shù)據(jù)挖掘建模將丟失大量有用信息數(shù)據(jù)挖掘模型所表現(xiàn)出的不確定性更加顯著,模型中蘊涵的確定性成分更難把握包含空值的數(shù)據(jù)會使挖掘建模過程陷入混亂,導致不可靠的輸出缺失值的影響2.3.1數(shù)據(jù)質量分析對缺失值做簡單統(tǒng)計分析統(tǒng)計缺失值的變量個數(shù)統(tǒng)計每個變量的未缺失數(shù)統(tǒng)計變量的缺失數(shù)及缺失率缺失值分析2.3.1數(shù)據(jù)質量分析異常值分析異常值分析是檢驗數(shù)據(jù)是否有錄入錯誤以及含有不合常理的數(shù)據(jù)。忽視異常值的存在是十分危險的,不加剔除地把異常值包括進數(shù)據(jù)的計算分析過程中,對結果會帶來不良影響;重視異常值的出現(xiàn),分析其產生的原因,常常成為發(fā)現(xiàn)問題進而改進決策的契機。異常值是指樣本中的個別值,其數(shù)值明顯偏離其余的觀測值。異常值也稱為離群點,異常值的分析也稱為離群點的分析。異常值分析方法主要有:簡單統(tǒng)計量分析、3原則、箱型圖分析。2.3.1數(shù)據(jù)質量分析異常值分析——簡單統(tǒng)計分析可以先做一個描述性統(tǒng)計,進而查看哪些數(shù)據(jù)是不合理的。需要的統(tǒng)計量主要是最大值和最小值,判斷這個變量中的數(shù)據(jù)是不是超出了合理的范圍,如身高的最大值為5米,則該變量的數(shù)據(jù)存在異常。2.3.1數(shù)據(jù)質量分析異常值分析——3原則如果數(shù)據(jù)服從正態(tài)分布,在3原則下,異常值被定義為一組測定值中與平均值的偏差超過三倍標準差的值。在正態(tài)分布的假設下,距離平均值3之外的值出現(xiàn)的概率為

,屬于極個別的小概率事件。2.3.1數(shù)據(jù)質量分析異常值分析——箱型圖分析箱形圖依據(jù)實際數(shù)據(jù)繪制,不需要事先假定數(shù)據(jù)服從特定的分布形式,沒有對數(shù)據(jù)作任何限制性要求,它只是真實直觀地表現(xiàn)數(shù)據(jù)分布的本來面貌;另一方面,箱形圖判斷異常值的標準以四分位數(shù)和四分位距為基礎,四分位數(shù)具有一定的魯棒性:多達25%的數(shù)據(jù)可以變得任意遠而不會很大地擾動四分位數(shù),所以異常值不能對這個標準施加影響,箱形圖識別異常值的結果比較客觀。由此可見,箱形圖在識別異常值方面有一定的優(yōu)越性。2.3.1數(shù)據(jù)質量分析餐飲系統(tǒng)銷售數(shù)據(jù)質量分析2.3.1數(shù)據(jù)質量分析一致性分析數(shù)據(jù)不一致性是指數(shù)據(jù)的矛盾性、不相容性。直接對不一致的數(shù)據(jù)進行挖掘,可能會產生與實際相違背的挖掘結果。在數(shù)據(jù)挖掘過程中,不一致數(shù)據(jù)的產生主要發(fā)生在數(shù)據(jù)集成的過程中,可能是由于被挖掘數(shù)據(jù)是來自于從不同的數(shù)據(jù)源、重復存放的數(shù)據(jù)未能進行一致性地更新造成的,比如兩張表中都存儲了用戶的地址,在用戶的地址發(fā)生改變時,如果只更新了一張表中的數(shù)據(jù),那么這兩張表中就有了不一致的數(shù)據(jù)。2.3.2數(shù)據(jù)清洗數(shù)據(jù)清洗主要是刪除原始數(shù)據(jù)集中的無關數(shù)據(jù)、重復數(shù)據(jù),平滑噪聲數(shù)據(jù),處理缺失值、異常值等。2.3.2數(shù)據(jù)清洗缺失值處理處理缺失值的方法可分為三類:刪除記錄、數(shù)據(jù)插補和不處理。操作方法描述均值/中位數(shù)/眾數(shù)插補根據(jù)屬性值的類型,用該屬性取值的均值/中位數(shù)/眾數(shù)插補使用固定值將缺失的屬性值用一個常量替換。如廣州一個工廠外來務工人員“基本工資”屬性缺失,可以用2020年廣州市普通外來務工人員工資標準這個固定值代替最近臨插補在記錄中找到與缺失樣本最接近樣本的該屬性值回歸方法根據(jù)已有數(shù)據(jù)和與其相關的其他變量數(shù)據(jù),建立擬合模型來預測缺失的屬性值插值法2.3.2數(shù)據(jù)清洗均值插補法較為簡單,其過程為:求出所有非空值屬性的平均值,并利用平均值對空值進行插補。2.3.2數(shù)據(jù)清洗拉格朗日插值法

第一步:

求已知的n個點的

次多項式:

將個點的坐標代入多項式函數(shù)

第二步:

將缺失的函數(shù)值對應的點

代入插值多項式得到缺失值的近似值

解出拉格朗日插值多項式2.3.2數(shù)據(jù)清洗異常值處理在數(shù)據(jù)預處理時,異常值是否剔除,需視具體情況而定,因為有些異常值可能蘊含著有用的信息。異常值處理常用方法見下表異常值處理方法方法描述刪除含有異常值的記錄直接將含有異常值的記錄刪除視為缺失值將異常值視為缺失值,利用缺失值處理的方法進行平均值修正可用前后兩個觀測值的平均值修正該異常值不處理直接在具有異常值的數(shù)據(jù)集上進行挖掘建模2.3.2數(shù)據(jù)清洗重復值處理重復值是指部分數(shù)據(jù)重復出現(xiàn),從而造成數(shù)據(jù)挖掘結果的不準確。部分數(shù)據(jù)重復,使用drop_duplicates()函數(shù)去除利用drop()函數(shù)直接刪除某列2.4數(shù)據(jù)特征分析對數(shù)據(jù)進行質量分析以后,接下來就是對數(shù)據(jù)做特征分析。一般可通過繪制圖表、計算某些特征量等手段進行數(shù)據(jù)的特征分析,對數(shù)據(jù)集進行深入了解,檢驗屬性間的相互關系,確定觀察對象感興趣的子集。統(tǒng)計量分析分布分析對比分析周期性分析相關性分析2.4.1統(tǒng)計量分析用統(tǒng)計指標對定量數(shù)據(jù)進行統(tǒng)計描述集中趨勢分析均值中位數(shù)眾數(shù)離散趨勢分析極差標準差變異系數(shù)四分位數(shù)間距2.4.2分布分析分布分析能揭示數(shù)據(jù)的分布特征和分布類型,便于發(fā)現(xiàn)某些特大或特小的可疑值。對于定量數(shù)據(jù),欲了解其分布形式,是對稱的、還是非對稱的,可做出頻率分布表、繪制頻率分布直方圖、繪制莖葉圖進行直觀地分析;對于定性分類數(shù)據(jù),可用餅圖和條形圖直觀地顯示分布情況。2.4.2分布分析定量數(shù)據(jù)的分布分析對于定量變量而言,做頻率分布分析時選擇“組數(shù)”和“組寬”是主要的問題,一般按照以下步驟:求極差決定組距與組數(shù)決定分點列出頻率分布表繪制頻率分布直方圖遵循的主要原則有:各組之間必須是相互排斥的各組必須將所有的數(shù)據(jù)包含在內各組的組寬最好相等2.4.2分布分析某小微企業(yè)的銷售數(shù)據(jù)第一步:求極差極差=最大值-最小值=3960-45=3915第二步:分組這里根據(jù)業(yè)務數(shù)據(jù)的含義,可取組距為500。組數(shù)=極差/組距=3915/500=7.83=82.4.2分布分析第三步:決定分點,如下表:第四步:求出頻率分布直方表根據(jù)分組區(qū)間,統(tǒng)計二季度銷售數(shù)據(jù)在每個組段中出現(xiàn)的次數(shù)即頻數(shù),再利用頻數(shù)除以總天數(shù),可以得到相應的評率。例如,銷售額在[0,500)區(qū)間的共有28天,即頻數(shù)為28,頻率為31%。2.4.2分布分析第五步:繪制頻率分布直方圖以二季度每天的銷售額組段為橫軸,以各組段的頻率密度(頻率與組距之比)為縱軸,可以繪制出頻率分布直方圖。2.4.2分布分析定性數(shù)據(jù)的分布分析對于定性數(shù)據(jù),常常根據(jù)變量的分類類型來分組,可以采用餅圖和條形圖來描述定性變量的分布餅圖的每一個扇形部分代表每一類型的百分比或頻數(shù),根據(jù)定性變量的類型數(shù)目將餅圖分成幾個部分,每一部分的大小與每一類型的頻數(shù)成正比;條形圖的高度代表每一類型的百分比或頻數(shù),條形圖的寬度沒有意義。2.4.2分布分析下面左右兩圖分別是菜品A、B、C在某段時間的餅形和條形銷售量分布圖:2.4.3對比分析對比分析是指把兩個相互聯(lián)系的指標數(shù)據(jù)進行比較,從數(shù)量上展示和說明研究對象規(guī)模的大小,水平的高低,速度的快慢,以及各種關系是否協(xié)調。特別適用于指標間的橫縱向比較、時間序列的比較分析。在對比分析中,選擇合適的對比標準是十分關鍵的步驟,選擇得合適,才能做出客觀的評價,選擇不合適,評價可能得出錯誤的結論。2.4.3對比分析對比分析主要有以下兩種形式:第一種:絕對數(shù)比較

它是利用絕對數(shù)進行對比,從而尋找差異的一種方法。第二種:相對數(shù)比較

它是由兩個有聯(lián)系的指標對比計算的,用以反映客觀現(xiàn)象之間數(shù)量聯(lián)系程度的綜合指標,其數(shù)值表現(xiàn)為相對數(shù)。由于研究目的和對比基礎不同,相對數(shù)可以分為以下幾種:

1)結構相對數(shù)4)強度相對數(shù)

2)比例相對數(shù)5)計劃完成程度相對數(shù)

3)比較相對數(shù)6)動態(tài)相對數(shù)2.4.3對比分析1)結構相對數(shù):將同一總體內的部分數(shù)值與全部數(shù)值對比求得比重,用以說明事物的性質、結構或質量。如居民食品支出額占消費支出總額比重、產品合格率等。2)比例相對數(shù):將同一總體內不同部分的數(shù)值對比,表明總體內各部分的比例關系,如人口性別比例、投資與消費比例等。3)比較相對數(shù):將同一時期兩個性質相同的指標數(shù)值對比,說明同類現(xiàn)象在不同空間條件下的數(shù)量對比關系。如不同地區(qū)商品價格對比,不同行業(yè)、不同企業(yè)間某項指標對比等。2.4.3對比分析4)強度相對數(shù):將兩個性質不同但有一定聯(lián)系的總量指標對比,用以說明現(xiàn)象的強度、密度和普遍程度。如人均國內生產總值用“元/人”表示,人口密度用“人/平方公里”表示,也有用百分數(shù)或千分數(shù)表示的,如人口出生率用‰表示。5)計劃完成程度相對數(shù):是某一時期實際完成數(shù)與計劃數(shù)對比,用以說明計劃完成程度。6)動態(tài)相對數(shù):將同一現(xiàn)象在不同時期的指標數(shù)值對比,用以說明發(fā)展方向和變化的速度。如發(fā)展速度、增長速度等。2.4.3對比分析拿各菜品的銷售數(shù)據(jù)來看,從時間的維度上分析,可以看到甜品部A、海鮮部B、素菜部C三個部門之間的銷售金額隨時間的變化趨勢,了解在此期間哪個部門的銷售金額較高,趨勢比較平穩(wěn),如圖3?5;也可以從單一部門(如海鮮部)做分析,了解各月份的銷售對比情況,如下圖:2.4.3對比分析從總體來看,三個部門的銷售金額呈遞減趨勢;A部門和C部門的遞減趨勢比較平穩(wěn);B部門的銷售金額在2月份驟降,可以進一步分析造成這種現(xiàn)象的業(yè)務原因,可能是原材料不足造成的。2.4.4周期性分析周期性分析是探索某個變量是否隨著時間變化而呈現(xiàn)出某種周期變化趨勢。周期性趨勢相對較長的有年度周期性趨勢、季節(jié)性周期趨勢,相對較短的一般有月度周期性趨勢、周度周期性趨勢,甚至更短的天、小時周期性趨勢。如在做某用電單位用電量趨勢預測過程中,可以先分析該用電單位日用電量的時序圖,來直觀地估計其用電量變化趨勢。2.4.4周期性分析下面兩圖分別是正常用戶和竊電用戶在2020年2月份與3月份的用電量2.4.4周期性分析正常用戶和竊電用戶在2020年2月份與3月份日用電量呈現(xiàn)出周期性,以周為周期,因為周末不上班,所以周末用電量較低。正常用戶工作日和非工作日的用電量比較平穩(wěn),沒有太大的波動。而竊電用戶在2020年2月份與3月份日用電量呈現(xiàn)出遞減趨勢。2.4.5相關性分析相關性分析是指對兩個或多個具備相關性的變量元素進行分析,從而衡量兩個變量因素的相關密切程度,并用適當?shù)慕y(tǒng)計指標表示出來的過程。相關性分析方法主要有:直接繪制散點圖繪制散點圖矩陣計算相關系數(shù)2.4.5相關性分析判斷兩個變量是否具有線性相關關系的最直觀的方法是直接繪制散點圖2.4.5相關性分析繪制散點圖矩陣需要同時考察多個變量間的相關關系時,可以利用散點圖矩陣來同時繪制各變量間的散點圖,從而快速發(fā)現(xiàn)多個變量間的主要相關性,這在進行多元線性回歸時尤為重要2.4.5相關性分析計算相關系數(shù)為了更加準確的描述變量之間的線性相關程度,可以通過計算相關系數(shù)來進行相關分析。在二元變量的相關分析過程中比較常用的如Pearson相關系數(shù)、Spearman秩相關系數(shù)和判定系數(shù)。Pearson相關系數(shù)一般用于對定距變量的數(shù)據(jù)進行計算,即分析兩個連續(xù)性變量之間的關系,其計算公式如下:2.4.5相關性分析Spearman秩相關系數(shù)用于描述分類或等級變量之間、分類或等級變量與連續(xù)變量之間的關系。其計算公式如下:判定系數(shù)判定系數(shù)是相關系數(shù)的平方,用r^2表示,用來衡量回歸方程對y的解釋程度。判定系數(shù)的取值范圍為0≤r^2≤1。r^2越接近于1,表明x與y之間的相關性越強,r^2越接近于0,越表明x與y之間幾乎沒有線性相關關系2.4.5相關性分析利用餐飲管理系統(tǒng)可以統(tǒng)計得到不同菜品的日銷量數(shù)據(jù),分析這些菜品日銷售量之間的相關性可以得到不同菜品之間的相關關系,如是替補菜品、互補菜品或者沒有關系,為原材料采購提供參考結果顯示,“百合醬蒸鳳爪”與“樂膳真味雞”“原汁原味菜心”等相關性較高,而與“翡翠蒸香茜餃”“蜜汁焗餐包”等主食類菜品相關性較低2.5數(shù)據(jù)集成數(shù)據(jù)挖掘需要的數(shù)據(jù)往往分布在不同的數(shù)據(jù)源中,數(shù)據(jù)集成就是將多個數(shù)據(jù)源合并存放在一個一致的數(shù)據(jù)存儲(如數(shù)據(jù)倉庫)中的過程。實體識別冗余屬性識別數(shù)據(jù)變換屬性構造2.5.1實體識別實體識別的任務是檢測和解決同名異義、異名同義、單位不統(tǒng)一的沖突。如:同名異義:數(shù)據(jù)源A中的屬性ID和數(shù)據(jù)源B中的屬性ID分別描述的是菜品編號和訂單編號,即描述的是不同的實體。異名同義:數(shù)據(jù)源A中的sales_dt和數(shù)據(jù)源B中的sales_date都是是描述銷售日期的,即A.sales_dt=B.sales_date。單位不統(tǒng)一:描述同一個實體分別用的是國際單位和中國傳統(tǒng)的計量單位。2.5.2冗余屬性識別數(shù)據(jù)集成往往導致數(shù)據(jù)冗余,如:同一屬性多次出現(xiàn)同一屬性命名不一致導致重復不同源數(shù)據(jù)的仔細整合能減少甚至避免數(shù)據(jù)冗余與不一致,以提高數(shù)據(jù)挖掘的速度和質量。對于冗余屬性要先分析檢測到后再將其刪除。有些冗余屬性可以用相關分析檢測到。給定兩個數(shù)值型的屬性A和B,根據(jù)其屬性值,可以用相關系數(shù)度量一個屬性在多大程度上蘊含另一個屬性。2.5.3數(shù)據(jù)變換主要是對數(shù)據(jù)進行規(guī)范化的操作,將數(shù)據(jù)轉換成“適當?shù)摹备袷?,以適用于挖掘任務及算法的需要。簡單函數(shù)變換規(guī)范化連續(xù)屬性離散化2.5.3數(shù)據(jù)變換簡單函數(shù)變換簡單函數(shù)變換就是對原始數(shù)據(jù)進行某些數(shù)學函數(shù)變換,常用的函數(shù)變換包括平方、開方、對數(shù)、差分運算等,即:2.5.3數(shù)據(jù)變換數(shù)據(jù)標準化(歸一化)處理是數(shù)據(jù)挖掘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,數(shù)值間的差別可能很大,不進行處理可能會影響到數(shù)據(jù)分析的結果,為了消除指標之間的量綱和大小不一的影響,需要進行數(shù)據(jù)標準化處理,將數(shù)據(jù)按照比例進行縮放,使之落入一個特定的區(qū)域,從而進行綜合分析。如將工資收入屬性值映射到[-1,1]或者[0,1]之間。下面介紹三種規(guī)范化方法:最小-最大規(guī)范化、零-均值規(guī)范化、小數(shù)定標規(guī)范化2.5.3數(shù)據(jù)變換最小-最大規(guī)范化:也稱為離差標準化,是對原始數(shù)據(jù)的線性變換,使結果值映射到[0,1]之間。

轉換函數(shù)如:

其中

為樣本數(shù)據(jù)的最大值,

為樣本數(shù)據(jù)的最小值。

為極差。零-均值規(guī)范化:也叫標準差標準化,經(jīng)過處理的數(shù)據(jù)的平均數(shù)為0,標準差為1。轉化函數(shù)為:

其中

為原始數(shù)據(jù)的均值,

為原始數(shù)據(jù)的標準差。小數(shù)定標規(guī)范化:通過移動屬性值的小數(shù)位數(shù),將屬性值映射到[-1,1]之間,移動的小數(shù)位數(shù)取決于屬性值絕對值的最大值。轉化函數(shù)為:2.5.3數(shù)據(jù)變換2.5.3數(shù)據(jù)變換一些數(shù)據(jù)挖掘算法,特別是某些分類算法,要求數(shù)據(jù)是分類屬性形式,如ID3算法、Apriori算法等。這樣,常常需要將連續(xù)屬性變換成分類屬性,即連續(xù)屬性離散化。離散化的過程連續(xù)屬性變換成分類屬性涉及兩個子任務:決定需要多少個分類變量,以及確定如何將連續(xù)屬性值映射到這些分類值。常用的離散化方法常用的無監(jiān)督離散化方法有:等寬法、等頻法、基于聚類分析的方法2.5.3數(shù)據(jù)變換使用3種離散化方法對“醫(yī)學中醫(yī)證型的相關數(shù)據(jù)”進行連續(xù)屬性離散化2.5.4數(shù)據(jù)變換在數(shù)據(jù)挖掘的過程中,為了幫助提取更有用的信息、挖掘更深層次的模式,提高挖掘結果的精度,需要利用已有的屬性集構造出新的屬性,并加入到現(xiàn)有屬性集合中。比如進行防竊漏電診斷建模時,已有的屬性包括進入線路供入電量、該條線路上各大用戶用電量之和,記為供出電量。理論上供入電量和供出電量應該是相等的,但是由于在傳輸過程中的電能損耗,會使得供入電量略大于供出電量,如果該條線路上的一個或多個大用戶存在竊漏電行為,會使供入電量遠大于供出電量。反過來,為了判斷是否存在有竊漏電行為的大用戶,需要構造一個新的關鍵指標--線損率,該過程就是構造屬性。新構造的屬性線損率計算公式如下:線損率=(供入電量-供出電量)/供入電量線損率的范圍一般在3%~15%,如果遠遠超過該范圍,就可以認為該條線路的大用戶很大可能存在竊漏電等用電異常行為。2.6數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約是將海量數(shù)據(jù)進行規(guī)約,規(guī)約之后的數(shù)據(jù)仍接近于保持原數(shù)據(jù)的完整性,但數(shù)據(jù)量小得多。通過數(shù)據(jù)規(guī)約,可以達到:降低無效、錯誤數(shù)據(jù)對建模的影響,提高建模的準確性少量且具代表性的數(shù)據(jù)將大幅縮減數(shù)據(jù)挖掘所需的時間降低儲存數(shù)據(jù)的成本2.6.1屬性規(guī)約屬性規(guī)約常用方法有:合并屬性、逐步向前選擇、逐步向后刪除、決策樹歸納、主成分分析合并屬性初始屬性集:

規(guī)約后屬性集:逐步向前選擇

初始屬性集:

規(guī)約后屬性集:

屬性歸約通過屬性合并創(chuàng)建新屬性維數(shù),或者通過直接刪除不相關的屬性(維)來減少數(shù)據(jù)維數(shù),從而提高數(shù)據(jù)挖掘的效率,降低計算成本2.6.1屬性規(guī)約逐步向后刪除

初始屬性集:

規(guī)約后屬性集:決策樹規(guī)約

初始屬性集:

規(guī)約后屬性集:

2.6.1屬性規(guī)約下面詳細介紹主成分分析計算步驟:1)設原始變量

的觀測n次數(shù)據(jù)矩陣為:2)將數(shù)據(jù)矩陣中心標準化。為了方便,將標準化后的數(shù)據(jù)矩陣仍然記為

。3)求相關系數(shù)矩陣

的定義為:

其中

4)求

的特征方程

的特征根

。5)確定主成分個數(shù)m:

,根據(jù)實際問題確定,一般取80%。

2.6.1屬性規(guī)約6)計算m個相應的單位特征向量:7)計算主成分:2.6.2數(shù)值規(guī)約數(shù)值規(guī)約通過選擇替代的、較小的數(shù)據(jù)來減少數(shù)據(jù)量。數(shù)值規(guī)約可以是有參的,也可以是無參的。有參方法是使用一個模型來評估數(shù)據(jù),只需存放參數(shù),而不需要存放實際數(shù)據(jù)。有參的數(shù)值規(guī)約技術主要有兩種:回歸(線性回歸和多元回歸)和對數(shù)線性模型(近似離散屬性集中的多維概率分布)。數(shù)值規(guī)約常用方法有直方圖、用聚類數(shù)據(jù)表示實際數(shù)據(jù)、抽樣(采樣)、參數(shù)回歸法。2.6.2數(shù)值規(guī)約數(shù)值規(guī)約通過選擇替代的、較小的數(shù)據(jù)來減少數(shù)據(jù)量。數(shù)值規(guī)約可以是有參的,也可以是無參的。有參方法是使用一個模型來評估數(shù)據(jù),只需存放參數(shù),而不需要存放實際數(shù)據(jù)。有參的數(shù)值規(guī)約技術主要有兩種:回歸(線性回歸和多元回歸)和對數(shù)線性模型(近似離散屬性集中的多維概率分布)。數(shù)值規(guī)約常用方法:直方圖聚類抽樣(采樣)參數(shù)回歸法2.6.2數(shù)值規(guī)約直方圖使用分箱來近似數(shù)據(jù)分布,是一種流行的數(shù)據(jù)歸約形式。屬性A的直方圖將A的數(shù)據(jù)分布劃分為不相交的子集或桶。如果每個桶只代表單個屬性值/頻率對,則該桶稱為單桶。通常,桶表示給定屬性的一個連續(xù)區(qū)間。2.6.2數(shù)值規(guī)約聚類聚類技術將數(shù)據(jù)元組(即記錄,數(shù)據(jù)表中的一行)視為對象。它將對象劃分為簇,使一個簇中的對象彼此“相似”,而與其他簇中的對象“相異”。在數(shù)據(jù)歸約中,用數(shù)據(jù)的簇替換實際數(shù)據(jù)。該技術的有效性依賴于簇的定義是否符合數(shù)據(jù)的分布性質。抽樣抽樣也是一種數(shù)據(jù)歸約技術,它用比原始數(shù)據(jù)小得多的隨機樣本(子集)表示原始數(shù)據(jù)集D。假定原始數(shù)據(jù)集包含n個元組,可以采用抽樣方法對原始數(shù)據(jù)集D進行抽樣。常用的抽樣方法。s個樣本無放回簡單隨機抽樣s個樣本有放回地簡單隨機抽樣聚類抽樣分層抽樣2.6.2數(shù)值規(guī)約參數(shù)回歸簡單線性模型和對數(shù)線性模型可以用來近似給定的數(shù)據(jù)。用(簡單)線性模型對數(shù)據(jù)建模,使之擬合一條直線y=kx+b,其中k和b分別是直線的斜率和截距,得到k和b之后,即可根據(jù)給定的x預測y的值。感謝觀看第3章數(shù)據(jù)可視化CONTENTS目錄3.1Matplotlib庫入門3.2pyplot的plot()函數(shù)3.3Matplotlib圖形繪制013.1Matplotlib庫入門數(shù)據(jù)可視化可視化技術是將數(shù)據(jù)轉換為圖形或圖像呈現(xiàn)在屏幕上)然后再進行視覺交互Matplotlib是一個基于Python的繪圖庫完全支持二維圖形有限支持三維圖形Matplotlib的官網(wǎng)網(wǎng)址為:/index.html3.1Matplotlib庫入門3.1Matplotlib庫入門3.1Matplotlib庫入門Matplotlib庫由一系列有組織有隸屬關系的對象構成matplotlib提供了一套快捷命令式的繪圖接口函數(shù),即pyplot子模塊。pyplot將繪圖所需要的對象構建過程封裝在函數(shù)中,對用戶提供了更加友好的接口。3.1Matplotlib庫入門plt子庫提供了一批操作和繪圖函數(shù),每個函數(shù)代表對圖像進行的一個操作。這些函數(shù)采用plt.<b>()形式調用,其中<b>是具體函數(shù)名稱。plt子庫中常用的與繪圖區(qū)域有關的函數(shù)包括plt.figure()plt.subplot()plt.axes()3.1Matplotlib庫入門plt.figure():使用figure()函數(shù)創(chuàng)建一個全局繪圖區(qū)域plt.figure(figsize=(8,4))plt.subplot():subplot()用于在全局繪圖區(qū)域內創(chuàng)建子繪圖區(qū)域plt.subplot(324)plt.axes()plt.axes([0.1,0.1,0.7,0.3],axisbg='y')plt子庫提供一組讀取和顯示相關函數(shù),用于在繪圖區(qū)域中增加顯示內容及讀入數(shù)據(jù)3.1Matplotlib庫入門函數(shù)描述plt.legend()在繪圖區(qū)域中方式繪圖標簽(也稱圖注)plt.show()顯示創(chuàng)建的繪圖對象plt.matshow()在窗口顯示數(shù)組矩陣plt.imshow()在axes上顯示圖像plt.imsave()保存數(shù)組為圖像文件plt.imread()從圖像文件中讀取數(shù)組023.2pyplot的plot()函數(shù)plot()函數(shù)是用于繪制直線的最基礎函數(shù)函數(shù)的使用方式為plt.plot(x,y,format_string,**kwargs)x和y可以是numpy計算出的數(shù)組或列表,分別為X軸和Y軸數(shù)format_string是控制曲線的格式字符串**kwargs表示第二組或更多(x,y,format_string)3.2plot()函數(shù)importmatplotlib.pyplotaspltimportnumpyasnp

a=np.arange(10)#繪制1條曲線時,可以沒有x軸數(shù)據(jù)plt.plot(a)plt.show()

3.2plot()函數(shù)importmatplotlib.pyplotaspltimportnumpyasnp

a=np.arange(10)#繪制4條曲線plt.plot(a,a*1.5,a,a*2.5,a,a*3.5,a,a*4.5)plt.show()3.2plot()函數(shù)3.2plot()函數(shù)format_string是控制曲線的格式字符串顏色字符說明顏色字符說明'b'藍色'm'洋紅色'g'綠色'y'黃色'r'紅色'k'黑色'c'青綠色'w'白色'#008000'RGB某顏色'0.8'灰度值字符串3.2plot()函數(shù)format_string是控制曲線的格式字符串風格字符說明'‐'實線'‐‐'破折線'‐.'點劃線':'虛線'''

'無線條3.2plot()函數(shù)format_string是控制曲線的格式字符串標記字符說明標記字符說明標記字符說明'.'點標記'1'下花三角標記'h'豎六邊形標記','像素標記(極小點)'2'上花三角標記'H'橫六邊形標記'o'實心圈標記'3'左花三角標記'+'十字標記'v'倒三角標記'4'右花三角標記'x'x標記'^'上三角標記's'實心方形標記'D'菱形標記'>'右三角標記'p'實心五角標記'd'瘦菱形標記'<'左三角標記'*'星形標記'|'垂直線標記3.2plot()函數(shù)importmatplotlib.pyplotaspltimportnumpyasnp

a=np.arange(10)plt.plot(a,a*1.5,'go',a,a*2.5,'rx’,a,a*3.5,'*',a,a*4.5,'b-.')plt.show()3.2plot()函數(shù)pyplot并不默認支持中文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論