




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第五章數(shù)據(jù)的預處理與距離分析數(shù)據(jù)分析與數(shù)據(jù)挖掘01數(shù)據(jù)的預處理數(shù)據(jù)清理數(shù)據(jù)清理(Datacleaning)的主要任務是解決數(shù)據(jù)的“準確性”“完整性”和“一致性”問題,主要工作包括去除數(shù)據(jù)中的噪聲、解決缺失值問題、糾正數(shù)據(jù)值沖突。
數(shù)據(jù)集成(Dataintegration)的主要任務是把不同來源、格式、性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機地集成在一起,以便于數(shù)據(jù)統(tǒng)一集中處理,如圖5.2(a)所示,主要包括屬性類型一致、編碼一致處理,冗余數(shù)據(jù)分析處理和數(shù)據(jù)存儲。數(shù)據(jù)集成20%30%40%50%
數(shù)據(jù)變換(Dataconversion)的主要任務是依據(jù)數(shù)據(jù)分析模型的需要,將原始數(shù)據(jù)變換為所需要的數(shù)據(jù)形式。數(shù)據(jù)變換中最常用的是數(shù)據(jù)規(guī)范化。
數(shù)據(jù)規(guī)范化(Datanormalization)是指將數(shù)據(jù)整理成數(shù)據(jù)分析和數(shù)據(jù)挖掘所需要的數(shù)據(jù)形式,主要包括數(shù)據(jù)屬性值編碼、數(shù)據(jù)標準化、數(shù)據(jù)離散化和數(shù)據(jù)概念分層。數(shù)據(jù)變換數(shù)據(jù)歸約(Datareduction)的主要任務是進行數(shù)據(jù)量上的精簡,減少數(shù)據(jù)分析和數(shù)據(jù)存儲的數(shù)據(jù)量,主要包括維度規(guī)約、數(shù)值規(guī)約、數(shù)據(jù)壓縮和抽樣歸約。維度歸約(Dimensionreduction)是從屬性的角度著手,考慮精簡屬性。數(shù)值歸約(Numericalreduction):一是判斷是否能提高數(shù)據(jù)粒度。二是從對象角度考慮,判別并去除冗余對象。三是從重抽樣角度考慮,通過二次抽樣,獲取更小規(guī)模的數(shù)據(jù)樣本。數(shù)據(jù)歸約數(shù)據(jù)壓縮(Datacompression)是指從數(shù)據(jù)自身角度著手研究減少數(shù)據(jù)存儲量的方法,包括無損壓縮技術和有損壓縮技術。抽樣歸約是指對給定的數(shù)據(jù)集進行二次抽樣(重抽樣),獲得規(guī)模較小的數(shù)據(jù)集。數(shù)據(jù)歸約02數(shù)據(jù)的常用組織方式
數(shù)據(jù)的邏輯組織是指數(shù)據(jù)存儲的邏輯抽象。在數(shù)據(jù)分析和數(shù)據(jù)挖掘中,一類不考慮時間序列,另一類考慮時間序列。各類型數(shù)據(jù)通常以變量、對象、向量、矩陣、表、立方體和超立方體形式進行邏輯組織。數(shù)據(jù)的常用邏輯組織面向?qū)ο蟪绦蛑械膶ο?Object),包括屬性和方法,整個程序架構(gòu)按照對象形式進行數(shù)據(jù)組織。在結(jié)構(gòu)化編程語言中可以使用結(jié)構(gòu)體來存儲對象,在面向?qū)ο蟮木幊陶Z言中,可以定義類,然后利用類定義對象。數(shù)據(jù)的物理組織是指數(shù)據(jù)在計算時如何具體地存儲,包括內(nèi)存存儲和外存存儲。有些編程語言和統(tǒng)計軟件可能已經(jīng)設計了存儲方式。數(shù)據(jù)的常用物理組織高精度計算與矩陣計算在大數(shù)據(jù)挖掘和統(tǒng)計分析中常常用到高精度計算。大多數(shù)編程語言對浮點數(shù)計算都有精度限制,如C++中的double類型可以保留15位或16位有效數(shù)字。編程語言、軟件工具現(xiàn)有多個編程語言和軟件工具可用于建模,編程語言包括Python、R、C++、Matlab;軟件庫包括orsci;軟件包括SPSS、SAS、EViews、AMOS、Weka、SPSSmodeler等。選擇哪種編程語言或軟件工具與研究目的有關,如果作為一個模塊需要集成在另外的系統(tǒng)中,則應該考慮整個系統(tǒng)所用的編程語言;如果只是進行關鍵問題的分析,則建議使用可視化軟件工具。選擇自己習慣使用的工具也是一項重要的依據(jù)。03相似度計算與距離分析
相似度(Similarity)用于度量兩個對象的相近程度,取值一般在[0,1]區(qū)間,越接近1,相似程度越大。屬性的相似度常稱為相關程度(Correlationdegree)。相似度與距離的轉(zhuǎn)換令x=(x1,x2,…,xn)和y=(y1,y2,…,yn)為兩個對象,則閔可夫斯基距離(Minkowskidistance,又稱閔氏距離)可由式(5.12)計算,其中,h=1,2,…,∞,每個h值代表一個具體測度。閔可夫斯基距離馬氏距離馬氏距離(Mahalanobisdistance)也是一種常用的距離測度,有時稱作數(shù)據(jù)的協(xié)方差距離。馬氏距離考慮了兩方面特點:①與各屬性的量綱無關,做了標準化處理;②考慮了各屬性的(協(xié)方差)相關性,去除了屬性的相互影響。如果對象包括各種屬性類型,則需要進行混合屬性的相似度計算或距離計算。令Xi和Xh,是兩個對象,包括a(k=1,2,…,p)共有p個屬性。第一種混合相似度計算方法是,設置各屬性權重,進行加權計算綜合相似度,如式(5.25)所示?;旌蠈傩缘南嗨贫扰c距離04kNN分類模型
分類(Classification)是指預先存在所有可能的類別,為一個新的樣本對象標記其所屬的類別。樣本數(shù)據(jù)常用圖5.9(a)所示的形式來組織,其中包括特征數(shù)據(jù)矩陣X和分類類別向量y。kNN分類模型概述在kNN算法中,當k=1時,也稱1最近鄰,或簡稱最近鄰算法,此時只是選擇X?最近的一個鄰居,按照該鄰居的類別對X?進行判別。kNN分類模型概述(1)計算距離,給定測試對象,計算它與訓練集中的每個對象的距離。
(3)決定類別,根據(jù)這k個近鄰歸屬的主要類別,對測試對象分類。距離加權kNN分類模型
(2)尋找鄰居,圈定距離最近的k個訓練對象,作為測試對象的近鄰。05參數(shù)的點估計
原點矩與中心矩矩估計法矩估計法是利用樣本原點矩Ak去估計總體原點矩αk。由于中心矩和原點矩存在轉(zhuǎn)換關系,所以也可以用樣本中心矩Ck;去估計總體中心矩Sk。極大似然估計法(MaximumLikelihoodEstimate,MLE),又稱最大似然估計法,它是一種基于樣本進行參數(shù)估計的方法。極大似然估計法06本章小結(jié)本章小結(jié)數(shù)據(jù)的預處理屬于數(shù)據(jù)分析和數(shù)據(jù)挖掘的前序步驟,其處理質(zhì)量也將嚴重影響后
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 關于商鋪租金合同范本
- 墻地磚合同范本
- 全書定制合同范本
- 單位電腦采購合同范本
- 單位與保安合同范本
- 個人投資合伙合同范本
- 修路轉(zhuǎn)讓合同范例
- 入圍合同范本
- 做線上合同范本
- 麻城外包型鋼加固施工方案
- 河南省公安基礎知識真題匯編1
- 內(nèi)陸常規(guī)貨物物流運輸代理協(xié)議三篇
- 2024年江蘇常州市教育基本建設與裝備管理中心招聘3人歷年高頻難、易錯點500題模擬試題附帶答案詳解
- 《護理交接班規(guī)范》課件
- 2022年新高考I卷讀后續(xù)寫David's run公開課課件-高三英語一輪復習
- 《語感與語言習得一:積累與探索》教案- 2023-2024學年高教版(2023)中職語文基礎模塊上冊
- 糧油食材配送投標方案(大米食用油食材配送服務投標方案)(技術方案)
- 祭掃烈士實施方案
- 2024年中國電動助力汽車轉(zhuǎn)向系統(tǒng)(EPS)行業(yè)市場現(xiàn)狀、前景分析研究報告
- 2023年吉林省中考滿分作文《成功源于勤奮》
- 2024-2030年中國后量子密碼學行業(yè)運營動態(tài)及投資策略分析報告
評論
0/150
提交評論