數(shù)據(jù)探查與預(yù)處理_圖文_第1頁(yè)
數(shù)據(jù)探查與預(yù)處理_圖文_第2頁(yè)
數(shù)據(jù)探查與預(yù)處理_圖文_第3頁(yè)
數(shù)據(jù)探查與預(yù)處理_圖文_第4頁(yè)
數(shù)據(jù)探查與預(yù)處理_圖文_第5頁(yè)
已閱讀5頁(yè),還剩39頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、SWUFE1數(shù)據(jù)探查張英2022年4月26日星期二SWUFE2數(shù)據(jù)質(zhì)量 數(shù)據(jù)對(duì)應(yīng)用的適合性:相關(guān)性、完備性、時(shí)效性數(shù)據(jù)對(duì)應(yīng)用的適合性:相關(guān)性、完備性、時(shí)效性 數(shù)據(jù)的可用性:數(shù)據(jù)的可用性:屬性含義及其取值的可理解性 數(shù)據(jù)集成程度數(shù)據(jù)集成程度 數(shù)據(jù)的規(guī)模及抽樣偏倚數(shù)據(jù)的規(guī)模及抽樣偏倚 數(shù)據(jù)收集和測(cè)量問(wèn)題數(shù)據(jù)收集和測(cè)量問(wèn)題 收集問(wèn)題收集問(wèn)題 測(cè)量問(wèn)題測(cè)量問(wèn)題2022年4月26日星期二SWUFE3數(shù)據(jù)特征數(shù)據(jù)特征 屬性類型與測(cè)量水平屬性類型與測(cè)量水平 定性與定量、分散與連續(xù)定性與定量、分散與連續(xù) 數(shù)據(jù)的粒度與單位數(shù)據(jù)的粒度與單位 缺失值與數(shù)據(jù)的稀疏性缺失值與數(shù)據(jù)的稀疏性 基本統(tǒng)計(jì)特征基本統(tǒng)計(jì)特征202

2、2年4月26日星期二數(shù)據(jù)對(duì)象(實(shí)例、記錄、觀測(cè))數(shù)據(jù)對(duì)象(實(shí)例、記錄、觀測(cè))屬性(變量、維、特征)屬性(變量、維、特征)SWUFE4字符型(分類屬性、定性屬性) 二元(BINARY)屬性 對(duì)稱二元屬性 例如:性別 不對(duì)稱二元屬性 例如:是否欺詐,只關(guān)注非零值 標(biāo)稱(NOMINAL)屬性(類別屬性)(定類變量)取值無(wú)序 例如:職業(yè)、專業(yè)、婚姻狀況 序數(shù)(ORDINAL)屬性(定序變量)取值有序 例如:職稱、滿意度2022年4月26日星期二SWUFE5數(shù)值型(定量屬性) 區(qū)間(INTERVAL)屬性 (定距變量) 例如:溫度 比率(RATIO)屬性 (定比變量) 例如:成績(jī)、收入、利潤(rùn)、人數(shù)202

3、2年4月26日星期二SWUFE6屬性類型的不同操作特征2022年4月26日星期二注意:每種類型擁有其上方類型的性質(zhì)和操作注意:每種類型擁有其上方類型的性質(zhì)和操作SWUFE7缺失值和數(shù)據(jù)的稀疏性-排序的影響2022年4月26日星期二SWUFE8基本統(tǒng)計(jì)描述 屬性取值的一般水平 屬性取值的離散程度 分布的對(duì)稱性與中心集中度 屬性間取值的相關(guān)性2022年4月26日星期二SWUFE9數(shù)據(jù)的中心趨勢(shì) 數(shù)值屬性 均值 中位數(shù) 截尾均值 三均值 字符屬性 眾數(shù)2022年4月26日星期二niixnx11x8.08.08.08.08.08.08.019.08.08.08.0SWUFE10數(shù)據(jù)的離散程度 數(shù)值屬性

4、 極差、方差、標(biāo)準(zhǔn)差、平均絕對(duì)偏差 四分位數(shù)與四分位極差QR=Q3-Q1 變異系數(shù) 字符屬性取值個(gè)數(shù)2022年4月26日星期二 下截?cái)帱c(diǎn):Q1 -1.5*QR 上截?cái)帱c(diǎn):Q3+1.5*QR孤立點(diǎn)上截?cái)帱c(diǎn) CV=(%)100 xSWUFE11數(shù)據(jù)分布的對(duì)稱性2022年4月26日星期二偏度SWUFE12數(shù)據(jù)分布的中心集中度2022年4月26日星期二峰度為負(fù)正態(tài)分布,峰度為0峰度為正SWUFE13屬性間的相關(guān)性相關(guān)系數(shù)相關(guān)系數(shù)夾角夾角余弦余弦2022年4月26日星期二A、B屬性為標(biāo)稱屬性或二元屬性,其取值個(gè)數(shù)分別為c,rOij:實(shí)際頻數(shù)eij:期望頻數(shù)自由度:(r-1)*(c-1)原假設(shè):A和B獨(dú)立

5、12211(6 .1 0 )niiinniiiixxcxx SWUFE14 性別與閱讀興趣相關(guān)?結(jié)論:性別與閱讀興趣相關(guān)2022年4月26日星期二SWUFE15安斯庫(kù)姆四重奏安斯庫(kù)姆四重奏一二三四xyxyxyxy10.08.0410.09.1410.07.468.06.588.06.958.08.148.06.778.05.7613.07.5813.08.7413.012.748.07.719.08.819.08.779.07.118.08.8411.08.3311.09.2611.07.818.08.4714.09.9614.08.1014.08.848.07.046.07.246.06.1

6、36.06.088.05.254.04.264.03.104.05.3919.012.5012.010.8412.09.1312.08.158.05.567.04.827.07.267.06.428.07.915.05.685.04.745.05.738.06.892022年4月26日星期二統(tǒng)計(jì)量數(shù)值x的均值9x的方差11y的均值7.50y的方差4.122或4.127x與y之間的相關(guān)系數(shù)0.816SWUFE16數(shù)據(jù)的圖形表示 分位數(shù)圖 直方圖或柱形圖 盒形圖 莖葉圖 餅圖 散點(diǎn)圖、折線圖2022年4月26日星期二等高線圖等高線圖平行坐標(biāo)系平行坐標(biāo)系圖形矩陣圖形矩陣星型坐標(biāo)圖星型坐標(biāo)圖Chern

7、off臉圖臉圖SWUFE17分位數(shù)圖2022年4月26日星期二MQ1Q3MQ1Q3SWUFE18直方圖(柱形圖)2022年4月26日星期二SWUFE19盒形圖2022年4月26日星期二中位數(shù)中位數(shù)平均數(shù)平均數(shù)Q1Q3上截?cái)帱c(diǎn)上截?cái)帱c(diǎn)或最大值或最大值下截?cái)帱c(diǎn)下截?cái)帱c(diǎn)或最小值或最小值孤立點(diǎn)孤立點(diǎn)SWUFE20散點(diǎn)圖2022年4月26日星期二SWUFE21多維圖2022年4月26日星期二平行坐標(biāo)系平行坐標(biāo)系Chernoff臉圖臉圖星型坐標(biāo)圖星型坐標(biāo)圖SWUFE22客戶信息數(shù)據(jù)問(wèn)題舉例部分屬性值為空部分屬性值為空收入為收入為0出生日期填寫為出生日期填寫為1900.1.1不同地區(qū)的客戶分散在不同的數(shù)據(jù)集

8、中不同地區(qū)的客戶分散在不同的數(shù)據(jù)集中不同的屬性分散在不同的數(shù)據(jù)集中不同的屬性分散在不同的數(shù)據(jù)集中客戶數(shù)量太大、屬性個(gè)數(shù)太多客戶數(shù)量太大、屬性個(gè)數(shù)太多缺乏年齡屬性缺乏年齡屬性收入分布偏斜收入分布偏斜地址對(duì)分析目標(biāo)而言太詳細(xì)地址對(duì)分析目標(biāo)而言太詳細(xì)2022年4月26日星期二SWUFE23 數(shù)據(jù)清洗 數(shù)據(jù)集成 數(shù)據(jù)消減 數(shù)據(jù)轉(zhuǎn)換 復(fù)雜數(shù)據(jù)類型的預(yù)處理2022年4月26日星期二 數(shù)據(jù)質(zhì)量數(shù)據(jù)質(zhì)量 分析方法分析方法 需求需求SWUFE24數(shù)據(jù)清洗 處理錯(cuò)誤或不一致的數(shù)據(jù) 處理缺失值 識(shí)別處理孤立點(diǎn) 平滑噪聲數(shù)據(jù)2022年4月26日星期二SWUFE252022年4月26日星期二缺失值的處理缺失值的處理 忽

9、略該條記錄 填補(bǔ) 人工確定值或固定值 均值(中位數(shù))或眾數(shù) 同類別的均值(中位數(shù))或眾數(shù) 預(yù)測(cè)值:利用分類預(yù)測(cè)技術(shù)推斷出最大可能取值 增加標(biāo)識(shí)變量SWUFE26識(shí)別并處理孤立點(diǎn) 識(shí)別 常識(shí) 統(tǒng)計(jì)規(guī)則 聚類, 處理 去除 視為噪聲,進(jìn)行平滑2022年4月26日星期二SWUFE27噪聲平滑 分箱分箱 聚類聚類 回歸回歸2022年4月26日星期二SWUFE282022年4月26日星期二分箱(Bin) 等高分箱:每箱數(shù)據(jù)個(gè)數(shù)相同 等寬分箱:每箱的箱距相同排序確定箱數(shù)確定每箱數(shù)據(jù)個(gè)數(shù)確定箱距分配替換SWUFE292022年4月26日星期二等高分箱方法舉例4,15,25,34,8,21,26,9,24,2

10、8,29,21(1)排序: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34(2)將數(shù)據(jù)分割為等高的3箱,每箱4個(gè)數(shù)據(jù)項(xiàng) :- Bin 1: 4, 8, 9, 15- Bin 2: 21, 21, 24, 25- Bin 3: 26, 28, 29, 34(3)根據(jù)箱中的平均值進(jìn)行平滑:- Bin 1: 9, 9, 9, 9- Bin 2: 23, 23, 23, 23- Bin 3: 29, 29, 29, 29SWUFE302022年4月26日星期二聚類與回歸平滑方法SWUFE31數(shù)據(jù)集成 合并多個(gè)數(shù)據(jù)源中的數(shù)據(jù),將之存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中。 模式

11、集成問(wèn)題 :同名不同義,同義不同名。 數(shù)據(jù)值沖突的檢測(cè)與處理例如:不同的計(jì)量單位、取值層次 數(shù)據(jù)冗余問(wèn)題 縱向集成和橫向集成2022年4月26日星期二數(shù)據(jù)集數(shù)據(jù)集1中:中: Customerid(客戶編號(hào))(客戶編號(hào)) Cid(客戶身份證號(hào))(客戶身份證號(hào)) (一)季度存款額:?jiǎn)挝唬涸ㄒ唬┘径却婵铑~:?jiǎn)挝唬涸?開(kāi)戶行:分行開(kāi)戶行:分行數(shù)據(jù)集數(shù)據(jù)集2中:中: Cid(客戶編號(hào))(客戶編號(hào)) (二)季度存款額:?jiǎn)挝唬呵гǘ┘径却婵铑~:?jiǎn)挝唬呵г?開(kāi)戶行:支行開(kāi)戶行:支行 SWUFE32 維歸約 數(shù)據(jù)壓縮(PCA、小波變換等) 屬性構(gòu)造 屬性子集選擇 行規(guī)約2022年4月26日星期二SWUFE

12、332022年4月26日星期二數(shù)據(jù)壓縮數(shù)據(jù)壓縮 數(shù)據(jù)壓縮是使用數(shù)據(jù)編碼或變換,以便得到原數(shù)據(jù)的“壓縮”表示。如果根據(jù)壓縮的數(shù)據(jù)集可以恢復(fù)原來(lái)的數(shù)據(jù)集,則數(shù)據(jù)壓縮是無(wú)損的,否則,數(shù)據(jù)壓縮是有損的。例如: 主成分分析 小波變換 奇異值分解SWUFE342022年4月26日星期二屬性子集選擇 手工消除無(wú)用或無(wú)關(guān)屬性 特征子集選取 特征子集選取就是選取最小的特征屬性集合,得到的數(shù)據(jù)挖掘結(jié)果與所有特征參加的數(shù)據(jù)挖掘結(jié)果相近或完全一致。 和建模過(guò)程集成 (嵌入方法) .多元回歸分析 逐步添加法(前向法) 逐步刪除法(后向法) 添加和刪除結(jié)合法(前向和后向結(jié)合法) .決策樹方法 進(jìn)行獨(dú)立的選取工作(過(guò)濾方法

13、和包裝方法) 例如:用關(guān)聯(lián)分析選取重要變量 用決策樹方法選取重要變量具有唯一值或近似唯一值的變量具有唯一值或近似唯一值的變量具有單一值或近似單一值的變量具有單一值或近似單一值的變量可以相互轉(zhuǎn)換或同意義的變量可以相互轉(zhuǎn)換或同意義的變量SWUFE352022年4月26日星期二特征子集選擇過(guò)程(過(guò)濾方法和包裝方法)SWUFE362022年4月26日星期二行規(guī)約 參數(shù)方法 非參數(shù)方法 聚集 抽樣 聚類 直方圖SWUFE37匯總屬性的粒度 電話流失客戶分月通話分鐘數(shù)2022年4月26日星期二 電話流失客戶分天通話分鐘數(shù)SWUFE38抽樣 簡(jiǎn)單隨機(jī)抽樣(又放回和無(wú)放回) 分層抽樣 簇抽樣 自適應(yīng)或漸進(jìn)抽樣

14、2022年4月26日星期二SWUFE39數(shù)據(jù)轉(zhuǎn)換 數(shù)據(jù)平滑去噪 數(shù)據(jù)聚集 新指標(biāo)屬性的構(gòu)造 數(shù)據(jù)規(guī)范化處理 數(shù)據(jù)泛化2022年4月26日星期二SWUFE402022年4月26日星期二數(shù)據(jù)規(guī)范化處理數(shù)據(jù)規(guī)范化處理 最小-最大規(guī)范化 z-score規(guī)范化(標(biāo)準(zhǔn)化) 十進(jìn)制縮放規(guī)范化。身高(m)體重(kg)X 張三 1.760Y 李四 1.880身高(cm)體重(kg)X 張三 17060Y 李四 18080SWUFE412022年4月26日星期二最小-最大規(guī)范化 A屬性的原取值區(qū)間minA,maxA 目標(biāo)新區(qū)間new_minA, new_maxA例如:百分制的85分轉(zhuǎn)化為5分制:SWUFE422022年4月26日星期二零均值(z-sco

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論