版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘數(shù)據(jù)挖掘( (Data Mining)主講教師:邵俊明Email: TelData Mining Lab, Big Data Research CenterSchool of Computer Science and Engineering, UESTC Http:/ 認(rèn)識數(shù)據(jù)與數(shù)據(jù)預(yù)處理上節(jié)內(nèi)容1. 什么是數(shù)據(jù)挖掘: 從大量的數(shù)據(jù)中挖掘那些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識 。2. 知識發(fā)現(xiàn)的過程:數(shù)據(jù)清理, 數(shù)據(jù)集成, 數(shù)據(jù)選擇, 數(shù)據(jù)變換, 數(shù)據(jù)挖掘, 模式評估, 和知識表示。其中數(shù)據(jù)挖掘是知識發(fā)現(xiàn)其中數(shù)據(jù)挖掘是知識發(fā)現(xiàn)的核心
2、的核心!3. 數(shù)據(jù)挖掘功能/任務(wù): 關(guān)聯(lián)規(guī)則, 聚類, 分類/回歸, 孤立點(diǎn)分析等.4. 數(shù)據(jù)挖掘的常識性知識: 學(xué)科的交叉性:機(jī)器學(xué)習(xí)、數(shù)據(jù)庫、統(tǒng)計(jì)學(xué)、拓?fù)鋵W(xué)等具有緊密的聯(lián)系 挑戰(zhàn):高維,大數(shù)據(jù)、數(shù)據(jù)類型、參數(shù)、數(shù)據(jù)演化性和數(shù)據(jù)隱私/安全性 常見工具包/期刊、會議。 主要內(nèi)容一、認(rèn)識數(shù)據(jù)n屬性類型n數(shù)據(jù)的統(tǒng)計(jì)描述n相似性度量二、數(shù)據(jù)預(yù)處理n為什么進(jìn)行預(yù)處理數(shù)據(jù)?n數(shù)據(jù)預(yù)處理方法一、認(rèn)識數(shù)據(jù)l數(shù)據(jù)數(shù)據(jù)是對描述對象的抽象;l數(shù)據(jù)集:數(shù)據(jù)集:數(shù)據(jù)對象的集合;l數(shù)據(jù)對象數(shù)據(jù)對象:記錄、點(diǎn)、向量、模式、事件、樣本、案例、觀測或?qū)嶓w;l屬性:屬性:用于刻畫對象的基本性質(zhì)或特性; 屬性也稱作:變量、特性、
3、字段、特征或維。l屬性值:屬性值:是賦予屬性的數(shù)或符號基本概念Example對象對象屬性屬性數(shù)據(jù)集數(shù)據(jù)集屬性值屬性值1 1、屬性類型屬性類型u分類型(Categorical)標(biāo)稱(Nominal)-(特殊:二元)例: ID 號、眼球顏色、郵政編碼序數(shù)( Ordinal )例: 軍階 、 GPA、用 tall, medium, short表示的高u數(shù)值型(Numerical)區(qū)間(Interval)例: 日歷、攝氏或華氏溫度.比率(Ratio)例: 開氏溫度、長度、計(jì)數(shù)屬性類型屬性類型屬性類型描描 述述例例 子子操操 作作標(biāo)稱屬性的值僅僅只是不標(biāo)稱屬性的值僅僅只是不同的名字,即標(biāo)稱值只提供同的名
4、字,即標(biāo)稱值只提供足夠的信息以區(qū)分對象足夠的信息以區(qū)分對象(=, )郵政編碼、雇員郵政編碼、雇員ID號、號、眼球顏色、性別眼球顏色、性別眾數(shù)、熵、列聯(lián)相關(guān)、眾數(shù)、熵、列聯(lián)相關(guān)、 2檢驗(yàn)檢驗(yàn)序數(shù)屬性的值提供足夠的序數(shù)屬性的值提供足夠的信息確定對象的序信息確定對象的序()礦石硬度、礦石硬度、好,較好,較好,最好好,最好、成績、成績、街道號碼街道號碼中值、百分位、秩相關(guān)、中值、百分位、秩相關(guān)、游程檢驗(yàn)、符號檢驗(yàn)游程檢驗(yàn)、符號檢驗(yàn)對于區(qū)間屬性,值之間的對于區(qū)間屬性,值之間的差是有意義的,即存在測量差是有意義的,即存在測量單位單位( , )日歷日期、攝氏或華日歷日期、攝氏或華氏溫度氏溫度均值、標(biāo)準(zhǔn)差、皮
5、爾遜均值、標(biāo)準(zhǔn)差、皮爾遜相關(guān)、相關(guān)、t和和F檢驗(yàn)檢驗(yàn)對于比率變量,差和比率對于比率變量,差和比率都是有意義的都是有意義的(*,/)絕對溫度、貨幣量、絕對溫度、貨幣量、計(jì)數(shù)、年齡、質(zhì)量、計(jì)數(shù)、年齡、質(zhì)量、長度、電流長度、電流幾何平均、調(diào)和平均、幾何平均、調(diào)和平均、百分比變差百分比變差分類的分類的(定性的定性的)數(shù)值的數(shù)值的(定量的定量的)標(biāo)標(biāo)稱稱序序數(shù)數(shù)區(qū)區(qū)間間比比率率離散 vs. 連續(xù)屬性離散屬性(Discrete Attribute)- 有限或無限可數(shù)個值 例: 郵政編碼、計(jì)數(shù)、文檔集的詞- 常表示為整數(shù)變量或字符串變量 連續(xù)屬性(Continuous Attribute)- 屬性值為實(shí)數(shù)
6、例: 溫度、高度、重量. - 實(shí)踐中, 實(shí)數(shù)只能用有限位數(shù)字的數(shù)度量和表示.- 連續(xù)屬性一般用浮點(diǎn)變量表示. 通常,標(biāo)稱、序數(shù)屬性為離散的,區(qū)間和比率屬性是連續(xù)的。通常,標(biāo)稱、序數(shù)屬性為離散的,區(qū)間和比率屬性是連續(xù)的。對稱 vs. 非對稱二元屬性n二元屬性(binary attributes)n離散屬性的特例n僅取兩個不同值,0/1、真/假、是/否、男/女.n常用0、1表示n對稱的二元屬性n兩個值一樣重要n例如,性別n非對稱的二元屬性n通常,一個值比另一個更重要n重要的值通常比較少出現(xiàn),通常用1表示n例如,化驗(yàn)結(jié)果陰性,陽性,其中陽性較少,但更值得關(guān)注2 2、數(shù)據(jù)類型n記錄數(shù)據(jù)n數(shù)據(jù)矩陣n文檔
7、數(shù)據(jù)n購物籃數(shù)據(jù)(事務(wù)數(shù)據(jù))n圖數(shù)據(jù)(Graph)n萬維網(wǎng)n分子結(jié)構(gòu)n有序(Ordered)數(shù)據(jù)n時序數(shù)據(jù)n序列數(shù)據(jù)n基因序列數(shù)據(jù)n空間數(shù)據(jù)記錄數(shù)據(jù): 典型情況Tid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No
8、Married 75K No 10 No Single 90K Yes 10 記錄數(shù)據(jù): 數(shù)據(jù)矩陣如果數(shù)據(jù)對象都具有固定個數(shù)的數(shù)值屬性,則可以把數(shù)據(jù)對象看做多維空間中的點(diǎn),其中每個維代表一個不同的屬性這種數(shù)據(jù)可以用一個 m n 矩陣表示, 其中 m 行, 每行代表一個對象, n 列, 每列代表一個屬性26.2512.651.22.715.225.2710.23Thickness LoadDistanceProjection of y loadProjection of x Load26.2512.651.22.715.225.2710.23Thickne
9、ss LoadDistanceProjection of y loadProjection of x Load記錄數(shù)據(jù): 文檔數(shù)據(jù)記錄數(shù)據(jù): 事務(wù)數(shù)據(jù)TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk 購物籃數(shù)據(jù)購物籃數(shù)據(jù)基于圖的數(shù)據(jù) (1)帶有對象之間聯(lián)系的數(shù)據(jù) 基于圖的數(shù)據(jù) (2)具有圖形對象的數(shù)據(jù) 對象具有結(jié)構(gòu),即對象包含具有聯(lián)系的子對象 例: 苯分子的球棍圖,包含碳原子(黑色)和氫原子(灰色) 有序數(shù)
10、據(jù): 時序數(shù)據(jù)有序數(shù)據(jù)有多種, 常常涉及時間或空間序時序數(shù)據(jù)(sequential data),也稱時間數(shù)據(jù)(temporal data) 時間次序重要, 但具體時間不重要例:事務(wù)序列有序數(shù)據(jù): 序列數(shù)據(jù)序列數(shù)據(jù)(sequence data)- 基因組序列數(shù)據(jù)GGTTCCGCCTTCAGCCCCGCGCCCGCAGGGCCCGCCCCGCGCCGTCGAGAAGGGCCCGCCTGGCGGGCGGGGGGAGGCGGGGCCGCCCGAGCCCAACCGAGTCCGACCAGGTGCCCCCTCTGCTCGGCCTAGACCTGAGCTCATTAGGCGGCAGCGGACAGGCCAAGTAG
11、AACACGCGAAGCGCTGGGCTGCCTGCTGCGACCAGGG有序數(shù)據(jù): 時間序列數(shù)據(jù) 時間序列數(shù)據(jù)(time series data)上證綜指上證綜指800個交易日收盤價數(shù)據(jù)個交易日收盤價數(shù)據(jù)房價數(shù)據(jù)房價數(shù)據(jù)有序數(shù)據(jù):空間數(shù)據(jù)n空間數(shù)據(jù) - 具有空間屬性,如位置或區(qū)域 例: 不同的地理位置收集的氣象數(shù)據(jù)(降水量、氣溫、氣壓)n右圖每月是全球溫度空間數(shù)據(jù),顯示多月是時間-空間的溫度數(shù)據(jù)(Spatial-Temporal Data)3 3、數(shù)據(jù)的統(tǒng)計(jì)描述數(shù)據(jù)的統(tǒng)計(jì)描述n中心趨勢度量中心趨勢度量(均值,眾數(shù),中位數(shù),中列數(shù))n數(shù)據(jù)的散布數(shù)據(jù)的散布(極差,四分位數(shù),四分位數(shù)極差,五數(shù)概括
12、,盒圖)n可視化可視化 中心趨勢-均值例子:salary(千美元)如下: 30,31,47,50,52,52,56,60,63,70,70,110.n均值均值(mean)(mean):總和/個數(shù)n加權(quán)平均加權(quán)平均:考慮權(quán)重的均值n中列數(shù)中列數(shù):數(shù)據(jù)集的最大和最小值的平均值中心趨勢-中位數(shù)中位數(shù)區(qū)間的寬度。:中位數(shù)區(qū)間的頻率,有區(qū)間的頻率和,:低于中位數(shù)區(qū)間的所:數(shù)據(jù)總個數(shù),中位數(shù)區(qū)間的下界,:wi:211dthfreqfreqNLwidthfreqfreqNLmedianmedianlmedianln 中位數(shù)中位數(shù)(median):(median):有序數(shù)據(jù)值的中間值有序數(shù)據(jù)值的中間值。大數(shù)據(jù)
13、大數(shù)據(jù) :近似值估計(jì)(線性插值方法):近似值估計(jì)(線性插值方法)中心趨勢-眾數(shù)n眾數(shù)(眾數(shù)(mode): 在集合中出現(xiàn)最頻繁的值在集合中出現(xiàn)最頻繁的值。n對于非對稱的單峰數(shù)據(jù),有以下經(jīng)驗(yàn)關(guān)系: mean-mode 3 * (mean-median)一個數(shù)據(jù)集中可能有多個眾數(shù)一個數(shù)據(jù)集中可能有多個眾數(shù)數(shù)據(jù)散布n極差:max-minn四分位數(shù)(quantile)n四分位數(shù)極差(距離) IQR=Q3-Q1n方差n標(biāo)準(zhǔn)差n五數(shù)概括五數(shù)概括: min,Q1,median,Q3,max 盒圖表示 ( summary 函數(shù))可視化- 分位數(shù)圖n分位數(shù)圖(觀察單變量數(shù)據(jù)分布)Xi (i=1, N) 遞增排列的
14、數(shù)據(jù)可視化:分位數(shù)-分位數(shù)圖Q1Q3中位數(shù)中位數(shù)刻畫一個分布到另一個分布是否有漂移刻畫一個分布到另一個分布是否有漂移 ( qqplot 函數(shù))函數(shù))可視化:直方圖直方圖直方圖:刻畫數(shù)據(jù)的整體分布情況:刻畫數(shù)據(jù)的整體分布情況 (hist函數(shù))函數(shù))可視化:散點(diǎn)圖散點(diǎn)圖散點(diǎn)圖:數(shù)據(jù)的具體分布(:數(shù)據(jù)的具體分布( 0, A and B 正相關(guān) (As values increase as Bs). 值越大相關(guān)程度越高.rA,B = 0: 不相關(guān); rAB 0, 則A 和B 同時傾向于大于期望值.負(fù)covariance: If CovA,B 0,則如果 A大于其期望值, B is likely to
15、be smaller than its expected value.Independence: CovA,B= 0 but the converse is not true.ABCorrelation coefficient:相關(guān)分析 (標(biāo)稱屬性)2 (chi-square) test 卡方檢驗(yàn)卡方檢驗(yàn)ij是(ai,bj)的觀測頻度觀測頻度(實(shí)際計(jì)數(shù))eij是(ai,bj)的期望頻度期望頻度N數(shù)據(jù)元組的個數(shù)屬屬A性性a1a2i acb1Bb2j br(A=ai,B=bj)rjijijijciee1212)(NbBcountaAcountejiij)(*)(自由度: (c-1)*(r-1)Ex
16、ample 2 (chi-square) 計(jì)算(括號中的值為期望計(jì)值,由兩個類別的分布數(shù)據(jù)計(jì)算得到)下棋下棋不下棋不下棋Sum (row)看小說看小說250(90)200(360)450不看小說不看小說50(210)1000(840)1050Sum(col.)30012001500901500300*450)(*)(11Ncountcounte下棋看小說93.507840)8401000(360)360200(210)21050(90)90250(22222自由度為自由度為(2-1)*(2-1)=1,查表結(jié)果表明查表結(jié)果表明p Buy Iphone 5IG(Iphone 5|MobileBra
17、nd) = 0.6IG(Iphone 5|Gender) = 0.2IG(Iphone 5|Age) = 0.3那么在特征篩選的時候,我么可以刪除Gender數(shù)據(jù)壓縮有損壓縮 VS. 無損壓縮字符串壓縮有廣泛的理論基礎(chǔ)和精妙的算法通常是無損壓縮在解壓縮前對字符串的操作非常有限音頻/視頻壓縮通常是有損壓縮,壓縮精度可以遞進(jìn)選擇有時可以在不解壓整體數(shù)據(jù)的情況下,重構(gòu)某個片斷數(shù)據(jù)壓縮81Original DataCompressed DatalosslessOriginal DataApproximated lossy數(shù)據(jù)歸約-數(shù)量歸約n基本思想:通過選擇替代的、較小的數(shù)據(jù)表示形式來減少數(shù)據(jù)量n有參
18、方法有參方法:使用一個參數(shù)模型估計(jì)數(shù)據(jù),最后只要存儲參數(shù)即可。n線性回歸方法:Y=+Xn多元回歸:線性回歸的擴(kuò)充n對數(shù)線性模型:近似離散的多維數(shù)據(jù)概率分布n無參方法無參方法:n直方圖n聚類n抽樣n數(shù)據(jù)立方體聚集直方圖一種流行的數(shù)據(jù)歸約技術(shù)將某屬性的數(shù)據(jù)劃分為不相交的子集,或桶,桶中放置該值的出現(xiàn)頻率桶和屬性值的劃分規(guī)則等寬等深V-最優(yōu)MaxDiff聚類將數(shù)據(jù)集劃分為聚類,然后通過聚類來表示數(shù)據(jù)集如果數(shù)據(jù)可以組成各種不同的聚類,則該技術(shù)非常有效,反之如果數(shù)據(jù)界線模糊,則方法無效數(shù)據(jù)可以分層聚類,并被存儲在多層索引樹中抽樣允許用數(shù)據(jù)的較小隨機(jī)樣本(子集)表示大的數(shù)據(jù)集對數(shù)據(jù)集D的樣本選擇:簡單隨機(jī)選擇n個樣本,不回放:由D的N個元組中抽取n個樣本簡單隨機(jī)選擇n個樣本,回放:過程同上,只是元組被抽取后,將被回放,可能再次被抽取聚類選樣:D中元組被分入M個互不相交的聚類中,可在其中的m個聚類上進(jìn)行簡單隨機(jī)選擇(mM)分層選樣:D被劃分為互不相交的“層”,則可通過對每一層的簡單隨機(jī)選樣得到D的分層選樣數(shù)據(jù)立
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版設(shè)備租賃與維護(hù)協(xié)議
- 2024退伙引起的股權(quán)轉(zhuǎn)讓合同
- 2025年度智慧社區(qū)物業(yè)委托代管與安防服務(wù)合同3篇
- 2024年金融咨詢與融資中介服務(wù)協(xié)議模板版B版
- 2024版工程顧問合同
- 二零二五版水電工程臨時用電設(shè)施安裝合同3篇
- 2025年電商平臺運(yùn)營居間合作合同協(xié)議2篇
- 2025年物業(yè)保潔服務(wù)外包與社區(qū)文化活動組織合同3篇
- 2025年旋挖鉆機(jī)鉆孔施工與地質(zhì)勘探綜合服務(wù)合同3篇
- 二零二五版醇基燃料環(huán)保技術(shù)研發(fā)與成果轉(zhuǎn)化合同3篇
- 軍隊(duì)文職崗位述職報(bào)告
- 小學(xué)數(shù)學(xué)六年級解方程練習(xí)300題及答案
- 電抗器噪聲控制與減振技術(shù)
- 中醫(yī)健康宣教手冊
- 2024年江蘇揚(yáng)州市高郵市國有企業(yè)招聘筆試參考題庫附帶答案詳解
- 消費(fèi)醫(yī)療行業(yè)報(bào)告
- 品學(xué)課堂新范式
- GB/T 1196-2023重熔用鋁錠
- 運(yùn)輸行業(yè)員工崗前安全培訓(xùn)
- 公路工程安全風(fēng)險(xiǎn)辨識與防控手冊
- 幼兒園教師培訓(xùn):計(jì)數(shù)(數(shù)數(shù))的核心經(jīng)驗(yàn)
評論
0/150
提交評論