




已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘算法的幾何思想,李保坤老師 西南財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院,內(nèi)容概要,一 數(shù)據(jù)挖掘介紹 什么是數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的主要任務(wù) 數(shù)據(jù)挖掘簡單步驟 二 數(shù)據(jù)挖掘算法及其幾何思想 分類:分類樹、簡單貝頁斯、Logistic回歸、神經(jīng)網(wǎng)絡(luò)、判別分析、k-最近鄰點(diǎn) 預(yù)測:多元線性回歸、神經(jīng)網(wǎng)絡(luò) 數(shù)據(jù)精簡:主成分分析 探索性分析:聚類 關(guān)聯(lián)分析:關(guān)聯(lián)法則 三 西南數(shù)據(jù)挖掘系統(tǒng),一 數(shù)據(jù)挖掘介紹 1.1 什么是數(shù)據(jù)挖掘,是近來創(chuàng)造的名詞,是把統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)的一些思想綜合運(yùn)用到科學(xué)、工程和商業(yè)方面大型數(shù)據(jù)庫上以發(fā)現(xiàn)事物內(nèi)在規(guī)律的方法。 數(shù)據(jù)挖掘是建立在規(guī)模、速度、和簡單化上的統(tǒng)計(jì)學(xué); “是用統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的方法為大型數(shù)據(jù)建模的一種綜合工具。”我的想法,“會(huì)數(shù)據(jù)挖掘找工作時(shí)工資要高一些”! -研究生同學(xué)的反饋信息,4,一 數(shù)據(jù)挖掘介紹 1.1 什么是數(shù)據(jù)挖掘,數(shù)據(jù)挖掘概念及商務(wù)應(yīng)用,客戶關(guān)系管理 金融 電子商務(wù)和互聯(lián)網(wǎng),客戶關(guān)系管理,直銷 (Target Marketing) 客戶流失預(yù)測/跳槽分析 (Attrition Prediction/Churn Analysis) 欺詐探測 (Fraud Detection) 信用評分 (Credit Scoring),金融,商業(yè)問題:公司債券的定價(jià)取決于幾種因素, 公司的風(fēng)險(xiǎn)特征(risk profile)、債務(wù)資歷(seniority of debt)、公司歷史等等 解決方案:通過數(shù)據(jù)挖掘建立預(yù)測價(jià)格的更為精確的模型,電子商務(wù)和互聯(lián)網(wǎng),推薦系統(tǒng) 把點(diǎn)擊鼠標(biāo)者變成客戶,1.2.1 分類 數(shù)據(jù)挖掘的一項(xiàng)基本任務(wù)就是用類別已知的數(shù)據(jù)找出規(guī)則,然后把這些規(guī)則用在未進(jìn)行分類的數(shù)據(jù)上。 分類或許是數(shù)據(jù)挖掘應(yīng)用最廣泛的任務(wù)。,一 數(shù)據(jù)挖掘介紹 1.2 任務(wù),10,一 數(shù)據(jù)挖掘介紹 1.2 任務(wù),1.2.1 分類舉例 一家金融服務(wù)公司為其客戶提供房屋凈值信貸額度。該公司曾把該項(xiàng)貸款發(fā)放給了數(shù)千客戶,其中的許多接收者(大約20%)有貸款欺詐行為。該公司希望使用地理信息、人口信息、和經(jīng)濟(jì)狀況信息等變量建立一個(gè)模型預(yù)測一個(gè)申請人將來會(huì)不會(huì)欺詐。,該信用評分模型給每一個(gè)貸款申請人計(jì)算還貸欺詐的概率。在此要設(shè)定一個(gè)閾值,欺詐概率超過閾值的那些申請人將建議不批準(zhǔn)。,1.2.2 預(yù)測 預(yù)測和分類相似,差別在于我們是預(yù)測一個(gè)變量的數(shù)值,而不是一個(gè)類別。 當(dāng)然,在分類時(shí)我們試圖去預(yù)測一個(gè)類別,而“預(yù)測”這個(gè)術(shù)語在數(shù)據(jù)挖掘里通常指的是預(yù)測一個(gè)連續(xù)變量的數(shù)值。 (另外,預(yù)測和估計(jì)也經(jīng)常被混用),一 數(shù)據(jù)挖掘介紹 1.2 任務(wù),1.2.3 關(guān)聯(lián)分析 有了儲存客戶交易信息的大型數(shù)據(jù)庫自然就產(chǎn)生了對購買物品進(jìn)行的關(guān)聯(lián)分析(哪種物品和哪種物品是搭配著買的)。通過關(guān)聯(lián)分析得到的“關(guān)聯(lián)法則”然后以多種方式被利用。例如,百貨商店可以利用關(guān)聯(lián)法則在掃描了一個(gè)顧客的采購單后印制優(yōu)惠券,優(yōu)惠卷上打折扣的商品是由通過分析大量顧客的采購單得到的關(guān)聯(lián)法則決定的。,一 數(shù)據(jù)挖掘介紹 1.2 任務(wù),1.2.4 數(shù)據(jù)精簡 數(shù)據(jù)分析經(jīng)常需要把復(fù)雜的數(shù)據(jù)進(jìn)行精簡。分析人員不是處理成千上萬種商品,而是希望把數(shù)據(jù)壓縮成幾個(gè)小組。這種把大量的變量(或者記錄)合并而得到一個(gè)較小數(shù)據(jù)集合的過程就叫數(shù)據(jù)精簡。,一 數(shù)據(jù)挖掘介紹 1.2 任務(wù),1.2.5 探索性分析 審查和檢驗(yàn)數(shù)據(jù)以了解它包含什么信息。 例如為全面了解數(shù)據(jù)需要減少數(shù)據(jù)集合的大小或者維數(shù)以便讓我們看見森林而不是只看見樹木。相似的變量(即提供類似信息的變量)可以合并到一個(gè)變量。類似地,聚類分析可把所有記錄劃分到由相似記錄構(gòu)成的幾個(gè)組里。,一 數(shù)據(jù)挖掘介紹 1.2 任務(wù),1.2.6 數(shù)據(jù)顯示 了解數(shù)據(jù)包含信息的另一個(gè)技術(shù)是圖形分析。例如,兩個(gè)變量之間的散布圖可以讓我們迅速地看到變量之間的關(guān)系。,一 數(shù)據(jù)挖掘介紹 1.2 任務(wù),數(shù)據(jù)挖掘任務(wù)以及工具,分類: k最近鄰點(diǎn),簡單貝葉斯(Nave Bayes),分類樹,判別分析,Logistic回歸,神經(jīng)網(wǎng)絡(luò),支持向量機(jī) 預(yù)測: 回歸,神經(jīng)網(wǎng)絡(luò),時(shí)間序列 關(guān)聯(lián)法則: 關(guān)聯(lián)分析 數(shù)據(jù)精簡: 主成分分析、相關(guān)分析、粗糙集 探索性分析 聚類分析,17,一 數(shù)據(jù)挖掘介紹 1.3 數(shù)據(jù)挖掘步驟,把數(shù)據(jù)劃分為 訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù) 兩個(gè)部分,只用訓(xùn)練數(shù)據(jù) 訓(xùn)練模型,得到結(jié)果,看一下 結(jié)果是否令人滿意,檢查在驗(yàn)證數(shù)據(jù)上的 結(jié)果是否也令人滿意,研究在驗(yàn)證數(shù)據(jù) 上的各種輸出結(jié)果,嘗試幾種備擇模型,選擇和部署 最佳模型,二 數(shù)據(jù)挖掘算法思想和應(yīng)用 2.1.1 決策樹,幾何思想:把預(yù)測變量空間劃分為多個(gè)多維空間的“長方形”,每一個(gè)“長方形”對應(yīng)一個(gè)類別。,18,19,二 數(shù)據(jù)挖掘算法思想和應(yīng)用 2.1.1 決策樹,20,二 數(shù)據(jù)挖掘算法思想和應(yīng)用 2.1.1 決策樹,Iris花,21,例如:輸入變量有X1,X2,Xk, 輸出變量y有個(gè)類別y1,y2,y3. 假定所有的輸入變量和輸出變量都是隨機(jī)變量。假定在每一個(gè)輸出類別上輸入變量相互獨(dú)立。 針對每一個(gè)觀測記錄,計(jì)算給定輸入變量值時(shí)輸出變量等于每一個(gè)類別的條件概率。在某一個(gè)類別上的條件概率最大,該觀測記錄就劃為某一類。 對每一個(gè)觀測記錄計(jì)算: P(Y=y1|X1=x1,X2=x2,Xk=xk) P(Y=y2|X1=x1,X2=x2,Xk=xk) P(Y=y3|X1=x1,X2=x2,Xk=xk),22,二 數(shù)據(jù)挖掘算法思想和應(yīng)用 2.1.2 簡單貝葉斯分類思想,23,二 數(shù)據(jù)挖掘算法思想和應(yīng)用 2.1.2 簡單貝葉斯,輸出變量只有個(gè)類別,即:和 對每一個(gè)觀測記錄的輸入變量,計(jì)算其輸出變量等于的概率。該概率是輸入變量某線性組合的單調(diào)函數(shù)。 當(dāng)該概率大于某個(gè)值時(shí)劃分到一個(gè)類;否則劃分到另一個(gè)類。,24,二 數(shù)據(jù)挖掘算法思想和應(yīng)用 2.1.3 Logistic回歸,25,二 數(shù)據(jù)挖掘算法思想和應(yīng)用 2.1.3 Logistic回歸,Logistic 回歸模型 擬和的,貝葉斯判別 fisher判別函數(shù)分類思想: 在輸入變量空間中找一條直線,使得幾個(gè)輸出類別在這條直線上的投影盡可能地分開。,26,二 數(shù)據(jù)挖掘算法思想和應(yīng)用 2.1.4 判別分析,27,二 數(shù)據(jù)挖掘算法思想和應(yīng)用 2.1.4 判別分析,假定K=3 對數(shù)據(jù)集合中的每一個(gè)點(diǎn),檢查它在預(yù)測變量空間中最鄰近的個(gè)點(diǎn),如果這個(gè)鄰居中的大多數(shù)都屬于某一個(gè)類別,那么該點(diǎn)就屬于此類別。 這是“民主投票方式”的分類法,28,二 數(shù)據(jù)挖掘算法思想和應(yīng)用 2.1.5 k最近鄰點(diǎn),29,二 數(shù)據(jù)挖掘算法思想和應(yīng)用 2.1.5 k最近鄰點(diǎn),人類的大腦估計(jì)有一百億個(gè)神經(jīng)元,每一個(gè)神經(jīng)元平均和其它10,000個(gè)神經(jīng)元相連接。神經(jīng)元通過神經(jīng)突觸接收信號,神經(jīng)突觸控制著信號的反應(yīng)。這些神經(jīng)突觸的網(wǎng)絡(luò)連接被認(rèn)為在大腦活動(dòng)中起著關(guān)鍵作用。 人工神經(jīng)網(wǎng)絡(luò)的靈感來源于科學(xué)家對大腦行為研究的生理發(fā)現(xiàn)。,30,二 數(shù)據(jù)挖掘算法思想和應(yīng)用 2.1.6 神經(jīng)網(wǎng)絡(luò),31,二 數(shù)據(jù)挖掘算法思想和應(yīng)用 2.1.6 神經(jīng)網(wǎng)絡(luò),32,二 數(shù)據(jù)挖掘算法思想和應(yīng)用 2.1.6 神經(jīng)網(wǎng)絡(luò),思想:找到一條直線(或者多維空間的超平面) ,使得數(shù)據(jù)集合的點(diǎn)到該直線的豎直距離平方和 最小,二 數(shù)據(jù)挖掘算法思想和應(yīng)用 2.2.1 多元線性回歸,思想:在保證數(shù)據(jù)信息丟失不多的情況下,把高維空間的數(shù)據(jù)投影到低維空間。目的是除掉變量之間包含信息的冗余、并降低數(shù)據(jù)的維數(shù)。,34,二 數(shù)據(jù)挖掘算法思想和應(yīng)用 2.3.1 主成分分析,35,二 數(shù)據(jù)挖掘算法思想和應(yīng)用 2.3.1 主成分分析,聚類分析的目的是根據(jù)對象幾種屬性的測量值組成相似對象的幾個(gè)集合。關(guān)鍵的思想是把數(shù)據(jù)以一種有利于進(jìn)行分析的方式歸類。,36,二 數(shù)據(jù)挖掘算法思想和應(yīng)用 2.3.2 聚類分析,37,二 數(shù)據(jù)挖掘算法思想和應(yīng)用 2.3.2 聚類分析,38,二 數(shù)據(jù)挖掘算法思想和應(yīng)用 2.3.2 聚類分析,關(guān)聯(lián)分析研究的是“什
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年雷達(dá)、無線電導(dǎo)航及無線電遙控設(shè)備項(xiàng)目發(fā)展計(jì)劃
- 卵巢過度刺激綜合征護(hù)理要點(diǎn)
- 2025年水及電解質(zhì)平衡調(diào)節(jié)藥合作協(xié)議書
- 財(cái)經(jīng)投資自媒體賬號買賣及財(cái)經(jīng)資訊合作合同
- 工業(yè)級3D打印耗材倉儲租賃與市場拓展及產(chǎn)業(yè)配套合同
- 金融理財(cái)產(chǎn)品風(fēng)險(xiǎn)評估補(bǔ)充協(xié)議
- 攝影工作室設(shè)備采購與攝影技術(shù)培訓(xùn)、推廣、后期制作、服務(wù)及版權(quán)交易合同
- 新能源汽車充電站建設(shè)與電力設(shè)施改造合同
- 生物樣本庫建設(shè)與科研合作項(xiàng)目合作合同
- 海外留學(xué)行李安全檢查門租賃與安全評估服務(wù)協(xié)議
- 熱菜加工流程圖
- 《加油站安全管理人員安全生產(chǎn)目標(biāo)責(zé)任書》
- 第三章:船舶主機(jī)安裝工藝
- 跳棋教學(xué)(課堂PPT)
- 計(jì)件工薪酬制度
- MSA偏倚分析報(bào)告樣本
- 15《堅(jiān)持才會(huì)有收獲》優(yōu)選課件
- 中國顱腦創(chuàng)傷顱內(nèi)壓監(jiān)測專家共識
- 水泥購銷合同簡易版
- 列管式換熱器工藝設(shè)計(jì)
- 相聲反正話臺詞-《反正話》對口相聲劇本臺詞
評論
0/150
提交評論