數(shù)據(jù)挖掘的其他基本功能簡(jiǎn)介_第1頁(yè)
數(shù)據(jù)挖掘的其他基本功能簡(jiǎn)介_第2頁(yè)
數(shù)據(jù)挖掘的其他基本功能簡(jiǎn)介_第3頁(yè)
數(shù)據(jù)挖掘的其他基本功能簡(jiǎn)介_第4頁(yè)
數(shù)據(jù)挖掘的其他基本功能簡(jiǎn)介_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 數(shù)據(jù)挖掘的其他基本功能介紹一、關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則挖掘是挖掘數(shù)據(jù)庫(kù)中和指標(biāo)(項(xiàng))之間有趣的關(guān)聯(lián)規(guī)則或相關(guān)關(guān)系。關(guān)聯(lián)規(guī)則挖掘具有很多應(yīng)用領(lǐng)域,如一些研究者發(fā)現(xiàn),超市交易記錄中的關(guān)聯(lián)規(guī)則挖掘?qū)Τ械慕?jīng)營(yíng)決策是十分重要的。1、 基本概念設(shè)是項(xiàng)組合的記錄,D為項(xiàng)組合的一個(gè)集合。如超市的每一購(gòu)物小票為一個(gè)項(xiàng)的組合(一個(gè)維數(shù)很大的記錄),而超市一段時(shí)間的購(gòu)物記錄就形成集合D。我們現(xiàn)在關(guān)心這樣一個(gè)問題,組合中項(xiàng)的出現(xiàn)之間是否存在一定的規(guī)則,如A游泳衣,B太陽(yáng)鏡,但是得不到足夠支持。在規(guī)則挖掘中涉與到兩個(gè)重要的指標(biāo):、支持度支持度,顯然,只有支持度較大的規(guī)則才是較有價(jià)值的規(guī)則。、置信度置信度,顯然只有置信度

2、比較高的規(guī)則才是比較可靠的規(guī)則。因此,只有支持度與置信度均較大的規(guī)則才是比較有價(jià)值的規(guī)則。、一般地,關(guān)聯(lián)規(guī)則可以提供給我們?cè)S多有價(jià)值的信息,在關(guān)聯(lián)規(guī)則挖掘時(shí),往往需要事先指定最小支持度與最小置信度。關(guān)聯(lián)規(guī)則挖掘?qū)嶋H上真正體現(xiàn)了數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)。如果一個(gè)規(guī)則滿足最小支持度,則稱這個(gè)規(guī)則是一個(gè)頻繁規(guī)則;如果一個(gè)規(guī)則同時(shí)滿足最小支持度與最小置信度,則通常稱這個(gè)規(guī)則是一個(gè)強(qiáng)規(guī)則。關(guān)聯(lián)規(guī)則挖掘的通常方法是:首先挖掘出所有的頻繁規(guī)則,再?gòu)牡玫降念l繁規(guī)則中挖掘強(qiáng)規(guī)則。在少量數(shù)據(jù)中進(jìn)行規(guī)則挖掘我們可以采用采用簡(jiǎn)單的編程方法,而在大量數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則需要使用專門的數(shù)據(jù)挖掘軟件。關(guān)聯(lián)規(guī)則挖掘可以使我們得到一些原

3、來(lái)我們所不知道的知識(shí)。應(yīng)用的例子:* 日本超市對(duì)交易數(shù)據(jù)庫(kù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,發(fā)現(xiàn)規(guī)則:尿片啤酒,重新安排啤酒柜臺(tái)位置,銷量上升75%。* 英國(guó)超市的例子:大額消費(fèi)者與某種乳酪。那么,證券市場(chǎng)上、期貨市場(chǎng)上、或者上市公司中存在存在哪些關(guān)聯(lián)規(guī)則,這些關(guān)聯(lián)規(guī)則究竟說(shuō)明了什么?關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標(biāo)取離散值的情況,如果原始數(shù)據(jù)庫(kù)中的指標(biāo)值是取連續(xù)的數(shù)據(jù),則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進(jìn)行適當(dāng)?shù)臄?shù)據(jù)離散化(實(shí)際上就是將某個(gè)區(qū)間的值對(duì)應(yīng)于某個(gè)值),數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié),離散化的過(guò)程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。參考文獻(xiàn)1二、特征化與比較1、特征化是一種描述性數(shù)據(jù)挖掘,特征化

4、通過(guò)數(shù)據(jù)挖掘的方法提供給定數(shù)據(jù)匯集的簡(jiǎn)潔匯總,如銀行優(yōu)質(zhì)客戶的特征,從而發(fā)現(xiàn)潛在的優(yōu)質(zhì)客戶;轉(zhuǎn)向其他銀行的優(yōu)質(zhì)客戶的特征,從而設(shè)法留住可能會(huì)轉(zhuǎn)向其他銀行的優(yōu)質(zhì)客戶,特征化在銀行客戶關(guān)系管理等領(lǐng)域具有很大作用。描述性數(shù)據(jù)挖掘特征化的基本原理、屬性刪除某一類的特征化就是找出某一類的共性,因此如果某個(gè)屬性具有大量不同的值,而且每個(gè)值所占的比率都不能達(dá)到事先給定的臨界值,同時(shí)在這個(gè)屬性上沒有概化操作符(指標(biāo)上卷),則數(shù)據(jù)挖掘?qū)ζ溥M(jìn)行屬性刪除。、屬性概化如果在屬性上存在概化操作符,并且原屬性取值沒有達(dá)到事先給定的臨界值,則數(shù)據(jù)挖掘就將這個(gè)屬性概化到較高層次,即使原屬性取值已經(jīng)達(dá)到臨界值,數(shù)據(jù)挖掘也可以繼

5、續(xù)進(jìn)行屬性概化。通過(guò)屬性刪除和屬性概化,可以得到特征化的數(shù)據(jù)挖掘。2、比較特征化是給定某一類樣本的特征,而比較則是區(qū)分不同的類,比較又通常稱為挖掘類比較。如信用卡詐騙者和非詐騙者,這兩類信用卡持有者的比較。類比較通常是一個(gè)指定的類與一個(gè)其它的類、或者幾個(gè)其它的類進(jìn)行比較,類比較的基本方法是:首先在目標(biāo)類上發(fā)覺特征,然后在對(duì)比類上進(jìn)行同步概化,這樣就可以挖掘類比較。特征化與類比較具有很廣泛的應(yīng)用領(lǐng)域。如:被外資并構(gòu)公司與沒有被外資并構(gòu)公司進(jìn)行類比較;不同審計(jì)意見的公司的類比較;信用卡詐騙與非詐騙類的比較;銀行優(yōu)質(zhì)客戶中忠誠(chéng)客戶與轉(zhuǎn)向其他銀行的原優(yōu)質(zhì)客戶的比較;等等。參考文獻(xiàn)2三、聚類分析聚類分析

6、就是根據(jù)樣本之間的相似程度,將樣本分成幾個(gè)不同的類。如我國(guó)各城市社會(huì)經(jīng)濟(jì)發(fā)展程度的聚類分析,利用聚類分析研究我國(guó)女子成衣的尺寸標(biāo)準(zhǔn)。原來(lái)測(cè)量了成年女子14個(gè)部位的指標(biāo)數(shù)據(jù):上體長(zhǎng)、手臂長(zhǎng)、胸圍、頸圍、總肩寬、前胸寬、后背寬、前腰節(jié)高、后腰節(jié)高、總體長(zhǎng)、身高、下體長(zhǎng)、腰圍、臀圍。經(jīng)過(guò)聚類分析發(fā)現(xiàn)可以聚集為幾類,每類主要在反映身高與反映胖瘦上有所區(qū)別,這樣就可以制定幾種標(biāo)準(zhǔn)尺寸,可以照顧到我國(guó)絕大多數(shù)成年女子的購(gòu)衣要求。聚類分析在金融領(lǐng)域中有廣泛應(yīng)用,如根據(jù)股票價(jià)格的波動(dòng)情況,可以將股票分成不同的類,總共可以分成幾類,各類包含哪些股票,每一類的特征是什么,這對(duì)投資者、尤其對(duì)投資基金來(lái)說(shuō),可能就是很

7、重要的信息。聚類分析也是分類,但是要?jiǎng)澐值念愂俏粗?,這是聚類分析與一般判別分析的區(qū)別。聚類分析的基本原理1、 樣本間距離的度量距離采用絕對(duì)值距離、歐氏距離、切比雪夫距離等,其中:,利用距離可以度量不同樣本之間的相似程度,在測(cè)量距離時(shí),往往首先需要進(jìn)行標(biāo)準(zhǔn)化變換,以消除量綱帶來(lái)的影響。當(dāng)指標(biāo)為非數(shù)值指標(biāo)時(shí),2、 相似程度的測(cè)量最短距離法是測(cè)量相似程度的一種方法,利用最短距離法進(jìn)行聚類分析的基本過(guò)程。采用測(cè)量相似程度的不同方法,所得到的聚類分析結(jié)果可能有所不同。在聚類分析中,希望得到的類數(shù)可以事先確定。聚類分析即可以對(duì)樣本進(jìn)行聚類,也可以對(duì)指標(biāo)進(jìn)行聚類,因此可以采用這樣的思路來(lái)考慮建立借款人違約

8、概率預(yù)測(cè)模型。參考文獻(xiàn)3數(shù)據(jù)挖掘的進(jìn)一步案例:決策樹與客戶細(xì)分、客戶關(guān)系管理近年來(lái),數(shù)據(jù)挖掘成為一些企業(yè)進(jìn)行客戶關(guān)系管理的有力工具。比如,企業(yè)可以通過(guò)數(shù)據(jù)挖掘方式進(jìn)行客戶細(xì)分,從而進(jìn)行更加行之有效的客戶關(guān)系管理;又比如,發(fā)現(xiàn)潛在的優(yōu)質(zhì)客戶、發(fā)現(xiàn)可能轉(zhuǎn)向競(jìng)爭(zhēng)對(duì)手的優(yōu)質(zhì)客戶等。數(shù)據(jù)挖掘中有多種方法可用于客戶細(xì)分與客戶關(guān)系管理,決策樹方法是其中之一,下面對(duì)此進(jìn)行介紹。案例1:如何發(fā)現(xiàn)潛在的優(yōu)質(zhì)客戶?基本思路:對(duì)已確定客戶性質(zhì)的銀行客戶數(shù)據(jù),利用數(shù)據(jù)挖掘中的決策樹方法可以進(jìn)行優(yōu)質(zhì)客戶細(xì)分(代表優(yōu)質(zhì)客戶的每片葉子實(shí)際上就是優(yōu)質(zhì)客戶的一種細(xì)分),即發(fā)現(xiàn)分別具有什么特征的客戶會(huì)成為銀行的優(yōu)質(zhì)客戶,將這些特征

9、與新客戶相對(duì)照,可以從新客戶中發(fā)覺出潛在的優(yōu)質(zhì)客戶。具體數(shù)據(jù)挖掘(略)案例2:可能轉(zhuǎn)向競(jìng)爭(zhēng)對(duì)手的客戶有哪些特征,從而需要有針對(duì)性地開展工作。案例3:對(duì)貸款違約者的細(xì)分其它方面的應(yīng)用例子:不按照醫(yī)囑服藥(沒有服完療程)的患者細(xì)分* 一類患者認(rèn)為如果過(guò)多服藥會(huì)產(chǎn)生抗藥性,這會(huì)使得他們真正需要服用藥物時(shí)不再那么有用,因此病情稍有好轉(zhuǎn)就停止服藥;* 一類患者根本不相信藥物是安全無(wú)害的,因此他們只服用使他們的癥狀減輕的劑量,當(dāng)他們感覺好些了就馬上停止服藥。* 。數(shù)據(jù)挖掘的評(píng)分(評(píng)級(jí))系統(tǒng)與其應(yīng)用使用數(shù)據(jù)挖掘方法建立預(yù)測(cè)模型后,就可以用它來(lái)預(yù)測(cè)新的數(shù)據(jù)。通常情況下,一個(gè)好的模型會(huì)被使用許多次,也可以用于對(duì)

10、不同的數(shù)據(jù)集評(píng)分。從而滿足應(yīng)用的需要。案例:基于新資本協(xié)議框架的銀行部評(píng)級(jí)系統(tǒng)構(gòu)建數(shù)據(jù)庫(kù):某銀行客戶借貸的原始記錄數(shù)據(jù)庫(kù),包含數(shù)于千計(jì)的客戶信息記錄:是否違約(必要時(shí)需參照新資本協(xié)議的參考定義調(diào)整分類)、申請(qǐng)貸款時(shí)的企業(yè)的財(cái)務(wù)指標(biāo)值和其他變量指標(biāo)值。構(gòu)建方案1:步驟如下:1、 數(shù)據(jù)整理;2、 指標(biāo)的聚類分析,通過(guò)SAS軟件實(shí)現(xiàn);3、 各指標(biāo)預(yù)測(cè)借款企業(yè)違約的信息含量測(cè)定信號(hào)、噪音差分析方法,通過(guò)數(shù)據(jù)挖掘軟件實(shí)現(xiàn);4、 預(yù)測(cè)指標(biāo)的選取和原始指標(biāo)到信號(hào)指標(biāo)的轉(zhuǎn)換;5、 基于信號(hào)數(shù)和信號(hào)預(yù)測(cè)能力的銀行部評(píng)級(jí)體系構(gòu)建,按照新資本協(xié)議要求的等級(jí)數(shù)構(gòu)建;6、 確定各信用等級(jí)借款人的違約概率估計(jì)值(可以頻率

11、作為概率的估計(jì)值);7、 參照巴塞爾協(xié)議對(duì)VaR模型檢驗(yàn)的“三重區(qū)域”法檢驗(yàn)對(duì)各信用等級(jí)借款人違約概率估計(jì)的準(zhǔn)確性。8、 確定銀行部信用評(píng)級(jí)體系,確定各信用等級(jí)借款人的違約率估計(jì)值。9、 需要?jiǎng)澐钟?xùn)練樣本組與檢驗(yàn)樣本組。構(gòu)建方案2:步驟如下:1、 數(shù)據(jù)整理;2、 指標(biāo)的聚類分析,通過(guò)SAS軟件實(shí)現(xiàn);3、 各指標(biāo)預(yù)測(cè)借款企業(yè)違約的信息含量測(cè)定信號(hào)、噪音差分析方法,通過(guò)數(shù)據(jù)挖掘軟件實(shí)現(xiàn);4、 預(yù)測(cè)指標(biāo)的選取和原始指標(biāo)到信號(hào)指標(biāo)的轉(zhuǎn)換;5、 利用決策數(shù)方法進(jìn)行借款人信用等級(jí)細(xì)分;6、 適當(dāng)合并細(xì)分的信用等級(jí),建立銀行部信用評(píng)級(jí)體系;7、 確定各信用等級(jí)借款人的違約概率估計(jì)值(可以頻率作為概率的估計(jì)值);8、 參照巴塞爾協(xié)議對(duì)VaR模型檢驗(yàn)的“三重區(qū)域”法檢驗(yàn)對(duì)各信用等級(jí)借款人違約概率估計(jì)的準(zhǔn)確性。9、 確定銀行部信用評(píng)級(jí)體系,確定各信用等級(jí)借款人的違約率估計(jì)值。10、 需要?jiǎng)澐钟?xùn)練樣本組與檢驗(yàn)樣本組。構(gòu)建方案3:步驟如下:1、 數(shù)據(jù)整理;2、 指標(biāo)的聚類分析,通過(guò)SAS軟件實(shí)現(xiàn);3、 各指標(biāo)預(yù)測(cè)借款企業(yè)違約的信息含量測(cè)定信號(hào)、噪音差分析方法,通過(guò)數(shù)據(jù)挖掘軟件實(shí)現(xiàn);4、 預(yù)測(cè)指標(biāo)的選取和原始指標(biāo)到信號(hào)指標(biāo)的轉(zhuǎn)換;5、 利用Logistic回歸或Probit過(guò)程

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論