




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
#數(shù)據(jù)挖掘的其他基本功能介紹一、關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則挖掘是挖掘數(shù)據(jù)庫中和指標(biāo)(項(xiàng))之間有趣的關(guān)聯(lián)規(guī)則或相關(guān)關(guān)系。關(guān)聯(lián)規(guī)則挖掘具有很多應(yīng)用領(lǐng)域,如一些研究者發(fā)現(xiàn),超市交易記錄中的關(guān)聯(lián)規(guī)則挖掘?qū)Τ械慕?jīng)營決策是十分重要的。1、基本概念設(shè)I={i,i,,i}是項(xiàng)組合的記錄,D為項(xiàng)組合的一個(gè)12m集合。如超市的每一張購物小票為一個(gè)項(xiàng)的組合(一個(gè)維數(shù)很大的記錄),而超市一段時(shí)間內(nèi)的購物記錄就形成集合D我們現(xiàn)在關(guān)心這樣一個(gè)問題,組合中項(xiàng)的出現(xiàn)之間是否存在一定的規(guī)則,如A游泳衣,B太陽鏡,AnB,但是BnA得不到足夠支持。在規(guī)則挖掘中涉及到兩個(gè)重要的指標(biāo):、支持度支持度(AnB)=nAnB),顯然,只有支持度較大的n規(guī)則才是較有價(jià)值的規(guī)則。、置信度置信度(AnB)=nAnB),顯然只有置信度比較高的na)規(guī)則才是比較可靠的規(guī)則。此,只有支持度與置信度均較大的規(guī)則才是比較有價(jià)值的規(guī)則。、一般地,關(guān)聯(lián)規(guī)則可以提供給我們許多有價(jià)值的信息,在關(guān)聯(lián)規(guī)則挖掘時(shí),往往需要事先指定最小支持度與最小置信度。關(guān)聯(lián)規(guī)則挖掘?qū)嶋H上真正體現(xiàn)了數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)。如果一個(gè)規(guī)則滿足最小支持度,則稱這個(gè)規(guī)則是一個(gè)頻繁規(guī)則;如果一個(gè)規(guī)則同時(shí)滿足最小支持度與最小置信度,則通常稱這個(gè)規(guī)則是一個(gè)強(qiáng)規(guī)則。關(guān)聯(lián)規(guī)則挖掘的通常方法是:首先挖掘出所有的頻繁規(guī)則,再從得到的頻繁規(guī)則中挖掘強(qiáng)規(guī)則。在少量數(shù)據(jù)中進(jìn)行規(guī)則挖掘我們可以采用采用簡單的編程方法,而在大量數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則需要使用專門的數(shù)據(jù)挖掘軟件。關(guān)聯(lián)規(guī)則挖掘可以使我們得到一些原來我們所不知道的知識(shí)。應(yīng)用的例子:*日本超市對交易數(shù)據(jù)庫進(jìn)行關(guān)聯(lián)規(guī)則挖掘,發(fā)現(xiàn)規(guī)則:尿片-啤酒,重新安排啤酒柜臺(tái)位置,銷量上升75%。*英國超市的例子:大額消費(fèi)者與某種乳酪。那么,證券市場上、期貨市場上、或者上市公司中存在存在哪些關(guān)聯(lián)規(guī)則,這些關(guān)聯(lián)規(guī)則究竟說明了什么?
關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標(biāo)取離散值的情況,如果原始數(shù)據(jù)庫中的指標(biāo)值是取連續(xù)的數(shù)據(jù),則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進(jìn)行適當(dāng)?shù)臄?shù)據(jù)離散化(實(shí)際上就是將某個(gè)區(qū)間的值對應(yīng)于某個(gè)值),數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié),離散化的過程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。參考文獻(xiàn)1二、特征化與比較1、特征化是一種描述性數(shù)據(jù)挖掘,特征化通過數(shù)據(jù)挖掘的方法提供給定數(shù)據(jù)匯集的簡潔匯總,如銀行優(yōu)質(zhì)客戶的特征,從而發(fā)現(xiàn)潛在的優(yōu)質(zhì)客戶;轉(zhuǎn)向其他銀行的優(yōu)質(zhì)客戶的特征,從而設(shè)法留住可能會(huì)轉(zhuǎn)向其他銀行的優(yōu)質(zhì)客戶,特征化在銀行客戶關(guān)系管理等領(lǐng)域具有很大作用。描述性數(shù)據(jù)挖掘特征化的基本原理描述性數(shù)據(jù)挖掘特征化的基本原理①、屬性刪除某一類的特征化就是找出某一類的共性此如果某個(gè)某一類的特征化就是找出某一類的共性此如果某個(gè)屬性具有大量不同的值,而且每個(gè)值所占的比率都不能達(dá)到事先給定的臨界值,同時(shí)在這個(gè)屬性上沒有概化操作符(指標(biāo)上卷),則數(shù)據(jù)挖掘?qū)ζ溥M(jìn)行屬性刪除。②、屬性概化如果在屬性上存在概化操作符,并且原屬性取值沒有達(dá)
到事先給定的臨界值,則數(shù)據(jù)挖掘就將這個(gè)屬性概化到較高層次,即使原屬性取值已經(jīng)達(dá)到臨界值,數(shù)據(jù)挖掘也可以繼續(xù)進(jìn)行屬性概化。通過屬性刪除和屬性概化,可以得到特征化的數(shù)據(jù)挖掘。2、比較特征化是給定某一類樣本的特征,而比較則是區(qū)分不同的類,比較又通常稱為挖掘類比較。如信用卡詐騙者和非詐騙者,這兩類信用卡持有者的比較。類比較通常是一個(gè)指定的類與一個(gè)其它的類、或者幾個(gè)其它的類進(jìn)行比較,類比較的基本方法是:首先在目標(biāo)類上發(fā)覺特征,然后在對比類上進(jìn)行同步概化,這樣就可以挖掘類比較。特征化與類比較具有很廣泛的應(yīng)用領(lǐng)域。如:被外資并構(gòu)公司與沒有被外資并構(gòu)公司進(jìn)行類比較;不同審計(jì)意見的公司的類比較;信用卡詐騙與非詐騙類的比的比較;等等。銀行優(yōu)質(zhì)客戶中忠誠客戶與轉(zhuǎn)向其他銀行的原優(yōu)質(zhì)客戶銀行優(yōu)質(zhì)客戶中忠誠客戶與轉(zhuǎn)向其他銀行的原優(yōu)質(zhì)客戶參考文獻(xiàn)2三、聚類分析聚類分析就是根據(jù)樣本之間的相似程度,將樣本分成幾個(gè)不同的類。如我國各城市社會(huì)經(jīng)濟(jì)發(fā)展程度的聚類分析,利用聚類分析研究我國女子成衣的尺寸標(biāo)準(zhǔn)。原來測量了成年女子14個(gè)部位的指標(biāo)數(shù)據(jù):上體長、手臂長、胸圍、頸圍、總肩寬、前胸寬、后背寬、前腰節(jié)高后腰節(jié)高、總體長、身高、下體長、腰圍、臀圍。經(jīng)過聚類分析發(fā)現(xiàn)可以聚集為幾類,每類主要在反映身高與反映胖瘦上有所區(qū)別,這樣就可以制定幾種標(biāo)準(zhǔn)尺寸,可以照顧到我國絕大多數(shù)成年女子的購衣要求。聚類分析在金融領(lǐng)域中有廣泛應(yīng)用,如根據(jù)股票價(jià)格的波動(dòng)情況,可以將股票分成不同的類,總共可以分成幾類,各類包含哪些股票,每一類的特征是什么,這對投資者、尤其對投資基金來說,可能就是很重要的信息。聚類分析也是分類,但是要?jiǎng)澐值念愂俏粗模@是聚類分析與一般判別分析的區(qū)別。聚類分析的基本原理1、樣本間距離的度量距離采用絕對值距離、歐氏距離、切比雪夫距離等,其中:d(x,y)=maxIxt-ytI,利用距離可以度量不同樣本之tt1<t<p間的相似程度,在測量距離時(shí),往往首先需要進(jìn)行標(biāo)準(zhǔn)化變換,以消除量綱帶來的影響。當(dāng)指標(biāo)為非數(shù)值指標(biāo)時(shí),2、相似程度的測量最短距離法是測量相似程度的一種方法,利用最短距離法進(jìn)行聚類分析的基本過程。采用測量相似程度的不同方法,所得到的聚類分析結(jié)果可能有所不同。在聚類分析中,希望得到的類數(shù)可以事先確定。聚類分析即可以對樣本進(jìn)行聚類,也可以對指標(biāo)進(jìn)行聚類,因此可以采用這樣的思路來考慮建立借款人違約概率預(yù)測模型。參考文獻(xiàn)3數(shù)據(jù)挖掘的進(jìn)一步案例:決策樹與客戶細(xì)分、客戶關(guān)系管理近年來,數(shù)據(jù)挖掘成為一些企業(yè)進(jìn)行客戶關(guān)系管理的有力工具。比如,企業(yè)可以通過數(shù)據(jù)挖掘方式進(jìn)行客戶細(xì)分,從而進(jìn)行更加行之有效的客戶關(guān)系管理;又比如,發(fā)現(xiàn)潛在的優(yōu)質(zhì)客戶、發(fā)現(xiàn)可能轉(zhuǎn)向競爭對手的優(yōu)質(zhì)客戶等。數(shù)據(jù)挖掘中有多種方法可用于客戶細(xì)分與客戶關(guān)系管理,決策樹方法是其中之一,下面對此進(jìn)行介紹。案例1:如何發(fā)現(xiàn)潛在的優(yōu)質(zhì)客戶?基本思路:對已確定客戶性質(zhì)的銀行客戶數(shù)據(jù),利用數(shù)據(jù)挖掘中的決策樹方法可以進(jìn)行優(yōu)質(zhì)客戶細(xì)分(代表優(yōu)質(zhì)客戶的每片葉子實(shí)際上就是優(yōu)質(zhì)客戶的一種細(xì)分),即發(fā)現(xiàn)分別具有什么特征的客戶會(huì)成為銀行的優(yōu)質(zhì)客戶,將這些特征與新客戶相對照,可以從新客戶中發(fā)覺出潛在的優(yōu)質(zhì)客戶。具體數(shù)據(jù)挖掘(略)案例2:可能轉(zhuǎn)向競爭對手的客戶有哪些特征,從而需要有針對性地開展工作。案例3:對貸款違約者的細(xì)分其它方面的應(yīng)用例子:不按照醫(yī)囑服藥(沒有服完療程)的患者細(xì)分*一類患者認(rèn)為如果過多服藥會(huì)產(chǎn)生抗藥性,這會(huì)使得他們真正需要服用藥物時(shí)不再那么有用,因此病情稍有好轉(zhuǎn)就停止服藥;*一類患者根本不相信藥物是安全無害的,因此他們只服用使他們的癥狀減輕的劑量,當(dāng)他們感覺好些了就馬上停止服藥。*。。。。。。
數(shù)據(jù)挖掘的評(píng)分(評(píng)級(jí))系統(tǒng)及其應(yīng)用使用數(shù)據(jù)挖掘方法建立預(yù)測模型后,就可以用它來預(yù)測新的數(shù)據(jù)。通常情況下,一個(gè)好的模型會(huì)被使用許多次,也可以用于對不同的數(shù)據(jù)集評(píng)分。從而滿足應(yīng)用的需要。案例:基于新資本協(xié)議框架的銀行內(nèi)部評(píng)級(jí)系統(tǒng)構(gòu)建數(shù)據(jù)庫:某銀行客戶借貸的原始記錄數(shù)據(jù)庫,包含數(shù)于千計(jì)的客戶信息記錄:是否違約(必要時(shí)需參照新資本協(xié)議的參考定義調(diào)整分類)、申請貸款時(shí)的企業(yè)的財(cái)務(wù)指標(biāo)值和其他變量指標(biāo)值。構(gòu)建方案1:步驟如下:1、數(shù)據(jù)整理;1、數(shù)據(jù)整理;2、指標(biāo)的聚類分析,通過SAS軟件實(shí)現(xiàn);3、各指標(biāo)預(yù)測借款企業(yè)違約的信息含量測定——信
號(hào)、噪音差分析方法,通過數(shù)據(jù)挖掘軟件實(shí)現(xiàn);4、預(yù)測指標(biāo)的選取和原始指標(biāo)到信號(hào)指標(biāo)的轉(zhuǎn)換;5、基于信號(hào)數(shù)和信號(hào)預(yù)測能力的銀行內(nèi)部評(píng)級(jí)體系5、基于信號(hào)數(shù)和信號(hào)預(yù)測能力的銀行內(nèi)部評(píng)級(jí)體系構(gòu)建,按照新資本協(xié)議要求的等級(jí)數(shù)構(gòu)建;6、確定各信用等級(jí)借款人的違約概率估計(jì)值(可以頻
率作為概率的估計(jì)值);7、參照巴塞爾協(xié)議對VaR模型檢驗(yàn)的“三重區(qū)域”法檢驗(yàn)對各信用等級(jí)借款人違約概率估計(jì)的準(zhǔn)確性。8、確定銀行內(nèi)部信用評(píng)級(jí)體系,確定各信用等級(jí)借款8、確定銀行內(nèi)部信用評(píng)級(jí)體系,確定各信用等級(jí)借款人的違約率估計(jì)值。9、需要?jiǎng)澐钟?xùn)練樣本組與檢驗(yàn)樣本組。構(gòu)建方案2:步驟如下:1、數(shù)據(jù)整理;2、指標(biāo)的聚類分析,通過SAS軟件實(shí)現(xiàn);3、各指標(biāo)預(yù)測借款企業(yè)違約的信息含量測定——信號(hào)、噪音差分析方法,通過數(shù)據(jù)挖掘軟件實(shí)現(xiàn);4、預(yù)測指標(biāo)的選取和原始指標(biāo)到信號(hào)指標(biāo)的轉(zhuǎn)換;5、利用決策數(shù)方法進(jìn)行借款人信用等級(jí)細(xì)分;6、適當(dāng)合并細(xì)分的信用等級(jí),建立銀行內(nèi)部信用評(píng)級(jí)■■7、確定各信用等級(jí)借款人的違約概率估計(jì)值(可以頻率作為概率的估計(jì)值);8、參照巴塞爾協(xié)議對VaR模型檢驗(yàn)的“三重區(qū)域”法檢驗(yàn)對各信用等級(jí)借款人違約概率估計(jì)的準(zhǔn)確性。9、確定銀行內(nèi)部信用評(píng)級(jí)體系,確定各信用等級(jí)借款9、確定銀行內(nèi)部信用評(píng)級(jí)體系,確定各信用等級(jí)借款人的違約率估計(jì)值。10、需要?jiǎng)澐钟?xùn)練樣本組與檢驗(yàn)樣本組。構(gòu)建方案3:步驟如下:1、數(shù)據(jù)整理;2、指標(biāo)的聚類分析,通過SAS軟件實(shí)現(xiàn);3、各指標(biāo)預(yù)測借款企業(yè)違約的信息含量測定——信號(hào)、噪音差分析方法,通過數(shù)據(jù)挖掘軟件實(shí)現(xiàn);4、預(yù)測指標(biāo)的選取和原始指標(biāo)到信號(hào)指標(biāo)的轉(zhuǎn)換;5、利用Logistic回歸或Probit過程建立借
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國聯(lián)接器件行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報(bào)告(2024-2030)
- 中國有源電力濾波器APF行業(yè)市場全景評(píng)估及投資戰(zhàn)略研究報(bào)告
- 中國電子看板行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報(bào)告(2024-2030)
- 中國營養(yǎng)膠囊行業(yè)全景評(píng)估及投資規(guī)劃建議報(bào)告
- 中國鏤空安全帽行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報(bào)告(2024-2030)
- 中國隧道和地鐵行業(yè)市場前景預(yù)測及投資價(jià)值評(píng)估分析報(bào)告
- 大學(xué)生校園自助式智能洗衣房可行性研究報(bào)告管理資料
- 中國氧化鋅灰行業(yè)調(diào)查報(bào)告
- 并網(wǎng)光伏發(fā)電工程規(guī)劃及建設(shè)方案分析和討論 陳景宜-圖文
- 中國農(nóng)村電商行業(yè)市場供需格局及行業(yè)前景展望報(bào)告
- 2024年湖北省普通高中學(xué)業(yè)水平合格性考試數(shù)學(xué)試題(原卷版)
- 2025至2030年中國轎車輪轂造型線模具市場分析及競爭策略研究報(bào)告
- 2024年安徽中醫(yī)藥高等??茖W(xué)校招聘考試真題
- 2025屆吉林省長春市朝陽區(qū)英語八下期末學(xué)業(yè)水平測試模擬試題含答案
- 2025年變電站春季安全生產(chǎn)自查報(bào)告
- 2025至2030汽車車輪行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報(bào)告
- 個(gè)人信息保護(hù)合規(guī)審計(jì)師CCRC-PIPCA含答案
- 供應(yīng)商黑名單管理制度
- 2022室外排水設(shè)施設(shè)計(jì)與施工-鋼筋混凝土化糞池22S702
- 中小學(xué)校長招聘考試試題
- 工期的保證體系及保證措施
評(píng)論
0/150
提交評(píng)論