數(shù)據(jù)挖掘在銀行業(yè)中的應(yīng)用(正文)-(終極版)_第1頁(yè)
數(shù)據(jù)挖掘在銀行業(yè)中的應(yīng)用(正文)-(終極版)_第2頁(yè)
數(shù)據(jù)挖掘在銀行業(yè)中的應(yīng)用(正文)-(終極版)_第3頁(yè)
數(shù)據(jù)挖掘在銀行業(yè)中的應(yīng)用(正文)-(終極版)_第4頁(yè)
數(shù)據(jù)挖掘在銀行業(yè)中的應(yīng)用(正文)-(終極版)_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上數(shù)據(jù)挖掘在銀行業(yè)中的應(yīng)用摘要銀行為人們提供了越來(lái)越多的人性化服務(wù), 因而銀行的數(shù)據(jù)也在迅速膨脹, 這些數(shù)據(jù)背后隱藏了大量有價(jià)值的信息, 銀行要在金融領(lǐng)域里的競(jìng)爭(zhēng)中處于不敗之地必須利用這些信息。數(shù)據(jù)挖掘正是從海量數(shù)據(jù)中提取有用信息的一種有效工具,數(shù)據(jù)挖掘在銀行業(yè)中扮演著無(wú)可替代的作用。關(guān)鍵詞:數(shù)據(jù)挖掘 銀行業(yè)AbstractThe bank provides people with the humanized service more and more, so the bank data also in rapid expansion, these data are h

2、idden behind a lot of valuable information, banks in the financial field competition in an invincible position must use these information. Data mining is an effective tool to extract useful information from the huge data,data mining plays an irreplaceable role in the banking industry.Keywords: data

3、mining, banking1.引言1.1.性說(shuō)明本文所涉及到的研究領(lǐng)域銀行信息化的迅速發(fā)展,產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù)。從海量數(shù)據(jù)中提取出有價(jià)值的信息,為銀行的商業(yè)決策服務(wù),是數(shù)據(jù)挖掘的重要應(yīng)用領(lǐng)域。匯豐、花旗和瑞士銀行是數(shù)據(jù)挖掘技術(shù)應(yīng)用的先行者。如今,數(shù)據(jù)挖掘已在銀行業(yè)有了廣泛深入的應(yīng)用。 本文主要研究的領(lǐng)域是數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘,聯(lián)機(jī)分析處理技術(shù),以及貝式網(wǎng)絡(luò)。1. 數(shù)據(jù)倉(cāng)庫(kù):數(shù)據(jù)倉(cāng)庫(kù),英文名稱(chēng)為Data Warehouse,可簡(jiǎn)寫(xiě)為DW或DWH。數(shù)據(jù)倉(cāng)庫(kù)是為企業(yè)所有級(jí)別的決策制定過(guò)程提供支持的所有類(lèi)型數(shù)據(jù)的戰(zhàn)略集合。它是單個(gè)數(shù)據(jù)存儲(chǔ),出于分析性報(bào)告和決策支持的目的而創(chuàng)建。 為企業(yè)提供需要業(yè)務(wù)

4、智能來(lái)指導(dǎo)業(yè)務(wù)流程改進(jìn)和監(jiān)視時(shí)間、成本、質(zhì)量和控制。 數(shù)據(jù)智能網(wǎng)引用日期2013-05-142. 數(shù)據(jù)倉(cāng)庫(kù)是決策支持系統(tǒng)和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉(cāng)庫(kù)研究和解決從數(shù)據(jù)庫(kù)中獲取信息的問(wèn)題。數(shù)據(jù)倉(cāng)庫(kù)的特征在于面向主題、集成性、穩(wěn)定性和時(shí)變性。數(shù)據(jù)倉(cāng)庫(kù) ,由數(shù)據(jù)倉(cāng)庫(kù)之父比爾·恩門(mén)于1990年提出,主要功能仍是將組織透過(guò)資訊系統(tǒng)之聯(lián)機(jī)事務(wù)處理(OLTP)經(jīng)年累月所累積的大量資料,透過(guò)數(shù)據(jù)倉(cāng)庫(kù)理論所特有的資料儲(chǔ)存架構(gòu),作一有系統(tǒng)的分析整理,以利各種分析方法如聯(lián)機(jī)分析處理(OLAP)、數(shù)據(jù)挖掘(Data Mining)之進(jìn)行,并進(jìn)而支持如決策支持系統(tǒng)(DSS)、主管資訊系統(tǒng)(EI

5、S)之創(chuàng)建,幫助決策者能快速有效的自大量資料中,分析出有價(jià)值的資訊,以利決策擬定及快速回應(yīng)外在環(huán)境變動(dòng),幫助建構(gòu)商業(yè)智能(BI)。3. OLAP聯(lián)機(jī)分析處理:簡(jiǎn)寫(xiě)為OLAP,隨著數(shù)據(jù)庫(kù)技術(shù)的發(fā)展和應(yīng)用,數(shù)據(jù)庫(kù)存儲(chǔ)的數(shù)據(jù)量從20世紀(jì)80年代的兆(M)字節(jié)及千兆(G)字節(jié)過(guò)渡到現(xiàn)在的兆兆(T)字節(jié)和千兆兆(P)字節(jié),同時(shí),用戶(hù)的查詢(xún)需求也越來(lái)越復(fù)雜,涉及的已不僅是查詢(xún)或操縱一張關(guān)系表中的一條或幾條記錄,而且要對(duì)多張表中千萬(wàn)條記錄的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和信息綜合,關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)已不能全部滿足這一要求。在國(guó)外,不少軟件廠商采取了發(fā)展其前端產(chǎn)品來(lái)彌補(bǔ)關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)支持的不足,力圖統(tǒng)一分散的公共應(yīng)用邏輯,

6、在短時(shí)間內(nèi)響應(yīng)非數(shù)據(jù)處理專(zhuān)業(yè)人員的復(fù)雜查詢(xún)要求。聯(lián)機(jī)分析處理(OLAP)系統(tǒng)是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)最主要的應(yīng)用,專(zhuān)門(mén)設(shè)計(jì)用于支持復(fù)雜的分析操作,側(cè)重對(duì)決策人員和高層管理人員的決策支持,可以根據(jù)分析人員的要求快速、靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢(xún)處理,并且以一種直觀而易懂的形式將查詢(xún)結(jié)果提供給決策人員,以便他們準(zhǔn)確掌握企業(yè)(公司)的經(jīng)營(yíng)狀況,了解對(duì)象的需求,制定正確的方案。4. 數(shù)據(jù)挖掘:數(shù)據(jù)挖掘(Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(英語(yǔ):Knowledge-Discovery in Databases,簡(jiǎn)稱(chēng):KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜

7、索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專(zhuān)家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。5. 貝葉斯網(wǎng)絡(luò):貝葉斯網(wǎng)絡(luò)是一種概率網(wǎng)絡(luò),它是基于概率推理的圖形化網(wǎng)絡(luò),而貝葉斯公式則是這個(gè)概率網(wǎng)絡(luò)的基礎(chǔ)。貝葉斯網(wǎng)絡(luò)是基于概率推理的數(shù)學(xué)模型,所謂概率推理就是通過(guò)一些變量的信息來(lái)獲取其他的概率信息的過(guò)程,基于概率推理的貝葉斯網(wǎng)絡(luò)(Bayesian network)是為了解決不定性和不完整性問(wèn)題而提出的,它對(duì)于解決復(fù)雜設(shè)備不確定性和關(guān)聯(lián)性引起的故障有很大的優(yōu)勢(shì),在多個(gè)領(lǐng)域中獲得廣泛應(yīng)用。1.2.設(shè)計(jì)工作的背景:大數(shù)據(jù)時(shí)代,對(duì)于商

8、業(yè)銀行而言,在不斷完善計(jì)算機(jī)應(yīng)用系統(tǒng)底層數(shù)據(jù)庫(kù)群、操作數(shù)據(jù)存儲(chǔ)、主數(shù)據(jù)存儲(chǔ)、企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市等建設(shè)的基礎(chǔ)上,網(wǎng)絡(luò)爬蟲(chóng)、Hadoop、MapReduce、NoSQL、Lucene等技術(shù)拓寬了銀行的數(shù)據(jù)掌控能力。當(dāng)前,銀行無(wú)論面對(duì)內(nèi)部數(shù)據(jù)還是外部數(shù)據(jù)、結(jié)構(gòu)性數(shù)據(jù)亦或非結(jié)構(gòu)性數(shù)據(jù),數(shù)據(jù)的產(chǎn)生、捕獲、整合、存儲(chǔ)、訪問(wèn)等技術(shù)均已日漸成熟。與此同時(shí),數(shù)據(jù)的價(jià)值也隨著數(shù)據(jù)生命周期的不斷延伸而大幅提升。為實(shí)現(xiàn)數(shù)據(jù)價(jià)值的最大化,銀行還需要對(duì)所積累的各類(lèi)數(shù)據(jù)展開(kāi)全面分析,深入挖掘和鉆取數(shù)據(jù),從中提煉出埋藏于數(shù)據(jù)深處的規(guī)律和趨勢(shì),全面運(yùn)用于銀行戰(zhàn)略決策與業(yè)務(wù)發(fā)展。目前,商業(yè)銀行已將數(shù)據(jù)挖掘定位于發(fā)展大數(shù)據(jù)戰(zhàn)

9、略的核心驅(qū)動(dòng)力,是大數(shù)據(jù)信息化建設(shè)的重中之重。隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)的價(jià)值得到進(jìn)一步提升,銀行決策管理人員將不再滿足于采用數(shù)據(jù)對(duì)經(jīng)驗(yàn)決策進(jìn)行驗(yàn)證的簡(jiǎn)單模式,基于數(shù)據(jù)的決策行為將從“被動(dòng)”轉(zhuǎn)向“主動(dòng)”,主要體現(xiàn)于兩方面:一是數(shù)據(jù)在業(yè)務(wù)分析上的作用從“數(shù)據(jù)驗(yàn)證”向“數(shù)據(jù)啟發(fā)”提升;二是數(shù)據(jù)在業(yè)務(wù)應(yīng)用上的作用從“事后快速響應(yīng)”向“事前精準(zhǔn)預(yù)測(cè)”提升。銀行對(duì)自身數(shù)據(jù)分析能力提出了更高要求。為實(shí)現(xiàn)業(yè)務(wù)上的“精耕細(xì)作”,銀行首先應(yīng)對(duì)客戶(hù)市場(chǎng)進(jìn)行科學(xué)細(xì)分,推進(jìn)建立以客戶(hù)價(jià)值評(píng)估為基礎(chǔ)的客戶(hù)分類(lèi)體系,并輔以客戶(hù)行業(yè)歸屬、區(qū)域歸屬、產(chǎn)品偏好、渠道偏好、風(fēng)險(xiǎn)偏好、價(jià)格偏好等分析內(nèi)容,面向不同主題,充分實(shí)現(xiàn)客戶(hù)

10、層面的“人以群分”。銀行要深入分析客戶(hù)信息,重點(diǎn)關(guān)注客戶(hù)價(jià)值的形成原因和驅(qū)動(dòng)因素,準(zhǔn)確識(shí)別未來(lái)存在價(jià)值提升可能性的客戶(hù),并同時(shí)對(duì)存在流失風(fēng)險(xiǎn)的客戶(hù)進(jìn)行預(yù)警。通過(guò)客戶(hù)產(chǎn)品關(guān)聯(lián)銷(xiāo)售、產(chǎn)品響應(yīng)預(yù)測(cè)、渠道響應(yīng)預(yù)測(cè)等分析應(yīng)用,為銀行開(kāi)展客戶(hù)名單制營(yíng)銷(xiāo)、實(shí)行差異化服務(wù)提供依據(jù)。面向客戶(hù)違約風(fēng)險(xiǎn),銀行同樣要從客戶(hù)信息入手,構(gòu)建客戶(hù)信用評(píng)分模型,盡早對(duì)存在違約風(fēng)險(xiǎn)的客戶(hù)進(jìn)行預(yù)警,為銀行資產(chǎn)保全提供“第一手”信息。通過(guò)科學(xué)的客戶(hù)分類(lèi)支持銀行形成差異化的定價(jià)模型和成本管理策略,充分考量客戶(hù)滿意度、提升客戶(hù)忠誠(chéng)度,與客戶(hù)攜手實(shí)現(xiàn)共贏。在銀行精細(xì)化管理架構(gòu)下,業(yè)務(wù)發(fā)展的“規(guī)劃先行”是要考慮如何把握合適的時(shí)機(jī)、選擇合適

11、的客戶(hù)、推介合適的產(chǎn)品、采用合適的渠道、委派合適的人員,為客戶(hù)提供最優(yōu)質(zhì)、貼心的金融(與非金融)服務(wù);要考慮如何在有效把控風(fēng)險(xiǎn)的同時(shí),以最低的成本、以銀行與客戶(hù)均感到滿意的價(jià)格實(shí)現(xiàn)雙方價(jià)值的最大化;要實(shí)現(xiàn)銀行資源的差異化配置以及客戶(hù)的個(gè)性化服務(wù)。本文將對(duì)數(shù)據(jù)挖掘在銀行業(yè)應(yīng)用中的一個(gè)題進(jìn)行解決。 預(yù)測(cè)貸款逾期者(風(fēng)險(xiǎn)管理):某銀行希望根據(jù)客戶(hù)過(guò)去的貸款數(shù)據(jù),利用數(shù)據(jù)挖掘來(lái)預(yù)測(cè)新的貸款者,核貸后會(huì)逾期的機(jī)率,以作為是否核貸的依據(jù),或提供給客戶(hù)其他類(lèi)型的貸款產(chǎn)品。Predicting Loan Defaulters: Suppose a bank is concerned about th

12、e potential for loans not to be repaid. If previous loan default data can be used to predict which potential customers are liable to have problems repaying loans, these “bad risk” customers can either be declined a loan or offered alternative products.1.3設(shè)計(jì)工作的目的和意義 本文主要闡述了數(shù)據(jù)挖掘在銀行業(yè)的一個(gè)應(yīng)用即某銀行希望根據(jù)客戶(hù)過(guò)去的貸

13、款數(shù)據(jù),利用數(shù)據(jù)挖掘來(lái)預(yù)測(cè)新的貸款者,核貸后會(huì)逾期的機(jī)率。研究此信息的目的是,以此作為是否核貸的依據(jù),或提供給客戶(hù)其他類(lèi)型的貸款產(chǎn)品。這樣是銀行信息化發(fā)展的一個(gè)具體的反映,銀行的信息化建設(shè)一直處于業(yè)內(nèi)領(lǐng)先水平,不僅具有國(guó)際領(lǐng)先的金融信息技術(shù)平臺(tái),建成了由自助銀行、電話銀行、手機(jī)銀行和網(wǎng)上銀行構(gòu)成的電子銀行立體服務(wù)體系,而且以信息化的大手筆數(shù)據(jù)集中工程在業(yè)內(nèi)獨(dú)領(lǐng)風(fēng)騷。另外,商業(yè)銀行面臨的風(fēng)險(xiǎn)問(wèn)題,可分成三個(gè)最基本的方面。他們有信貸方面的風(fēng)險(xiǎn),比如說(shuō)潛在的壞賬;他們還要面臨流動(dòng)性的風(fēng)險(xiǎn),這會(huì)涉及到資產(chǎn)和債務(wù)的不匹配;另外他們還要應(yīng)對(duì)操作的風(fēng)險(xiǎn),如虛假個(gè)人消費(fèi)貸款、關(guān)聯(lián)企業(yè)騙貸、票據(jù)詐騙等等。此系統(tǒng)

14、工作的目的正是加強(qiáng)了銀行的風(fēng)險(xiǎn)管理能力,使信貸方面的風(fēng)險(xiǎn)大大降低。銀行信貸風(fēng)險(xiǎn)是指由于各種不確定性因素的影響,在銀行的經(jīng)營(yíng)與管理過(guò)程中,實(shí)際收益結(jié)果與預(yù)期收益目標(biāo)發(fā)生背離,有遭受資產(chǎn)損失的可能性。信貸風(fēng)險(xiǎn)是指借款企業(yè)因各種原因不能按時(shí)歸還信貸本息而使銀行資金遭受損失的可能性。銀行信貸業(yè)務(wù)中占比重大的是信貸業(yè)務(wù),信貸具有風(fēng)險(xiǎn)較高、收益突出的特點(diǎn),對(duì)整個(gè)銀行的經(jīng)營(yíng)舉足輕重。2. 問(wèn)題定義與分析2.1報(bào)告所研究的具體問(wèn)題的定義本文所研究的主要問(wèn)題是,銀行用戶(hù)數(shù)據(jù)倉(cāng)庫(kù)的建立,并利用聯(lián)機(jī)分析處理技術(shù)對(duì)其數(shù)據(jù)進(jìn)行分析處理操作,利用數(shù)據(jù)挖掘技術(shù)基于以往用戶(hù)的信貸數(shù)據(jù)來(lái)預(yù)測(cè)新的貸款者,核貸后會(huì)逾期的機(jī)率。以此

15、作為是否核貸的依據(jù),或提供給客戶(hù)其他類(lèi)型的貸款產(chǎn)品。2.2問(wèn)題的內(nèi)涵與邊界本文所研究問(wèn)題的邊界主要包括:銀行用戶(hù)信貸數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的建立,基于聯(lián)機(jī)分析處理技術(shù),數(shù)據(jù)挖掘技術(shù),以及貝葉斯網(wǎng)絡(luò)。2.3問(wèn)題的特征與屬性 商業(yè)銀行信貸管理,從廣義上理解包括:制定和實(shí)施信貸政策,建立和健全內(nèi)部授權(quán)授信制度,制定、貫徹和執(zhí)行信貸操作程序,以及建立信貸風(fēng)險(xiǎn)監(jiān)測(cè)和控制機(jī)制等諸多相互協(xié)調(diào)、制約的制度系統(tǒng)及其對(duì)制度執(zhí)行效果的監(jiān)督系統(tǒng)。 狹義上的商業(yè)銀行信貸管理僅指貸款發(fā)放前的調(diào)查工作、貸款存續(xù)期間的管理工作以及貸款出現(xiàn)風(fēng)險(xiǎn)后的監(jiān)督、控制和處理工作。本文采納狹義的商業(yè)銀行信貸管理概念,在分析當(dāng)前商業(yè)銀行信貸管理中存在

16、的問(wèn)題的基礎(chǔ)上,試圖提出解決這一問(wèn)題的基本思路和實(shí)際操作對(duì)策。 通過(guò)數(shù)據(jù)庫(kù)的建立、管理和維護(hù)可以提高銀行應(yīng)對(duì)風(fēng)險(xiǎn)的能力。建立一個(gè)好的數(shù)據(jù)庫(kù)對(duì)業(yè)務(wù)發(fā)展的良好推動(dòng)作用和在操作風(fēng)險(xiǎn)防范中能起到的指導(dǎo)作用。個(gè)人信息的數(shù)據(jù)庫(kù),它還應(yīng)當(dāng)包括提前還款、違約風(fēng)險(xiǎn)、操作風(fēng)險(xiǎn)等多方面的數(shù)據(jù)信息。沒(méi)有這些全面的數(shù)據(jù)信息,就無(wú)法通過(guò)數(shù)學(xué)模型對(duì)個(gè)人,住房信貸面臨的風(fēng)險(xiǎn)進(jìn)行全面的分析和了解,也無(wú)法制訂出最終行之有效的政策。前危害很大的假按揭一個(gè)好的操作風(fēng)險(xiǎn)防范手段,是建立防范假按揭發(fā)生的數(shù)據(jù)庫(kù),收集大量的案例進(jìn)行統(tǒng)計(jì)分析,提取出高度相關(guān)的因素,方便在具體操作中對(duì)假按揭進(jìn)行防范。2.4解決問(wèn)題的重點(diǎn)和難點(diǎn) 本文主要針對(duì)已收

17、集到的海量信貸數(shù)據(jù)建立數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行存儲(chǔ)管理維護(hù),并利用數(shù)據(jù)挖掘,把海量的數(shù)據(jù)經(jīng)過(guò)處理變?yōu)榍逦?、的有用信息。利用貝葉斯算法對(duì)已經(jīng)得到的信息進(jìn)行推理計(jì)算概率,消除不確定性,使決策更加科學(xué)。重點(diǎn)有三:1.數(shù)據(jù)挖掘。數(shù)據(jù)挖掘的任務(wù)主要是關(guān)聯(lián)分析、聚類(lèi)分析、分類(lèi)、預(yù)測(cè)、時(shí)序模式和偏差分析等。通常所說(shuō)的數(shù)據(jù)挖掘會(huì)通過(guò)這些任務(wù)中的一個(gè)或者多個(gè)來(lái)對(duì)數(shù)據(jù)進(jìn)行處理。 2.對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的分析即聯(lián)機(jī)分析處理。聯(lián)機(jī)分析處理有三種不同的實(shí)現(xiàn)方法: · 關(guān)系型聯(lián)機(jī)分析處理(ROLAP,Relational OLAP) · 多維聯(lián)機(jī)分析處理(MOLAP, Multi-Dimensional OLAP)

18、 · 前端展示聯(lián)機(jī)分析處理(Desktop OLAP) 其中,前端展示聯(lián)機(jī)分析需要將所有數(shù)據(jù)下載到客戶(hù)機(jī)上,然后在客戶(hù)機(jī)上進(jìn)行數(shù)據(jù)結(jié)構(gòu)/報(bào)表格式重組,使用戶(hù)能在本機(jī)實(shí)現(xiàn)動(dòng)態(tài)分析。該方式比較靈活,然而它能夠支持的數(shù)據(jù)量非常有限,嚴(yán)重地影響了使用的范圍和效率。因此,隨著時(shí)間的推移,這種方式已退居次要地位,在此不作討論。 3.貝葉斯算法,根據(jù)已經(jīng)得到的數(shù)據(jù)特征選擇最優(yōu)的貝葉斯算法。貝葉斯分類(lèi)算法是統(tǒng)計(jì)學(xué)的一種分類(lèi)方法,它是一類(lèi)利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類(lèi)的算法。在許多場(chǎng)合,樸素貝葉斯(Naïve Bayes,NB)分類(lèi)算法可以與決策樹(shù)和神經(jīng)網(wǎng)絡(luò)分類(lèi)算法相媲美,該算法能運(yùn)用到大型數(shù)據(jù)庫(kù)

19、中,而且方法簡(jiǎn)單、分類(lèi)準(zhǔn)確率高、速度快。主要有兩種貝葉斯算法樸素貝葉斯算法和TAN算法(樹(shù)增強(qiáng)型樸素貝葉斯算法) 難點(diǎn)主要是聯(lián)機(jī)分析處理和貝葉斯網(wǎng)絡(luò)技術(shù)部分。2.5 解決問(wèn)題的技術(shù)領(lǐng)域與技術(shù)路線需要解決的問(wèn)題技術(shù)領(lǐng)域技術(shù)路線建立數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)現(xiàn)有銀行業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ),經(jīng)過(guò)數(shù)據(jù)預(yù)處理建立數(shù)據(jù)倉(cāng)庫(kù)對(duì)數(shù)據(jù)進(jìn)行挖掘數(shù)據(jù)挖掘利用關(guān)聯(lián)規(guī)則,聚類(lèi),分類(lèi)等數(shù)據(jù)挖掘技術(shù)進(jìn)行數(shù)據(jù)挖掘?qū)?shù)據(jù)進(jìn)一步分析聯(lián)機(jī)分析處理對(duì)數(shù)據(jù)進(jìn)行深度分析即通過(guò)度量,切片或切塊,鉆取等手段對(duì)數(shù)據(jù)進(jìn)行多維度考量。評(píng)定用戶(hù)信用并作出決策貝葉斯網(wǎng)絡(luò)對(duì)于已經(jīng)經(jīng)過(guò)處理的數(shù)據(jù)分析并得到信息,利用貝葉斯算法,消除不確定性,增強(qiáng)決策的科

20、學(xué)性。3. 參考文獻(xiàn)綜述參考文獻(xiàn)1數(shù)據(jù)倉(cāng)庫(kù)的概念及技術(shù)解決方案 數(shù)據(jù)智能網(wǎng)引用日期2013-05-144.設(shè)計(jì)方案總體描述數(shù)據(jù)倉(cāng)庫(kù)監(jiān)測(cè)與維護(hù)4.1方案綜述元數(shù)據(jù)管理外部數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)數(shù)據(jù)分析抽取,清理裝載,刷新聯(lián)機(jī)分析處理數(shù)據(jù)報(bào)表業(yè)務(wù)數(shù)據(jù)源系統(tǒng)文檔資料 數(shù)據(jù)挖掘數(shù) 據(jù) 集 市貝葉斯 算法作出決策4.2解決問(wèn)題的方法與方案比較的選擇4.2.1數(shù)據(jù)倉(cāng)庫(kù)的建立1)收集和分析業(yè)務(wù)需求2)建立數(shù)據(jù)模型和數(shù)據(jù)倉(cāng)庫(kù)的物理設(shè)計(jì) 3)定義數(shù)據(jù)源4)選擇數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和平臺(tái)5)從操作型數(shù)據(jù)庫(kù)中抽取、凈化、和轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)6)選擇訪問(wèn)和報(bào)表工具 7)選擇數(shù)據(jù)庫(kù)連接軟件8)選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件9)更新數(shù)

21、據(jù)倉(cāng)庫(kù)數(shù)據(jù)轉(zhuǎn)換工具要求:1)數(shù)據(jù)轉(zhuǎn)換工具要能從各種不同的數(shù)據(jù)源中讀取數(shù)據(jù)。2)支持平面文件、索引文件、和legacy DBMS。3)能以不同類(lèi)型數(shù)據(jù)源為輸入整合數(shù)據(jù)。4)具有規(guī)范的數(shù)據(jù)訪問(wèn)接口5)最好具有從數(shù)據(jù)字典中讀取數(shù)據(jù)的能力6)工具生成的代碼必須是在開(kāi)發(fā)環(huán)境中可維護(hù)的7)能只抽取滿足指定條件的數(shù)據(jù),和源數(shù)據(jù)的指定部分8)能在抽取中進(jìn)行數(shù)據(jù)類(lèi)型轉(zhuǎn)換和字符集轉(zhuǎn)換9)能在抽取的過(guò)程中計(jì)算生成衍生字段10)能讓數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)自動(dòng)調(diào)用以定期進(jìn)行數(shù)據(jù)抽取工作,或能將結(jié)果生成平面文件11)必須對(duì)軟件供應(yīng)商的生命力和產(chǎn)品支持能力進(jìn)行仔細(xì)評(píng)估4.2.2數(shù)據(jù)挖掘的方法與方案數(shù)據(jù)挖掘技術(shù)主要有三種,即關(guān)聯(lián)分

22、析,分類(lèi)分析,聚類(lèi)分析。每種技術(shù)又有不同的算法具體如下:關(guān)聯(lián)分析算法(1)Apriori算法Apriori算法是挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項(xiàng)集的基本算法,也是最著名的關(guān)聯(lián)規(guī)則挖掘算法之一。Apriori算法就是根據(jù)有關(guān)頻繁項(xiàng)集特性的先驗(yàn)知識(shí)而命名的。它使用一種稱(chēng)作逐層搜索的迭代方法,k項(xiàng)集用于探索(k+1)項(xiàng)集。首先,找出頻繁1項(xiàng)集的集合記做L1,L1用于找出頻繁2項(xiàng)集的集合L2,再用于找出L3,如此下去,直到不能找到頻繁k項(xiàng)集。找每個(gè)L k需要掃描一次數(shù)據(jù)庫(kù)。為提高按層次搜索并產(chǎn)生相應(yīng)頻繁項(xiàng)集的處理效率,Apriori算法利用了一個(gè)重要性質(zhì),并應(yīng)用Apriori性質(zhì)來(lái)幫助有效縮小頻繁項(xiàng)集的

23、搜索空間。(2)FP-growth算法 由于Apriori方法的固有缺陷即使進(jìn)行了優(yōu)化,其效率也仍然不能令人滿意。2000年,Han Jia wei等人提出了基于頻繁模式樹(shù)(Frequent Pattern Tree,簡(jiǎn)稱(chēng)為FP-tree)的發(fā)現(xiàn)頻繁模式的算法FP-growth。在FP-growth算法中,通過(guò)兩次掃描事務(wù)數(shù)據(jù)庫(kù),把每個(gè)事務(wù)所包含的頻繁項(xiàng)目按其支持度降序壓縮存儲(chǔ)到FPtree中。在以后發(fā)現(xiàn)頻繁模式的過(guò)程中,不需要再掃描事務(wù)數(shù)據(jù)庫(kù),而僅在FP-Tree中進(jìn)行查找即可,并通過(guò)遞歸調(diào)用FP-growth的方法來(lái)直接產(chǎn)生頻繁模式,因此在整個(gè)發(fā)現(xiàn)過(guò)程中也不需產(chǎn)生候選模式。該算法克服了Ap

24、riori算法中存在的問(wèn)顥在執(zhí)行效率上也明顯好于Apriori算法。分類(lèi)分析的算法(1) 決策樹(shù)(Decision Tree) 是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過(guò)構(gòu)成決策樹(shù)來(lái)求取凈現(xiàn)值的期望值大于等于零的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。由于這種決策分支畫(huà)成圖形很像一棵樹(shù)的枝干,故稱(chēng)決策樹(shù)。在機(jī)器學(xué)習(xí)中,決策樹(shù)是一個(gè)預(yù)測(cè)模型,他代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。Entropy = 系統(tǒng)的凌亂程度,使用算法ID3, C4.5和C5.0生成樹(shù)算法使用熵。這一度量是基于信息學(xué)理論中熵的概念。 決策樹(shù)是數(shù)據(jù)挖掘分類(lèi)算法的一個(gè)重要方法。在各種分

25、類(lèi)算法中,決策樹(shù)是最直觀的一種。(2) 鄰近算法 或者說(shuō)K最近鄰(kNN,k-NearestNeighbor)分類(lèi)算法可以說(shuō)是整個(gè)數(shù)據(jù)挖掘分類(lèi)技術(shù)中最簡(jiǎn)單的方法了。所謂K最近鄰,就是k個(gè)最近的鄰居的意思,說(shuō)的是每個(gè)樣本都可以用她最接近的k個(gè)鄰居來(lái)代表。K N N算法的核心思想是如果一個(gè)樣本在特征空間中的k個(gè)最相似的樣本中的大多數(shù)屬于某一個(gè)類(lèi)別,則該樣本也屬于這個(gè)類(lèi)別,并具有這個(gè)類(lèi)別上樣本的特性。該方法在確定分類(lèi)決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類(lèi)別來(lái)決定待分樣本所屬的類(lèi)別。 K N N方法在類(lèi)別決策時(shí),只與極少量的相鄰樣本有關(guān)。由于k N N方法主要靠周?chē)邢薜泥徑臉颖荆皇强颗袆e類(lèi)域

26、的方法來(lái)確定所屬類(lèi)別的,因此對(duì)于類(lèi)域的交叉或重疊較多的待分樣本集來(lái)說(shuō),k N N方法較其他方法更為適合。(3) 支持向量機(jī)SVM(Support Vector Machine) SVM的主要思想可以概括為兩點(diǎn):它是針對(duì)線性可分情況進(jìn)行分析,對(duì)于線性不可分的情況,通過(guò)使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而 使得高維特征空間采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析成為可能。(4) 神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是通過(guò)對(duì)人腦的基本單元神經(jīng)元的建模和聯(lián)接,探索模擬人腦神經(jīng)系統(tǒng)功能的模型,并研制一種具有學(xué)習(xí)、聯(lián)想、記憶和模式識(shí)別等智能信息處理功能的人工系統(tǒng)。神經(jīng)網(wǎng)絡(luò)的一

27、個(gè)重要特性是它能夠從環(huán)境中學(xué)習(xí),并把學(xué)習(xí)的結(jié)果分布存儲(chǔ)于網(wǎng)絡(luò)的突觸連接中。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)是一個(gè)過(guò)程,在其所處環(huán)境的激勵(lì)下,相繼給網(wǎng)絡(luò)輸入一些樣本模式,并按照一定的規(guī)則(學(xué)習(xí)算法)調(diào)整網(wǎng)絡(luò)各層的權(quán)值矩陣,待網(wǎng)絡(luò)各層權(quán)值都收斂到一定值,學(xué)習(xí)過(guò)程結(jié)束。然后我們就可以用生成的神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)真實(shí)數(shù)據(jù)做分類(lèi)。聚類(lèi)分析算法(1)劃分法(partitioning methods),給定一個(gè)有N個(gè)元組或者紀(jì)錄的數(shù)據(jù)集,分裂法將構(gòu)造K個(gè)分組,每一個(gè)分組就代表一個(gè)聚類(lèi),K<N。而且這K個(gè)分組滿足下列條件: 每一個(gè)分組至少包含一個(gè)數(shù)據(jù)紀(jì)錄;每一個(gè)數(shù)據(jù)紀(jì)錄屬于且僅屬于一個(gè)分組對(duì)于給定的K,算法首先給出一個(gè)初始的分組

28、方法,以后通過(guò)反復(fù)迭代的方法改變分組,使得每一次改進(jìn)之后的分組方案都較前一次好,而所謂好的標(biāo)準(zhǔn)就是:同一分組中的記錄越近越好,而不同分組中的紀(jì)錄越遠(yuǎn)越好。使用這個(gè)基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法。(2)層次法(hierarchical methods),這種方法對(duì)給定的數(shù)據(jù)集進(jìn)行層次似的分解,直到某種條件滿足為止。具體又可分為“自底向上”和“自頂向下”兩種方案。 代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等;(3)基于網(wǎng)格的方法(grid-based methods),這種方法首先將數(shù)據(jù)空間劃分成為有限個(gè)單元(cell)的網(wǎng)格結(jié)構(gòu),所有的處理都是以單個(gè)的單元為對(duì)象的。這么處理的一個(gè)突出的優(yōu)點(diǎn)就是處理速度很快,通常這是與目標(biāo)數(shù)據(jù)庫(kù)中記錄的個(gè)數(shù)無(wú)關(guān)的,它只與把數(shù)據(jù)空間分為多少個(gè)單元有關(guān)。 代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法;(4)基于模型的方法(model-based methods),基于模型

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論