數據挖掘技術在客戶信用評估中的應用_第1頁
數據挖掘技術在客戶信用評估中的應用_第2頁
數據挖掘技術在客戶信用評估中的應用_第3頁
數據挖掘技術在客戶信用評估中的應用_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據挖掘技術在客戶信用評估中的應用

一、助銷售企業(yè)的信用環(huán)境分析市場經濟是信用經濟。公司應在業(yè)務發(fā)展和風險控制兩個目標之間尋求協調,以實現最低租賃成本和最大銷售增長之間的平衡。如果企業(yè)僅僅是通過將客戶信用分為“好”和“壞”,或者等大量壞賬發(fā)生后再把該客戶列入黑名單這種做法來幫助銷售,顯然會有較大的風險。有資料顯示,歐美企業(yè)平均80%~90%采用賒銷貿易,其壞賬率只有0.25%~0.5%,無效成本占銷售收入的比率為3%;而與此同時,我國企業(yè)目前的平均賒銷率只有不到20%,壞賬率為5%,無效成本比率竟高達14%。同樣規(guī)模的企業(yè),歐美企業(yè)的銷售能力是我國的4倍,而壞賬率只是我國企業(yè)的1/10~1/20。這組數據既說明了我國企業(yè)在信用管理方面的薄弱,也凸現了信用管理實踐的迫切性。目前,大多數企業(yè)都建立了自己的銷售信息管理系統以及數據庫,但這些信息一般無法直接反映該企業(yè)的客戶信用狀況,因而也無法幫助企業(yè)作出合理的決策。如何利用已有的銷售數據,結合企業(yè)自身的特點,尋找一種有效的評估客戶信用的方法,并幫助企業(yè)在獲得最大銷售額的同時將風險降到最低,已經成為企業(yè)需要深入分析的問題。二、數據準備與規(guī)律尋找數據挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又具有潛在價值的信息和知識的過程。其過程主要有數據準備、規(guī)律尋找和規(guī)律表示三個步驟。數據準備是從各種數據源中選取和集成用于數據挖掘的數據;規(guī)律尋找是用某種方法將數據中的規(guī)律找出來;規(guī)律表示是用盡可能符合用戶習慣的方式將找出的規(guī)律表示出來。數據挖掘在自身發(fā)展的過程中吸收了數理統計、數據庫和人工智能中的大量技術。其常用的技術有人工神經網絡、決策樹、遺傳算法、近鄰算法、規(guī)則推導等。數據挖掘是一種面向應用的技術,其主要特點是針對企業(yè)數據庫中的大量業(yè)務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助企業(yè)決策的關鍵性數據。現在大多數企業(yè)已經累積了大量的銷售數據,數據挖掘的任務就是在海量數據中發(fā)現有利于評估客戶信用的數據,通過某種挖掘算法將這些有用的數據轉換成評估客戶信用的判定規(guī)則,最后利用這些規(guī)則幫助企業(yè)在銷售過程中作出正確的決策。三、基于信息增益的監(jiān)獄id3算法數據挖掘的過程經常要用到分類,分類的目的是根據數據集的特點構造一個分類函數或分類模型(也稱作分類器),該模型能把未知類別的樣本映射到給定類別中的某一個。決策樹算法是數據挖掘經常用到的分類技術,它是一種以實例為基礎的歸納學習算法,提供了類似在“什么條件下會得到什么值”這類規(guī)則的方法,可以用于分析數據和作出預測。決策樹算法的核心就是樹的生成,開始時所有數據都在根節(jié)點,然后根據設定的標準選擇測試屬性,用不同的測試屬性遞歸地進行數據分割。構造一棵決策樹就是形成一個訓練集的分類過程,可以在分類過程中完成對目標的獲取策略與規(guī)則提取。大多數已開發(fā)的決策樹學習算法是ID3算法的變體,該算法使用統計測試來確定每一個實例屬性單獨分類樣例的能力,分類能力最好的屬性被選作樹的根節(jié)點的測試,然后為根節(jié)點屬性的每個可能值產生一個分支,并把訓練樣例排列在適當分支之下,重復整個過程,用每個分支節(jié)點關聯的訓練樣例來選取在該點被測試的最佳屬性,如此自上而下地構造決策樹。生成的決策樹的每個內部節(jié)點代表對一個屬性的測試,其分支就代表測試的每個結果,而樹的每個葉節(jié)點就代表一個類別。ID3算法的核心問題是分類能力最好的屬性的度量標準,它選擇一個稱為“信息增益”(InformationGain)的標準來衡量給定的屬性區(qū)分訓練樣例的能力。ID3算法在增長樹的每一步使用這個信息增益標準從候選屬性中選擇屬性。為了精確定義信息增益,使用稱為熵(entropy)的度量標準來刻畫任意樣例集的純度。如果目標屬性具有c個不同的值,那么樣例集S相對于c個狀態(tài)的分類的熵定義為:Entropy(S)≡∑i=1c?pilog2pi(1)Entropy(S)≡∑i=1c-pilog2pi(1)其中pi是S中屬于類別i的比例。一個屬性的信息增益就是由于使用這個屬性分割樣例而導致的期望熵降低。即一個屬性A相對樣例集和S的信息增益Gain(S,A)被定義為:Gain(S,A)≡Entropy(S)?∑v∈Values(A)|Sv||S|?Entropy(Sv)(2)Gain(S,A)≡Entropy(S)-∑v∈Values(A)|Sv||S|?Entropy(Sv)(2)其中,Values(A)是屬性A所有可能值的集合,Sv是S中屬性A的值為v的子集。上式中第一項是原集合S的熵,第二項是用A分類S后熵的期望值,即每個子集的熵的加權和,權值為屬于Sv的樣例占原始樣例S的比例|Sv||S||Sv||S|。熵是一個衡量系統混亂程度的統計量,熵越大表示系統越混亂。分類的目的是提取系統信息使系統向更加有序的方向發(fā)展,所以最佳分支方案是使熵減少量最大。從式(2)可知Gain(S,A)就是由于知道屬性A的值而導致的熵的期望減少,因此在ID3算法增長樹的每一步中就是選擇信息增益最大的那個屬性作為分類屬性。四、實例分析下面以某鋼廠的銷售數據為實例具體說明決策樹技術在客戶信用分析中的步驟和ID3算法的實現。(一)銷售過程分析這個階段要完成數據的收集、清理、相關性分析以及變換等工作。數據收集是根據對目標問題的分析,從已有的數據庫中查詢并抽取和目標問題相關的數據;數據清理就是減少和消除數據集中的噪聲數據并處理缺省值;相關性分析就是剔除數據集中與任務不相關或弱相關的屬性字段,簡化數據集;數據變換則主要完成數據離散化、區(qū)間變化和數據概化等任務。分析該鋼廠的銷售過程和財務狀況,我們可發(fā)現大部分的賬款拖欠是由于對客戶選擇和交易條件的確定上具有很大隨意性而造成的。這種隨意性極易轉換為企業(yè)的交易風險,即客戶無力償還交易貨款,或只能償還部分貨款,或長時間拖延付款,等等,這些給企業(yè)帶來很大的損失,輕則減少企業(yè)的利潤,重則增加現金流的壓力,影響企業(yè)的發(fā)展?jié)摿?。因?有必要按鋼廠的銷售需求,根據客戶信用確定每一筆交易是否需要進一步審核。通過分析鋼廠的銷售數據庫,經過對上述數據準備階段的處理,得到如表1所示的客戶信用分析訓練數據集。(二)不同屬性的信息增益使用ID3算法找出表1中有關客戶信用數據的潛在規(guī)律,以確定客戶交易是否需要進一步審核。定義表1為樣例集S,其目標屬性為“是否審核”,它具有兩個不同的值“是”和“否”。其中值為“是”的樣例8條,為“否”的樣例7條,記為:S=[8+,7-]。根據式(1)可得樣本分類所需的期望信息是:Entropy(S)=?815log2815?715log2715=0.997Entropy(S)=-815log2815-715log2715=0.997下面分別計算除目標屬性之外的“是否老客戶”、“是否欠款”、“交易量”和“是否現金交易”這四個屬性的信息增益。以“是否老客戶”為例,可知Values(是否老客戶)={是,否},由表1可知:S是=[5+,3-],S否=[3+,4-],由式(1)得:Entropy(S是)=?58log258?38log238=0.954Entropy(S否)=?37log237?47log247=0.985Entropy(S是)=-58log258-38log238=0.954Entropy(S否)=-37log237-47log247=0.985代入式(2)得:Gain(S,是否老客戶)=Entropy(S)?∑v∈{是,否}|Sv||S|(S)-∑v∈{是,否}|Sv||S|Entropy(Sv)=Entropy(S)?815(S)-815Entropy(S是)?715Entropy(S-715Entropy(S否)=0.028同理可得:Gain(S,是否欠款)=0.213Gain(S,交易量)=0.520Gain(S,是否現金交易)=0.288比較可知“交易量”這個屬性的信息增益最大,選作決策樹的根節(jié)點屬性。該屬性的值有大、中、小三個,各產生一個分支,并將訓練樣例排列在適當分支之下,重復上述過程,在各個分支處再選取信息增益最大的屬性(除去已選作節(jié)點的屬性),如此遞歸下去,直到這棵樹能完美分類訓練樣例,或所有的屬性都已被使用過。最終生成的決策樹如圖1所示。(三)減輕交易風險分析圖1得到的信用分析決策樹,可得到以下結論:對于交易量大的新客戶,由于過去沒有交易,客戶信用有待考核,交易量如果較大,交易時需進一步審核,在擴大銷售渠道的同時減低風險。對于交易量大的老客戶如果沒有欠款可直接交易,如果有欠款,需進一步審核,以方便追討欠款,減低此次交易的風險。對于交易量中等的客戶如果是現金交易無需審核,如果不是現金交易則需進一步審核。交易量較小的客戶,由于交易風險較小,可減少繁瑣的審核工作直接交易。上述決策樹可被表示為一系列IF-THEN的分類規(guī)則,并以表格的形式將規(guī)則列出,方便用戶閱讀,如表2所示。五、建立數據倉庫以提高客戶信用信息的專業(yè)度,降低交易風險。在我國我國,我國實行交易合同對

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論