數(shù)據(jù)挖掘技術(shù)及在電信行業(yè)中的應用.doc_第1頁
數(shù)據(jù)挖掘技術(shù)及在電信行業(yè)中的應用.doc_第2頁
數(shù)據(jù)挖掘技術(shù)及在電信行業(yè)中的應用.doc_第3頁
數(shù)據(jù)挖掘技術(shù)及在電信行業(yè)中的應用.doc_第4頁
數(shù)據(jù)挖掘技術(shù)及在電信行業(yè)中的應用.doc_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖掘技術(shù)及在電信行業(yè)中的應用一、 數(shù)據(jù)挖掘研究概述1.1數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘又常被稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn),Usama Fayyad等對其下的定義為:從大量數(shù)據(jù)中獲取有效的、新穎的、潛在而有用的、最終可理解的信息的非平凡過程,這些信息的表現(xiàn)形式有概念、規(guī)則、模式等。數(shù)據(jù)挖掘是一門交叉學科,其中融合了統(tǒng)計學、機器學習、數(shù)據(jù)庫和數(shù)據(jù)倉庫技術(shù)等多個領(lǐng)域的研究成果,為海量數(shù)據(jù)中的知識提取提供了一整套面向不同需求的算法。數(shù)據(jù)挖掘是一門實用性的學科,其主要特點是對海量數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析等處理,并從中歸納出有趣的模式或規(guī)律輔助決策,因此,數(shù)據(jù)挖掘的產(chǎn)生和發(fā)展是和數(shù)據(jù)庫的發(fā)展密切相關(guān)的。二十世紀六七十年代,數(shù)據(jù)庫技術(shù)處于發(fā)展的初期,數(shù)據(jù)量相對較小,利用結(jié)構(gòu)化查詢語言SQL已經(jīng)基本能夠滿足事務處理和數(shù)據(jù)分析的需要;從二十世紀八十年代開始,隨著先進數(shù)據(jù)庫系統(tǒng)、基于web的數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)倉庫的誕生和迅速發(fā)展,數(shù)據(jù)量急劇增加,數(shù)據(jù)分析的要求也變得越來越復雜,這就迫切需要一套從海量數(shù)據(jù)中提取知識的方法論,因此,數(shù)據(jù)挖掘作為一門獨立的學科應運而生。下圖展示了數(shù)據(jù)挖掘和數(shù)據(jù)倉庫的聯(lián)系,從圖中可以看到,數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的基礎(chǔ)。 圖1-1 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘確切地說,數(shù)據(jù)挖掘只是數(shù)據(jù)庫中的知識發(fā)現(xiàn),(Knowledge Discovery in Database,簡稱KDD)的一個子過程,但卻代表著獲取知識的動態(tài)過程,因此,常將整個知識發(fā)現(xiàn)的過程稱為數(shù)據(jù)挖掘。由圖1-2可知,整個知識發(fā)現(xiàn)的過程是由若干挖掘步驟組成,而數(shù)據(jù)挖掘僅僅是其中的一個主要步驟。整個知識發(fā)現(xiàn)的主要步驟有:(1) 數(shù)據(jù)清洗(Data Cleaning)清除噪聲和無關(guān)挖掘主題的數(shù)據(jù);(2) 數(shù)據(jù)集成 (Data Integration) 將來源于多個數(shù)據(jù)源的相關(guān)數(shù)據(jù)進行組合;(3) 數(shù)據(jù)轉(zhuǎn)換 (Data Transformation) 將數(shù)據(jù)轉(zhuǎn)換為易于挖掘的數(shù)據(jù)存儲形式;(4) 數(shù)據(jù)挖掘 (Data Mining) 知識發(fā)現(xiàn)的一個核心步驟,用智能的方法從海量數(shù)據(jù)中提取數(shù)據(jù)模式或規(guī)律;(5) 模式評估 (Pattern Evaluation) 依據(jù)一定的評估標準從挖掘結(jié)果篩選出具有實際指導意義的模式;(6) 知識表示 (Knowledge Presentation) 利用可視化和知識表達技術(shù),對所提取的知識進行展示。 圖1-2數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD)流程示意圖1.2 數(shù)據(jù)挖掘的分類和應用數(shù)據(jù)挖掘技術(shù)涵蓋的范圍很廣,可以用來解決各類不同的實際問題,下面從數(shù)據(jù)挖掘的任務和功能這兩個不同的角度對數(shù)據(jù)挖掘進行分類。首先,從數(shù)據(jù)挖掘任務的角度對數(shù)據(jù)挖掘進行分類。數(shù)據(jù)挖掘是以數(shù)據(jù)挖掘任務為單位的,一個數(shù)據(jù)挖掘任務走完數(shù)據(jù)挖掘的整個流程,其中包含了挖掘的各個環(huán)節(jié),如圖1-2所示。數(shù)據(jù)挖掘任務可以分為描述和預測兩類:描述性的挖掘任務刻畫數(shù)據(jù)的一般特性,是對數(shù)據(jù)中所蘊含的規(guī)則的描述,或者根據(jù)數(shù)據(jù)的相似程度將數(shù)據(jù)分成若干組;預測性挖掘任務是在當前數(shù)據(jù)的基礎(chǔ)上,對未來數(shù)據(jù)的某種行為做出預測,所使用的數(shù)據(jù)都是可以明確知道結(jié)果的。描述和預測的主要區(qū)別在于:描述是靜態(tài)的,是抓取數(shù)據(jù)的主要特征,并加以歸納和總結(jié);預測是動態(tài)的,是指通過學習,將當前學到的知識推廣到未來,是更為高級的一種知識提取形式。其次,從數(shù)據(jù)挖掘功能的角度對數(shù)據(jù)挖掘進行分類。根據(jù)數(shù)據(jù)挖掘的不同功能,可將數(shù)據(jù)挖掘分成以下幾類:(1) 概念描述 (Concept Description):概念描述是數(shù)據(jù)挖掘最簡單和直接的功能,它指的是以匯總的、簡潔的、精確的方式描述數(shù)據(jù)庫中的大量的細節(jié)數(shù)據(jù),以方便用戶通過數(shù)據(jù)做出決策。通??梢酝ㄟ^數(shù)據(jù)特征化、數(shù)據(jù)區(qū)分、數(shù)據(jù)特征比較等方法得到概念描述,也可通過一些統(tǒng)計學的方法對數(shù)據(jù)進行描述。(2) 關(guān)聯(lián)分析 (Association Analysis):關(guān)聯(lián)分析是指從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間有趣的關(guān)聯(lián)。關(guān)聯(lián)分析廣泛地應用于購物籃或事物數(shù)據(jù)分析中,可以有效地幫助商家制定許多市場營銷方面的決策,使他們知道哪些物品或服務應該被捆綁在一起銷售,以提高銷售額,“啤酒和尿布”的例子是關(guān)聯(lián)規(guī)則最具代表性的應用。(3) 分類和預測 (Classification and Forecast):分類和預測是兩種性質(zhì)類似的數(shù)據(jù)分析形式,因為兩者都是根據(jù)當前數(shù)據(jù)行為預測未來的數(shù)據(jù)行為,所不同的是,分類通常預測的是類標簽,類標簽通常是離散值,而預測通常用于對連續(xù)值的預測,例如對某個連續(xù)屬性的缺失值做出估計。分類是數(shù)據(jù)挖掘最重要的功能,其實際應用也最為廣泛。(4) 聚類分析(Clustering):聚類和分類的功能類似,都是預測類標簽,但從學習方式的角度看,兩者的實現(xiàn)機理卻是相反的;聚類不依賴任何先驗知識,只根據(jù)數(shù)據(jù)的某些特征來定義數(shù)據(jù)之間的距離,如使用最簡單的歐式距離,從而衡量數(shù)據(jù)之間的相似度,將相似度大的歸入一類;因此,通常將分類稱作有指導的學習,而將聚類稱作無指導的學習。(5) 離群點分析 (Outlier Analysis):通常稱那些遠離大多數(shù)點的少數(shù)點為離群點;針對數(shù)據(jù)集中的離群點,一般的做法是將其視為噪聲或異常而丟棄,但在如故障診斷、欺詐檢測等應用中,離群點本身可能是非常重要的信息,因此,如何檢測離群點并對其含義進行合理解釋也是數(shù)據(jù)挖掘的重要的研究方向之一。(6) 演變分析 (Evolution Analysis) 數(shù)據(jù)演變分析是對行為隨時間變化的對象的規(guī)律或趨勢的描述并建模。這種分析包括時間序列數(shù)據(jù)分析、序列模式匹配和基于相似性的數(shù)據(jù)分析。通過這種分析,可以識別整個股票市場和特定公司的股票演變規(guī)律,從而幫助預測股票市場價格的未來走向,支持股票投資者進行決策。在實際的工程應用中,往往根據(jù)實際作用把挖掘得到的模式細分為:關(guān)聯(lián)模式、分類模式、回歸模式、聚類模式、時間序列模式等等。分類模式和回歸模式是使用最普遍的模式,兩者都是通過對當前數(shù)據(jù)建模,以對數(shù)據(jù)的未知屬性質(zhì)值做出預測,所不同的是,分類針對離散屬性,而回歸針對連續(xù)屬性。分類模式、回歸模式、時間序列模式也被認為是受監(jiān)督知識,因為在建立模式前數(shù)據(jù)的結(jié)果是已知的,可以用來檢測模式的準確性,模式的產(chǎn)生是在先驗知識的指導下進行的;一般在建立這些有監(jiān)督模式的時候,使用其中一部分數(shù)據(jù)作為樣本,用另一部分數(shù)據(jù)來檢驗和校正模式,因此,這兩部分數(shù)據(jù)分別稱作訓練數(shù)據(jù)集和檢驗數(shù)據(jù)集。聚類模式、關(guān)聯(lián)模式、序列模式則是非監(jiān)督知識,因為在模式建立前的結(jié)果是未知的,模式的產(chǎn)生不受任何監(jiān)督,沒有任何先驗知識的指導。通過這些模式,我們一般可以從中獲得廣義型知識(Generalization)、分類型知識(Classification)、預測型知識(Prediction)、關(guān)聯(lián)型知識(Association)、偏差型知識(Deviation)等類型的知識。數(shù)據(jù)挖掘技術(shù)誕生于實際應用,由此決定它是一門實踐性的學科。目前,在很多重要的領(lǐng)域,數(shù)據(jù)挖掘都廣泛地應用于其中,發(fā)揮著積極的促進作用,尤其是在如銀行、電信、保險、交通、零售等商業(yè)應用領(lǐng)域,更是離不開數(shù)據(jù)挖掘。數(shù)據(jù)挖掘能夠解決許多典型的商業(yè)問題,其中包括:客戶分群、數(shù)據(jù)庫營銷、交叉銷售等市場分析行為,以及客戶流失預測、客戶信用評估、信用卡欺詐檢測、股票價格分析與預測、金融投資風險分析、購物籃分析等等。圖1-3描述了數(shù)據(jù)挖掘在解決具體的商業(yè)問題時所遵循的一般流程。在統(tǒng)計和機器學習領(lǐng)域中也存在許多數(shù)據(jù)挖掘系統(tǒng)。另外,將數(shù)據(jù)倉庫、聯(lián)機事務處理(OLTP)、聯(lián)機分析處理(OLAP)和數(shù)據(jù)挖掘技術(shù)結(jié)合是近期數(shù)據(jù)庫發(fā)展的一個趨勢。數(shù)據(jù)倉庫和數(shù)據(jù)挖掘都可以完成對決策技術(shù)的支持,相互間有一定的內(nèi)在聯(lián)系,兩者集成,可以有效地提高系統(tǒng)的決策支持能力。目前,電信行業(yè)已經(jīng)逐步建立起數(shù)據(jù)倉庫系統(tǒng),在數(shù)據(jù)倉庫的基礎(chǔ)上將逐步建立如下數(shù)據(jù)挖掘?qū)n}:客戶價值模型、客戶信用等級模型、客戶流失預測模型、交叉銷售模型、營銷計劃預演模型和客戶細分模型等。數(shù)據(jù)挖掘在電信中的應用如圖1-4所示。 圖1-3 CRISP-DM的參考模型數(shù)據(jù)、數(shù)據(jù)挖掘任務和數(shù)據(jù)挖掘方法的多樣性和復雜性給數(shù)據(jù)挖掘提出了許多具有挑戰(zhàn)性的課題。數(shù)據(jù)挖掘語言的設(shè)計,高效、準確的挖掘算法和挖掘系統(tǒng)的開發(fā),交互和繼承的數(shù)據(jù)挖掘環(huán)境的建立,以及應用數(shù)據(jù)挖掘技術(shù)解決大型應用問題,都是目前數(shù)據(jù)挖掘研究人員、系統(tǒng)和應用開發(fā)人員所面臨的主要難題。針對以上課題,數(shù)據(jù)挖掘產(chǎn)生了很多研究分支,主要有:數(shù)據(jù)挖掘與數(shù)據(jù)庫技術(shù)、數(shù)據(jù)倉庫和Web數(shù)據(jù)庫系統(tǒng)的集成、可伸縮的數(shù)據(jù)挖掘算法、數(shù)據(jù)挖掘的應用、數(shù)據(jù)挖掘語言的標準化實現(xiàn)、數(shù)據(jù)挖掘的可視化、對于復雜數(shù)據(jù)類型進行挖掘的新方法、數(shù)據(jù)挖掘中的隱私保護與信息、安全等。 圖l-4數(shù)據(jù)挖掘在電信行業(yè)的應用1.3數(shù)據(jù)挖掘在電信行業(yè)的應用1.3.1數(shù)據(jù)挖掘在電信行業(yè)的應用分類數(shù)據(jù)挖掘是由其應用的需求所驅(qū)動的,每一個數(shù)據(jù)挖掘工程都有一個挖掘主題,描述挖掘目標,指導整個挖掘過程。電信企業(yè)是典型的以數(shù)據(jù)為驅(qū)動的服務型企業(yè),豐富的數(shù)據(jù)資源以及行業(yè)內(nèi)的激烈競爭,促使數(shù)據(jù)挖掘在該行業(yè)得到了較為廣泛的應用。數(shù)據(jù)挖掘在電信行業(yè)中的應用通常使用挖掘主題來分類,由于電信業(yè)務的復雜性和多樣性,產(chǎn)生了許多電信數(shù)據(jù)挖掘主題,下面對其中常見的主題做一簡要的介紹。(1) 客戶欺詐識別(Customer Fraud Detection)指根據(jù)歷史的客戶欺詐數(shù)據(jù)建立用戶屬性、服務屬性和客戶消費數(shù)據(jù)與其欺詐可能性關(guān)聯(lián)的模型,對每個客戶在未來實施欺詐的可能性進行量化,以達到客戶欺詐的識別和預防。欺詐識別是數(shù)據(jù)挖掘在電信中最為主要的應用之一,它的興起緣于電信欺詐行為在電信業(yè)的普遍存在和不斷擴張,以及給電信運營商造成的越來越大的損失。本文重點研究的客戶惡意欠費欺詐預測便是客戶欺詐識別中的一項重要內(nèi)容。(2) 客戶流失預測(Customer Churn Prediction) 指通過分析客戶的歷史行為數(shù)據(jù),對客戶的忠誠度做出評估,判斷客戶流失的可能性大小??蛻袅魇У膹V泛應用是因為電信行業(yè),尤其是電信運營商之間日趨激烈的競爭。競爭是電信市場的未來趨勢,盡可能多地爭取新客戶和保留老客戶是電信市場營銷的兩大重要內(nèi)容,而客戶流失預測是在為服務后者的基礎(chǔ)上興起的,它的主要作用是給出了需要被挽留的客戶范圍,避免了營銷手段的盲目性造成的成本浪費。(3) 客戶細分(Customer Sub-division) 指按照一定的標準將電信企業(yè)的現(xiàn)有客戶劃分為不同的群體,采取“分而治之”的策略,針對不同的客戶群采用不同的營銷手段,一方面可以節(jié)省營銷成本,另一方面能夠達到更優(yōu)的營銷效果。許多營銷者認為,行為變量,如場合、用戶地位、使用率、忠誠度、購買階段及購買態(tài)度,是構(gòu)建細分市場的最佳起點,而歷史的電信客戶行為數(shù)據(jù)正好記錄了以上的這些關(guān)鍵信息,數(shù)據(jù)挖掘正好提供了處理和分析這些信息的有力手段。(4) 交又銷售(Cross Sellion) 指通過分析電信各類產(chǎn)品之間的關(guān)聯(lián),開發(fā)各類產(chǎn)品的套餐捆綁策略,并且有針對性地對老客戶銷售其尚未使用過的相關(guān)產(chǎn)品。與客戶細分類似,交叉銷售也是有針對性地進行銷售,是重要的現(xiàn)代營銷策略之一,它并不是簡單地將客戶未購買的產(chǎn)品推銷出去,而是根據(jù)每個個體的行為特征,判斷其已購買的和哪些未購買的產(chǎn)品有較大的關(guān)聯(lián),并將那些有較大關(guān)聯(lián)的未購買產(chǎn)品推銷給該客戶。以上四個挖掘主題在電信數(shù)據(jù)挖掘的應用中最為常見,除此之外,客戶的消費模式分析、客戶盈利能力分析、目標客戶定位、盜用模式分析和異常模式分析也在電信行業(yè)得到了應用。隨著電信行業(yè)中新問題的不斷涌現(xiàn),新的挖掘主題也會應運而生。1.3.2數(shù)據(jù)挖掘在電信行業(yè)的應用現(xiàn)狀隨著電信市場壟斷格局的打破,各個電信企業(yè)間的競爭日趨激烈,誰能提供更好的服務,誰就能占領(lǐng)市場,甚至重新獲得行業(yè)的壟斷地位。因此,構(gòu)建其經(jīng)營分析系統(tǒng),充分利用其業(yè)務支撐系統(tǒng)中每天產(chǎn)生并存儲的大量歷史數(shù)據(jù),實現(xiàn)對信息的深加工和處理已成為當前電信企業(yè)系統(tǒng)建設(shè)關(guān)注的焦點。近幾年來,國內(nèi)外的許多電信企業(yè)已經(jīng)完成從“以產(chǎn)品為中心”到“以客戶為中心”的經(jīng)營理念的轉(zhuǎn)變,利用數(shù)據(jù)挖掘進行分析以輔助決策,推動自身的現(xiàn)代化經(jīng)營和內(nèi)部管理。在國外,數(shù)據(jù)挖掘在電信行業(yè)中已有較多的應用實例。美國西部電信公司 (US WEST)是美國最大的長途電信運營公司之一,其擁有的客戶數(shù)量超過2000萬。該公司為了進一步增強其目標市場戰(zhàn)略,使用SAS的企業(yè)數(shù)據(jù)挖掘 Enterprise Miner軟件進行經(jīng)營分析。 US West利用銷售活動管理軟件,配合SAS的 Enterprise Miner,使營銷專家能夠?qū)α腥肽繕说匿N售活動進行規(guī)劃、執(zhí)行及評估,這樣既有利于消除銷售人員對客戶的全部數(shù)據(jù)進行評分,減輕了銷售人員的負擔,同時也減少了手工操作所造成的人為錯誤,使得公司的市場營銷周期大幅縮短。由于能夠?qū)κ袌鲞M行更加細致和高度目標化的劃分,US WEST得到了更高的營銷投資回報,增強了自身的盈利能力。老牌電信運營商、財富500強企業(yè)之一的英國電信(British Telecom)通過數(shù)據(jù)挖掘的手段建立模型,來確定潛在客戶的購買傾向和他們變?yōu)橛脩糁罂赡軒淼膬r值,從而實現(xiàn)從市場營銷預算中獲得最大的價值。英國電信的“商業(yè)高速公路”的目標為小型商業(yè)客戶;通過使用SPSS公司的著名數(shù)據(jù)挖掘軟件產(chǎn)品Clementine,英國電信較為成功實現(xiàn)了其“商業(yè)高速公路”活動的數(shù)據(jù)分析和模型建立方面的探索。通過應用該系統(tǒng),英國電信更好地了解了客戶及其在電信市場的行為特征,向銷售人員和營銷活動提供了“最佳客戶”清單,有針對性地進行營銷活動,其直郵活動的回應率提高了100%。比利時著名的電信運營商比利時電信(Belgacom)購買了新型Teradata Warehouse數(shù)據(jù)倉庫解決方案,使用數(shù)據(jù)倉庫建立了客戶信息系統(tǒng),其數(shù)據(jù)倉庫中擁有超過數(shù)據(jù)挖掘手段,1萬億字節(jié)的歷史數(shù)據(jù),其中包含了詳細的電話通信記錄。通過比利時電信具有強烈欺詐性的通話方式能夠進行欺詐檢測,從而迅速地發(fā)現(xiàn)異常電話以及,這樣就能夠在這些電信欺詐方式給企業(yè)帶來重大經(jīng)濟損失之前采取一系列措施加以終止。圖1-4某市電信經(jīng)營分系統(tǒng)的邏輯模型相對于國外的相對較為成熟的應用,電信數(shù)據(jù)挖掘在國內(nèi)的研究與應用還處于剛剛起步的階段,但也不乏一些較為成功的實例。廈門電信采用CA數(shù)據(jù)倉庫構(gòu)建了電信大客戶關(guān)系管理(CRM)系統(tǒng),對其管轄范圍內(nèi)大客戶的消費習慣和消費偏好進行數(shù)據(jù)挖掘,為其管理層做出營銷方面的決策提供了較科學的依據(jù)。除此以外,近年來,中國電信運營業(yè)的 BOSS(Business &Operation support system),即業(yè)務運營支撐系統(tǒng)的市場規(guī)模占我國主要電信運營商設(shè)備投資總額的份額越來越大,運營商的日常運營也越來越離不開BOSS系統(tǒng);作為中國的兩大主流運營商,中國電信和中國移動高舉BOSS建設(shè)大旗,其目的是為了提高計費結(jié)算、營業(yè)帳務、客戶服務、決策支持等能力,希望通過固定報表、專題分析、多維分析、數(shù)據(jù)挖掘等多種數(shù)據(jù)分析的手段幫助電信企業(yè)有效遏制存量流失、激發(fā)收入增量,其經(jīng)營方式也將實現(xiàn)從粗放式到精細化的轉(zhuǎn)變,順應了現(xiàn)代的經(jīng)營管理理念。1.4數(shù)據(jù)質(zhì)量評估研究概述1.4.1數(shù)據(jù)質(zhì)量評估的背景和意義現(xiàn)代社會是一個充滿數(shù)據(jù)的社會,數(shù)據(jù)資源是企業(yè)實現(xiàn)信息化的必要基礎(chǔ)和寶貴資本,然而隨著企業(yè)數(shù)據(jù)庫中存儲的數(shù)據(jù)量的急劇膨脹、新應用的不斷出現(xiàn)以及各類應用之間越來越頻繁的相互整合,數(shù)據(jù)質(zhì)量問題日益顯現(xiàn)并日漸突出;這些數(shù)據(jù)質(zhì)量問題主要表現(xiàn)為數(shù)據(jù)不正確、數(shù)據(jù)不一致、數(shù)據(jù)不完整等方面,亟需一套方案對數(shù)據(jù)質(zhì)量進行有效管理。質(zhì)量低劣的數(shù)據(jù)已經(jīng)成為影響企業(yè)進行正確決策的重要因素,所以數(shù)據(jù)質(zhì)量管理必將成為企業(yè)進行信息化進程中一個不可或缺的重要環(huán)節(jié)。針對數(shù)據(jù)質(zhì)量問題的各個環(huán)節(jié),其中包括數(shù)據(jù)清洗、數(shù)據(jù)整合、相似記錄檢測、數(shù)據(jù)質(zhì)量評估、數(shù)據(jù)質(zhì)量過程控制和管理等,業(yè)界的學者已進行了大量的學術(shù)研究以及實際應用方面的探索。在數(shù)據(jù)質(zhì)量管理的所有環(huán)節(jié)中,數(shù)據(jù)質(zhì)量評估是提高數(shù)據(jù)質(zhì)量的基礎(chǔ)和必要前提,它能對應用系統(tǒng)的整體或部分數(shù)據(jù)的質(zhì)量狀況給出一個合理的描述和評價,從而可以幫助數(shù)據(jù)用戶了解應用系統(tǒng)的數(shù)據(jù)質(zhì)量水平,及時發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,并采取相應的處理過程來修復數(shù)據(jù)質(zhì)量問題,提高數(shù)據(jù)質(zhì)量。數(shù)據(jù)質(zhì)量評估((Data Quality Assessment)是數(shù)據(jù)質(zhì)量管理(Data Quality Management的重要組成部分,承擔著發(fā)現(xiàn)數(shù)據(jù)問題的重任,是改善數(shù)據(jù)質(zhì)量的驅(qū)動力和風向標。數(shù)據(jù)質(zhì)量是一個多維的概念,每一個維度代表一個審視數(shù)據(jù)質(zhì)量的角度,例如可信度(Believability)、完整度(Completeness)、精簡度 (Concise Representation)、及時度(Timeliness)、可理解度(understandability)等,數(shù)據(jù)質(zhì)量評估是以需求為導向的,同樣的數(shù)據(jù)在不同的應用背景下的接受度是不同的,例如對于數(shù)據(jù)挖掘,同樣的數(shù)據(jù)在一個挖掘主題下表現(xiàn)良好,而在另一個挖掘主題下卻得不到有意義的結(jié)果。因此,需求分析實際上是維度選擇的過程,數(shù)據(jù)質(zhì)量評估從一個或幾個維度出發(fā),以動態(tài)或靜態(tài)的方式審視數(shù)據(jù)。所謂動態(tài)的評估方式,是指從數(shù)據(jù)產(chǎn)生機制上對數(shù)據(jù)質(zhì)量進行評估,而靜態(tài)方式只考慮數(shù)據(jù)本身。雖然動態(tài)的評估方式能夠更徹底全面地對數(shù)據(jù)質(zhì)量做出評價,但在很多的應用背景下,如數(shù)據(jù)挖掘,往往受條件限制,無法得知數(shù)據(jù)產(chǎn)生機制的信息。數(shù)據(jù)質(zhì)量的定義隨著具體應用背景的不同而不同,因此,在進行具體的數(shù)據(jù)質(zhì)量評估時,要根據(jù)具體的數(shù)據(jù)質(zhì)量評估需求對數(shù)據(jù)質(zhì)量評估指標進行相應的取舍。但是,數(shù)據(jù)質(zhì)量評估至少應包含以下兩個方面的基本評估指標,(1) 數(shù)據(jù)對用戶來說必須是可以信賴的,其中包括精確性、完整性、有效性、一致性、唯一性等指標,其具體含義列舉如下A. 精確性(Accurate):數(shù)據(jù)是否客觀真實,是否存在虛假。B. 完整性 (ComPlete):數(shù)據(jù)是否存在缺失的記錄或字段。C. 有效性(valid):數(shù)據(jù)是否滿足用戶定義的條件或處于一定的域值范圍內(nèi)。D. 一致性(Consistent):同一實體的同一屬性值在不同的系統(tǒng)或數(shù)據(jù)集中的表達是否是一致的。E. 唯一性(unique):數(shù)據(jù)中是否存在重復。(2) 數(shù)據(jù)對用戶必須是可以使用的,其中包括穩(wěn)定性、時間性等方面的指標,其具體含義如下:A. 穩(wěn)定性(Volatile):數(shù)據(jù)是否穩(wěn)定,是否處于有效期內(nèi)。B. 時間性(Timely):數(shù)據(jù)是當前的還是歷史的。為了實現(xiàn)有效的數(shù)據(jù)質(zhì)量評估,下面給出了一個數(shù)據(jù)質(zhì)量評估模型,該模型由六個要素組成,是一個六元組,M=其中D:待評估數(shù)據(jù)集;對于關(guān)系數(shù)據(jù)庫來講,一個表或視圖代表一個數(shù)據(jù)集。I:數(shù)據(jù)集D上需要進行評估的指標,或稱數(shù)據(jù)質(zhì)量維度。R:與評估指標集I相對應的規(guī)則,規(guī)則既可使用規(guī)范化的自然語言表達,也可使用形式化的語言來書寫,以便轉(zhuǎn)換成程序腳本。泌賦予規(guī)則R的權(quán)值,為大于0的整數(shù),描述了規(guī)則R在所有規(guī)則中所占的比重。E:對規(guī)則R給出的期望值,為介于0到100之間的實數(shù),是在評估之前對規(guī)則R所期望得到的結(jié)果。S:規(guī)則R對應的最終結(jié)果,為介于0到100之間的實數(shù),是在檢測規(guī)則R后得到的結(jié)果。1.4.2數(shù)據(jù)質(zhì)量評估的研究現(xiàn)狀隨著電信行業(yè)內(nèi)部競爭的加劇,數(shù)據(jù)挖掘作為知識發(fā)現(xiàn)的有效工具已得到廣泛應用。電信行業(yè)有著豐富的數(shù)據(jù)資源,但由于各個數(shù)據(jù)源的數(shù)據(jù)質(zhì)量參差不齊,加之數(shù)據(jù)倉庫的ETL機制本身的某些問題,導致在數(shù)據(jù)集成時產(chǎn)生數(shù)據(jù)缺失和錯誤,對挖掘結(jié)果產(chǎn)生巨大影響。因此,合理量化這種影響,對數(shù)據(jù)質(zhì)量做出評估,這對分析數(shù)據(jù)挖掘的可行性具有重要意義。對于數(shù)據(jù)質(zhì)量評估,一些研究人員也開展了許多的研究工作。文獻1從不同的角度提出了數(shù)據(jù)質(zhì)量的評估方法,文獻2設(shè)計了一個數(shù)據(jù)質(zhì)量分析和瀏覽的工具,文獻3從用戶的角度描述了對數(shù)據(jù)質(zhì)量評估的要求,文獻4給出了一種基于屬性的數(shù)據(jù)質(zhì)量評估模型。但總的來講,已有的研究成果大部分集中在框架理論,較少涉及特定的行業(yè)背景和具體應用,而面向特定數(shù)據(jù)挖掘主題的數(shù)據(jù)質(zhì)量評估,尚未有專門的文獻進行討論?;趯嶋H經(jīng)驗,每個行業(yè)、每個應用都有自己的特點,對數(shù)據(jù)的評估方法也應有所差別,只能夠相互借鑒,但不能夠完全照搬,應該“量身定制”。本論文所做的研究工作就是針對電信欠費挖掘這一具體的應用背景,充分考慮該背景下數(shù)據(jù)集和數(shù)據(jù)挖掘本身的特點,搭建了相對完整的數(shù)據(jù)質(zhì)量評估體系,實現(xiàn)了面向電信欠費挖掘的數(shù)據(jù)質(zhì)量評估,為挖掘的可行性分析提供了指導。二、數(shù)據(jù)質(zhì)量評估技術(shù)與方法本章首先敘述了面向數(shù)據(jù)挖掘的數(shù)據(jù)質(zhì)量評估的意義以及數(shù)據(jù)質(zhì)量評估的一般方法,然后針對欠費挖掘主題,敘述了電信行業(yè)欠費的現(xiàn)狀與危害,以及欠費挖掘的現(xiàn)實意義,并對電信欠費挖掘中的非平衡問題、缺失問題、離群問題的研究成果作了簡要回顧,介紹了解決這些問題的常用算法,為后續(xù)提出面向電信欠費挖掘的數(shù)據(jù)質(zhì)量評估策略作鋪墊。2.1引言隨著電信行業(yè)競爭的不斷加劇,數(shù)據(jù)挖掘作為一種知識提取和決策支持的手段,已得到了廣泛的應用。然而,由于電信企業(yè)數(shù)據(jù)采集系統(tǒng)人為和非人為的擾動,造成各個數(shù)據(jù)源的數(shù)據(jù)質(zhì)量參差不齊,加之數(shù)據(jù)倉庫的ETL機制本身的某些問題,導致在數(shù)據(jù)集成時發(fā)生數(shù)據(jù)缺失和錯誤,造成數(shù)據(jù)的整體質(zhì)量不高,從而對數(shù)據(jù)挖掘的結(jié)果產(chǎn)生影響。因此,合理地量化這種影響,對數(shù)據(jù)質(zhì)量做出評估,這對分析數(shù)據(jù)挖掘的可行性、減少無回報成本具有重要的積極意義。2.2面向數(shù)據(jù)挖掘的數(shù)據(jù)質(zhì)量評估2.2.1數(shù)據(jù)質(zhì)量評估的意義數(shù)據(jù)質(zhì)量是一個相對的概念。在不同的時期,數(shù)據(jù)質(zhì)量有著不同的定義和評估標準。20世紀80年代以來,國際上普遍認為,數(shù)據(jù)質(zhì)量的標準基本上是圍繞著以提高數(shù)據(jù)準確性為出發(fā)點和原則的。然而,隨著質(zhì)量本身的含義不斷進行延伸,數(shù)據(jù)質(zhì)量的概念也由原來的狹義轉(zhuǎn)變?yōu)閺V義,其中,基于實際需要,融入了許多數(shù)據(jù)質(zhì)量的考察和評判的標準,準確性不再是衡量數(shù)據(jù)質(zhì)量的惟一指標。上世紀90年代,美國的麻省理工學院開展了全面數(shù)據(jù)質(zhì)量管理TDQM(Total Data Quality Management)的活動,該活動借鑒了物理產(chǎn)品質(zhì)量管理體系的成功經(jīng)驗,提出了以信息生產(chǎn)系統(tǒng)生產(chǎn)的數(shù)據(jù)產(chǎn)品為基礎(chǔ)的質(zhì)量管理體系。該活動提出,應充分、客觀、全面地理解用戶的信息需求,將數(shù)據(jù)看作具有生命周期的產(chǎn)品,并對此進行管理,要設(shè)置數(shù)據(jù)產(chǎn)品管理員來管理數(shù)據(jù)生產(chǎn)的整個過程和結(jié)果。在數(shù)據(jù)生產(chǎn)過程中形成的質(zhì)量維度,如準確性(Accuracy)、完整性(Completeness)、一致性(Consistence)等,已經(jīng)成為數(shù)據(jù)質(zhì)量評估的基本要求;另外,用戶對數(shù)據(jù)的滿意程度也已成為衡量數(shù)據(jù)質(zhì)量的重要指標之一。目前,尚未形成系統(tǒng)化的數(shù)據(jù)質(zhì)量評估指標,數(shù)據(jù)質(zhì)量評估往往只零散地針對系統(tǒng)中比較重要的質(zhì)量指標,如一致性問題、復雜性問題、完整性問題等來進行。在數(shù)據(jù)質(zhì)量評估領(lǐng)域已經(jīng)得到使用的產(chǎn)品,如CRG的完整度分析器 IA (Integrity Analyzer),可以實現(xiàn)對數(shù)據(jù)完整性的嚴格檢查,這里的完整性包括實體完整性、引用完整性、域完整性以及用戶自定義的完整性。數(shù)據(jù)質(zhì)量的描述通??梢苑譃椴煌膶哟?,不過到目前為止,還沒有形成專門用于表示這種層次性的統(tǒng)一術(shù)語,例如,有的用類和域表示這種層次,而 ISO TC211則用數(shù)據(jù)質(zhì)量元素及子元素來表達。不同的應用領(lǐng)域?qū)?shù)據(jù)質(zhì)量的描述也是不同的,因此,建立反映應用領(lǐng)域特點的數(shù)據(jù)質(zhì)量框架,是數(shù)據(jù)質(zhì)量評估所要解決的首要問題。數(shù)據(jù)質(zhì)量評估是面向應用的,同樣的數(shù)據(jù)在不同的應用背景下的接受度是不同的,例如對于數(shù)據(jù)挖掘,同樣的數(shù)據(jù)在一個挖掘主題下表現(xiàn)良好,而在另一個挖掘主題下卻得不到有意義的結(jié)果。因此,需求分析實際上是維度選擇的過程,數(shù)據(jù)質(zhì)量評估從一個或幾個維度出發(fā),以動態(tài)或靜態(tài)的方式審視數(shù)據(jù)。所謂動態(tài)的評估方式,是指從數(shù)據(jù)產(chǎn)生機制上對數(shù)據(jù)質(zhì)量進行評估,而靜態(tài)方式只考慮數(shù)據(jù)本身。雖然動態(tài)的評估方式能夠更徹底全面地對數(shù)據(jù)質(zhì)量做出評價,但在很多的應用背景下,如數(shù)據(jù)挖掘,往往受條件限制,無法得知數(shù)據(jù)產(chǎn)生機制的信息。面向數(shù)據(jù)挖掘的數(shù)據(jù)質(zhì)量評估DM-QDA(Data Mining Oriented Data Quality Assessment)是具有實際意義的,因為數(shù)據(jù)挖掘常常是一個龐大的工程,需要投入較多的時間、人力和物力,所以在數(shù)據(jù)挖掘工程真正開始之前,對數(shù)據(jù)挖掘的可行性分析顯得尤為重要,而為數(shù)據(jù)挖掘可行性提供指導正是數(shù)據(jù)質(zhì)量評估的意義所在。2.2.2數(shù)據(jù)質(zhì)量評估的一般方法雖然數(shù)據(jù)質(zhì)量的評估方法會隨著其應用背景的變化而變化,但拋開與應用背景相關(guān)的內(nèi)容,可以從中抽取數(shù)據(jù)質(zhì)量評估的核心方法論,即數(shù)據(jù)質(zhì)量評估的一般方法。如果使用定性分析的方法,采用數(shù)據(jù)質(zhì)量的廣義概念,可以歸納出缺陷數(shù)據(jù)的兩個來源,一個是來源于面向?qū)嵺`的原因,另一個是面向結(jié)構(gòu)的原因,其中,前者源自用戶通過系統(tǒng)獲取或者操作了帶有缺陷的數(shù)據(jù),而后者的原因在于與用戶的需求和設(shè)計滿足需求的物理數(shù)據(jù)實施時產(chǎn)生了數(shù)據(jù)不匹配。因此,基于以上所述的兩個原因,現(xiàn)代數(shù)據(jù)質(zhì)量的一般概念主要包含兩個方面的內(nèi)容:一方面,要注重從面向?qū)嵺`方面來衡量數(shù)據(jù)質(zhì)量,即從數(shù)據(jù)的用戶的角度出發(fā),來判定數(shù)據(jù)質(zhì)量,強調(diào)用戶的滿意度,或者也可以站在數(shù)據(jù)的生產(chǎn)者和管理者的位置來考慮數(shù)據(jù)質(zhì)量問題;另一方面,要注重從面向系統(tǒng)的角度來評價數(shù)據(jù)質(zhì)量,因為數(shù)據(jù)質(zhì)量是一個綜合性的概念,所以要建立一套行之有效的數(shù)據(jù)質(zhì)量管理體系,應該從數(shù)據(jù)質(zhì)量的基本要素,如準確性、適用性、完整性、一致性、可比性、適時性等多個不同的角度來評價數(shù)據(jù)質(zhì)量的優(yōu)劣。只有對信息系統(tǒng)的質(zhì)量水平有了正確的認識并且了解問題產(chǎn)生的原因,才可以實質(zhì)性地提高數(shù)據(jù)生產(chǎn)質(zhì)量,在數(shù)據(jù)流動的各個環(huán)節(jié)進行質(zhì)量控制。在這種意義上,從數(shù)據(jù)的用戶或數(shù)據(jù)共享的角度對數(shù)據(jù)質(zhì)量進行描述,除去如準確性等本征質(zhì)量指標外,數(shù)據(jù)的可得性、是否表達得清晰易懂、滿足用戶要求的程度、動態(tài)的數(shù)據(jù)質(zhì)量等也應成為衡量數(shù)據(jù)質(zhì)量的重要方面。圖2-1數(shù)據(jù)質(zhì)量維度的層次關(guān)系有效的數(shù)據(jù)質(zhì)量工程依賴質(zhì)量措施的確定,在面向?qū)嵺`和面向結(jié)構(gòu)方面可以用四個維度來概括數(shù)據(jù)質(zhì)量評價的框架,這四個維度分別是:數(shù)據(jù)值質(zhì)量、數(shù)據(jù)表示質(zhì)量、數(shù)據(jù)模型質(zhì)量和數(shù)據(jù)體系質(zhì)量。注意,這里的數(shù)據(jù)質(zhì)量維度是指考察數(shù)據(jù)質(zhì)量的各個層次,而非前文中提到的考察數(shù)據(jù)質(zhì)量的指標,前者是層級關(guān)系,后者是并列關(guān)系,本小節(jié)之外提到的數(shù)據(jù)質(zhì)量維度均指的是后者。四個數(shù)據(jù)質(zhì)量維度的層次關(guān)系如圖2-1所示,數(shù)據(jù)質(zhì)量評估的一般方法就是從這四個數(shù)據(jù)質(zhì)量維度展開對數(shù)據(jù)質(zhì)量的全面評估。數(shù)據(jù)質(zhì)量維度把信息系統(tǒng)中存儲并加以維護的數(shù)據(jù)質(zhì)量作為事實結(jié)合體,由具體實體和一些屬性構(gòu)成。其中,數(shù)據(jù)表示質(zhì)量這一維度一般是面向數(shù)據(jù)的消費用戶的,指的是存儲數(shù)據(jù)值的表示質(zhì)量;對數(shù)據(jù)消費用戶而言,存儲于信息系統(tǒng)中準確的數(shù)據(jù)值的不正確表示可能會導致數(shù)據(jù)的消費擁護這一端的產(chǎn)生數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)值質(zhì)量指的是系統(tǒng)所存儲數(shù)據(jù)的實際的質(zhì)量,這個數(shù)據(jù)質(zhì)量維度是最為本質(zhì)的,該維度上的數(shù)據(jù)質(zhì)量問題必然波及其它質(zhì)量維度。數(shù)據(jù)模型質(zhì)量維度關(guān)注的是數(shù)據(jù)模型是否合理,其邏輯上代表與數(shù)據(jù)實體、關(guān)聯(lián)屬性及兩者之間關(guān)系相關(guān)的用戶需求,數(shù)據(jù)結(jié)構(gòu)規(guī)范的質(zhì)量數(shù)據(jù)模型對于用戶和系統(tǒng)開發(fā)人員之間的溝通至關(guān)重要。數(shù)據(jù)體系結(jié)構(gòu)質(zhì)量這一維度是最靠近系統(tǒng)的體系結(jié)構(gòu)這一端的質(zhì)量維度,它解決的是數(shù)據(jù)的體系結(jié)構(gòu)問題,并對跨功能系統(tǒng)的開發(fā)和操作中涉及的數(shù)據(jù)管理活動進行協(xié)調(diào);該質(zhì)量維度的主要特點是站在系統(tǒng)整體框架的高度,提供在組織范圍內(nèi)的用戶對數(shù)據(jù)的需求和滿足這些需求的具體系統(tǒng)之間的有效聯(lián)系,從而實現(xiàn)系統(tǒng)間的數(shù)據(jù)共享。2.3電信數(shù)據(jù)挖掘中的數(shù)據(jù)質(zhì)量問題2.3.1欠費挖掘中的非平衡問題電信企業(yè)擁有龐大的客戶數(shù)量,客戶群體的構(gòu)成較為復雜。電話費和數(shù)據(jù)通信費是電信企業(yè)最重要的收入來源,電信企業(yè)只有及時、足額地收取這些費用,才能保證自身的正常運營。近幾年來,隨著電信行業(yè)內(nèi)壟斷格局的打破以及競爭的加劇,各大運營商也紛紛開始降低開戶的門檻,以吸納更多的客戶;然而,門檻降低了,隨之而來的卻是客戶誠信度的降低,客戶惡意拖欠話費的現(xiàn)象日益增多,惡意欠費的隊伍日益龐大,每年都會給電信運營商造成巨大的損失。惡意欠費現(xiàn)象已經(jīng)成為電信企業(yè)發(fā)展的主要困擾,究其緣由,主要有以下幾方面的原因:第一,低廉的開戶費是孕育惡意欠費的溫床,尤其是2001年7月1日國家財政部、計委、信息產(chǎn)業(yè)部發(fā)文取消固定電話的初裝費,以及手機入網(wǎng)的零手續(xù)費之后,電信開戶幾乎沒有手續(xù)費;第二,房屋、門市、鋪面的出租給伺機惡意欠費者提供了方便,因為這些出租戶同時也會連同電話一起出租給住戶,而住戶則會在搬遷之前的兩三個月大量消費電話費,當電信部門上門催繳時,卻發(fā)現(xiàn)已經(jīng)人去樓空;第三,我國在加入WTO以后,電信業(yè)也要與國際接軌,電信服務質(zhì)量也一直成為各大媒體關(guān)注的熱點和焦點,于是,電信企業(yè)在欠費問題的解決上慎之又慎,這也在一定程度上縱容了惡意欠費行為;第四,新電信條例給蓄意欠費者提供可乘之機,2000年新頒布的中華人民共和國規(guī)定,用戶欠費在達到三個月后方可停機,一些欠費者抓住機會,在三個月內(nèi)拼命消費,然后一走了之,留下巨額無法收回的欠款,電信條例實質(zhì)上便成為這些惡意欠費者的“擋箭牌”。就欠費的治理來講,方法有很多,其中,如何根據(jù)電信客戶的歷史行為表現(xiàn)準確地預測其將來的欠費行為是比較科學和有效地,因此這也是電信企業(yè)降低惡意欠費率的關(guān)鍵任務。電信企業(yè)擁有大量寶貴的數(shù)據(jù)資源,其中包含了客戶的基本資料、行為信息、價值信息等數(shù)據(jù),因此,利用數(shù)據(jù)挖掘中的分類技術(shù),可以對客戶的欠費行為做出預測。然而,欠費挖掘不同于一般的分類問題,因為欠費的客戶相對于全體客戶,畢竟只占很小的比例,所以欠費挖掘?qū)儆诜瞧胶夥诸悊栴}。非平衡分類問題在實際問題中占有一定的比例,因此在這個領(lǐng)域已經(jīng)有一些研究成果,雖然這些研究成果不足以完全解決這個問題。所謂不平衡分類問題,是指訓練樣本數(shù)量在類分布不平衡的模式分類問題。具體地說就是某些的樣本數(shù)量遠遠少于其它類。這里將具有少量樣本的那些類稱為正類,將具有大量樣本的那些類稱為負類。物以稀為貴,正類的信息、通常是人們關(guān)注的焦點,因為它往往包含了人們感興趣的行為信息。在許多實際的模式分類問題中,同樣存在樣本數(shù)量稀少的類,它們雖然很重要,但是用傳統(tǒng)的分類方法,卻難以被正確分類。當使用傳統(tǒng)的機器學習算法來解決這些不平衡分類問題時,往往會出現(xiàn)正類的預測準確率大大低于負類,得到的分類器具有很大的偏向性,從而導致分類器性能的大幅度下降。因此,雖然總體的分類準確率很高,很多本來屬于正類的樣本被錯分到負類,加之正類樣本數(shù)本來就稀少,造成大部分的正類都被預測錯誤,使得實際問題難以得到解決。在實際應用中,非平衡問題很常見。非平衡問題有本質(zhì)非平衡和非本質(zhì)非平衡之分。對于本質(zhì)非平衡問題,其原始數(shù)據(jù)本身的分布就存在不平衡,例如對信用卡非法交易的檢測,這些問題都以稀有類的信息、為關(guān)注的重點,如在信用卡非法交易記錄的監(jiān)測問題中,非法交易記錄是監(jiān)測的目標,但訓練數(shù)據(jù)中包含大量正常的信用卡交易記錄,只有很少的一部分屬于非法交易,使用普通的模式分類方法,非法交易記錄的檢測率很低。非本質(zhì)非平衡問題源自數(shù)據(jù)收集過程中因為人為因素而造成的數(shù)據(jù)不平衡現(xiàn)象,例如由于個人隱私或者高昂的數(shù)據(jù)采集代價等因素,某些類的樣本數(shù)量過少。除此之外,還有一些非平衡問題來自多類(Multi-Class)問題和多標號(Multi-Label)問題的分解,這種分解事為了解決有些分類器,如支持向量機(Support vector Machine),無法直接解決多分類問題,必須將原始問題分解成一系列二分類問題才能夠間接地解決,這樣很容易導致原來平衡分類問題變得不平衡,原來非平衡分類問題變得更加不平衡,嚴重影響分類器的實際性能。對于非平衡問題,已有學者提出一些解決的策略,這些策略大致可以分為兩大類:一類是從訓練集入手,通過改變訓練集樣本分布,降低不平衡程度;另一類是從學習的算法入手,根據(jù)算法在解決不平衡問題時的缺陷,適當?shù)貙λ惴右愿倪M,使之適應不平衡分類問題。降低訓練集非平衡程度的方法主要包括訓練集重采樣方法和訓練集劃分方法;學習算法改進層面的策略主要包括分類器集成、代價敏感學習和特征選擇的方法等。下面對這些方法做一簡要介紹。(l)重采樣方法重采樣方法是解決非平衡分類最常用的方法。重采樣的基本思想是指通過增加正類訓練樣本數(shù)的上采樣(Up-Sampling)和減少負類樣本數(shù)的下采樣(Down-sampling),使原來不平衡的樣本分布變得平衡或較原來平衡,從而提高分類器對稀有類的預測準確率。最原始的上采樣方法是復制正類的樣本,但這樣做一方面容易導致過學習,另一方面對提高正類的預測準確率沒有太大的幫助。較為先進一些的上采樣方法則采用一些啟發(fā)式的技巧,有選擇地復制正類樣本,或者重新生成新的正類樣本;例如,Chawl等人提出的SMOTE算法就是一種簡單有效的上采樣方法,該方法首先為每個正類樣本隨機選出幾個與其鄰近的樣本,并且在該樣本與這些鄰近樣本的連線上隨機取點,從而生成沒有重復的新的正類合成樣本。下采樣通過舍棄部分負類樣本的方法來降低它的不平衡程度。例如,Kubat和Matwin采用單邊采樣方式,去除大類中的噪聲、邊界和冗余樣本。盡管重采樣的方法在一些數(shù)據(jù)集上的應用效果不錯,但也存在一些本質(zhì)缺陷。上采樣的方法并不增加任何新的數(shù)據(jù)樣本,只是重復一些已有的數(shù)據(jù)樣本或增加一些人工生成的正類樣本,這樣做一方面增加了訓練時間,另一方面,上采樣對某些正類樣本的復制,或在它周圍合成新的正類樣本,這會造成分類器過分注重這些正類樣本,導致過學習。上采樣不能從本質(zhì)上解決正類樣本的稀缺性和數(shù)據(jù)表示的不完備性,因而有人指出,它的性能表現(xiàn)較下采樣要差;但是同時也有學者指出,下采樣在去除負類樣本時,容易去除負類樣本中包含的某些重要的信息,同樣存在很大的弊端,盡管存在“些啟發(fā)式的下采樣方法,能夠做到只去除冗余樣本和噪聲樣本,但在大多數(shù)情況下,這類樣本只占樣本總量的一小部分,因此,這種方法能夠調(diào)整的不平衡程度是十分有限的。(2)訓練集劃分方法對訓練數(shù)據(jù)集進行劃分,是另一類可以有效降低訓練數(shù)據(jù)集非平衡程度方法。Chan和Stolfo首先根據(jù)代價敏感學習的需要,學習到一個合理的類別樣本分布比例;然后將負類樣本隨機劃分成一系列不相交子集,這些子集的大小由正類樣本集的數(shù)量和預先學習得到的樣本分布比例來決定;接下來分別將這些不相交的子集和正類樣本互相結(jié)合,由此組成一系列平衡的分類子問題,針對這些子問題單獨訓練得到一系列子分類器;最后通過元學習 (Meta Leaning),將這些子分類器的輸出進一步學習,從而得到組合分類器,以實現(xiàn)最終的分類。另外,Lu和Ito提出了最小最大模塊化(Min- Max Modular)神經(jīng)網(wǎng)絡模型,該模型利用最小最大化集成的規(guī)則,可以有效將子分類器組合起來,使組合分類器容易實現(xiàn)并列學習和增量學習。在這之后,Lu等人將上述模型推廣到支持向量機(Support Vector Machine),并提出了“部分對部分”(Part vs. Part)任務分解策略,該種策略可以對不平衡二分類子問題進行進一步的分解,這種分解策略可以自由地事先對每個子問題的規(guī)模及平衡度的控制,并且可以依照先驗知識和訓練集樣本的分布特征,制定有效的分解規(guī)則。已經(jīng)有實驗結(jié)果表明,訓練集劃分方法比重采樣方法和代價敏感學習方法能夠更有效地解決數(shù)據(jù)集的非平衡問題。(3)分類器集成方法前面提到,通過訓練數(shù)據(jù)集的劃分而得到的子分類器,利用分類器集成的方法取得了良好的效果。Kotsiantis和Pintelas將習訓練數(shù)據(jù)集重采樣后,用三種學習方法分別加以訓練,然后采用多數(shù)投票的方式給出預測的類別;有實驗結(jié)果表明,他們的方法能提高對正類樣本的預測準確率。Estabrook等人經(jīng)過計算發(fā)現(xiàn),根據(jù)訓練數(shù)據(jù)集的自然分布得到的分類器,其推廣能力不一定是最好的,由此,他們提出了通過對原不平衡分類問題進行重采樣,從而構(gòu)建出多個平衡度不同的訓練集,訓練后采用分類器挑選和偏向正類的原則將各個分類器綜合;實驗結(jié)果表明,該方法比單純使用重采樣能夠獲得更好的預測準確率和更優(yōu)的 ROC (Receiver Operating Characteristic)曲線。Chawla等人將boosting算法與SMOTE算法相結(jié)合,形成SMOTE-Boost算法,該算法的基本思想是迭代使用SMOTE算法生成新的樣本,取代原來 Ada Boost算法中對樣本權(quán)值的調(diào)整,使得Boosting算法能夠?qū)W⒂谡愔休^難分類的樣本上。Zhou和Liu提出了代價敏感神經(jīng)網(wǎng)絡與分類器集成相結(jié)合的方法,他們在多個UCI標準數(shù)據(jù)集上進行了實驗;通過實驗發(fā)現(xiàn),分類器的集成不但對處理非平衡二分類問題十分有效,而且對非平衡多分類問題同樣具有較為理想的效果。(4)代價敏感學習方法在絕大多數(shù)情況下,正類是非平衡分類問題中需要關(guān)注的重點。在這種情況下,正確識別出正類的樣本比識別負類的樣本更具有價值,換言之,對正類的樣本的錯分需要較負類樣本付出更大的代價。代價敏感學習的基本思想是賦予各個類別不同的錯分代價,因此,它能夠很好地解決非平衡分類問題。以二分類問題為例,假設(shè)正類是稀有類,并具有更高的錯分代價,那么分類器在進行訓練時,會對錯分正類樣本的行為做出更大的懲罰,這樣就迫使最終得到的分類器對正類樣本具有更高的預測準確率。已有一些學者提出了多種代價敏感學習方法。Domingos提出了一種Metacost方法,該方法的基本思想是通過估計訓練樣本的后驗概率密度,并結(jié)合代價矩陣 (Cost Matrix)計算每個訓練樣本的理想類別,然后根據(jù)計算得出的理想類別修改原訓練樣本的類別,得到新的訓練集,最后使用基于錯誤率的分類器對這個新的訓練集進行學習;實驗結(jié)果表明,與重采樣方法相比,Metacost獲得錯誤代價更低。Mctacost的重要意義在于它能將普通的基于準確率的學習方法較容易地改造成對錯分代價敏感的學習方法。賦予不同的訓練樣本以不同的權(quán)值也同樣能起到代價敏感學習的作用。Fan等人提出了一種 Ada Cost算法,該算法的基本思想是通過在Boosting算法的權(quán)值更新規(guī)則中引入每個訓練樣本的錯分代價,由此提高Boosting算法對正類樣本的查準率和查全率。該算法的權(quán)值更新原則如下:若一個樣本的錯分代價較大,且被弱分類器錯分,則其對應的權(quán)值也會被“較大”地增加;若它被正確分類,則它對應的權(quán)值就會被“較小”程度地減少。代價敏感學習雖然能夠有效地提高正類的預測準確率,但也存在以下一些問題:一方面,在大多數(shù)情況下,很難對真實的錯分代價做出準確的估計;另一方面,雖然存在多種分類器可以直接引入代價敏感這一學習機制,如支持向量機 (support vector Machine)和決策樹(Decision Tree),但也有一些分類器不能直接使用代價敏感學習機制,只能通過調(diào)整正負樣本比例或決策閑值間接地進行代價敏感學習,這樣一來就無法保證代價敏感學習的效果。(5)特征選擇方法樣本數(shù)量分布的高度不平衡會造成其特征分布的不平衡現(xiàn)象,尤其在文本分類問題當中,負類記錄的某些特征,也許在正類里根本不會出現(xiàn)。正是基于這一點的考慮,才產(chǎn)生了特征選擇方法這一類解決非平衡分類問題的方法。所以,根據(jù)實際不平衡分類問題的特點,選取其中最具區(qū)分能力的特征,有利于提高正類的預測準確率。利用特征選擇的方法來解決不平衡分類問題的應用實例主要集中于自然語言處理領(lǐng)域,如文本挖掘、Web挖掘等。Cardie和Howel提出了一種與測試樣本相關(guān)的動態(tài)特征加權(quán)方法,該方法是以基于事例學習 (Case- based Leaning)的框架為基礎(chǔ)的,其基本思想是先利用訓練集得到?jīng)Q策樹,然后計算得到每個測試樣本在其測試路徑上的信息收益,并由此計算每個特征的權(quán)值,最后從訓練集中挑選k個與測試樣本最為鄰近的樣本,并進行類別投票;該方法的優(yōu)點是在提高正類樣本預測準確率的同時也確保了總體的準確率在一定的水平上。 Zheng和Srihari針對文本問題中的非平衡分類問題,以來自經(jīng)驗的樣本比例為依據(jù),分別挑選正負兩個樣本集,并從中選取最具代表性的特征集,然后將這些特征集合并,作為最終的候選特征集;在他們的實驗中,對不同規(guī)模的特征集挑選其特征,實驗結(jié)果表明,該特征挑選方法能夠提高文本分類的效果。非平衡分類的特殊性,決定了必須要有一套不同于一般平衡分類器的評價指標;正類和負類訓練樣本數(shù)量的不均衡導致分類器對兩者預測精度的不均衡,因此,對非平衡分類器的性能評估應充分考慮正類的精度。表2-1列出了分類的四種不同情況。F-measure法和ROC曲線法是評價非平衡分類器性能的常用方法。F-measure法通過計算正類的F-measure指標來衡量分量精度。由定義2-l可知,F(xiàn)-measure是查全率(Recall)和查準率(Precision)的組合,兩者需要兼顧,因為只有當查全率和查準率都較高的情況下,F(xiàn)-measure的值才會較大。ROC(Receiver Operating Characteristic)曲線法分別將正類和負類的查全率定義為正類準確率 (TPR)和負類準確率 (FPR),并將兩者作為縱橫坐標,不斷改變其中一個坐標的值,求取另一個坐標的值,得到所有的點,繪制ROC曲線,曲線越靠近左上角,分類器的性能越好。為了量化分類器的性能,常用曲線下的面積AUC(Area Under the Curve)作為評價指標。為解決非平衡分類器對正類預測精度不理想的問題,常從兩方面入手。一是從數(shù)據(jù)本身入手,運用抽樣技術(shù)改變類間的不平衡,例如SMOTE算法采用過采樣的方法,人為增多負類記錄的數(shù)量,削弱或消除數(shù)據(jù)的不平衡性;二是分類算法本身的改進,例如支持向量機算法的改進等。2.3.2缺失問題缺失問題屬于普遍性的數(shù)據(jù)質(zhì)量問題,存在于許多的研究領(lǐng)域與數(shù)據(jù)緊密相關(guān),如人工智能、統(tǒng)計分析、機器學習、模式識別等。在實際的工程應用當中,由于數(shù)據(jù)獲取的渠道以及對數(shù)據(jù)建模的差異等各方面的原因,所得的數(shù)據(jù)通常并不完全符合己經(jīng)預定義好的處理格式,這種不符合預定義格式的數(shù)據(jù)通常被標記為空白、“未知”或一些特殊標志等符號,代表位置的信息,因此,這種數(shù)據(jù)被稱為缺失數(shù)據(jù) (Missing Data)或不完整數(shù)據(jù) (Incomplete Data)。在現(xiàn)實的數(shù)據(jù)庫中,經(jīng)常會出現(xiàn)缺失值,例如醫(yī)用數(shù)據(jù)、各種調(diào)查統(tǒng)計表格,以及經(jīng)常被用于算法性能測試的部分UCI標準數(shù)據(jù)集。產(chǎn)生于實際應用背景的真實數(shù)據(jù)集中,是不可能不存在數(shù)據(jù)缺失的,而且在大多數(shù)情況下,數(shù)據(jù)缺失會特別嚴重,例如本文基于的電信背景,由于其數(shù)據(jù)采集系統(tǒng)的不完備以及數(shù)據(jù)倉庫集成方面的問題,導致數(shù)據(jù)的缺失。現(xiàn)實世界中多數(shù)的信息系統(tǒng)都是不完備

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論