異常點(diǎn)挖掘在證券業(yè)的應(yīng)用研究_第1頁(yè)
異常點(diǎn)挖掘在證券業(yè)的應(yīng)用研究_第2頁(yè)
異常點(diǎn)挖掘在證券業(yè)的應(yīng)用研究_第3頁(yè)
異常點(diǎn)挖掘在證券業(yè)的應(yīng)用研究_第4頁(yè)
異常點(diǎn)挖掘在證券業(yè)的應(yīng)用研究_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

異常點(diǎn)挖掘在證券業(yè)的應(yīng)用研究

內(nèi)容摘要:異常點(diǎn)挖掘是數(shù)據(jù)挖掘的一項(xiàng)功能,現(xiàn)有的文獻(xiàn)較多關(guān)注于算法及其改進(jìn)方面,而對(duì)于異常點(diǎn)挖掘過程以及如何將異常點(diǎn)挖掘應(yīng)用于證券業(yè)缺乏深入研究。本文針對(duì)上述兩個(gè)問題展開探討,提出異常點(diǎn)挖掘的生命周期模型并給出該模型在證券業(yè)的應(yīng)用案例,為應(yīng)用的研究提供參考。

關(guān)鍵詞:證券業(yè)異常點(diǎn)數(shù)據(jù)挖掘應(yīng)用

證券業(yè)是一個(gè)數(shù)據(jù)密集型的行業(yè),經(jīng)過多年的發(fā)展,許多券商積累了海量的客戶數(shù)據(jù)。如何挖掘這些寶貴的數(shù)據(jù)資源以發(fā)現(xiàn)證券交易過程中隱含的不良操作,是數(shù)據(jù)挖掘在證券行業(yè)應(yīng)用的重要課題。對(duì)于異常點(diǎn),Hawkwins認(rèn)為:一個(gè)異常點(diǎn)是這樣一個(gè)測(cè)量值,它過分地偏離其他測(cè)量值,從而使人們對(duì)它產(chǎn)生懷疑,懷疑它是由不同的機(jī)理產(chǎn)生的。作為數(shù)據(jù)挖掘的一項(xiàng)功能,異常點(diǎn)挖掘受到眾多學(xué)者的重視,但大部分的研究重點(diǎn)均放在算法、算法優(yōu)化和改進(jìn)等方面,而對(duì)異常點(diǎn)挖掘過程以及如何結(jié)合具體的問題域、行業(yè)背景知識(shí)進(jìn)行挖掘則探討不多。

異常點(diǎn)有著較強(qiáng)主觀性,在進(jìn)行異常點(diǎn)挖掘研究時(shí)應(yīng)定義特定的挖掘背景。在證券業(yè),異常點(diǎn)挖掘可以發(fā)現(xiàn)客戶數(shù)據(jù)中的異常點(diǎn)或者孤立點(diǎn),而這些特殊數(shù)據(jù)恰恰包含了非正常的交易。當(dāng)然,并不是所有的異常點(diǎn)都是不良操作或者違規(guī)交易,其中,有一部分異常點(diǎn)可能是噪音數(shù)據(jù),有些則是真實(shí)的并且有利于券商的交易信息,例如,發(fā)現(xiàn)大客戶或者潛在的優(yōu)質(zhì)客戶等?;诖?,本文將重點(diǎn)探討完整的異常點(diǎn)挖掘流程及其在證券業(yè)的應(yīng)用。

異常點(diǎn)挖掘的生命周期過程

異常點(diǎn)挖掘的生命周期應(yīng)該包括定義目標(biāo)、選擇數(shù)據(jù)源、選擇挖掘算法、設(shè)置初始維及域值、計(jì)算驗(yàn)證、迭代以及后期分析7個(gè)步驟。

定義挖掘目標(biāo)。從數(shù)據(jù)挖掘的七個(gè)步驟來(lái)看,定義目標(biāo)應(yīng)該是一張寬泛的、粗線條的需求定義列表,例如:對(duì)客戶交易記錄進(jìn)行異常點(diǎn)挖掘,找到異常交易和可疑記錄;發(fā)現(xiàn)不同類型客戶分組中的特例,等等。

選擇數(shù)據(jù)源。異常點(diǎn)挖掘和數(shù)據(jù)挖掘的數(shù)據(jù)源一般來(lái)說(shuō)是一致的,并在其基礎(chǔ)上根據(jù)挖掘目標(biāo)進(jìn)行選擇和預(yù)處理。此外,為了獲得更佳的挖掘效果,需要對(duì)進(jìn)行異常點(diǎn)挖掘的數(shù)據(jù)源做預(yù)處理。大部分情況下,這類數(shù)據(jù)源的預(yù)處理將在任務(wù)開始時(shí)完成,并且可以直接運(yùn)用到異常點(diǎn)挖掘中。

選擇算法。涉及異常點(diǎn)挖掘的算法較多,比較常用的有基于統(tǒng)計(jì)的算法、基于距離的算法、基于偏差的算法,每種算法都有不同的實(shí)現(xiàn)。在實(shí)踐中需要針對(duì)不同的挖掘目標(biāo),不同的數(shù)據(jù)源,不同的資源條件,對(duì)算法做出選擇和優(yōu)化。

維和初始參數(shù)的選擇。在異常點(diǎn)挖掘時(shí),證券客戶不同的維組合得到的異常點(diǎn)可能完全不同。有些記錄在某些維度上的偏差較大,當(dāng)計(jì)算包括這些維度時(shí),往往會(huì)覆蓋其他維對(duì)異常點(diǎn)判斷的影響,而不考慮這些維時(shí),這些點(diǎn)并不表現(xiàn)得多么“異?!?。因此,需要單獨(dú)考察某些維度組合上的異常情況;同時(shí),也需要在過濾掉那些過于“異?!钡木S度和記錄之后,考察其余維度上的異常情況。除了維度的選擇,在開始計(jì)算時(shí),也要考慮域值的初始值設(shè)置。對(duì)于基于距離的異常點(diǎn)挖掘算法,鄰域閥值k的取值非常關(guān)鍵,尤其對(duì)于局部異常點(diǎn)挖掘,k的不同取值可能產(chǎn)生完全不同的結(jié)果。

計(jì)算并驗(yàn)證異常點(diǎn)。挖掘算法的實(shí)現(xiàn)可以借助一些統(tǒng)計(jì)分析工具,例如SAS、SPSS等,或者是自己實(shí)現(xiàn)挖掘算法。相比計(jì)算,驗(yàn)證異常點(diǎn)就要困難得多,首先必須保證算法的實(shí)現(xiàn)是正確的,其次即使使用一個(gè)可靠的程序進(jìn)行挖掘時(shí),仍然可能會(huì)有誤差和噪音干擾挖掘結(jié)果。一個(gè)辦法是通過迭代計(jì)算比較多次結(jié)果后剔除,而迭代是整個(gè)異常點(diǎn)挖掘過程的一個(gè)必須環(huán)節(jié);另一個(gè)辦法是觀察異常點(diǎn)數(shù)據(jù)的特征,當(dāng)數(shù)據(jù)是低維時(shí)可以使用散點(diǎn)圖觀察樣本分布,通過直觀比對(duì)挖掘得到的異常點(diǎn)位置來(lái)判斷有效性。

迭代計(jì)算。一次異常點(diǎn)挖掘的結(jié)果,并不意味著挖掘過程的結(jié)束,還需要調(diào)整維組合和域值之后迭代計(jì)算,得到更全面和系統(tǒng)的結(jié)論。例如,對(duì)于一個(gè)基于傭金和交易次數(shù)兩個(gè)維度組合得到的異常點(diǎn),我們認(rèn)為它是在維度組合[傭金,交易次數(shù)]上的異常點(diǎn),而對(duì)于其他維度組合則不一定,或者還有更加“異?!钡臉颖军c(diǎn)存在。對(duì)于不同維度組合下的綜合考察可以幫助我們找到更加“合格”的異常點(diǎn),迭代計(jì)算可以幫助我們完成這項(xiàng)任務(wù)。異常點(diǎn)的計(jì)算是一個(gè)動(dòng)態(tài)的過程,從初始的維組合和參數(shù)設(shè)置開始,需要制定一個(gè)有條理的維組合選擇計(jì)劃,每次計(jì)算選擇不同的維組合進(jìn)行計(jì)算,同時(shí)驗(yàn)證所得的異常點(diǎn)是否有效,以決定域值和維的選擇。一旦對(duì)數(shù)據(jù)進(jìn)行了若干輪挖掘并獲得輸出結(jié)果后,便可據(jù)此進(jìn)行后期分析和目標(biāo)檢驗(yàn)。

后期分析。后期分析的主要任務(wù)是綜合之前的計(jì)算結(jié)果,結(jié)合挖掘目標(biāo)和問題背景,解釋異常點(diǎn)產(chǎn)生的原因,指出需要采取的措施和方案建議等。為了對(duì)異常點(diǎn)做出合理解釋,需要結(jié)合行業(yè)知識(shí)和其他外部信息,包括專家知識(shí)、相關(guān)規(guī)范標(biāo)準(zhǔn)、行業(yè)平均水平等作為參考。因此,異常點(diǎn)挖掘結(jié)果應(yīng)該是一份全面描述挖掘過程,對(duì)結(jié)果進(jìn)行綜合分析,并加入與目標(biāo)相適應(yīng)的解決方案和建議。

應(yīng)用分析

定義挖掘目標(biāo)。本案例以異常點(diǎn)挖掘生命周期模型為指導(dǎo),通過異常點(diǎn)挖掘,幫助券商發(fā)現(xiàn)客戶的異常交易行為。具體包括兩方面的作用:一方面作為客戶細(xì)分結(jié)果的驗(yàn)證,找到每個(gè)客戶組群上的邊緣客戶,為聚類分析結(jié)果提供驗(yàn)證和補(bǔ)充,另一方面,通過異常點(diǎn)挖掘標(biāo)記出每個(gè)組交易異常的客戶。

客戶數(shù)據(jù)取自某證券公司營(yíng)業(yè)部某年度的客戶交易數(shù)據(jù),涉及客戶21580人,客戶屬性經(jīng)處理后選取用戶ID、交易總量、傭金、交易次數(shù)、資金量、股票成交數(shù)、股票變動(dòng)次數(shù)、資金變動(dòng)次數(shù)、年齡、開戶時(shí)長(zhǎng),其中用戶ID、年齡和開戶時(shí)長(zhǎng)未參與計(jì)算。

選擇數(shù)據(jù)源。聚類分析為異常點(diǎn)挖掘提供了數(shù)據(jù)預(yù)處理,使得挖掘能夠更加精確和高效。實(shí)際操作中,直接使用聚類獲得的結(jié)果作為異常點(diǎn)挖掘的客戶分組,記為C1、C2……C5。表1列出了聚類結(jié)果。由于C2、C3和C5樣本數(shù)量太小,異常點(diǎn)挖掘意義不大,故不參加計(jì)算。

選擇算法??紤]到數(shù)據(jù)源、軟硬件條件以及時(shí)間限制等因素,本案使用基于距離的算法進(jìn)行異常點(diǎn)挖掘;在驗(yàn)證異常點(diǎn)時(shí),使用統(tǒng)計(jì)偏差監(jiān)測(cè)方法進(jìn)行異常點(diǎn)檢驗(yàn)。

維和初始參數(shù)的選擇。在本案中,通過對(duì)維組合和域值的設(shè)置、不斷進(jìn)行迭代和嘗試,通過對(duì)結(jié)果的觀察,最后一次計(jì)算的維組合是[傭金、交易次數(shù)、股票變動(dòng)次數(shù)、資金變動(dòng)次數(shù)],其中傭金和交易次數(shù)是原始變量,而股票變動(dòng)次數(shù)和資金變動(dòng)次數(shù)是兩個(gè)復(fù)合變量,由聚類之前的數(shù)據(jù)預(yù)處理得到;對(duì)于域值k,根據(jù)試驗(yàn)以及考慮到性能的代價(jià),取k=15進(jìn)行計(jì)算。

計(jì)算并驗(yàn)證異常點(diǎn)。當(dāng)確定了挖掘目標(biāo)、數(shù)據(jù)源、挖掘算法、初始維組合和域值之后,就可以進(jìn)入計(jì)算和驗(yàn)證過程。

迭代計(jì)算。最后,把不同維組合計(jì)算出的異常點(diǎn)進(jìn)行綜合,可以得到該數(shù)據(jù)集所有的異常點(diǎn)。對(duì)于C4,最后綜合得到的異常點(diǎn)在各個(gè)維度上的取值。

后期分析。該階段需要對(duì)比計(jì)算結(jié)果和最初定義的挖掘目標(biāo),根據(jù)異常點(diǎn)的數(shù)據(jù)特性解釋其異常原因,并且總結(jié)出那些潛在的知識(shí)和規(guī)律。表2列出了C4群組中所有的異常點(diǎn)及其表現(xiàn),對(duì)比異常點(diǎn)和該維度上的均值可以得到一個(gè)簡(jiǎn)單的分析結(jié)果。對(duì)于局部異常點(diǎn),即表2中列出的客戶8224292、8216612和8223969,較難對(duì)其做出一個(gè)直觀合理的解釋,但在某些情況下,局部異常點(diǎn)恰恰是那些潛在的、被忽視的數(shù)據(jù)或者線索。例如8216612客戶,可以看到他的資金變動(dòng)次數(shù)遠(yuǎn)高于均值,而其他對(duì)應(yīng)的股票操作都接近均值,因此,不能排除其頻繁通過股市進(jìn)行資本操作甚至是風(fēng)險(xiǎn)或者非法操作,而這些需要券商作進(jìn)一步的分析。通過對(duì)異常點(diǎn)的分析,券商可以深入了解這些客戶的交易行為特征,為開展精細(xì)化營(yíng)銷提供科學(xué)依據(jù)。

綜上,異常點(diǎn)挖掘一直以來(lái)得到眾多學(xué)者的關(guān)注,但現(xiàn)有的研究過多關(guān)注算法及其優(yōu)化方面,而對(duì)其在具體行業(yè)的應(yīng)用探討不夠。本文在論述

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論