股票權(quán)證基于分類模型的升跌趨勢預測_第1頁
股票權(quán)證基于分類模型的升跌趨勢預測_第2頁
股票權(quán)證基于分類模型的升跌趨勢預測_第3頁
股票權(quán)證基于分類模型的升跌趨勢預測_第4頁
股票權(quán)證基于分類模型的升跌趨勢預測_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

中山大學

碩士學位論文

股票權(quán)證基于分類模型的升跌趨勢預測

姓名:蘇醒僑

申請學位級別:碩士

專業(yè):應用數(shù)學

指導教師:張磊;姚正安

20060428

股票權(quán)證基于分類模型的升跌趨勢預測

專業(yè):應用數(shù)學

碩士生:蘇醒僑

指導教師:張磊副教授,姚正安教授

摘要

股票權(quán)證(以股票為標的物的權(quán)證)作為金融衍生物的一種,傳統(tǒng)的分析預

測方式是基于數(shù)量經(jīng)濟學上的布萊克.斯科爾斯(Black—Scholes)(1973)期權(quán)定

價公式構(gòu)造預測模型.但該定價公式不符合我國資本市場的實際情況:我國的證

券市場沒有賣空機制,該公式的前提假設條件不能滿足,故強制性的將

B1ack-Scho1eS期權(quán)定價公式應用于我國的權(quán)證預測,效果往往差強人意.本

而屢據(jù)挖掘的方法,在對股票權(quán)證的真實歷史交易信息進行聚類處理的基礎(chǔ)上,

應用相關(guān)的分類學習算法,最終建立權(quán)證波動趨勢(升,跌)的預測模型.用真

實的股票權(quán)證交易歷史數(shù)據(jù)對該模型進行檢測,預測效果令人滿意.

本文的主要工作主要包括兩個部分:首先是針對原權(quán)證交易歷史數(shù)據(jù)各列屬

性為連續(xù)值的情況,本文利用聚類算法SOM(自組織映射算法),對各屬性列分

別聚類,很好將連續(xù)值轉(zhuǎn)換為狀態(tài)值,而且這樣的聚類處理減少了連續(xù)值離散化

過程中的信息損失.

權(quán)證波動趨勢(升,跌)的預測作為一個分類問題,本文選用了NaiveBaye

sian

Model+AdaBoostAlgorithm方法構(gòu)造分類器.其中NaiveBayesianMode

1(樸素

貝葉斯模型)作為弱分類器,應用AdaB。ost算法來訓練加強,以構(gòu)造強分類器.最

終構(gòu)造的強分類器對股票權(quán)證的波動趨勢(升,跌)預測效果令人滿意.

關(guān)鍵詞:權(quán)證,自組織映射算法,樸素貝葉斯分類器,AdaBoost學習算法

Forecastingstockwarrantprice^risi

ngorfa11ing

withclassification

model

Major:App1iedMathem

atics

Name:SuXingqiao

Supervisor:ZhangLei.YaoZheng'

an

Abstract

Asafinancia1derivative,stockwarrantisawrittencertifica

tethatgivesthe

holdertherighttopurchasesharesofastockforaspecifiedpr

icewithina

specifiedperiodoftime.MostofClassicaIModelsandtechniques

forwarrant

price'Sanalysisandpredictionarerootedintheoptionpricingm

odeldeveioped

byFischerBlackandMyronScholesinl973.Unfortunately,suchm

ode1isnot

satisfiedwiththeactualfactofthecapital

marketinourcountry:inthe

conditionoflackingshortsdfingmechanisminoursecuritiesmar

ket,the

preconditionoftheBlack&ScholesModelcouldn^besatisfi

ed.Forthisreason,,

suchso1utioncouldn,treachapreciseresu1tinourwarrantprice'S

prediction.

Thispaperappfiedsomealgorithmsindataminingtobui1dthemod

alforstock

warrantprice'SrisingorMiringprediction.Wefirstemployedac1ustering

a1gorithinforthepre?processingoftherea1stockwarran

ts'historicalexchange

data.Andthen,weusedsomec1assificationmode1sindatamining

thefinalpredictionmod

e1.

Themode1promotedinthispaperwastes

ea

h二¥nged?WiW居屋"上tg「df?!璦s

tingabifitythroughthe

testingprocess.

Keywords:Stockwarrant,S0Ma1gorithm,NaiveBayesianMod乩Ad

aBoost

ii

第一章引言

本章首先介紹本文的研究背景,然后進一步闡述本文的研究范圍及研究意

義,最后介紹本文的主要內(nèi)容及其體系架構(gòu).

1.1背景介紹

權(quán)證是國際證券市場上的一種最初級的金融衍生物,它是由發(fā)行人發(fā)行的,

能夠按照特定價格在特定時間內(nèi)購買或賣出一定數(shù)量的標的證券的選擇權(quán)憑

證.標的證券可以是股票,基金,債券,一籃子股票,貨幣等投資品種.以股票

為標的證券的權(quán)證簡稱為股票權(quán)證.

股票權(quán)證本質(zhì)上是i種股票期權(quán),它反映了權(quán)證發(fā)行人與持有人之間的i種

契約關(guān)系,持有人以一定代價(交付權(quán)利金)從發(fā)行人那里獲取一個權(quán)利,即持

有人可以在未來某一日期或特定期間內(nèi),以約定好的價格向權(quán)證發(fā)行人購買或出

售一定數(shù)量的資產(chǎn).在權(quán)證的存續(xù)期間,權(quán)證持有人可以在證券交易市場轉(zhuǎn)售權(quán)

證.而根據(jù)權(quán)證具體的供求關(guān)系和投資價值,權(quán)證的價格不斷波動.

權(quán)證持有人獲得的是一種權(quán)利,而不是責任,當履約行權(quán)對持有人不利時,

持有人可以取消行權(quán)(放棄權(quán)利).是否行權(quán)完全取決于權(quán)證的持有人,權(quán)證持

有人決定是否使用權(quán)證賦予的權(quán)利的主要根據(jù)是“未來某個時刻“交易標的物的

市場價格.

按照履約行權(quán)的期限可以把權(quán)證分為美式權(quán)證,歐式權(quán)證及百慕大權(quán)證.美

式權(quán)證的持有人在權(quán)證到期日前的任何交易時間均可行使其權(quán)利,而歐式權(quán)證持

有人只可以在權(quán)證到期FI當天行使其權(quán)利.美式權(quán)證雖然較為靈活和方便,但相

應的權(quán)利金是十分高昂的,而歐式期權(quán)的權(quán)利金較低.百慕大權(quán)證是行權(quán)方式介

于歐式權(quán)證和美式權(quán)證之間的權(quán)證,權(quán)證可以在事先指定的存續(xù)期內(nèi)的若干個

交易H行權(quán).目前國際上大部分的權(quán)證交易都是歐式權(quán)證.我國現(xiàn)行的股票權(quán)證

交易也以歐式權(quán)證為主.

根據(jù)權(quán)利的行使方向,權(quán)證又可以分為認股權(quán)證(認購權(quán)證)和認沽權(quán)證,認

購權(quán)證持有人有權(quán)按照約定價格在特定期限內(nèi)或到期日向發(fā)行人買入標的證券,

認沽權(quán)證持有人則有權(quán)按約定價格在特定期限或到期日向發(fā)行人賣出標的證券.

我國股票權(quán)證市場的發(fā)展比較曲折:1992年6月,大飛樂配股權(quán)證作為我國

第一個權(quán)證產(chǎn)品在滬市推出,此后相繼有十兒種權(quán)證在滬深證券交易所上市交

易.但是到了1996年年底,管理層出于“抑制過度投機”的原因,取消了所有的

權(quán)證交易.直至2005年6月14日,上海交易所制定《上海證券交易所權(quán)證業(yè)務管

理暫行辦法》,在被叫停九年之后,權(quán)證交易在國內(nèi)證券市場重新啟動.2005年8

月22日,寶鋼權(quán)證作為證券市場恢復權(quán)證交易的第一個權(quán)證產(chǎn)品終于面世.其后

多個權(quán)證產(chǎn)品陸續(xù)推出:武鋼權(quán)證,鞍鋼權(quán)證,萬科權(quán)證,白云機場權(quán)證……

本文主要討論的對象是歐式股票權(quán)證.其中相關(guān)實驗所用的權(quán)證交易數(shù)據(jù)是

來自寶鋼權(quán)證,萬科權(quán)證和武鋼權(quán)證,這三個權(quán)證產(chǎn)品簡介如下:

寶鋼JTB1580000

基本概況:

發(fā)行人:寶鋼集團有限公司上市地點:上海證券交易所

標的證券:G寶鋼600019權(quán)證類型;認購權(quán)證

行權(quán)代碼:582000行權(quán)簡稱:ES060830

發(fā)行數(shù)量:38770萬份權(quán)證余額:38770萬份(截止2005.12.8)

行權(quán)方式:歐式行權(quán)價格:4.50

行權(quán)比例:1結(jié)算方式:實物

上市日期:2005年8月22日

存續(xù)期間:2005年8月18H——2006年8月30H

行權(quán)期問:2006年8月30日

到期日期:2006年8月30日

萬科HRP1038001

基本概況:

發(fā)行人:華潤股份有限公司上市地點:深圳證券交易所

標的證券:G萬科A000002權(quán)證類型:認沽權(quán)證

發(fā)行數(shù)量:214028.6008萬份權(quán)證余額:214028.6008萬份

(截止2005.12.8)

行權(quán)方式:百幕大式行權(quán)價格:3.73

行權(quán)比例:1結(jié)算方式:實物

上市H期:2005年12月5H

存續(xù)期問:2005年12月5日——2006年9月4H

行權(quán)期間:2006年8月29日一一2006年9月4日

到期日期:2006年9月4日

武鋼】TB1580001

基本概況:

發(fā)行人:武漢鋼鐵(集團)公司上市地點:上海證券交易所

標的證券:G武鋼600005權(quán)證類型:認購權(quán)證

行權(quán)代碼:582001行權(quán)簡稱:ES061122

發(fā)行數(shù)量:47400萬份權(quán)證余額:116460.3762萬份

(截止2005.12.8)

行權(quán)方式:歐式行權(quán)價格:2.90

行權(quán)比例:1結(jié)算方式:實物

上市日期:2005年11月23日

存續(xù)期問:2005年11月23日——2006年11月22日

行權(quán)期間:2006年11月16日“一2006年11月22口

到期H期:2006年】1月22EI

股票權(quán)證作為證券市場上的投資品種,其價值主要受以卜幾方面因素的影

響,下面以認股權(quán)證為例具體說明:

認股權(quán)證事實上可以看成是一份看漲期權(quán),當權(quán)證執(zhí)行價格不變時,認股權(quán)

證的價值隨股票價格的上漲而上漲.其價值上限就是標的股票價格,價值下限是

執(zhí)行認股權(quán)證時的實際股價減去執(zhí)行價格.認股權(quán)證的價值包括兩個方面:當股

票的實際價格高于執(zhí)行價格時.,投資者只要認購股票并在市場出售,即可獲得之

間的價差,此稱為“執(zhí)行價值”;另一方面,只要認股權(quán)證尚未到期,則標的股

票價格有進一步上漲的空間.即為“時間價值

影響認股權(quán)證價值的因素主要有以F五個:

-是標的股價的波動率.它是認股權(quán)證價值最重要的決定因素.股價的波動

性可以是根據(jù)標的股票過去一段時間內(nèi)的價格信息所計算出來的報酬率變異

性.波動性越大,代表股價的漲幅越高,同時認股權(quán)證的獲利機會也就越高.因

此,標的股價的波動率與認股權(quán)證呈正向關(guān)系.

二是標的股價.認股權(quán)證與其標的股價同步漲跌,因為執(zhí)行價格的收益來自

標的股價與執(zhí)行價格的差距,因此標的股價越高,認股權(quán)證的價值也越高.

三是執(zhí)行價格.與標的股價相反,執(zhí)行價格與認股權(quán)證的價值呈反向關(guān)系.

四是到期期限.由于認股權(quán)證存在時間價值,愈接近到期日,認股權(quán)證的獲

利機會愈少,因此認股權(quán)證的價值也愈少.

五是無風險利率.無風險利率通常用來衡量某項投資所用資金的機會成本,

也即是資金不用于這項投資而用于其他投資所能獲得的最高收益.若投資者直接

購買標的股票,必須支付全部的股價,當無風險利率越高時,資金的機會成本越

高.若購買認股權(quán)證,則只需支付少量的保證金,這優(yōu)于直接購買股票.因此,

無風險利率越高,認股權(quán)證的價值越高.

本論文應用數(shù)據(jù)挖掘的相關(guān)算法,首先對股票權(quán)證的真實歷史交易數(shù)據(jù)各屬

性列分別進行聚類處理,將各屬性列的值離散化成狀態(tài)值.進??步應用數(shù)據(jù)挖掘

的分類算法,最終建立權(quán)證波動趨勢(升,跌)的分類預測模型.

1.2本文工作及其意義

作為證券市場上一種活躍的金融衍生物投資產(chǎn)品,權(quán)證的價格預測問題一直

頗受關(guān)注.相關(guān)的研究學者,都試圖通過分析權(quán)證市場的歷史數(shù)據(jù),價格趨勢和

各種指標,從中發(fā)現(xiàn)最能刻畫在未來某個階段權(quán)證產(chǎn)品價格走勢的規(guī)律.針對此

問題,經(jīng)濟學家和數(shù)學家提出過很多不同的模型,其中RobertC.Merton,

Fischer

B1ack和MyronScho1es在1973年提出了Black.Scholes歐式看漲期權(quán)定

價公其

[111,是目前世界上最流行的期權(quán)定價公式.而權(quán)證作為特殊的期權(quán)產(chǎn)品,也適

用于該定價模型.作為第一個成功的期權(quán)定價公式,該公式考慮了期權(quán)價格與上

述五個因素的關(guān)系.其具體形式如下:

c(E)=S'W(吐)一魯。s(d:)(1—

1)

di=礦一竽S—E—(1—2)

+r

iff號(13)

式中,s為標的證券目前價格,E為協(xié)定價格,c陋)為期權(quán)價格,e為自

然對數(shù)的底2.71828;t為到期日以前的剩余時間,以年為單位表示;r為無風險

的市場年利率,用小數(shù)表示;In為自然對數(shù);盯為即期價格的波動幅度;N“)為

對于給定自變量d,服從標準正態(tài)分布S(0,1)的概率,其數(shù)值可從正態(tài)分布表中

查得.

對于歐式看跌期權(quán)的價格,可利用看漲期權(quán)與看跌期權(quán)之間的平價關(guān)系近似

地求得.其計算公式為:

P(e)=E。e1…IV(―d2)-S,lV(一面)(1一一4)

目前國外很多的期權(quán)預測模型都是基于B1ack-Scho1es定價公式而建立

但B1acks

一oles模型只給出期權(quán)價格的表達式,卻沒有回答怎樣求解該

于B1ack

-:ho1es模型的求解問題,常用的是數(shù)值解法,包括:構(gòu)建微

數(shù)

優(yōu)21

,31;MonteCarlo模擬法求解[4—7];最小二乘法

I[8191

聆4L,

cKc

有aes模型是基于一定的假設條件才成立的,與目前我國證券市場的

一?)05年8月22日寶鋼權(quán)證在上海交易所上市,知名券商

國泰君安通過B1ack—Scho1es模型將寶鋼權(quán)證上市價格定為0.688元,

坐滿黃東當天早市以1.263元漲停開盤,打開交易后不到兩分鐘又漲停,當日以

1.263元收盤,和國泰君安預測的理論價格相差甚遠.這是因為B1ack—Scho

自4濟典式不符合我國證券市場的實際情況:我國沒有賣空機制,

B1ack—Scho1es模型的前提假設條件不滿足.實際上,我國目前的權(quán)證產(chǎn)品的

能介值遠高于其理論價值.

數(shù)據(jù)挖掘領(lǐng)域中的許多學者對權(quán)證價格預測問題也十分關(guān)注,結(jié)合一定的

金融背景知識,眾多數(shù)據(jù)挖掘算法在該問題的應用上,取得不錯的效果.現(xiàn)階段

應用于權(quán)證價格預測的數(shù)據(jù)挖掘方法主要有:神經(jīng)網(wǎng)絡算法(Artificia1neura1

networks)[10—121,遺傳算法(GeneticA1gorithms)

[13],支持向量機(Supportvector

Machines)Cl4,15],於些算法的應用取得了一定的效果.

本文主要的工作是應用數(shù)據(jù)挖掘的相關(guān)算法,構(gòu)建分類模型,對歐式股票

權(quán)證的升跌趨勢進行預測.具體的處理方法如下:

通過對權(quán)證市場的歷史數(shù)據(jù),價格趨勢和各種指標屬性的離散化處理,分析,

應用分類器技術(shù)預測權(quán)證產(chǎn)品的升跌趨勢.在數(shù)據(jù)預處理的基礎(chǔ)上,本文利用聚

類算法SOM(自組織映射網(wǎng)絡)對權(quán)證產(chǎn)品的各個屬性分別獨立聚類,很好的

解決了連續(xù)值轉(zhuǎn)換為離散值的問題,而且該聚類方法很好的減少了離散化過程中

的信息損失.權(quán)證波動趨勢(升,跌)的預測作為一個分類問題,本文選用了

NaiveBayesianMode1+AdaBoostA1gorithm構(gòu)建最終的分類器.其中Naive

BayesianMode1(樸素貝葉斯模型)作為弱分類器,用機器學習方面的AdaBoost

算法來訓練加強,以構(gòu)造強分類器.本文應用此實驗方案對我國證券市場上的三

個權(quán)證產(chǎn)品的真實交易數(shù)據(jù)進行分類預測,實驗結(jié)果表明,該方案能很好的處理

股票權(quán)證的波動趨勢預測問題.

1.3本文結(jié)構(gòu)

本文接下來的部分安排如下:第二章介紹數(shù)據(jù)挖掘的相關(guān)技術(shù),其中重點介

紹應用于本文的聚類,分類算法.第三章重點介紹機器學習方面的AdaB。。st算

法,主要介紹該算法將弱分類器訓練轉(zhuǎn)化為強分類器的相關(guān)思想.第四章將具體

介紹本文構(gòu)建的股票權(quán)證升跌趨勢分類預測模型:以S0M算法將各屬性列的連

續(xù)值離散化,在此基礎(chǔ)上,應用NaiveBayesianMode1+AdaBoo

知媲野箍奧膾證的升跌趨勢進行預測.本文的第五章介紹上述模型對我國證

券市場上的三個權(quán)證產(chǎn)品的真實交易數(shù)據(jù)進行分類預測的相關(guān)結(jié)果,通過具體的

實驗結(jié)果檢驗模型的可靠性.第六章,總結(jié)全文的工作,提出進一步工作的想法.

第二章數(shù)據(jù)挖掘概述

在具體介紹股票權(quán)證分類預測模型之前,我們先介紹相關(guān)的數(shù)據(jù)挖掘知識及

本文用到的相關(guān)算法.

2.1概述

數(shù)據(jù)挖掘(DataMining)是近年來隨著人工智能、機器學習和數(shù)據(jù)庫技術(shù)的

發(fā)展而出現(xiàn)的一門新興的技術(shù),它主要利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型

和數(shù)據(jù)間關(guān)系,提取隱含的但有用的信息和知識的過程【16】.

數(shù)據(jù)挖掘起源于二十世紀六十年代開始的統(tǒng)計分析和神經(jīng)網(wǎng)絡研究.在不斷

的發(fā)展過程中,數(shù)據(jù)挖掘充分融合了數(shù)據(jù)庫、人工智能、機器學習、統(tǒng)計學等多

個領(lǐng)域的理論和技術(shù).20世紀80年代末出現(xiàn)了一個新的術(shù)語,即數(shù)據(jù)庫中的知

識發(fā)現(xiàn),簡稱KDD(KnowledgeDiscoveryinDatabase).KDD是從數(shù)據(jù)

中發(fā)現(xiàn)

模大或描述數(shù)據(jù)間的聯(lián)系的過程,其主要步驟包括數(shù)據(jù)選擇、數(shù)據(jù)預處理、數(shù)據(jù)

轉(zhuǎn)換、數(shù)據(jù)挖掘、結(jié)果解釋及評估1171,如圖2—1所示.

圖2—1KDD過程

其中數(shù)據(jù)挖掘只是KDDH」的一個階段,卻是最重要的一個階段,因為它發(fā)

現(xiàn)隱藏的知識.人們往往不加區(qū)別地使用這兩個概念,一般在工程應用領(lǐng)域多稱

為數(shù)據(jù)挖掘,而在研究領(lǐng)域則多稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn).因此,在本文以下部

分將不再區(qū)分數(shù)據(jù)挖掘與數(shù)據(jù)庫中的知識發(fā)現(xiàn)這兩個概念.

目前數(shù)據(jù)挖掘已經(jīng)廣泛地應用于各種領(lǐng)域:市場分析方面的數(shù)據(jù)挖掘應用

[18],生物科學界針對蛋白質(zhì)和DNA序列分析的數(shù)據(jù)挖掘應用【19】,金融領(lǐng)域的

數(shù)據(jù)挖掘應用[20——22],財務領(lǐng)域的數(shù)據(jù)挖掘應用【2

31

作為一個知識體系,數(shù)據(jù)挖掘比較典型的方法有關(guān)聯(lián)分析、序列模式分析、

分類分析、聚類分析等.各種方法簡單介紹如下:

①關(guān)聯(lián)分析(AssociationAn

a&sis)

關(guān)聯(lián)分析,即利用關(guān)聯(lián)規(guī)則進行數(shù)據(jù)挖掘.關(guān)聯(lián)分析的目的是挖掘發(fā)現(xiàn)存在

于大量數(shù)據(jù)項集之間有趣的關(guān)聯(lián)或相關(guān)關(guān)系,它能發(fā)現(xiàn)數(shù)據(jù)庫中諸如“同一次的

超市購物過程中,如果顧客購買牛奶,他同時也購買面包(具體是什么類型的面

包)的概率有多大”這類的問題,常用的算法包括Apri。ri算法【24】,頻繁模式

長[751,多層關(guān)聯(lián)規(guī)則[26,271,多維關(guān)聯(lián)規(guī)則

【28】.

⑦序列模式分析(SequencePattern

Analysis)

序列模式分析主要應用于挖掘時間變化過程中,研究對象的變化規(guī)律或趨

勢,主要的一些應用包括:金融市場的分析預測,動態(tài)產(chǎn)品的加工過程,科學實

驗等.其研究內(nèi)容主要包括:趨勢分析,時序分析中的相似度搜索【29】,序列模

式和循環(huán)模式挖掘[301.

③分類分析(Classification

Analysis)

設有一個數(shù)據(jù)庫和一組具有不同特征的類別(標記),該數(shù)據(jù)庫中的每一個記

錄都賦予一個類別的標記,這樣的數(shù)據(jù)庫稱為示例數(shù)據(jù)庫或訓練集.分類分析就

是通過分析示例數(shù)據(jù)庫中的數(shù)據(jù),為每個類別做出準確的描述或建立分析模型或

挖掘出分類規(guī)則,然后用這個分類規(guī)則對其它數(shù)據(jù)庫中的記錄進行分類.常用的

分類算法包括:決策樹算法【31】,貝葉斯分類算法[321,神經(jīng)網(wǎng)絡【32】,K一

嗷察類算法【33】,遺傳算法【33】等.

④聚類分析(ClusteringAna

lysis)

聚類分析輸入的是一組未分類記錄,并且這些記錄應分成幾類事先也不知

道,通過分析數(shù)據(jù)庫中的記錄數(shù)據(jù),根據(jù)一定的分類規(guī)則,合理地劃分記錄集合,

確定每個記錄所屬類別.它所采用的分類規(guī)則是由聚類分析工具決定的.采用不

同的聚類方法,對于相同的記錄集合可能有不同的劃分結(jié)果.常用的聚類算法包

括:k一均值【34],k—中心點[351,DBSCAN[36],STING[37],

SOM^音施基/知網(wǎng)絡)[39]等.

針對本文實驗的具體應用,下面將具體介紹聚類算法SOM(自組織映射網(wǎng)

絡)及分類算法貝葉斯分類模型.

2.2聚類算法SOM

自組織映射網(wǎng)絡SOM(Seif—0rganizingMapsl是由芬蘭赫爾

辛基大學神經(jīng)

網(wǎng)絡專家Kohonen教授在1981年提出的【40],這種網(wǎng)絡模擬大腦神經(jīng)系統(tǒng)自

線特征映射的功能,是一種競爭式的學習網(wǎng)絡,在學習中能無監(jiān)督地進行自組織

學習.

SOM的網(wǎng)絡拓撲結(jié)構(gòu)包含輸入層和輸出層,輸出層也稱為映射層.輸入層

由IV個神經(jīng)元組成,競爭層由膳個輸出神經(jīng)元組成,且形成一個二維陣列.輸

入層與競爭層各神經(jīng)元之間實現(xiàn)全互連接,競爭層之間實行側(cè)向連接.SOM網(wǎng)

絡的主要特性為:1)自組織排序性質(zhì),即拓撲保序能力;2)自組織概率分布性

質(zhì).其網(wǎng)絡拓撲結(jié)構(gòu)如圖2-2所示:

輸出層

輸入層

圖2—2SOM的網(wǎng)絡拓撲結(jié)構(gòu)

SOM網(wǎng)絡首先把所有的映射結(jié)點(輸出結(jié)點)向量用小的隨機值進行初始

化,然后計算每一個實際輸入向量同輸出二維陣列中所有的映射結(jié)點的歐氏距

離,距離最小的那一個映射結(jié)點作為獲勝結(jié)點(WinningNode),把該輸入向量

映射到獲勝結(jié)點,并調(diào)整該獲勝結(jié)點向量的權(quán)值,同時按比例調(diào)整獲勝結(jié)點鄰域

內(nèi)結(jié)點的權(quán)值,把所有的輸入向量提交給網(wǎng)絡進行訓練(通常每個輸入向量要提

交若干次),相類似的輸入向量被映射到輸出層中臨近的區(qū)域,最后得到輸入向

量的聚類,同時把高維的輸入向量空間非線性地投射到二維的映射網(wǎng)絡上,該網(wǎng)

絡的拓撲結(jié)構(gòu)反映了輸入向量的分布情況.算法的具體步驟如下:

設網(wǎng)絡的輸入層有W個輸入向量,維數(shù)為廳,記為:X(f)

k,屯t,…,%t,ER”,

t;1,2....IV.輸出層有M個神經(jīng)元為A.,,=1,2,M.輸入層向量與輸

出層

神經(jīng)元月,之間的連接權(quán)值向量記為:%=(%。,%:,…,%),

其電,0加做各訓曲過程如下%?

(1)初始化.

將權(quán)值向量%;(葉。,葉:,…,%)(,=1,2,M)

化,耳攜孵區(qū)(曬蝌P讖臺.,噥).設置初始學習速率叩

初翦焉由余必扇艮正0。)),

區(qū)域函數(shù)N90)具體指以獲勝

神經(jīng)

元g為中心,且包含若干其它神經(jīng)元的區(qū)域范圍.一般的,NO)的值為受影響

鄰域_所_包__含_的神經(jīng)呼,啊詢設置網(wǎng)絡總的訓練次數(shù)為

最后對^izzt

P“2,.口初始極值向量幗■歸一化,

有:確

日日CZ1,

科尸禹王扇鐫篇高小

(2)

從輸虻

N.Z,

(3)尋求獲勝元

上算訓竄羊本附與權(quán)值向量之間的距

離城.??,IV

d,=oic七,一礦川—

以距離最小的輸月c弊,蛭元面滿足:]“2

tg=盯gm如瞄j】,,=l,4,M(24)

=1,z,...,Nf

從而實現(xiàn)神經(jīng)元的競爭過程.

(4)網(wǎng)絡更新

對獲勝神經(jīng)元的拓撲鄰域以(f)內(nèi)的所有興奮神經(jīng)元更新其權(quán)值向量:

嘩川=形哪)即氓一一

HO\7(f)<l{r]Otj表陋拉網(wǎng)營訓絢?汽:習號率,這一調(diào)整實現(xiàn)了神經(jīng)

合作和更新過程.

(5)更新學習速率和鄰域函數(shù),歸一化權(quán)值向量.

叩o,2叩c。,(,一*事)

其中,7(0)是初始學習速(,2為甘前網(wǎng)絡訓&},T為開始設定的網(wǎng)絡訓練總

次數(shù).

NAt)2叫以c南(,一釗

其中刀訂卜]表示對(X吻整一以,■?1v,0)

的初始值.,1.r、,匕匕,

矽=^=矗核等%%?口

(6)令訓練次數(shù)t=t+1,返回步驟(2),直至t;T為止.

構(gòu)建S0M網(wǎng)絡的目的是用低維目標空間的點表示高維原始空間的點,同時

在高維到低維的映射過程中盡可能保持原始樣本空間的拓撲結(jié)構(gòu).S0M網(wǎng)絡不

需要存儲大量樣本的空間,所以具有比一般的多維尺度變化算法低得多的空間復

雜性,很好的提高了算法的性能.S0M網(wǎng)絡還具備將高維到低維的映射可視化

特征,這也是其得到廣泛應用的一個原因.目前,S0M網(wǎng)絡不僅僅應用于聚類,

在分類,機械控制,語音識別,向量量化等領(lǐng)域都有廣泛的應用[401.

2.3樸素貝葉斯分類模型

貝葉斯分類模型是一種基于統(tǒng)計學理論的分類方法.主要應用于預測樣本屬

于一個特定類別的概率等問題.對于樣本分類預測問題,我們一般是基于樣本各

屬性的信息做分類決策.要是我們把分類模型簡化,假設每個屬性對樣本分類結(jié)

果的影響獨立于其它屬性,這可以大大的減輕計算的復雜度.基于對樣本屬性相

互獨立的假設,是樸素貝葉斯分類模型(NaiveBayesianC1assifie

r)的主要特征.

樸素貝葉斯分類器fNaiveBayesianclassifier)是貝葉斯分

公認成那簡徵而相M概率分類方法,其性能可與決策樹、神經(jīng)網(wǎng)絡等算法相

媲美.即使應用于大型數(shù)據(jù)庫,樸素貝葉斯分類器也表現(xiàn)出高準確率和高速度

[41][42].

貝葉斯分類模型的理論主要源于貝葉斯定理,下面先對貝葉斯定理作簡單的

介紹.

2.3.1貝葉斯定理

設u={x,c}是隨機變量的有限集,其中x={墨,X:,

間的氤2變馨鰲我譙森穆?lián)颖居衝維的屬性,具體可以用一個n維特征向

量表示:協(xié),工:,…,9.下文為了表述方便,仍以記號X表示一個數(shù)據(jù)樣本,即

z-怯,而,…,*).C={C1,C:,Co)是類標的集合,標志樣本空間可能

的類別,

類別數(shù)目是1C1狂|母r類問卑T我們哂俞定F(君鈦尸1S

s七,即給定

數(shù)據(jù)樣本x=",屯,Irjr%丁樣本土屬于。上甘歸由凱旺腕包里可知:

其中P(c,Ix)稱為后驗riorprobabi1ity),即工

x2,...?矗)可能屬

于c,類的概率.相應的,PJ的先驗概率(priorprobab

ility),P(XIcJ)

稱為類條件概率.上述貝葉斯概率公式給出了一種由P曖),P(XIc』),P(c,)

1工、方法.

三個概率值表示后驗概率

y)

2.3.2樸素貝葉斯分類模型

樸素貝葉斯分類模型的具體思想如F:

(1)最大后驗概率原則

給定一個數(shù)據(jù)樣本x=能,X2,...?9,該樣本所屬類別未知,根據(jù)樸素貝葉

斯分類模型的規(guī)則,該樣本丑=怯,而,…,”將被判為屬于具有最大后驗概率的

類.具體用符號表示該思想即為:樸素貝葉斯分類模型將樣本工=",而,…,’)判

為屬于c類,當且僅當:

(2)根據(jù)貝葉

于所有七類都有相同的值,所以可以看作常數(shù).為求得m哆{Psi工)),我們只

需求得,)過對訓

練集(“c

se分析求得,具體可以表示為:P

桂赤6個亞,詈木訓練集袁琳平|練集中屬于Z/i

(3止條件獨立%的應用)<------五匕

對于具有眾多屬性的數(shù)據(jù)集合5,1維數(shù)京樣本,n值比較大)'直套寸

P(XIc,),1s,s七的計算費銷可能非常大.應用每華性對樣本分類結(jié)果評——?

響獨立于q屬性的假igu屬性「J相獨立,孑|大|

P暉1c』)=P(協(xié)而

其中p“耀至u,

具體

P“Ic,):翌。S.(2—12)

其中3』表示訓練集中屬于?!活悩颖镜膫€數(shù),S./i表示第c,類樣本中第f個屬性取

為Xi的樣本數(shù)目.

(4)連續(xù)值屬性的處理

由上述的介紹可知,如果屬性Xi(1弓fs訂)的值域是有限的離散點,我們

可以計算出所有的P@Ic,)(1sfs以,Is,sk)的值.若屬性置是連續(xù)值屬

性,

我們需要對該屬性的值進行處理.最簡單的處理方法當然是將屬性值離散化.

(5)樣本*=",X2....%)的分類結(jié)果

對于給定的所屬類別未知的數(shù)據(jù)樣本X=",工:,…,9,分別計算

P(XIcj)*P(cj),1s,s七.根據(jù)最大后驗概率原則,樣本x={墨,x2,…,

')被判

定屬于c;類,當且僅當:

P(zlci)oP(q))—e(xlc,)'P(c,),1s,s七且,

#i(2---13)

以上即為樸素貝葉斯分類模型的工作步驟.從理論上講,樸素貝葉斯分類模

型較之其它分類算法有最小的分錯率[41][421.除了具體的分類應用,樸素貝葉

斯分類模型還可以用來為其它分類算法提供理論上的判定,例如許多神經(jīng)網(wǎng)絡和

曲線擬合算法也以最大后驗概率為分類判定指標.

2.4本章小結(jié)

本章重點介紹了數(shù)據(jù)挖掘技術(shù)的兩個算法,分別是SOM(自組織映射網(wǎng)絡)

聚類算法及樸素貝葉斯分類模型.這兩種算法在各自的應用領(lǐng)域獨具優(yōu)點:S0M

網(wǎng)絡在高維到低維的映射過程中盡可能保持原始樣本空間的拓撲結(jié)構(gòu),并且有很

好的計算性能:樸素貝葉斯分類器(NaiveBayesianc1assifier)

弟林罩翁玲檄的概率分類方法.正是基于兩者的優(yōu)點,本文在構(gòu)建權(quán)證升跌趨勢

分類預測模型中對兩者加以結(jié)合應用.

第三章AdaBoost算法

本章將重點介紹AdaBoost算法,它是機器學習q0Boosting系列學

表算也方楚聯(lián)彳%。ost算法用于提高學習算法的精確度,它以弱分類器為基礎(chǔ),通過

多輪針對訓練集的循環(huán)學習訓練,構(gòu)造一個預測函數(shù)系列,然后以一定的方式將

它們組合成一個預測函數(shù),從而得到分類性能更優(yōu)的強分類器.下面將首先介紹

Boosting學習方法的主要思想,在此基礎(chǔ)上再詳細介紹AdaBoos

t算法.

3.1Boosting學習方法

Boosting算法的主要思想是通過連接一些簡單分類器構(gòu)建一個性能較之所

有這些簡單分類器更優(yōu)的組合分類器.設啊,也,…,八都是一些簡單分類器,我們

通過結(jié)合所有這些簡單分類器得到一個組合分類器:

,o)2Zq~。)(3—1)

上式中,q表示對應的簡單分類器-f在組合分類器中的權(quán)重系數(shù).上式中的

q,鬼0)0宣fsf)都是通過Boosting算法的訓練過程得到.Boosti

ng算法的組合

分類器構(gòu)造過程如圖3—1所示:

玩忽;忽

S3—1Boosting算法的訓練過程

Boosting算法思想來源于PAC(Probab1yApproxima

telycolled)學習理論4L

十年代,Va1iant在PAC學習模型中提出了強學習算法與弱學習算法的概念【43

1:

強學習算法:樣本集合s包含n個數(shù)據(jù)點“,y1),(b,丫2),…,阮,兒),

其中

而(f=1,2,…彈)是按照某種固定但未知的分布D@)隨機獨立抽取的,

兒=,甑).其中,屬于某個已知的布爾函數(shù)集,,即

弘d{—1,+q,f=1'2,...?1.若對任意的xED,任意的,EF,任意的

i

OSS,6s專,根據(jù)學習算法生成的估計函數(shù)丘滿足腫or(h,,)空盛(-。)w,0))

的概率大于1一6,并且學習算法的運

“硒J晦關(guān)凝成多項式關(guān)系,則我們

稱該F0

弱學習算法:其定義與強學習算法定義相似,只需把上面s,6的任意性改為

存在性即可.

隨后,Kearns和Va1iant提出了弱學習算法與強學習算法的等價性問題,

能否用PAC模型中的一個弱學習算法提升為一個具有任意精度的強學習算法.若

兩者的確等價,那么只要找到一個比隨機猜測略好的弱學習算法就可以直接將其

提升為強學習算法,而不必直接去找很難獲得的強學習算法.1990年,Schapire

通過構(gòu)造一個多項式級的算法對上述等價性問題給出了肯定的證明,其證明中的

構(gòu)造算法就是最初的Boosting算法.該算法可以將弱分類器轉(zhuǎn)化為強分類器.其

后Freund提出了一種效率更高的通過重取樣或過濾運作的Boost.By-Maj

ority算

法.但早期的Boosting算法在解決實際問題時存在較多的不足:組合分類器廠0)

的進一步改善需要Boosting過程更多的迭代:需要事先知道弱學習算法學習正

確率的下限,這在實際中往往很難實現(xiàn).

1995年,F(xiàn)reund和Schapire提出了通過調(diào)整權(quán)重而運作的Boo

sting算法:

AdaBoost(AdaptiveBoosting)算法[44].該算法的效率與原來的Boosting算

相同,但不需要任何關(guān)于弱學習算法性能的先驗知識,因此可以很好的應用到實

際問題中.

Boosting是提高預測學習系統(tǒng)預測能力的有效工具,是組合學習中最具代表

性的方法.實際應用中,Boost—By—Majority和AdaBoost是Bo

蜃濟和由防麻f科舞米雯的應用需要,下面具體介紹AdaBoost算法.

3.2AdaBoost算法

3.2.1AdaBoost算法的基本原理

AdaBoost算法的主要思想是給定一個弱學習算法與一個訓練集合(_,y

1),

(x2,y2),阮,n),其中而(f;1,2,…n)屬于某個域或?qū)嵗?/p>

問x,而

MG{—L+q,(i=l'2,n)可以理解為分類問題的類別標志.算法開始時

先給

每個訓練樣本賦以相同的權(quán)值!,

然后調(diào)用弱分類器對訓練集進行訓

緣后哪兩解的儲果更新各樣本的權(quán)值,對訓練失敗的樣本賦以更大的權(quán)值,實

質(zhì)是讓學習算法在后續(xù)的學習中更偏重對較難分類的訓練樣本的學習.更新樣本

分布后繼續(xù)進行訓練.反復迭代丁輪,最終得到一個分類器序列睡,恕,…,島,

其中每個分類函數(shù)也具有一定的權(quán)值:檢測效果較好的分類函數(shù)的權(quán)值較大,檢

測效果不好的分類函數(shù)的權(quán)值較小.最終的分類函數(shù)日采用有權(quán)重的投票方式

獲得.

AdaBoost,算法的偽代碼表示如下:

1、輸入:

(1)訓練集s={(墨,_),1),(X2,Y2),阮,心)),

其中量£z0=1,2,1),

YfE{-1,+q,f=l,2,…廳;

(2)弱學習算法.

2、對訓練集初始化權(quán)值:

(3—2)

Dx(i)=il,f=l,2,...,

3、執(zhí)行算法:11;

,Drt=1,2,

T

(1)對己指定權(quán)重的訓練樣本進行學習,得到一個預測函數(shù):

鬼:薯一{一1,1},f=1,2,n(3—3)

(2)統(tǒng)計預測函數(shù)旭的訓練錯誤率:

,一z皿。)肛(弓)一YiJ,(3—4)

17

若Et=0或〉1/2,則令T=f-1并終止循環(huán)

(3)令:

q;,n[斟…

(4)根據(jù)啊的訓練錯誤率更新樣本的權(quán)重:

當啊@)黃丫i時,

%臚坳螂㈣二喇〈等

當島@)=丫/。時,;

療j:?q=q—aq=療u一—,q(3—7z)

........?也島

(5)更新t的值為t+1,返回(1)

4、輸出:

…2s枷償q

3.2.2訓練錯誤協(xié)))

對于上述訓練算法,Schapire,Singei^DFreund從理論上推導出

所得翻簫段箭訓練誤差滿足以卜條件:

定義,o)2薈q啊o),則上述H(力可以表

而H江送I練誤船搗》45?:J咖(,@)),

曇t{i:H(xi)舌ijs若藁ex

其中:p(w“))=IIT互(3-----9)

互=gDIo)懈p(一a,yi一@))(3

—10)

從上式我們可以看到:通過對a。和-的適當選擇,zf將被最小化.相應地,訓

18

練誤差也迅速減小.

在二值情況下,設S是最終的預測函數(shù)H0)的最大錯誤率,Schapire與

Freund分析并證明8滿足[46]:

ss立[Z廁習。亦廂5

其中Et是啊類器都里犯叱

猜想稍好,DAP、乙十1,乙

約束n離0較遠,則訓練錯誤將以指數(shù)級速度下降.AdaBoost以前的Boosti

ng算zorr

法也有相似的性質(zhì).G而3前的算法茬孚司前J要得到L?知9下界n.實踐中

關(guān)于這樣的邊界的知識是很難得到的.而AdaB。。st可以調(diào)整單個弱分類器的錯誤

率,所以說是自適應的.

3.2.3AdaBoost算法的特點及其應用

AdaBoost算法的優(yōu)點表現(xiàn)在:有很好的算法效率,易于編程實現(xiàn).它除了

迭代次數(shù)T外不需要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論