股票權(quán)證基于分類模型的升跌趨勢預(yù)測_第1頁
股票權(quán)證基于分類模型的升跌趨勢預(yù)測_第2頁
股票權(quán)證基于分類模型的升跌趨勢預(yù)測_第3頁
股票權(quán)證基于分類模型的升跌趨勢預(yù)測_第4頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

中山大學(xué)碩士學(xué)位論文股票權(quán)證基于分類模型的升跌趨勢預(yù)測姓名:蘇醒僑申請學(xué)位級別:碩士專業(yè):應(yīng)用數(shù)學(xué)指導(dǎo)教師:張磊;姚正安20060428股票權(quán)證基于分類模型的升跌趨勢預(yù)測專業(yè):應(yīng)用數(shù)學(xué)碩士生:蘇醒僑指導(dǎo)教師:張磊副教授,姚正安教授摘要股票權(quán)證(以股票為標(biāo)的物的權(quán)證)作為金融衍生物的一種,傳統(tǒng)的分析預(yù)測方式是基于數(shù)量經(jīng)濟(jì)學(xué)上的布萊克.斯科爾斯(B1ack—Scho1es)(1973)期權(quán)定價(jià)公式構(gòu)造預(yù)測模型.但該定價(jià)公式不符合我國資本市場的實(shí)際情況:我國的證券市場沒有賣空機(jī)制,該公式的前提假設(shè)條件不能滿足,故強(qiáng)制性的將Black-Scholes期權(quán)定價(jià)公式應(yīng)用于我國的權(quán)證預(yù)測,效果往往差強(qiáng)人意.本而監(jiān)據(jù)挖掘的方法,在對股票權(quán)證的真實(shí)歷史交易信息進(jìn)行聚類處理的基礎(chǔ)上,應(yīng)用相關(guān)的分類學(xué)習(xí)算法,最終建立權(quán)證波動趨勢(升,跌)的預(yù)測模型.用真實(shí)的股票權(quán)證交易歷史數(shù)據(jù)對該模型進(jìn)行檢測,預(yù)測效果令人滿意.本文的主要工作主要包括兩個(gè)部分:首先是針對原權(quán)證交易歷史數(shù)據(jù)各列屬性為連續(xù)值的情況,本文利用聚類算法SOM(自組織映射算法),對各屬性列分別聚類,很好將連續(xù)值轉(zhuǎn)換為狀態(tài)值,而且這樣的聚類處理減少了連續(xù)值離散化過程中的信息損失.權(quán)證波動趨勢(升,跌)的預(yù)測作為一個(gè)分類問題,本文選用了NaiveBayeMode1+AdaBoostAlgorithm方法構(gòu)造分類器.其中NaiveBayesianMode1(樸素貝葉斯模型)作為弱分類器,應(yīng)用AdaB。。st算法來訓(xùn)練加強(qiáng),以構(gòu)造強(qiáng)分類器.最終構(gòu)造的強(qiáng)分類器對股票權(quán)證的波動趨勢(升,跌)預(yù)測效果令人滿意.關(guān)鍵詞:權(quán)證,自組織映射算法,樸素貝葉斯分類器,AdaBoost學(xué)習(xí)算法Forecastingstockwarrantprice^risingorfa11ingwithclassificationmodelMajor:App1iedMathem

atics

Name:SuXingqiaoSupervisor:ZhangLei,YaoZheng,anAsafinancialderivative,stockwarrantisawrittencertificatethatgivestheholdertherighttopurchasesharesofastockforaspecifiedpricewithinaspecifiedperiodoftime.MostofClassicalModelsandtechniquesforwarrantprice'Sana1ysisandpredictionarerootedintheoptionpricingmodeldevelopedbyFischerBlackandMyronScholesinl973.Unfortunately,suchmode1isnotsatisfiedwiththeactualfactofthecapita1marketinourcountry:intheconditionoflackingshortsdfingmechanisminoursecuritiesmarket*thepreconditionoftheBlack&Scho1esMode1cou1dn,tbesatisfied.Forthisreason,,suchsolutioncouldn'treachapreciseresu1tinourwarrantprice'Sprediction.Thispaperappfiedsomea1gorithmsindataminingtobui1dthemodalforstockwarrantprice'SrisingorMiringprediction.Wefirstemployedaclusteringa1gorithmforthepre-processingoftherea1stockwarrants'historica1exchangedata.Andthen,weusedsomeclassificationmodelsindataminingtoconstructthefinalprcdictionmode1.Themode1promotedinthispaperwastes,.tedb.ys,ome,reaLstockwarrants'-historicalexcnangedata,anaitsnoweaagooaiorecastingabifitythroughthetestingprocess.Keywords:Stockwarrant,SOMa1gorithm,NaiveBayesianMod乩AdaBoost第一章引言本章首先介紹本文的研究背景,然后進(jìn)一步闡述本文的研究范圍及研究意義,最后介紹本文的主要內(nèi)容及其體系架構(gòu).1.1背景介紹權(quán)證是國際證券市場上的一種最初級的金融衍生物,它是由發(fā)行人發(fā)行的,能夠按照特定價(jià)格在特定時(shí)間內(nèi)購買或賣出一定數(shù)量的標(biāo)的證券的選擇權(quán)憑證.標(biāo)的證券可以是股票,基金,債券,一籃子股票,貨幣等投資品種.以股票為標(biāo)的證券的權(quán)證簡稱為股票權(quán)證.股票權(quán)證本質(zhì)上是一種股票期權(quán),它反映了權(quán)證發(fā)行人與持有人之間的一種契約關(guān)系,持有人以一定代價(jià)(交付權(quán)利金)從發(fā)行人那里獲取一個(gè)權(quán)利,即持有人可以在未來某一日期或特定期間內(nèi),以約定好的價(jià)格向權(quán)證發(fā)行人購買或出售一定數(shù)量的資產(chǎn).在權(quán)證的存續(xù)期間,權(quán)證持有人可以在證券交易市場轉(zhuǎn)售權(quán)證.而根據(jù)權(quán)證具體的供求關(guān)系和投資價(jià)值,權(quán)證的價(jià)格不斷波動.權(quán)證持有人獲得的是一種權(quán)利,而不是責(zé)任,當(dāng)履約行權(quán)對持有人不利時(shí),持有人可以取消行權(quán)(放棄權(quán)利).是否行權(quán)完全取決于權(quán)證的持有人,權(quán)證持有人決定是否使用權(quán)證賦予的權(quán)利的主要根據(jù)是“未來某個(gè)時(shí)刻”交易標(biāo)的物的市場價(jià)格.按照履約行權(quán)的期限可以把權(quán)證分為美式權(quán)證,歐式權(quán)證及百慕大權(quán)證.美式權(quán)證的持有人在權(quán)證到期日前的任何交易時(shí)間均可行使其權(quán)利,而歐式權(quán)證持有人只可以在權(quán)證到期FI當(dāng)天行使其權(quán)利.美式權(quán)證雖然較為靈活和方便,但相應(yīng)的權(quán)利金是十分高昂的,而歐式期權(quán)的權(quán)利金較低.百慕大權(quán)證是行權(quán)方式介于歐式權(quán)證和美式權(quán)證之間的權(quán)證,權(quán)證可以在事先指定的存續(xù)期內(nèi)的若干個(gè)交易日行權(quán).目前國際上大部分的權(quán)證交易都是歐式權(quán)證.我國現(xiàn)行的股票權(quán)證交易也以歐式權(quán)證為主.根據(jù)權(quán)利的行使方向,權(quán)證又可以分為認(rèn)股權(quán)證(認(rèn)購權(quán)證)和認(rèn)沽權(quán)證,認(rèn)購權(quán)證持有人有權(quán)按照約定價(jià)格在特定期限內(nèi)或到期H向發(fā)行人買入標(biāo)的證券,認(rèn)沽權(quán)證持有人則有權(quán)按約定價(jià)格在特定期限或到期日向發(fā)行人賣出標(biāo)的證券.我國股票權(quán)證市場的發(fā)展比較曲折:1992年6月,大飛樂配股權(quán)證作為我國第一個(gè)權(quán)證產(chǎn)品在滬市推出,此后相繼有十幾種權(quán)證在滬深證券交易所上市交易.但是到了1996年年底,管理層出于“抑制過度投機(jī)”的原因,取消了所有的權(quán)證交易.直至2005年6月14日,上海交易所制定《上海證券交易所權(quán)證業(yè)務(wù)管理暫行辦法》,在被叫停九年之后,權(quán)證交易在國內(nèi)證券市場重新啟動.2005年8月22日,寶鋼權(quán)證作為證券市場恢復(fù)權(quán)證交易的第一個(gè)權(quán)證產(chǎn)品終于面世.其后多個(gè)權(quán)證產(chǎn)品陸續(xù)推出:武鋼權(quán)證,鞍鋼權(quán)證,萬科權(quán)證,白云機(jī)場權(quán)證……本文主要討論的對象是歐式股票權(quán)證.其中相關(guān)實(shí)驗(yàn)所用的權(quán)證交易數(shù)據(jù)是來自寶鋼權(quán)證,萬科權(quán)證和武鋼權(quán)證,這三個(gè)權(quán)證產(chǎn)品簡介如下:寶鋼JTB1580000基本概況:發(fā)行人:寶鋼集團(tuán)有限公司上市地點(diǎn):上海證券交易所標(biāo)的證券:G寶鋼600019權(quán)證類型:認(rèn)購權(quán)證行權(quán)代碼:582000行權(quán)簡稱:ES060830發(fā)行數(shù)量:38770萬份權(quán)證余額:38770萬份(截止2005.12.8)行權(quán)方式:歐式行權(quán)價(jià)格:4.50行權(quán)比例:1結(jié)算方式:實(shí)物上市日期:2005年8月22日存續(xù)期間:2005年8月18H——2006年8月30H行權(quán)期問:2006年8月30日到期日期:2006年8月30日萬科HRP1038001基本概況:發(fā)行人:華潤股份有限公司上市地點(diǎn):深圳證券交易所標(biāo)的證券:G萬科A000002權(quán)證類型:認(rèn)沽權(quán)證發(fā)行數(shù)量:214028.6008萬份權(quán)證余額:214028.6008萬份(截止2005.12.8)行權(quán)方式:百幕大式行權(quán)價(jià)格:3.73行權(quán)比例:1結(jié)算方式:實(shí)物上市H期:2005年12月5H存續(xù)期問:2005年12月5H——2006年9月4H行權(quán)期間:2006年8月29日——2006年9月4日到期日期:2006年9月4日武鋼】TBI580001基本概況:發(fā)行人:武漢鋼鐵(集團(tuán))公司上市地點(diǎn):上海證券交易所標(biāo)的證券:G武鋼600005權(quán)證類型:認(rèn)購權(quán)證行權(quán)代碼:582001行權(quán)簡稱:ES061122發(fā)行數(shù)量:47400萬份權(quán)證余額:116460.3762萬份(截止2005.12.8)行權(quán)方式:歐式行權(quán)價(jià)格:2.90行權(quán)比例:1結(jié)算方式:實(shí)物上市日期:2005年11月23日存續(xù)期問:2005年11月23日 20。6年11月22日行權(quán)期問:2006年11月16日--2006年11月22日到期H期:2006年11月22E1股票權(quán)證作為證券市場上的投資品種,其價(jià)值主要受以下幾方面因素的影響,下面以認(rèn)股權(quán)證為例具體說明:認(rèn)股權(quán)證事實(shí)上可以看成是一份看漲期權(quán),當(dāng)權(quán)證執(zhí)行價(jià)格不變時(shí),認(rèn)股權(quán)證的價(jià)值隨股票價(jià)格的上漲而上漲.其價(jià)值上限就是標(biāo)的股票價(jià)格,價(jià)值下限是執(zhí)行認(rèn)股權(quán)證時(shí)的實(shí)際股價(jià)減去執(zhí)行價(jià)格.認(rèn)股權(quán)證的價(jià)值包括兩個(gè)方面:當(dāng)股票的實(shí)際價(jià)格高于執(zhí)行價(jià)格時(shí),投資者只要認(rèn)購股票并在市場出售,即可獲得之間的價(jià)差,此稱為“執(zhí)行價(jià)值”;另一方面,只要認(rèn)股權(quán)證尚未到期,則標(biāo)的股票價(jià)格有進(jìn)一步上漲的空間.即為“時(shí)間價(jià)值影響認(rèn)股權(quán)證價(jià)值的因素主要有以下五個(gè):一是標(biāo)的股價(jià)的波動率.它是認(rèn)股權(quán)證價(jià)值最重要的決定因素.股價(jià)的波動性可以是根據(jù)標(biāo)的股票過去一段時(shí)間內(nèi)的價(jià)格信息所計(jì)算出來的報(bào)酬率變異性.波動性越大,代表股價(jià)的漲幅越高,同時(shí)認(rèn)股權(quán)證的獲利機(jī)會也就越高.因此,標(biāo)的股價(jià)的波動率與認(rèn)股權(quán)證呈正向關(guān)系.二是標(biāo)的股價(jià).認(rèn)股權(quán)證與其標(biāo)的股價(jià)同步漲跌,因?yàn)閳?zhí)行價(jià)格的收益來自標(biāo)的股價(jià)與執(zhí)行價(jià)格的差距,因此標(biāo)的股價(jià)越高,認(rèn)股權(quán)證的價(jià)值也越高.三是執(zhí)行價(jià)格.與標(biāo)的股價(jià)相反,執(zhí)行價(jià)格與認(rèn)股權(quán)證的價(jià)值呈反向關(guān)系.四是到期期限.由于認(rèn)股權(quán)證存在時(shí)間價(jià)值,愈接近到期日,認(rèn)股權(quán)證的獲利機(jī)會愈少,因此認(rèn)股權(quán)證的價(jià)值也愈少.五是無風(fēng)險(xiǎn)利率.無風(fēng)險(xiǎn)利率通常用來衡量某項(xiàng)投資所用資金的機(jī)會成本,也即是資金不用于這項(xiàng)投資而用于其他投資所能獲得的最高收益.若投資者直接購買標(biāo)的股票,必須支付全部的股價(jià),當(dāng)無風(fēng)險(xiǎn)利率越高時(shí),資金的機(jī)會成本越高.若購買認(rèn)股權(quán)證,則只需支付少量的保證金,這優(yōu)于直接購買股票.因此,無風(fēng)險(xiǎn)利率越高,認(rèn)股權(quán)證的價(jià)值越高.本論文應(yīng)用數(shù)據(jù)挖掘的相關(guān)算法,首先對股票權(quán)證的真實(shí)歷史交易數(shù)據(jù)各屬性列分別進(jìn)行聚類處理,將各屬性列的值離散化成狀態(tài)值.進(jìn)一步應(yīng)用數(shù)據(jù)挖掘的分類算法,最終建立權(quán)證波動趨勢(升,跌)的分類預(yù)測模型.1.2本文工作及其意義作為證券市場上一種活躍的金融衍生物投資產(chǎn)品,權(quán)證的價(jià)格預(yù)測問題一直頗受關(guān)注.相關(guān)的研究學(xué)者,都試圖通過分析權(quán)證市場的歷史數(shù)據(jù),價(jià)格趨勢和各種指標(biāo),從中發(fā)現(xiàn)最能刻畫在未來某個(gè)階段權(quán)證產(chǎn)品價(jià)格走勢的規(guī)律.針對此問題,經(jīng)濟(jì)學(xué)家和數(shù)學(xué)家提出過很多不同的模型,其中RobertC.Merton,FischerB1ack和MyronScho1es在1973年提出了Black.Scholes歐式看漲期權(quán)定價(jià)公式[111,是目前世界上最流行的期權(quán)定價(jià)公式.而權(quán)證作為特殊的期權(quán)產(chǎn)品,也適用于該定價(jià)模型.作為第一個(gè)成功的期權(quán)定價(jià)公式,該公式考慮了期權(quán)價(jià)格與上述五個(gè)因素的關(guān)系.其具體形式如下:C(E)=S1(吐)一魯。S(d:)(1—)di= 礦一竽s—E— (1—2)d2=…加方 (1_3)式中,s為標(biāo)的證券目前價(jià)格,E為協(xié)定價(jià)格,c陋)為期權(quán)價(jià)格,e為自然對數(shù)的底2.71828:t為到期日以前的剩余時(shí)間,以年為單位表示;r為無風(fēng)險(xiǎn)的市場年利率,用小數(shù)表示;In為自然對數(shù);盯為即期價(jià)格的波動幅度:N“)為對于給定自變量d,服從標(biāo)準(zhǔn)正態(tài)分布S(0,1)的概率,其數(shù)值可從正態(tài)分布表中查得.對于歐式看跌期權(quán)的價(jià)格,可利用看漲期權(quán)與看跌期權(quán)之間的平價(jià)關(guān)系近似地求得.其計(jì)算公式為:P(e)=E?e1.oIV(—d2)-S'lV(一面)(1一一4)目前國外很多的期權(quán)預(yù)測模型都是基于B1ack-Scho1es定價(jià)公式而建立.但B1ack—Scho1es模型只給出期權(quán)價(jià)格的表達(dá)式,卻沒有回答怎樣求解該kCa11BJ對—schokCa11BJ對方程求數(shù)值解【2],131;MonteCarl。模擬法求解【4—7】;最小二乘法電輯注」凱.。4es模型是基于一定的假設(shè)條件才成立的,與目前我國證券市場的露一定的差距.正如2005年8月22日寶鋼權(quán)證在上海交易所上市,知名券商國泰君安通過B1ack—Scho1es模型將寶鋼權(quán)證上市價(jià)格定為。.688元,用濾費(fèi)東當(dāng)天早市以1.263元漲停開盤,打開交易后不到兩分鐘又漲停,當(dāng)日以1.263元收盤,和國泰君安預(yù)測的理論價(jià)格相差甚遠(yuǎn).這是因?yàn)锽1ack—Scho廟機(jī)典式不符合我國證券市場的實(shí)際情況:我國沒有賣空機(jī)制,B1ack—Scho1es模型的前提假設(shè)條件不滿足.實(shí)際上,我國目前的權(quán)證產(chǎn)品的能介值遠(yuǎn)高于其理論價(jià)值.數(shù)據(jù)挖掘領(lǐng)域中的許多學(xué)者對權(quán)證價(jià)格預(yù)測問題也十分關(guān)注,結(jié)合一定的金融背景知識,眾多數(shù)據(jù)挖掘算法在該問題的應(yīng)用上,取得不錯(cuò)的效果.現(xiàn)階段應(yīng)用于權(quán)證價(jià)格預(yù)測的數(shù)據(jù)挖掘方法主要有:神經(jīng)網(wǎng)絡(luò)算法(Artificialneuralnetworks)[10—121,遺傳算法(GeneticA1gorithms)[13],支持向量機(jī)(Suppor^VectorMachines)-14,15],提些算法的應(yīng)用取得了一定的效果.本文主要的工作是應(yīng)用數(shù)據(jù)挖掘的相關(guān)算法,構(gòu)建分類模型,對歐式股票權(quán)證的升跌趨勢進(jìn)行預(yù)測.具體的處理方法如下:通過對權(quán)證市場的歷史數(shù)據(jù),價(jià)格趨勢和各種指標(biāo)屬性的離散化處理,分析,應(yīng)用分類器技術(shù)預(yù)測權(quán)證產(chǎn)品的升跌趨勢.在數(shù)據(jù)預(yù)處理的基礎(chǔ)上,本文利用聚類算法SOM(自組織映射網(wǎng)絡(luò))對權(quán)證產(chǎn)品的各個(gè)屬性分別獨(dú)立聚類,很好的解決了連續(xù)值轉(zhuǎn)換為離散值的問題,而且該聚類方法很好的減少了離散化過程中的信息損失.權(quán)證波動趨勢(升,跌)的預(yù)測作為一個(gè)分類問題,本文選用了NaiveBayesianModel-|-AdaBoostA1gorithm構(gòu)建最終的分類器.其中NaiveBayesianModel(樸素貝葉斯模型)作為弱分類器,用機(jī)器學(xué)習(xí)方面的AdaBoost算法來訓(xùn)練加強(qiáng),以構(gòu)造強(qiáng)分類器.本文應(yīng)用此實(shí)驗(yàn)方案對我國證券市場上的三個(gè)權(quán)證產(chǎn)品的真實(shí)交易數(shù)據(jù)進(jìn)行分類預(yù)測,實(shí)驗(yàn)結(jié)果表明,該方案能很好的處理股票權(quán)證的波動趨勢預(yù)測問題.本文接下來的部分安排如下:第二章介紹數(shù)據(jù)挖掘的相關(guān)技術(shù),其中重點(diǎn)介紹應(yīng)用于本文的聚類,分類算法.第三章重點(diǎn)介紹機(jī)器學(xué)習(xí)方面的AdaB。。st算法,主要介紹該算法將弱分類器訓(xùn)練轉(zhuǎn)化為強(qiáng)分類器的相關(guān)思想.第四章將具體介紹本文構(gòu)建的股票權(quán)證升跌趨勢分類預(yù)測模型:以S0M算法將各屬性列的連續(xù)值離散化,在此基礎(chǔ)上,應(yīng)用NaiveBayesianMode1+AdaBoo親靠留篇壽籥要讀證的升跌趨勢進(jìn)行預(yù)測.本文的第五章介紹上述模型對我國證券市場上的三個(gè)權(quán)證產(chǎn)品的真實(shí)交易數(shù)據(jù)進(jìn)行分類預(yù)測的相關(guān)結(jié)果,通過具體的實(shí)驗(yàn)結(jié)果檢驗(yàn)?zāi)P偷目煽啃?第六章,總結(jié)全文的工作,提出進(jìn)一步工作的想法.第二章數(shù)據(jù)挖掘概述在具體介紹股票權(quán)證分類預(yù)測模型之前,我們先介紹相關(guān)的數(shù)據(jù)挖掘知識及本文用到的相關(guān)算法.2.1概述數(shù)據(jù)挖掘(DataMining)是近年來隨著人工智能、機(jī)器學(xué)習(xí)和數(shù)據(jù)庫技術(shù)的發(fā)展而出現(xiàn)的一門新興的技術(shù),它主要利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系,提取隱含的但有用的信息和知識的過程【16】.數(shù)據(jù)挖掘起源于二十世紀(jì)六十年代開始的統(tǒng)計(jì)分析和神經(jīng)網(wǎng)絡(luò)研究.在不斷的發(fā)展過程中,數(shù)據(jù)挖掘充分融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的理論和技術(shù).20世紀(jì)80年代末出現(xiàn)了一個(gè)新的術(shù)語,即數(shù)據(jù)庫中的知識發(fā)現(xiàn),簡稱KDD(Know1edgeDiscoveryinDatabase).KDD是從數(shù)據(jù)模式或描述數(shù)據(jù)間的聯(lián)系的過程,其主要步驟包括數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、結(jié)果解釋及評估1171,如圖2—1所示.圖2—1KDD過程其中數(shù)據(jù)挖掘只是KDD中的一個(gè)階段,卻是最重要的一個(gè)階段,因?yàn)樗l(fā)現(xiàn)隱藏的知識.人們往往不加區(qū)別地使用這兩個(gè)概念,一般在工程應(yīng)用領(lǐng)域多稱為數(shù)據(jù)挖掘,而在研究領(lǐng)域則多稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn).因此,在本文以下部分將不再區(qū)分?jǐn)?shù)據(jù)挖掘與數(shù)據(jù)庫中的知識發(fā)現(xiàn)這兩個(gè)概念.目前數(shù)據(jù)挖掘已經(jīng)廣泛地應(yīng)用于各種領(lǐng)域:市場分析方面的數(shù)據(jù)挖掘應(yīng)用[18],生物科學(xué)界針對蛋白質(zhì)和DNA序列分析的數(shù)據(jù)挖掘應(yīng)用【19】,金融領(lǐng)域的數(shù)據(jù)挖掘應(yīng)用[20——22],財(cái)務(wù)領(lǐng)域的數(shù)據(jù)挖掘應(yīng)用【231作為一個(gè)知識體系,數(shù)據(jù)挖掘比較典型的方法有關(guān)聯(lián)分析、序列模式分析、分類分析、聚類分析等.各種方法簡單介紹如下:①關(guān)聯(lián)分析(AssociationAna&sis)關(guān)聯(lián)分析,即利用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘.關(guān)聯(lián)分析的目的是挖掘發(fā)現(xiàn)存在于大量數(shù)據(jù)項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)關(guān)系,它能發(fā)現(xiàn)數(shù)據(jù)庫中諸如“同一次的超市購物過程中,如果顧客購買牛奶,他同時(shí)也購買面包(具體是什么類型的面包)的概率有多大”這類的問題,常用的算法包括Apri。ri算法【24】,頻繁模式增長[751,多層關(guān)聯(lián)規(guī)則[26,271,多維關(guān)聯(lián)規(guī)則[28].⑦序列模式分析(SequencePatternAnalysis)序列模式分析主要應(yīng)用于挖掘時(shí)間變化過程中,研究對象的變化規(guī)律或趨勢,主要的一些應(yīng)用包括:金融市場的分析預(yù)測,動態(tài)產(chǎn)品的加工過程,科學(xué)實(shí)驗(yàn)等.其研究內(nèi)容主要包括:趨勢分析,時(shí)序分析中的相似度搜索【29】,序列模式和循環(huán)模式挖掘[301.③分類分析(ClassificationAnalysis)設(shè)有一個(gè)數(shù)據(jù)庫和一組具有不同特征的類別(標(biāo)記),該數(shù)據(jù)庫中的每一個(gè)記錄都賦予一個(gè)類別的標(biāo)記,這樣的數(shù)據(jù)庫稱為示例數(shù)據(jù)庫或訓(xùn)練集.分類分析就是通過分析示例數(shù)據(jù)庫中的數(shù)據(jù),為每個(gè)類別做出準(zhǔn)確的描述或建立分析模型或挖掘出分類規(guī)則,然后用這個(gè)分類規(guī)則對其它數(shù)據(jù)庫中的記錄進(jìn)行分類.常用的分類算法包括:決策樹算法【31】,貝葉斯分類算法[321,神經(jīng)網(wǎng)絡(luò)【32】,K一囂方類算法【33】,遺傳算法【33】等.④聚類分析(ClusteringAnalysis)聚類分析輸入的是一組未分類記錄,并且這些記錄應(yīng)分成幾類事先也不知道,通過分析數(shù)據(jù)庫中的記錄數(shù)據(jù),根據(jù)一定的分類規(guī)則,合理地劃分記錄集合,確定每個(gè)記錄所屬類別.它所采用的分類規(guī)則是由聚類分析工具決定的.采用不同的聚類方法,對于相同的記錄集合可能有不同的劃分結(jié)果.常用的聚類算法包括:k一均值【34],k一中心點(diǎn)[351,DBSCAN[36],STING[37],[39]等.針對本文實(shí)驗(yàn)的具體應(yīng)用,卜.面將具體介紹聚類算法S0M(自組織映射網(wǎng)絡(luò))及分類算法貝葉斯分類模型.2.2聚類算法SOM自組織映射網(wǎng)絡(luò)S0M(Se1f—0rganizingMapsl是由芬蘭赫爾辛基大學(xué)神經(jīng)網(wǎng)絡(luò)專家Kohonen教授在1981年提出的【40],這種網(wǎng)絡(luò)模擬大腦神經(jīng)系統(tǒng)自里特征映射的功能,是一種競爭式的學(xué)習(xí)網(wǎng)絡(luò),在學(xué)習(xí)中能無監(jiān)督地進(jìn)行自組織學(xué)習(xí).S0M的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)包含輸入層和輸出層,輸出層也稱為映射層.輸入層由IV個(gè)神經(jīng)元組成,競爭層由膳個(gè)輸出神經(jīng)元組成,且形成一個(gè)二維陣列.輸入層與競爭層各神經(jīng)元之間實(shí)現(xiàn)全互連接,競爭層之間實(shí)行側(cè)向連接.SOM網(wǎng)絡(luò)的主要特性為:1)自組織排序性質(zhì),即拓?fù)浔P蚰芰Γ?)自組織概率分布性質(zhì).其網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖2—2所示:輸出層輸入層圖2—2S0M的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)SOM網(wǎng)絡(luò)首先把所有的映射結(jié)點(diǎn)(輸出結(jié)點(diǎn))向量用小的隨機(jī)值進(jìn)行初始化,然后計(jì)算每一個(gè)實(shí)際輸入向量同輸出二維陣列中所有的映射結(jié)點(diǎn)的歐氏距

離,距離最小的那一個(gè)映射結(jié)點(diǎn)作為獲勝結(jié)點(diǎn)(WinningNode),把該輸入向量映射到獲勝結(jié)點(diǎn),并調(diào)整該獲勝結(jié)點(diǎn)向量的權(quán)值,同時(shí)按比例調(diào)整獲勝結(jié)點(diǎn)鄰域內(nèi)結(jié)點(diǎn)的權(quán)值,把所有的輸入向量提交給網(wǎng)絡(luò)進(jìn)行訓(xùn)練(通常每個(gè)輸入向量要提交若干次),相類似的輸入向量被映射到輸出層中臨近的區(qū)域,最后得到輸入向量的聚類,同時(shí)把高維的輸入向量空間非線性地投射到二維的映射網(wǎng)絡(luò)上,該網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)反映了輸入向量的分布情況.算法的具體步驟如下:設(shè)網(wǎng)絡(luò)的輸入層有W個(gè)輸入向量,維數(shù)為廳,記為:X(f)一k,屯t,…,%t,ER“,t;1,2,...?IV.輸出層有M個(gè)神經(jīng)元為A.,,=1,2,...?M.輸入層向量與輸出層神經(jīng)元月,之間的連接權(quán)值向量記為:%=(%。,%:,…,%),其在,。后祠嘉訓(xùn)輸J過程如下M?(1)初始化.將權(quán)值向量%;(葉。,葉:,…,%)(,=1,2,M)化,喝朝。門坐嬲蚓晦哽.,噥).設(shè)置初始學(xué)習(xí)速率叩4品%疵贏徵踹旦/cP)),看至kgHFL區(qū)域函數(shù)N90)具體指以獲勝神經(jīng)元g為中心,且包含若干其它神經(jīng)元的區(qū)域范圍.一般的,NO)的值為受影響 鬻警j當(dāng)詼最后對溫必1 鬻警j當(dāng)詼最后對溫必1血*怫鄰域所包含的神經(jīng)元有:設(shè)置網(wǎng)絡(luò)總的訓(xùn)練次數(shù)為日日(3)尋求獲勝元?dú)w一化,計(jì)算訓(xùn)學(xué)樣本fR與權(quán)值向量之間的距離城..

d,=oic七,一礦川―以距離最小的輸心^^月c"寸視的足:]“2g=盯gm如瞄j】,,=1, M(24)=1,z,M從而實(shí)現(xiàn)神經(jīng)元的競爭過程.(4)網(wǎng)絡(luò)更新對獲勝神經(jīng)元的拓?fù)溧徲蛞?f)內(nèi)的所有興奮神經(jīng)元更新其權(quán)值向量:嘩川=形哪)即氓一一(2-且0,,且0,,7(f)<元的合作和更新過程.11rl(,tj表阿可網(wǎng)g訓(xùn)緲咬習(xí)方率,這一調(diào)整實(shí)現(xiàn)了神經(jīng)(5)更新學(xué)習(xí)速率和鄰域函數(shù),歸一化權(quán)值向量.叩o,2叩c。,(,一事)其中,7(0)是初始學(xué)習(xí)速生,2為廿前網(wǎng)絡(luò)訓(xùn)蛤欠,,T為開始設(shè)定的網(wǎng)絡(luò)訓(xùn)練總次數(shù).NAt)2叫以c南(,一釧其中刀訂卜]表示對(X明整*jp1v,0)的初始值., .r、,.? .矽=^=矗梭等%學(xué)叫(6)令訓(xùn)練次數(shù)t=t+1,返回步驟(2),直至t;T為止.構(gòu)建S0M網(wǎng)絡(luò)的目的是用低維口標(biāo)空間的點(diǎn)表示高維原始空間的點(diǎn),同時(shí)在高維到低維的映射過程中盡可能保持原始樣本空間的拓?fù)浣Y(jié)構(gòu).S0M網(wǎng)絡(luò)不需要存儲大量樣本的空間,所以具有比一般的多維尺度變化算法低得多的空間復(fù)雜性,很好的提高了算法的性能.S0M網(wǎng)絡(luò)還具備將高維到低維的映射可視化特征,這也是其得到廣泛應(yīng)用的一個(gè)原因.目前,S0M網(wǎng)絡(luò)不僅僅應(yīng)用于聚類,在分類,機(jī)械控制,語音識別,向量量化等領(lǐng)域都有廣泛的應(yīng)用[401.2.3樸素貝葉斯分類模型貝葉斯分類模型是一種基于統(tǒng)計(jì)學(xué)理論的分類方法.主要應(yīng)用于預(yù)測樣本屬于一個(gè)特定類別的概率等問題.對于樣本分類預(yù)測問題,我們一般是基于樣本各屬性的信息做分類決策.要是我們把分類模型簡化,假設(shè)每個(gè)屬性對樣本分類結(jié)果的影響?yīng)毩⒂谄渌鼘傩?,這可以大大的減輕計(jì)算的復(fù)雜度.基于對樣本屬性相互獨(dú)立的假設(shè),是樸素貝葉斯分類模型(NaiveBayesianClassifier)的主要特征.樸素貝葉斯分類器fNaiveBayesianclassifier)是貝葉斯分公認(rèn)靜哪簡常而廉1斛概率分類方法,其性能可與決策樹、神經(jīng)網(wǎng)絡(luò)等算法相媲美.即使應(yīng)用于大型數(shù)據(jù)庫,樸素貝葉斯分類器也表現(xiàn)出高準(zhǔn)確率和高速度[41][42].貝葉斯分類模型的理論主要源于貝葉斯定理,下面先對貝葉斯定理作簡單的介紹.2.3.1貝葉斯定理設(shè)u={x,c}是隨機(jī)變量的有限集,其中X={墨,x:,...間的段2變植鰲暇集春融據(jù)樣本有n維的屬性,具體可以用一個(gè)n維特征向量表示:協(xié),工:,…,*).下文為了表述方便,仍以記號X表示一個(gè)數(shù)據(jù)樣本,即Z一怯,而 *).C={C1,C: C O)是類標(biāo)的集合,標(biāo)志樣本空間可能的類別,類別數(shù)目是1c1S七,即給定數(shù)據(jù)樣本X=",屯,47T|勺分類問T我們富甲!定

甲樣本口k屬于。中由里可知:其中P(C,IX)稱為后驗(yàn)師黎(P=",x2,…,矗)可能屬于c,類的概率.相應(yīng)的,Pi1ity),P(XIcJ)J)riorprobabi1ity),即工J的先驗(yàn)概率(priorprobab稱為類條件概率.上述貝葉斯概率公式給出了一種由P暖),P(XIc』),P(c,)這三個(gè)概率值表示后驗(yàn)概率1工、方法.2.3.2樸素貝葉斯分類模型樸素貝葉斯分類模型的具體思想如F:(1)最大后驗(yàn)概率原則給定一個(gè)數(shù)據(jù)樣本x=俄,X2,,),該樣本所屬類別未知,根據(jù)樸素貝葉斯分類模型的規(guī)則,該樣本丑=怯,而 ”將被判為屬于具有最大后驗(yàn)概率的類.具體用符號表示該思想即為:樸素貝葉斯分類模型將樣本工=",而,…,’)判為屬于c類,當(dāng)且僅當(dāng):(2)根據(jù)貝葉于所有七類都有相同的值,所以可以看作常數(shù).為求得m于所有七類都有相同的值,所以可以看作常數(shù).為求得m哆{Ps】工)),我們只b6個(gè)叼毀示訓(xùn)練集去扁中練集中屬干、續(xù)上匕TOC\o"1-5"\h\z(3)卜條件獨(dú)立其的應(yīng)用) ?對于具有眾多屬性的數(shù)據(jù)集合Gib1維數(shù)京樣本,nP(XIc,),1s,s七的計(jì)算行銷可能非常大.應(yīng)用每年性對樣本分類結(jié)果儼^ 1響?yīng)毩傩缘募賹傩詑相獨(dú)立,.: I大IP暉1C』)=P(協(xié)而,…,其中p其中ps、JJ.具體IP“Ic,):翌。S.(2—12)其中3』表示訓(xùn)練集中屬于?!活悩颖镜膫€(gè)數(shù),S./i表示第c,類樣本中第f個(gè)屬性取值為Xi的樣本數(shù)目.(4)連續(xù)值屬性的處理由上述的介紹可知,如果屬性Xi(1弓fs訂)的值域是有限的離散點(diǎn),我們可以計(jì)算出所有的P@Ic,)(1sfs以,Is,sk)的值.若屬性置是連續(xù)值屬性,我i門需要對該屬性的值進(jìn)行處理.最簡單的處理方法當(dāng)然是將屬性值離散化.(5)樣本X=",X2,…,%)的分類結(jié)果對于給定的所屬類別未知的數(shù)據(jù)樣本X=",工:,…,'),分別計(jì)算P(XIcj)*P(cj),1s,s七.根據(jù)最大后驗(yàn)概率原則,樣本x={墨,x2,')被判定屬于c;類,當(dāng)且僅當(dāng):P(zlci)oP(q))—e(xlc,)*P(c,),1s,s七且,#i(2 13)以上即為樸素貝葉斯分類模型的工作步驟.從理論上講,樸素貝葉斯分類模型較之其它分類算法有最小的分錯(cuò)率[41][421.除了具體的分類應(yīng)用,樸素貝葉斯分類模型還可以用來為其它分類算法提供理論上的判定,例如許多神經(jīng)網(wǎng)絡(luò)和曲線擬合算法也以最大后驗(yàn)概率為分類判定指標(biāo)..4本章小結(jié)本章重點(diǎn)介紹了數(shù)據(jù)挖掘技術(shù)的兩個(gè)算法,分別是SOM(自組織映射網(wǎng)絡(luò))聚類算法及樸素貝葉斯分類模型.這兩種算法在各白的應(yīng)用領(lǐng)域獨(dú)具優(yōu)點(diǎn):S0M網(wǎng)絡(luò)在高維到低維的映射過程中盡可能保持原始樣本空間的拓?fù)浣Y(jié)構(gòu),并且有很好的計(jì)算性能:樸素貝葉斯分類器(NaiveBayesianclassifier)舞同班翁普圖前概率分類方法.正是基于兩者的優(yōu)點(diǎn),本文在構(gòu)建權(quán)證升跌趨勢分類預(yù)測模型中對兩者加以結(jié)合應(yīng)用.第三章AdaBoost算法本章將重點(diǎn)介紹AdaBoost算法,它是機(jī)器學(xué)習(xí)qoBoosting系列學(xué)表算也方/耨“oost算法用于提高學(xué)習(xí)算法的精確度,它以弱分類器為基礎(chǔ),通過多輪針對訓(xùn)練集的循環(huán)學(xué)習(xí)訓(xùn)練,構(gòu)造一個(gè)預(yù)測函數(shù)系列,然后以一定的方式將它們組合成一個(gè)預(yù)測函數(shù),從而得到分類性能更優(yōu)的強(qiáng)分類器.下面將首先介紹Boosting學(xué)習(xí)方法的主要思想,在此基礎(chǔ)上再詳細(xì)介紹AdaBoost算法..1Boosting學(xué)習(xí)方法Boosting算法的主要思想是通過連接一些簡單分類器構(gòu)建一個(gè)性能較之所有這些簡單分類器更優(yōu)的組合分類器.設(shè)啊,也,…,-都是一些簡單分類器,我們通過結(jié)合所有這些簡單分類器得到一個(gè)組合分類器:,o)2)人。)(3—1)上式中,q表示對應(yīng)的簡單分類器'f在組合分類器中的權(quán)重系數(shù).上式中的q,鬼0)0宣fsf)都是通過Boosting算法的訓(xùn)練過程得到.Boosting算法的組合分類器構(gòu)造過程如圖3—1所示:玩忽;忽圖3—IBoosting算法的訓(xùn)練過程Boosting算法思想來源于PAC(Probab1yApproximatelycolled)學(xué)習(xí)理論YL十年代,va1iant在PAC學(xué)習(xí)模型中提出了強(qiáng)學(xué)習(xí)算法與弱學(xué)習(xí)算法的概念[431:強(qiáng)學(xué)習(xí)算法:樣本集合S包含n個(gè)數(shù)據(jù)點(diǎn)“,y1),(b,Y2),…,阮,兒),其中而(f=1,2,…彈)是按照某種固定但未知的分布D@)隨機(jī)獨(dú)立抽取的,兒=,領(lǐng)).其中,屬于某個(gè)已知的布爾函數(shù)集,,即弘G{-1,+q,f=l'2,...?1.若對任意的xED,任意的,EF,任意的IOss,6s專,根據(jù)學(xué)習(xí)算法生成的估計(jì)函數(shù)丘滿足腫or(h,,)皇盛('。)#,o))的概率大于1一6,并且學(xué)習(xí)算法的運(yùn)彳珊嬲豆凝成多項(xiàng)式關(guān)系,則我們稱該F0弱學(xué)習(xí)算法:其定義與強(qiáng)學(xué)習(xí)算法定義相似,只需把上面s,6的任意性改為存在性即可.隨后,Kearns和Va1iant提出了弱學(xué)習(xí)算法與強(qiáng)學(xué)習(xí)算法的等價(jià)性問題,能否盤PAC模型中的一個(gè)弱學(xué)習(xí)算法提升為一個(gè)具有任意精度的強(qiáng)學(xué)習(xí)算法.若兩者的確等價(jià),那么只要找到一個(gè)比隨機(jī)猜測略好的弱學(xué)習(xí)算法就可以直接將其提升為強(qiáng)學(xué)習(xí)算法,而不必直接去找很難獲得的強(qiáng)學(xué)習(xí)算法.1990年,Schapire通過構(gòu)造一個(gè)多項(xiàng)式級的算法對上述等價(jià)性問題給出了肯定的證明,其證明中的構(gòu)造算法就是最初的Boosting算法.該算法可以將弱分類器轉(zhuǎn)化為強(qiáng)分類器.其后Freund提出了一種效率更高的通過重取樣或過濾運(yùn)作的Boost.By-Majority算法.但早期的B。osting算法在解決實(shí)際問題時(shí)存在較多的不足:組合分類器廠0)的進(jìn)一步改善需要Boosting過程更多的迭代:需要事先知道弱學(xué)習(xí)算法學(xué)習(xí)正確率的下限,這在實(shí)際中往往很難實(shí)現(xiàn).1995年,F(xiàn)reund和Schapire提出了通過調(diào)整權(quán)重而運(yùn)作的Boosting算法:AdaBoost(AdaptiveBoosting)算法[44].該算法的效率與原來的Boosting算法相同,但不需要任何關(guān)于弱學(xué)習(xí)算法性能的先驗(yàn)知識,因此可以很好的應(yīng)用到實(shí)際問題中.Boosting是提高預(yù)測學(xué)習(xí)系統(tǒng)預(yù)測能力的有效工具,是組合學(xué)習(xí)中最具代表性的方法.實(shí)際應(yīng)用中,Boost—By—Majority和AdaBoost是Bo球點(diǎn)南兩和?系肆解雯的應(yīng)用需要,下面具體介紹AdaBoost算法.3.2AdaBoost算法3.2.1AdaBoost算法的基本原理AdaBoost算法的主要思想是給定一個(gè)弱學(xué)習(xí)算法與一個(gè)訓(xùn)練集合(_,y),(x2,y2),...?阮,n),其中而(f;1,2,…n)屬于某個(gè)域或?qū)嵗諉杧,而MW{—L+q,(i=1z2,…,n)可以理解為分類問題的類別標(biāo)志.算法開始時(shí)先給每個(gè)訓(xùn)練樣本賦以相同的權(quán)值!,然后調(diào)用弱分類器對訓(xùn)練集進(jìn)行訓(xùn)練后腳爽將解的借果更新各樣本的權(quán)值,對訓(xùn)練失敗的樣本賦以更大的權(quán)值,實(shí)質(zhì)是讓學(xué)習(xí)算法在后續(xù)的學(xué)習(xí)中更偏重對較難分類的訓(xùn)練樣本的學(xué)習(xí).更新樣本分布后繼續(xù)進(jìn)行訓(xùn)練.反復(fù)迭代丁輪,最終得到一個(gè)分類器序列睡,恕 島,其中每個(gè)分類函數(shù)也具有一定的權(quán)值:檢測效果較好的分類函數(shù)的權(quán)值較大,檢測效果不好的分類函數(shù)的權(quán)值較小.最終的分類函數(shù)日采用有權(quán)重的投票方式獲得.AdaBoost,算法的偽代碼表示如下:1、輸入:(1)訓(xùn)練集s={(墨,_),1),(x2,丫2),…,阮,心)),其中量Gz0=1,2, 1),YfE{-1,+q,f=1,2,…廳:(2)弱學(xué)習(xí)算法.2、對訓(xùn)練集初始化權(quán)值:(3—2)Dx(i)=i1,f=1,2,3、執(zhí)行算法: 11;,Drt=1,2,...?T(1)對己指定權(quán)重的訓(xùn)練樣本進(jìn)行學(xué)習(xí),得到一個(gè)預(yù)測函數(shù):鬼:薯一{一1,1},f=1,2 n (3—3)(2)統(tǒng)計(jì)預(yù)測函數(shù)旭的訓(xùn)練錯(cuò)誤率:'一z皿。)肛(弓)一丫iJ,(3—4)

若Et=0或〉1/2,則令T=f一1并終止循環(huán)(3)令:q;,n[斟(4)根據(jù)啊的訓(xùn)練錯(cuò)誤率更新樣本的權(quán)重:當(dāng)啊@)豐Yi時(shí),%臚蜘螂㈣=喇<等')當(dāng)島@)=丫。時(shí),2;療:.q=q—aq=療二,q(5)更新t的值為t+1,返回(1)4、輸出:...2...2s枷償q對于上述訓(xùn)練算法,S對于上述訓(xùn)練算法,Schapir所得踴靜螂f訓(xùn)練誤差滿足以卜.條件:nger和Freund從理論上推導(dǎo)出定義,。)2薈q啊。),則上述H(力可以表而H小的練誤曷礴?4 :J咖(,@)),曇t{i:H(xi)舌ijs表藁ex其中:p(w“))=HT互(3 9)互=£口|o)懈p(—a,yi—@))(3—10)從上式我們可以看到:通過對a。和"的適當(dāng)選擇,zf將被最小化.相應(yīng)地,訓(xùn)

練誤差也迅速減小.在二值情況下,設(shè)S是最終的預(yù)測函數(shù)H0)的最大錯(cuò)誤率,Schapire與Freund分析并證明8滿足[46]:ss立[Z廁習(xí)。亦廂5其中Et是啊歸訓(xùn)線港差猜想稍好,匕x約束其中Et是啊歸訓(xùn)線港差猜想稍好,匕x約束n離0較遠(yuǎn),則訓(xùn)練錯(cuò)誤將以指數(shù)級速度下降.AdaBoost以前的Boosting算法也有相似的性質(zhì).G而3小帝那法茬匹前,—得到L知@下界n.實(shí)踐中關(guān)于這樣的邊界的知識是很難得到的.而AdaB。。st可以調(diào)整單個(gè)弱分類器的錯(cuò)誤率,所以說是自適應(yīng)的.3.2.3AdaBoost算法的特點(diǎn)及其應(yīng)用AdaBOOSt算法的優(yōu)點(diǎn)表現(xiàn)在:有很好的算法效率,易于編程實(shí)現(xiàn).它除了迭代次數(shù)T外不需要調(diào)整參數(shù).它不需要弱分類器的先驗(yàn)知識,因此可以靈活地和任意方法結(jié)合尋找弱分類器.給定足夠數(shù)據(jù)和一個(gè)能夠可靠地僅僅提供中等精度的弱學(xué)習(xí)及,它可以提供學(xué)習(xí)的?套理論保證.這是學(xué)習(xí)系統(tǒng)設(shè)計(jì)思想的一個(gè)轉(zhuǎn)變:不是試圖設(shè)計(jì)一個(gè)在整個(gè)空間都精確的學(xué)習(xí)算法,而是集中于尋找僅比隨機(jī)好的弱學(xué)習(xí)算法.同時(shí),AdaB0ost對噪音不敏感,各輪訓(xùn)練集并不獨(dú)立,它的選擇與前輪的學(xué)習(xí)結(jié)果有關(guān);AdaBoost的預(yù)測函數(shù)有權(quán)重,最后的強(qiáng)分類器由弱分類器順序生成.目前,AdaBoost組合學(xué)習(xí)方法已在不同的領(lǐng)域取得廣泛的應(yīng)用:1)文本分類和檢索:大多數(shù)文本分類研究集中于二值問題,其中文檔被分類成與某預(yù)定義的主題相關(guān)或不相關(guān);2)圖象識別和檢索:現(xiàn)有識別算法準(zhǔn)確度都不理想,且易受數(shù)據(jù)擾動干擾.通過組合能提高性能;31語音識別和理解:語音識別問題可以用與文本分類問題類似的方法加以解決;笆網(wǎng)絡(luò)導(dǎo)航:為用戶行為和偏好排序;5)手寫字符識別:Schwenk和Bengio將AdaBoost與神經(jīng)網(wǎng)絡(luò)于手靠褊哥用.3本章小結(jié)本章在概要介紹Boosting系列學(xué)習(xí)算法發(fā)展過程的基礎(chǔ)上,重點(diǎn)介紹其中的代表算法:AdaBoost算法.該算法以弱分類器為基礎(chǔ),通過多輪針對訓(xùn)練集的循環(huán)學(xué)習(xí)訓(xùn)練,構(gòu)造一個(gè)預(yù)測函數(shù)系列,通過加權(quán)組合得到分類性能更優(yōu)的強(qiáng)分類器.AdaBoost算法在數(shù)據(jù)挖掘的眾多領(lǐng)域得到了很好的應(yīng)用,本文將以樸素貝葉斯分類模型為弱分類器,通過AdaBoost算法對其訓(xùn)練加強(qiáng),得到最終的用于預(yù)測權(quán)證升跌趨勢的強(qiáng)分類器模型.第四章權(quán)證分類預(yù)測模型本文的第二,三章已經(jīng)完成了對相關(guān)數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)算法的介紹,在此基礎(chǔ)上,本章將首先介紹權(quán)證升跌趨勢預(yù)測問題的相關(guān)背景知識,然后重點(diǎn)介紹本文提出的股票權(quán)證升跌趨勢分類預(yù)測模型的理論基礎(chǔ)及其建模步驟..1問題的描述與挑戰(zhàn).1.1問題的描述本文的主要目標(biāo)是根據(jù)股票權(quán)證產(chǎn)品任一個(gè)交易日的相關(guān)市場交易信息,預(yù)測該權(quán)證下一個(gè)交易日的升跌趨勢.本文嘗試把權(quán)證的升,跌分別用正,負(fù)兩種狀態(tài)來記錄,把權(quán)證產(chǎn)品價(jià)格的上升記為,+1,,對應(yīng)的把權(quán)證產(chǎn)品價(jià)格的下跌記為t一1?.通過這樣的處理,股票權(quán)證在下一個(gè)交易日的升跌趨勢預(yù)測就轉(zhuǎn)化為數(shù)據(jù)挖掘方面的兩類數(shù)據(jù)的分類問題.本實(shí)驗(yàn)處理的股票權(quán)證數(shù)據(jù)是分別來源于上海證券交易所和深圳證券交易所的股票權(quán)證產(chǎn)品的真實(shí)歷史交易數(shù)據(jù).每個(gè)股票權(quán)證產(chǎn)品獨(dú)立以一個(gè)數(shù)據(jù)集記錄,具體的數(shù)據(jù)樣本如表4—1所示:表4—1數(shù)據(jù)樣本成交名稱口期時(shí)間開盤前收成交量【股】成交金額【元】均價(jià)筆粉&高最低收盤寶鋼J'rB1 20 05. 1 2_79: 3 0 1. 6 8 3 1. 67 8 1. 6 89 1. 6831. 6853849,750TOC\o"1-5"\h\z6481363 1. 683 4年輛J'IB1 20 05. 1 2. 710: 3 0 1. 6 8 9 1. 6 8 5 1. 80 6 1 . 6531 . 8053000177385271484291. 7 57 650寶鋼JTBI2005.12.711:301.8111.8051.861.7831.8472999634245454384961.8186 0 7寶鋼JTB12005.12-7 14: 0 a 1 . 8 4 8 1. 84 7 1. 8 5 1. 7 9 2 1. 8281968517763591011841.8246 9 1寶鋼]TBI2005.12. 7 15: 0 ( 3 1. 8 2 8 1. 8 2 8 1. 8 31 1 . 6 86 1. 7442680701444687710721.74 8 571寶鋼JTB12005.12-89;301.761.'7421.7651.7531.762517798291170771.764寶鋼JTB12005. 1 2-81 0: 3 f 1 1. 7 6 1. 7 6 2 1.7 9 3 1. 686 1. 704180114034121109551. 7 3255 0寶鋼JTB12005. 1 2_81 1: 3 1 3 1. 7 0 31. 7 0 41. 7 2 4 1. 65 4 1. 7051205175522045555841. 6976 64嚎鋼J'rB120[)5.12-814:0C1.7061.7051.7431.681.681190702402041295361.714611至鋼JTB12005.12-815:0(31.6811.681.7051.666L71005133121694668161.686605每條記錄表示該股票權(quán)證產(chǎn)品在特定的一個(gè)交易目的一定時(shí)間段的價(jià)格,交易量等波動情況.每個(gè)交易日分為五個(gè)時(shí)間段記錄,如上表所示.對應(yīng)的各列屈性主要是反應(yīng)權(quán)證價(jià)格波動,交易量波動的相關(guān)指標(biāo).本文最后建立的預(yù)測模型所用的每個(gè)樣本數(shù)據(jù)將以天為單位,為此建模過程中需要把各交易日對應(yīng)的五個(gè)時(shí)間段的相關(guān)信息通過一定的算法處理整合,合成一條記錄,該記錄以天為單位.經(jīng)處理后的數(shù)據(jù)集中的每個(gè)交易日對應(yīng)的記錄其類別標(biāo)志將由下一個(gè)交易日的信息決定:若該權(quán)證產(chǎn)品的平均價(jià)格在下一個(gè)交易日上升,則該交易日對應(yīng)記錄屬于正類,類標(biāo)為,+1,;若該權(quán)證產(chǎn)品的平均價(jià)格在下一個(gè)交易日下跌,則該交易日對應(yīng)記錄屬于負(fù)類,類標(biāo)為‘一1'.本文希望通過對正負(fù)兩類樣本具體行為特征的分析,構(gòu)造用于預(yù)測股票權(quán)證升跌趨勢的分類模型:當(dāng)輸入某股票權(quán)證產(chǎn)品任一交易日的相關(guān)交易信息,通過本文構(gòu)建的分類模型,我們可以預(yù)測該股票權(quán)證在下一交易日的升跌趨勢..1.2建模的挑戰(zhàn)性本文的任務(wù)是對股票權(quán)證產(chǎn)品的真實(shí)歷史交易數(shù)據(jù),建立一個(gè)數(shù)據(jù)挖掘的分類模型,挖掘能反映股票權(quán)證產(chǎn)品升跌趨勢的行為特征,進(jìn)而能夠?qū)斎氲墓善睓?quán)證任一交易日的相關(guān)交易信息,預(yù)測其在下一交易日的升跌趨勢.但數(shù)據(jù)挖掘只是一個(gè)概念,對不同的數(shù)據(jù)集,會遇到不同程度的困難,必須根據(jù)實(shí)際情況選用不同的數(shù)據(jù)挖掘方法,并作出適當(dāng)?shù)男薷牟拍苡行У亟鉀Q實(shí)際問題.針對上述問題的建模過程中,主要面臨以下的三大挑戰(zhàn):(1)由表4—1我們可以看到,數(shù)據(jù)集各列屬性都是連續(xù)值屬性,對于分類問題,我們一般的處理方法是:各屬性列對應(yīng)有一個(gè)狀態(tài)集合States—{So,S:,...?S),每條記錄上各個(gè)屬性對應(yīng)狀態(tài)集合中的一種狀態(tài).針對數(shù)據(jù)集屬性列出現(xiàn)連續(xù)值的情況,我們必須用一定的算法對連續(xù)值作離散化處理,同時(shí),該離散化過程能盡量的保持原來屬性列的相關(guān)信息.(2)本文最終建立的分類預(yù)測模型每個(gè)樣本數(shù)據(jù)將以天為單位,即對輸入的股票權(quán)證任一交易日的相關(guān)交易信息,預(yù)測其在下一交易日的升跌趨勢.相應(yīng)的,我們在構(gòu)建分類預(yù)測模型的訓(xùn)練過程中,所用到的數(shù)據(jù)樣本也需要以天為單位,即每個(gè)訓(xùn)練集樣本表示的是權(quán)證產(chǎn)品一個(gè)交易日的相關(guān)市場信息.而原始數(shù)據(jù)集中,每個(gè)數(shù)據(jù)樣本表示權(quán)證產(chǎn)品在特定的一個(gè)交易日的一定時(shí)間段的價(jià)格,交易量等波動情況,每個(gè)交易Et被分為五個(gè)記錄.對此問題,也需要把每個(gè)交易日對應(yīng)的五條記錄通過一定的處理方式,轉(zhuǎn)換為以一個(gè)交易日為單位的一條記錄(一個(gè)數(shù)據(jù)樣本).(3)由于證券產(chǎn)品的市場交易受一定的交易規(guī)則約束,如權(quán)證產(chǎn)品的漲停,跌停,原數(shù)據(jù)集合的某些樣本出現(xiàn)特殊情況.若漲停,跌停等時(shí)間較長,則樣本的某些屬性出現(xiàn)方差為0的情況,如下表4-2所示.這使得以統(tǒng)計(jì)量為基礎(chǔ)的算法無法應(yīng)用,因?yàn)楹芏嗟慕y(tǒng)計(jì)量以方差為基礎(chǔ).表4—2權(quán)證出現(xiàn)漲停情況成交名稱日期時(shí)間開盤前收成交量【股】成交金額【?!烤鶅r(jià)筆編高最低收盤寶鋼JTBI2005.8.229:301.2630.6881.2631.2631.26346662288589344681.26212寶鋼JTB12005—8—2210:301.2631.2631.2631.261.26374077632935151481.262531TOC\o"1-5"\h\z寶鋼JTB12005.8.2211:301.2631.2631.2631.2631.263686686486728481.26 24 85寶鋼JTB1200 5. 8.22 1 4: 00 1. 2 631. 2 631. 2 6 3 1 . 2 6 3 1. 263296552837454561.26 24 95寶鋼JTB12005. 8-22 1 5: 00 1. 2 631. 2 631 . 2 6 3 1 . 2 6 3 1. 2638584360108420641.2 63 4654.2數(shù)據(jù)預(yù)處理對于兩類數(shù)據(jù)的分類問題,用數(shù)學(xué)語言可以表述為:已知k維訓(xùn)練樣本集合*={五Ii=l,2,...?n)—{@o,Xiz, ,x,j1i=1,2,...?n);對應(yīng)的類標(biāo)集合為咒G{+1,-U.求分類函數(shù),O)滿足fCX,)=咒.一旦分類模型建立,即分類函數(shù)確立,對任意測試樣本j=R,夏,…,五),代入分類模型,O),若,(j);+1,則j被分為正例;反之,若,(j)=一1,Nx被分為負(fù)例.若把分類函數(shù),0)寫成概率函數(shù)形式,以墨(z)表示樣本x屬于正類。+1,的概率,則上述模型可以表示如下:砸,=f其中f是固定的閾值.下面先介紹實(shí)驗(yàn)的主要思想:如何將連續(xù)的屬性值離散化;用何種算法構(gòu)造最后的分類模型..在數(shù)據(jù)集合經(jīng)過預(yù)處理的基礎(chǔ)上,各屬性列單獨(dú)應(yīng)用s0M聚類算法處理:對于每個(gè)屬性列,以交易日為單位將該屬性列分成等長鏈群的集合(每條鏈的長度為5),對這個(gè)等長鏈群應(yīng)用S0M聚類算法聚類,聚類結(jié)果是把每條鏈和一個(gè)狀態(tài)值對應(yīng)起來.通過這樣的處理,一個(gè)交易日對應(yīng)的該屬性列的五個(gè)時(shí)間段的值變成了一個(gè)狀態(tài)點(diǎn).這很好的解決了上述建模中的挑戰(zhàn)問題(1),(2)一—新生成的樣本以一個(gè)交易日為單位,而且每個(gè)屬性列對應(yīng)的是一個(gè)狀態(tài)值,成功的離散化.經(jīng)過S0M算法離散化后的樣本集合,我們可以選用一定的分類模型進(jìn)行訓(xùn)練學(xué)習(xí),本文選用了樸素貝葉斯作為基本分類器,并使用AdaBoost算法對樸素貝葉斯模型進(jìn)行加強(qiáng)學(xué)習(xí),最終構(gòu)造出強(qiáng)分類器,股票權(quán)證升跌波動趨勢分類預(yù)測模型即構(gòu)造成功.整個(gè)分類預(yù)測模型的構(gòu)造過程如下圖4—3所示:圖4—3分類預(yù)測模型構(gòu)造過程下面將具體介紹上述模型的構(gòu)建過程.4.2.1數(shù)據(jù)預(yù)處理現(xiàn)實(shí)世界中的數(shù)據(jù)一般不完整,含噪音或者數(shù)據(jù)不一致.數(shù)據(jù)預(yù)處理技術(shù)可以改進(jìn)數(shù)據(jù)的質(zhì)量,從而有助提高其后的數(shù)據(jù)挖掘模型的精度和性能.高質(zhì)量的決策模型必然依賴于高質(zhì)量的數(shù)據(jù),因此,數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過程中的重要步驟.檢測數(shù)據(jù)的某些異常情況,合理的調(diào)整,規(guī)范化數(shù)據(jù),這是模型構(gòu)建的初始階段的必要工作.本文的數(shù)據(jù)預(yù)處理主要包括:屬性列的篩選,屬性列的規(guī)范化,各交易日真實(shí)類標(biāo)的確立.(1)屬性列的篩選原數(shù)據(jù)樣本集中各屬性列主要是反映權(quán)證價(jià)格,交易量波動的相關(guān)指標(biāo).其中屬性列“成交筆數(shù)”反映的是在對應(yīng)的時(shí)間段內(nèi)交易權(quán)證的總次數(shù),但對權(quán)證產(chǎn)品更具影響的應(yīng)該是權(quán)證的交易量,在“成交量【股】”,“成交金額【元】”兩屬性列中有更具體的反映,所有該屬性列將不被考慮.另據(jù)引言中對股票權(quán)證的介紹,其實(shí)質(zhì)是股票期權(quán),所以權(quán)證價(jià)格的變化受標(biāo)的股票價(jià)格變化的影響.所以加入屬性列“標(biāo)的股票均價(jià)”,該列數(shù)據(jù)反映的是對應(yīng)時(shí)間段內(nèi)標(biāo)的股票的平均價(jià)格.根據(jù)該屬性列的篩選標(biāo)準(zhǔn),數(shù)據(jù)集由表4-1轉(zhuǎn)化為以下表4-4的形式:表4—4經(jīng)篩選后的屬性列標(biāo)的名稱日期時(shí)間開盤前收最高最低收盤成交量I股】成交金額【司均價(jià)股票價(jià)格寶鋼J'1'B12005—12.79:301.6831.6781.6891.6831.685384975064董詢J?BI,2005—'12,2710:301.6891.6851.8061.6531.8053000177385會鋼摒¥2七V2.711:301.8111.8051.861.7晶43Tbj28 72.9?9oG1384必48544413賴419$21卜9&118演.359)11841.8243.97寶鋼J—/'BI2005,12,715:001.8281.8281.8311.6861.7442680701444687710721.7483.96寶鋼JTBI2005.12_89:301.761.7421.7651.7531.762517798291170771.763.97寶鋼/'I'B12005.12.810:301.761.7621.7931.6861.7041801140343121109551.7323.96螢血.rrBI2005.12_'811:301.7031.7041.7241.6541.7051205175522B45555841.6973.94生鋼JTB12005.12-814:0131.7061.7051.7431.681.681190702402041295361.7143.92寶鋼JTB12005.12.815:0C1*6811.681.7051.6661.71005133121694668161.6863.95(2)屬性列的規(guī)范化數(shù)值型屬性的規(guī)范化,就是將屬性按比例縮放,使之落入一個(gè)小的特定區(qū)域,它可以改進(jìn)涉及距離度量的挖掘算法的精度和有效性.本模型將屬性列規(guī)范化的主要作用包括:對屬性列的分析,我們更關(guān)注的是權(quán)證價(jià)格,交易量波動的趨勢,而不是絕對量的變化,規(guī)范化更能反映各指標(biāo)的變化趨勢:經(jīng)規(guī)范化處理后,屬性列的值落入一個(gè)小的特定區(qū)域,減少原數(shù)值的數(shù)量級數(shù),有助于加快模型訓(xùn)練過程中的效率.本文采用的規(guī)范化方法具體是:每一屬性列內(nèi),對應(yīng)同一交易日的五個(gè)數(shù)值

(a。,n:值的平均值:(a。,n:值的平均值:然后以該五個(gè)數(shù)值與平個(gè)值分別是:匕窄雪作為(J屬,即規(guī)范化、2向五)(面a1如下圖4—5所示.9名稱Fl期時(shí)間成交金額1元】乙 ,.寶鋼JTB12005—12—289然后以該五個(gè)數(shù)值與平個(gè)值分別是:匕窄雪作為(J屬,即規(guī)范化、2向五)(面a1如下圖4—5所示.9名稱Fl期時(shí)間成交金額1元】乙 ,.寶鋼JTB12005—12—289:302222587.,匍030574902寶鋼JTB12005.12.2810:3011381565654092寶鋼JTB12005.12.2811:3012469寶鋼JTB12005.12.2814:0058545568726931840.8Q5379057寶鋼.ITB12005.12.2815:0064186592寶鋼JTB12005.12.299:3011024022910:30124976054均值為寶鋼JTB12005—12.2911:30943779120.0148356391.6818724961.270096225寶鋼JTB12005.12.2914:006866062474307686.40.92400433寶鋼JTBI2005.2915:00824214401.10919131原數(shù)值規(guī)范化后的值圖4一一5規(guī)范化過程(3)交易日真實(shí)類標(biāo)的確立屬性列“均價(jià)”表示對應(yīng)的時(shí)間段內(nèi)交易權(quán)證的平均價(jià)格,原數(shù)據(jù)集合中每一個(gè)交易日對應(yīng)五個(gè)等長的時(shí)間段,以這五個(gè)時(shí)間段的均價(jià)的平均值作為本交易日的日平均價(jià)格.求出原數(shù)據(jù)集合中各交易日的權(quán)證的平均價(jià)格,以price(i)表示第f個(gè)交易日的日平均價(jià)格,用Labe1(i)表示第i個(gè)交易日的真實(shí)類標(biāo),則有:砌嘶)=攔{;州pri鮑Jc即正類’+1即正類’+1’表示下一《交勺日,投哪『磔的彳/上千,警3b(I交易日該股票權(quán)證的價(jià)格下跌.若(4 4)4.2.2數(shù)據(jù)的離散化各屬性列的數(shù)值經(jīng)過規(guī)范化處理后,本節(jié)利用S0M聚類算法分別在各屬性列內(nèi)以一個(gè)交易日為單位(對應(yīng)該屬性列的5個(gè)數(shù)值)進(jìn)行聚類,通過該聚類處理,我們可以一次性解決4.1,2節(jié)關(guān)于建模的挑戰(zhàn)性中的第一,第二兩個(gè)難題,即各屬性列的值我們以離散化的狀態(tài)點(diǎn)表示;各交易口原來對應(yīng)的五個(gè)時(shí)間段的記錄被轉(zhuǎn)化為代表該交易15t的一條記錄.下面具體講述該處理方法.對于要把每個(gè)交易日對應(yīng)的五條記錄通過一定的處理方式,轉(zhuǎn)換為以一個(gè)交易日為單位的一條記錄這個(gè)問題,傳統(tǒng)上一般有兩種策略:一種是每個(gè)交易日對應(yīng)的所有記錄(本文處理的數(shù)據(jù)每個(gè)交易日對應(yīng)5條記錄),分別統(tǒng)計(jì)各屬性列的統(tǒng)計(jì)量,如均值,方差,期望,偏度,峰度等,作為該交易日對應(yīng)于該屬性列的值.但這樣的處理存在不足:如上文所述,某些交易日因?yàn)闈q停,跌停等原因,權(quán)證價(jià)格,交易量在各時(shí)間段沒有變化,針對這樣的情況提取統(tǒng)計(jì)特征,其意義不大:另外就是單純的統(tǒng)計(jì)特征提取,很難全面的反映原屬性列的相關(guān)信息.另外一種策略是通過一定的聚類算法,將原來的每條記錄以一種狀態(tài)表示,則每一個(gè)交易日對應(yīng)的五個(gè)記錄以時(shí)間的先后順序變成一個(gè)長度為5的狀態(tài)鏈,對應(yīng)于這樣的狀態(tài)鏈群,應(yīng)用馬爾科夫模型(MarkovMode1)進(jìn)行分類預(yù)測f45,461.但應(yīng)用馬爾科夫模型,上述的狀態(tài)鏈需要符合馬爾科夫理論的無后效性,即某一時(shí)刻的狀態(tài)變化只受前一時(shí)刻狀態(tài)的影響,不受其它時(shí)刻狀態(tài)的影響.這是一個(gè)比較強(qiáng)的假設(shè)條件,應(yīng)用在上述聚類所得的每個(gè)交易日對應(yīng)的狀態(tài)鏈,即假設(shè)同一個(gè)交易日,某時(shí)間段內(nèi)權(quán)證的相關(guān)波動變化只受前一時(shí)間段相關(guān)因素的影響,與更前面的時(shí)間段無關(guān),這對于股票權(quán)證這一實(shí)際問題具有一定的不合理性.本文所采取解決該問題的方法是:分別對各屬性列獨(dú)立處理,對于每個(gè)屬性列,以交易H為單位,各交易日對應(yīng)的五個(gè)屬性值構(gòu)成長度為5的數(shù)據(jù)鏈,對這些數(shù)據(jù)鏈應(yīng)用S0M聚類算法進(jìn)行聚類處理,聚類的結(jié)果:每條鏈和一個(gè)狀態(tài)值對應(yīng)起來.這就代表對應(yīng)交易日在該屬性列上的狀態(tài)取值.通過這樣的處理,將原來每個(gè)交易日對應(yīng)的五個(gè)記錄轉(zhuǎn)換為對應(yīng)交易口的一條記錄,同時(shí)也將屬性列的取值離散化:以該屬性列的S0M網(wǎng)絡(luò)其中一個(gè)狀態(tài)值表示.因?yàn)槭菢?gòu)建分類預(yù)測模型,對于每個(gè)屬性列,我們關(guān)注的是在一個(gè)交易日,股票權(quán)證產(chǎn)品對應(yīng)該指標(biāo)的數(shù)量上的波動變化趨勢.而S0M聚類算法有很好的保持原來樣本問拓?fù)浣Y(jié)構(gòu)的性質(zhì),應(yīng)用在以交易口為單位屬性列的數(shù)據(jù)鏈群聚類上,表現(xiàn)出來的就是聚類的結(jié)果能很好的反映數(shù)據(jù)鏈之間波動變化趨勢的相似程度.實(shí)驗(yàn)過程中具體的s0M處理如下圖4—6所示:交易日屬性1屬性2屬性n坪堵‘前’甥嚼,瑞,Dayi碟‘謖堵’瑙瑤,罐1增?xk(22)榔Dayk嘏璞《:,/ii\I屬性列1內(nèi)屬性列2內(nèi)屬性Nn內(nèi)I用s。M聚類用S0M聚類用SOM聚類1\Jr1/交易日屬性1屬性2屬性”Dayig”IE2,sj4'Dayk掣碰2,s〃注其中{S(iJ,掣}esoo,拇",掣}ES圓,…",{滬,掣門”,其降,R。,Sn,分別為各屬性列的類標(biāo)集合圖4一一6S0M離散化過程通過S0M對各屬性列的分別聚類處理,新生成的股票權(quán)證數(shù)據(jù)集合每條記錄以一個(gè)交易日為單位,對應(yīng)的各屬性列上的值為該屬性列有限類標(biāo)集合中的一個(gè)類標(biāo).這樣的樣本集合已經(jīng)可以直接應(yīng)用于構(gòu)建樸素貝葉斯分類器S0M算法離散化過程的偽代碼如下表4—7所示:表4—7SOM算法過程各屬性列的S0M離散化過程輸入:取連續(xù)值的各屬性列*輸出:以狀態(tài)值表示的各屬性列算法:Step]:指定各屬性列的聚類類數(shù),各列聚類數(shù)目可以相同或不同:Step2:Forattribute=l:n(所有屬性列都分別作SOM處理)Step3:對應(yīng)于當(dāng)前的屬性列,同一交易H的對應(yīng)該屬性列的五個(gè)值按時(shí)間順序排列構(gòu)成一個(gè)長度為5的鏈;所有的這些鏈構(gòu)成的鏈群記為:Chainset(attribute);Step4.SOM(Chain—set(attribute)):Step5:對應(yīng)上述SOM網(wǎng)絡(luò),確定各交易日屬性值序列鏈對應(yīng)的類別,以此類標(biāo)為該交易日對應(yīng)此屬性的狀態(tài)值:Step6.—End.4.3分類器的構(gòu)造通過對樣本數(shù)據(jù)的預(yù)處理和SOM對各屬性列的離散化處理,新生成的數(shù)據(jù)集合每條記錄以一個(gè)交易日為單位,各屬性列上的值為該屬性列有限類標(biāo)集合中的一個(gè)類標(biāo).這樣的樣本集合已經(jīng)可以直接應(yīng)用于構(gòu)建樸素貝葉斯分類器.本文的分類器構(gòu)造是以樸素貝葉斯(NaiveBayesModel)分類器為弱分類器,用AdaBoost算法來訓(xùn)練加強(qiáng),以構(gòu)造最終的強(qiáng)分離器,作為股票權(quán)證升跌趨勢的分類預(yù)測模型.

4.3.1樸素貝葉斯分類器的構(gòu)造對于一個(gè)給定的數(shù)據(jù)樣本集合,我們根據(jù)第二章對樸素貝葉斯模型的原理介紹,可以清晰的構(gòu)造一個(gè)樸素貝葉斯模型.假設(shè)類別集合為c=鐫,C:,…,ck),屬性列集合x={墨,X:,…,以},對于本文的數(shù)據(jù)樣本,1至過_s0M對各屬性列的離散化處理,各屬性列五(1sfsn)的取值范圍是有限的狀態(tài)集合.若每個(gè)屬性列對應(yīng)的狀態(tài)數(shù)目相同,設(shè)為m,則有:置=饑,,玉2,??.,%°}0sfsn).為了確定任意樣去rm才力I,干7r矗巾勺所破脅狗內(nèi)需要*祚驗(yàn)概率:酬恥警兒因?yàn)镻(蓋)對于所有k類都有相同的值,所以可以看作常數(shù),我們只要考慮5」):)別計(jì)算卜列概率值:占(4—7)5」):)別計(jì)算卜列概率值:占(4—7)其中5,表示訓(xùn)練集中屬于c」類樣本的個(gè)數(shù),s表示訓(xùn)練集中總樣本的個(gè)數(shù)P%oh)5詈,1小心k婦礎(chǔ)h其中5,表h川的創(chuàng)囑4類樣本的個(gè)數(shù),&加屬性墨上其值為嘲G墨,并且屬于C』類的樣本個(gè)數(shù)在(4—6)式所有的概率值都得以確定的情況下,我們可以根據(jù)最大后驗(yàn)概率原則,為樣本j=",屯,…,’)確定類標(biāo).基于該數(shù)據(jù)樣本集合的樸素貝葉斯模型即告完成.4.3.2貝葉斯分類器的AdaBoost訓(xùn)練在具體的實(shí)驗(yàn)過程中,我們需要把總數(shù)據(jù)集合隨機(jī)的劃分成兩個(gè)獨(dú)立的集合:訓(xùn)練集(Trainset)和測試集(Testset).其中訓(xùn)練集用于導(dǎo)出分類模型,測試集用于對分類模型性能的評估.構(gòu)造樸素貝葉斯(NaiveBayesianMode1)弱分類器,繼而用AdaBoost算法訓(xùn)練加強(qiáng),得到強(qiáng)分離器的構(gòu)造過程將在訓(xùn)練集中完成,訓(xùn)練集中各樣本的真實(shí)類標(biāo)是已知的.AdaBoost算法是對弱分類器一個(gè)循環(huán)訓(xùn)練的過程,其實(shí)質(zhì)是讓弱分類器在訓(xùn)練中更偏重對較難分類的訓(xùn)練樣本的學(xué)習(xí),通過學(xué)習(xí)更新弱分類器的相關(guān)參數(shù).在每次的訓(xùn)練過程中,我們需要從訓(xùn)練集中抽取?定比例的樣本作該輪訓(xùn)練的內(nèi)部訓(xùn)練集.但由于訓(xùn)練過程中對各樣本權(quán)重的不斷調(diào)整:上一輪訓(xùn)練中被錯(cuò)分的樣本權(quán)重會相應(yīng)加大,不同樣本被抽取到的概率各不相同,被錯(cuò)分的樣本更容易被選為下輪訓(xùn)練的內(nèi)部訓(xùn)練集.本文實(shí)驗(yàn)中AdaBoost訓(xùn)練過程由以下步驟構(gòu)成:第一步:從訓(xùn)練集中隨機(jī)選取本輪的內(nèi)部訓(xùn)練集,各樣本被選取的概率根據(jù)其權(quán)重的不同而變化;第二步:對于給定的內(nèi)部訓(xùn)1練集合,根據(jù)4.3.1節(jié)的步驟構(gòu)造樸素貝葉斯模型:第三步:利用該樸素貝葉斯模型對訓(xùn)練集中所有交易日的權(quán)證數(shù)據(jù)樣本進(jìn)行升跌趨勢預(yù)測,根據(jù)該次分類預(yù)測結(jié)果決定是否結(jié)束整個(gè)AdaBoosting訓(xùn)練過程(或者訓(xùn)練的次數(shù)已經(jīng)超過指定的最大訓(xùn)練次數(shù),也要結(jié)束訓(xùn)練).若要結(jié)束訓(xùn)練,則轉(zhuǎn)至第五步:若訓(xùn)練還要繼續(xù),則繼續(xù)第四步.第四步:根據(jù)第三步的該輪弱分類器的分類結(jié)果,調(diào)整訓(xùn)練集中所有樣本的權(quán)重,對本輪被錯(cuò)分的樣本加大其權(quán)重.記錄下本輪弱分類器的相關(guān)信息,繼續(xù)轉(zhuǎn)至第一步進(jìn)行下一輪的訓(xùn)練.第五步:若訓(xùn)練過程結(jié)束,輸出各次訓(xùn)練得到的弱分類器,根據(jù)其不同的分類效果,分不同的權(quán)重比例加和輸出,得到最終的強(qiáng)分類器,即本文的股票權(quán)證升跌波動趨勢分類模型.NaiveBayesMode1-FAdaBoosting模型其算法過程如F:Input:TrainSetS;{(■,y1),(x2,Y2),...?k,咒))andmaximaliterativenumberT..Initia1izeweightsforeachsampie:Defau1t-weight(i)=一JI.,i=1,2,訂; n./ori=1?2*...?T(l)Se1ectsamp1esfromthetrainsettoformtheinnertrainsetforthistime.Theprobabi1itytobeselected^Ufeachsampleintrainsetisrelatedt

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論