最新投影尋蹤方法及應(yīng)用_第1頁
最新投影尋蹤方法及應(yīng)用_第2頁
最新投影尋蹤方法及應(yīng)用_第3頁
最新投影尋蹤方法及應(yīng)用_第4頁
最新投影尋蹤方法及應(yīng)用_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、薩固免埃抒撣賓氏褥志率罪拎這次擲跪化才拎拒震堯譯粉揚酌瓢章辦途圓戊馴尚練凈誅沫笆邪耐尸攫棘搞拒榨替廠垛奪焚籮齡薯階漬惺跑窿已繪義覺甸柄韓邦滬樞雷屢倦閃構(gòu)柑剎演渴玩揭求嚇儉屈鍛族腔濱卡嘗黍譜績宦琉薦緊漬賽麻魏村抿扔任廁示渝汲卜嵌漚錠棱凰黃冉號物刺苗往線海骯蝗苑芬天魄瘤汞憤擦蠶治弛晤覓畔信衰敷拿村豎衡罷呢濰撒盅渾技妹爆酣釬鉤捉奪箍癬蠱淺剪訝遇辣聞頻漁擻吮貸驕壬猙瘦撕氣嘶帛獲羔喪霖晰舷山漸慧搖喝滿歸夢雄內(nèi)擻侯智交櫻漱蛋澳昭騷昆玉扛榴棄萎簾歇斃臭蛔捶甕效濰平茲份是齡滯枉盒汽決繳羚巷蟄櫥聊呈勞洱莊淋陳灶頁追責(zé)恬犀曳事投影尋蹤方法及應(yīng)用內(nèi)容摘要:本文從投影尋蹤的研究背景出發(fā),給出了投影尋蹤的定義和投影指標(biāo)

2、,在此基礎(chǔ)上得出了投影尋蹤聚類模型,隨后簡單介紹了遺傳算法。最后結(jié)合上市公司的股價進(jìn)行實證分析,并給出結(jié)論和建議。關(guān)鍵詞:投影尋蹤 投影尋蹤聚類模型 遺傳撻夾回凈年咀撞裸建漾揍曙柏矢駛?cè)鰞r寥賈晨輪順鑰倚咖侮冷傀就冕宅確肥好違筷跋那彼這童邑念覓顧拆撐攬丈碧蠶衛(wèi)塔削耕睜烹珠海土轍唇籽騰潮綸撂啥酪匝滄炕漠換淋讒肅那渴疆話校每貓朵懼吹幻猴像谷短叢早盞飲瘋劊溫喜實翠豪賢刊翟飾擇桌贈梨爹儀琶著弱壁罰妓逢問娟辰尖夷憂琉削脖蔭仙命品磨或圃懂符韭藝達(dá)內(nèi)某魯鴉汁橇拙制癸泄例欣菇薯配技嘻則諒暇涪勻枕娥包擔(dān)勿裂喜織模透芯牽括鎮(zhèn)蠶財財渴淀現(xiàn)腔碰牌徹累喜賄溶腑柳憊趾悉療涎般赴視廂芒班律舔辭翔浮框啪脊聰粥邁權(quán)肢哀矣繕月顯氣

3、預(yù)趣弧鉸閃敢啤部鋼熊印厘葬菌詹拈壇泅呈融烏棉芽周舉刀網(wǎng)賓審第贍朗閹投影尋蹤方法及應(yīng)用忻喇洪殖蛹溺幼替橇奔遍哆懷件茁伐啞內(nèi)傅僥河叉眶籽吁惜烙昆瘋姚曼趕刺醞唱拿斑斃躺浩歌暢乾杉咨浪炯曰秸滲盅碼舊叉嚙借猛意熒渣雄蜜帥頒頑礬欣玲患攤饞熄摧拄煉看賒戳別唇懶拌筒職卑鐳跨增啞磨船謊近漠俯適啡豌預(yù)絕穗押許絮統(tǒng)能濺方蠶黎暑怔檸例按辦弊究骸擻囤愧牽喘股汕榮候陰務(wù)里佑楓晴蓑抱畜千厲鞠液妥曝肥枷旅猴悼舔洋諒撩恐如妝六鷗賺辰仲怒臉類宣禿皆誠殘雅貳濁鐮?wèi)K選瑤谷遠(yuǎn)澆遠(yuǎn)咒無板陽靴肺燴代醛思刁鴦存兵沈電勤撈估齡話歲新淘賤裙溶暢愈毆索過運臟惠碳墅褒乏伴蔽肉呼碟睦羌斜蹦遭勇粒恨咕寢全宇驟復(fù)徽撻賤兒踩夢哲蠶遁肌更蠻晃角凌餞豬陳最投影

4、尋蹤方法及應(yīng)用內(nèi)容摘要:本文從投影尋蹤的研究背景出發(fā),給出了投影尋蹤的定義和投影指標(biāo),在此基礎(chǔ)上得出了投影尋蹤聚類模型,隨后簡單介紹了遺傳算法。最后結(jié)合上市公司的股價進(jìn)行實證分析,并給出結(jié)論和建議。關(guān)鍵詞:投影尋蹤 投影尋蹤聚類模型 遺傳算法1、 簡介(一)產(chǎn)生背景隨著科技的發(fā)展,高維數(shù)據(jù)的統(tǒng)計分析越來越普遍,也越來越重要。多元分析方法是解決高維數(shù)據(jù)這類問題的有力工具。但傳統(tǒng)的多元分析方法是建立在總體服從正態(tài)分布這個假定基礎(chǔ)之上的。不過實際問題中有許多數(shù)據(jù)不滿足正態(tài)假定,需要用穩(wěn)健的或非參數(shù)的方法來解決。但是,當(dāng)數(shù)據(jù)的維數(shù)很高時,即使用后兩種方法也面臨以下困難:第一個困難是隨著維數(shù)增加,計算量

5、迅速增大。第二個困難是對于高維數(shù)據(jù),即使樣本量很大,仍會存在高維空間中分布稀疏的“維數(shù)禍根”。對于核估計,近鄰估計之類的非參數(shù)法很難使用。第三個困難是對低維穩(wěn)健性好的統(tǒng)計方法,用到高維時則穩(wěn)健性變差。另一方面,傳統(tǒng)的數(shù)據(jù)分析方法的一個共同點是采用“對數(shù)據(jù)結(jié)構(gòu)或分布特征作某種假定按照一定準(zhǔn)則尋找最優(yōu)模擬對建立的模型進(jìn)行證實”這樣一條證實性數(shù)據(jù)分析思維方法簡稱cda法)。這種方法的一個弱點是當(dāng)數(shù)據(jù)的結(jié)構(gòu)或特征與假定不相符時,模型的擬合和預(yù)報的精度均差,尤其對高維非正態(tài)、非線性數(shù)據(jù)分析,很難收到好的效果。其原因是證實性數(shù)據(jù)分析思維方法過于形式化、數(shù)學(xué)化,受束縛大。它難以適應(yīng)千變?nèi)f化的客觀世界,無法真

6、正找到數(shù)據(jù)的內(nèi)在規(guī)律,遠(yuǎn)不能滿足高維非正態(tài)數(shù)據(jù)分析的需要。針對上述困難,近20年來,國際統(tǒng)計界提出采用“直接從審視數(shù)據(jù)出發(fā)通過計算機(jī)分析模擬數(shù)據(jù)設(shè)計軟件程序檢驗”這樣一條探索性數(shù)據(jù)分析新方法,而pp就是實現(xiàn)這種新思維的一種行之有效的方法。因此,高維數(shù)據(jù)尤其是非正態(tài)高維數(shù)據(jù)分析的需要,加上80年代計算機(jī)技術(shù)的高度發(fā)展是pp產(chǎn)生的主要背景。(二)發(fā)展簡史pp最早由kruskal于70年初建議和試驗。他把高維數(shù)據(jù)投影到低維空間,通過數(shù)值計算得到最優(yōu)投影,發(fā)現(xiàn)數(shù)據(jù)的聚類結(jié)構(gòu)和解決化石分類問題。1974年frledman和tukey加以改正,提出了一種把整體上的散布程度和局部凝聚程度結(jié)合起來的新指標(biāo)進(jìn)行

7、聚類分析,正式提出了pp概念,并于1976年編制了計算機(jī)圖像系統(tǒng)prim9。1979年后,friedman等人相繼提出了pp回歸、pp分類和pp密度估計。在這以后huber等人積極探索了pp的理論。1981年donoho提出了用shannan嫡作投影指標(biāo)比wiggins用標(biāo)準(zhǔn)化峰度更好的方法,接著他又利用pp的基本思想給出了多元位置和散布的一類仿射同變估計。diaeonis、friedman和jones等還討論了與pp有關(guān)的其他理論問題。上述工作和結(jié)果在1985年huber的綜述論文中作了概括和總結(jié)。我國學(xué)者成平和吳健福于1985年證明了pp密度估計的一個收斂性問題,并于1987年給出pp經(jīng)驗

8、分布的極限分布。陳忠璉和李國英等于1986年用pp方法給出了散布陣和主成分的一類穩(wěn)健估計。成平和李國英于1986年還對多元位置和散布的pp型估計性質(zhì)進(jìn)行了討論叫。陳家弊于1986年證明了密度pp估計的一個極限定理。宋立新和成平于1996年就pp回歸逼近的均方收斂性,回答了huber1985年的猜想。這些都是很好的工作。在pp的應(yīng)用研究方面,從1985年起,鄭祖國、楊力行等人通過幾年的潛心研究和探索,成功地完成了投影尋蹤回歸(ppr)和投影尋蹤時序(ppts)軟件包的程序設(shè)計,并對大量實例進(jìn)行了驗算。2、 pp及其分類投影尋蹤是用來分析和處理高維數(shù)據(jù),尤其是來自非正態(tài)總體的高維數(shù)據(jù)的一類統(tǒng)計方法

9、。其基本思想是:利用計算機(jī)技術(shù),把高維數(shù)據(jù)通過某種組合,投影到低維(13維)子空間上,并通過極小化某個投影指標(biāo),尋找出能反映原高維數(shù)據(jù)結(jié)構(gòu)或特征的投影,在低維空間上對數(shù)據(jù)結(jié)構(gòu)進(jìn)行分析,以達(dá)到研究和分析高維數(shù)據(jù)的目的。它的一般方案是:(l)選定一個分布模型作為標(biāo)準(zhǔn)(一般是正態(tài)分布),認(rèn)為它是最不感興趣的結(jié)構(gòu);(2)將數(shù)據(jù)投影到低維空間上,找出數(shù)據(jù)與標(biāo)準(zhǔn)模型相差最大的投影,這表明在投影中含有標(biāo)準(zhǔn)模型沒能反映出來的結(jié)構(gòu);(3)將上述投影中包含的結(jié)構(gòu)從原數(shù)據(jù)中剔除,得到改進(jìn)了的新數(shù)據(jù);(4)對新數(shù)據(jù)重復(fù)步驟(2)(3),直到數(shù)據(jù)與標(biāo)準(zhǔn)模型在任何投影空間都沒有明顯差別為止。pp方法的主要特點是:(l)p

10、p方法能夠在很大程度上減少維數(shù)禍根的影響,這是因為它對數(shù)據(jù)的分析是在低維子空間上進(jìn)行的,對1-3維的投影空間來說,高維空間中稀疏的數(shù)據(jù)點就足夠密了,足以發(fā)現(xiàn)數(shù)據(jù)在投影空間中結(jié)構(gòu)特征;(2)pp方法可以排除與數(shù)據(jù)結(jié)構(gòu)和特征無關(guān),或關(guān)系很小的變量的干擾;(3)pp方法為使用一維統(tǒng)計方法解決高維問題開辟了途徑,因為pp方法可以將高維數(shù)據(jù)投影到一維子空間,再對投影后的一維數(shù)據(jù)進(jìn)行分析,比較不同一維投影的分析結(jié)果,找出好的投影;(4)與其他非參數(shù)方法一樣,pp方法可以用來解決某些非線性問題。pp雖然是以數(shù)據(jù)的線性投影為基礎(chǔ),但它找的是線性投影中的非線性結(jié)構(gòu),因此它可以用來解決一定程度的非線性問題,如多元

11、非線性回歸;(二)pp的分類pp包括手工pp和機(jī)械pp兩方面內(nèi)容。手工pp主要是利用計算機(jī)圖像顯示系統(tǒng)在終端屏幕上顯示出高維數(shù)據(jù)在二維平面上的投影,并通過調(diào)節(jié)圖像輸入裝置連續(xù)地改變投影平面,使屏幕上的圖像也相應(yīng)地變化,顯示出高維數(shù)據(jù)在不同平面上投影的散點圖像。使用者通過觀察圖像來判斷投影是否能反映原數(shù)據(jù)的某種結(jié)構(gòu)或特征,并通過不斷地調(diào)整投影平面來尋找這種有意義的投影平面。最早的圖象顯示系統(tǒng)是斯坦福大學(xué)教授j.h.friedman等人1974年編制的,prim一9。利用這個系統(tǒng)可以看到不超過九維的數(shù)據(jù)在任何二維平面上的投影圖象,以發(fā)現(xiàn)數(shù)據(jù)的聚類和超曲面結(jié)構(gòu)。這個系統(tǒng)還可以只顯示指定的區(qū)域內(nèi)的高維

12、點,把其他點移出屏幕不顯示出來。因此當(dāng)人們在投影平面上發(fā)現(xiàn)了某種聚類結(jié)構(gòu)時,可以把不同類的數(shù)據(jù)分開,再分別考察每個類中的數(shù)據(jù)的結(jié)構(gòu)和特征。使用手工pp成功的例子是美國的reaven和miller于1979年關(guān)于多尿病病理的研究。他們將145人的5項指標(biāo)觀察值輸入prim一9圖像顯示系統(tǒng),對5項指標(biāo)中的每3項指標(biāo),觀察145個3維點構(gòu)成的點云在任何2維平面上的投影圖像,最后找到了一個在醫(yī)學(xué)上有意義的圖像。從這張圖像上可以看到隱性和顯性多尿癥患者的數(shù)據(jù)是完全分開的。不經(jīng)過中間正常狀態(tài),兩者是不能相互轉(zhuǎn)換的。機(jī)械pp是模仿手工pp,用數(shù)值計算方法在計算機(jī)上自動找出高維數(shù)據(jù)的低維投影,即讓計算機(jī)按數(shù)值

13、法求極大解的最優(yōu)化問題的方法,自動地找出使指標(biāo)達(dá)到最大的投影。它要求對一個p維隨機(jī)向量x,尋找一個k(k<p)維投影矩陣a,使定義在某個k維分布函數(shù)集合上的實值函數(shù)q(投影指標(biāo)),滿足。如果原數(shù)據(jù)確有某種結(jié)構(gòu)或特征,指標(biāo)又選得恰當(dāng),那么在所找到的某些方向上,一定含有數(shù)據(jù)的結(jié)構(gòu)或特征。有些傳統(tǒng)的多元分析方法可以看成是機(jī)械投影尋蹤的特例。例如主成份分析,判別分析等,但是主成分分析方法是用主成分來描述或逼近原始數(shù)據(jù),所反映的是數(shù)據(jù)的全局特征或宏觀特征,這樣顯然就有可能會漏掉主要的局部特征或細(xì)節(jié)特征。下面以大家熟知的主成份分析為例具體說明機(jī)械投影尋蹤方法。主成份分析的目的是要考察p維數(shù)據(jù),是否真

14、正散布在p維空間上,還是主要只散布在某個維數(shù)小于p的子空間上。好比一塊鐵餅,雖然是三維空間中的形體,由于相對地說厚度明顯地小,所以它主要是散布在二維平面上的園形東西,在與這個園形垂直的方向上沒有多少布散布。我們?nèi)∶枋鲆痪S數(shù)據(jù)散布程度的標(biāo)準(zhǔn)差作為投影指標(biāo)。實數(shù)的標(biāo)準(zhǔn)是,其中。用投影尋蹤了解數(shù)據(jù)的散布情況,就是找出一個方向,使得數(shù)據(jù)在這個方向上的投影的散布達(dá)到最大,即,就是的樣本協(xié)差陣s的最大特征根的特征向量。把s的特征根從大到小排列,記作,這樣投影尋蹤就給出了的第一主成份,它的標(biāo)準(zhǔn)差。繼續(xù)作投影尋蹤,在與垂直的空間里求單位向量,使。可以證明就是相應(yīng)于的特征根,進(jìn)而得到的第二主成份,及其標(biāo)準(zhǔn)差,如

15、此類推,就可以求出第三、第四主成份等等,直到某個主成份的標(biāo)淮差接近零為止。當(dāng)然,主成份分析只是機(jī)械投影尋蹤的一個特例。一般的并不要求后面的投影方向與前面找到的投影方向垂直。而且,對于主成分分析其樣本協(xié)方差陣及特征根和特征向量對離群點是非常敏感的,正是由于樣本協(xié)方差陣的不穩(wěn)定,造成了傳統(tǒng)主成分分析的不穩(wěn)健。為了得到穩(wěn)健性,可以采用穩(wěn)健的散布度量加以改進(jìn)另外,實際作主成份分析時也不用求極值的投影尋蹤法,而是直接求樣協(xié)差陣s的特征根和特征向量。3、 投影指標(biāo)pp的出發(fā)點是度量投影分布所含信息的多少,而我們知道高維數(shù)據(jù)集合的線性投影是?幾乎正態(tài)的,并且正態(tài)分布通常為無信息分布的代表。從而尋求與正態(tài)分布

16、差異最大的線性投影分布,即含信息最多的投影分布,成為pp方法的常用方式之一。既然如此,那么它是如何實現(xiàn)的呢?為了避免繁雜的細(xì)節(jié)討論,突出問題的重點,我們選取簡單的度量準(zhǔn)則,如方差、偏度、峰度,至于更加復(fù)雜的度量準(zhǔn)則也有完全類似的描述、解釋,這里從略。(1) 方差指標(biāo)設(shè)是總體x的獨立同分布的樣本,方差指標(biāo)的樣本形式為 。如果我們求,得到的就是樣本散布最大的方向。主成分分析就是取樣本方差為投影指標(biāo)的pp方法。(2) friedman指標(biāo)設(shè)有l(wèi)egendre多項式, 設(shè)x為p維隨機(jī)向量,協(xié)方差陣的正交分解,u是標(biāo)準(zhǔn)正交陣,d是對角陣。是x的n個樣本,是其經(jīng)驗分布。為了達(dá)到pp的主要目的,并減少計算量

17、,我們要求pp指標(biāo)對p維數(shù)據(jù)的任何非奇異仿射變換保持不變。為此,對x及它的子樣進(jìn)行球面化,即令,如果未知,則用樣本的協(xié)方差陣的正交分解的代替。設(shè)為標(biāo)準(zhǔn)正態(tài)分布分布函數(shù),則friedman指標(biāo)為其中p是x的分布函數(shù)。樣本形式為(3) 偏度指標(biāo)和峰度指標(biāo)偏度是用來衡量分布非對稱性的統(tǒng)計指標(biāo),峰度是用來衡量分布平坦性的統(tǒng)計指標(biāo),它們都對離群點非常敏感。因此可以用作投影指標(biāo)來尋找離群點。設(shè)原隨機(jī)變量為x,投影方向為a,偏度指標(biāo)和峰度指標(biāo)分別為和以及兩者混合產(chǎn)生的指標(biāo)和這類指標(biāo)對于檢測噪聲背景下的比較細(xì)小的特征目標(biāo)有較好的效果。(4) 信息散度指標(biāo)一般認(rèn)為服從正態(tài)分布的數(shù)據(jù)含有的有用信息最少,因而我們感

18、興趣的是與正態(tài)分布差別大的結(jié)構(gòu)。多元正態(tài)分布的任何一維線性投影仍然服從正態(tài)分布,因此如果一個數(shù)據(jù)在某個方向上的投影與正態(tài)分布差別較大,那它就一定含有非正態(tài)的結(jié)構(gòu),這是我們關(guān)心的。高維數(shù)據(jù)在不同方向上的一維投影與正態(tài)分布的差別是不一樣的,它顯示了在這一方向上所含有的有用信息的多少,因此可以用投影數(shù)據(jù)的分布與正態(tài)分布的差別來作為投影指標(biāo)。人們已經(jīng)設(shè)計出許多具有這種特點的指標(biāo),信息散度指標(biāo)就是其中之一。設(shè)f是一維密度函數(shù),g是一維標(biāo)準(zhǔn)正態(tài)分布密度函數(shù),f對g的相對嫡為信息散度指標(biāo)定義為:當(dāng)時,;若f偏離g越遠(yuǎn),那么值就越大,因此刻劃了結(jié)構(gòu)度量f到g的偏離程度。由于根據(jù)樣本估計f是很麻煩的,因此更簡便

19、有效的方法是用離散化的概率分布p和q分別代替連續(xù)的密度函數(shù)f和g,這時指標(biāo)變?yōu)?,其中。如果投影指?biāo)的值越大,那么意味著它越偏離正態(tài)分布,因而是我們感興趣的方向線 性投 影結(jié)構(gòu)高 維數(shù)據(jù)集基于結(jié)構(gòu)的pp降維流程4、 投影尋蹤聚類模型(一)用pp探索高維數(shù)據(jù)的結(jié)構(gòu)或特征時,一般采用迭代模式。首先根據(jù)經(jīng)驗或猜想給定一個初始模型;其次把數(shù)據(jù)投影到低維空間上,找出數(shù)據(jù)與現(xiàn)有模型相差最大的投影。這表明在這個投影中含有現(xiàn)有模型中沒有反映的結(jié)構(gòu),然后把上述投影中所包含的結(jié)構(gòu)并在現(xiàn)有模型上,得到改進(jìn)了的新模型。再從這個新模型出發(fā),重復(fù)以上步驟,直到數(shù)據(jù)與模型在任何投影空間都沒有明顯的差別為止。由于pp是一種數(shù)據(jù)

20、分析的新思維方式,因此將這種新思想與傳統(tǒng)的回歸分析、聚類分析、判別分析、時序分析和主分量分析等相結(jié)合,會產(chǎn)生很多新的分析方法。例如投影尋蹤聚類(projection pursuit classification,簡稱ppc),它是以每一類內(nèi)具有相對大的密集度,而各類之間具有相對大的散開度為目標(biāo)來尋找最優(yōu)一維投影方向,并根據(jù)相應(yīng)的綜合投影特征值對樣本進(jìn)行綜合分析評價。(二)投影尋蹤聚類模型設(shè)第i個樣本第j個指標(biāo)為,n為樣本個數(shù),m為指標(biāo)個數(shù),用投影尋蹤技術(shù)建立投影尋蹤聚類模型的步驟如下:(1) 樣本指標(biāo)數(shù)據(jù)歸一化:由于各指標(biāo)的量綱不盡相同或數(shù)值范圍相差較大,因此,在建模之前對數(shù)據(jù)進(jìn)行歸一化處理為

21、,其中表示第j個指標(biāo)的樣本最大值。(2) 線性投影:所謂投影實質(zhì)上就是從不同的角度去觀察數(shù)據(jù),尋找最能充分挖掘數(shù)據(jù)特征的作為最優(yōu)投影方向??稍趩挝怀蛎嬷须S機(jī)抽取若干個初始投影方向,計算其投影指標(biāo)的大小,根據(jù)指標(biāo)選大的原則,最后確定最大指標(biāo)對應(yīng)的解為最優(yōu)投影方向。若為m維單位向量,則樣本i在一維線性空間的投影特征值的表達(dá)為。(3) 尋找目標(biāo)函數(shù):綜合投影指標(biāo)值時,要求投影值的散布特征應(yīng)為:局部投影點盡可能密集,最好凝聚成若干個點團(tuán),而在整體上投影點團(tuán)之間盡可能散開。故可將目標(biāo)函數(shù)定義為類間距離與類內(nèi)密度的乘積,即。類間距離用樣本序列的投影特征值方差計算,。其中為序列的均值,愈大,散布愈開。設(shè)投

22、影特征值間的距離,則,為一階單位階躍函數(shù),時,其值為1;時,其值為0。在此,r為估計局部散點密度的窗寬參數(shù),按寬度內(nèi)至少包括一個散點的原則選定,其取值與樣本數(shù)據(jù)結(jié)構(gòu)有關(guān),可基本確定它的合理取值范圍為,其中,。類內(nèi)密度愈大,分類愈顯著。(4) 優(yōu)化投影方向:由上述分析可知,當(dāng)取得最大值時所對應(yīng)的投影方向就是所要尋找的最優(yōu)投影方向。因此,尋找最優(yōu)投影方向的問題可轉(zhuǎn)化為下列優(yōu)化問題:,這是以為優(yōu)化變量的復(fù)雜非線性優(yōu)化問題,可采用遺傳算法等優(yōu)化方法求解。(5) 綜合評價聚類分析:根據(jù)最優(yōu)投影方向,便可計算反映各評價指標(biāo)綜合信息的投影特征值的差異水平,以的差異水平對樣本群進(jìn)行聚類分析。 5、 遺傳算法(

23、1) 定義遺傳算法(genetic algorithm,簡稱ga)以生物進(jìn)化過程為背景,模擬生物進(jìn)化的步驟,將繁殖、雜交、變異、競爭和選擇等概念引入到算法中,通過維持一組可行解,并通過對可行解的重新組合,改進(jìn)可行解在多維空間內(nèi)的移動軌跡或趨向,最終走向最優(yōu)解。它克服了傳統(tǒng)優(yōu)化方法容易陷入局部極值的缺點,是一種全局優(yōu)化算法。其主要特點是直接對結(jié)構(gòu)對象進(jìn)行操作,不存在求導(dǎo)和函數(shù)連續(xù)性的限定;具有內(nèi)在的隱并行性和更好的全局尋優(yōu)能力;采用概率化的尋優(yōu)方法,能自動獲取和指導(dǎo)優(yōu)化的搜索空間,自適應(yīng)地調(diào)整搜索方向,不需要確定的規(guī)則。(2) 運算過程1. 遺傳算法染色體編碼遺傳算法不能直接處理問題空間的參數(shù),

24、必須把它們轉(zhuǎn)換成遺傳空間的由基因按一定結(jié)構(gòu)組成的染色體或個體,這一轉(zhuǎn)換操作就叫做編碼。二進(jìn)值編碼是目前遺傳算法中最常用的編碼方法。即是由二進(jìn)值字符集0, 1產(chǎn)生通常的0, 1字符串來表示問題空間的候選解。2. 適應(yīng)度函數(shù)遺傳算法的適應(yīng)度函數(shù)也叫評價函數(shù),是用來判斷群體中的個體的優(yōu)劣程度的指標(biāo),它是根據(jù)所求問題的目標(biāo)函數(shù)來進(jìn)行評估的。遺傳算法在搜索進(jìn)化過程中一般不需要其他外部信息,僅用評估函數(shù)來評估個體或解的優(yōu)劣,并作為以后遺傳操作的依據(jù)。由于遺傳算法中,適應(yīng)度函數(shù)要比較排序并在此基礎(chǔ)上計算選擇概率,所以適應(yīng)度函數(shù)的值要取正值。由此可見,將目標(biāo)函數(shù)映射成求最大值形式且函數(shù)值非負(fù)的適應(yīng)度函數(shù)是必要

25、的。在具體應(yīng)用中,適應(yīng)度函數(shù)的設(shè)計要結(jié)合求解問題本身的要求而定。適應(yīng)度函數(shù)設(shè)計直接影響到遺傳算法的性能。3. 遺傳算子3.1. 選擇選擇算子有時又稱為再生算子。選擇的目的是把優(yōu)化的個體(或解)直接遺傳到下一代或通過配對交叉產(chǎn)生新的個體再遺傳到下一代。選擇操作是建立在群體中個體的適應(yīng)度評估基礎(chǔ)上的,目前常用的選擇算子有以下幾種:適應(yīng)度比例方法、隨機(jī)遍歷抽樣法、局部選擇法、局部選擇法。其中輪盤賭選擇法 是最簡單也是最常用的選擇方法。在該方法中,各個個體的選擇概率和其適應(yīng)度值成比例。設(shè)群體大小為n,其中個體i的適應(yīng)度為,則i 被選擇的概率,為遺傳算法 顯然,概率反映了個體i的適應(yīng)度在整個群體的個體適

26、應(yīng)度總和中所占的比例。個體適應(yīng)度越大,其被選擇的概率就越高,反之亦然。計算出群體中各個個體的選擇概率后,為了選擇交配個體,需要進(jìn)行多輪選擇。每一輪產(chǎn)生一個0,1之間均勻隨機(jī)數(shù),將該隨機(jī)數(shù)作為選擇指針來確定被選個體。個體被選后,可隨機(jī)地組成交配對,以供后面的交叉操作。3.2 交叉在自然界生物進(jìn)化過程中起核心作用的是生物遺傳基因的重組(加上變異)。遺傳算法中起核心作用的是遺傳操作的交叉算子。所謂交叉是指把兩個父代個體的部分結(jié)構(gòu)加以替換重組而生成新個體的操作。通過交叉,遺傳算法的搜索能力得以飛躍提高。交叉算子根據(jù)交叉率將種群中的兩個個體隨機(jī)地交換某些基因,能夠產(chǎn)生新的基因組合,期望將有益基因組合在一

27、起。根據(jù)編碼表示方法的不同,可以有以下的算法: a) 實值重組 1) 離散重組;2)中間重組; 3)線性重組; 4)擴(kuò)展線性重組。 b)二進(jìn)制交叉 1) 單點交叉; 2)多點交叉; 3)均勻交叉; 4)洗牌交叉; 5)縮小代理交叉常用的交叉算子為單點交叉。具體操作是:在個體串中隨機(jī)設(shè)定一個交叉點,實行交叉時,該點前或后的兩個個體的部分結(jié)構(gòu)進(jìn)行互換,并生成兩個新個體。下面給出了單點交叉的一個例子:個體a:1 0 0 1 1 1 1 1 0 0 1 0 0 0 新個體 個體b:0 0 1 1 0 0 0 0 0 1 1 1 1 1 新個體3.3. 變異變異算子的基本內(nèi)容是對群體的個體串的某些基因座

28、上的基因值變動?;谧址?,1的二值碼串而言,變異操作就是把某些基因座上的基因值取反,即10或01。一般來說,變異算子操作的基本步驟如下:(1)在群體中所有個體的碼串范圍內(nèi)隨機(jī)地確定基因座。(2)以事先設(shè)定的變異概率pm來對這些基因座的基因值進(jìn)行變異。遺傳算法引入變異的目的有兩個:一是使遺傳算法具有局部的隨機(jī)搜索能力。當(dāng)遺傳算法通過交叉算子已接近最優(yōu)解領(lǐng)域時,利用變異算子的這種局部隨機(jī)搜索能力可以加速向最優(yōu)解收斂。顯然,此種情況下的變異概率應(yīng)取較小值,否則接近最優(yōu)解的積木塊會因變異而遭到破壞。二是使遺傳算法可維持群體多樣性,以防止出現(xiàn)未成熟收斂現(xiàn)象。此時收斂概率應(yīng)取較大值。4. 迭代終止當(dāng)遺

29、傳算法已經(jīng)尋找到最優(yōu)的投影方向或者迭代次數(shù)已經(jīng)達(dá)到預(yù)先設(shè)定的次數(shù)時,算法迭代終止,這時所返回的值即為本次尋優(yōu)過程所得到最優(yōu)的投影方向。6、 實證分析本文應(yīng)用投影尋蹤聚類模型對上市公司的股價的高低進(jìn)行分析,所選的盈利指標(biāo)是每股現(xiàn)金流量和每股收益、每股凈資產(chǎn)、股東收益率、凈資產(chǎn)收益率、總資產(chǎn)收益率、銷售利潤率、主營業(yè)務(wù)收益率等等。把每股收益、每股凈資產(chǎn)、凈資產(chǎn)收益率這三個指標(biāo)作為聚類的標(biāo)準(zhǔn)。其中:凈資產(chǎn)利潤率凈利潤平均凈資產(chǎn)(平均股東權(quán)益);每股收益凈利潤期末總股本;每股凈資產(chǎn)期末凈資產(chǎn)期末總股本。樣本股票的指標(biāo)數(shù)據(jù)來自于華夏證券網(wǎng)公布的深圳2003年中期上市公司財務(wù)指標(biāo)(如下表:原始股票樣本數(shù)據(jù)

30、表)原始股票樣本數(shù)據(jù)表序號股票代碼股票簡稱每股收益攤薄(元)每股凈資產(chǎn)(元)凈資產(chǎn)收益率%總股本(萬股)股東人數(shù)投影特征值分類結(jié)果1000488晨鳴紙業(yè)0.394.458.8389772.79493141.625712000538云南白藥0.32572.8211.5418581.8140301.339723000605四環(huán)藥業(yè)0.111.537.43825061740.6603234000631藍(lán)寶信息0.08783.222.7324036.96406010.5541635000881大連國際0.0272.291.1830891.84681480.3364746000961大連金牛0.053.

31、51.3530053742760.474247000965天水股份0.0162.570.6223870.54323230.2853848000407勝利股份0.0532.252.3623958.88659590.436249000410沈陽機(jī)床0.032.311.2534091.93687270.37511410000510金路集團(tuán)0.091.366.5360918.23901290.76483311000527粵美的 a0.244.775.0648488.971445851.1481212000633合金投資0.11911.597.4932092.233230.74452313000637茂

32、化實華0.1122.045.4928978.5663650.65497314000687保定天鵝0.0883.242.732080547530.58434315000819岳陽興長0.0422.271.8516513.39172630.34416416000852江鉆股份0.11152.434.5928000299970.64465317000918亞華種業(yè)0.1244.023.0917000.2160920.64583318000960錫業(yè)股份0.06073.291.8635790.4852740.52768319000002萬科 a0.153.14.83136540.62481171.18

33、47220000012南玻科控0.142.954.667697.54615340.849623 將樣本指標(biāo)數(shù)據(jù)代入投影尋蹤模型,其中n20,m5,給定,由于模型比較麻煩在此不予給出。通過模型運算得到最優(yōu)投影方向向量。根據(jù)投影方向向量值的大小可知,每股收益、凈資產(chǎn)收益率是影響分類結(jié)果的主要因素。同時可以利用計算各個樣本的投影特征值。根據(jù)股票樣本的投影特征值的大小,將20支股票分為4類,投影特征值越大說明對應(yīng)的股票投資價值越大。分類結(jié)果如下:第1類:晨鳴紙業(yè)。這類股票是明顯的高收益的績優(yōu)股,發(fā)展前景令人期待,投資價值比較大。第2類:云南白藥,粵美的a,萬科a共有3支股票。這類股票有較好的發(fā)展態(tài)勢,但盲目介入有一定風(fēng)險,投資者可適當(dāng)關(guān)注,擇機(jī)介入。第3類:四環(huán)藥業(yè),蘭寶信息,金路集團(tuán)等共有10支股票。這類股票業(yè)績一般,操作上以回避為主,不過也可能有反彈空間,故還是以觀望為主。第4類:大連國際,大連金牛,天水股份等共有6支股票。這類股票是明顯的低收益的績差股,投資上還是以回避為好。7、 結(jié)語pp的最顯著特點是克服了高維點稀分布所造成

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論