




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、分 類 號(hào) 密 級(jí) u d c 編 號(hào)10486 碩士學(xué)位論文 大數(shù)據(jù)在選股分析中的應(yīng)用 研 究 生 姓 名:李博洋 學(xué) 號(hào):29 指導(dǎo)教師姓名、職稱:蔣晶玨 副教授專類別業(yè)(領(lǐng) 域 ): 計(jì)算機(jī)技術(shù) 二零一七年十月52 / 63 application of big data in stock selection analysisby li boyangoct, 2017 鄭 重 聲 明 本人的學(xué)位論文是在導(dǎo)師指導(dǎo)下獨(dú)立撰寫并完成的,學(xué)位論文沒有剽竊、抄襲、造假等違反學(xué)術(shù)道德、學(xué)術(shù)規(guī)范和侵權(quán)行為,否則,本人情愿承擔(dān)由此而產(chǎn)生的法律責(zé)任和法律后果,特此鄭重聲明。 學(xué)位論文作者(簽名): 年 月
2、 日 中文摘要在科技不斷進(jìn)展、網(wǎng)絡(luò)覆蓋率持續(xù)擴(kuò)張的今天,大數(shù)據(jù)時(shí)代早已悄然而至,每個(gè)行業(yè)都會(huì)形成海量、繁雜的數(shù)據(jù)。對(duì)于如何有效地采集信息、如何挖掘出數(shù)據(jù)內(nèi)部的規(guī)律,學(xué)者們一直在不遺余力地研究并不斷提供各種新型的技術(shù)。對(duì)于國內(nèi)的私募基金而言,大數(shù)據(jù)的價(jià)值及其所蘊(yùn)含的新商機(jī)并未充分體現(xiàn)出來,不過可以肯定的是,大數(shù)據(jù)在私募基金決策的過程中起著越來越重要的作用?;鹦袠I(yè)是一個(gè)大數(shù)據(jù)市場,股市每天交易頻繁,由此形成了大量的數(shù)據(jù),大數(shù)據(jù)分析技術(shù)在這一行業(yè)不斷走向成熟的過程中,也在不斷地更新。筆者在本課題中,以金融市場中存在的主要問題為切入點(diǎn),以上市企業(yè)為對(duì)象,探討如何對(duì)基本面數(shù)據(jù)以及股票交易展開挖掘分析,
3、并且詳細(xì)闡述了k-means算法的基本原理、神經(jīng)網(wǎng)絡(luò)在選股的作用原理;在現(xiàn)有股票預(yù)測原理的基礎(chǔ)上,提出的多聚類分析股票數(shù)據(jù)的方法,結(jié)合分類算法對(duì)股票數(shù)據(jù)進(jìn)行訓(xùn)練,形成基于聚類分析的智能選股算法。然后對(duì)算法進(jìn)行驗(yàn)證,對(duì)整體方案框架進(jìn)行設(shè)計(jì),通過matlab進(jìn)行聚類實(shí)現(xiàn),最終得出最優(yōu)參數(shù)下的聚類結(jié)果。最終結(jié)合聚類分析出來的選股算法,利用hadoop技術(shù)設(shè)計(jì)一個(gè)簡潔,穩(wěn)定高性能的智能選股系統(tǒng)。試驗(yàn)結(jié)果顯示,開發(fā)出的模型分析選股系統(tǒng)可以對(duì)股票數(shù)據(jù)進(jìn)行多維的分析預(yù)測,作為投資者的投資決策的輔助工具,是利用數(shù)據(jù)挖掘技術(shù)結(jié)合多聚類分析股票數(shù)據(jù)的方法,分析大量與股票相關(guān)數(shù)據(jù),并做出未來走勢預(yù)測,具有一定的有用
4、意義。關(guān)鍵詞: 私募基金;數(shù)據(jù)挖掘;證券分析;互聯(lián)網(wǎng)大數(shù)據(jù);交易數(shù)據(jù)abstractwith the continuous development of technology and the continuous expansion of network coverage, the era of big data has long been quietly emerging and there is massive and complicated data in every industry. researchers have been sparing no effort in researc
5、hing and constantly providing various new technologies for how to effectively collect information and how to find out the internal laws of data.for domestic private equity funds, the value of big data and the new business opportunities big data contains are not fully demonstrated, but it is certain
6、that big data plays an increasingly important role in the decision-making process of private equity funds. the fund industry is a big data market. daily trades in the stock market result in a large amount of data. analysis technology of big data is constantly updated with the industry being mature.i
7、n this subject, takeing the main problems existing in the financial market as the starting point and the listed companies as the object, the author explores how to excavate and analyze the fundamental data and stock transactions, and elaborates the basic principle of k-means algorithm. based on the
8、existing stock forecasting theory, this paper proposes a multi-clustering method to analyze stock data and a combination of classification algorithms to train stock data to form an intelligent stock selection algorithm based on clustering analysis.then the algorithm is verified, the overall program
9、framework is designed, and the clustering is realized by matlab. finally, the clustering results under the optimal parameters are obtained. at last combining with the stock selection algorithm based on clustering analysis, a simple stable and high-performance intelligent stock selection system is de
10、signed by using hadoop technology. the experimental results show that the model stock picking system can make multi-dimensional analysis and forecasting of stock data. as a supporting tool for investors' investment decision-making, it has certain practical significance, which uses the method of
11、data mining combined with multi-cluster analysis of stock data, stock-related data, and make the future trend forecast.key words:private fund; data mining; securities analysis; internet big data目 錄中文摘要iabstractii目 錄iii圖表目錄v1 緒論11.1 論文選題研究的背景及意義11.2 國內(nèi)外現(xiàn)狀分析21.2.1 國外大數(shù)據(jù)在金融領(lǐng)域進(jìn)展現(xiàn)狀21.2.2 國內(nèi)大數(shù)據(jù)在金融領(lǐng)域進(jìn)展現(xiàn)狀41
12、.3 論文的組織結(jié)構(gòu)52 相關(guān)理論技術(shù)基礎(chǔ)及可行性分析62.1 股票二級(jí)市場的狀況62.2 數(shù)據(jù)挖掘工作原理92.2.1 聚類算法概述92.2.2 k-means算法原理102.2.3 分類算法142.2.4 分類算法的類型152.3 神經(jīng)網(wǎng)絡(luò)在選股中的作用182.3.1 神經(jīng)網(wǎng)絡(luò)進(jìn)行股票預(yù)測的原理182.4 本章小結(jié)193 智能數(shù)據(jù)挖掘選股算法203.1 現(xiàn)狀分析203.2 基本概念213.2.1 算法研究213.2.2 多聚類分析股票數(shù)據(jù)233.2.3 多聚類方法描述243.3 本章小結(jié)254 算法模型驗(yàn)證264.1 試驗(yàn)方案264.2 數(shù)據(jù)準(zhǔn)備264.3 matlab中聚類的實(shí)現(xiàn)264.
13、4 聚類結(jié)果284.4.1 采樣/持有周期對(duì)聚類結(jié)果的影響284.4.2 分類數(shù)/滯后期對(duì)聚類結(jié)果的影響304.4.3 最優(yōu)參數(shù)下的聚類結(jié)果304.5 本章小結(jié)315 選股系統(tǒng)的設(shè)計(jì)325.1 系統(tǒng)的詳細(xì)架構(gòu)325.2 并行數(shù)據(jù)挖掘算法實(shí)現(xiàn)335.3 數(shù)據(jù)庫設(shè)計(jì)345.3.1 數(shù)據(jù)表索引345.3.2 數(shù)據(jù)表詳細(xì)設(shè)計(jì)355.4 詳細(xì)設(shè)計(jì)375.4.1 數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)375.4.2 離線交易數(shù)據(jù)入庫385.4.3 主要指標(biāo)數(shù)據(jù)計(jì)算385.5 系統(tǒng)實(shí)施435.5.1 日線數(shù)據(jù)入庫435.5.2 指標(biāo)計(jì)算435.5.3 智能選股435.6 應(yīng)用455.7 系統(tǒng)測試455.8 本章小結(jié)466 總結(jié)與不足
14、47參考文獻(xiàn)49致 謝50圖表目錄圖 21 k均值聚類算法的流程圖11圖 22 數(shù)據(jù)挖掘的流程圖15圖 23 數(shù)據(jù)文本分類的流程圖15圖 31 行業(yè)收益率序列聚類分析方法21圖 32 分類數(shù)據(jù)產(chǎn)生過程22圖 33 分類模型的建立22圖 34 多重分類模型建立23圖 51 系統(tǒng)架構(gòu)圖32圖 52 并決策樹算法流程圖33圖 53 離線交易數(shù)據(jù)入庫流程圖38圖 54 日線數(shù)據(jù)入庫界面43圖 55 指標(biāo)計(jì)算界面43圖 56 股票預(yù)測數(shù)據(jù)45表 21 行業(yè)分類表8表 31 股票資產(chǎn)定價(jià)的技術(shù)進(jìn)展表20表 41 不同采樣/持有周期對(duì)聚類結(jié)果的影響29表 42 不同采樣/持有周期對(duì)聚類結(jié)果的影響(反轉(zhuǎn)效應(yīng))
15、29表 43 分類個(gè)數(shù)/滯后期對(duì)聚類結(jié)果的影響30表 44 聚類模型下的收益對(duì)比30表 51 數(shù)據(jù)庫索引35表 52 日常交易數(shù)據(jù)表35表 53 股票指標(biāo)數(shù)據(jù)36表 54 指標(biāo)基本信息表361 緒論1.1 論文選題研究的背景及意義在過去短短幾十年間,it行業(yè)經(jīng)歷了多次歷史性的革命,比如云計(jì)算、物聯(lián)網(wǎng)等,而這一行業(yè)最新的突破性成果即為大數(shù)據(jù)。隨著計(jì)算機(jī)和網(wǎng)絡(luò)的普及,大數(shù)據(jù)時(shí)代已經(jīng)降臨,在這樣的背景下,私募基金行業(yè)也迎來了新的機(jī)遇和挑戰(zhàn)。無論是從投資者還是創(chuàng)業(yè)者的角度來看,大數(shù)據(jù)都是非常受關(guān)注的融資標(biāo)簽。大數(shù)據(jù)的首要特點(diǎn)是數(shù)據(jù)體量非常大,通常至少應(yīng)該達(dá)到10tb,然而在現(xiàn)實(shí)中,很多企業(yè)將自身的數(shù)據(jù)
16、集全部集中起來,最終匯聚成達(dá)到pb級(jí)的數(shù)據(jù)量。另外,其所包含的數(shù)據(jù)從類型上來看是多種多樣的,數(shù)據(jù)來源豐富多樣,數(shù)據(jù)格式明顯不統(tǒng)一,完全超出了以往人們所說的結(jié)構(gòu)化數(shù)據(jù)范疇,還包含了半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)的數(shù)據(jù)處理速率非???,即便它涉及到龐大的體量,但依舊能夠滿足數(shù)據(jù)處理的實(shí)時(shí)性要求。最終,其數(shù)據(jù)具有很強(qiáng)的真實(shí)性,近些年間,社交數(shù)據(jù)、企業(yè)內(nèi)容、交易等方面的信息不斷涌現(xiàn),這些數(shù)據(jù)都來自新的數(shù)據(jù)源,在這樣的背景下,企業(yè)需要更加有效的信息,才能確保其真實(shí)性和安全性,為企業(yè)的決策提供準(zhǔn)確、準(zhǔn)時(shí)的依據(jù)。作為一種信息資產(chǎn),大數(shù)據(jù)表現(xiàn)出大量、快速增長、多樣化的特點(diǎn),其在決策、洞察、流程優(yōu)化方面有著
17、明顯的優(yōu)勢,但這些優(yōu)勢能夠在多大程度上體現(xiàn)出來,主要由處理模式所決定。從數(shù)據(jù)類型角度而言,“大數(shù)據(jù)”是指超出以往的流程和方法的處理范圍的信息。它對(duì)所有突破正常處理范圍、一定使用非傳統(tǒng)方法進(jìn)行處理的數(shù)據(jù)集進(jìn)行了定義。亞馬遜網(wǎng)絡(luò)服務(wù)(aws)、大數(shù)據(jù)領(lǐng)域的學(xué)者john rauser曾經(jīng)對(duì)其概念進(jìn)行高度歸納的闡述,即通過一臺(tái)計(jì)算機(jī)無法處理的龐大數(shù)據(jù)量。研發(fā)小組提到:大數(shù)據(jù)指的是一種最大、最時(shí)髦的宣傳技術(shù),一旦發(fā)生了這一現(xiàn)象,定義就會(huì)雜亂無章。而kelly則認(rèn)為,大數(shù)據(jù)或許并不等同于所有的數(shù)據(jù),但其所包含的大多數(shù)數(shù)據(jù)都是正確的。時(shí)至今日,大數(shù)據(jù)的概念都存在廣泛的分歧,但有一點(diǎn)是取得了共識(shí)的,即由于它有
18、著龐大的體量,因此在對(duì)其進(jìn)行分析的過程中,要用到多個(gè)工作負(fù)載。數(shù)據(jù)的極限,是由技術(shù)的極限所決定的。當(dāng)然,概念上的分歧并未對(duì)大數(shù)據(jù)的應(yīng)用造成過大的影響,關(guān)鍵在于如何應(yīng)用,如何在更大程度上發(fā)揮出其作用和價(jià)值,因此要在技術(shù)方面不斷地推陳出新,使大數(shù)據(jù)的作用充分的釋放出來。同時(shí)還要探討和以往的數(shù)據(jù)庫不同的是,具有開源性特點(diǎn)的大數(shù)據(jù)分析工具比如hadoop的廣泛應(yīng)用,以其為代表的非結(jié)構(gòu)化數(shù)據(jù)服務(wù)的價(jià)值體現(xiàn)在哪些方面等。大數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域的應(yīng)用,可以追溯到十多年之前。金融行業(yè)是競爭十分激烈的行業(yè),私募基金經(jīng)理每天都需要面對(duì)大量的數(shù)據(jù),能否高效地從中找到有價(jià)值的信息,并據(jù)此對(duì)行情進(jìn)行推斷,在很大程度上
19、決定了產(chǎn)品收益率的高低。事實(shí)證明,大部分投資決策失誤的根源在于信息不對(duì)稱,所以,越來越多的學(xué)術(shù)界和實(shí)踐界人士開始投入到行業(yè)熱點(diǎn)信息的研究中來。與此同時(shí),在網(wǎng)絡(luò)高速進(jìn)展的背景下,網(wǎng)絡(luò)所形成的金融大數(shù)據(jù)對(duì)金融分析師而言,充滿了機(jī)遇,同時(shí)也隨處面臨危機(jī)和挑戰(zhàn)。筆者在本課題的研究中,從基金經(jīng)理的角度出發(fā),探討大數(shù)據(jù)挖掘技術(shù)對(duì)行情分析的作用和價(jià)值,從金融數(shù)據(jù)信息里面挖掘有效的因素,并據(jù)此對(duì)股市未來的走向進(jìn)行預(yù)測,對(duì)基于聚類分析的智能選股算法進(jìn)行分析和測試。本課題研究旨在充分利用大數(shù)據(jù)挖掘技術(shù),為私募基金經(jīng)理在業(yè)務(wù)操作過程中提供更有力的依據(jù),使其能夠更加準(zhǔn)確地定位股票和分析、預(yù)測市場行情,改變以往實(shí)地調(diào)研
20、等傳統(tǒng)方法過于耗時(shí)耗力的現(xiàn)狀。1.2 國內(nèi)外現(xiàn)狀分析1.2.1 國外大數(shù)據(jù)在金融領(lǐng)域進(jìn)展現(xiàn)狀縱覽全球,大數(shù)據(jù)技術(shù)的主要潮流和趨勢是易用化、簡潔化,大多數(shù)大數(shù)據(jù)分析企業(yè),都將數(shù)據(jù)采集、分析、處理等功能全部集成在一起,通過分析平臺(tái)的方式提供這些方面的服務(wù)。比如fractal analytics不但實(shí)現(xiàn)了數(shù)據(jù)分析的功能,并且能夠在無需人工操作的情況下完成數(shù)據(jù)的清理和驗(yàn)證等操作,從而提供標(biāo)準(zhǔn)化、規(guī)范化的數(shù)據(jù)。voyager labs則在全球范圍內(nèi)鋪設(shè)了十億個(gè)數(shù)據(jù)點(diǎn),有著廣泛的數(shù)據(jù)來源,從而為用戶提供更加全面的數(shù)據(jù)服務(wù)。如今,很多企業(yè)的產(chǎn)品策略中明確提到,要進(jìn)一步降低大數(shù)據(jù)技術(shù)的技術(shù)難度和成本,從而提高
21、其易用性,比如domino公司推出的產(chǎn)品能夠讓研究人員將更多的精力和時(shí)間放在數(shù)據(jù)分析上,也就是節(jié)省在軟硬件環(huán)境維護(hù)方面的時(shí)間。datameer推出的產(chǎn)品直接將復(fù)雜的底層技術(shù)遮蓋起來,通過表格的形式將數(shù)據(jù)呈現(xiàn)在用戶的眼前,充分地考慮到了用戶的操作習(xí)慣和便利性。rapid miner studio無需任何代碼就能夠在客戶端進(jìn)行操作,擁有機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、文本挖掘等一系列的功能,能夠更好地滿足用戶的需求。在大數(shù)據(jù)分析應(yīng)用范圍不斷擴(kuò)張的過程中,此項(xiàng)技術(shù)在性能方面的表現(xiàn)也持續(xù)優(yōu)化,數(shù)據(jù)分析結(jié)果的準(zhǔn)確性大幅提高。比如sigopt公司通過貝葉斯優(yōu)化(bayesian optimization)算法對(duì)模型參
22、數(shù)進(jìn)行調(diào)整,從而對(duì)網(wǎng)格搜索方法予以改進(jìn),新的方法能夠在更短的時(shí)間內(nèi)提供更為準(zhǔn)確、易用性更高的結(jié)果。更重要的是,sigopt的產(chǎn)品不但能夠?qū)Χ喾N變量進(jìn)行測試,同時(shí)能夠?yàn)楹罄m(xù)的測試工作提供可行的建議,從而為用戶提供更加準(zhǔn)確的數(shù)據(jù)分析結(jié)果。值得一提的是,很多大數(shù)據(jù)分析企業(yè)通過不斷的研究,突破以往數(shù)據(jù)分析理論的約束,通過新穎的方法實(shí)現(xiàn)數(shù)據(jù)分析,為傳統(tǒng)的分析方法無法解決的問題提供了解決之道,在很多領(lǐng)域中都得到了廣泛的應(yīng)用。三位數(shù)學(xué)領(lǐng)域的權(quán)威專家共同成立的ayasdi公司即為其中之一,這一公司基于拓?fù)鋽?shù)據(jù)分析技術(shù)以及大量的機(jī)器學(xué)習(xí)算法開發(fā)出性能十分突出的數(shù)據(jù)處理功產(chǎn)品,從而對(duì)各種復(fù)雜的數(shù)據(jù)集進(jìn)行處理,不但
23、能夠采集到更多的高維數(shù)據(jù)空間里面的拓?fù)湫畔?,并且能夠提供很多以往的方法無法提供的小分類,該產(chǎn)品如今已經(jīng)被應(yīng)用到基因和癌癥研究方面,在醫(yī)療保健領(lǐng)域起著重要的作用,一位醫(yī)生就是利用該產(chǎn)品發(fā)覺14種乳腺癌變種的,另外該產(chǎn)品在金融服務(wù)行業(yè)中也積存了一定的用戶。如今,很多國家已經(jīng)從戰(zhàn)略層面來思考大數(shù)據(jù)的作用和價(jià)值,并進(jìn)行了全面的部署,從而緊跟大數(shù)據(jù)技術(shù)革命的潮流。尤其是一些it強(qiáng)國,比如美國等,為了促進(jìn)大數(shù)據(jù)技術(shù)的應(yīng)用和進(jìn)展,不但制定了全面的戰(zhàn)略和法律,并且擬定了科學(xué)的行動(dòng)打算。而在澳大利亞,一些有著較強(qiáng)綜合實(shí)力的銀行,針對(duì)小微企業(yè)這一客戶,打造了無償?shù)拇髷?shù)據(jù)分析服務(wù),期望通過這種附加的服務(wù),提高客戶忠
24、誠度的同時(shí),吸引更多的客戶,通過此項(xiàng)服務(wù),銀行幫助小企業(yè)進(jìn)行客戶和競爭對(duì)手的分析,使其對(duì)其自身的財(cái)富結(jié)構(gòu)、消費(fèi)者購買傾向、競爭對(duì)手客戶結(jié)構(gòu)等情況有更加全面的了解。當(dāng)然,大數(shù)據(jù)分析是需要大量的原始數(shù)據(jù)的,而這些數(shù)據(jù)都是銀行通過零售業(yè)務(wù)積存的,不但數(shù)量較大,而且準(zhǔn)確性更高,因此銀行提供的分析結(jié)果比大多數(shù)市場分析機(jī)構(gòu)提供的結(jié)果更為全面和準(zhǔn)確。很多小企業(yè)就是看中了這方面的服務(wù),才成為銀行的客戶的。大數(shù)據(jù)也為危險(xiǎn)控制方面的創(chuàng)新創(chuàng)業(yè)注入了有力的活力,比如來自美國的一家創(chuàng)業(yè)型企業(yè),為了讓銀行更準(zhǔn)時(shí)地了解貸款危險(xiǎn),將電梯運(yùn)行的數(shù)據(jù)和黃頁數(shù)據(jù)結(jié)合在一起進(jìn)行分析。我們知道,如今有很多企業(yè)都是租借辦公樓的某一層或某
25、一區(qū)域的,辦公樓往往都是高層建筑,電梯是此類建筑的標(biāo)準(zhǔn)配置之一。電梯在運(yùn)行的過程中,會(huì)產(chǎn)生各種數(shù)據(jù),比如在其中一層停留了多少次等。黃頁信息具有公開性的特點(diǎn),一般的個(gè)人也能便利地查到,比如辦公樓的某一層被哪一個(gè)企業(yè)所租賃等,將這兩方面的數(shù)據(jù)匹配起來,就能夠確定每天電梯在特定的企業(yè)停留多少次。若這一數(shù)據(jù)在短時(shí)間內(nèi)出現(xiàn)大幅降低的情況,或許可以證明公司的員工數(shù)量或到公司拜望的客戶數(shù)量降低,該公司經(jīng)營狀況有所下滑,這對(duì)銀行來說是非常重要且有價(jià)值的信息。如果銀行能夠在貸款后治理的過程中準(zhǔn)時(shí)地了解這一信息,將能夠?qū)崿F(xiàn)對(duì)貸款危險(xiǎn)的跟蹤治理,相比以往每季度進(jìn)行的全面檢查,能夠更加準(zhǔn)時(shí)地反映出危險(xiǎn)狀況。 當(dāng)然,這
26、一案例僅僅是大數(shù)據(jù)技術(shù)對(duì)金融機(jī)構(gòu)作用的“冰山一角”,其應(yīng)用前景還需我們?nèi)ヌ骄?、去開發(fā)。但現(xiàn)實(shí)卻是,盡管大數(shù)據(jù)處理技術(shù)的進(jìn)展十分迅速,但金融機(jī)構(gòu)在應(yīng)用大數(shù)據(jù)方面的表現(xiàn)并不理想,導(dǎo)致這一現(xiàn)狀的原因是什么?為了尋求這一問題的答案,波士頓咨詢公司從全球范圍內(nèi)選擇幾十家金融機(jī)構(gòu)展開調(diào)查研究,以期發(fā)覺數(shù)據(jù)發(fā)揮其價(jià)值的整個(gè)過程,并因此尋覓到限制其價(jià)值發(fā)揮的節(jié)點(diǎn)之所在。該公司通過研究發(fā)覺,數(shù)據(jù)發(fā)揮價(jià)值的過程由七個(gè)環(huán)節(jié)構(gòu)成,即數(shù)據(jù)收集、獲得數(shù)據(jù)擁有者的許可和信任、儲(chǔ)存和處理技術(shù)、數(shù)據(jù)科學(xué)/算法、協(xié)調(diào)、洞察、嵌入式變革。同時(shí)他們還指出,限制數(shù)據(jù)價(jià)值發(fā)揮的節(jié)點(diǎn)是數(shù)據(jù)擁有者的許可和信任以及協(xié)調(diào)這兩個(gè)環(huán)節(jié),這反映出數(shù)據(jù)
27、整合不力、金融機(jī)構(gòu)內(nèi)部不同部門協(xié)調(diào)不暢的問題。比如,很多銀行的問題在于各個(gè)部門比如零售、對(duì)公等方面的數(shù)據(jù)并未充分地共享,同時(shí)技術(shù)和業(yè)務(wù)部門之間的溝通不夠有效,數(shù)據(jù)很難轉(zhuǎn)變成生產(chǎn)力。1.2.2 國內(nèi)大數(shù)據(jù)在金融領(lǐng)域進(jìn)展現(xiàn)狀截止到2021年,國內(nèi)很多企業(yè)開始全面部署大數(shù)據(jù)處理技術(shù),這種技術(shù)也因此成為生產(chǎn)環(huán)境中最重要的核心企業(yè)級(jí)系統(tǒng)。大數(shù)據(jù)的受關(guān)注程度有所降低,但這并未影響到其進(jìn)展速度,這方面各種產(chǎn)品不斷走向成熟,更多的財(cái)富百強(qiáng)企業(yè)開始將其應(yīng)用到生產(chǎn)經(jīng)營活動(dòng)中去,一些初創(chuàng)企業(yè)也通過此項(xiàng)技術(shù)的應(yīng)用找到了新的盈利增長點(diǎn)。毫不夸張地說,大數(shù)據(jù)技術(shù)已經(jīng)成為國民生活中重要的基礎(chǔ)設(shè)施之一。大數(shù)據(jù)處理技術(shù)對(duì)金融企
28、業(yè)內(nèi)部各個(gè)部門都有著一定的用途,比如從銷售部門來看,該部門工作人員可以對(duì)客戶性格、資產(chǎn)、所屬行業(yè)等方面的數(shù)據(jù)進(jìn)行分析和挖掘,以客戶購買傾向?yàn)橐罁?jù),對(duì)客戶進(jìn)行排序,從而讓銷售員將更多的時(shí)間和精力放在購買傾向更強(qiáng)的客戶身上,提高銷售成功率。對(duì)于企業(yè)宣傳部門而言,在完成市場情緒分析的基礎(chǔ)上,能夠編輯出更簡潔使客戶共鳴的文案,幫助企業(yè)塑造更好的形象,提升投資者對(duì)企業(yè)的信念。對(duì)于企業(yè)法務(wù)部門而言,大數(shù)據(jù)處理技術(shù)能夠“閱讀”大量的合同,并根據(jù)具體的案件對(duì)法院的判決進(jìn)行模擬,給出各種判決結(jié)果的概率,為法務(wù)部門選擇辯護(hù)思路提供依據(jù),在不久后的未來,企業(yè)的初級(jí)法務(wù)工作或許可以完全交由大數(shù)據(jù)處理技術(shù)完成。除此之外
29、,從研發(fā)、策劃部門的角度來看,大數(shù)據(jù)技術(shù)能夠揭示出企業(yè)數(shù)據(jù)內(nèi)部的關(guān)系,從而為基金經(jīng)理進(jìn)行行情推斷、投放廣告、向客戶推舉金融產(chǎn)品等提供更有力的依據(jù)。大數(shù)據(jù)的應(yīng)用價(jià)值和作用早已得到了實(shí)踐的驗(yàn)證,其在人們生活的不同領(lǐng)域發(fā)揮著日益重要的作用。整體來看,大數(shù)據(jù)金融具有普惠性的特點(diǎn),它讓人們能夠享受到高效、平等的金融服務(wù)。如果某一家金融機(jī)構(gòu)能夠了解大數(shù)據(jù)的規(guī)律,這就意味著掌握了更大的核心競爭力,企業(yè)銷售業(yè)務(wù)量因此會(huì)大幅增長,企業(yè)市場份額因此而提高。當(dāng)前,大數(shù)據(jù)分析的理念和方法在國內(nèi)進(jìn)展迅猛,但現(xiàn)有的這方面的研究成果基本上都來自計(jì)算機(jī)科學(xué)領(lǐng)域的研究人員,這些學(xué)者在進(jìn)行這方面的研究時(shí),基本上都是從信息科學(xué)角度
30、出發(fā)的,將主要的關(guān)注點(diǎn)放在大數(shù)據(jù)采集、保存、處理、挖掘等上,針對(duì)具體企業(yè)進(jìn)行研究,探討大數(shù)據(jù)對(duì)企業(yè)治理、決策作用的研究成果相對(duì)比較少,在學(xué)科的融合這一點(diǎn)上做得不太到位,知曉商業(yè)語言同時(shí)能夠獨(dú)自清理和組織大數(shù)據(jù)的專家人數(shù)略顯不足。1.3 論文的組織結(jié)構(gòu)本課題研究主要由以下六部分組成:第1章 是緒論,闡述本課題研究背景和意義,從分析金融領(lǐng)域大數(shù)據(jù)使用史,進(jìn)而引導(dǎo)出本課題的創(chuàng)新性,并指明本課題研究思路。第2章 論述股票二級(jí)市場的狀況,詳細(xì)闡述了k-means算法的基本原理、神經(jīng)網(wǎng)絡(luò)在選股的作用原理。第3章 結(jié)合現(xiàn)有股票預(yù)測原理的基礎(chǔ)上,提出的多聚類分析股票數(shù)據(jù)的方法,結(jié)合分類算法對(duì)股票數(shù)據(jù)進(jìn)行訓(xùn)練,
31、形成基于聚類分析的智能選股算法。第4章 對(duì)智能選股算法進(jìn)行驗(yàn)證,對(duì)驗(yàn)證方案進(jìn)行闡述準(zhǔn)備,并通過matlab進(jìn)行聚類實(shí)現(xiàn),最終得出最優(yōu)參數(shù)下的聚類結(jié)果。第五章設(shè)計(jì)整體選股系統(tǒng),結(jié)合第三章給出的基于聚類分析的選股算法,利用hadoop技術(shù)設(shè)計(jì)一個(gè)簡潔。穩(wěn)定高性能的智能選股系統(tǒng)。第六章對(duì)本課題研究內(nèi)容進(jìn)行歸納,提出針對(duì)性和可行性建議,指明未來該領(lǐng)域的研究方向,并客觀地指出本課題研究的不足之處。2 相關(guān)理論技術(shù)基礎(chǔ)及可行性分析2.1 股票二級(jí)市場的狀況股票市場是股票發(fā)行和交易的平臺(tái),參加這一市場的主要主體包括了:交易所、中介機(jī)構(gòu)、自律性組織、監(jiān)管機(jī)構(gòu)、投資者等。1990年底,為了推進(jìn)改革開放,滿足國內(nèi)
32、經(jīng)濟(jì)增長的需求,政府經(jīng)過多年的準(zhǔn)備后,在上海、深圳兩地成立了證券交易所,我國也因此成為全球第一個(gè)擁有資本市場的社會(huì)主義國家。當(dāng)前,在國內(nèi)a股市場上市的企業(yè)超過了2500家,股票總市值排名世界第三。在過去將近三十年的歷程里,國內(nèi)股票市場在幫助企業(yè)籌集資金、提高企業(yè)融資結(jié)構(gòu)合理性方面作出了無與倫比的奉獻(xiàn),為我國經(jīng)濟(jì)的進(jìn)展制造了更好的環(huán)境。如今,該市場中能夠交易的證券包括了a股、b股、企業(yè)債券、可轉(zhuǎn)換債券、國債等。越來越多的個(gè)人和機(jī)構(gòu)邁入投資者隊(duì)伍中來。中介機(jī)構(gòu)是證券市場的重要參加者,國內(nèi)這一機(jī)構(gòu)的出現(xiàn),可以追溯到上世紀(jì)八十年代中期,在此后的十年間迅猛進(jìn)展。統(tǒng)計(jì)數(shù)據(jù)顯示,我國一共擁有超過90家的證券
33、公司,開展證券業(yè)務(wù)的會(huì)計(jì)師事務(wù)所超過100家,律師事務(wù)所超過300家,資產(chǎn)評(píng)估機(jī)構(gòu)超過100家,證券評(píng)級(jí)機(jī)構(gòu)一共2家。同時(shí),更多的國民將投資目光轉(zhuǎn)向證券市場,2021年6月,國內(nèi)在證券公司開戶的個(gè)人達(dá)到2億人之多。然而就目前的現(xiàn)狀來看,國內(nèi)的股票市場和國外市場的關(guān)聯(lián)性并不強(qiáng)。國內(nèi)資本市場存在一系列的問題,比如市場結(jié)構(gòu)合理性程度低、在資源配置方面的作用并未完全體現(xiàn)出來、市場約束機(jī)制不夠有力、市場運(yùn)行機(jī)制不夠完善等,要解決這些問題,有賴于資本市場自身的調(diào)整和優(yōu)化。a股市場長時(shí)間保持低迷,這是市場調(diào)整所一定經(jīng)歷的階段。整體來看,國內(nèi)股票市場的特征主要體現(xiàn)在這些方面:1、在企業(yè)性質(zhì)上,包括了國有企業(yè)以
34、及民營企業(yè)。國有企業(yè):此類企業(yè)的治理目標(biāo)和股東利益存在一定的出入,國企追求的終極目標(biāo),并非紅利的最大化,而是對(duì)國家建設(shè)和人民生活奉獻(xiàn)的最大化。在過去的一段時(shí)間內(nèi),銀行股的股價(jià)不太理想,而在香港的保險(xiǎn)公司則長期保持這種低迷的表現(xiàn),尤其是信托行業(yè),其情況更加令人堪憂。境外的經(jīng)驗(yàn)告訴我們,從短期的角度來看,信托的利潤是非??捎^的,但從中長期的角度來看,股東要承受較大的危險(xiǎn),這是歐美地區(qū)上市企業(yè)對(duì)信托行業(yè)不太感興趣的主要原因之所在。民營/私營企業(yè):過度競爭。我國擁有的汽車、水泥、鋼鐵企業(yè)數(shù)量居全球首位,一個(gè)行業(yè)中存在過多的競爭者,很有可能會(huì)出現(xiàn)惡性競爭行為,啤酒行業(yè)利潤低于其他國家就是最好的證明。當(dāng)然
35、,這種現(xiàn)狀并不是有弊無利的,它能夠提高行業(yè)的競爭性,降低生產(chǎn)和經(jīng)營成本,提高在全球市場中的競爭地位,但會(huì)對(duì)股東利益造成影響,導(dǎo)致企業(yè)盈利能力降低。私營企業(yè),格外是家族企業(yè)在未來的進(jìn)展充滿更多的不確定性。3.企業(yè)作假,存在嚴(yán)峻的內(nèi)幕交易情況,雖然這種情況在各個(gè)國家都有,但相比來看,在國內(nèi)更為嚴(yán)峻。2、股票政策目標(biāo)的不合理,現(xiàn)行的很多針對(duì)股市進(jìn)行監(jiān)管的政策,其目標(biāo)不是以愛護(hù)股東為主。2021年到現(xiàn)在,美國證監(jiān)會(huì)總共開出249張罰單,遠(yuǎn)遠(yuǎn)多于我國。從治理層面而言,美國證監(jiān)會(huì)的首要愛護(hù)對(duì)象為股東,企業(yè)甚至是經(jīng)濟(jì)都沒有股東那么重要。3、投資者基礎(chǔ)不理想:投資者投資理念不夠成熟,沒有足夠的資金用于長期投資
36、,大部分都追求的是短期利益。首先,在投資目的上的差異,以巴西為例,該國股市上最大的投資者是以長線投資為主的機(jī)構(gòu),并非個(gè)人。一旦股市出現(xiàn)大幅的波動(dòng),機(jī)構(gòu)投資者也會(huì)陸續(xù)投資和交易行為,而在國內(nèi)90%都為散戶,在這種情況下簡潔撤離。其次,上市企業(yè)忽視了長期投資者的利益。不管是國企還是民營企業(yè),都身處競爭過度的逆境,大部分的企業(yè)并未對(duì)未來5-10年的進(jìn)展進(jìn)行科學(xué)的規(guī)劃。所以從個(gè)人層面而言,難以進(jìn)行長期投資。在國內(nèi),企業(yè)在五年后跨行的事件屢見不鮮,很多投資者選擇短期投資也是無奈之舉。在過去的幾年間,越來越多的個(gè)人將投資的目光轉(zhuǎn)向二級(jí)市場,然而上市企業(yè)對(duì)分紅的積極性并不高,大部分投資者都是通過差價(jià)抓取收益
37、的,因此將近八成的投資者每天所跟蹤的,就是股票價(jià)格的波動(dòng)并對(duì)大盤的波動(dòng)情況進(jìn)行預(yù)測,國內(nèi)股票市場的驅(qū)動(dòng)力來源在于散戶,因此學(xué)者們在進(jìn)行股票市場方面的研究時(shí)的,都將關(guān)注點(diǎn)放在股價(jià)的波動(dòng)和如何進(jìn)行更準(zhǔn)確的預(yù)測上。眾所周知,證券市場中的上市企業(yè)身處宏觀經(jīng)濟(jì)這一大環(huán)境,因此難免受到影響。所以,在股票市場中投資時(shí),通常都會(huì)結(jié)合當(dāng)下的經(jīng)濟(jì)形勢進(jìn)行考慮,選擇可能會(huì)帶來收益的上市企業(yè)股票。要準(zhǔn)確的推斷經(jīng)濟(jì)形勢,通常都需要結(jié)合政府相關(guān)部門制定的財(cái)政和貨幣政策,以及披露的行業(yè)數(shù)據(jù)進(jìn)行全面的考慮。財(cái)政政策是政府根據(jù)當(dāng)前社會(huì)各個(gè)方面的進(jìn)展目標(biāo)而提出的財(cái)政工作總體方針,政府制定和推行此項(xiàng)政策的主要目的,是對(duì)國民總需求進(jìn)
38、行調(diào)整。從財(cái)政政策的角度能夠了解進(jìn)展空間,通過經(jīng)濟(jì)數(shù)據(jù)對(duì)進(jìn)展取得的成績進(jìn)行檢驗(yàn)。各種經(jīng)濟(jì)數(shù)據(jù)和貨幣政策存在緊密的關(guān)聯(lián),貨幣政策指的是政府或央行為引導(dǎo)經(jīng)濟(jì)活動(dòng)朝著預(yù)期的方向前行而制定的貨幣方面的政策,主要目的是對(duì)貨幣供應(yīng)和利率進(jìn)行控制,通俗來說就是調(diào)節(jié)貨幣的流通量,這一參數(shù)在很大程度上決定了國民的消費(fèi)能力。比如,當(dāng)政府推行收縮性貨幣政策時(shí),利率就會(huì)因此而提高,消費(fèi)者難以從銀行手中獵取貸款資金支持,或者不情愿承擔(dān)高額的利息而放棄消費(fèi),所以此項(xiàng)政策對(duì)房地產(chǎn)行業(yè)的進(jìn)展具有打壓性的作用,在這種情況下理性的投資者就會(huì)遠(yuǎn)離房產(chǎn)股。通過分析對(duì)經(jīng)濟(jì)形勢有全面的了解后,后續(xù)工作主要是找到進(jìn)展前景比較好的行業(yè)了。以
39、行業(yè)中競爭者數(shù)量、產(chǎn)品性質(zhì)、企業(yè)價(jià)格控制能力等為依據(jù)來看,市場包括了四種類型,即完全競爭、壟斷競爭、寡頭壟斷、完全壟斷。接著對(duì)確定的行業(yè)的周期性展開推斷,行業(yè)進(jìn)展?fàn)顩r和宏觀經(jīng)濟(jì)狀況之間存在一定的關(guān)聯(lián),不過各個(gè)行業(yè)這一關(guān)聯(lián)性的強(qiáng)弱程度存在或大或小的差異,根據(jù)這一差異可以把各個(gè)行業(yè)分成三種,具體如下表2-1:表 21 行業(yè)分類表增長性行業(yè)該行業(yè)的變動(dòng)趨勢和宏觀經(jīng)濟(jì)并非未完全同步,表現(xiàn)出較強(qiáng)的增長性,無論經(jīng)濟(jì)處于增長或衰退階段,行業(yè)都有可能表現(xiàn)出增長的趨勢。周期性行業(yè)該行業(yè)的變動(dòng)趨勢和宏觀經(jīng)濟(jì)是完全同步的,比如鋼鐵、有色金屬、煤炭等行業(yè),都屬于這一類。防備型行業(yè)無論經(jīng)濟(jì)處于周期中的哪一階段,行業(yè)的進(jìn)
40、展都比較穩(wěn)定,比如視頻業(yè)、公用事業(yè)等,都屬于這一類。無論是哪一種行業(yè),都不可幸免地會(huì)經(jīng)歷成長、衰退等階段,此即為行業(yè)生命周期理論的核心之所在。投資者能夠按照專業(yè)的偏好對(duì)特定的行業(yè)展開分析。從稚嫩期、成長期、成熟期、衰退期來看,每個(gè)階段行業(yè)中應(yīng)該選擇的企業(yè)是不同的。針對(duì)稚嫩期行業(yè),通常都會(huì)投資治理人員整體素養(yǎng)較高的企業(yè);針對(duì)成長期行業(yè),通常都會(huì)投資技術(shù)成熟、市場容量大、產(chǎn)業(yè)關(guān)聯(lián)性更強(qiáng)的企業(yè);針對(duì)成熟期行業(yè),企業(yè)在產(chǎn)品、工藝和技術(shù)方面都達(dá)到了成熟水平,企業(yè)競爭力最強(qiáng);針對(duì)衰退期行業(yè),落后的產(chǎn)能應(yīng)該去尋覓新的替代品,也就是說企業(yè)進(jìn)展的重點(diǎn)在于業(yè)務(wù)的轉(zhuǎn)變。目前應(yīng)用比較廣泛的調(diào)研方法包括了:問卷調(diào)查、電
41、話訪問、實(shí)地調(diào)研、深度訪談。在正式調(diào)研之前,需要完成的準(zhǔn)備工作包括了:采集基礎(chǔ)性的行業(yè)數(shù)據(jù);了解企業(yè)在過去兩年或以上時(shí)間的相關(guān)數(shù)據(jù);掃瞄市場中權(quán)威媒體公布的的文章,從而了解市場以及對(duì)手的觀點(diǎn)和最新情況;創(chuàng)建模型,把采集到的關(guān)于行業(yè)和企業(yè)的數(shù)據(jù)提交給模型,確定模型預(yù)測還需要哪些未知的數(shù)據(jù),編制調(diào)研提綱;對(duì)于未知的數(shù)據(jù),根據(jù)市場觀點(diǎn)以及自身的經(jīng)驗(yàn),對(duì)其進(jìn)行估量,然后將其提交給模型,基于模型輸出的結(jié)果對(duì)企業(yè)進(jìn)行較為全面的推斷。這一過程涉及到大量的數(shù)據(jù)挖掘工作,需要投入大量的時(shí)間和精力,當(dāng)前行業(yè)研究的框架和規(guī)律是完全公開的,因此決定基本面推斷結(jié)果的主要因素,是數(shù)據(jù)的準(zhǔn)時(shí)性和準(zhǔn)確性,了解各個(gè)行業(yè)的核心數(shù)
42、據(jù)之所在,并準(zhǔn)時(shí)地進(jìn)行更新,創(chuàng)建數(shù)據(jù)挖掘系統(tǒng),跟蹤這些數(shù)據(jù),是準(zhǔn)確推斷行業(yè)周期的重要前提。整體而言,趨勢的形成、演化的規(guī)律,在很大程度上由因果循環(huán)所決定,市場分析的重點(diǎn)在于趨勢的推斷、跟蹤和迎合。因此,為了提高行情分析的準(zhǔn)確性,一定明確和市場進(jìn)展有關(guān)的各項(xiàng)因子。2.2 數(shù)據(jù)挖掘工作原理2.2.1 聚類算法概述聚類,指的是將大量的數(shù)據(jù)分割成多個(gè)簇,確保不同簇彼此間有著明顯的區(qū)別,而同一個(gè)簇里面的數(shù)據(jù)的差異非常小。這里的簇指的是樣本的集合,聚類分析讓同一個(gè)簇里面的元素的關(guān)聯(lián)性比其和別的簇里面的元素的關(guān)聯(lián)性更強(qiáng),也就是說同一個(gè)簇包含的兩個(gè)元素表現(xiàn)出很高的相似度,不同簇里面的元素則表現(xiàn)出很高的相異度。
43、通過對(duì)樣本的屬性值進(jìn)行計(jì)算,就能夠確定相異度的大小,通常情況下都會(huì)選擇不同樣本的“距離”予以衡量。 聚類分析別名群分析,它是遵循“物以類聚”的思想,將樣本或指標(biāo)分為不同類型的多元統(tǒng)計(jì)分析方法,其在數(shù)據(jù)挖掘領(lǐng)域有著廣泛的應(yīng)用、發(fā)揮著重要的價(jià)值。有了這種方法后,即便在不存在先驗(yàn)經(jīng)驗(yàn),和能夠借鑒的模式的情況下,也能夠以樣本的特性為依據(jù),將大量的樣本分為不同的類型。在聚類之前,用戶往往不確定需要將數(shù)據(jù)分成幾個(gè)簇,并且沒有確定劃分的依據(jù),在聚類分析的過程中,數(shù)據(jù)集的特征是不知道的,應(yīng)用聚類算法的目的就是了解其特征,并因此為依據(jù)將其分為若干個(gè)簇。從這個(gè)角度來看,聚類和分類存在一定的共同點(diǎn),也就是把數(shù)據(jù)分成
44、不同的組,不過二者是完全不同的兩個(gè)概念。在分類之前,組已經(jīng)定義好,然而在聚類時(shí),組(通常被叫做簇)并未提前定義,是在了解數(shù)據(jù)的特征后,根據(jù)數(shù)據(jù)的相似性進(jìn)行定義的。數(shù)據(jù)挖掘?qū)垲惙治龅囊笾饕w現(xiàn)在:可伸縮性,如果聚類對(duì)象達(dá)到幾百萬個(gè),最終的聚類結(jié)果應(yīng)該在準(zhǔn)確度方面保持一致;能夠?qū)?shù)據(jù)的各種屬性進(jìn)行處理;部分聚類算法,只能夠用于數(shù)值類型數(shù)據(jù)的處理,然而在實(shí)踐中,數(shù)據(jù)的類型并不局限于數(shù)值,還有很多不同的數(shù)據(jù),比如二元數(shù)據(jù)、分類數(shù)據(jù)等。不過,這些數(shù)據(jù)都能夠被轉(zhuǎn)化成數(shù)值型數(shù)據(jù),不過這樣一來,聚類所需的時(shí)間會(huì)變長,最終聚類結(jié)果的準(zhǔn)確性也會(huì)有所降低;能夠找到各種形狀的類簇:考慮到相當(dāng)一部分的聚類算法都是以
45、距離(eg:歐幾里得距離或曼哈頓距離)反映出不同對(duì)象彼此間的相似度的,在這種情況下,只能夠找到尺寸、密度相差較小的球狀類簇或凸形類簇。然而,在實(shí)踐中,類簇的形狀有很多種;對(duì)聚類算法初始化參數(shù)的知識(shí)需求是最小的:相當(dāng)一部分算法的應(yīng)用,需要用戶提供初始參數(shù)信息,比如所期望得到的類簇的數(shù)量,初始質(zhì)點(diǎn)等。如果參數(shù)出現(xiàn)小幅的改變,最終的聚類結(jié)果會(huì)出現(xiàn)明顯的改變,準(zhǔn)確性大打折扣,同時(shí)給用戶造成更重的負(fù)擔(dān)。整體而言,數(shù)據(jù)分類是對(duì)現(xiàn)有的數(shù)據(jù)展開分析,確定其在屬性上的一致之處,同時(shí)利用分類模型將數(shù)據(jù)分成多個(gè)類別,并為每個(gè)類標(biāo)記標(biāo)號(hào)。類別往往都是已經(jīng)定義好的,類別數(shù)量是確定的。而數(shù)據(jù)聚類,則是把不存在類別參考的數(shù)
46、據(jù)分為多個(gè)組,也就是從數(shù)據(jù)導(dǎo)出類標(biāo)號(hào)。聚類分析是對(duì)數(shù)據(jù)進(jìn)行挖掘,從而得到數(shù)據(jù)對(duì)象和它們之間的關(guān)系,然后把數(shù)據(jù)分為不同的組。每組包含的對(duì)象具有較高的相似性,不同組里面的對(duì)象是不相似的。所以說,推斷分類效果的依據(jù),是組內(nèi)、組間樣本的相似性的高地程度。2.2.2 k-means算法原理屬于硬聚類方法,它是在原型的目標(biāo)行數(shù)聚類方法基礎(chǔ)上提出的,能夠用于優(yōu)化數(shù)據(jù)點(diǎn)和原型的某種距離,通過函數(shù)求極值的方法,從而確定迭代運(yùn)算的調(diào)整規(guī)章。這種方法通過歐式距離來衡量相似度,通過計(jì)算得到對(duì)應(yīng)某一初始聚類中心向量v最優(yōu)分類,從而將評(píng)價(jià)指標(biāo)j控制在更低范圍內(nèi)。該方法選擇的聚類準(zhǔn)則函數(shù)為誤差平方和準(zhǔn)則函數(shù)。對(duì)于數(shù)據(jù)挖掘而
47、言,屬于算法范疇,它能夠通過計(jì)算提供數(shù)據(jù)聚集,持續(xù)地取離種子點(diǎn)最近均值。我們用c代表聚類分析后樣本集的數(shù)量,該算法的原理為: (1)恰當(dāng)?shù)剡x擇c個(gè)類的初始中心;(2)在進(jìn)行第k次迭代時(shí),針對(duì)任何的樣本,通過計(jì)算確定其和c個(gè)中心之間的距離,把樣本歸入到最小距離值對(duì)應(yīng)的類中;(3)通過均值等方法調(diào)整這一類的中心值; (4)完成上述兩個(gè)步驟后,針對(duì)c個(gè)聚類中心,若其值并未發(fā)生任何改變,停止迭代,否則就應(yīng)該陸續(xù)進(jìn)行迭代。這種算法最顯著的優(yōu)勢和特征在于計(jì)算工作量小、耗時(shí)短,初始中心的選擇以及距離公式直接影響到算法結(jié)果的準(zhǔn)確性。在采納該算法時(shí),具體的操作步驟是:通過隨機(jī)的方法,在n個(gè)數(shù)據(jù)里面抽選k個(gè)對(duì)象,
48、并將其當(dāng)做初始聚類中心,對(duì)于其他的(n-k)個(gè)對(duì)象,計(jì)算其和聚類中心的相似度,也就是距離,并以此為依據(jù),將其歸入到和其相似度最高的聚類中;接著再進(jìn)行計(jì)算,確定新聚類的中心,也就是聚類包含的全部對(duì)象的均值;持續(xù)重復(fù)上述過程,直至標(biāo)準(zhǔn)測度函數(shù)開始收斂。通常情況下在標(biāo)準(zhǔn)測度函數(shù)方面都會(huì)選擇均方差,k個(gè)聚類的特點(diǎn)是:同一聚類實(shí)現(xiàn)了最大化的緊湊性,不同聚類實(shí)現(xiàn)了最大化的分隔性。算法實(shí)現(xiàn)的詳細(xì)流程是:(1) 通過隨機(jī)的方法,在n個(gè)數(shù)據(jù)里面抽選k個(gè)對(duì)象,并將其當(dāng)做初始聚類中心。(2) 對(duì)于其他的(n-k)個(gè)對(duì)象,計(jì)算其和聚類中心的相似度,也就是距離,并以此為依據(jù),將其歸入到和其相似度最高的聚類中。(3)結(jié)束
49、全部對(duì)象的歸類后,再次計(jì)算并更新k個(gè)聚類的中心。(4)和之前計(jì)算確定的k個(gè)聚類中心進(jìn)行對(duì)比,若二者是不同的,回到步驟(2),否則陸續(xù)。(5)輸出聚類結(jié)果。通過流程圖2-1方式可以描述為:圖 21 k均值聚類算法的流程圖首先,按照隨機(jī)的方法,抽取k個(gè)對(duì)象,將這些對(duì)象當(dāng)做一個(gè)簇的初始均值或中心,然后計(jì)算出未被抽取的所有對(duì)象和所有簇中心的距離,以此為依據(jù)將其歸入到某一簇中,計(jì)算確定所有簇的均值,并將其當(dāng)做本簇的新中心;持續(xù)重復(fù)上述步驟,直至準(zhǔn)則函數(shù)收斂。一般情況下都會(huì)選擇平方誤差準(zhǔn)則,也就是是針對(duì)簇包含的各個(gè)對(duì)象,計(jì)算出其和中心距離的平方和,基于該準(zhǔn)則得到的簇具有良好的緊湊性和獨(dú)立性。k均值聚類算法
50、的優(yōu)勢和劣勢分析:算法的主要優(yōu)勢在于操作復(fù)雜性低,耗時(shí)短,尤其適用于中小型數(shù)據(jù)集,當(dāng)然,它也有一定的劣勢,主要體現(xiàn)在如下三個(gè)方面:(1) 聚類結(jié)果不確定算法是按照隨機(jī)的方法確定初始中心的,而基于不同的初始中心得到的聚類結(jié)構(gòu)是不同的。因此這種方法的重復(fù)性和穩(wěn)定性并不好。另外,該算法往往選擇的目標(biāo)函數(shù)都是準(zhǔn)則函數(shù),而這種函數(shù)包含的全局最小值和極小值的數(shù)量分別是1和n,所以,經(jīng)過一系列的運(yùn)算后,有較高的概率陷入局部極小值,進(jìn)而導(dǎo)致最終無法實(shí)現(xiàn)全局最優(yōu)解。(2) 聚類個(gè)數(shù)不確定算法里面的k代表的是聚簇的數(shù)量,其值的大小直接影響到聚類結(jié)果的準(zhǔn)確性。在確定k值時(shí),通常都要結(jié)合具體需求考慮,但在大多數(shù)情況下
51、,這一需求本身是不明確的,所以這也導(dǎo)致了該算法的聚類結(jié)果具有較強(qiáng)的不確定性。(3) 數(shù)據(jù)量大、算法時(shí)間復(fù)雜度較高在使用算法時(shí),需要持續(xù)進(jìn)行迭代,為了確定最準(zhǔn)確的聚類中心,在計(jì)算的過程中,還需要持續(xù)進(jìn)行調(diào)整,只有這樣才可以得到準(zhǔn)確的聚類結(jié)果,計(jì)算的主要目的是得到不同對(duì)象彼此間的距離,因此,這種方法需要投入很多的時(shí)間,算法在效率方面的表現(xiàn)并不太突出。適用于分類問題的方法多種多樣,其中單一的方法有:決策樹、貝葉斯、人工神經(jīng)網(wǎng)絡(luò)、k-近鄰、支持向量機(jī)和基于關(guān)聯(lián)規(guī)章的分類等,當(dāng)然也可以將這些方法組合起來使用,以更好地解決分類問題。(1)決策樹決策樹在分類和預(yù)測方面有著廣泛的應(yīng)用,決策樹學(xué)習(xí)是基于實(shí)例的方
52、法,從本質(zhì)上來看,它屬于歸納學(xué)習(xí)算法范疇,它根據(jù)大量的沒有次序和規(guī)章的實(shí)例進(jìn)行推理,然后通過決策樹的形式揭示出分類規(guī)章。采納這種方法,旨在確定屬性和類型彼此間的關(guān)聯(lián),從而對(duì)不確定類別的樣本的類別進(jìn)行推斷和分析,這種方法按照從上到下的順序進(jìn)行遞歸,在決策樹的節(jié)點(diǎn)上展開屬性的對(duì)比,按照各種屬性值推斷這一節(jié)點(diǎn)下方的分支,最終通過葉節(jié)點(diǎn)獵取結(jié)論。目前應(yīng)用比較廣泛的決策樹算法包括了和算法等。它們在選擇測試屬性采納的技術(shù)、生成的決策樹的結(jié)構(gòu)、剪枝的方法以準(zhǔn)時(shí)刻,能否處理大數(shù)據(jù)集等方面表現(xiàn)出不同點(diǎn)。(2)貝葉斯這種算法的理論基礎(chǔ)在于概率統(tǒng)計(jì)知識(shí),通過bayes定理,對(duì)不確定類別的樣本來自各個(gè)類別的概率進(jìn)行推
53、斷,然后以概率為依據(jù)排序,將樣本歸入到概率最高的那一個(gè)樣本類別中去。這一方法是建立在一個(gè)假設(shè)性前提條件下的,然而這一前提通常在現(xiàn)實(shí)中是不成立的,所以這種方法的分類效果并不好,準(zhǔn)確性并不高。針對(duì)這一點(diǎn),學(xué)者們不斷對(duì)其進(jìn)行改進(jìn)和完善,由此提出了不同的改進(jìn)型貝葉斯分類算法,比如tan算法等,這種算法充分考慮了屬性彼此間的關(guān)聯(lián),因此相比傳統(tǒng)貝葉斯算法,其在分類準(zhǔn)確性方面的表現(xiàn)大幅提高。(3)人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)是具有信息處理功能的數(shù)學(xué)模型,它是對(duì)大腦神經(jīng)系統(tǒng)進(jìn)行模擬后創(chuàng)建的,它由一系列的節(jié)點(diǎn)所構(gòu)成,這些節(jié)點(diǎn)彼此間存在一定的關(guān)聯(lián),由此共同形成一張網(wǎng)絡(luò),此即為“神經(jīng)網(wǎng)絡(luò)”,從而對(duì)信息進(jìn)行有效的處理。這
54、種方法的第一個(gè)環(huán)節(jié)是訓(xùn)練,通過訓(xùn)練讓網(wǎng)絡(luò)進(jìn)行“學(xué)習(xí)”,完成學(xué)習(xí)后,節(jié)點(diǎn)的連接權(quán)值會(huì)因此而改變,因此能夠起到分類的作用,通過訓(xùn)練的網(wǎng)絡(luò)能夠有效地識(shí)別對(duì)象。經(jīng)過多年的進(jìn)展,研究人員提出了大量的人工網(wǎng)絡(luò)模型,其中應(yīng)用最廣泛的包括了bp網(wǎng)絡(luò)、徑向基rbf網(wǎng)絡(luò)、網(wǎng)絡(luò)、隨機(jī)神經(jīng)網(wǎng)絡(luò)(機(jī))、競爭神經(jīng)網(wǎng)絡(luò)(網(wǎng)絡(luò),自組織映射網(wǎng)絡(luò))等。神經(jīng)網(wǎng)絡(luò)的缺陷和不足主要體現(xiàn)在收斂耗時(shí)長、計(jì)算工作量大、無法解釋等,因此還需要在未來的研究中進(jìn)一步改進(jìn)和完善。(4)k-近鄰k-近鄰(knn,k-nearest neighbors)算法是一種基于實(shí)例的分類方法。該方法就是找出與未知樣本x距離最近的k個(gè)訓(xùn)練樣本,看這k個(gè)樣本中多數(shù)屬
55、于哪一種類別,就將x歸入到這一類中。這種方法的本質(zhì)是懶惰學(xué)習(xí)方法,它把樣本保存起來,如果不需要的話不會(huì)分類,針對(duì)非常復(fù)雜的樣本集,如果采納這種方法進(jìn)行分類,需要完成很大的計(jì)算工作量,所以這種方法并不適用于對(duì)實(shí)時(shí)性具有很高要求的場景。(5)支持向量機(jī)支持向量機(jī),這種方法是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上提出的,它的主要特征在于基于結(jié)構(gòu)危險(xiǎn)最小化員原則,通過盡量大的分類間隔制造最優(yōu)分類超平面,使學(xué)習(xí)機(jī)具備更強(qiáng)的泛化能力,因此在面對(duì)非線性、高維數(shù)、局部極小點(diǎn)等問題時(shí)具有不錯(cuò)的分類效果。針對(duì)分類問題,svm基于區(qū)域里面的樣本進(jìn)行計(jì)算,進(jìn)而得到這一區(qū)域的決策曲面,最終確定區(qū)域里面所有樣本應(yīng)該屬于哪一類。(6)基于
56、關(guān)聯(lián)規(guī)章的分類關(guān)聯(lián)規(guī)章挖掘受到了更多數(shù)據(jù)挖掘?qū)W者的關(guān)注。在過去的幾年間,學(xué)者們在這方面的研究中投入了大量的精力和時(shí)間。這種方法的挖掘過程類似于的規(guī)章,這里面是項(xiàng)(或?qū)傩?值對(duì))的集合,而c是類標(biāo)號(hào),這種形式的規(guī)章稱為類關(guān)聯(lián)規(guī)章。關(guān)聯(lián)分類方法的操作過程包括兩個(gè)環(huán)節(jié):其一,通過算法在樣本集里面進(jìn)行挖掘,從而確定全部滿足指定支持度和置信度的類關(guān)聯(lián)規(guī)章;其二,通過啟發(fā)式方法,在上一環(huán)節(jié)中得到的關(guān)聯(lián)規(guī)章里面選擇質(zhì)量最高的規(guī)章,并以此為依據(jù)完成分類。(7)集成學(xué)習(xí)在實(shí)踐中,需要分類的數(shù)據(jù)往往都表現(xiàn)出復(fù)雜性和多樣性的特點(diǎn),如果采納一種分類方法進(jìn)行分類,效果通常都不夠理想, 為此,學(xué)者們開始研究如何針對(duì)同一問
57、題采納多種分類方法,也就是集成學(xué)習(xí),這也是全球機(jī)器學(xué)習(xí)界最熱門的議題之一,集成學(xué)習(xí)屬于機(jī)器學(xué)習(xí)范式,它會(huì)持續(xù)地使用不同的學(xué)習(xí)算法,得到多個(gè)基學(xué)習(xí)器,接著按照既定的規(guī)章,將其組合在一起,以得到問題最終的解,這種思路能夠使學(xué)習(xí)系統(tǒng)具備更強(qiáng)的泛化能力。2.2.3 分類算法數(shù)據(jù)挖掘的內(nèi)容十分廣泛,分類即為其中之一,它指的是將數(shù)據(jù)項(xiàng)目映射到已知類別中的某一類別,比如當(dāng)學(xué)者們發(fā)表文章后,分類技術(shù)能夠在無需人工操作的情況下,將文章劃分到具體的類型中去,比如是屬于科技類、藝術(shù)類,還是人文類等,通常情況下需要利用特定的分類算法確定分類規(guī)章,然后以此為依據(jù)完成新數(shù)據(jù)的劃分。從數(shù)據(jù)挖掘的角度來看,分類這一環(huán)節(jié)的工作起著重要的作用,其用途十分廣泛,比如預(yù)測等,也就是根據(jù)現(xiàn)有的樣本數(shù)據(jù)進(jìn)行推算,從而確定數(shù)據(jù)在未來的進(jìn)展演化趨勢,其中最經(jīng)典的預(yù)測案例即為大豆學(xué)習(xí),這種方法也
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 教材 課題申報(bào)書
- 人防工程專用合同范本
- 政研會(huì)課題申報(bào)書格式
- 代理書畫銷售合同范本
- 東易日盛合同范本
- 合同范本簡歷
- 合伙快遞合同范本
- 北京建委 施工合同范本
- 全民養(yǎng)羊合同范本
- 廁所新建合同范本
- 《材料工程基礎(chǔ)》教學(xué)大綱
- 國內(nèi)外材料牌號(hào)對(duì)照
- 建設(shè)工程施工合同培訓(xùn)PPT(49頁)
- 巴黎盧浮宮介紹PPT模板課件
- 蒂森克虜伯電梯曳引輪鋼絲繩安裝布置
- LY∕T 2780-2016 松皰銹病菌檢疫技術(shù)規(guī)程
- 航空服務(wù)形體訓(xùn)練課程標(biāo)準(zhǔn)
- 項(xiàng)目部安全管理組織機(jī)構(gòu)網(wǎng)絡(luò)圖GDAQ20102
- 蘇科版四年級(jí)勞動(dòng)技術(shù)下冊教學(xué)計(jì)劃
- 電網(wǎng)公司客戶資產(chǎn)接收管理細(xì)則
- 干部選拔任用工作報(bào)告(一報(bào)告兩評(píng)議).doc
評(píng)論
0/150
提交評(píng)論