版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)挖掘技術的應用與發(fā)展
計算機科學和技術的發(fā)展有力地促進了我們工作和生活方式的變化。數(shù)字生存是21世紀的發(fā)展趨勢。如今在全球范圍內掀起了“數(shù)字地球”的熱潮,世界各地的公司和企業(yè)都花費了大量的力氣建立數(shù)據(jù)庫。在大壩安全監(jiān)控領域,一座大型大壩上布置的監(jiān)測點個數(shù)以千計,各監(jiān)測點年復一年地觀測所采集和積累的數(shù)據(jù)是海量的。數(shù)據(jù)量的迅速增多,信息量的急劇增大,為人類提出了一個亟待解決的課題,即如何有效地使用這些數(shù)據(jù)。因此,需要一種強有力的技術來分析這些海量的數(shù)據(jù),而目前還處于數(shù)據(jù)豐富而知識相對比較貧乏階段。在大壩安全監(jiān)控領域,運行中的大壩可被視為復雜的動力系統(tǒng)。在該系統(tǒng)中,壩體、庫水和壩基相互作用使得系統(tǒng)具有內在的不確定性;此外,外部環(huán)境(如氣溫、降雨和地震等)等多種因素的影響,使得大壩系統(tǒng)處于復雜的時間和空間中,具有高度的非線性特征。因此,有關大壩安全監(jiān)控的領域知識顯得不足。隨著數(shù)據(jù)庫的猛增,特別是數(shù)據(jù)倉庫的出現(xiàn),使得僅僅利用當前的數(shù)據(jù)庫技術并不能充分發(fā)揮這些數(shù)據(jù)的作用。用戶不僅需要一般的查詢和報表工具,更需要的是那些能夠幫助他們從海量數(shù)據(jù)中提取出高質量信息(預測性)的工具。數(shù)據(jù)挖掘技術的出現(xiàn)和發(fā)展正符合這一潮流。1挖掘的概念和方法1.1為企業(yè)經(jīng)營服務數(shù)據(jù)挖掘(DataMining,簡稱為“DM”),也叫數(shù)據(jù)開采或數(shù)據(jù)采掘等,是按照既定的業(yè)務目標從海量數(shù)據(jù)中提取潛在的、有效的并能被人理解的模式的高級處理過程。數(shù)據(jù)挖掘技術主要基于人工智能、機器學習、統(tǒng)計學等技術,高度自動化地分析企業(yè)原有的數(shù)據(jù),并做出歸納性的推理,從中挖掘出潛在的模式,預測業(yè)務目標的行為,為領導提供強有力的技術支持。因此,確切地說,數(shù)據(jù)挖掘是一種決策支持過程。目前,數(shù)據(jù)挖掘技術已廣泛應用于商業(yè)領域,例如股票經(jīng)紀人利用數(shù)據(jù)挖掘技術從日積月累的大量股票行情變化的歷史記錄中發(fā)現(xiàn)其變化規(guī)律,以供預測未來的趨勢之用;超級市場的經(jīng)理人員利用數(shù)據(jù)挖掘技術從過去幾年的銷售記錄中,分析顧客的消費習慣與行為等。而在工程領域中,數(shù)據(jù)挖掘技術應用較少。基于數(shù)據(jù)挖掘技術在商業(yè)領域的成熟應用,本文結合傳統(tǒng)的基于模型庫的大壩安全決策支持系統(tǒng)的特點,探討了數(shù)據(jù)挖掘技術在大壩安全監(jiān)測領域的應用。1.2人工智能算法與技術數(shù)據(jù)挖掘的技術基礎是人工智能。人工智能是以自動機為手段,通過模擬人類宏觀外顯的思維行為,從而有效地解決現(xiàn)實世界問題的科學與技術。由此可見,人工智能的目標非常高,除了要求復雜的算法外,還需要特定的系統(tǒng),甚至還需要特定的機器。但數(shù)據(jù)挖掘僅僅利用了人工智能中一些已經(jīng)成熟的算法與技術,例如,人工神經(jīng)網(wǎng)絡(ArtificialNeuralNetworks)、遺傳算法(GeneticAlgorithms)、決策樹方法(DecisionTrees)、鄰近搜索方法(NearestNeighborMethod)、規(guī)則推理(RuleInduction)、模糊邏輯(FuzzyLogic)等。其問題的復雜程度和難度比人工智能降低了許多。例如,模式識別是人工智能的一個重要分支,大致上可以分為模擬信號數(shù)、預處理、特征抽取與分類、解釋環(huán)節(jié)等4步。但在數(shù)據(jù)挖掘中,所要分析的數(shù)據(jù)是已經(jīng)存在于數(shù)據(jù)庫中的記錄,且其復雜度比人工智能的數(shù)據(jù)低許多,所以數(shù)據(jù)挖掘中的模式識別問題比起人工智能而言,簡化了許多。數(shù)據(jù)挖掘的幾種常用方法如下所述。(1)結構的分類它是一種模仿人腦信息處理機制的網(wǎng)絡系統(tǒng),由大量簡單的人工神經(jīng)元廣泛連接而成。人工神經(jīng)網(wǎng)絡不是人腦系統(tǒng)的逼真復制,但確實反映了人腦功能的若干特性,它可以完成學習、記憶、識別和推理等功能,主要有三種神經(jīng)網(wǎng)絡模型:①前饋式網(wǎng)絡。它以感知機、反向傳播模型、函數(shù)型網(wǎng)絡為代表,可用于預測、模式識別等方面。②反饋式網(wǎng)絡。它以Hopfield的離散型和連續(xù)型為代表,分別用于聯(lián)想記憶和優(yōu)化計算。③自組織網(wǎng)絡。它以ART模型、Koholon模型為代表,用于聚類分析等方面。人工神經(jīng)網(wǎng)絡的知識體現(xiàn)在網(wǎng)絡的連接權上,是一種分布式的矩陣結構;其學習體現(xiàn)在神經(jīng)網(wǎng)絡權值的逐步計算上(包括反復迭代或累加計算)。利用人工神經(jīng)網(wǎng)絡方法,將有關大壩安全的環(huán)境量(如庫水位、氣溫、降雨等)作為輸入,而將有關大壩安全的監(jiān)測效應量(如位移、揚壓力、滲流量等)作為輸出,通過學習和記憶,可提取出相應的知識,以預測大壩安全監(jiān)測效應量的未來測值,供大壩安全決策支持用。(2)變異突變遺傳算法是模擬進化過程的算法,由三個基本算子(或過程)組成:①繁殖(選擇)。即從一個舊種群(父代)選出生命力強的個體,產生新的種群(后代)的過程。②交叉(重組)。即選擇兩個不同的個體(染色體)的部分(基因)進行交換,形成新個體的過程。③變異(突變)。即對某些個體的某些基因進行變異,形成新個體的過程。這種遺傳算法可起到產生優(yōu)良后代的作用。這些后代需滿足適應值,經(jīng)過若干代的遺傳,將得到滿足要求的后代(即問題的高杠桿解)。大壩安全決策支持系統(tǒng)就其推理的過程而言,實際上也是一種模糊系統(tǒng),而基于遺傳算法的數(shù)據(jù)挖掘技術可用于對模糊控制規(guī)則的學習,利用遺傳算法可學習隸屬度函數(shù),從而更好地改進模糊系統(tǒng)的性能;此外,還可用于調整人工神經(jīng)網(wǎng)絡的連接權,等等。(3)建立決策樹的以最大信息的數(shù)據(jù)實體為核心的屬性決策樹方法是利用信息論中的互信息尋找數(shù)據(jù)庫中具有最大信息量的屬性字段,建立決策樹的一個節(jié)點,再根據(jù)該屬性字段的不同取值建立樹的分支;在每個分支子集中重復建立樹的下層節(jié)點和分支的過程。2掘系統(tǒng)需要其他技術的支持由上述可知,數(shù)據(jù)挖掘的核心技術是人工智能、機器學習、統(tǒng)計學等等,但一個數(shù)據(jù)挖掘系統(tǒng)不是多項技術的簡單組合,而是一個完整的整體,它還需要其他技術的支持,才能挖掘出令用戶滿意的結果。根據(jù)其功能,數(shù)據(jù)挖掘系統(tǒng)大致可劃分為三級邏輯結構(見圖1)。數(shù)據(jù)庫中的數(shù)據(jù)挖掘是一個多步驟的處理過程,一般可分為以下幾個步驟。(1)用戶的應用需求了解相關領域的有關情況,熟悉背景知識,弄清用戶的應用需求。在大壩安全決策支持系統(tǒng)中,定義問題要分清是用于預測監(jiān)測效應量的未來發(fā)展趨勢的,還是分析測點異常測值的物理成因的。(2)大壩安全監(jiān)測結果根據(jù)需求從數(shù)據(jù)庫中提取相關數(shù)據(jù),對于預測未來趨勢要提取的數(shù)據(jù)主要是大壩安全的監(jiān)測效應量;對于物理成因分析,除了監(jiān)測效應量,還要提取有關大壩的環(huán)境量、日常巡查數(shù)據(jù)、大壩的設計和竣工數(shù)據(jù)、大壩的運行數(shù)據(jù)等。(3)預處理數(shù)據(jù)主要是對前一階段產生的數(shù)據(jù)進行再加工,檢查數(shù)據(jù)的完整性和一致性,并對其中的噪音數(shù)據(jù)進行處理,對丟失的數(shù)據(jù)進行填補。(4)知識的提取運用選定的知識發(fā)現(xiàn)算法,從數(shù)據(jù)中提取用戶所需的知識,這些知識可用一種特定的方式表示或使用一些常用的表示方式。(5)評估知識可利用可視化工具將發(fā)現(xiàn)的知識以用戶能理解和觀察的方式呈現(xiàn)。若用戶對分析結果不滿意,可以反復執(zhí)行上述過程,直至滿意。3在水庫安全決策支撐系統(tǒng)中的應用3.1與其他系統(tǒng)的交互所謂決策支持系統(tǒng)(DecisionSupportSystem,簡稱DSS),是指用于支持專門問題決策的人力、過程、軟件、數(shù)據(jù)庫和設備的一個有組織的集合。傳統(tǒng)的決策支持系統(tǒng),主要包括用于支持決策者或用戶的模型集(即模型庫)、輔助決策的事實和信息集以及幫助決策者和其他用戶與決策支持系統(tǒng)交互的系統(tǒng)或過程(即人機界面),見圖2。由于現(xiàn)代計算機技術的迅猛發(fā)展和人們認識水平的不斷提高,傳統(tǒng)的決策支持系統(tǒng)還有許多需要改進和完善的地方。一是缺乏豐富的數(shù)據(jù)資源,需要更加豐富。不論是內部數(shù)據(jù)還是外部數(shù)據(jù),操作數(shù)據(jù)還是管理數(shù)據(jù),綜合數(shù)據(jù)還是歷史數(shù)據(jù),統(tǒng)統(tǒng)不足;二是決策支持系統(tǒng)是面向分析的系統(tǒng),然而分析模型和算法設計均缺少堅實的數(shù)據(jù)基礎;三是所得信息的關聯(lián)性較差,使得“三庫”無法有機結合,結果形成信息孤島;四是缺乏有力的分析工具,多數(shù)分析工具為自行開發(fā),就事論事,在開放性和通用性方面顯得力不從心。為解決或克服上述不足,本文提出了基于數(shù)據(jù)挖掘技術的決策支持系統(tǒng)。由此可見,決策支持系統(tǒng)要求經(jīng)常使用模型庫。使用模型庫有諸如較試驗廉價以及方便快捷等優(yōu)點,但模型庫也有致命的缺陷。(1)很難確定模型的參數(shù)在大壩安全決策支持系統(tǒng)中,建立監(jiān)測量的混合模型時,采用的壩體綜合彈性模量一般均用反演值,但事實上,反演值與實際值出入較大。(2)模型因子的選擇在大壩安全決策支持系統(tǒng)中,無論是統(tǒng)計模型還是混合模型,都涉及模型因子的選擇問題。這些因子之間的相關性將直接影響模型的精度,但目前尚無好的解決辦法。(3)基于六大評判準則的監(jiān)測量建模在多個模型可供選擇時,決策者要花費很多時間來決定使用哪個模型。在大壩安全決策支持系統(tǒng)中,可應用六大評判準則(時空評判準則、力學規(guī)律評判準則、監(jiān)控模型評判準則、監(jiān)控指標評判準則、日常巡查評判準則和關鍵問題評判準則)對監(jiān)測量建模。評判的結果可能不一樣,以前常用加權的方法綜合評判,其結果是主觀性太強,模型難以準確反映真實的系統(tǒng)。因此,評判的結果可能是錯誤的或者有誤導性的。(4)此外,一些模型需要高度復雜的數(shù)學知識例如在大壩安全決策支持系統(tǒng)中,要求對帶裂縫的大壩建立臨界荷載模型以監(jiān)控大壩的運行,其中對數(shù)學力學知識要求頗高,使得難以建模。3.2第三,支持的層次性大壩安全評價決策支持系統(tǒng)的目的是在管理信息系統(tǒng)的基礎上利用監(jiān)測成果綜合分析評價大壩的實際工作性態(tài)信息,從而準確及時地評價大壩是否安全;為此,基于大壩安全監(jiān)測管理信息系統(tǒng)的大壩安全決策支持系統(tǒng)是大壩安全評價的核心。決策支持系統(tǒng)主要是提出有關大壩安全方面的各種問題,收集相關的監(jiān)測資料,建立相應的數(shù)學模型,并對其做出分析評價,為決策者提供輔助決策建議,它是大壩安全監(jiān)測評價系統(tǒng)中的上層建筑。綜上所述,傳統(tǒng)的大壩安全決策支持系統(tǒng)對模型的依賴性太強。而數(shù)據(jù)挖掘技術以數(shù)據(jù)為依據(jù),能有效地解決這一問題。數(shù)據(jù)挖掘技術能自動找出數(shù)據(jù)庫或數(shù)據(jù)倉庫中數(shù)據(jù)的模式及關系,利用先進的統(tǒng)計技術,力圖在數(shù)據(jù)庫(如數(shù)據(jù)倉庫、Internet數(shù)據(jù)庫)中找出各項事實。這與要求用戶給出模型(如公式)并檢驗某一假設的傳統(tǒng)的決策支持系統(tǒng)不同,數(shù)據(jù)挖掘利用內嵌的分析算法,可在用于預測未來趨勢的數(shù)據(jù)中自動生成有關模式,或者評價基于異常事件的假設。數(shù)據(jù)挖掘的目標就是抽取隱藏在數(shù)據(jù)庫中的模式、趨勢和規(guī)則。3.3數(shù)據(jù)挖掘的算法為分析某大壩的垂直位移測值序列(1979年4月9日~2001年12月12日)在1993年產生突變(見圖3所示的垂直位移測值序列的過程線)的物理成因,利用數(shù)據(jù)挖掘技術進行了如下工作。(1)數(shù)據(jù)庫設計內容為了處理該問題,將有關該大壩的數(shù)據(jù)(如監(jiān)測量測值、日常巡查數(shù)據(jù)、大壩的設計以及竣工數(shù)據(jù)、大壩運行情況數(shù)據(jù)等)以及壩址區(qū)的環(huán)境量測值(如庫水位、氣溫、降雨、地震情況等)集成于Oracle數(shù)據(jù)庫中。(2)壩段突變的發(fā)生率和影響因素在挖掘工具的幫助下,發(fā)現(xiàn)環(huán)境量測值(庫水位、降雨量、氣溫等)在此區(qū)間變化平穩(wěn),在垂直位移測值發(fā)生突變的1993年沒有突變現(xiàn)象。該結果表明,上述突變不是環(huán)境量變化引起的。利用數(shù)據(jù)挖掘技術中的內嵌算法,發(fā)現(xiàn)各壩段垂直位移測值的突變量相差較大。以11~13號壩段為例,兩者下沉突變值分別為2.474~0.865mm。該結果表明,基點受干擾而產生變化的可能性較小。此外,在此期間,沒有采用較大規(guī)模的工程措施,結構本身(包括壩基)也未出現(xiàn)異常變化。綜上分析,數(shù)據(jù)挖掘的結果表明,此次突變產生的原因極有可能是觀測儀器故障或發(fā)生特殊荷載所致。上述提取成因的相關度計算結果表明,模型解釋度為75%。(3)壩所在地區(qū)發(fā)生的強震問題在數(shù)據(jù)庫中集成的該大壩的日常巡查資料中,有記錄表明1993年該壩所在地區(qū)曾發(fā)生過幾次有感地震。與此同時,集成的測值數(shù)據(jù)表明上述突變以后的測值又恢復到突變以前的水平。因此,可以推斷1993年垂直位移測值的上抬最有可能是由區(qū)域性特殊荷載(如地震)引起的。4基于數(shù)據(jù)挖掘技術的大壩安全決策支持系統(tǒng)數(shù)據(jù)挖掘技術以人工智能技術為基礎,但其問題的規(guī)模和難度已大為降低。從很大程度上說,數(shù)據(jù)挖掘是人工智能的某些成熟技術在特定系統(tǒng)中具體而微的應用。鑒于此,作者深入分析傳統(tǒng)的大壩安全決策支持系統(tǒng)中的不足,探討了數(shù)據(jù)挖掘技術在大壩安全監(jiān)測領域中的應用,在此基礎上提出了基于數(shù)據(jù)挖掘技術的大壩安全決策支持系統(tǒng)。(1)傳統(tǒng)的大壩安全決策支持系統(tǒng)對模型的依賴性太強,模型的精度直接關系到?jīng)Q策支持系統(tǒng)的成敗;而數(shù)據(jù)挖掘技術是以數(shù)據(jù)為依據(jù)的,能有效地解決這一問題。(2)數(shù)據(jù)挖掘技術能自動找出數(shù)據(jù)庫或數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 旅游景區(qū)律師助理聘用協(xié)議
- 建筑工程驗收合同樣式
- 安徽省特產市場租房協(xié)議
- 影視制作經(jīng)銷商合同
- 智能化施工合同建筑工程高效管理
- 酒店開業(yè)慶典致辭5篇
- 醫(yī)院噪聲污染防治管理規(guī)定
- 2024工程機械租賃合同
- 教學樓照明系統(tǒng)升級合同模板
- 旅游度假區(qū)開發(fā)考核辦法
- 河北省石家莊市長安區(qū)2023-2024學年五年級上學期期中英語試卷
- 品牌經(jīng)理招聘筆試題及解答(某大型國企)2025年
- 多能互補規(guī)劃
- 珍愛生命主題班會
- 《網(wǎng)絡數(shù)據(jù)安全管理條例》課件
- 消除“艾梅乙”醫(yī)療歧視-從我做起
- 八年級歷史上冊(部編版)第六單元中華民族的抗日戰(zhàn)爭(大單元教學設計)
- 公司研發(fā)項目審核管理制度
- 《詩意的色彩》課件 2024-2025學年人美版(2024)初中美術七年級上冊
- 小學生主題班會《追夢奧運+做大家少年》(課件)
- 《抖音運營》課件-1.短視頻與抖音認知基礎
評論
0/150
提交評論