




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
Word版本,下載可自由編輯數(shù)據(jù)挖掘技術(shù)與水文現(xiàn)代化間的關(guān)系隨著數(shù)據(jù)庫技術(shù)的快速進(jìn)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們堆積的數(shù)據(jù)越來越多。激增的數(shù)據(jù)背后躲藏著許多重要的信息,人們希翼能夠?qū)ζ渑e行更高層次的分析,以便更好地通過這些數(shù)據(jù)。目前的數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)覺數(shù)據(jù)中存在的關(guān)系和規(guī)章,無法按照現(xiàn)有些數(shù)據(jù)預(yù)測將來的進(jìn)展趨勢。
用數(shù)據(jù)庫來存儲數(shù)據(jù),用機(jī)器學(xué)習(xí)的辦法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后的學(xué)問,這兩者的結(jié)合促成了數(shù)據(jù)挖掘的產(chǎn)生。數(shù)據(jù)挖掘是一門交錯性學(xué)科,涉及到人工智能、機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫、模式識別、粗糙集、含糊數(shù)學(xué)等等多個領(lǐng)域。數(shù)據(jù)挖掘技術(shù)包括算法和技術(shù),數(shù)據(jù)、建模能力3個主要部分。
數(shù)據(jù)挖掘的演進(jìn)過程
數(shù)據(jù)挖掘其實是一個逐漸演化的過程。電子數(shù)據(jù)處理的初期,人們就試圖利用某些辦法來實現(xiàn)自動決策支持,當(dāng)初機(jī)器學(xué)習(xí)成為人們關(guān)懷的焦點。爾后,隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的形成和進(jìn)展,人們的注重力轉(zhuǎn)向?qū)W問工程,專家系統(tǒng)就是這種辦法所得到的成績。
20世紀(jì)80年月,人們在新的神經(jīng)網(wǎng)絡(luò)理論的指導(dǎo)下,重新回到機(jī)器學(xué)習(xí)的辦法上,并將其成績應(yīng)用于處理大型商業(yè)數(shù)據(jù)庫,而且浮現(xiàn)了一個新的術(shù)語——KDD(Knowledgediscoveryindatabase,泛指從源數(shù)據(jù)中發(fā)掘模式或聯(lián)系的辦法)。人們用KDD來描述囫圇數(shù)據(jù)發(fā)掘的過程,包括最開頭的制定業(yè)務(wù)目標(biāo)到終于的結(jié)果分析,而用數(shù)據(jù)挖掘來描述使用挖掘算法舉行數(shù)據(jù)挖掘的子過程。DM側(cè)重數(shù)據(jù)庫角度,KDD側(cè)重人工智能角度[1]。
數(shù)據(jù)挖掘的核心模塊技術(shù)歷經(jīng)了數(shù)十年的進(jìn)展,其中包括數(shù)理統(tǒng)計、人工智能、機(jī)器學(xué)習(xí)。數(shù)據(jù)挖掘技術(shù)在當(dāng)前的數(shù)據(jù)倉庫環(huán)境中進(jìn)入了有用階段。
數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘的定義為“從數(shù)據(jù)庫中發(fā)覺隱含的、從前不知道的、潛在實用的信息”,是在數(shù)據(jù)庫技術(shù)、機(jī)器學(xué)習(xí)、人工智能、統(tǒng)計分析、含糊規(guī)律、人工神經(jīng)網(wǎng)絡(luò)和專家系統(tǒng)的基礎(chǔ)上進(jìn)展起來的新概念和新技術(shù),是指從大量的、不徹低的、有噪聲的、含糊的、隨機(jī)的實際應(yīng)用數(shù)據(jù)中提取隱含的、未知的、潛在的、實用的信息和學(xué)問的過程。更廣義的說法是[2]:數(shù)據(jù)挖掘意味著在一些事實或觀看數(shù)據(jù)的集合中尋覓模式的決策支持過程。
數(shù)據(jù)挖掘與傳統(tǒng)分析(如查詢、報表、聯(lián)機(jī)應(yīng)用分析)的本質(zhì)區(qū)分是,數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)覺學(xué)問。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知、有效和可有用3個特征。從前未知的信息是指該信息是預(yù)先未曾預(yù)料到的,即數(shù)據(jù)挖掘是要發(fā)覺那些不能靠直覺發(fā)覺的信息或?qū)W問,甚至是違反直覺的信息或?qū)W問,挖掘出的信息越是出乎意料,就可能越有價值。
馬克威分析系統(tǒng)簡介
馬克威分析系統(tǒng)是中國第一套徹低自主學(xué)問產(chǎn)權(quán),集統(tǒng)計分析、數(shù)據(jù)挖掘和網(wǎng)絡(luò)挖掘于一體的數(shù)據(jù)分析系統(tǒng)。它可以與現(xiàn)有些信息管理系統(tǒng)舉行集成,在庇護(hù)現(xiàn)有設(shè)備的狀況下,節(jié)省數(shù)據(jù)挖掘項目的開支。該系統(tǒng)由數(shù)據(jù)輸入、數(shù)據(jù)處理、統(tǒng)計分析、數(shù)據(jù)挖掘、統(tǒng)計制圖和電子報表等六大功能模塊組成,各模塊特點為:
靈便多變的數(shù)據(jù)輸入方式。輸入方式包括從界面直接輸入、直接打開數(shù)據(jù)文件、使用數(shù)據(jù)向?qū)?shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入到分析平臺上等,并且與全部主流數(shù)據(jù)庫實現(xiàn)了無縫銜接,例如Oracle、DB2、Sybase、SQLServer、Mysql、Informix、Access等。
豐盛的數(shù)據(jù)處理功能。包括數(shù)據(jù)合并、數(shù)據(jù)拆分、插入或刪除記錄、記錄處理、權(quán)重設(shè)置、多維查詢、分類匯總、數(shù)據(jù)抽樣、變量計算、缺失值填充、異樣值刪除、記錄排序、變量類型轉(zhuǎn)換、行列轉(zhuǎn)換、隨機(jī)數(shù)生成等。
統(tǒng)計分析是該系統(tǒng)的核心模塊之一,有基礎(chǔ)統(tǒng)計和高級統(tǒng)計可選?;A(chǔ)統(tǒng)計包括均值分析、交錯表、頻率分析、描述分析、一元方差分析、參數(shù)T檢驗、單樣本T檢驗、自立樣本T檢驗、配對樣本T檢驗、相關(guān)分析、非參數(shù)檢驗等;高級統(tǒng)計包括回歸分析、聚類分析、判別分析、因子分析、時光序列分析、多因素方差分析等。
數(shù)據(jù)挖掘模塊提供了目前市場上較為完備的挖掘辦法。包括神經(jīng)網(wǎng)絡(luò)、決策樹、關(guān)聯(lián)規(guī)章、含糊聚類、粗糙集、支持向量機(jī)、孤立點分析等。
數(shù)據(jù)信息的可視化是信息應(yīng)用的進(jìn)展趨勢。統(tǒng)計制圖模塊包括直線圖、條狀圖、柱狀圖、圓餅圖、面積圖、羅列圖、誤差圖、序列圖、散點圖、自相關(guān)圖、相互關(guān)圖、控制圖等。
統(tǒng)計報表模塊主要針對中國用戶。它將主要和常用的報表根據(jù)國家統(tǒng)計局的常規(guī)模式設(shè)定成格式,為用戶自動生成表格,包含內(nèi)設(shè)的系統(tǒng)模板以及用戶自設(shè)的用戶模塊兩類。
水文現(xiàn)代化與數(shù)據(jù)挖掘
針對我國存在的洪澇災(zāi)難、水資源短缺、水環(huán)境惡化、水土流失等有關(guān)水的問題,水利部提出了從傳統(tǒng)水利向現(xiàn)代水利、可持續(xù)進(jìn)展水利改變,以水資源的可持續(xù)通過支撐經(jīng)濟(jì)社會可持續(xù)進(jìn)展的治水新思路,并對水利現(xiàn)代化提出了基本要求[5]。
水文現(xiàn)代化
水文現(xiàn)代化是水利信息化的基礎(chǔ)。數(shù)字水文系統(tǒng)就是通過數(shù)據(jù)庫技術(shù)建立完美的信息處理和存儲體系;通過海量數(shù)據(jù)庫和數(shù)據(jù)挖掘技術(shù)建立信息提取和分析體系;通過地理信息系統(tǒng)等工具建立氣象、水文、地形地貌、植被、土壤水分、人類活動影響措施等信息的空間分布數(shù)字體系;通過中尺度數(shù)值預(yù)告模式和分布式水文模型建立數(shù)字化的空間和時光分布預(yù)告體系;依托網(wǎng)絡(luò)、地理信息系統(tǒng)和數(shù)據(jù)庫等技術(shù),建立為防汛決策、專業(yè)應(yīng)用、電子政務(wù)等提供決策支持的信息應(yīng)用與服務(wù)體系。其核心在于如何形成數(shù)字化的、籠罩囫圇指定地域空間的、多重時空尺度的、多種要素的、對水文分析實用的數(shù)據(jù)產(chǎn)品。
對于水文現(xiàn)代化而言,要形成與水利信息化相適應(yīng)的信息服務(wù)能力,必需大力建設(shè)水文信息數(shù)據(jù)庫,使之成為水利信息資源的重要組成部分,包括兩層含義:一是要豐盛數(shù)據(jù)庫的內(nèi)容;二是要對水文部門內(nèi)部的各類信息資源舉行集成,形成有一定聚合度和服務(wù)目標(biāo)的水文信息資源。簇?fù)碓谝粋€個單獨(dú)部門的水文數(shù)據(jù)很難形成可以被開發(fā)通過的資源。
實施數(shù)據(jù)挖掘
實施數(shù)據(jù)挖掘普通的步驟是:提出和理解問題→數(shù)據(jù)預(yù)備→數(shù)據(jù)收拾→建立模型→評價和解釋[2]。
實施數(shù)據(jù)挖掘應(yīng)從以下3個方面加以考慮:一是用數(shù)據(jù)挖掘解決什么樣的行業(yè)問題;二是為舉行數(shù)據(jù)挖掘所做的數(shù)據(jù)預(yù)備;三是數(shù)據(jù)挖掘的各種分析算法。
數(shù)據(jù)挖掘的分析算法主要來自于統(tǒng)計分析和人工智能兩個方面。數(shù)據(jù)挖掘討論人員和數(shù)據(jù)挖掘軟件供給商在這一方面所做的主要工作是優(yōu)化現(xiàn)有些一些算法,以適應(yīng)大數(shù)據(jù)量的要求[4]。
數(shù)據(jù)挖掘最后是否勝利,是否有經(jīng)濟(jì)效益,數(shù)據(jù)預(yù)備至關(guān)重要。數(shù)據(jù)預(yù)備主要包含兩個方面:一是從多種數(shù)據(jù)源去綜合數(shù)據(jù)挖掘所需要的數(shù)據(jù),保證數(shù)據(jù)的綜合性、易用性、數(shù)據(jù)的質(zhì)量和數(shù)據(jù)的時效性,這有可能要用到數(shù)據(jù)倉庫的思想和技術(shù);另一方面就是如何從現(xiàn)有數(shù)據(jù)中衍生出所需要的指標(biāo),這主要取決于數(shù)據(jù)挖掘者的分析閱歷和工具的便利性。
3.3數(shù)據(jù)挖掘中存在的問題
數(shù)據(jù)挖掘的基本問題在于數(shù)據(jù)的數(shù)量及維數(shù),數(shù)據(jù)結(jié)構(gòu)也因此顯得十分復(fù)雜,如何挑選分析變量,是首先要解決的問題。
面向堆積起來的大量數(shù)據(jù),現(xiàn)有些統(tǒng)計辦法等都碰到了問題,人們直接的主意就是對數(shù)據(jù)舉行抽樣。怎么抽樣,抽取多大的樣本,又怎樣評價抽樣的效果,都是需要討論的問題。
既然數(shù)據(jù)是海量的,那么數(shù)據(jù)中就會隱含一定的變化趨勢,在數(shù)據(jù)挖掘中也要對這個趨勢作出應(yīng)有些考慮和評價。
各種不同的模型如何應(yīng)用,其效果如何評價。不同的人對同樣的數(shù)據(jù)舉行挖掘,可能產(chǎn)生差異很大的結(jié)果,這就存在牢靠性的問題。
數(shù)據(jù)挖掘涉及到數(shù)據(jù),也就涉及了數(shù)據(jù)的平安性問題。
數(shù)據(jù)挖掘的結(jié)果是不確定的,要和專業(yè)學(xué)問相結(jié)合才干對其做出推斷[1]。
水文數(shù)據(jù)挖掘
水文綜合數(shù)據(jù)庫系統(tǒng)與服務(wù)平臺是以現(xiàn)代技術(shù)手段向用戶提供優(yōu)質(zhì)、高效水文信息分享服務(wù)的基本保障[5]。信息獵取與分析技術(shù)的迅速進(jìn)展,特殊是遙測、遙感、網(wǎng)絡(luò)、數(shù)據(jù)庫等技術(shù)的應(yīng)用,有力地增進(jìn)了水文數(shù)據(jù)的采集和處理技術(shù)的進(jìn)展,使之在時光和空間的尺度及要素類型上有了不同程度的擴(kuò)展。因為水在人類生存進(jìn)展中的特別作用,因此應(yīng)用各種新技術(shù)獵取水文數(shù)據(jù),挖掘蘊(yùn)藏于水文數(shù)據(jù)中的學(xué)問,已成為水文科學(xué)進(jìn)展的新熱點。
水文數(shù)據(jù)挖掘可以應(yīng)用決策樹、神經(jīng)網(wǎng)絡(luò)、籠罩正例排斥反例、概念樹、遺傳算法、公式發(fā)覺、統(tǒng)計分析、含糊論等理論與技術(shù),并在可視化技術(shù)的支持下,構(gòu)造滿足不同目的的水文數(shù)據(jù)挖掘應(yīng)用系統(tǒng)。
據(jù)統(tǒng)計,我國水文整編資料數(shù)據(jù)累計量已超過7GB,加上舉行水文預(yù)告所需的天氣、地理等數(shù)據(jù),舉行水文分析所需要處理的數(shù)據(jù)量很大。沿用傳統(tǒng)的技術(shù)工具和辦法,從這些數(shù)量巨大、類型復(fù)雜的數(shù)據(jù)中準(zhǔn)時精確?????地挖掘出所需要的學(xué)問,必定會由于計算能力、存儲能力、算法的不足而無能為力,因此需要高效的水文數(shù)據(jù)挖掘技術(shù)。
數(shù)據(jù)倉庫能把囫圇部門的數(shù)據(jù),無論其地理位置、格式和通信要求,統(tǒng)統(tǒng)集成在一起,便于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 牡丹貸記卡:動產(chǎn)質(zhì)押正式合同
- 長期外匯借款合同模板
- 標(biāo)準(zhǔn)員工雇傭合同樣本
- 建筑幕墻安裝工程合同樣本大全
- 學(xué)生實習(xí)安全責(zé)任合同書
- 借款合同還款確認(rèn)書
- 因感情破裂終止婚姻關(guān)系雙方合同
- 社區(qū)垃圾房管理承包合同書
- 度戰(zhàn)略合作企業(yè)商旅服務(wù)合同協(xié)議
- 運(yùn)動品牌服裝獨(dú)家代理合同
- 建設(shè)工程招標(biāo)代理合同(GF-2005-0215)(標(biāo)準(zhǔn)版)
- 剪映專業(yè)版教學(xué)課件
- 公司新建電源及大用戶并網(wǎng)管理辦法
- 《hpv與宮頸癌》課件
- 2024年世界職業(yè)院校技能大賽“智能網(wǎng)聯(lián)汽車技術(shù)組”參考試題庫(含答案)
- 2024中華人民共和國文物保護(hù)法詳細(xì)解讀課件
- SAP導(dǎo)出科目余額表和憑證表操作說明及截圖可編輯范本
- 《建筑設(shè)計基礎(chǔ)》全套教學(xué)課件
- 倉庫貨物安全管理
- 新人教版歷史七下《統(tǒng)一多民族國家的鞏固和發(fā)展》教案
- 煙氣排放連續(xù)監(jiān)測系統(tǒng)CEMS培訓(xùn)
評論
0/150
提交評論