計(jì)算機(jī)新技術(shù)_第1頁(yè)
計(jì)算機(jī)新技術(shù)_第2頁(yè)
計(jì)算機(jī)新技術(shù)_第3頁(yè)
計(jì)算機(jī)新技術(shù)_第4頁(yè)
計(jì)算機(jī)新技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩127頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、計(jì)算機(jī)新技術(shù)學(xué)術(shù)講座報(bào)告人:黃 超個(gè)人簡(jiǎn)介復(fù)旦大學(xué)計(jì)算機(jī)軟件與理論 博士東南大學(xué)電子商務(wù)系 副教授東南大學(xué)經(jīng)濟(jì)決策與信息管理研究所 副所長(zhǎng)主要研究方向: 數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)、智能信息處理。已在國(guó)內(nèi)外計(jì)算機(jī)類核心期刊發(fā)表論文十余篇,其中多篇論文被EI檢索。研究課題:數(shù)據(jù)挖掘應(yīng)用平臺(tái)研制及應(yīng)用 (國(guó)家863項(xiàng)目)智能交通數(shù)據(jù)挖掘平臺(tái)(信息產(chǎn)業(yè)部攻關(guān)項(xiàng)目)環(huán)球多市場(chǎng)金融信息平臺(tái)(上海市科委攻關(guān)項(xiàng)目)2主要內(nèi)容計(jì)算機(jī)硬件與互聯(lián)網(wǎng)技術(shù)計(jì)算機(jī)軟件技術(shù)智能信息處理技術(shù)3計(jì)算機(jī)硬件與互聯(lián)網(wǎng)技術(shù)集群計(jì)算技術(shù)網(wǎng)格計(jì)算技術(shù)普適計(jì)算本體論與語(yǔ)義網(wǎng)絡(luò)4集群計(jì)算技術(shù)什么是集群集群是使用兩臺(tái)或兩臺(tái)以上的服

2、務(wù)器組成的服務(wù)器集合,用以提供高性能的不停機(jī)服務(wù),每臺(tái)服務(wù)器均承擔(dān)部分計(jì)算任務(wù)和容錯(cuò)任務(wù),但是整體上表現(xiàn)為一個(gè)單一系統(tǒng)。與傳統(tǒng)的并行計(jì)算模型相比,集群中各節(jié)點(diǎn)的復(fù)雜度中等,但是在單一系統(tǒng)映像、可靠性和可伸縮性上更優(yōu)越。由于集群大多使用標(biāo)準(zhǔn)的商用部件,因此能夠大幅度降低企業(yè)成本,如下頁(yè)表所示。5集群計(jì)算技術(shù)特征MPPSMP集群分布式系統(tǒng)節(jié)點(diǎn)個(gè)數(shù)100-100010-10010010-1000節(jié)點(diǎn)復(fù)雜性低中中高中高節(jié)點(diǎn)通信消息傳遞、共享變量共享存儲(chǔ)器消息傳遞共享文件、PRC、消息單一系統(tǒng)映像部分支持支持完全支持不支持任務(wù)調(diào)度主機(jī)單一隊(duì)列單一運(yùn)行隊(duì)列多隊(duì)列協(xié)同獨(dú)立運(yùn)行隊(duì)列系統(tǒng)可用性中低高中系統(tǒng)可擴(kuò)展

3、性低中(100CPU以下)高中6集群計(jì)算技術(shù)集群系統(tǒng)的組成部分后臺(tái)共享存儲(chǔ)設(shè)備集群內(nèi)部網(wǎng)絡(luò)通訊公共網(wǎng)絡(luò)虛擬的前臺(tái)界面無(wú)虛擬內(nèi)存的的集群系統(tǒng)為了進(jìn)一步提高集群系統(tǒng)的效率,使用高速網(wǎng)絡(luò)將各主機(jī)的內(nèi)存連接起來(lái),當(dāng)一個(gè)任務(wù)的內(nèi)存不夠時(shí),它可以通過(guò)遠(yuǎn)程缺頁(yè)的方式使用遠(yuǎn)程結(jié)點(diǎn)的內(nèi)存,這樣可以通過(guò)高速網(wǎng)絡(luò)共享全局內(nèi)存。7集群計(jì)算技術(shù)無(wú)虛擬內(nèi)存集群系統(tǒng)的難點(diǎn)整個(gè)資源的分配概念發(fā)生了變化,它是基于內(nèi)存的資源分配;一個(gè)結(jié)點(diǎn)可能需要訪問(wèn)另外一個(gè)結(jié)點(diǎn)的內(nèi)存,這就需要解決結(jié)點(diǎn)內(nèi)存的所有權(quán)和自治問(wèn)題;需要解決全局內(nèi)存管理問(wèn)題(集中式還是分散式),通過(guò)全局內(nèi)存管理,應(yīng)能達(dá)到減少網(wǎng)絡(luò)流量,降低延遲和數(shù)據(jù)本地優(yōu)化的目的。 目前

4、的操作系統(tǒng)還沒有實(shí)現(xiàn)上述的處理,我們需要重構(gòu)操作系統(tǒng)以方便內(nèi)存資源共享。8集群計(jì)算技術(shù)集群的分類科學(xué)計(jì)算集群該集群主要用于大規(guī)模數(shù)值計(jì)算,解決復(fù)雜的科學(xué)問(wèn)題。這種集群上一般運(yùn)行專用軟件,能夠?qū)?shù)據(jù)分布到不同的服務(wù)器上進(jìn)行解決。針對(duì)不同的科學(xué)計(jì)算任務(wù),一般有以下兩種方式:任務(wù)分片方式:將任務(wù)分成多個(gè)子任務(wù)并分配到各節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)單獨(dú)運(yùn)行出結(jié)果,最后匯總計(jì)算結(jié)果;并行計(jì)算方式:各個(gè)節(jié)點(diǎn)可以進(jìn)行具有強(qiáng)藕合關(guān)系的運(yùn)算,運(yùn)算中交換大量數(shù)據(jù)。9集群計(jì)算技術(shù)負(fù)載均衡集群該集群的目的是使負(fù)載盡量在各個(gè)節(jié)點(diǎn)中均衡分布,如計(jì)算負(fù)載、網(wǎng)絡(luò)流量負(fù)載等。高可用性集群該集群的目的是使服務(wù)系統(tǒng)的運(yùn)行速度和響應(yīng)速度盡可能快,

5、通過(guò)將程序運(yùn)行在冗余節(jié)點(diǎn)上,集群具有更好的容錯(cuò)性。高可用性集群可以分為主從方式、雙機(jī)備份方式和多機(jī)備份方式。10集群計(jì)算技術(shù)并行數(shù)據(jù)庫(kù)集群近年來(lái)興起的集群類型,同時(shí)具有并行計(jì)算、高可用性和負(fù)載均衡等多種特征,主要用于高端數(shù)據(jù)庫(kù)領(lǐng)域,如Oracle RAC和 IBM DB2 EEE。Oracle RAC系統(tǒng)每臺(tái)主機(jī)擁有獨(dú)立的CPU和內(nèi)存,但是共享磁盤空間,主要針對(duì)于大量用戶并行的訪問(wèn),I/O沖突采用數(shù)據(jù)庫(kù)的鎖機(jī)制解決;DB2 EEE中各計(jì)算機(jī)擁有獨(dú)立的CPU、內(nèi)存和磁盤,并且高速相連,對(duì)每一次訪問(wèn),每個(gè)節(jié)點(diǎn)查詢本地表中的相應(yīng)結(jié)果,返回給協(xié)調(diào)程序,最后匯總成最終查詢結(jié)果。11網(wǎng)格計(jì)算技術(shù)網(wǎng)格的基本

6、概念什么是網(wǎng)格(GRID)網(wǎng)格是以Internet技術(shù)和分布計(jì)算技術(shù)為基礎(chǔ),將地理上分散的各類計(jì)算資源、存儲(chǔ)資源、數(shù)據(jù)資源、應(yīng)用資源、儀器設(shè)備等構(gòu)成統(tǒng)一的虛擬環(huán)境,采用開放標(biāo)準(zhǔn)的協(xié)議,實(shí)現(xiàn)資源的有效共享,為動(dòng)態(tài)參與的、由多機(jī)構(gòu)所形成的虛擬組織協(xié)同完成高性能計(jì)算、信息處理等各類應(yīng)用,提供可擴(kuò)展的、安全的、一致的、不同等級(jí)質(zhì)量的服務(wù)。網(wǎng)格是集群系統(tǒng)的進(jìn)一步發(fā)展。12網(wǎng)格計(jì)算技術(shù)網(wǎng)格計(jì)算的產(chǎn)生背景分布式計(jì)算、高性能計(jì)算、大規(guī)模的資源共享、協(xié)同工作、數(shù)據(jù)密集型的科學(xué)計(jì)算。網(wǎng)格的本質(zhì)特征是分布與資源共享高度抽象自相似動(dòng)態(tài)性和多樣性高可擴(kuò)展性網(wǎng)格計(jì)算的示例(見下頁(yè)圖所示)13網(wǎng)格計(jì)算技術(shù)Tier 1Tie

7、r2 Centre 1 TIPSOnline SystemOffline Processor Farm 20 TIPSCERN Computer CentreFermiLab 4 TIPSFrance Regional Centre Italy Regional Centre Germany Regional Centre InstituteInstituteInstituteInstitute 0.25TIPSPentium II 300 MHzPentium II 300 MHzPentium II 300 MHzPentium II 300 MHzPhysicist workstatio

8、ns100 MBytes/sec100 MBytes/sec622 Mbits/sec1 MBytes/secHPSSHPSSPhysics data cachePBytes/sec 622 Mbits/sec or Air Freight (deprecated)HPSSHPSSHPSSTier2 Centre 1 TIPSTier2 Centre 1 TIPSTier2 Centre 1 TIPSCaltech 1 TIPS622 Mbits/secTier 0Tier 2Tier 414網(wǎng)格計(jì)算技術(shù)網(wǎng)格的系統(tǒng)結(jié)構(gòu)(見下頁(yè)圖所示)網(wǎng)格結(jié)點(diǎn):地理上獨(dú)立的計(jì)算和信息中心,由Internet 上

9、孤立、異構(gòu)的各類資源組成;網(wǎng)格中間件:網(wǎng)格體系結(jié)構(gòu)的核心部分,其功能是屏蔽網(wǎng)格資源層中計(jì)算資源的分布、異構(gòu)性,向網(wǎng)格應(yīng)用層提供透明、一致的服務(wù)接口,如遠(yuǎn)程進(jìn)程管理、資源分配、存儲(chǔ)訪問(wèn)和安全控制等。網(wǎng)格應(yīng)用工具層:提供更為專業(yè)化的服務(wù)和組建不同類型的應(yīng)用。網(wǎng)格應(yīng)用層:應(yīng)用層包括各種應(yīng)用軟件的研究、高速網(wǎng)格的建設(shè)等,它可以使用戶方便地共享網(wǎng)格中的各種資源。15網(wǎng)格計(jì)算技術(shù)16網(wǎng)格計(jì)算技術(shù)典型的網(wǎng)格系統(tǒng)(1)Globus系統(tǒng)什么是GlobusGlobus 是一個(gè)研究性的項(xiàng)目,其主要的研究目標(biāo)是網(wǎng)格基礎(chǔ)技術(shù)研究,以及相應(yīng)軟件的開發(fā)和標(biāo)準(zhǔn)的制定。Globus 是網(wǎng)格技術(shù)的典型代表,也是目前事實(shí)上的規(guī)范。

10、 Globus 是一種軟件基礎(chǔ)設(shè)施,它以單一虛擬機(jī)的方式處理分布異構(gòu)的計(jì)算資源,其核心在于Globus Metacomputing Toolkit ( GMT) ,它提供了建構(gòu)一個(gè)計(jì)算網(wǎng)格所需的基本服務(wù),如安全、資源定位、管理和調(diào)度、通訊服務(wù)等。17網(wǎng)格計(jì)算技術(shù)Globus的五層結(jié)構(gòu)應(yīng)用層多科學(xué)模擬光線追蹤匯聚層(面向問(wèn)題)聯(lián)合求解器,分布式數(shù)據(jù)文檔檢查點(diǎn),作業(yè)管理,故障避免,分段運(yùn)輸匯聚層(通用)資源發(fā)現(xiàn),資源代理,系統(tǒng)監(jiān)控,社團(tuán)授權(quán),收回證書資源層訪問(wèn)計(jì)算,訪問(wèn)數(shù)據(jù),訪問(wèn)系統(tǒng)結(jié)構(gòu),狀態(tài)與性能信息連接層通信(IP),服務(wù)發(fā)現(xiàn)(DNS),認(rèn)證,授權(quán),代理構(gòu)造層存儲(chǔ)系統(tǒng),計(jì)算機(jī),網(wǎng)絡(luò),代碼庫(kù),目

11、錄18網(wǎng)格計(jì)算技術(shù)典型的網(wǎng)格系統(tǒng)(2)TeraGrid系統(tǒng)TeraGrid網(wǎng)格系統(tǒng)基本情況與主要應(yīng)用TeraGrid網(wǎng)格系統(tǒng)最初包括4個(gè)節(jié)點(diǎn),后擴(kuò)充到9節(jié)點(diǎn),節(jié)點(diǎn)間通過(guò) 10-30 GB/s 的專用網(wǎng)絡(luò)互聯(lián),具有超強(qiáng)的計(jì)算能力和存儲(chǔ)能力。協(xié)作進(jìn)行分布式數(shù)據(jù)集的分析和交換:各節(jié)點(diǎn)進(jìn)行獨(dú)立的數(shù)據(jù)分析,整個(gè)項(xiàng)目的完成依賴于快速和頻繁的分析結(jié)果交換,如研究宇宙射線項(xiàng)目;多個(gè)機(jī)構(gòu)共享的分布式模擬:例如規(guī)模龐大的地震模擬計(jì)算在不同的節(jié)點(diǎn)進(jìn)行,任何節(jié)點(diǎn)的科學(xué)家可以通過(guò)高速網(wǎng)絡(luò)快速獲取各個(gè)不同階段的計(jì)算結(jié)果;19網(wǎng)格計(jì)算技術(shù)網(wǎng)格計(jì)算的關(guān)鍵技術(shù)安全技術(shù)網(wǎng)格安全機(jī)制相當(dāng)復(fù)雜,各種自治資源交互時(shí)既不能影響資源本身的

12、可用性,又不能在系統(tǒng)中引入漏洞。Globus 提出了網(wǎng)格安全基礎(chǔ)設(shè)施GSI ,GSI 主要集中在網(wǎng)絡(luò)的傳輸層和應(yīng)用層,采用X1509 認(rèn)證和安全套接層(SSL)通信協(xié)議,GSI 中的主要安全技術(shù)包括安全認(rèn)證、安全身份相互鑒別、通信加密等。20網(wǎng)格計(jì)算技術(shù)異構(gòu)系統(tǒng)的單一系統(tǒng)映像技術(shù)網(wǎng)格包含多種異構(gòu)資源,實(shí)現(xiàn)異構(gòu)機(jī)器間的合作和轉(zhuǎn)換,向用戶提供統(tǒng)一、透明的服務(wù)是首要問(wèn)題。Globus 中使用使用輕量級(jí)目錄訪問(wèn)協(xié)議(LDAP)作為訪問(wèn)該信息的接口。 通過(guò)使用LDAP服務(wù)器,MDS 在公共接口中提供了中間件信息,從而將統(tǒng)一的圖像放在全異資源的頂部。21網(wǎng)格計(jì)算技術(shù)網(wǎng)格統(tǒng)一資源管理技術(shù)網(wǎng)格資源管理包括資源

13、信息的組織、查詢與更新等, 網(wǎng)格資源分為計(jì)算類和非計(jì)算類資源。 計(jì)算類資源信息包括所有網(wǎng)格結(jié)點(diǎn)及網(wǎng)絡(luò)的靜態(tài)和動(dòng)態(tài)信息,如結(jié)點(diǎn)計(jì)算能力、存儲(chǔ)能力、網(wǎng)絡(luò)結(jié)構(gòu)和性能指標(biāo);非計(jì)算類資源信息指網(wǎng)格中服務(wù)于系統(tǒng)和用戶的信息,如網(wǎng)格用戶信息、軟件信息、服務(wù)功能信息等。Globus 使用GRAM 處理資源請(qǐng)求、執(zhí)行遠(yuǎn)程應(yīng)用、分配資源等任務(wù),并根據(jù)計(jì)算資源的情況,把資源更新信息發(fā)送給MDS。22網(wǎng)格計(jì)算技術(shù)網(wǎng)格技術(shù)的缺陷和局限網(wǎng)格系統(tǒng)對(duì)數(shù)據(jù)通訊速率要求很高,影響了系統(tǒng)效率或提高了成本;網(wǎng)格系統(tǒng)的維護(hù)費(fèi)用比集群等高得多;由于目前網(wǎng)絡(luò)帶寬比CPU資源昂貴得多,且因特網(wǎng)成本降低的速度低于芯片成本降低的速度,因此網(wǎng)格系

14、統(tǒng)目前比較適合于計(jì)算復(fù)雜、但數(shù)據(jù)傳輸量小的應(yīng)用。對(duì)于大多數(shù)應(yīng)用,集群系統(tǒng)方案綜合看來(lái)更優(yōu)越。23網(wǎng)格計(jì)算技術(shù)網(wǎng)格技術(shù)在數(shù)字油藏模擬中的應(yīng)用背景當(dāng)前被模擬的油藏模型從幾十萬(wàn)個(gè)單元到幾千萬(wàn)個(gè)單元, 運(yùn)行平臺(tái)主要是專業(yè)的并行機(jī)。隨著老油區(qū)開發(fā)難度的增大,油藏模型的面積和數(shù)量將會(huì)明顯地增加和擴(kuò)大,繼續(xù)用傳統(tǒng)的并行計(jì)算機(jī)來(lái)模擬,為了達(dá)到理想的模擬速度和效果,其硬件平臺(tái)的投資將很高。同時(shí)隨著隨著并行機(jī)市場(chǎng)不斷萎縮,其系統(tǒng)的擴(kuò)容、維護(hù)等都存在很大的問(wèn)題。24網(wǎng)格計(jì)算技術(shù)目的為獲得低成本、高性能的計(jì)算平臺(tái),以滿足企業(yè)對(duì)油藏模擬不斷增長(zhǎng)的計(jì)算需求,國(guó)外石油公司逐步采用了基于網(wǎng)格技術(shù)的PC 集群系統(tǒng)(即以PC 集

15、群作為網(wǎng)格主節(jié)點(diǎn),再通過(guò)網(wǎng)格中間件并入其他異構(gòu)系統(tǒng))替代并行機(jī)來(lái)進(jìn)行油藏模擬。對(duì)比實(shí)驗(yàn)選擇了國(guó)外某油田100 萬(wàn)個(gè)網(wǎng)格 、8 個(gè)斷層、7 個(gè)組分、100 個(gè)井的模型,模擬時(shí)間20 年。對(duì)比IBM SP2并行機(jī)與基于千兆以太網(wǎng)、Myrinet 高速交換技術(shù)和AMD Opteron 64 位CPU的PC 集群系統(tǒng)。(基于VIP 模擬軟件)25網(wǎng)格計(jì)算技術(shù)實(shí)驗(yàn)結(jié)果(新疆油田勘探開發(fā)研究院提供)在模擬計(jì)算的精度和穩(wěn)定性上,PC集群系統(tǒng)與并行機(jī)結(jié)果相當(dāng);到IBM SP2 的4 個(gè)節(jié)點(diǎn)8 CPU 的并行機(jī)上模擬,系統(tǒng)運(yùn)行了30.2 個(gè)小時(shí)后,同樣CPU 個(gè)數(shù)的基于Myrinet 的PC 集群的運(yùn)算時(shí)間為1

16、1.66 小時(shí);基于千兆以太網(wǎng)的PC集群運(yùn)算時(shí)間是16 小時(shí),在運(yùn)算速度上,比IBM SP2 提高了2.61.9 倍;VIP 軟件的計(jì)算節(jié)點(diǎn)之間需要大量的數(shù)據(jù)交換,去計(jì)算相鄰網(wǎng)格單元邊緣處的偏移。在PC 集群系統(tǒng)中,當(dāng)計(jì)算節(jié)點(diǎn)很多時(shí),存在著訪問(wèn)網(wǎng)絡(luò)的瓶頸問(wèn)題。26普適計(jì)算普適計(jì)算普適計(jì)算的定義普適計(jì)算是信息空間與物理空間的融合,在這個(gè)融合的空間中人們可以隨時(shí)隨地、透明地獲得數(shù)字化的服務(wù)。隨時(shí)隨地是指人們可以在工作、生活的現(xiàn)場(chǎng)就可以獲得服務(wù),甚至是由系統(tǒng)主動(dòng)提供;透明是計(jì)算機(jī)技術(shù)已經(jīng)滲透到人們的日常生活中,以致于人們根本沒有意識(shí)到這些技術(shù)。普適計(jì)算強(qiáng)調(diào)把計(jì)算機(jī)嵌入到環(huán)境或日常工具中去,讓計(jì)算機(jī)本

17、身從人們的視線中消失,讓人們注意的中心回歸到要完成的任務(wù)本身。27普適計(jì)算普適計(jì)算的研究?jī)?nèi)容智能環(huán)境和不可見的計(jì)算即物理環(huán)境與信息環(huán)境有效地融合,信息環(huán)境能夠自動(dòng)、智能地感知物理環(huán)境中的變化。常用的方法包括:(1)直接在物體上嵌入一定的感知、計(jì)算、通信能力,使其同時(shí)具有物理空間和信息空間中的用途;(2)為每個(gè)物體添加可以被計(jì)算機(jī)自動(dòng)識(shí)別的標(biāo)簽,如紅外或者RFID。28普適計(jì)算無(wú)縫的可移動(dòng)性用戶能夠在不同的服務(wù)空間中很自然地移動(dòng),可以把應(yīng)用從一個(gè)設(shè)備移動(dòng)到另一個(gè)設(shè)備中。普遍的信息訪問(wèn)通過(guò)網(wǎng)絡(luò)和服務(wù)器的支持,用戶能在任何時(shí)間和地點(diǎn)檢索信息,利用任何種類的交互設(shè)備與遠(yuǎn)程聯(lián)網(wǎng)的設(shè)備進(jìn)行交互。覺察上下文

18、的計(jì)算系統(tǒng)能覺察在當(dāng)時(shí)的情景中與交互的任務(wù)有關(guān)的上下文,并據(jù)此做出決策和自動(dòng)地提供相應(yīng)的服務(wù)。29普適計(jì)算普適計(jì)算的實(shí)例RFID(無(wú)線射頻識(shí)別標(biāo)簽)通常為一片帶有存儲(chǔ)單元和天線的半導(dǎo)體芯片,通過(guò)天線與讀取器進(jìn)行非接觸通信。普適計(jì)算環(huán)境下,帶有RFID標(biāo)簽的衣服能夠在商場(chǎng)收銀臺(tái)顯示商品的價(jià)格,能夠?qū)⒁路牟剂铣煞謧鬟f給洗衣機(jī)和電熨斗,使洗滌、烘干程序和熨燙溫度均可以自動(dòng)設(shè)定。家庭計(jì)算機(jī)可以通過(guò)RFID信息了解到衣物的保暖、防風(fēng)性能,自動(dòng)比較主人外出前穿戴衣物的保暖性能是否適應(yīng)室外的氣候,包括當(dāng)時(shí)的氣候和一段時(shí)間之后的氣候。如果主人出遠(yuǎn)門,計(jì)算機(jī)還會(huì)通過(guò)訂票信息了解目的地的氣候情況并進(jìn)行分析,這些

19、分析會(huì)根據(jù)每個(gè)個(gè)體的衣著習(xí)慣進(jìn)行。 30本體論與語(yǔ)義網(wǎng)絡(luò)本體論與語(yǔ)義網(wǎng)絡(luò)什么是本體(Ontology)在哲學(xué)界,本體作為表述哲學(xué)理論的術(shù)語(yǔ),是指形成現(xiàn)象的根本實(shí)體。在信息技術(shù)與知識(shí)領(lǐng)域,本體是用于描述或表達(dá)某一領(lǐng)域知識(shí)的一組概念或術(shù)語(yǔ),可用于組織知識(shí)庫(kù)較高層次的知識(shí)抽象,也可用來(lái)描述特定領(lǐng)域的知識(shí)??偟膩?lái)說(shuō),本體就是通過(guò)對(duì)于概念、術(shù)語(yǔ)及其相互關(guān)系的規(guī)范化描述,勾畫出某一領(lǐng)域的基本知識(shí)體系和描述語(yǔ)言。31本體論與語(yǔ)義網(wǎng)絡(luò)研究本體的意義本體可以在不同的建模方法、范式、語(yǔ)言和軟件工具之間進(jìn)行翻譯和映射,以實(shí)現(xiàn)不同系統(tǒng)之間的互操作和繼承。本體和數(shù)據(jù)庫(kù)在功能上有些相似,但是定義本體的語(yǔ)言,在詞法和語(yǔ)義上

20、都比數(shù)據(jù)庫(kù)所能表示的信息豐富得多,并且本體提供的是一個(gè)領(lǐng)域嚴(yán)謹(jǐn)豐富的理論,而不單單是一個(gè)存放數(shù)據(jù)的結(jié)構(gòu)。本體是領(lǐng)域內(nèi)重要實(shí)體、屬性、過(guò)程及其相互關(guān)系形式化描述的基礎(chǔ),這種形式化的描述可成為軟件系統(tǒng)中可重用和共享的組件。32本體論與語(yǔ)義網(wǎng)絡(luò)對(duì)于知識(shí)管理系統(tǒng)來(lái)說(shuō),本體就是一個(gè)正式的詞匯表。本體可以將對(duì)象知識(shí)的概念和相互間的關(guān)系進(jìn)行較為精確的定義。在這樣一系列概念的支持下進(jìn)行知識(shí)搜索、知識(shí)積累、知識(shí)共享的效率將大大提高,真正意義上的知識(shí)重用和知識(shí)共享也能成為現(xiàn)實(shí)。本體適合表示抽象的描述,而企業(yè)模型是人們對(duì)企業(yè)或者企業(yè)的某些模型的抽象描述,因此在企業(yè)邏輯建模中,本體的使用可以幫助我們清楚地理解企業(yè)特定

21、領(lǐng)域的相關(guān)元素、關(guān)系和概念,讓知識(shí)表達(dá)更加準(zhǔn)確便捷,幫助人們進(jìn)行更好的企業(yè)決策。33本體論與語(yǔ)義網(wǎng)絡(luò)本體的分類頂層本體描述的是最普遍的概念及概念之間的關(guān)系,如空間、時(shí)間、事件、行為等等,與具體的應(yīng)用無(wú)關(guān),其他種類的本體都是其的特例;領(lǐng)域本體描述的是某個(gè)特定領(lǐng)域(如醫(yī)藥、地理等)中的概念及概念之間的關(guān)系;任務(wù)本體描述的是特定任務(wù)或行為中的概念及概念之間的關(guān)系;應(yīng)用本體描述的是依賴于特定領(lǐng)域和任務(wù)的概念及概念之間的關(guān)系。 34本體論與語(yǔ)義網(wǎng)絡(luò)語(yǔ)義網(wǎng)絡(luò)的產(chǎn)生背景現(xiàn)有互聯(lián)網(wǎng)技術(shù)只是按照URI來(lái)定位信息,并沒有對(duì)信息的含義進(jìn)行描述,但對(duì)信息的內(nèi)容并不關(guān)心,因此互聯(lián)網(wǎng)上信息處理的自動(dòng)化、智能化程度是很低的

22、。語(yǔ)義Web通過(guò)擴(kuò)展現(xiàn)有互聯(lián)網(wǎng),在信息中加入表示其含義的內(nèi)容,使計(jì)算機(jī)可以自動(dòng)與人協(xié)同工作,提高信息處理的自動(dòng)化和智能化。語(yǔ)義Web是要把Web 上的資源(如一篇文章里的關(guān)鍵詞的含義和主題思想)用本體論語(yǔ)言標(biāo)注明確其語(yǔ)義,然后進(jìn)行基于語(yǔ)義的查詢和推理。35本體論與語(yǔ)義網(wǎng)絡(luò)語(yǔ)義Web的分層結(jié)構(gòu)基于XML的語(yǔ)法層XML允許用戶為文檔添加結(jié)構(gòu)信息,但并不能說(shuō)明這些結(jié)構(gòu)的含義,語(yǔ)義Web 結(jié)構(gòu)中使用XML 作為語(yǔ)法層,為語(yǔ)義Web 的建立提供語(yǔ)法基礎(chǔ)?;谫Y源描述框架(RDF)的數(shù)據(jù)層RDF 是對(duì)結(jié)構(gòu)化的元數(shù)據(jù)編碼、交換和重用的基礎(chǔ)。在語(yǔ)義Web 模型中,信息統(tǒng)一以RDF 句子的形式存儲(chǔ),便于機(jī)器理解

23、。RDF 數(shù)據(jù)模型表示為一個(gè)有向標(biāo)記圖,該圖獨(dú)立于實(shí)現(xiàn)且可以用XML 來(lái)序列化。36本體論與語(yǔ)義網(wǎng)絡(luò)基于本體的語(yǔ)義層本體適合于描述互聯(lián)網(wǎng)上各種不同的、分散的、半結(jié)構(gòu)化的信息資源。通過(guò)定義共享的、通用的領(lǐng)域知識(shí), 本體幫助人和機(jī)器進(jìn)行語(yǔ)義級(jí)的交換, 而不僅是語(yǔ)法級(jí)的。邏輯層邏輯層提供了規(guī)則, 從而便于進(jìn)行推理。證據(jù)層在邏輯層基礎(chǔ)上交換推理的結(jié)果,為了檢查這些結(jié)果,需要將內(nèi)部推理機(jī)制轉(zhuǎn)化為一種通用的證據(jù)表示語(yǔ)言。37本體論與語(yǔ)義網(wǎng)絡(luò)語(yǔ)義Web的應(yīng)用研究Web services 是一系列用來(lái)促進(jìn)跨平臺(tái)的程序間通信的標(biāo)準(zhǔn)。語(yǔ)義Web 可以提高用戶對(duì)Web services 進(jìn)行定位、選擇、運(yùn)用、組合和

24、監(jiān)控的自動(dòng)化程度。語(yǔ)義Web 用本體來(lái)描述各種網(wǎng)上資源,網(wǎng)絡(luò)中的知識(shí)將用一種結(jié)構(gòu)化、邏輯化、語(yǔ)義化的方式來(lái)表示。代理(Agent)可以在本體的指導(dǎo)下對(duì)網(wǎng)上知識(shí)進(jìn)行讀取和推理,并形成一個(gè)動(dòng)態(tài)聯(lián)系的Agent網(wǎng)絡(luò),傳統(tǒng)的C/S計(jì)算模式將可能被一種基于Agent的分布式計(jì)算模式所取代。38本體論與語(yǔ)義網(wǎng)絡(luò)現(xiàn)有的搜索引擎是基于關(guān)鍵字,詞語(yǔ)中的多義詞和同義詞降低了查詢的精確性。盡管研究者們提出許多算法來(lái)解決這個(gè)問(wèn)題, 但從網(wǎng)頁(yè)的文本內(nèi)容入手僅能得到有限的語(yǔ)義信息,而語(yǔ)義Web則可以較好的處理這個(gè)問(wèn)題。近年來(lái)大量的數(shù)字化多媒體數(shù)據(jù)被加入互聯(lián)網(wǎng),傳統(tǒng)的基于內(nèi)容的多媒體數(shù)據(jù)檢索技術(shù),不能有效利用網(wǎng)上的多媒體數(shù)

25、據(jù)。基于語(yǔ)義的查詢能夠利用多媒體資源的高級(jí)特征,從而使各種多媒體數(shù)據(jù)資源得到有效利用。39計(jì)算機(jī)軟件技術(shù)數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)空間數(shù)據(jù)庫(kù)、移動(dòng)數(shù)據(jù)庫(kù)實(shí)時(shí)數(shù)據(jù)庫(kù)、數(shù)據(jù)流技術(shù)XML數(shù)據(jù)庫(kù)、微型數(shù)據(jù)庫(kù)商用數(shù)據(jù)庫(kù)新進(jìn)展數(shù)據(jù)庫(kù)新技術(shù)在地礦行業(yè)的應(yīng)用軟件工程技術(shù)軟件工程中的知識(shí)管理40數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)的定義面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。數(shù)據(jù)倉(cāng)庫(kù)的主要特點(diǎn):數(shù)據(jù)倉(cāng)庫(kù)面向分析型數(shù)據(jù)處理,用于支持決策,不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫(kù);數(shù)據(jù)倉(cāng)庫(kù)是對(duì)多個(gè)異構(gòu)數(shù)據(jù)源進(jìn)行的有效集成,并按主題進(jìn)行重組,數(shù)據(jù)一般也不再修改。 41數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)圖

26、數(shù)據(jù)倉(cāng)庫(kù)抽取轉(zhuǎn)換加載更新OLAP引擎分析查詢報(bào)表數(shù)據(jù)挖掘監(jiān)測(cè)集成元數(shù)據(jù)數(shù)據(jù)源前端工具數(shù)據(jù)集市操作數(shù)據(jù)庫(kù)其它數(shù)據(jù)源數(shù)據(jù)存儲(chǔ)OLAP 服務(wù)器42數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)分析處理OLAPOLAP是使分析人員能夠從多角度對(duì)信息進(jìn)行快速、一致、交互地訪問(wèn),從而獲得對(duì)數(shù)據(jù)的更深入了解的一種軟件技術(shù),其目標(biāo)是滿足在多維環(huán)境下特定的查詢和報(bào)表需求。 OLAP的核心是將數(shù)據(jù)按照多維結(jié)構(gòu)(即數(shù)據(jù)立方體)進(jìn)行組織與處理,即將實(shí)體的重要屬性定義為“維”,并且“維”可以包含復(fù)雜的層次結(jié)構(gòu)。 根據(jù)“維”的結(jié)構(gòu)層次不同,OLAP分析的常見操作包括下鉆、上卷、切片、切塊以及旋轉(zhuǎn)等。 43數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)立方體的

27、實(shí)例美國(guó)的電視機(jī)年度銷售總額日期產(chǎn)品國(guó)家All, All, Allsumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum44數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)與OLAP的實(shí)現(xiàn)方式MOLAP:使用多維數(shù)組存儲(chǔ)數(shù)據(jù)。多維數(shù)據(jù)在存儲(chǔ)中將形成“立方體”的結(jié)構(gòu)。 ROLAP:以關(guān)系數(shù)據(jù)庫(kù)為核心,以關(guān)系表進(jìn)行多維數(shù)據(jù)的表示和存儲(chǔ)。ROLAP將多維結(jié)構(gòu)劃分為兩類表,即事實(shí)表(存儲(chǔ)數(shù)據(jù)和維關(guān)鍵字)和維表(用于存放維的層次、成員類別等描述信息)。常見的組織形式包括“星型模式”和“雪花模式”。 HOLAP:基于混合形式的實(shí)現(xiàn),例如低層是關(guān)系型的,高層是多維矩陣,該方式更具靈活

28、性。45數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)星型模式實(shí)例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch

29、46數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)實(shí)施的難點(diǎn)業(yè)務(wù)模型與數(shù)據(jù)模型的建立;相關(guān)主題領(lǐng)域的確定;元數(shù)據(jù)的設(shè)計(jì)和管理;數(shù)據(jù)的凈化和集成;自下而上和自上而下實(shí)施策略的選擇;47數(shù)據(jù)庫(kù)技術(shù)空間數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)的出現(xiàn)背景:GIS的普及使用。傳統(tǒng)RDBMS管理地理信息數(shù)據(jù)的局限地理信息數(shù)據(jù)一般為連續(xù)數(shù)據(jù),并具有較強(qiáng)的空間相關(guān)性;地理信息數(shù)據(jù)的實(shí)體類型多,空間關(guān)系復(fù)雜;地理信息數(shù)據(jù)的數(shù)據(jù)項(xiàng)復(fù)雜,變長(zhǎng)記錄居多;地理信息數(shù)據(jù)需要大量的空間操作和查詢,如拓?fù)潢P(guān)系查詢和相似性查詢等;48數(shù)據(jù)庫(kù)技術(shù)空間數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)的實(shí)現(xiàn)方式混合模式 :將非空間數(shù)據(jù)存儲(chǔ)在RDBMS中,將空間數(shù)據(jù)存放在文件系統(tǒng)中。缺點(diǎn):空間數(shù)據(jù)無(wú)

30、法獲得DBMS的有效管理,文件的通用性差。 集成模式:將空間數(shù)據(jù)和屬性數(shù)據(jù)全部存儲(chǔ)在數(shù)據(jù)庫(kù)中,這是目前空間數(shù)據(jù)庫(kù)的發(fā)展方向。 空間數(shù)據(jù)引擎:處于應(yīng)用程序和RDBMS之間的中間件技術(shù),客戶通過(guò)引擎對(duì)RDBMS中的空間數(shù)據(jù)進(jìn)行訪問(wèn),如MapInfo提供的中間件產(chǎn)品SaptialWare。 通用空間數(shù)據(jù)庫(kù) :在DBMS中管理空間數(shù)據(jù),如OracleSpatial 。這類數(shù)據(jù)庫(kù)一般采用對(duì)象-關(guān)系模型, 使用R-tree等高效空間索引結(jié)構(gòu),并支持SQL語(yǔ)言查詢。49數(shù)據(jù)庫(kù)技術(shù)空間數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)未來(lái)的主要研究方向支持場(chǎng)實(shí)體的數(shù)據(jù)庫(kù)必須具有高效的柵格處理能力,如柵格的存儲(chǔ)策略、索引形式等;更高效的高維空間

31、索引結(jié)構(gòu),已出現(xiàn)的新的結(jié)構(gòu)包括R*-tree、TV-tree、X-tree、M-tree等;如何高效地進(jìn)行基于內(nèi)容的查詢,如“查找所有背景為海洋,前景為海灘的圖像”;空間數(shù)據(jù)倉(cāng)庫(kù)中,空間數(shù)據(jù)的各種分析操作以及結(jié)果的可視化顯示,都有待于進(jìn)一步研究;各種空間數(shù)據(jù)挖掘技術(shù)。50數(shù)據(jù)庫(kù)技術(shù)移動(dòng)數(shù)據(jù)庫(kù)移動(dòng)數(shù)據(jù)庫(kù)移動(dòng)數(shù)據(jù)庫(kù)的定義移動(dòng)數(shù)據(jù)庫(kù)是傳統(tǒng)的分布式數(shù)據(jù)庫(kù)的延伸和擴(kuò)展,是一個(gè)由無(wú)線網(wǎng)絡(luò)和有線網(wǎng)絡(luò)組成的復(fù)雜的、異構(gòu)的分布式系統(tǒng),各種移動(dòng)用戶可以通過(guò)移動(dòng)設(shè)備訪問(wèn)固定網(wǎng)絡(luò)中的信息。移動(dòng)數(shù)據(jù)庫(kù)的新特點(diǎn)移動(dòng)性、頻繁的斷接性網(wǎng)絡(luò)的多樣性和非對(duì)稱性資源的有限性51數(shù)據(jù)庫(kù)技術(shù)移動(dòng)數(shù)據(jù)庫(kù)移動(dòng)數(shù)據(jù)庫(kù)系統(tǒng)結(jié)構(gòu)52數(shù)據(jù)庫(kù)技術(shù)移

32、動(dòng)數(shù)據(jù)庫(kù)RDBMS在管理移動(dòng)對(duì)象方面的不足不支持移動(dòng)對(duì)象的數(shù)據(jù)模型和查詢語(yǔ)言;針對(duì)移動(dòng)對(duì)象需要處理大量的位置信息,操作性能不高;移動(dòng)數(shù)據(jù)庫(kù)需要解決的關(guān)鍵問(wèn)題移動(dòng)對(duì)象的位置表示模型與數(shù)據(jù)存儲(chǔ)方法 ;移動(dòng)對(duì)象索引、位置更新策略與空間查詢處理;新的事務(wù)管理策略和處理機(jī)制; 數(shù)據(jù)的同步與一致性;數(shù)據(jù)的安全性。53數(shù)據(jù)庫(kù)技術(shù)移動(dòng)數(shù)據(jù)庫(kù)上述問(wèn)題的解決方法設(shè)計(jì)新的移動(dòng)對(duì)象模型,一般與GIS對(duì)象模型的國(guó)際標(biāo)準(zhǔn)兼容;使用對(duì)象關(guān)系數(shù)據(jù)庫(kù)(ORDB),擴(kuò)展SQL查詢語(yǔ)言,設(shè)計(jì)新的存儲(chǔ)和索引機(jī)制;新的事務(wù)處理機(jī)制(如新的兩階段提交模型),例如根據(jù)連接速度決定事務(wù)優(yōu)先級(jí),移動(dòng)事務(wù)的結(jié)果實(shí)時(shí)更新等;新的數(shù)據(jù)同步機(jī)制,如普

33、遍采用的樂(lè)觀復(fù)制法;對(duì)移動(dòng)終端進(jìn)行認(rèn)證,對(duì)無(wú)線傳輸進(jìn)行加密,保證數(shù)據(jù)的安全。54數(shù)據(jù)庫(kù)技術(shù)實(shí)時(shí)數(shù)據(jù)庫(kù)實(shí)時(shí)數(shù)據(jù)庫(kù)(RTDB)基本概念實(shí)時(shí)數(shù)據(jù)庫(kù)就是其數(shù)據(jù)和事務(wù)都有顯式定時(shí)限制 的數(shù)據(jù)庫(kù),系統(tǒng)的正確性不僅依賴于事務(wù)的邏輯 結(jié)果,而且依賴于該邏輯結(jié)果所產(chǎn)生的時(shí)間。 實(shí)時(shí)數(shù)據(jù)庫(kù)是實(shí)時(shí)系統(tǒng)和數(shù)據(jù)庫(kù)技術(shù)相結(jié)合的產(chǎn) 物 ,用于處理不斷更新、快速變化的數(shù)據(jù),以及具有時(shí)間限制的事務(wù)處理。但是實(shí)時(shí)數(shù)據(jù)庫(kù)并不是上述兩種技術(shù)的簡(jiǎn)單結(jié)合,而是涉及到一系列的整合技術(shù)。55數(shù)據(jù)庫(kù)技術(shù)實(shí)時(shí)數(shù)據(jù)庫(kù)實(shí)時(shí)數(shù)據(jù)庫(kù)的基本特征數(shù)據(jù)特征:實(shí)時(shí)數(shù)據(jù)庫(kù)中的數(shù)據(jù)對(duì)象由當(dāng)前值、采樣時(shí)間和外部有效期 三個(gè)分量組成,數(shù)據(jù)必須滿足內(nèi)部一致性(傳統(tǒng)數(shù)據(jù)庫(kù)

34、的完整性和一致性)、外部一致性(數(shù)據(jù)與外部對(duì)象在時(shí)間上一致)和相互一致性(導(dǎo)出數(shù)據(jù)的時(shí)間有效性)。事務(wù)特征:實(shí)時(shí)數(shù)據(jù)庫(kù)中事務(wù)的執(zhí)行有顯式的時(shí)限,并且事務(wù)必須在指定的時(shí)間內(nèi)被正確執(zhí)行。此外,由于受到時(shí)間因素的影響,事務(wù)間存在多種語(yǔ)義相關(guān)性,如 結(jié)構(gòu)相關(guān)、數(shù)據(jù)相關(guān)等。56數(shù)據(jù)庫(kù)技術(shù)實(shí)時(shí)數(shù)據(jù)庫(kù)實(shí)時(shí)數(shù)據(jù)庫(kù)的主要技術(shù)實(shí)時(shí)數(shù)據(jù)模型與語(yǔ)言;(傳統(tǒng)模型引入時(shí)間維)實(shí)時(shí)事務(wù)模型與處理;(非原子型的復(fù)雜事務(wù)模型,與多個(gè)時(shí)間屬性相關(guān)的新的優(yōu)先級(jí)、調(diào)度機(jī)制和并發(fā)控制)數(shù)據(jù)存儲(chǔ)與緩存管理;(使用內(nèi)存數(shù)據(jù)庫(kù)技術(shù)降低I/O對(duì)時(shí)間效率的影響,不同優(yōu)先級(jí)事務(wù)的緩存管理)恢復(fù);(實(shí)時(shí)數(shù)據(jù)庫(kù)的恢復(fù)可能影響到活動(dòng)事務(wù),有些事務(wù)從時(shí)間

35、的角度是不可恢復(fù)的,需要用到補(bǔ)償事務(wù))57數(shù)據(jù)庫(kù)技術(shù)實(shí)時(shí)數(shù)據(jù)庫(kù)實(shí)時(shí)數(shù)據(jù)庫(kù)的訪問(wèn)方式使用API訪問(wèn);(效率高、簡(jiǎn)單)使用ODBC訪問(wèn);(由于實(shí)時(shí)數(shù)據(jù)庫(kù)與關(guān)系數(shù)據(jù)庫(kù)差異較大,該方法效果有限)使用OPC (OLE for Process Control)方式訪問(wèn);(OPC是為了給眾多的API訪問(wèn)算法,提出一個(gè)統(tǒng)一標(biāo)準(zhǔn)的存儲(chǔ)接口,超過(guò)200家產(chǎn)商已經(jīng)加入OPC組織)58數(shù)據(jù)庫(kù)技術(shù)實(shí)時(shí)數(shù)據(jù)庫(kù)實(shí)時(shí)數(shù)據(jù)庫(kù)的產(chǎn)品與應(yīng)用Aspentech公司的Infoplus.21 (石化行業(yè))OSI公司的PI (Plant Information System)(電力行業(yè))(數(shù)據(jù)壓縮效率極高,性能好)Honeywell公司的

36、PHD( Process History Database)(內(nèi)嵌Oracle數(shù)據(jù)為后臺(tái))Wonderware公司的Industrial SQL 國(guó)內(nèi)公司的SuperInfo 和RealInfo 59數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)流技術(shù)數(shù)據(jù)流技術(shù)數(shù)據(jù)流的基本概念數(shù)據(jù)流由一系列按序到達(dá)的數(shù)據(jù)組成,也可以看作是信息傳輸過(guò)程中經(jīng)編碼處理的數(shù)字信號(hào)串。數(shù)據(jù)流的典型實(shí)例包括網(wǎng)絡(luò)監(jiān)測(cè)信號(hào)、Internet中的IP數(shù)據(jù)包、WEB服務(wù)器上的用戶登錄記錄、電信公司的通話記錄、股票交易信息等。60數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)流技術(shù)數(shù)據(jù)流的特點(diǎn)數(shù)據(jù)連續(xù)、實(shí)時(shí)地到達(dá),并且在時(shí)間維度上嚴(yán)格有序 ;數(shù)據(jù)量巨大,有可能具有無(wú)限長(zhǎng)度;數(shù)據(jù)流中的數(shù)據(jù)經(jīng)常發(fā)

37、生較大的變化,并且往往需要快速、實(shí)時(shí)地處理和響應(yīng);數(shù)據(jù)一經(jīng)處理,除非特意保存,否則不能被再次取出處理(即一次性處理),或者再次提取數(shù)據(jù)的代價(jià)昂貴;大多數(shù)數(shù)據(jù)流都需要進(jìn)行抽象化、層次化處理。61數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)流技術(shù)數(shù)據(jù)流的基本模型滑動(dòng)窗體:設(shè)置一個(gè)窗口,隨著數(shù)據(jù)的不斷到達(dá),舊數(shù)據(jù)從窗口的一端移出,新數(shù)據(jù)從窗口另一端移入。界標(biāo)模型:數(shù)據(jù)范圍從某一個(gè)已知的初始時(shí)間點(diǎn),一直到當(dāng)前時(shí)間點(diǎn)為止的所有數(shù)據(jù)。快照模型:兩個(gè)預(yù)定義時(shí)間戳之間的所有數(shù)據(jù)。 滑動(dòng)窗體模型和界標(biāo)模型能夠處理不斷到來(lái)的新數(shù)據(jù),更接近于真實(shí)應(yīng)用,因而得到更加廣泛的研究和使用。62數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)流技術(shù)數(shù)據(jù)流領(lǐng)域的主要研究?jī)?nèi)容數(shù)據(jù)流管理系統(tǒng)6

38、3數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)流技術(shù)數(shù)據(jù)流查詢數(shù)據(jù)流的查詢與傳統(tǒng)DBMS顯著不同,如單調(diào)與非單調(diào)的連續(xù)查詢、自適應(yīng)查詢(如數(shù)據(jù)流速率變化時(shí))與分布式查詢(從多個(gè)源查詢數(shù)據(jù)時(shí)如何減少網(wǎng)絡(luò)通信)。數(shù)據(jù)概要設(shè)計(jì)使用各種概要信息(或總結(jié)信息)代替無(wú)限的數(shù)據(jù)。常見的概要信息包括:直方圖、小波系數(shù)以及各種統(tǒng)計(jì)量(如均值、方差、頻率、回歸系數(shù)等)?;跀?shù)據(jù)流的各種算法包括查詢算法、分析與挖掘算法等,這些算法大多屬于單遍掃描算法,并需要使用數(shù)據(jù)的概要信息。64數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)流技術(shù)數(shù)據(jù)流管理系統(tǒng)的兩大類型在傳統(tǒng)的DBMS中加入數(shù)據(jù)流管理的功能,這一方向進(jìn)展不大,目前主流的商用數(shù)據(jù)庫(kù)中都未實(shí)現(xiàn)該功能;專用的數(shù)據(jù)流管理系統(tǒng)斯坦福

39、大學(xué)的STREAM :拓展SQL語(yǔ)言在數(shù)據(jù)流上的處理功能,開發(fā)新的查詢語(yǔ)言,通過(guò)特殊的窗口操作將流數(shù)據(jù)轉(zhuǎn)換為關(guān)系處理。伯克利大學(xué)的TelegraphCQ :一個(gè)連續(xù)查詢處理系統(tǒng),重點(diǎn)在于共享查詢估算和自適應(yīng)查詢處理;65數(shù)據(jù)庫(kù)技術(shù)XML數(shù)據(jù)庫(kù)XML數(shù)據(jù)庫(kù)什么是XML數(shù)據(jù)庫(kù)XML數(shù)據(jù)庫(kù)是可以對(duì)XML文檔進(jìn)行存取、管理和查詢的數(shù)據(jù)庫(kù)。 XML數(shù)據(jù)存儲(chǔ)的問(wèn)題目前大量的XML 數(shù)據(jù)以文本文檔方式存儲(chǔ),這種方式難以支持復(fù)雜高效的查詢應(yīng)用;用傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)可以將 XML 文檔分開放到關(guān)系表中,或者直接將其看作一個(gè)大的二進(jìn)制對(duì)象,主要問(wèn)題在于模式映射帶來(lái)的效率下降,以及數(shù)據(jù)語(yǔ)義的丟失。66數(shù)據(jù)庫(kù)技術(shù)XML數(shù)

40、據(jù)庫(kù)XML數(shù)據(jù)庫(kù)的分類純XML數(shù)據(jù)庫(kù)管理系統(tǒng)(NXD)NXD是專門針對(duì)XML 格式的文檔進(jìn)行存取、管理和查詢的數(shù)據(jù)庫(kù);Tamino XML數(shù)據(jù)庫(kù)是全球第一個(gè)完全的XML DBMS,能夠處理各種結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),適合開發(fā)基于XML標(biāo)準(zhǔn)的商業(yè)應(yīng)用。Tamino 能保存層次結(jié)構(gòu)的XML文檔,允許XML數(shù)據(jù)的直接存儲(chǔ)、集成和交換,不需要將其轉(zhuǎn)化為關(guān)系型的表格格式,因此在性能上優(yōu)于附帶XML轉(zhuǎn)換器的關(guān)系型數(shù)據(jù)庫(kù),并且具有很好的擴(kuò)展性。67數(shù)據(jù)庫(kù)技術(shù)XML數(shù)據(jù)庫(kù)支持XML的數(shù)據(jù)庫(kù)(XEDB)XEDB是在傳統(tǒng)數(shù)據(jù)庫(kù)的基礎(chǔ)上,通過(guò)增加對(duì)XML數(shù)據(jù)的管理功能,從而實(shí)現(xiàn)對(duì)XML數(shù)據(jù)的管理的數(shù)據(jù)庫(kù)。XEDB的

41、主要用途是實(shí)現(xiàn)數(shù)據(jù)關(guān)系不太復(fù)雜的XML文檔與傳統(tǒng)數(shù)據(jù)庫(kù)之間的轉(zhuǎn)換。微軟公司的SQL Server 2005可以存儲(chǔ)和處理XML數(shù)據(jù),且無(wú)須將這些數(shù)據(jù)轉(zhuǎn)換為關(guān)系列和行,更不需要將其存儲(chǔ)為二進(jìn)制大型對(duì)象。編程人員可以使用XQuery來(lái)檢索XML數(shù)據(jù)。其他商業(yè)數(shù)據(jù)庫(kù),如DB2和Oracle等都加入了對(duì)XML的支持。68數(shù)據(jù)庫(kù)技術(shù)XML數(shù)據(jù)庫(kù)XML數(shù)據(jù)庫(kù)的一些關(guān)鍵技術(shù)如何定義完善的查詢代數(shù)(半結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)使得定義完善的查詢代數(shù)很困難);如何將XML的復(fù)雜路徑轉(zhuǎn)換為系統(tǒng)識(shí)別的查詢路徑;XML的樹狀結(jié)構(gòu)使得查詢代價(jià)計(jì)算和查詢優(yōu)化的實(shí)施很困難;XML的高效索引結(jié)構(gòu)設(shè)計(jì);XML底層數(shù)據(jù)的存儲(chǔ)。69數(shù)據(jù)庫(kù)技

42、術(shù)微型數(shù)據(jù)庫(kù)微型數(shù)據(jù)庫(kù)系統(tǒng)微型數(shù)據(jù)庫(kù)系統(tǒng)的基本概念微型數(shù)據(jù)庫(kù)系統(tǒng)是一個(gè)只需很小的內(nèi)存來(lái)支持的數(shù)據(jù)庫(kù)系統(tǒng)內(nèi)核。內(nèi)存限制是決定微小型數(shù)據(jù)庫(kù)系統(tǒng)特征的重要因素。根據(jù)占用內(nèi)存的大小又可以分為:超微:占用10-50K的內(nèi)存,適用于智能卡等設(shè)備;微?。赫加?0-500K的內(nèi)存,適用于手機(jī)等設(shè)備;嵌入式:占用1-2M的內(nèi)存,適用于掌上電腦等設(shè)備;70數(shù)據(jù)庫(kù)技術(shù)微型數(shù)據(jù)庫(kù)微型數(shù)據(jù)庫(kù)的設(shè)計(jì)原則 移動(dòng)設(shè)備大多計(jì)算能力弱、存儲(chǔ)空間小、帶寬有限,并且在閃存上進(jìn)行讀寫速度慢,因此設(shè)計(jì)微型數(shù)據(jù)庫(kù)應(yīng)遵循以下原則:壓縮性原則:數(shù)據(jù)結(jié)構(gòu)和代碼都要精簡(jiǎn);RAM 原則:最小化RAM 的使用;寫原則:最小化寫操作以減少寫代價(jià);讀原則

43、:充分利用快速讀操作;存取原則:利用低粒度和穩(wěn)定內(nèi)存的直接訪問(wèn)能力進(jìn)行讀和寫;71數(shù)據(jù)庫(kù)技術(shù)微型數(shù)據(jù)庫(kù)微型數(shù)據(jù)庫(kù)的主要產(chǎn)品智能卡數(shù)據(jù)庫(kù):主要包括Gnat-DB 和Pico-DBMS(精簡(jiǎn)高效,但數(shù)據(jù)格式不通用,資料交換困難)。手持設(shè)備數(shù)據(jù)庫(kù):Sybase SQL Anywhere、IBM DB2 Everyplace、Oracle 9i Lite、Informix Cloudscape(支持多平臺(tái)、Java、手持設(shè)備與多種無(wú)線通訊協(xié)議,高性能和高可伸縮性,易于使用和管理)以及 SQL Server CE 。72數(shù)據(jù)庫(kù)技術(shù) 商用數(shù)據(jù)庫(kù)新進(jìn)展商用數(shù)據(jù)庫(kù)新進(jìn)展IBM以數(shù)據(jù)庫(kù)為基礎(chǔ)構(gòu)建SOA(面向服務(wù)

44、)架構(gòu),與WebSphere中間件更緊密地結(jié)合企業(yè)信息資源,屏蔽信息資源底層的復(fù)雜結(jié)構(gòu);數(shù)據(jù)庫(kù)以XML為基礎(chǔ),全面增強(qiáng)對(duì)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的管理能力;進(jìn)一步增強(qiáng)數(shù)據(jù)挖掘和商業(yè)智能功能;提供主數(shù)據(jù)(Master Data)管理,為企業(yè)提供統(tǒng)一的信息資源視圖。73數(shù)據(jù)庫(kù)技術(shù) 商用數(shù)據(jù)庫(kù)新進(jìn)展Oracle在提供傳統(tǒng)數(shù)據(jù)庫(kù)產(chǎn)品和服務(wù)的基礎(chǔ)上,近年來(lái)主要向嵌入式數(shù)據(jù)庫(kù)、移動(dòng)數(shù)據(jù)庫(kù)領(lǐng)域發(fā)展,主要產(chǎn)品包括Oracle Lite和Oracle TimeTen。Sybase ASE15設(shè)計(jì)新的查詢處理引擎,提供新的并行查詢功能,并通過(guò)一系列新特性(如Plan View、查詢進(jìn)程矩陣、自動(dòng)更新統(tǒng)計(jì)信息等),從

45、而充分利用系統(tǒng)資源,降低企業(yè)總擁有成本TCO。同時(shí)ASE15具有獨(dú)特的消息發(fā)布功能,當(dāng)系統(tǒng)中發(fā)生重要事件時(shí),能自動(dòng)通知用戶。74數(shù)據(jù)庫(kù)技術(shù) 商用數(shù)據(jù)庫(kù)新進(jìn)展Microsoft SQL Server 2005支持XML、Webservice等新應(yīng)用,并且在企業(yè)級(jí)支持、商業(yè)智能應(yīng)用、管理開發(fā)效率等方面有了顯著的增強(qiáng)。 SQL Server 2005提供集成的數(shù)據(jù)管理和分析平臺(tái),幫助企業(yè)進(jìn)行信息管理、運(yùn)行復(fù)雜的商務(wù)應(yīng)用和高級(jí)商務(wù)智能。InterSystems公司的CacheCache突破了1NF,即屬性值可以為非原子,關(guān)系可以由子關(guān)系組成,稱為后關(guān)系數(shù)據(jù)庫(kù),根據(jù)相關(guān)研究報(bào)告,Cache比RDBMS節(jié)

46、約空間2/3,速度快20倍左右。75數(shù)據(jù)庫(kù)技術(shù) 地礦行業(yè)的應(yīng)用數(shù)據(jù)庫(kù)新技術(shù)在地礦行業(yè)的應(yīng)用(1)基于WebGIS技術(shù),中國(guó)石化石油勘探開發(fā)研究院開發(fā)了“中國(guó)1: 50萬(wàn)地質(zhì)圖數(shù)據(jù)庫(kù)系統(tǒng)”。該系統(tǒng)基于ASP/COM技術(shù),實(shí)現(xiàn)網(wǎng)絡(luò)訪問(wèn)地質(zhì)圖數(shù)據(jù),其中GIS應(yīng)用服務(wù)器為中地公司的MapGIS IMS,系統(tǒng)使用 Oracle數(shù)據(jù)庫(kù)存儲(chǔ)地質(zhì)圖空間數(shù)據(jù),通過(guò)空間數(shù)據(jù)引擎訪問(wèn)數(shù)據(jù)。該系統(tǒng)已經(jīng)投入使用,能為科技人員進(jìn)行油氣勘探開發(fā)研究提供全國(guó)各探區(qū)的地質(zhì)空間數(shù)據(jù),系統(tǒng)性能優(yōu)越,Web結(jié)構(gòu)也大大降低了系統(tǒng)的安裝、部署和維護(hù)。76數(shù)據(jù)庫(kù)技術(shù) 地礦行業(yè)的應(yīng)用數(shù)據(jù)庫(kù)新技術(shù)在地礦行業(yè)的應(yīng)用(2)蘭州石化公司選用美國(guó)As

47、penTech公司的Infoplus.21實(shí)時(shí)數(shù)據(jù)庫(kù)系統(tǒng),建成了覆蓋公司7000個(gè)主要裝置的生產(chǎn)信息采集系統(tǒng)。在該系統(tǒng)的基礎(chǔ)上,開發(fā)了流程圖瀏覽、實(shí)時(shí)工藝數(shù)據(jù)查詢、報(bào)警查詢、事故追憶等應(yīng)用系統(tǒng)。上述實(shí)時(shí)數(shù)據(jù)庫(kù)系統(tǒng)和應(yīng)用系統(tǒng)的建立,使得公司能夠?qū)ιa(chǎn)裝置中的關(guān)鍵設(shè)備進(jìn)行在線監(jiān)控,對(duì)實(shí)時(shí)變化的過(guò)程進(jìn)行實(shí)際響應(yīng),迅速?zèng)Q策,從而為優(yōu)化生產(chǎn)管理、提高產(chǎn)品質(zhì)量提供支持。77軟件工程技術(shù) 軟件工程中的知識(shí)管理軟件工程中的知識(shí)管理(KM)知識(shí)管理的基本概念定義1:知識(shí)管理是一種對(duì)知識(shí)的組織和再組織,從而在大量的信息中進(jìn)行知識(shí)挖掘,以及對(duì)人的顯性和隱性知識(shí)進(jìn)行管理。定義2:知識(shí)管理是一個(gè)形成管理和均衡企業(yè)智力資

48、源的業(yè)務(wù)過(guò)程,它使企業(yè)從合作式的、整合式的方法提升到信息財(cái)富的創(chuàng)造、獲取、組織、傳播和應(yīng)用這樣一個(gè)高度。 78軟件工程技術(shù) 軟件工程中的知識(shí)管理知識(shí)管理的主要研究?jī)?nèi)容組織中需要的知識(shí)是什么?現(xiàn)有的知識(shí)在哪里?從哪里可以獲取?知識(shí)如何有效地傳播?如何生成新的知識(shí)?知識(shí)如何存儲(chǔ)、更新、保護(hù)以及如何表示?如何有效地利用知識(shí)?79軟件工程技術(shù) 軟件工程中的知識(shí)管理知識(shí)管理技術(shù)知識(shí)管理技術(shù)是指能夠協(xié)助人們實(shí)現(xiàn)知識(shí)管理的基于計(jì)算機(jī)的現(xiàn)代信息技術(shù),它是一個(gè)龐大的技術(shù)體系,覆蓋了知識(shí)管理的各環(huán)節(jié)。IBM企業(yè)知識(shí)管理白皮書認(rèn)為,知識(shí)管理技術(shù)分為商業(yè)智能技術(shù)、電子協(xié)作技術(shù)、知識(shí)傳遞技術(shù)、知識(shí)發(fā)現(xiàn)技術(shù)和知識(shí)地圖技術(shù)

49、。知識(shí)管理技術(shù)本身處于不斷發(fā)展和不斷成熟的過(guò)程中,下圖給出了知識(shí)管理技術(shù)的體系結(jié)構(gòu)和發(fā)展趨勢(shì)。 80軟件工程技術(shù) 軟件工程中的知識(shí)管理知識(shí)管理技術(shù)體系結(jié)構(gòu)與發(fā)展趨勢(shì)圖81軟件工程技術(shù) 軟件工程中的知識(shí)管理知識(shí)系統(tǒng) 知識(shí)系統(tǒng)是為整個(gè)組織的知識(shí)管理服務(wù)的,一般具有以下功能:能夠高效率的獲取與組織知識(shí);能夠有效地保護(hù)和存儲(chǔ)知識(shí);能夠及時(shí)有效地傳播知識(shí);能夠高效的開發(fā)新的知識(shí)產(chǎn)品;能夠創(chuàng)造有利于知識(shí)生成、轉(zhuǎn)移、使用的組織文化。82軟件工程技術(shù) 軟件工程中的知識(shí)管理軟件工程中的知識(shí)管理問(wèn)題大型軟件項(xiàng)目開發(fā)的成敗,已經(jīng)主要取決于概念設(shè)計(jì)與需求分析這兩個(gè)階段。軟件企業(yè)競(jìng)爭(zhēng)的焦點(diǎn)也越來(lái)越集中在客戶需求的理解上

50、。從知識(shí)管理的角度看,如何在這兩個(gè)階段實(shí)現(xiàn)軟件企業(yè)、用戶之間無(wú)障礙的知識(shí)共享和交流,就成為軟件工程的關(guān)鍵問(wèn)題。在系統(tǒng)設(shè)計(jì)、編程的過(guò)程中,如何有效地運(yùn)用已有的知識(shí)提高軟件開發(fā)的效率和質(zhì)量,如何在軟件工程的各階段將隱性知識(shí)顯性化,這些都是軟件工程中的知識(shí)管理問(wèn)題。83軟件工程技術(shù) 軟件工程中的知識(shí)管理軟件工程中知識(shí)管理的關(guān)鍵問(wèn)題知識(shí)傳遞與共享:知識(shí)在人員間的有效傳遞和共享。對(duì)于軟件行業(yè)這種隱性知識(shí)占主導(dǎo)地位、經(jīng)驗(yàn)豐富與否可以決定其成敗的行業(yè)里,顯得尤為重要。知識(shí)重用:軟件復(fù)用是當(dāng)前軟件工程發(fā)展的一個(gè)趨勢(shì),如何采用各種技術(shù)手段(如規(guī)范化的文檔管理、采用可復(fù)用的設(shè)計(jì)等),盡量提高軟件復(fù)用的層次和范圍,

51、是一個(gè)重要問(wèn)題。84軟件工程技術(shù) 軟件工程中的知識(shí)管理如何在軟件工程中有效地進(jìn)行知識(shí)管理軟件工程中人的管理是知識(shí)管理的核心知識(shí)管理的目的是希望保留團(tuán)隊(duì)中成員的經(jīng)驗(yàn),特別是過(guò)程的模式、流程、數(shù)據(jù)等,以實(shí)現(xiàn)知識(shí)的共享和重用。實(shí)現(xiàn)知識(shí)管理還要考慮企業(yè)的自身特色及其所處的文化氛圍,使員工對(duì)知識(shí)共享和重用有認(rèn)同感。在軟件工程的知識(shí)管理中,必須建立強(qiáng)有力的激勵(lì)制度,鼓勵(lì)和刺激員工向知識(shí)庫(kù)中提交自己的觀點(diǎn)與經(jīng)驗(yàn),營(yíng)造知識(shí)共享和重用的氛圍。85軟件工程技術(shù) 軟件工程中的知識(shí)管理建立高效的知識(shí)管理系統(tǒng)(KMS)知識(shí)管理系統(tǒng)是實(shí)現(xiàn)知識(shí)管理的工具,能有效地促進(jìn)知識(shí)共享與重用。知識(shí)管理系統(tǒng)中需要提供多種知識(shí)表達(dá)與存儲(chǔ)

52、方式,如文本、圖像、視頻等。系統(tǒng)也需要提供多種接口形式,能夠讓員工便捷的向知識(shí)庫(kù)中錄入相關(guān)知識(shí)。知識(shí)管理系統(tǒng)需要采用先進(jìn)的知識(shí)分類方法,能夠根據(jù)需求變化動(dòng)態(tài)改變知識(shí)信息的分類,從而使用戶更容易確定其提交知識(shí)的類別。知識(shí)管理系統(tǒng)可以將傳統(tǒng)的檢索方法與神經(jīng)網(wǎng)絡(luò)等技術(shù)相結(jié)合,從而增強(qiáng)知識(shí)檢索的準(zhǔn)確性和合理性。86智能信息處理技術(shù)數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)概述關(guān)聯(lián)分析、序列分析分類分析、聚類分析異常檢測(cè)數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域時(shí)間序列挖掘數(shù)據(jù)流挖掘空間數(shù)據(jù)庫(kù)挖掘87數(shù)據(jù)挖掘技術(shù)概述數(shù)據(jù)挖掘技術(shù)概述什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘指的是從大量的數(shù)據(jù)中提取隱含的、未知的、并具有潛在的使用價(jià)值的信息的過(guò)程。數(shù)據(jù)挖掘是一種決策

53、支持過(guò)程,它基于數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)可視化等多種技術(shù),自動(dòng)化地分析企業(yè)歷史數(shù)據(jù),從中挖掘出供決策使用的高層次的知識(shí),幫助決策者提高決策質(zhì)量和效率。 88數(shù)據(jù)挖掘技術(shù)概述數(shù)據(jù)挖掘的過(guò)程數(shù)據(jù)挖掘的一般過(guò)程可以分為三個(gè)階段:數(shù)據(jù)準(zhǔn)備、模式發(fā)現(xiàn)與結(jié)果表達(dá),如圖所示。89數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)分析關(guān)聯(lián)分析什么是關(guān)聯(lián)分析關(guān)聯(lián)分析是尋找給定數(shù)據(jù)記錄集中數(shù)據(jù)項(xiàng)之間的相互關(guān)系的一種分析過(guò),所發(fā)現(xiàn)的關(guān)系(或規(guī)則)稱為關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的形式: A1A2Am B1B2Bn 關(guān)聯(lián)規(guī)則的度量支持度與置信度90數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)分析關(guān)聯(lián)分析的算法步驟關(guān)聯(lián)規(guī)則的概念由Agrawal等人提出,關(guān)聯(lián)規(guī)則本

54、身屬于描述型的模式,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無(wú)監(jiān)督的學(xué)習(xí)方法。一般分為兩個(gè)步驟: 在數(shù)據(jù)項(xiàng)集中找出所有頻繁數(shù)據(jù)項(xiàng)集,即找出支持度超過(guò)指定閾值的數(shù)據(jù)項(xiàng)集;在頻繁數(shù)據(jù)項(xiàng)集中生成候選關(guān)聯(lián)規(guī)則,驗(yàn)證置信度后生成關(guān)聯(lián)規(guī)則。 在上述兩步中,頻繁數(shù)據(jù)項(xiàng)集的生成是最關(guān)鍵的。 91數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)分析關(guān)聯(lián)分析的典型算法Apriori算法Apriori算法是較早提出的關(guān)聯(lián)規(guī)則挖掘算法,包括候選頻繁項(xiàng)集的生成和剪枝兩個(gè)步驟(如下頁(yè)圖所示)。由于該算法要生成大量的候選頻繁項(xiàng)集,并且由候選k項(xiàng)集生成頻繁k項(xiàng)集時(shí)必須掃描一遍數(shù)據(jù)庫(kù),因此效率比較低。常見的優(yōu)化方法主要包括劃分、采樣、哈希、事務(wù)壓縮、動(dòng)態(tài)項(xiàng)集計(jì)數(shù)等。 92數(shù)據(jù)

55、挖掘技術(shù)關(guān)聯(lián)分析93數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)分析FP-Growth算法FP-Growth算法是一個(gè)具有更好性能和伸縮性的頻繁項(xiàng)集挖掘算法,其最大特點(diǎn)是不需要生成大量的候選項(xiàng)集。算法將數(shù)據(jù)庫(kù)壓縮進(jìn)一棵前綴樹中,之后的挖掘就在這棵相對(duì)于原數(shù)據(jù)庫(kù)要小很多的樹上進(jìn)行,避免了掃描龐大的數(shù)據(jù)庫(kù)。算法采用模式增長(zhǎng)的方法,不需要產(chǎn)生候選項(xiàng)集,而且算法采用基于分區(qū)的分治法,有效的降低了搜索空間。因此該算法比起Apriori算法具有明顯的性能提升。 94數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)分析關(guān)聯(lián)分析的典型應(yīng)用市場(chǎng)營(yíng)銷廣告、推薦系統(tǒng)醫(yī)療診斷、醫(yī)療保險(xiǎn)交通流量、交通事故分析金融市場(chǎng)客戶行為、股票漲跌地質(zhì)現(xiàn)象與地質(zhì)規(guī)律95數(shù)據(jù)挖掘技術(shù)序列分析序

56、列分析與關(guān)聯(lián)分析相似,序列分析的目的也是為了挖掘數(shù)據(jù)項(xiàng)之間的聯(lián)系。但是關(guān)聯(lián)分析關(guān)注于發(fā)現(xiàn)同一時(shí)間內(nèi)呈現(xiàn)出的模式,而序列分析在于分析在不同時(shí)間的前后關(guān)系。 序列分析的模型、挖掘算法以及應(yīng)用場(chǎng)合都與關(guān)聯(lián)規(guī)則類似,不再贅述。96數(shù)據(jù)挖掘技術(shù)分類分析分類分析什么是分類分析分類分析是從已知分類信息的數(shù)據(jù)(稱為訓(xùn)練集)中總結(jié)出一個(gè)預(yù)測(cè)模型,從而預(yù)測(cè)實(shí)際數(shù)據(jù)的類別信息(見下頁(yè)圖所示)。分類分析的典型應(yīng)用包括:預(yù)測(cè)哪些客戶最可能對(duì)營(yíng)銷活動(dòng)做出回應(yīng),判斷銀行的客戶信用等級(jí)的高低,以及地質(zhì)領(lǐng)域中對(duì)儲(chǔ)層類型、油層類型進(jìn)行判別等。分類分析的典型模型包括決策樹、人工神經(jīng)網(wǎng)絡(luò)以及支持向量機(jī)等。97數(shù)據(jù)挖掘技術(shù)分類分析訓(xùn)練

57、集分類算法IF rank = professorOR years 6THEN tenured = yes 分類器模型98數(shù)據(jù)挖掘技術(shù)分類分析ClassifierTestingDataUnseen Data(Jeff, Professor, 4)Tenured?99數(shù)據(jù)挖掘技術(shù)分類分析決策樹模型決策樹是使用較多的一種分類模型,如下圖所示。構(gòu)建一棵決策樹分為學(xué)習(xí)和剪枝兩個(gè)步驟。age?overcaststudent?credit rating?noyesfairexcellent40nonoyesyesyes30.40100數(shù)據(jù)挖掘技術(shù)分類分析經(jīng)典的決策樹學(xué)習(xí)算法包括ID3、C4.5以及CART等

58、。這些算法都假定訓(xùn)練集能夠載入內(nèi)存,而實(shí)際應(yīng)用中往往使用大量的訓(xùn)練集,因此具有很大的局限性。其他改進(jìn)的決策樹學(xué)習(xí)算法還包括SLIQ算法、SPRINT算法、RainForest算法等。常見的決策樹剪枝算法包括代價(jià)復(fù)雜性剪枝、悲觀估計(jì)剪枝和基于MDL的剪枝等,其中MDL剪枝算法能夠生成較小的樹且具有較高的準(zhǔn)確度,是一種理想的剪枝算法。101數(shù)據(jù)挖掘技術(shù)分類分析人工神經(jīng)網(wǎng)絡(luò)技術(shù)人工神經(jīng)網(wǎng)絡(luò)是一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型。在這一模型中,大量的節(jié)點(diǎn)(即神經(jīng)元)之間相互聯(lián)接構(gòu)成網(wǎng)絡(luò),稱為神經(jīng)網(wǎng)絡(luò),以達(dá)到處理信息的目的。人工神經(jīng)網(wǎng)絡(luò)的工作過(guò)程也分為兩個(gè)步驟,即訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)和使用

59、網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)在使用過(guò)程中最大的問(wèn)題在于,初始網(wǎng)絡(luò)結(jié)構(gòu)和系統(tǒng)參數(shù)的選擇存在一定的偶然性,影響了最終的分析結(jié)果。102數(shù)據(jù)挖掘技術(shù)分類分析支持向量機(jī)SVM什么是支持向量(以線性分類為例)支持向量小間隔大間隔103數(shù)據(jù)挖掘技術(shù)分類分析支持向量機(jī)的基本思路對(duì)于原始空間中的非線性分類問(wèn)題,通過(guò)非線性變換轉(zhuǎn)化為某個(gè)高維空間中的線性分類問(wèn)題,在變換空間中求最優(yōu)分類面。支持向量機(jī)的優(yōu)點(diǎn)SVM專門針對(duì)有限樣本情況,其目標(biāo)是得到現(xiàn)有信息下的最優(yōu)解,而非樣本趨于無(wú)窮多時(shí)的最優(yōu)值;SVM最終將轉(zhuǎn)化成為一個(gè)二次型尋優(yōu)問(wèn)題,從理論上得到的將是全局最優(yōu)點(diǎn),而非局部最優(yōu)點(diǎn);SVM算法的復(fù)雜度與樣本的維數(shù)無(wú)關(guān),僅與支持向

60、量個(gè)數(shù)有關(guān),能有效的解決“維災(zāi)”問(wèn)題。104數(shù)據(jù)挖掘技術(shù)分類分析支持向量機(jī)的缺點(diǎn)和研究方向在解決二次型尋優(yōu)問(wèn)題時(shí)由于需要大量的矩陣運(yùn)算,因此速度較慢,內(nèi)存消耗太大。因此研究新的、更高效率的對(duì)偶尋優(yōu)問(wèn)題算法,是提高支持向量機(jī)運(yùn)行效率的關(guān)鍵,如固定工作樣本集方法、塊算法等;在進(jìn)行空間映射時(shí),需要使用到核函數(shù),盡管一些實(shí)驗(yàn)結(jié)果表明核函數(shù)的具體形式對(duì)分類效果的影響不大,但是核函數(shù)的形式以及其參數(shù)的確定決定了分類器的類型和復(fù)雜程度。核函數(shù)選擇的理論研究仍然是目前的一個(gè)難點(diǎn)。105數(shù)據(jù)挖掘技術(shù)聚類分析聚類分析什么是聚類分析聚類分析是把整個(gè)目標(biāo)數(shù)據(jù)分成不同的組,使得組與組之間差別明顯,而組內(nèi)數(shù)據(jù)盡量相似。聚

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論