基于數(shù)據(jù)分組方法的數(shù)據(jù)倉庫并行預計算和查詢(四)_第1頁
基于數(shù)據(jù)分組方法的數(shù)據(jù)倉庫并行預計算和查詢(四)_第2頁
基于數(shù)據(jù)分組方法的數(shù)據(jù)倉庫并行預計算和查詢(四)_第3頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、    基于數(shù)據(jù)分組方法的數(shù)據(jù)倉庫并行預計算和查詢(四)第七章  實驗 在本章中通過實驗說明算法的有效性和可擴展性。實驗的平臺是一臺有三個計算節(jié)點的刀片服務器,每個節(jié)點上的處理器主頻為1.8GHz,內(nèi)存容量為1GB,操作系統(tǒng)是Linux,內(nèi)核版本2.6.9,節(jié)點間采用千兆網(wǎng)絡(luò)連接。MPI運行環(huán)境為MPICH2.0,C+編譯器g+版本為3.4.3,MPI環(huán)境下C+編譯器MPICXX的版本為1.0.3。7.1   數(shù)據(jù)描述        在實驗中,使用了一個來自不同氣象站所收集的

2、1985年9月的天氣數(shù)據(jù)Hahn94。它包含了1,015,367個元組,一共20維。在這次實驗中,所使用的是它前16維的數(shù)據(jù),每個維度的依次如下表所示:tabletrtd=1,1,93在三個節(jié)點上進行的預計算和查詢實驗的結(jié)果表明,基于數(shù)據(jù)分組方法的數(shù)據(jù)倉庫并行預計算和查詢方法是有效的,它能夠有效地提高數(shù)據(jù)倉庫預計算和查詢的性能,并得到正確的結(jié)果。第八章  總結(jié)與展望 在數(shù)據(jù)倉庫數(shù)據(jù)量急劇增長的今天,并行數(shù)據(jù)倉庫技術(shù)成為了解決海量數(shù)據(jù)預計算和存儲問題的一種重要的、有效的手段。本文主要研究了一種基于數(shù)據(jù)分組的并行數(shù)據(jù)倉庫預計算和查詢技術(shù),并在串行程序基礎(chǔ)上實現(xiàn)了并行預計算和查詢

3、的程序。然后通過實驗數(shù)據(jù)來說明該方法的有效性和分析了這種方法的優(yōu)點和存在的缺陷。8.1    結(jié)論 由于實驗平臺的限制,使得各項實驗最多只能在三個節(jié)點的環(huán)境下運行,無法在更多節(jié)點的計算環(huán)境下進行實驗,研究本文提出方法的可擴展性。通過實驗的觀察和分析,本文提出的基于數(shù)據(jù)分組的數(shù)據(jù)倉庫并行預計算和并行查詢方法有以下一些優(yōu)點:(1)   該實現(xiàn)方法的并行策略簡單,該方法可以經(jīng)過很少的修改,便可以將很多已經(jīng)實現(xiàn)的串行程序改為并行程序。使用MPI和C+進行編程,使得程序具有良好的可移植性、面向?qū)ο笮浴?2)   可以更好地適用于大數(shù)據(jù)量場合。對

4、于串行版本的預計算程序,在對于高維度數(shù)據(jù)集進行預計算時,隨著數(shù)據(jù)量的增加,性能衰減得很厲害。并行預計算時的性能加速比十分可觀,在數(shù)據(jù)量很大的情況下,甚至可以超過理想加速比。(3) 預計算后生成的商立方體數(shù)據(jù)以分布式方式存儲,在查詢時,各臺機器都可以同時對立方體數(shù)據(jù)進行讀取,充分利用了各臺機器的磁盤I/O帶寬。同時本文提出的并行預計算和并行查詢方法存在的一些不足:(1)   對于并行查詢,查詢的效率未能達到理想的加速比。這是由于數(shù)據(jù)元組的分布性與商立方體的特性所造成的,當查詢語句覆蓋集中的元組沒被分配到某臺機器上時,該查詢語句在該臺機器上的查詢操作便無法命中。商立方體的特性使

5、得查詢在某一層上界中找不到所覆蓋的上界的時候,必須到下一層進行查找,如果一直找不到,便會一直找下去,直到全部都掃描過。查詢語句在某臺機器上無法命中的后果是會產(chǎn)生很多額外的層次文件掃描操作,這樣一層層的掃描操作代價是十分巨大的,但這種情況在數(shù)據(jù)元組分布式存儲的情況下又是無法避免的,這樣便使得并行查詢程序的加速比未能達到理想狀態(tài)。(2)   基表元組的映射可以提高預計算和查詢的響應效率,但是對于映射這個步驟還不能完全地并行化處理。8.2   未來的改進 對于本文提出的并行預計算和并行查詢方法存在的一些不足和缺點,可以存在這樣一些補充和改進的地方:(1)

6、60;  預計算算法還需要做出一些修改以適應立方體分布式存儲環(huán)境,如聚集操作中的平均操作,除了對該維度量值做平均值計算之外,還應該同時加上計算總和的計算。這樣才能保證元組條數(shù)的信息不至于丟失,在主進程最終做統(tǒng)計運算的時候才能得到正確的結(jié)果。(2)   對于基于順序查詢方法的并行查詢,可以預先判斷一下是否在該機上命中查詢。如果可以預先判斷出查詢不命中,則可以減少許多額外的層次掃描開銷,提高效率。預先的判斷應該可以通過掃描本地預計算輸入基表里有沒有查詢語句覆蓋集內(nèi)的元組進行。(3)   改進查詢程序的算法。順序查詢是最簡單、易行的查詢方法,但這種方

7、法的效率確實不高。(4)   改進立方體數(shù)據(jù)結(jié)構(gòu),商立方體存在著查詢效率不高的問題,對此人們提出了各種基于商立方體的改善型立方體數(shù)據(jù)結(jié)構(gòu),如QC-TreeLPZ03和Semi-Closed CubeLW05,基于此類型的立方體結(jié)構(gòu)應該能夠改善查詢的響應速度。參考文獻 Beo07    B: The Beowulf Cluster SiteCCS93a     E. Codd, S. Codd, C. Salley. Beyond decision support. Computer World,

8、 27(30): 87-89, 1993CCS93b   E. Codd, S. Codd, C. Salley. Providing OLAP to User-Analysts. PC World, (9), 1993Chen99     陳國良. 并行計算結(jié)構(gòu)·算法·編程. 北京, 高等教育出版社, 1999Du01       都志輝. 高性能計算并行編程技術(shù)MPI并行程序設(shè)計. 北京, 清華大學出版社, 2001Fly72     

9、60;M. Flynn. Some Computer Organizations and Their Effectiveness. IEEE Transactions on Computers, C21(9), 1972GCB+97     J. Gray, S. Chaudhuri, A. Bosworth, A. Layman, D. Reichart, M. Venkatrao, F. Pellow and H. Pirahesh. Data Cube: A Relational Aggregation Operator Generalizing

10、Group-By, Cross-Tab, and Sub-Totals. Journal of Data Mining and Knowledge Discovery, 1(1): 29-53, 1997GGKK03     A. Grama, A. Gupta, G. Karypis, V. Kumar. Introduction to Parallel Computing (Second Edition). Pearson Education, 2003. 張武, 毛國勇, 程海英 等譯. 并行計算導論. 北京, 機械工業(yè)出版社, 2005Hahn9

11、4    C. Hahn et. al. Edited synoptic cloud reports from ships and land stations over the globe, 1982-1991. /ftp/ndp026b/SEP85L.Z, 1994.HPF06    High Performance Fortran ForumInm02    W. H. Inmon. Building the Data Warehouse (Third Edition), John Wiley&

12、#160; Sons, Inc. 2002. 王志海, 林友芳等譯. 數(shù)據(jù)倉庫. 北京, 機械工業(yè)出版社, 2003LAM07     LAM-MPI Parallel ComputingLPH02     L. Lakshmanan, J. Pei and J.Han. Quotient Cube: How to Summarize the Semantics of a Data Cube. In VLDB02LPZ03   L. Lakshmanan, J. Pei and Y.

13、Zhao. QC-Trees: An Efficient Summary Structure for Semantic OLAP. In Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data, ACM, 2003LW05      S. Li and S. Wang. Semi-Closed Cube: An Effective Approach to Trading Off Data Cube Size and Query Response T

14、ime. Journal of Computer Science and Technology, Vol.20, No.3, pp.367-372, 2005MPI03a    MPI: A Message-Passing Interface Standard. MPI03b    MPI-2: Extensions to the Message-Passing Interface.  MPI07     MPICH2 home pageOMP07    OpenMP: Si

15、mple, Portable, Scalable SMP ProgrammingPTP06     POSIX Thread ProgrammingPVM07    Parallel Virtual Machine Web SiteSRD02   Y. Sismanis, N. Roussopoulos, A. Deligiannakis and Y. Kotidis. Dwarf: Shrinking the Petacube. In Proceedings of the 2002 ACM SIGMOD International Conference on Management of Data, ACM, 2002ST98   D. Skillicorn and D. Talia. Models and Languages for Parallel Computation. ACM Computing Surveys, 30(2): 123-169, 1998WLFY02   W. Wang, H. Lu, J. Feng and J. Yu. Condensed Cube: An Effective Approach t

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論