




免費(fèi)預(yù)覽已結(jié)束,剩余5頁可下載查看
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
選課序號(hào):03大連海事大學(xué)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程大作業(yè)(2011-2012學(xué)年第一學(xué)期)NCR Teradata 可擴(kuò)展數(shù)據(jù)倉庫班 級(jí): 智能一班 學(xué) 號(hào): 2220091771 姓 名: 張 愷 指導(dǎo)教師: 魯明羽 成 績: 2011年 12 月 3 日數(shù)據(jù)倉庫專用引擎-Teradata RDBMSTeradataDatabase13.10是首款支持智能時(shí)序分析的產(chǎn)品,有助于客戶更輕松地整理企業(yè)業(yè)務(wù)交易及活動(dòng)的歷史脈絡(luò)。借助此優(yōu)勢(shì),企業(yè)能夠有效運(yùn)行查詢,分析和管理與市場(chǎng)和時(shí)局變化或任一時(shí)間點(diǎn)具體情況有關(guān)的數(shù)據(jù)。商業(yè)環(huán)境瞬息萬變,而時(shí)序分析可幫助客戶發(fā)現(xiàn)各種業(yè)務(wù)模式,提高業(yè)務(wù)洞察力。MGIMETRO集團(tuán)Information Technology GmbH 高級(jí)部門經(jīng)理 Ralf Hausmann 表示“將時(shí)序邏輯引入應(yīng)用程序一直是一個(gè)挑戰(zhàn)。Teradata Database 13.10 中的內(nèi)置時(shí)序功能可降低SQL的復(fù)雜性,與我們現(xiàn)有的時(shí)序應(yīng)用程序相比,減少了全表掃描次數(shù)。內(nèi)置時(shí)序功能不僅為用戶創(chuàng)造更多價(jià)值,還能加快應(yīng)用程序的開發(fā)速度,”有了自動(dòng)化時(shí)序數(shù)據(jù)管理,每次修改、加載或更新數(shù)據(jù)后,再也無需手動(dòng)管理和更新有效日期。在用戶提交簡(jiǎn)單更新命令后,Teradata數(shù)據(jù)庫能夠自動(dòng)執(zhí)行復(fù)雜的修改任務(wù),插入所需數(shù)據(jù),保持完整的更改記錄。此外,將時(shí)序智能置入Teradata優(yōu)化器(TeradataOptimizer) 意味著用戶無需使用復(fù)雜的 SQL 或結(jié)構(gòu)化查詢語言,便可獲得其基于時(shí)間的業(yè)務(wù)問題的解答。自動(dòng)化數(shù)據(jù)管理及簡(jiǎn)化的查詢可減少數(shù)據(jù)錯(cuò)誤、優(yōu)化應(yīng)用程序開發(fā),并能面向企業(yè)用戶開放時(shí)序數(shù)據(jù)分析。時(shí)序分析可提供各種強(qiáng)大功能,以滿足不同類型客戶的復(fù)雜歷史記錄跟蹤及分析功能的需求。例如:保險(xiǎn)業(yè)保險(xiǎn)公司現(xiàn)在可以輕松了解哪些客戶已投保某一保單,包括做出具有追溯力的更改或于保單起始之日前進(jìn)行更改的那些客戶。保單修訂并發(fā)布相關(guān)變更之后,Teradata數(shù)據(jù)庫將自動(dòng)捕獲新信息并記錄原始數(shù)據(jù)。保險(xiǎn)公司可輕松解答影響盈利率的問題,例如:開具的賬單是基于以前的保險(xiǎn)條款還是新的保險(xiǎn)條款?是否會(huì)出現(xiàn)因?yàn)楸紊形锤露斐蓪?duì)投保人的理賠不當(dāng)處理的情況?所編制的合規(guī)報(bào)告的起始日期是否正確?制造業(yè) 制造商現(xiàn)在能夠利用銷售區(qū)域重新調(diào)整歷史記錄,創(chuàng)建更有意義的銷售業(yè)績報(bào)告。如果在年中將某個(gè)銷售團(tuán)隊(duì)從某一區(qū)域轉(zhuǎn)移到另一毗鄰區(qū)域,那么被調(diào)離人手的銷售區(qū)域的業(yè)績會(huì)遜色一些,而新增人手的區(qū)域的銷售量與上一年度相比則會(huì)十分出色。借助年初該區(qū)域銷售團(tuán)隊(duì)報(bào)告的時(shí)序記錄,能夠更深入地洞悉銷售團(tuán)隊(duì)業(yè)績?cè)鲩L情況。零售業(yè) 現(xiàn)在即使產(chǎn)品從某一類別更改為另一類別,零售商也可以進(jìn)行銷售業(yè)績一致同比分析。Teradata 不僅能夠隨著時(shí)間的推移,跟蹤各種交易,還能跟蹤數(shù)據(jù)和業(yè)務(wù)的更改與發(fā)展趨勢(shì)。例如,零售商店將紅酒從飲料類別更改為酒類別,那么不具備時(shí)序支持功能的數(shù)據(jù)庫只會(huì)更新“酒”類別中的信息,而丟失紅酒屬于飲料類別時(shí)的歷史記錄。正所謂失之毫厘,謬以千里。當(dāng)類別經(jīng)理編制一份報(bào)告分析今年與去年相比飲料的銷售量時(shí),該報(bào)告可能只會(huì)統(tǒng)計(jì)當(dāng)前飲料類別中的產(chǎn)品。因?yàn)榧t酒已不屬飲料,所以與去年重新歸類前編制的報(bào)告相比,現(xiàn)在報(bào)告中的銷售業(yè)績會(huì)更低。這不僅會(huì)生成誤導(dǎo)性的銷售業(yè)績,而且還可能造成戰(zhàn)略決策的失誤。TeradataDatabase13.10采用增強(qiáng)型壓縮技術(shù)幫助客戶存儲(chǔ)更多的數(shù)據(jù),并針對(duì)具體情況靈活采用最佳壓縮機(jī)制。數(shù)據(jù)倉庫已演變?yōu)槿蝿?wù)關(guān)鍵型企業(yè)資源,需要分析的數(shù)據(jù)量與類型呈現(xiàn)爆炸式增長。Teradata壓縮功能可大幅節(jié)省存儲(chǔ)空間,對(duì)于指定數(shù)據(jù)類型的壓縮最高可達(dá) 20 倍,而對(duì)于整體壓縮則最高可達(dá) 4 倍。數(shù)據(jù)塊壓縮(BlockLevelCompression)是在數(shù)據(jù)存儲(chǔ)塊級(jí)別進(jìn)行操作的強(qiáng)大壓縮技術(shù),可大幅節(jié)省客戶的存儲(chǔ)空間。算法壓縮是一種列壓縮技術(shù),允許客戶選擇與數(shù)據(jù)特征匹配的壓縮算法,從而獲得優(yōu)異的壓縮效果。Teradata數(shù)據(jù)庫包括三種專門為通用數(shù)據(jù)而設(shè)計(jì)的壓縮算法,客戶也可以自行安裝與其企業(yè)或行業(yè)特定數(shù)據(jù)匹配的算法。TeradataDatabase13.10還包括多值壓縮 (MVC) 的增強(qiáng)功能。MVC 實(shí)際上并未使用中心處理設(shè)備資源進(jìn)行壓縮和解壓縮,而是通過減少 I/O 和節(jié)省存儲(chǔ)空間使性能獲得了大幅提升。每個(gè) Teradata 數(shù)據(jù)庫許可證均包括這些極具價(jià)值的壓縮技術(shù),可為所有 Teradata 客戶提供卓越的靈活性和強(qiáng)大的高級(jí)壓縮功能。Teradata開放式并行框架Teradata通過優(yōu)化及改進(jìn)現(xiàn)有的可擴(kuò)展體系結(jié)構(gòu),進(jìn)一步擴(kuò)大了業(yè)界領(lǐng)先優(yōu)勢(shì)。Teradata開放式并行框架是一種高性能的數(shù)據(jù)庫內(nèi)框架,可快速添加支持復(fù)雜并行分析的新嵌入式服務(wù)。TeradataDatabase 13.10 以此可擴(kuò)展框架為基礎(chǔ),引入其他嵌入式服務(wù)功能,以提供增強(qiáng)型 SAS 分析、執(zhí)行更為準(zhǔn)確的地理空間處理、改善 web 活動(dòng)編碼和提高與其他數(shù)據(jù)庫的兼容性,從而使眾多客戶能夠更輕松地從其他供應(yīng)商遷移到 Teradata。Teradata首創(chuàng)的時(shí)序與壓縮功能及其易用性、卓越性能以及企業(yè)適用的增強(qiáng)功能,進(jìn)一步鞏固了其在數(shù)據(jù)倉庫領(lǐng)域的領(lǐng)先地位。TeradataViewpoint是基于 Web 的單一門戶,可管理 Teradata 系統(tǒng)、查詢和工作負(fù)載,從而提高易用性。Teradata 優(yōu)化器 (Optimizer)則側(cè)重于提高系統(tǒng)性能。通過對(duì)主索引進(jìn)行分區(qū),利用字符字段進(jìn)行查詢的效率得到顯著提高。這使優(yōu)化器能夠智能地取消對(duì)所有數(shù)據(jù)的掃描,僅掃描最相關(guān)的數(shù)據(jù)。例如,分析在加利福尼亞州簽訂的保單時(shí),優(yōu)化器不再掃描表格中所有的行而只掃描帶有州代碼“CA”(表示加利福尼亞)的行。該功能可將整個(gè)表格的掃描效率提高 5 到 100 倍。擴(kuò)展通訊服務(wù)器可改善對(duì)企業(yè)的適用性,將其與遠(yuǎn)程大型計(jì)算機(jī)進(jìn)行集成,可降低成本和提高靈活性。對(duì)于國內(nèi)數(shù)據(jù)庫人士來說,Teradata也許還不象Oracle那么熟悉。但在國外,由于它驅(qū)動(dòng)著世界上幾乎一半的數(shù)據(jù)倉庫,并且世界上最大的幾十個(gè)數(shù)據(jù)倉庫均采用它作為核心引擎,因此,Teradata幾乎成了數(shù)據(jù)倉庫引擎的代名詞。對(duì)國內(nèi)一些用戶來說,一個(gè)自然的問題是:Teradata是什么?最簡(jiǎn)單的回答就是:它是一個(gè)關(guān)系數(shù)據(jù)庫管理系統(tǒng)。既然如此,為什么要用Teradata而不使用那些傳統(tǒng)的商用數(shù)據(jù)庫系統(tǒng)比如Oracel來建立數(shù)據(jù)倉庫呢?我們知道,商用數(shù)據(jù)庫基本上是針對(duì)OLTP應(yīng)用而開發(fā)出來的,由于數(shù)據(jù)倉庫有其固有的特點(diǎn),這些傳統(tǒng)的商用數(shù)據(jù)庫不一定適合來驅(qū)動(dòng)數(shù)據(jù)倉庫應(yīng)用,因?yàn)槊糠N產(chǎn)品都有其強(qiáng)項(xiàng)和弱項(xiàng),不可能面面俱到。而Teradata則是專門用來處理大量數(shù)據(jù)、針對(duì)決策支持應(yīng)用而設(shè)計(jì)出來的,它具有很強(qiáng)的并行處理能力和擴(kuò)展能力。下面我們將從Teradata的發(fā)展過程開始來介紹它的基本特點(diǎn),從這些特點(diǎn)我們可以理解為什么說它是數(shù)據(jù)倉庫的專用引擎。1.Teradata的簡(jiǎn)單歷史Teradata是專門針對(duì)決策支持應(yīng)用而設(shè)計(jì)的,早在1983年就推出了世界上第一個(gè)基于海量并行處理技術(shù)(MPP)的商用系統(tǒng)。1979年7月Teradata 成立于Calif的Brentwood的一個(gè)車庫里。在美國,那些IT名企,好多都始于車庫,MS,蘋果,google,Yahoo好像都是:-),這個(gè)名字的本意就是想支持Tera bytes數(shù)據(jù)的存儲(chǔ)。雖然,現(xiàn)在TB級(jí)的數(shù)據(jù)庫也蠻多的,那時(shí)可沒有。也算是有雄心壯志了。 1980年,風(fēng)投來了,開始一筆是給了150K$, 后來又來了一筆,2.5M$,這下子還是蠻多的。要知道,那可是在1980年代。于是公司可以招人了。 1983年,Beta版本出來了。 1987年,Teradata開始IPO,想上市吧。 1989年,Teradata與NCR合作,作為NCR的合作伙伴,一起開發(fā)下一代數(shù)據(jù)庫。 1991年,NCR被AT&T搞定于91年9月,同年12月,NCR宣布收購了Teradata。 1992年,第一個(gè)TB 級(jí)的數(shù)據(jù)庫在華爾街出現(xiàn)??赡苁荰eradata的吧。 1997年,AT&T 宣布剝離NCR,于是NCR又成了獨(dú)立的公司了。 同時(shí),Teradata開始做自己的CRM產(chǎn)品 1998年,Teradata移植到windows NT平臺(tái) 1999年,有一個(gè)客戶擁有130TB的數(shù)據(jù),分布于176個(gè)節(jié)點(diǎn)上。 2000年,Value Analyzer,一產(chǎn)品,出了些名,同時(shí),NCR又收購了Ceres Integrated Solutions, 重新打造新一款Teradata CRM產(chǎn)品。緊接著又出現(xiàn)了DCM(供應(yīng)鏈管理)產(chǎn)品。 2002年,Teradata Warehouse7.0 發(fā)布 2003年,提供oracle-to-teradata移植程序,結(jié)果很多客戶選擇teradata作為數(shù)據(jù)倉庫產(chǎn)品。 2005年,Teradata Warehouse8.1發(fā)布。 2007年,NCR宣布分成兩個(gè)獨(dú)立的子公司,NCR和Teradata。Teradata又獨(dú)立了。長期以來,NCR公司投入了大量的人力、財(cái)力,對(duì)Teradata作了許多增強(qiáng)和優(yōu)化,使得其更適合于進(jìn)行海量數(shù)據(jù)的綜合分析和處理。Teradata從早期基于硬件的封閉系統(tǒng)發(fā)展成運(yùn)行于UNIX環(huán)境、基于虛擬處理器(VPROC)技術(shù)的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)。特別值得強(qiáng)調(diào)的是,著名的評(píng)估機(jī)構(gòu)Gartner Group于1994年將Teradata評(píng)為“商用并行處理的領(lǐng)導(dǎo)者”,1996年進(jìn)一步指出,“只有NCR的Teradata證明了其可擴(kuò)展性”。我們知道,對(duì)于一個(gè)實(shí)際應(yīng)用的數(shù)據(jù)倉庫而言,并行處理能力和可擴(kuò)展性是至關(guān)重要的兩大因素,而Teradata正是通過其大量的實(shí)際應(yīng)用而獲此殊榮的。在數(shù)據(jù)庫專業(yè)雜志“數(shù)據(jù)庫編程與設(shè)計(jì)” (Database Programming & Design)每年的評(píng)選數(shù)據(jù)庫十二大產(chǎn)品(Database Dozen)的活動(dòng)中,Teradata已經(jīng)連續(xù)第7年入選。在1999年的評(píng)選中,該雜志認(rèn)為,“Teradata代表了數(shù)據(jù)庫技術(shù)的發(fā)展方向”。2000年初,Gartner Group發(fā)表了著名的ASEM(Application Server Enterprise Model)評(píng)估報(bào)告,分別針對(duì)OLTP和數(shù)據(jù)倉庫兩個(gè)應(yīng)用領(lǐng)域?qū)δ壳笆袌?chǎng)上各大供應(yīng)商進(jìn)行了綜合評(píng)估,評(píng)估指標(biāo)非常全面,涵蓋了產(chǎn)品特點(diǎn)、專業(yè)技術(shù)服務(wù)能力以及成功應(yīng)用案例等各個(gè)方面。在數(shù)據(jù)倉庫領(lǐng)域,NCR公司在系統(tǒng)性能、可擴(kuò)展能力、容易管理、專業(yè)技術(shù)服務(wù)、成功案例等關(guān)鍵指標(biāo)方面名列第一,并且最后總分第一。其中Teradata RDBMS就是一個(gè)非常重要的產(chǎn)品之一。其它一些專業(yè)評(píng)估機(jī)構(gòu)如MetaGroup等,都對(duì)NCR的Teradata數(shù)據(jù)倉庫解決方案給予了極高的評(píng)價(jià)。2.Teradata的基本結(jié)構(gòu)Teradata采用了一種先進(jìn)的虛擬處理器技術(shù),稱為VPROC (Virtual Processor)。VPROC有兩種,即PE(Parsing Engine,分析引擎,負(fù)責(zé)與外部的接口、查詢的優(yōu)化、任務(wù)調(diào)度等)和AMP (Access Module Processor,存取模塊處理器,負(fù)責(zé)完成數(shù)據(jù)處理操作)。其基本設(shè)想是:如果將一個(gè)復(fù)雜的任務(wù)分解成多個(gè)簡(jiǎn)單的子任務(wù),每個(gè)虛擬處理器執(zhí)行一個(gè)或幾個(gè)簡(jiǎn)單的子任務(wù),最后將各虛擬處理器的執(zhí)行結(jié)果匯總,那么總的執(zhí)行時(shí)間就能大大縮短。由于業(yè)務(wù)的需要,企業(yè)經(jīng)常需要重寫與客戶行為及市場(chǎng)情況相關(guān)的關(guān)鍵歷史數(shù)據(jù)。而Teradata的時(shí)間感知時(shí)序功能有助于客戶跟蹤和捕捉與日俱增的業(yè)務(wù)歷史數(shù)據(jù)的更改記錄,從而握企業(yè)的完整業(yè)務(wù)情況。根據(jù)歷史數(shù)據(jù)的更改記錄而不僅是最新的更新內(nèi)容來分析數(shù)據(jù),可以真實(shí)、完整地再現(xiàn)任一特定時(shí)間的具體情況,使公司大幅減少實(shí)施昂貴的時(shí)間及定制報(bào)告,同時(shí)能夠深入地洞察數(shù)據(jù)。除了時(shí)序功能以外,該產(chǎn)品還提供了其他強(qiáng)大功能:高級(jí)且靈活的數(shù)據(jù)壓縮選項(xiàng),可保存多達(dá)20倍的數(shù)據(jù),還能針對(duì)特定數(shù)據(jù)類型靈活選用最佳壓縮機(jī)制。憑借這些優(yōu)勢(shì),企業(yè)能夠以經(jīng)濟(jì)的方式應(yīng)對(duì)不斷增長的對(duì)數(shù)據(jù)及大數(shù)據(jù)應(yīng)用程序的需求。Teradata開放式并行框架下的全新分析及擴(kuò)展功能可提高分析準(zhǔn)確性及應(yīng)用性能??蛻趄?qū)動(dòng)創(chuàng)新,例如將TeradataViewpoint設(shè)計(jì)為基于Web 的單一門戶,以管理 Teradata 系統(tǒng)、查詢以及工作負(fù)載。這些創(chuàng)新可為技術(shù)領(lǐng)先客戶提供支持,滿足其各種復(fù)雜的工作負(fù)載需求。ThirdNature總裁Mark Madsen 表示:“時(shí)序數(shù)據(jù)查詢是數(shù)據(jù)倉庫的一項(xiàng)重要?jiǎng)?chuàng)新功能,Teradata 時(shí)序功能及其可無中斷地添加到應(yīng)用程序的先進(jìn)性,使得該數(shù)據(jù)庫遙遙領(lǐng)先于同領(lǐng)域的競(jìng)爭(zhēng)對(duì)手?!眻D1-1 Teradata內(nèi)部并行處理機(jī)制圖1-2 Teradata在SMP結(jié)點(diǎn)內(nèi)的邏輯結(jié)構(gòu)從圖中可以看到,系統(tǒng)與外界的接口有以下兩種:網(wǎng)關(guān):所有支持TCP/IP協(xié)議的計(jì)算機(jī)可以通過網(wǎng)絡(luò)與Teradata相聯(lián),其交易請(qǐng)求和處理結(jié)果都是通過網(wǎng)關(guān)進(jìn)行交互的。通道:對(duì)于一些封閉主機(jī)系統(tǒng)(Mainframe),Teradata提供了一種通道(Channel)直聯(lián)的方式進(jìn)行信息的交互,即與主機(jī)的通道直接聯(lián)接,速度非???。交易請(qǐng)求通過網(wǎng)關(guān)或通道進(jìn)入系統(tǒng)后,將傳遞給分析引擎PE (Parsing Engine)。PE是由軟件實(shí)現(xiàn)的,是一種虛擬處理器(Virtual Processor),簡(jiǎn)稱為VPROC。PE主要由分析器(Parser)、優(yōu)化器(Optimizer)和調(diào)度器(Dispatcher)組成,分析器分解接收到的SQL交易請(qǐng)求,進(jìn)而由優(yōu)化器產(chǎn)生最優(yōu)的查詢方案,由調(diào)度器控制查詢的執(zhí)行過程。當(dāng)多個(gè)用戶同時(shí)訪問系統(tǒng)時(shí),Teradata能夠通過PE在各節(jié)點(diǎn)間自動(dòng)平衡負(fù)載,不需要數(shù)據(jù)庫管理員DBA或者系統(tǒng)管理員的干預(yù)。經(jīng)PE處理的交易請(qǐng)求通過一個(gè)高速的信息傳遞層傳至存取模塊單元AMP(Access Module Processor)。AMP也是一種虛擬處理器,它控制所有與數(shù)據(jù)庫有關(guān)的操作。每個(gè)AMP只負(fù)載磁盤陣列的一部分磁盤,數(shù)據(jù)的分配是利用HASH機(jī)制經(jīng)過AMP均勻分布到各磁盤上的,因此,數(shù)據(jù)庫中一個(gè)表的各條記錄可能分布在不同的磁盤上。這個(gè)過程完全自動(dòng)進(jìn)行,而對(duì)一般商用OLTP DBMS來說,這個(gè)過程主要是由DBA控制的。各個(gè)AMP并行處理,互不相關(guān),交易處理結(jié)果在信息傳遞層匯總后,直接返回給應(yīng)用程序,不需要在某個(gè)結(jié)點(diǎn)進(jìn)行進(jìn)一步的處理,因此不存在單個(gè)結(jié)點(diǎn)的瓶頸問題。每個(gè)節(jié)點(diǎn)中PE和AMP的數(shù)目可以由DBA進(jìn)行配置。從邏輯上來看,各PE和AMP具有自已獨(dú)用的內(nèi)存和CPU,是一種完全無共享結(jié)構(gòu)(Share Nothing Architecture)。3.Teradata的基本特點(diǎn)3.1數(shù)據(jù)自動(dòng)分配Teradata中只有一種基于HASH算法的數(shù)據(jù)分配機(jī)制,當(dāng)要插入一條記錄時(shí),根據(jù)主索引計(jì)算出相應(yīng)的AMP,該條記錄即通過此AMP存到其對(duì)應(yīng)的磁盤上。由于主索引值的不同,一個(gè)表的各條記錄將通過各AMP均勻地分布到各個(gè)磁盤上。分配過程完全自動(dòng)進(jìn)行,不需要DBA干預(yù),這一點(diǎn)和其它OLTP DBMS有很大的區(qū)別。Teradata的HASHING算法經(jīng)過長期的發(fā)展,已經(jīng)十分完善。它采用了一個(gè)類似矩陣的HASH MAP,將計(jì)算出來的HASH值通過此矩陣的映射與AMP進(jìn)行聯(lián)系。這樣,當(dāng)重新配置AMP數(shù)時(shí),只需要變動(dòng)HASH MAP,速度非???。對(duì)于OLTP系統(tǒng)而言,其查詢的特點(diǎn)是預(yù)先知道要回答什么樣的問題,因此,DBA會(huì)根據(jù)業(yè)務(wù)問題的特點(diǎn)把數(shù)據(jù)按照相應(yīng)的規(guī)律進(jìn)行分配,例如把數(shù)據(jù)按照時(shí)間的不同分配到不同的硬盤上。這種由DBA手工進(jìn)行的數(shù)據(jù)分配機(jī)制對(duì)OLTP系統(tǒng)而言是有意義的,也確實(shí)能提高系統(tǒng)性能。但對(duì)數(shù)據(jù)倉庫系統(tǒng)來說,其查詢往往比較復(fù)雜而且具有不確定性,不同的業(yè)務(wù)部門可能會(huì)提出各種不同的問題,如果再按照一種規(guī)律進(jìn)行數(shù)據(jù)的分配,則有可能對(duì)某些問題系統(tǒng)的響應(yīng)速度很快,而對(duì)另外一些問題的反應(yīng)則很慢。在Teradata數(shù)據(jù)庫中,通過選擇合適的主索引就可以保證數(shù)據(jù)在各磁盤上的自動(dòng)均勻分配,使得其并行處理性能得以充分的發(fā)揮,特別適合于數(shù)據(jù)倉庫環(huán)境下各種不確定的、動(dòng)態(tài)的業(yè)務(wù)問題。另一方面,所有記錄的插入、更新都按同樣的HASHING算法進(jìn)行,使得各磁盤上的數(shù)據(jù)總是混合存儲(chǔ)而且是均衡的,不存在“有序”或者“無序”的概念,因而也就不存在數(shù)據(jù)庫的重組問題(Reorganization)。對(duì)于傳統(tǒng)的OLTP RDBMS而言,投產(chǎn)運(yùn)行一段時(shí)間后系統(tǒng)性能常常因某種原因(如不斷追加記錄后造成數(shù)據(jù)存儲(chǔ)不平衡)下降,這時(shí)就要考慮對(duì)數(shù)據(jù)庫的重組。這是一項(xiàng)非常耗時(shí)而且需要經(jīng)驗(yàn)豐富DBA參與的工作。在Teradata中,由于不存在數(shù)據(jù)庫重組這類的工作,使得其管理十分簡(jiǎn)單。3.2強(qiáng)大的并行處理能力和復(fù)雜查詢處理能力Teradata最顯著的特色之一是其強(qiáng)大的并行處理能力,這也是為什么說它是數(shù)據(jù)倉庫專用引擎的主要原因之一。其實(shí)現(xiàn)方式被稱為多維并行處理機(jī)制,簡(jiǎn)單描述如下:查詢并行(Query并行):這種并行處理是基于上面介紹的HASHING數(shù)據(jù)分配機(jī)制實(shí)現(xiàn)的。每個(gè)AMP都是一個(gè)VPROC,各自獨(dú)立負(fù)責(zé)一部分?jǐn)?shù)據(jù)的處理,相互之間沒有關(guān)系,每個(gè)節(jié)點(diǎn)一般配置4至16個(gè)這樣的VPROC。所有關(guān)系運(yùn)算如表的搜索、索引檢索、投影、選擇、聯(lián)接、聚集、排序等都是由各個(gè)VPROC并行進(jìn)行的。步內(nèi)并行(Within-a-Step并行):一個(gè)SQL查詢進(jìn)入系統(tǒng)后,首先由優(yōu)化器進(jìn)行優(yōu)化處理,分解成一些小的步驟(Step),然后再分發(fā)給各VPROC進(jìn)行處理。一個(gè)步驟可能非常簡(jiǎn)單,如“搜索一個(gè)表并返回結(jié)果”,也可能非常復(fù)雜,如“按照某條件搜索兩個(gè)表,然后聯(lián)接,結(jié)果投影到某幾個(gè)列,對(duì)它們加和(SUM)后返回結(jié)果”。象這種復(fù)雜查詢將處理多個(gè)關(guān)系運(yùn)算,每個(gè)關(guān)系運(yùn)算在一個(gè)VPROC內(nèi)將啟動(dòng)多個(gè)進(jìn)程來實(shí)現(xiàn)并行處理,稱為步內(nèi)并行。除了上面描述的多維并行處理機(jī)制外,Teradata還作了進(jìn)一步的優(yōu)化和擴(kuò)展,使得處理復(fù)雜查詢時(shí)響應(yīng)速度進(jìn)一步加快。舉例來說,在多用戶環(huán)境下,一個(gè)部門中許多用戶的查詢常常是大同小異的,經(jīng)過優(yōu)化器分解后,它們具有一些相同的步驟,由于每個(gè)步驟的執(zhí)行結(jié)果會(huì)在一個(gè)系統(tǒng)緩沖區(qū)中暫存,相同的步驟往往只需要執(zhí)行一次即可。從而大大減少了磁盤I/O,提高了響應(yīng)速度。我們知道,對(duì)于OLTP系統(tǒng)來說,由于其查詢相對(duì)簡(jiǎn)單,依靠建立適當(dāng)?shù)乃饕湍鼙WC查詢的速度,從而對(duì)RDBMS并行處理的能力要求不高。但對(duì)于數(shù)據(jù)倉庫來說,它主要提供的是OLAP應(yīng)用,許多業(yè)務(wù)問題相當(dāng)復(fù)雜,如果依靠索引來提高查詢速度,將存在兩方面的問題:一是索引過多會(huì)占用太多的磁盤空間,增加系統(tǒng)的復(fù)雜性和管理成本。許多OLTP RDBMS用于數(shù)據(jù)倉庫時(shí),其磁盤使用率(Disk Ratio,指數(shù)據(jù)庫大小與真正的用戶數(shù)據(jù)的比例)在5以上,有時(shí)甚至高達(dá)10,原因就在于此。而基于Teradata建立的數(shù)據(jù)倉庫,磁盤使用率一般在1.5至3之間。二是建立一個(gè)索引意味著事先定義好一些與之相關(guān)的問題,當(dāng)提出其它問題時(shí)常常需要建立另外的索引。也就是說,索引只能解決那些預(yù)先定義好的問題,如一些業(yè)務(wù)報(bào)表等。而數(shù)據(jù)倉庫除了要產(chǎn)生大量的業(yè)務(wù)報(bào)表外,另一個(gè)主要的應(yīng)用就是回答那些不能預(yù)知的、動(dòng)態(tài)的業(yè)務(wù)查詢,我們稱這種動(dòng)態(tài)查詢?yōu)锳d-hoc查詢。你無法想象當(dāng)管理人員提出一個(gè)問題時(shí),DBA回答說:“對(duì)不起,我沒想到你會(huì)提這個(gè)問題,請(qǐng)稍等一些,我建個(gè)索引就可以了”。因此,RDBMS具有強(qiáng)大的并行處理能力是數(shù)據(jù)倉庫應(yīng)用成功與否的關(guān)鍵。Teradata從誕生之日開始,就是專門針對(duì)決策支持應(yīng)用而設(shè)計(jì)的,它的專長不在于OLTP,而在于數(shù)據(jù)的綜合分析和處理,其內(nèi)部的并行處理機(jī)制被設(shè)計(jì)得十分完善。目前全世界已有2000多個(gè)由Teradata驅(qū)動(dòng)的數(shù)據(jù)倉庫投入運(yùn)行,其中數(shù)據(jù)庫容量在1TB以上的就有二百五十余個(gè),是大型數(shù)據(jù)倉庫領(lǐng)域無可爭(zhēng)議的市場(chǎng)領(lǐng)導(dǎo)者。3.3線性可擴(kuò)展能力一般來說,當(dāng)數(shù)據(jù)倉庫投產(chǎn)以后,隨著應(yīng)用的增加,其數(shù)據(jù)量也增長得非???,因此,數(shù)據(jù)倉庫系統(tǒng)對(duì)擴(kuò)展性的要求很高??蓴U(kuò)展包含兩方面的含義,即硬件平臺(tái)的可擴(kuò)展和軟件平臺(tái)的可擴(kuò)展,兩者必須相互配合,相輔相成,任何一方存在瓶頸都會(huì)影響整個(gè)系統(tǒng)的擴(kuò)充能力。Teradata的操作系統(tǒng)是Microsoft Windows NT/2000或者是NCR UNIX,如果使用Windows,則可用使用任何支持Windows的服務(wù)器,如果使用NCR UNIX,則只能使用NCR的WorldMark系列MPP服務(wù)器。之所以存在這種限制的主要原因就在于擴(kuò)展能力上,因?yàn)槟壳癗CR的 WorldMark MPP服務(wù)器是業(yè)界擴(kuò)展能力最強(qiáng)的計(jì)算機(jī)系統(tǒng),它配合Teradata,形成了擴(kuò)展能力最強(qiáng)、并行處理能力最佳的數(shù)據(jù)倉庫基礎(chǔ)平臺(tái)??紤]一個(gè)系統(tǒng)的線性可擴(kuò)展能力,可以從以下三個(gè)方面來進(jìn)行評(píng)估: 數(shù)據(jù)量增長時(shí)的線性度:當(dāng)用戶數(shù)據(jù)量成倍增加時(shí),對(duì)于同一個(gè)系統(tǒng)(指硬件配置不變),響應(yīng)時(shí)間是按比例線性增加的; 硬件平臺(tái)的線性度:對(duì)于同一個(gè)查詢,當(dāng)硬件平臺(tái)的配置增加一倍時(shí),響應(yīng)時(shí)間應(yīng)減少一半; 并發(fā)用戶增加時(shí)的線性:對(duì)于同一個(gè)系統(tǒng),當(dāng)并發(fā)用戶的數(shù)目增加時(shí),響應(yīng)時(shí)間也按比例線性增加。對(duì)基于Teradata實(shí)施的數(shù)據(jù)倉庫系統(tǒng)的擴(kuò)充是很容易的,可以采用現(xiàn)場(chǎng)升級(jí)(Field Upgrade)方式。下圖舉例說明了將一個(gè)四節(jié)點(diǎn)的系統(tǒng)擴(kuò)充到六節(jié)點(diǎn)的情況,首先將新增加的兩個(gè)結(jié)點(diǎn)通過BYNET與原系統(tǒng)聯(lián)接,然后運(yùn)行Teradata提供的一個(gè)名叫RECONFIG的工具,它將自動(dòng)把原系統(tǒng)磁盤陣列中1/3的數(shù)據(jù)按照HASH算法均勻地分布到新節(jié)點(diǎn)所控制的磁盤中。這個(gè)過程完全自動(dòng)進(jìn)行,不需要DBA過多地干預(yù)。這個(gè)特性也是為什么說由Teradata組成的數(shù)據(jù)倉庫系統(tǒng)比較容易管理的原因之一。4.管理從前面的描述我們已經(jīng)看到,由于Teradata中許多工作如數(shù)據(jù)分配、負(fù)載管理、查詢優(yōu)化與調(diào)整、工作管理與自由空間的管理等都是自動(dòng)進(jìn)行的,沒有數(shù)據(jù)庫重組,可以進(jìn)行系統(tǒng)的在線升級(jí),等等。這些都說明Teradata DBA的工作相對(duì)比較容易,因此對(duì)同樣數(shù)據(jù)量的系統(tǒng),Teradata所需DBA的人數(shù)較少,系統(tǒng)的運(yùn)行費(fèi)用較低。下表是Teradata和一些傳統(tǒng)的OLTP RDBMS在各種數(shù)據(jù)庫管理任務(wù)上的簡(jiǎn)單比較:數(shù)據(jù)庫管理任務(wù)一些商用OLTP RDBMSTeradata邏輯數(shù)據(jù)建模高高物理數(shù)據(jù)建模高低數(shù)據(jù)分塊定義高低數(shù)據(jù)布局定義高自動(dòng)自由空間管理高低數(shù)據(jù)平衡控制高無數(shù)據(jù)重組高無索引重組高無工作空間管理高自動(dòng)查詢調(diào)整高自動(dòng)負(fù)載管理高自動(dòng)變換管理高低由于DBA的減少,運(yùn)行費(fèi)用將大大降低,使得系統(tǒng)的整體擁有成本大大降低。5.與NCR MPP Worldmark 海量并行處理服務(wù)器完美結(jié)合TeradataDatabase13.10是一個(gè)高性能分析引擎,能夠使該公司所有“專用”平臺(tái)系列如虎添翼:Teradata 動(dòng)態(tài)企業(yè)級(jí)數(shù)據(jù)倉庫平臺(tái) (Teradata Active Enterprise Data Warehouse)、數(shù)據(jù)倉庫專用平臺(tái) (Data Warehouse Appliance)、超級(jí)性能專用平臺(tái) (Extreme Performance Appliance)、巨量數(shù)據(jù)專用平臺(tái) (Extreme Data Appliance) 以及數(shù)據(jù)集市專用平臺(tái) (Data Mart Appliance)。除了 Teradata 專用平臺(tái)系列的上述五款產(chǎn)品之外,Teradata Database 13.10 還可作為只提供軟件的數(shù)據(jù)集市版以及 Teradata Express 版(適用于云計(jì)算解決方案)的核心引擎。作為其數(shù)據(jù)倉庫解決方案的一部分,Teradata與業(yè)界領(lǐng)先的軟件供應(yīng)商建立了廣泛的合作關(guān)系,共同為客戶提供支持服務(wù)。以下合作伙伴均已對(duì)Teradata13.10 進(jìn)行了測(cè)試并將為其提供技術(shù)支持:Ab Initio、Atanasoft、BEZ Systems, Inc.、BIS2、IBM:InfoSphere Information Server、InfoSphere Change Data Capture、InfoSphere Optim、InfoSphere Guardium、IBM Cognos Business Intelligence(已完成驗(yàn)證測(cè)試并將于最終版本發(fā)布后的 90 天內(nèi)提供支持)、Informatica、KXEN、MicroStrategy、OPNET Technologies, Inc.、Oracle:Oracle Business Intelligence Foundation Suite、Oracle Business Intelligence Enterprise Edition、Orac
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年工業(yè)環(huán)保項(xiàng)目規(guī)劃申請(qǐng)報(bào)告
- 2025年電子商務(wù)師(中級(jí))職業(yè)技能鑒定試卷:電子商務(wù)平臺(tái)數(shù)據(jù)分析與客戶價(jià)值評(píng)估試題
- 2025年車工(技師)綜合技能鑒定重點(diǎn)難點(diǎn)解析試卷
- 2025年消防安全培訓(xùn)考試案例分析:火災(zāi)現(xiàn)場(chǎng)勘查與調(diào)查試題
- 我的語文老師您的形象永存我心寫人類作文14篇
- 2025年消防執(zhí)業(yè)資格考試消防應(yīng)急通信保障通信設(shè)備操作規(guī)范試題庫
- 2025年P(guān)ETS四級(jí)英語試卷:口語實(shí)戰(zhàn)與詞匯積累提升試題
- 綜合出生與工作信息證明書(8篇)
- 工作微信號(hào)維護(hù)操作試題
- 財(cái)務(wù)會(huì)計(jì)準(zhǔn)則及實(shí)務(wù)操作模擬試題
- 肝動(dòng)脈化療栓塞術(shù)及護(hù)理
- 改革開放與新時(shí)代智慧樹知到期末考試答案2024年
- 教師如何促進(jìn)學(xué)生自主學(xué)習(xí)
- 心肌梗死護(hù)理教學(xué)查房
- 2024年部編版七年級(jí)下冊(cè)語文第一單元綜合檢測(cè)試卷及答案
- 攝影專業(yè)教學(xué)大綱
- 長沙市芙蓉區(qū)2023年四年級(jí)上學(xué)期《數(shù)學(xué)》期末真題和參考答案
- “四不傷害”安全生產(chǎn)理念培訓(xùn)課件
- 崗位之間工作銜接配合安全與職業(yè)衛(wèi)生事項(xiàng)課件
- 巖土工程勘察中鉆探工藝的選取
- 華為IPD流程管理
評(píng)論
0/150
提交評(píng)論