




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
“大數(shù)據(jù)”背景下的信息處理技術(shù)分析與研究
“大數(shù)據(jù)”是繼“云計算”之后,在信息科技領(lǐng)域出現(xiàn)的一個研究焦點。無處不在的傳感器和微處理器,形成了龐大的數(shù)據(jù)來源。科學研究領(lǐng)域,氣象數(shù)據(jù)、地理數(shù)據(jù)、生物信息數(shù)據(jù)等是傳統(tǒng)的海量數(shù)據(jù)集;制造業(yè)領(lǐng)域,很多機器上都安裝了一個或多個微處理器來采集生產(chǎn)數(shù)據(jù);商業(yè)消費領(lǐng)域,網(wǎng)上購買記錄、消費評價等等數(shù)據(jù)都成為大數(shù)據(jù)問題;各國政府的海量統(tǒng)計數(shù)據(jù)和文件也因計算機技術(shù)的發(fā)展而成為亟待分析處理的大數(shù)據(jù)問題。國際數(shù)據(jù)公司(IDC)的數(shù)字宇宙研究報告稱,2011年全球被創(chuàng)建和被復制的數(shù)據(jù)總量為1.8ZB,并預測到2020年,全球?qū)碛?5ZB的數(shù)據(jù)量??梢哉f,世界已經(jīng)進入到以數(shù)據(jù)為中心的時代——“大數(shù)據(jù)”時代。1關(guān)于“大數(shù)據(jù)”到目前為止,“大數(shù)據(jù)”還沒有一個統(tǒng)一的定義,信息處理領(lǐng)域的大企業(yè)和機構(gòu)都提出了“大數(shù)據(jù)”定義,總結(jié)起來,主要有以下幾個代表性定義:●麥肯錫在其報告中指出,“大數(shù)據(jù)”是指那些大小已經(jīng)超出了傳統(tǒng)意義上的尺度,常規(guī)的數(shù)據(jù)庫技術(shù)難以完成捕捉、存儲、管理和分析的數(shù)據(jù)集合[1]。●IBM把大數(shù)據(jù)概括成了3個V,即規(guī)模性(Volume)、多樣性(Variety)、高速性(Velocity)。規(guī)模性指大數(shù)據(jù)的規(guī)模很大,突破了PB級數(shù)據(jù)量;多樣性指大數(shù)據(jù)來源廣泛,包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如文本、傳感器數(shù)據(jù)、視頻、音頻、網(wǎng)絡日志等;高速性指大數(shù)據(jù)對數(shù)據(jù)實時處理能力要求極高[2]?!癜碋MC的界定,“大數(shù)據(jù)”其中的“大”是指大型數(shù)據(jù)集,一般在10TB規(guī)模左右;多用戶把多個數(shù)據(jù)集放在一起,形成PB級的數(shù)據(jù)量;同時這些數(shù)據(jù)來自多種數(shù)據(jù)源,以實時、迭代的方式來實現(xiàn)[3]。●在Forrester分析師布賴恩·霍普金斯(BrianHopkins)和鮑里斯·埃韋爾松(BorisEvelson)撰寫的《首席信息官,請用大數(shù)據(jù)擴展數(shù)字視野》報告中,他們提出大數(shù)據(jù)的4項典型特征——海量(Volume)、多樣性(Variety)、高速(Velocity)和易變性(Variability)[4]?!馡DC提出的“4V”原則,即容量、類型、速度和價值(Volume、Variety、Velocity和Value)??梢钥闯?,大數(shù)據(jù)必須同時具備海量(Volume)、多樣性(Variety)、高速(Velocity)等特征,才能稱為“大數(shù)據(jù)”。除此之外,數(shù)據(jù)的真實性(Veracity)在未來的大數(shù)據(jù)應用中會越來越重要[2]。同時,“大數(shù)據(jù)”不僅僅局限于符合上述特征的數(shù)據(jù)集合,還包括捕獲、存儲、管理和分析這些數(shù)據(jù)的技術(shù)。2Hadoop大數(shù)據(jù)技術(shù)涵蓋了硬軟件多個方面的技術(shù),目前各種技術(shù)基本都獨立存在于存儲、開發(fā)、平臺架構(gòu)、數(shù)據(jù)分析挖掘的各個相對獨立的領(lǐng)域。這一部分主要介紹和分析大數(shù)據(jù)處理的核心技術(shù)——Hadoop。2.1Hadoop的組成大數(shù)據(jù)不同于傳統(tǒng)類型的數(shù)據(jù),它可能由TB級甚至PB級信息組成,既包括結(jié)構(gòu)化數(shù)據(jù),也包括文本、多媒體等非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)類型缺乏一致性,使得標準存儲技術(shù)無法對大數(shù)據(jù)進行有效存儲,而且我們也難以使用傳統(tǒng)的服務器和SAN方法來有效地存儲和處理龐大的數(shù)據(jù)量。這些都決定了“大數(shù)據(jù)”需要不同的處理方法,而Hadoop目前正是廣泛應用的大數(shù)據(jù)處理技術(shù)。Hadoop是一個基于Java的分布式密集數(shù)據(jù)處理和數(shù)據(jù)分析的軟件框架。該框架在很大程度上受Google在2004年白皮書中闡述的MapReduce的技術(shù)啟發(fā)。Hadoop主要組件包含[5]:HadoopCommon:通用模塊,支持其他Hadoop模塊;HadoopDistributedFileSystem(HDFS):分布式文件系統(tǒng),用以提供高流量的應用數(shù)據(jù)訪問;HadoopYARN:支持工作調(diào)度和集群資源管理的框架;HadoopMapReduce:針對大數(shù)據(jù)的、靈活的并行數(shù)據(jù)處理框架。其他相關(guān)的模塊還有:ZooKeeper:高可靠性分布式協(xié)調(diào)系統(tǒng);Oozie:負責MapReduce作業(yè)調(diào)度;HBase:可擴展的分布式數(shù)據(jù)庫,可以將結(jié)構(gòu)性數(shù)據(jù)存儲為大表;Hive:構(gòu)建在MapRuduce之上的數(shù)據(jù)倉庫軟件包;Pig:架構(gòu)在Hadoop之上的高級數(shù)據(jù)處理層。圖1Hadoop框架組成模塊圖2HDFS框架節(jié)點在Hadoop框架中,最底層的HDFS存儲Hadoop集群中所有存儲節(jié)點上的文件。HDFS的架構(gòu)是基于一組特定的節(jié)點構(gòu)建的(見圖2),這些節(jié)點包括一個NameNode和大量的DataNode。存儲在HDFS中的文件被分成塊,然后將這些塊復制到多個計算機中(DataNode)。這與傳統(tǒng)的RAID架構(gòu)大不相同。塊的大小(通常為64MB)和復制的塊數(shù)量在創(chuàng)建文件時由客戶機決定。NameNode可以控制所有文件操作。HDFS內(nèi)部的所有通信都基于標準的TCP/IP協(xié)議。NameNode在HDFS內(nèi)部提供元數(shù)據(jù)服務,負責管理文件系統(tǒng)名稱空間和控制外部客戶機的訪問。它決定是否將文件映射到DataNode上的復制塊上。DataNode通常以機架的形式組織,機架通過一個交換機將所有系統(tǒng)連接起來。HadoopMapReduce是GoogleMapReduce的開源實現(xiàn)。MapReduce技術(shù)是一種簡潔的并行計算模型,它在系統(tǒng)層面解決了擴展性、容錯性等問題,通過接受用戶編寫的Map函數(shù)和Reduce函數(shù),自動地在可伸縮的大規(guī)模集群上并行執(zhí)行,從而可以處理和分析大規(guī)模的數(shù)據(jù)[6]。Hadoop提供了大量的接口和抽象類,從而為Hadoop應用程序開發(fā)人員提供許多工具,可用于調(diào)試和性能度量等。在Hadoop應用實例中,一個代表客戶機在單個主系統(tǒng)上啟動MapReduce的應用程序稱為JobTracker。類似于NameNode,它是Hadoop集群中唯一負責控制MapReduce應用程序的系統(tǒng)。在應用程序提交之后,將提供包含在HDFS中的輸入和輸出目錄。JobTracker使用文件塊信息(物理量和位置)確定如何創(chuàng)建其他TaskTracker從屬任務。MapReduce應用程序被復制到每個出現(xiàn)輸入文件塊的節(jié)點,將為特定節(jié)點上的每個文件塊創(chuàng)建一個唯一的從屬任務。每個TaskTracker將狀態(tài)和完成信息報告給JobTracker。圖3顯示一個示例集群中的工作分布。圖3HadoopMapReduce工作分布示例2.2Hadoop的優(yōu)點[7]Hadoop能夠使用戶輕松開發(fā)和運行處理大數(shù)據(jù)的應用程序。它主要有以下幾個優(yōu)點:(1)高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。(2)高擴展性。Hadoop是在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務的,這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。(3)高效性。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非??臁?4)高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務重新分配。Hadoop帶有用Java語言編寫的框架,因此運行在Linux生產(chǎn)平臺上是非常理想的。Hadoop上的應用程序也可以使用其他語言編寫,比如C++。2.3Hadoop的不足Hadoop作為一個處理大數(shù)據(jù)的軟件框架,雖然受到眾多商業(yè)公司的青睞,但是其自身的技術(shù)特點也決定了它不能完全解決大數(shù)據(jù)問題。在當前Hadoop的設計中,所有的metadata操作都要通過集中式的NameNode來進行,NameNode有可能是性能的瓶頸[8]。當前Hadoop單一NameNode、單一JobTracker的設計嚴重制約了整個Hadoop可擴展性和可靠性。首先,NameNode和JobTracker是整個系統(tǒng)中明顯的單點故障源。其次,單一NameNode的內(nèi)存容量有限,使得Hadoop集群的節(jié)點數(shù)量被限制到2000個左右,能支持的文件系統(tǒng)大小被限制在10PB-50PB,最多能支持的文件數(shù)量大約為1.5億件左右。實際上,有用戶抱怨其集群的NameNode重啟需要數(shù)小時,這大大降低了系統(tǒng)的可用性[9]。隨著Hadoop被廣泛使用,面對各式各樣的需求,人們期望Hadoop能提供更多特性,比如完全可讀寫的文件系統(tǒng)、Snapshot、Mirror等等。這些都是當前版本的Hadoop不支持,但是用戶又有強烈需求的。3主要商業(yè)性“大數(shù)據(jù)”處理方案“大數(shù)據(jù)”被科技企業(yè)看做是云計算之后的另一個巨大商機,包括IBM、谷歌、亞馬遜和微軟在內(nèi)的一大批知名企業(yè)紛紛掘金這一市場。此外,很多初創(chuàng)企業(yè)也開始加入到大數(shù)據(jù)的淘金隊伍中。Hadoop是非結(jié)構(gòu)數(shù)據(jù)庫的代表,低成本、高擴展性和靈活性等優(yōu)勢使其成為各種面向大數(shù)據(jù)處理分析的商業(yè)服務方案的首選。Oracle、IBM、Microsoft三大商業(yè)數(shù)據(jù)提供商是Hadoop的主要支持者。很多知名企業(yè)都以Hadoop技術(shù)為基礎(chǔ)提供自己的商業(yè)性大數(shù)據(jù)解決方案。這一部分主要介紹以Hadoop為基礎(chǔ)的典型商業(yè)性大數(shù)據(jù)解決方案。3.1IBMInfoSphere大數(shù)據(jù)分析平臺IBM于2011年5月推出的InfoSphere大數(shù)據(jù)分析平臺是一款定位為企業(yè)級的大數(shù)據(jù)分析產(chǎn)品。該產(chǎn)品包括BigInsights和Streams,二者互補,BigInsights基于Hadoop,對大規(guī)模的靜態(tài)數(shù)據(jù)進行分析,它提供多節(jié)點的分布式計算,可以隨時增加節(jié)點,提升數(shù)據(jù)處理能力。Streams采用內(nèi)存計算方式分析實時數(shù)據(jù)。它們將包括HadoopMapReduce在內(nèi)的開源技術(shù)緊密地與IBM系統(tǒng)集成起來。研究Hadoop這樣開源技術(shù)的人很多,但是IBM這次是真正將其變成了企業(yè)級的應用,針對不同的人員增加不同的價值[10]。InfoSphereBigInsights1.3的存儲和運算框架采用了開源的HadoopMapReduce,同時針對Hadoop框架進行了改造,采用了IBM特有的通用并行文件系統(tǒng)——GPFS。利用GPFS的目的是為了避免單點故障,保證可用性。BigInsights中還有兩個分析產(chǎn)品——Cognos和SPSS,這兩個分析產(chǎn)品在傳統(tǒng)功能上加強了文本分析的功能,提供了一系列文本分析工具,并使用高級語言進行自定義規(guī)則,如文本格式轉(zhuǎn)換等。目前BigInsights提供兩種版本,一種是企業(yè)版(EnterpriseEdition),用于企業(yè)級的大數(shù)據(jù)分析解決方案。另一種是基礎(chǔ)版(BasicEdition),去掉了企業(yè)版中的大部分功能,用戶可以免費下載,主要提供給開發(fā)人員和合作伙伴試用。Streams最大的特點就是內(nèi)存分析,利用多節(jié)點PC服務器的內(nèi)存來處理大批量的數(shù)據(jù)分析請求。Streams的特點就是“小快靈”,數(shù)據(jù)是實時流動的,其分析反應速度可以控制在毫秒級別,而BigInsights的分析是批處理,反應速度無法同Streams相比??傮w來說,二者的設計架構(gòu)不同,也用于處理不同的大數(shù)據(jù)分析需求,并可以形成良好的互補。InfoSphere平臺僅僅是IBM大數(shù)據(jù)解決方案中的一部分。IBM大數(shù)據(jù)平臺包括4大部分:信息整合與治理組件、基于開源ApacheHadoop的框架而實現(xiàn)的BigInsights平臺、加速器,以及包含可視化與發(fā)現(xiàn)、應用程序開發(fā)、系統(tǒng)管理的上層應用。通過IBM的解決方案可以看出,解決大數(shù)據(jù)問題不能僅僅依靠Hadoop。3.2OracleBigDataAppliance[11]OracleBigDataAppliance準確地說是一款硬件產(chǎn)品,添加了Hadoop裝載器、應用適配器以及Oracle新的NoSQL數(shù)據(jù)庫,主要目的是為了將非結(jié)構(gòu)化數(shù)據(jù)加載到關(guān)系型數(shù)據(jù)庫中去,并對軟硬件的集成做了一些優(yōu)化。OracleBigData機包括開源ApacheHadoop、OracleNoSQL數(shù)據(jù)庫、Oracle數(shù)據(jù)集成Hadoop應用適配器、OracleHadoop裝載器、OpenSourceDistributionofR、OracleLinux和OracleJavaHotSpot虛擬機。它能夠快速、便捷地與Oracle數(shù)據(jù)庫11g、OracleExadata數(shù)據(jù)庫云服務器和OracleExalytics商務智能云服務器集成。分析師和統(tǒng)計人員可以運行現(xiàn)有的R應用,并利用R客戶端直接處理存儲在Oracle數(shù)據(jù)庫11g中的數(shù)據(jù),從而極大地提高可擴展性、性能和安全性。3.3MicrosoftSQLServer[12]微軟已經(jīng)發(fā)布HadoopConnectorforSQLServerParallelDataWarehouse和HadoopConnectorforSQLServer社區(qū)技術(shù)預覽版本的連接器。該連接器是雙向的,用戶可以在Hadoop和微軟數(shù)據(jù)庫服務器之間向前或者向后遷移數(shù)據(jù)。微軟的SQLServer2012將并入Hadoop分布式計算平臺,微軟還將把Hadoop引入WindowsServer和Azure(微軟的云服務)。3.4SybaseIQSybaseIQ是Sybase公司推出的特別為數(shù)據(jù)倉庫設計的關(guān)系型數(shù)據(jù)庫,添加了Hadoop的集成,并提供了MapReduce的API。相比于傳統(tǒng)的“行式存儲”的關(guān)系型數(shù)據(jù)庫,SybaseIQ使用了獨特的列式存儲方式,在進行分析查詢時,僅需讀取查詢所需的列,其垂直分區(qū)策略不僅能夠支持大量的用戶、大規(guī)模數(shù)據(jù),還可以提交對商業(yè)信息的高速訪問,其速度可達到傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的百倍甚至千倍。4其他“大數(shù)據(jù)”解決方案“大數(shù)據(jù)”解決方案并非只有Hadoop一種,許多知名企業(yè)還提供了其他的解決方案。4.1EMCEMC提供了兩種大數(shù)據(jù)存儲方案,即Isilon和Atmos。Isilon能夠提供無限的橫向擴展能力,Atmos是一款云存儲基礎(chǔ)架構(gòu),在內(nèi)容服務方面,Atmos是很好的解決方案。在數(shù)據(jù)分析方面,EMC提供的解決方案是Greenplum,Greenplum有兩個產(chǎn)品,第一是GreenplumDatabase,GreenplumDatabase是大規(guī)模的并行成立的數(shù)據(jù)庫,它可以管理、存儲、分析PB量級的一些結(jié)構(gòu)性數(shù)據(jù),它下載的速度非常高,最高可以達到每小時10TB,速度非常驚人。這是EMC可以提供給企業(yè)、政府,用來分析海量的數(shù)據(jù)。但是GreenplumDatabase面對的是結(jié)構(gòu)化數(shù)據(jù)。很多數(shù)據(jù)超過90%是非結(jié)構(gòu)化數(shù)據(jù),EMC另外一個產(chǎn)品是GreenplumHD,GreenplumHD可以把非結(jié)構(gòu)化的數(shù)據(jù)或者是半結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),然后讓GreenplumDatabase去處理。4.2BigQueryBigQuery是Google推出的一項Web服務,用來在云端處理大數(shù)據(jù)。該服務讓開發(fā)者可以使用Google的架構(gòu)來運行SQL語句對超級大的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度新能源債權(quán)轉(zhuǎn)讓與項目合作合同
- 二零二五年度人工智能研發(fā)團隊勞動集體合同(人工智能應用)
- 教師教育教學質(zhì)量評估合作協(xié)議2025年度范本
- 2025年度高校畢業(yè)生就業(yè)見習基地協(xié)議
- 二零二五年度帶小孩保姆與兒童健康監(jiān)測協(xié)議
- 二零二五年度廠房租賃安全與環(huán)保技術(shù)合作協(xié)議
- 二零二五年度退股股權(quán)變更與收益分配協(xié)議
- 《物流系統(tǒng)分析》課件 項目七任務三 了解物流系統(tǒng)仿真技術(shù)與常用軟件
- 2025年山東駕校考試貨運從業(yè)資格證考試題庫
- 水電安裝工程簡單版的合同
- 十八項核心制度培訓課件
- 2024年遠程教育行業(yè)市場運營現(xiàn)狀及行業(yè)發(fā)展趨勢報告
- 2025年2月上海市高三聯(lián)考高考調(diào)研英語試題(答案詳解)
- 三好學生競選12
- 2024-2025學年六年級上學期數(shù)學第三單元3.1-搭積木比賽(教案)
- DeepSeek從入門到精通
- 植保機械技術(shù)培訓課件
- 人工智能賦能職業(yè)教育高質(zhì)量發(fā)展研究
- 2024年水利工程建設行業(yè)市場發(fā)展監(jiān)測及投資潛力預測報告
- 崗位職責心得體會(2篇)
- 高中地理興趣小組活動方案
評論
0/150
提交評論