版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)Bigdata大數(shù)據(jù)(bigdata),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。(在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)的方法)大數(shù)據(jù)的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、veracity(真實性)。大數(shù)據(jù)“大數(shù)據(jù)”作為時下最火熱的IT行業(yè)的詞匯,隨之而來的數(shù)據(jù)倉庫、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等等圍繞大數(shù)據(jù)的商業(yè)價值的利用逐漸成為行業(yè)人士爭相追捧的利潤焦點。對于“大數(shù)據(jù)”(Bigdata)研究機構(gòu)Gartner給出了這樣的定義。“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。“大數(shù)據(jù)”這個術(shù)語最早期的引用可追溯到apacheorg的開源項目Nutch。當時,大數(shù)據(jù)用來描述為更新網(wǎng)絡搜索索引需要同時進行批量處理或分析的大量數(shù)據(jù)集。隨著谷歌MapReduce和GoogleFileSystem(GFS)的發(fā)布,大數(shù)據(jù)不再僅用來描述大量的數(shù)據(jù),還涵蓋了處理數(shù)據(jù)的速度。大數(shù)據(jù)大數(shù)據(jù)早在1980年,著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。不過,大約從2009年開始,“163大數(shù)據(jù)”才成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯。美國互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。此外,數(shù)據(jù)又并非單純指人們在互聯(lián)網(wǎng)上發(fā)布的信息,全世界的工業(yè)設(shè)備、汽車、電表上有著無數(shù)的數(shù)碼傳感器,隨時測量和傳遞著有關(guān)位置、運動、震動、溫度、濕度乃至空氣中化學物質(zhì)的變化,也產(chǎn)生了海量的數(shù)據(jù)信息。大數(shù)據(jù)大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘(SaaS),但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫(PaaS)和云存儲、虛擬化技術(shù)(IaaS)。大數(shù)據(jù)原理隨著云時代的來臨,大數(shù)據(jù)(Bigdata)也吸引了越來越多的關(guān)注?!吨婆_》的分析師團隊認為,大數(shù)據(jù)(Bigdata)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過時間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘電網(wǎng)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。大數(shù)據(jù)原理最小的基本單位是Byte,,
它們按照進率1024(2的十次方)來計算:
1Byte=8bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes
1GB=1,024MB=1,048,576KB1TB=1,024GB=1,048,576MB1PB=1,024TB=1,048,576GB1EB=1,024PB=1,048,576TB1ZB=1,024EB=1,048,576PB1YB=1,024ZB=1,048,576EB1BB=1,024YB=1,048,576ZB1NB=1,024BB=1,048,576YB1DB=1,024NB=1,048,576BB大數(shù)據(jù)原理大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學和大數(shù)據(jù)應用等領(lǐng)域。目前人們談論最多的是大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應用。工程和科學問題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設(shè)運營管理的系統(tǒng)工程;大數(shù)據(jù)科學關(guān)注大數(shù)據(jù)網(wǎng)絡發(fā)展和運營過程中發(fā)現(xiàn)和驗證大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關(guān)系。物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。有些例子包括網(wǎng)絡日志,RFID,傳感器網(wǎng)絡,社會網(wǎng)絡,社會數(shù)據(jù)(由于數(shù)據(jù)革命的社會),互聯(lián)網(wǎng)文本和文件;互聯(lián)網(wǎng)搜索索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他復雜和/或跨學科的科研,軍事偵察,醫(yī)療記錄;攝影檔案館視頻檔案;和大規(guī)模的電子商務。大數(shù)據(jù)用途簡而言之,企業(yè)可以通過思考數(shù)據(jù)戰(zhàn)略的總體回報,來應對大數(shù)據(jù)的挑戰(zhàn),抓住大數(shù)據(jù)的機會。Informatica所指的‘數(shù)據(jù)回報率’,是為幫助高級IT和業(yè)務部門領(lǐng)導者進行大數(shù)據(jù)基本的戰(zhàn)術(shù)和戰(zhàn)略含義的討論而設(shè)計的一個簡單概念。等式非常簡單:如果您提高數(shù)據(jù)對于業(yè)務部門的價值,同時降低管理數(shù)據(jù)的成本,從數(shù)據(jù)得到的回報就會增加--無論是用金錢衡量,還是更好的決策數(shù)據(jù)回報率=數(shù)據(jù)價值/數(shù)據(jù)成本在技術(shù)層面,數(shù)據(jù)回報率為數(shù)據(jù)集成、數(shù)據(jù)管理、商業(yè)智能和分析方面的投入提供了業(yè)務背景和案例。它還與解決業(yè)務的基礎(chǔ)有關(guān):掙錢、省錢、創(chuàng)造機會和管理風險。它涉及對效率的考慮,同時推動了改變游戲規(guī)則的洞察力。大數(shù)據(jù)數(shù)據(jù)回報容量問題這里所說的“大容量”通??蛇_到PB級的數(shù)據(jù)規(guī)模,因此,海量數(shù)據(jù)存儲系統(tǒng)也一定要有相應等級的擴展能力。與此同時,存儲系統(tǒng)的擴展一定要簡便,可以通過增加模塊或磁盤柜來增加容量,甚至不需要停機。在解決容量問題上,不得不提LSI公司的全新Nytro?智能化閃存解決方案,采用Nytro產(chǎn)品,客戶可以將數(shù)據(jù)庫事務處理性能提高30倍,并且超過每秒4.0GB1的持續(xù)吞吐能力,非常適用于大數(shù)據(jù)分析。延遲問題“大數(shù)據(jù)”應用還存在實時性的問題。特別是涉及到與網(wǎng)上交易或者金融類相關(guān)的應用。有很多“大數(shù)據(jù)”應用環(huán)境需要較高的IOPS性能,比如HPC高性能計算。此外,服務器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統(tǒng)IT環(huán)境一樣。為了迎接這些挑戰(zhàn),各種模式的固態(tài)存儲設(shè)備應運而生,小到簡單的在服務器內(nèi)部做高速緩存,大到全固態(tài)介質(zhì)可擴展存儲系統(tǒng)通過高性能閃存存儲,自動、智能地對熱點數(shù)據(jù)進行讀/寫高速緩存的LSINytro系列產(chǎn)品等等都在蓬勃發(fā)展。大數(shù)據(jù)相關(guān)問題安全問題某些特殊行業(yè)的應用,比如金融數(shù)據(jù)、醫(yī)療信息以及政府情報等都有自己的安全標準和保密性需求。雖然對于IT管理者來說這些并沒有什么不同,而且都是必須遵從的,但是,大數(shù)據(jù)分析往往需要多類數(shù)據(jù)相互參考,而在過去并不會有這種數(shù)據(jù)混合訪問的情況,大數(shù)據(jù)應用催生出一些新的、需要考慮的安全性問題,這就充分體現(xiàn)出利用基于DuraClass?技術(shù)的LSISandForce®閃存處理器的優(yōu)勢了,實現(xiàn)了企業(yè)級閃存性能和可靠性,實現(xiàn)簡單、透明的應用加速,既安全又方便。大數(shù)據(jù)相關(guān)問題成本問題對于那些正在使用大數(shù)據(jù)環(huán)境的企業(yè)來說,成本控制是關(guān)鍵的問題。想控制成本,就意味著我們要讓每一臺設(shè)備都實現(xiàn)更高的“效率”,同時還要減少那些昂貴的部件。重復數(shù)據(jù)刪除等技術(shù)已經(jīng)進入到主存儲市場,而且還可以處理更多的數(shù)據(jù)類型,這都可以為大數(shù)據(jù)存儲應用帶來更多的價值,提升存儲效率。在數(shù)據(jù)量不斷增長的環(huán)境中,通過減少后端存儲的消耗,哪怕只是降低幾個百分點,這種錙銖必較的服務器也只有LSI推出的Syncro?MX-B機架服務器啟動盤設(shè)備都能夠獲得明顯的投資回報,當今,數(shù)據(jù)中心使用的傳統(tǒng)引導驅(qū)動器不僅故障率高,而且具有較高的維修和更換成本。如果用它替換數(shù)據(jù)中心的獨立服務器引導驅(qū)動器,則能將可靠性提升多達100倍。并且對主機系統(tǒng)是透明的,能為每一個附加服務器提供唯一的引導鏡像,可簡化系統(tǒng)管理,提升可靠性,并且節(jié)電率高達60%,真正做到了節(jié)省成本的問題。大數(shù)據(jù)相關(guān)問題數(shù)據(jù)的積累許多大數(shù)據(jù)應用都會涉及到法規(guī)遵從問題,這些法規(guī)通常要求數(shù)據(jù)要保存幾年或者幾十年。比如醫(yī)療信息通常是為了保證患者的生命安全,而財務信息通常要保存7年。而有些使用大數(shù)據(jù)存儲的用戶卻希望數(shù)據(jù)能夠保存更長的時間,因為任何數(shù)據(jù)都是歷史記錄的一部分,而且數(shù)據(jù)的分析大都是基于時間段進行的。要實現(xiàn)長期的數(shù)據(jù)保存,就要求存儲廠商開發(fā)出能夠持續(xù)進行數(shù)據(jù)一致性檢測的功能以及其他保證長期高可用的特性。同時還要實現(xiàn)數(shù)據(jù)直接在原位更新的功能需求。靈活性大數(shù)據(jù)存儲系統(tǒng)的基礎(chǔ)設(shè)施規(guī)模通常都很大,因此必須經(jīng)過仔細設(shè)計,才能保證存儲系統(tǒng)的靈活性,使其能夠隨著應用分析軟件一起擴容及擴展。在大數(shù)據(jù)存儲環(huán)境中,已經(jīng)沒有必要再做數(shù)據(jù)遷移了,因為數(shù)據(jù)會同時保存在多個部署站點。一個大型的數(shù)據(jù)存儲基礎(chǔ)設(shè)施一旦開始投入使用,就很難再調(diào)整了,因此它必須能夠適應各種不同的應用類型和數(shù)據(jù)場景。大數(shù)據(jù)相關(guān)問題應用感知最早一批使用大數(shù)據(jù)的用戶已經(jīng)開發(fā)出了一些針對應用的定制的基礎(chǔ)設(shè)施,比如針對政府項目開發(fā)的系統(tǒng),還有大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 五年級上冊第五單元綜合性學習課件
- 2025年廣州貨運從業(yè)資格證模擬考試試題
- 2025年陜西從業(yè)資格貨運資格考試題庫及答案
- 2025年南寧年貨運資格證考試題
- 2025年十堰貨運從業(yè)資格證模擬考試題庫下載
- 2024實習協(xié)議書:房地產(chǎn)企業(yè)實習生就業(yè)合同2篇
- 2024年標準裝飾材料銷售協(xié)議樣本版
- 2024全新汽修廠員工培訓與職業(yè)晉升服務全面合作協(xié)議書3篇
- 2024年城市綠地樹木采購及病蟲害防治服務合同范本2篇
- 2024年標準版房屋面積誤差補充協(xié)議模板版B版
- 【MOOC】金融風險管理-中央財經(jīng)大學 中國大學慕課MOOC答案
- 2025年1月“八省聯(lián)考”考前猜想卷英語試題02 含解析
- 【MOOC】數(shù)字電子技術(shù)基礎(chǔ)-東北大學 中國大學慕課MOOC答案
- 壓力性損傷的治療
- 中國常規(guī)肺功能檢查基層指南(2024年)要點解讀
- 中小學生冬季安全教育課件考核試卷
- 中國兒童維生素A、維生素D臨床應用專家共識
- 四川省內(nèi)江市2024-2025學年高一上學期期中考試數(shù)學試題(含答案)
- 潤致娃娃針課件
- 2023-2024學年全國初中九年級上英語人教版期末考試試卷(含答案解析)
- 責任護理組長競選
評論
0/150
提交評論