![大數(shù)據(jù)一些基礎(chǔ)概念_第1頁](http://file4.renrendoc.com/view/9d9c9965643eb94912bb06dd67b08bc6/9d9c9965643eb94912bb06dd67b08bc61.gif)
![大數(shù)據(jù)一些基礎(chǔ)概念_第2頁](http://file4.renrendoc.com/view/9d9c9965643eb94912bb06dd67b08bc6/9d9c9965643eb94912bb06dd67b08bc62.gif)
![大數(shù)據(jù)一些基礎(chǔ)概念_第3頁](http://file4.renrendoc.com/view/9d9c9965643eb94912bb06dd67b08bc6/9d9c9965643eb94912bb06dd67b08bc63.gif)
![大數(shù)據(jù)一些基礎(chǔ)概念_第4頁](http://file4.renrendoc.com/view/9d9c9965643eb94912bb06dd67b08bc6/9d9c9965643eb94912bb06dd67b08bc64.gif)
![大數(shù)據(jù)一些基礎(chǔ)概念_第5頁](http://file4.renrendoc.com/view/9d9c9965643eb94912bb06dd67b08bc6/9d9c9965643eb94912bb06dd67b08bc65.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
一、大數(shù)據(jù)
1、什么是大數(shù)據(jù)?
大數(shù)據(jù)(Bigdata或Megadata):大數(shù)據(jù),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間達到截取、管理、處理、并整理成為人類所能解讀的形式的信息。
2、大數(shù)據(jù)特點
①Volume:數(shù)據(jù)量大,包括采集、存儲和計算的量都非常大。大數(shù)據(jù)的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。
②Variety:種類和來源多樣化。包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),具體表現(xiàn)為網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等,多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的要求。
③Value:數(shù)據(jù)價值密度相對較低,或者說是浪里淘沙卻又彌足珍貴。隨著互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無處不在,信息海量,但價值密度較低,如何結(jié)合業(yè)務(wù)邏輯并通過強大的機器算法來挖掘數(shù)據(jù)價值,是大數(shù)據(jù)時代最需要解決的問題。
④Velocity:數(shù)據(jù)增長速度快,處理速度也快,時效性要求高。比如搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到,個性化推薦算法盡可能要求實時完成推薦。這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的顯著特征。
⑤Veracity:數(shù)據(jù)的準確性和可信賴度,即數(shù)據(jù)的質(zhì)量。二、數(shù)據(jù)倉庫
1、什么是數(shù)據(jù)倉庫?
在計算中,數(shù)據(jù)倉庫(DW或DWH)也稱為企業(yè)數(shù)據(jù)倉庫(EDW),是用于報告和數(shù)據(jù)分析的系統(tǒng),被視為商業(yè)智能的核心組件。DWs從一個或多個不同源的綜合數(shù)據(jù)的中央儲存庫。他們將當(dāng)前和歷史數(shù)據(jù)存儲在一個地方,用于為整個企業(yè)的工作人員創(chuàng)建分析報告。
2、數(shù)據(jù)倉庫兩種操作方式的特點
①在線分析處理(OLAP)的特點是交易量相對較低。查詢往往非常復(fù)雜,涉及到聚合。對于OLAP系統(tǒng),響應(yīng)時間是一種有效性度量。數(shù)據(jù)挖掘技術(shù)廣泛使用OLAP應(yīng)用程序。OLAP數(shù)據(jù)庫以多維模式(通常為星型模式)存儲匯總的歷史數(shù)據(jù)。與數(shù)據(jù)集市相比,OLAP系統(tǒng)通常具有數(shù)小時的數(shù)據(jù)延遲,而數(shù)據(jù)集市預(yù)計延遲將接近一天。OLAP方法用于分析來自多個來源和視角的多維數(shù)據(jù)。OLAP中的三個基本操作是:總結(jié)(合并),鉆取和切片和切塊。
②聯(lián)機事務(wù)處理(OLTP)的特點是大量短暫的在線事務(wù)(INSERT,UPDATE,DELETE)。OLTP系統(tǒng)強調(diào)非常快速的查詢處理并保持多訪問環(huán)境中的數(shù)據(jù)完整性。對于OLTP系統(tǒng),有效性以每秒交易次數(shù)來衡量。OLTP數(shù)據(jù)庫包含詳細和當(dāng)前的數(shù)據(jù)。用于存儲事務(wù)數(shù)據(jù)庫的模式是實體模型(通常是3NF)。規(guī)范化是對在該系統(tǒng)中數(shù)據(jù)建模技術(shù)的規(guī)范。三、ETL與DM的區(qū)別
ETL/Extraction-Transformation-Loading——用于完成DB到DW的數(shù)據(jù)轉(zhuǎn)存,它將DB中的某一個時間點的狀態(tài),“抽取”出來,根據(jù)DW的存儲模型要求,“轉(zhuǎn)換”一下數(shù)據(jù)格式,然后再“加載”到DW的一個過程,這里需要強調(diào)的是,DB的模型是ER模型,遵從范式化設(shè)計原則,而DW的數(shù)據(jù)模型是雪花型結(jié)構(gòu)或者星型結(jié)構(gòu),用的是面向主題,面向問題的設(shè)計思路,所以DB和DW的模型結(jié)構(gòu)不同,需要進行轉(zhuǎn)換。
DM/DataMining/數(shù)據(jù)挖掘——這個挖掘,不是簡單的統(tǒng)計了,他是根據(jù)概率論的或者其他的統(tǒng)計學(xué)原理,將DW中的大數(shù)據(jù)量進行分析,找出我們不能直觀發(fā)現(xiàn)的規(guī)律。四、Hadoop1、什么是Hadoop?
維基百科上面,Hadoop的定義是:一個用java語言編寫的便于大型數(shù)據(jù)集合的分布式儲存和計算的軟件框架。簡單來說,這是計算機領(lǐng)域的一個開源軟件,任何程序開發(fā)者都可以看到它的源代碼,并且進行編譯。它的出現(xiàn)讓大數(shù)據(jù)的儲存和處理一下子變的快了很多,也便宜了很多。2、Hadoop特點是什么?
①高效率(Efficient):分布式云計算,采用標準x86架構(gòu)服務(wù)器大規(guī)模集群實現(xiàn),每個模塊都是一個離散的處理單元,使用并行計算技術(shù),及群內(nèi)各計算節(jié)點負載均衡,當(dāng)某節(jié)點負荷過高時,可智能的將負荷轉(zhuǎn)移到其他節(jié)點,并支持節(jié)點線性平滑擴展;分布式云存儲,采用x86服務(wù)器的本地硬盤實現(xiàn),使用分布式文件系統(tǒng),每份數(shù)據(jù)至少保存在3個節(jié)點,保證存儲設(shè)計的性能和可靠性目標。
②可靠性(Reliable):能搞自身的維護數(shù)據(jù)的多個成本,并且在任務(wù)失敗是自動的重新部署計算任務(wù)
③可擴容性(Scalable):能可靠的儲存和處理PB級的數(shù)據(jù)
④成本低(Economical):可以通過普通機器組成的服務(wù)器群來分發(fā)以及處理數(shù)據(jù)。這些服務(wù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年壬二酸合作協(xié)議書
- 2025年汽車減震元件合作協(xié)議書
- 2025年種植施肥機械合作協(xié)議書
- 2025年非熱殺菌先進設(shè)備合作協(xié)議書
- 人教版 八年級英語下冊 Unit 1 單元綜合測試卷(2025年春)
- 2025年產(chǎn)品來料加工協(xié)議(三篇)
- 2025年個人投資理財委托協(xié)議簡單版(2篇)
- 2025年二灰拌合場地租賃協(xié)議范文(2篇)
- 2025年九年級化學(xué)實驗室工作總結(jié)模版(二篇)
- 2025年產(chǎn)品外觀專用協(xié)議標準版本(2篇)
- 醫(yī)院消防安全培訓(xùn)課件
- 質(zhì)保管理制度
- 《00541語言學(xué)概論》自考復(fù)習(xí)題庫(含答案)
- 2025年機關(guān)工會個人工作計劃
- 2024年全國卷新課標1高考英語試題及答案
- 華為經(jīng)營管理-華為激勵機制(6版)
- 江蘇省南京市、鹽城市2023-2024學(xué)年高三上學(xué)期期末調(diào)研測試+英語+ 含答案
- 2024護理不良事件分析
- 光伏項目的投資估算設(shè)計概算以及財務(wù)評價介紹
- 2024新版《藥品管理法》培訓(xùn)課件
- 干燥綜合征診斷及治療指南
評論
0/150
提交評論