




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第1章大數(shù)據(jù)技術(shù)概述目
錄1大數(shù)據(jù)概念大數(shù)據(jù)關(guān)鍵技術(shù)大數(shù)據(jù)軟件23認(rèn)識(shí)大數(shù)據(jù)從20世紀(jì)開始,政府以及電商、醫(yī)療、金融等各行各業(yè)的信息化迅速發(fā)展,結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)也在快速增長,數(shù)據(jù)量的暴增使得傳統(tǒng)的數(shù)據(jù)庫已經(jīng)很難存儲(chǔ)、管理、查詢和分析這些數(shù)據(jù)。如何實(shí)現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化的PB級(jí),ZB級(jí)等海量數(shù)據(jù)的存儲(chǔ),如何挖掘出這些海量數(shù)據(jù)隱藏的商業(yè)價(jià)值,已成為兩大挑戰(zhàn)。為解決這兩大挑戰(zhàn),大數(shù)據(jù)技術(shù)應(yīng)運(yùn)而生,并成功解決這兩大挑戰(zhàn)。大數(shù)據(jù)的時(shí)代已經(jīng)到來。1.1.1大數(shù)據(jù)概念1、大數(shù)據(jù)的定義大數(shù)據(jù)(bigdata),指無法在一定時(shí)間范圍內(nèi)使用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。2、大數(shù)據(jù)的特征目前普遍使用5V特征來具體描述大數(shù)據(jù),如圖1-1所示。大數(shù)據(jù)的5V特征(1)數(shù)據(jù)量大(Volume)大數(shù)據(jù)的第一個(gè)特征就是數(shù)據(jù)量巨大,包括采集、存儲(chǔ)和計(jì)算的量都非常大。大數(shù)據(jù)的起始計(jì)量單位至少是PB,也可以采用更大的單位EB或者ZB。相關(guān)信息單位的換算關(guān)系如下:1Byte=8bit,1KB=1024Bytes,1MB=1024KB1GB=1024MB,1TB=1024GB,1PB=1024TB1EB=1024PB,1ZB=1024EB,1YB=1024ZB1BB=1024YB大數(shù)據(jù)的5V特征(2)數(shù)據(jù)類型種類繁多(Variety)大數(shù)據(jù)的第二個(gè)特征是數(shù)據(jù)類型種類和來源多樣化。數(shù)據(jù)可以是結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的,具體表現(xiàn)為網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等。類型多樣化的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高的要求。大數(shù)據(jù)的5V特征(3)數(shù)據(jù)價(jià)值密度低(Value)大數(shù)據(jù)的第三個(gè)特征是數(shù)據(jù)價(jià)值密度相對(duì)較低,或者說是浪里淘沙卻又彌足珍貴。隨著互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無處不在,信息海量,但價(jià)值密度較低,如何結(jié)合業(yè)務(wù)邏輯并通過強(qiáng)大的機(jī)器學(xué)習(xí)算法來挖掘數(shù)據(jù)價(jià)值,是大數(shù)據(jù)時(shí)代最需要解決的問題。大數(shù)據(jù)的5V特征(4)速度快時(shí)效高(Velocity)大數(shù)據(jù)的第四個(gè)特征是數(shù)據(jù)增長速度快,處理速度也快,時(shí)效性要求高。比如搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到,個(gè)性化推薦算法盡可能要求實(shí)時(shí)完成推薦。這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的顯著特征。大數(shù)據(jù)的5V特征(5)真實(shí)性(Veracity)該特征主要體現(xiàn)了數(shù)據(jù)的質(zhì)量。3、大數(shù)據(jù)在各行各業(yè)的典型應(yīng)用目前,大數(shù)據(jù)無處不在,應(yīng)用于各個(gè)行業(yè),金融、政務(wù)、汽車、餐飲、電信、能源、生物醫(yī)學(xué)、電子商務(wù)、教育、制造等各行各業(yè)都融入了大數(shù)據(jù)的印跡。并且,大數(shù)據(jù)與實(shí)體經(jīng)濟(jì)不斷融合發(fā)展,融合深度也在不斷增強(qiáng)。1.1.2大數(shù)據(jù)關(guān)鍵技術(shù)大數(shù)據(jù)處理的關(guān)鍵技術(shù)主要包括:數(shù)據(jù)采集和預(yù)處理、數(shù)據(jù)存儲(chǔ)和管理、數(shù)據(jù)分析和挖掘、數(shù)據(jù)可視化和數(shù)據(jù)安全及隱私保護(hù)。利用大數(shù)據(jù)技術(shù)對(duì)數(shù)據(jù)處理流程如圖1-2所示。1、數(shù)據(jù)采集和預(yù)處理目前,數(shù)據(jù)采集經(jīng)常通過傳感器、射頻識(shí)別技術(shù)、交互型社交網(wǎng)絡(luò)及移動(dòng)互聯(lián)網(wǎng)等途徑獲取數(shù)據(jù)。大數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層和基礎(chǔ)支撐層。智能感知層主要包括數(shù)據(jù)傳感體系、傳感適配體系、網(wǎng)絡(luò)通信體系、智能識(shí)別體系等軟硬件資源,可以實(shí)現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的智能化識(shí)別、定位、跟蹤、介入、傳輸、信號(hào)轉(zhuǎn)換、監(jiān)控、初步處理和管理等?;A(chǔ)支撐層主要提供大數(shù)據(jù)服務(wù)平臺(tái)所需的虛擬服務(wù)器,結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫及物聯(lián)網(wǎng)資源等基礎(chǔ)支撐環(huán)境。1、數(shù)據(jù)采集和預(yù)處理數(shù)據(jù)預(yù)處理是利用ETL(
Extract-Transform-Load)工具將分布的、異構(gòu)的數(shù)據(jù)源的數(shù)據(jù)抽取到臨時(shí)中間層后進(jìn)行數(shù)據(jù)清洗和轉(zhuǎn)換,最后加載到數(shù)據(jù)集市或者數(shù)據(jù)倉庫中,成為聯(lián)機(jī)分析處理(OLAP)和數(shù)據(jù)挖掘(DATAMINING)的數(shù)據(jù)基礎(chǔ);也可以利用日志采集工具(如Flume、Kafka等)把實(shí)時(shí)采集的數(shù)據(jù)作為流計(jì)算系統(tǒng)的輸入,進(jìn)行實(shí)時(shí)處理分析。2、數(shù)據(jù)存儲(chǔ)和管理數(shù)據(jù)的存儲(chǔ)和管理主要是利用分布式文件系統(tǒng)、數(shù)據(jù)倉庫、關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、云數(shù)據(jù)庫等,實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲(chǔ)。3、數(shù)據(jù)分析和挖掘數(shù)據(jù)分析指利用相關(guān)數(shù)學(xué)模型及機(jī)器學(xué)習(xí)算法對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析和預(yù)測。數(shù)據(jù)挖掘是指利用人工智能、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)等多學(xué)科方法從大量的、不完全的,有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)集中提取隱含在其中有價(jià)值的信息或模式的計(jì)算過程。大數(shù)據(jù)的分析和挖掘主要是利用分布式并行編程模型和計(jì)算框架,結(jié)合機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的分析挖掘處理。4、數(shù)據(jù)可視化數(shù)據(jù)可視化主要是對(duì)分析后的結(jié)果進(jìn)行可視化的呈現(xiàn),更好地幫助人們理解數(shù)據(jù),分析數(shù)據(jù)。數(shù)據(jù)可視化有時(shí)也被視為數(shù)據(jù)分析的一種,即可視化分析。5、數(shù)據(jù)安全及隱私保護(hù)從大數(shù)據(jù)中挖掘潛在巨大商業(yè)價(jià)值的同時(shí),還需要構(gòu)建隱私數(shù)據(jù)保護(hù)體系和數(shù)據(jù)安全體系,用來有效保護(hù)個(gè)人隱私和數(shù)據(jù)安全。1.1.3大數(shù)據(jù)軟件根據(jù)大數(shù)據(jù)處理流程中數(shù)據(jù)采集和預(yù)處理、數(shù)據(jù)存儲(chǔ)和管理、數(shù)據(jù)分析和挖掘、數(shù)據(jù)可視化等各階段的任務(wù),下表1-1列出了每個(gè)環(huán)節(jié)使用到的常用軟件。表1-1常用大數(shù)據(jù)軟件大數(shù)據(jù)技術(shù)大數(shù)據(jù)常用軟件數(shù)據(jù)采集Kafka,Sqoop,Klume數(shù)據(jù)存儲(chǔ)和管理HDFS,Hbase,Redis,MongoDB,Hive數(shù)據(jù)分析和挖掘Mapreduce,Spark,Python,Mahout數(shù)據(jù)可視化ECharts,D3,Tableau軟件軟件安裝包清單Ubuntuubuntukylin-16.04.1-desktop-amd64.isoHadoophadoop-3.1.1.tar.gzjdkjdk-8u181-linux-x64.tar.gzHBasehbase-1.2.6.1-bin.tar.gzRedisredis-5.0.4.tar.gzMongoDBmongodb-linux-x86_64-ubuntu1604-4.0.1.tgzHiveapache-hive-2.3.3-bin.tar.gzsqoopsqoop-1.4.7.bin__hadoop-2.6.0.tar.gzFlumeapache-flume-1.9.0-bin.tar.gzKafkakafka_2.11-2.1.1.tgzSparkspark-2.4.0-bin-hadoop2.7.tgzPythonPython3.7.31、HadoopHadoop是Apache下的一個(gè)開源的、并且可以運(yùn)行在大規(guī)模集群上的分布式計(jì)算平臺(tái)。其核心設(shè)計(jì)為分布式文件系統(tǒng)HDFS和并行計(jì)算框架Mapreduce。經(jīng)過多年的發(fā)展,Hadoop已經(jīng)發(fā)展成為龐大的生態(tài)系統(tǒng)。Hadoop生態(tài)系統(tǒng)除了包括HDFS和Mapreduce外,還包括了YARN、HBase、Hive、Ambari、Oozie、Mahout、Pig、Flume、Sqoop、Zookeeper等。Hadoop在大數(shù)據(jù)處理業(yè)內(nèi)得到廣泛應(yīng)用,適合對(duì)大數(shù)據(jù)實(shí)現(xiàn)離線處理和分析操作。2、Spark隨著大數(shù)據(jù)的不斷發(fā)展,人們對(duì)于大數(shù)據(jù)的處理要求越來越高,原有的并行計(jì)算框架MapReduce適合離線計(jì)算,卻無法滿足實(shí)時(shí)性要求較高的業(yè)務(wù),比如實(shí)時(shí)推薦等。因此出現(xiàn)了以Spark為代表的新計(jì)算框架。相比MapReduce,Spark基于內(nèi)存,速度更快,并且能夠同時(shí)兼顧批處理和實(shí)時(shí)數(shù)據(jù)分析。
大數(shù)據(jù)的數(shù)據(jù)處理框架有些適合于離線批量數(shù)據(jù)處理,比如Hadoop的Mapreduce,有些適合于迭代的實(shí)時(shí)批數(shù)據(jù)處理,比如Spark,有些則適合于流數(shù)據(jù)處理,比如Storm。有些計(jì)算框架使用內(nèi)存模式,有些是基于磁盤I/O處理模式?;趦?nèi)存的框架性能會(huì)優(yōu)于基于磁盤I/O的框架,但同時(shí)成本也會(huì)高很多。最終選擇Hadoop或者Spark或者其他數(shù)據(jù)處理框架需要根據(jù)具體需求來確定。
3、NoSQL數(shù)據(jù)庫NoSQL是NotonlySQL的縮寫,泛指非關(guān)系型數(shù)據(jù)庫。與傳統(tǒng)的關(guān)系數(shù)據(jù)庫相比,NoSQL數(shù)據(jù)庫不使用SQL語言作為查詢語言,沒有固定的表結(jié)構(gòu),也沒有遵守ACID約束,具有非常靈活的水平可擴(kuò)展性,可以支持海量數(shù)據(jù)的存儲(chǔ)。NoSQL數(shù)據(jù)庫的數(shù)量很多,但總的來說,典型
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 食品行業(yè)法規(guī)與標(biāo)準(zhǔn)試題及答案
- 檢驗(yàn)醫(yī)師考試試題及答案
- 電梯安全管理人員操練考卷及答案
- 視覺傳播設(shè)計(jì)與制作考試技巧題及答案
- 二手車市場信心指數(shù)分析試題及答案
- 在線教育平臺(tái)用戶體驗(yàn)試題及答案
- 計(jì)算機(jī)基礎(chǔ)考試深入探討試題及答案2024
- 2024年古代文學(xué)史考點(diǎn)試題及答案
- 服務(wù)評(píng)價(jià)系統(tǒng)在汽車美容中的應(yīng)用試題及答案
- 關(guān)注寵物飲食的心理因素試題及答案
- 上海市中心商務(wù)寫字樓清單
- 永磁同步電機(jī)矢量控制方法的研究畢業(yè)論文(設(shè)計(jì))
- 檢驗(yàn)科知識(shí)題庫+答案
- FMEA潛在失效模式及分析標(biāo)準(zhǔn)表格模版
- 深基坑格構(gòu)柱塔吊基礎(chǔ)專項(xiàng)施工方案
- 蒸汽壓力流速流量管徑關(guān)系
- 根管沖洗與消毒演示文稿
- 屠宰廠廢水處理站工藝初步設(shè)計(jì)資料
- 汽車行業(yè)VDA6.3過程審核檢查表及評(píng)分標(biāo)準(zhǔn)
- GB/T 22102-2008防腐木材
- GB/T 16604-2017滌綸工業(yè)長絲
評(píng)論
0/150
提交評(píng)論