演示文稿大數(shù)據(jù)介紹_第1頁(yè)
演示文稿大數(shù)據(jù)介紹_第2頁(yè)
演示文稿大數(shù)據(jù)介紹_第3頁(yè)
演示文稿大數(shù)據(jù)介紹_第4頁(yè)
演示文稿大數(shù)據(jù)介紹_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

目前一頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)大數(shù)據(jù)從何而來(lái),互聯(lián)網(wǎng)技術(shù)發(fā)展現(xiàn)狀?什么是大數(shù)據(jù)、云計(jì)算與大數(shù)據(jù)有什么關(guān)系、大數(shù)據(jù)類(lèi)型?大數(shù)據(jù)如何獲取、存儲(chǔ)、處理、分析的技術(shù)?大數(shù)據(jù)怎么用、未來(lái)發(fā)展趨勢(shì)?Question目前二頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)互聯(lián)網(wǎng)發(fā)展趨勢(shì)物物互聯(lián)人人互聯(lián)人物互聯(lián)目前三頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)2023/5/164風(fēng)云變幻中……目前四頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)目前五頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)2023/5/1661.大數(shù)據(jù)(BigData)所謂“大數(shù)據(jù)”(bigdata)指的是這樣一種現(xiàn)象:一個(gè)公司日常運(yùn)營(yíng)所生成和積累用戶行為數(shù)據(jù)“增長(zhǎng)如此之快,以至于難以使用現(xiàn)有的數(shù)據(jù)庫(kù)管理工具來(lái)駕馭,困難存在于數(shù)據(jù)的獲取、存儲(chǔ)、檢索、共享、分析和可視化等方面?!边@些數(shù)據(jù)量是如此之大,已經(jīng)不是以我們所熟悉G或T為單位來(lái)衡量,而是以P、E或Z為計(jì)量單位,所以稱之為大數(shù)據(jù)。目前六頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)大數(shù)據(jù)的4V特性體量Volume多樣性Variety價(jià)值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長(zhǎng)總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機(jī)器數(shù)據(jù))無(wú)模式或者模式不明顯不連貫的語(yǔ)法或句義大量的不相關(guān)信息對(duì)未來(lái)趨勢(shì)與模式的可預(yù)測(cè)分析深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報(bào)告等)實(shí)時(shí)分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見(jiàn)影而非事后見(jiàn)效目前七頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)2.什么是云計(jì)算?

云計(jì)算將計(jì)算任務(wù)分布在大量計(jì)算機(jī)構(gòu)成的資源池上,是各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計(jì)算力、存儲(chǔ)空間和各種軟件服務(wù)。云計(jì)算的“云”就是存在于互聯(lián)網(wǎng)上的服務(wù)器集群上的資源,它包括硬件資源(服務(wù)器、存儲(chǔ)器、CPU等)和軟件資源(如應(yīng)用軟件、集成開(kāi)發(fā)環(huán)境等)本地計(jì)算機(jī)只需要通過(guò)互聯(lián)網(wǎng)發(fā)送一個(gè)需求信息,遠(yuǎn)端就會(huì)有成千上萬(wàn)的計(jì)算機(jī)為你提供需要的資源并將結(jié)果返回本地計(jì)算機(jī)。目前八頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)目前九頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)3.大數(shù)據(jù)類(lèi)型:結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)模型:結(jié)構(gòu)化數(shù)據(jù):二維表(關(guān)系型)半結(jié)構(gòu)化數(shù)據(jù):樹(shù)、圖非結(jié)構(gòu)化數(shù)據(jù):無(wú)結(jié)構(gòu)化數(shù)據(jù):先有結(jié)構(gòu)、再有數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù):先有數(shù)據(jù),再有結(jié)構(gòu) 目前十頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)虛擬數(shù)據(jù)庫(kù)信息管理系統(tǒng)(HIS)電子病歷2023/5/16銷(xiāo)售管理系統(tǒng)11關(guān)系數(shù)據(jù)庫(kù)曾經(jīng)是萬(wàn)能的關(guān)系數(shù)據(jù)模型CRM客戶關(guān)系管理實(shí)時(shí)監(jiān)控平臺(tái)遠(yuǎn)程監(jiān)護(hù)平臺(tái)目前十一頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)目前十二頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)Google大數(shù)據(jù)處理技術(shù)作用:-成本降低,能用PC機(jī),不用大型機(jī)和高端存儲(chǔ)-軟件容錯(cuò)硬件故障視為常態(tài),通過(guò)軟件保證可靠性-簡(jiǎn)化并行分布式計(jì)算,無(wú)須控制節(jié)點(diǎn)同步和數(shù)據(jù)交換-Google文件系統(tǒng)GFS(GoogleFileSystem)-并行數(shù)據(jù)處理MapReduce-結(jié)構(gòu)化數(shù)據(jù)表BigTable-分布式鎖管理Chubby目前十三頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)技術(shù)變革云計(jì)算:把集中的運(yùn)算分散開(kāi)來(lái)物聯(lián)網(wǎng):把分散的設(shè)備連在一起Hadoop:把大數(shù)據(jù)切成小模塊目前十四頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)大數(shù)據(jù)處理技術(shù)——Hadoop開(kāi)源Apache項(xiàng)目,靈感來(lái)源于Google的三篇論文:BigTable、MapReduce、GFS;Hadoop核心組件包括: -分布式文件系統(tǒng)(HDFS) -分布式數(shù)據(jù)庫(kù)存儲(chǔ)系統(tǒng)(Hbase) -分布式計(jì)算構(gòu)架(MapReduce)使用Java編寫(xiě)運(yùn)行平臺(tái):Linux目前十五頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)目前十六頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)HDFS體系架構(gòu)HDFS:-分布式文件存儲(chǔ)系統(tǒng),存儲(chǔ)海量的數(shù)據(jù);-數(shù)據(jù)冗余,硬件容錯(cuò);-流式的數(shù)據(jù)訪問(wèn);-存儲(chǔ)大文件;-適合數(shù)據(jù)批量讀寫(xiě),吞吐量高;適一次寫(xiě)入,多次讀取,順序讀寫(xiě)。-不適合交互式應(yīng)用,低延遲很難滿足不支持多用戶并發(fā)寫(xiě)相同文件。HDFS分布式文件系統(tǒng)目前十七頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)目前十八頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)大數(shù)據(jù)系統(tǒng)整體架構(gòu)目前十九頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)DataValue:數(shù)據(jù)挖掘與分析數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但潛在的有用信息和知識(shí)的過(guò)程。目前二十頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)數(shù)據(jù)挖掘與分析知識(shí)發(fā)現(xiàn)(KDD)是從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的,以及最終可理解的模式的過(guò)程。數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(KDD)中不可缺少一部分目前二十一頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)數(shù)據(jù)挖掘基本方法預(yù)測(cè)建模:將已有數(shù)據(jù)和模型用于對(duì)未知變量的語(yǔ)言。(1)分類(lèi),用于預(yù)測(cè)離散的目標(biāo)變量(2)回歸,用于預(yù)測(cè)連續(xù)的目標(biāo)變量關(guān)聯(lián)分析:反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性。用來(lái)發(fā)現(xiàn)描述數(shù)據(jù)中強(qiáng)關(guān)聯(lián)特征的模式。聚類(lèi)分析:發(fā)現(xiàn)緊密相關(guān)的觀測(cè)值組群,使得與屬于不同簇的觀測(cè)值相比,屬于同一簇的觀測(cè)值相互之間盡可能類(lèi)似異常檢測(cè):識(shí)別其特征顯著不同于其他數(shù)據(jù)的觀測(cè)值目前二十二頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)實(shí)戰(zhàn)項(xiàng)目1——Python網(wǎng)絡(luò)爬蟲(chóng)網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序/腳本,它可以搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。做為通用搜索引擎網(wǎng)頁(yè)收集器(Google、Baidu)做垂直搜索引擎(51job、zhaoping、chinahr)科學(xué)研究:在線人類(lèi)行為,在線社群演化,復(fù)雜網(wǎng)絡(luò),數(shù)據(jù)挖掘領(lǐng)域的實(shí)證科學(xué)研究,快速收集大量數(shù)據(jù)Task:攜程數(shù)據(jù)庫(kù)(游客數(shù)據(jù)、點(diǎn)評(píng)記錄)目前二十三頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)實(shí)戰(zhàn)項(xiàng)目2——數(shù)據(jù)分析及可視化應(yīng)用1.Python—2012年美國(guó)總統(tǒng)大選數(shù)據(jù)分析2.動(dòng)態(tài)氣泡圖的實(shí)現(xiàn)3.熱力感應(yīng)圖(heatmap.js)目前二十四頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)管理大數(shù)據(jù)“易”,理解大數(shù)據(jù)“難”目前大數(shù)據(jù)管理多從架構(gòu)和并行等方面考慮,解決高并發(fā)數(shù)據(jù)存取的性能要求及數(shù)據(jù)存儲(chǔ)的橫向擴(kuò)展,但對(duì)非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容理解仍缺乏實(shí)質(zhì)性的突破和進(jìn)展,這是實(shí)現(xiàn)大數(shù)據(jù)資源化、知識(shí)化、普適化的核心.非結(jié)構(gòu)化海量信息的智能化處理:自然語(yǔ)言理解、多媒體內(nèi)容理解、機(jī)器學(xué)習(xí)等.目前二十五頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)大數(shù)據(jù)驅(qū)動(dòng)架構(gòu)概念圖目前二十六頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)2023/5/1627大數(shù)據(jù)存儲(chǔ)

云計(jì)算技術(shù)是最理想的解決方案???目前二十七頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)2023/5/1628社會(huì)計(jì)算研究目前二十八頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)2023/5/1629城市計(jì)算的基本框架目前二十九頁(yè)\總數(shù)三十四頁(yè)\編于十六點(diǎn)2023/5/16NWU智能信息處理研究所30數(shù)字足跡與城市計(jì)算出租車(chē)GPS數(shù)字足跡:不同時(shí)刻的城市熱點(diǎn)檢測(cè)、城市區(qū)域的功能特性分類(lèi)、路徑規(guī)劃、出租車(chē)司機(jī)尋客策略、異常軌跡檢測(cè)、城市道路交通流量預(yù)測(cè)等;移動(dòng)社交網(wǎng)絡(luò)數(shù)字足跡:探索個(gè)人和群體移動(dòng)模式、群體事件監(jiān)測(cè)、個(gè)性化的興趣點(diǎn)推薦和搜索服務(wù)、交叉重疊式社群的發(fā)現(xiàn)與詮釋等;移動(dòng)電話數(shù)字足跡:測(cè)量城市交通系統(tǒng)效率、優(yōu)化城市道路、人的移動(dòng)性、地區(qū)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論