大數(shù)據匯報專題(內部)_第1頁
大數(shù)據匯報專題(內部)_第2頁
大數(shù)據匯報專題(內部)_第3頁
大數(shù)據匯報專題(內部)_第4頁
大數(shù)據匯報專題(內部)_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據匯報專題(內部)大數(shù)據從何而來,互聯(lián)網技術發(fā)展現(xiàn)狀?什么是大數(shù)據、云計算與大數(shù)據有什么關系、大數(shù)據類型?大數(shù)據如何獲取、存儲、處理、分析的技術?大數(shù)據怎么用、未來發(fā)展趨勢?Question互聯(lián)網發(fā)展趨勢物物互聯(lián)人人互聯(lián)人物互聯(lián)2024/8/74風云變幻中……2024/8/751.大數(shù)據

(BigData)所謂“大數(shù)據”(bigdata)指的是這樣一種現(xiàn)象:一個公司日常運營所生成和積累用戶行為數(shù)據“增長如此之快,以至于難以使用現(xiàn)有的數(shù)據庫管理工具來駕馭,困難存在于數(shù)據的獲取、存儲、檢索、共享、分析和可視化等方面。”這些數(shù)據量是如此之大,已經不是以我們所熟悉G或T為單位來衡量,而是以P、E或Z為計量單位,所以稱之為大數(shù)據。大數(shù)據的4V特性體量Volume多樣性Variety價值密度Value速度Velocity非結構化數(shù)據的超大規(guī)模和增長總數(shù)據量的80~90%比結構化數(shù)據增長快10倍到50倍是傳統(tǒng)數(shù)據倉庫的10倍到50倍大數(shù)據的異構和多樣性很多不同形式(文本、圖像、視頻、機器數(shù)據)無模式或者模式不明顯不連貫的語法或句義大量的不相關信息對未來趨勢與模式的可預測分析深度復雜分析(機器學習、人工智能Vs傳統(tǒng)商務智能(咨詢、報告等)實時分析而非批量式分析數(shù)據輸入、處理與丟棄立竿見影而非事后見效2.什么是云計算?

云計算將計算任務分布在大量計算機構成的資源池上,是各種應用系統(tǒng)能夠根據需要獲取計算力、存儲空間和各種軟件服務。

云計算的“云”就是存在于互聯(lián)網上的服務器集群上的資源,它包括硬件資源(服務器、存儲器、CPU等)和軟件資源(如應用軟件、集成開發(fā)環(huán)境等)本地計算機只需要通過互聯(lián)網發(fā)送一個需求信息,遠端就會有成千上萬的計算機為你提供需要的資源并將結果返回本地計算機。3.大數(shù)據類型:結構化與非結構化數(shù)據數(shù)據模型:結構化數(shù)據:二維表(關系型)半結構化數(shù)據:樹、圖非結構化數(shù)據:無結構化數(shù)據:先有結構、再有數(shù)據半結構化數(shù)據:先有數(shù)據,再有結構 虛擬數(shù)據庫信息管理系統(tǒng)(HIS)電子病歷2024/8/7銷售管理系統(tǒng)10關系數(shù)據庫曾經是萬能的關系數(shù)據模型CRM客戶關系管理實時監(jiān)控平臺遠程監(jiān)護平臺Google大數(shù)據處理技術作用:-成本降低,能用PC機,不用大型機和高端存儲-軟件容錯硬件故障視為常態(tài),通過軟件保證可靠性-簡化并行分布式計算,無須控制節(jié)點同步和數(shù)據交換-Google文件系統(tǒng)GFS(GoogleFileSystem)-并行數(shù)據處理MapReduce-結構化數(shù)據表BigTable-分布式鎖管理Chubby技術變革云計算:把集中的運算分散開來物聯(lián)網:把分散的設備連在一起Hadoop:把大數(shù)據切成小模塊大數(shù)據處理技術——Hadoop開源Apache項目,靈感來源于Google的三篇論文:BigTable、MapReduce、GFS;Hadoop核心組件包括: -分布式文件系統(tǒng)(HDFS) -分布式數(shù)據庫存儲系統(tǒng)(Hbase) -分布式計算構架(MapReduce)使用Java編寫運行平臺:LinuxHDFS體系架構HDFS:-分布式文件存儲系統(tǒng),存儲海量的數(shù)據;-數(shù)據冗余,硬件容錯;-流式的數(shù)據訪問;-存儲大文件;-適合數(shù)據批量讀寫,吞吐量高;適一次寫入,多次讀取,順序讀寫。-不適合交互式應用,低延遲很難滿足不支持多用戶并發(fā)寫相同文件。HDFS分布式文件系統(tǒng)大數(shù)據系統(tǒng)整體架構DataValue:數(shù)據挖掘與分析數(shù)據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據中,提取隱含在其中的、人們事先不知道的、但潛在的有用信息和知識的過程。數(shù)據挖掘與分析知識發(fā)現(xiàn)(KDD)是從數(shù)據集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的過程。數(shù)據挖掘是數(shù)據庫知識發(fā)現(xiàn)(KDD)中不可缺少一部分數(shù)據挖掘基本方法預測建模:將已有數(shù)據和模型用于對未知變量的語言。(1)分類,用于預測離散的目標變量(2)回歸,用于預測連續(xù)的目標變量關聯(lián)分析:反映一個事物與其他事物之間的相互依存性和關聯(lián)性。用來發(fā)現(xiàn)描述數(shù)據中強關聯(lián)特征的模式。聚類分析:發(fā)現(xiàn)緊密相關的觀測值組群,使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類似異常檢測:識別其特征顯著不同于其他數(shù)據的觀測值實戰(zhàn)項目1——Python網絡爬蟲網絡爬蟲是一個自動提取網頁的程序/腳本,它可以搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。做為通用搜索引擎網頁收集器(Google、Baidu)做垂直搜索引擎(51job、zhaoping、chinahr)科學研究:在線人類行為,在線社群演化,復雜網絡,數(shù)據挖掘領域的實證科學研究,快速收集大量數(shù)據Task:攜程數(shù)據庫(游客數(shù)據、點評記錄)實戰(zhàn)項目2——數(shù)據分析及可視化應用1.Python—2012年美國總統(tǒng)大選數(shù)據分析2.動態(tài)氣泡圖的實現(xiàn)3.熱力感應圖(heatmap.js)管理大數(shù)據“易”,理解大數(shù)據“難”目前大數(shù)據管理多從架構和并行等方面考慮,解決高并發(fā)數(shù)據存取的性能要求及數(shù)據存儲的橫向擴展,但對非結構化數(shù)據的內容理解仍缺乏實質性的突破和進展,這是實現(xiàn)大數(shù)據資源化、知識化、普適化的核心.非結構化海量信息的智能化處理:自然語言理解、多媒體內容理解、機器學習等.大數(shù)據驅動架構概念圖2024/8/725大數(shù)據存儲

云計算技術是最理想的解決方案???2024/8/726社會計算研究2024/8/727城市計算的基本框架2024/8/7NWU智能信息處理研究所28數(shù)字足跡與城市計算出租車GPS數(shù)字足跡:不同時刻的城市熱點檢測、城市區(qū)域的功能特性分類、路徑規(guī)劃、出租車司機尋客策略、異常軌跡檢測、城市道路交通流量預測等;移動社交網絡數(shù)字足跡:探索個人和群體移動模式、群體事件監(jiān)測、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論