大數(shù)據(jù)基礎(chǔ)和行業(yè)應(yīng)用(講義版)_第1頁(yè)
大數(shù)據(jù)基礎(chǔ)和行業(yè)應(yīng)用(講義版)_第2頁(yè)
大數(shù)據(jù)基礎(chǔ)和行業(yè)應(yīng)用(講義版)_第3頁(yè)
大數(shù)據(jù)基礎(chǔ)和行業(yè)應(yīng)用(講義版)_第4頁(yè)
大數(shù)據(jù)基礎(chǔ)和行業(yè)應(yīng)用(講義版)_第5頁(yè)
已閱讀5頁(yè),還剩48頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)基礎(chǔ)和行業(yè)應(yīng)用大數(shù)據(jù)BigData大數(shù)據(jù)的定義理解什么是大數(shù)據(jù)大數(shù)據(jù)時(shí)代的背景1大數(shù)據(jù)的定義理解大數(shù)據(jù)的“4V”特征2大數(shù)據(jù)的構(gòu)成3大數(shù)據(jù)時(shí)代的背景

半個(gè)世紀(jì)以來,隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活,信息爆炸已經(jīng)積累到了一個(gè)開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長(zhǎng)速度也在加快?;ヂ?lián)網(wǎng)(社交、搜索、電商)、移動(dòng)互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。數(shù)據(jù)量增加TBPBZBEB根據(jù)IDC監(jiān)測(cè),人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級(jí)增長(zhǎng),大約每?jī)赡攴环?,這個(gè)速度在2020年之前會(huì)繼續(xù)保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量。數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長(zhǎng)這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠(yuǎn)遠(yuǎn)超越了目前人力所能處理的范疇大數(shù)據(jù)時(shí)代正在來臨…大數(shù)據(jù)時(shí)代的背景YBNBBB20世紀(jì)90年代,數(shù)據(jù)倉(cāng)庫(kù)之父的BillInmon就經(jīng)常提及BigData。2011年5月,在“云計(jì)算相遇大數(shù)據(jù)”為主題的EMCWorld2011會(huì)議中,EMC拋出了BigData概念。大數(shù)據(jù)時(shí)代的背景體量Volume多樣性Variety價(jià)值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長(zhǎng)占總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機(jī)器數(shù)據(jù))無(wú)模式或者模式不明顯不連貫的語(yǔ)法或句義大量的不相關(guān)信息對(duì)未來趨勢(shì)與模式的可預(yù)測(cè)分析深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報(bào)告等)實(shí)時(shí)分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價(jià)值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,或者說,只有具備這些特點(diǎn)的數(shù)據(jù),才是大數(shù)據(jù)。大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營(yíng)交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫(kù)進(jìn)行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集海量交互數(shù)據(jù):源于各種網(wǎng)絡(luò)和社交媒體。它包括了呼叫詳細(xì)記錄、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸協(xié)議傳送的海量圖像文件、Web文本和點(diǎn)擊流數(shù)據(jù)、評(píng)價(jià)數(shù)據(jù)、科學(xué)信息、電子郵件等等。可以告訴我們未來會(huì)發(fā)生什么。大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)的技術(shù)與應(yīng)用大數(shù)據(jù)怎么用大數(shù)據(jù)技術(shù)要解決的問題1大數(shù)據(jù)的技術(shù)與應(yīng)用大數(shù)據(jù)的相關(guān)技術(shù)2大數(shù)據(jù)的應(yīng)用實(shí)例3Volume海量的數(shù)據(jù)規(guī)模Variety多樣的數(shù)據(jù)類型StreamsRealtimeNeartimeBatchTBPBEBStructuredUnstructuredSemi-structuredAlltheaboveValueVelocity快速的數(shù)據(jù)流轉(zhuǎn)發(fā)現(xiàn)數(shù)據(jù)價(jià)值大數(shù)據(jù)技術(shù)要解決的問題大數(shù)據(jù)技術(shù)被設(shè)計(jì)用于在成本可承受的條件下,通過非??焖伲╲elocity)地采集、發(fā)現(xiàn)和分析,從大量(volumes)、多類別(variety)的數(shù)據(jù)中提取價(jià)值(value),將是IT領(lǐng)域新一代的技術(shù)與架構(gòu)。企業(yè)用以分析的數(shù)據(jù)越全面,分析的結(jié)果就越接近于真實(shí)。大數(shù)據(jù)分析意味著企業(yè)能夠從這些新的數(shù)據(jù)中獲取新的洞察力,并將其與已知業(yè)務(wù)的各個(gè)細(xì)節(jié)相融合。大數(shù)據(jù)技術(shù)要解決的問題技術(shù)領(lǐng)域的挑戰(zhàn)傳統(tǒng)的數(shù)據(jù)庫(kù)部署不能處理數(shù)TB級(jí)別的數(shù)據(jù),也不能很好的支持高級(jí)別的數(shù)據(jù)分析,急速膨脹的數(shù)據(jù)體量即將超越傳統(tǒng)數(shù)據(jù)庫(kù)的管理能力。因此,需要構(gòu)建全球級(jí)的分布式數(shù)據(jù)庫(kù),可以擴(kuò)展到數(shù)百萬(wàn)的機(jī)器,數(shù)已百計(jì)的數(shù)據(jù)中心,上萬(wàn)億的行數(shù)據(jù)。經(jīng)典數(shù)據(jù)庫(kù)技術(shù)并沒有考慮數(shù)據(jù)的多類別(variety),SQL在設(shè)計(jì)的一開始是沒有考慮非結(jié)構(gòu)化數(shù)據(jù)的。一般而言,像數(shù)據(jù)倉(cāng)庫(kù)、BI等,對(duì)處理時(shí)間的要求并不高。因此這類應(yīng)用如果運(yùn)行1、2天獲得結(jié)果依然可行的。但大數(shù)據(jù)應(yīng)用要求實(shí)時(shí)處理,這是其區(qū)別于傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、BI技術(shù)的關(guān)鍵差別之一。數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存與管理數(shù)據(jù)分析與挖掘計(jì)算結(jié)果展示大數(shù)據(jù)的相關(guān)技術(shù)ETL數(shù)據(jù)眾包(CrowdSouring)數(shù)據(jù)眾包數(shù)據(jù)眾包是一種新的數(shù)據(jù)采集方式,由企業(yè)方通過平臺(tái)把數(shù)據(jù)采集任務(wù)外包給非特定的大眾網(wǎng)絡(luò)。數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存與管理數(shù)據(jù)分析與挖掘計(jì)算結(jié)果展示大數(shù)據(jù)的相關(guān)技術(shù)ETL數(shù)據(jù)眾包(CrowdSouring)結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)分布式文件系統(tǒng)關(guān)系數(shù)據(jù)庫(kù)非關(guān)系數(shù)據(jù)庫(kù)(NoSQL)數(shù)據(jù)倉(cāng)庫(kù)云計(jì)算和云存儲(chǔ)實(shí)時(shí)流處理分布式文件系統(tǒng)分布式文件系統(tǒng)(DistributedFileSystem)是指文件系統(tǒng)管理的物理存儲(chǔ)資源不一定直接連接在本地節(jié)點(diǎn)上,而是通過計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)相連。分布式文件系統(tǒng)Google文件系統(tǒng)(GoogleFileSystem,GFS)是一個(gè)可擴(kuò)展的分布式文件系統(tǒng),用于大型的、分布式的、對(duì)大量數(shù)據(jù)進(jìn)行訪問的應(yīng)用。它運(yùn)行于廉價(jià)的普通硬件上,將服務(wù)器故障視為正?,F(xiàn)象,通過軟件的方式自動(dòng)容錯(cuò),在保證系統(tǒng)可靠性和可用性的同時(shí),大大減少了系統(tǒng)的成本。分布式文件系統(tǒng)Hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會(huì)開發(fā)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序,充分利用集群的威力高速運(yùn)算和存儲(chǔ)。Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(HadoopDistributedFileSystem),簡(jiǎn)稱HDFS。HDFS有著高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的硬件上。分布式文件系統(tǒng)一個(gè)HDFS集群是由一個(gè)Namenode和一定數(shù)目的Datanodes組成。非關(guān)系型數(shù)據(jù)庫(kù)NoSQL關(guān)系型數(shù)據(jù)庫(kù)的局限性難以滿足高并發(fā)讀寫的需求難以滿足對(duì)海量數(shù)據(jù)高效率存儲(chǔ)和訪問的需求難以滿足對(duì)數(shù)據(jù)庫(kù)高可擴(kuò)展性和高可用性的需求NoSQL=非關(guān)系型數(shù)據(jù)庫(kù)NoSQLNoSQL數(shù)據(jù)存儲(chǔ)不需要固定的表結(jié)構(gòu),通常也不存在連接操作。在大數(shù)據(jù)存取上具備關(guān)系型數(shù)據(jù)庫(kù)無(wú)法比擬的性能優(yōu)勢(shì)。關(guān)系型數(shù)據(jù)庫(kù)中的表都是存儲(chǔ)一些格式化的數(shù)據(jù)結(jié)構(gòu),每個(gè)元組字段的組成都一樣,即使不是每個(gè)元組都需要所有的字段,但數(shù)據(jù)庫(kù)會(huì)為每個(gè)元組分配所有的字段。非關(guān)系型數(shù)據(jù)庫(kù)以鍵值對(duì)存儲(chǔ),它的結(jié)構(gòu)不固定,每一個(gè)元組可以有不一樣的字段,每個(gè)元組可以根據(jù)需要增加一些自己的鍵值對(duì),這樣就不會(huì)局限于固定的結(jié)構(gòu),可以減少一些時(shí)間和空間的開銷。非關(guān)系型數(shù)據(jù)庫(kù)NoSQL云計(jì)算和云存儲(chǔ)云計(jì)算(cloudcomputing),是分布式計(jì)算技術(shù)的一種,其最基本的概念,是透過網(wǎng)絡(luò)將龐大的計(jì)算處理程序自動(dòng)分拆成無(wú)數(shù)個(gè)較小的子程序,再交由多部服務(wù)器所組成的龐大系統(tǒng)經(jīng)搜尋、計(jì)算分析之后將處理結(jié)果回傳給用戶。透過這項(xiàng)技術(shù),網(wǎng)絡(luò)服務(wù)提供者可以在數(shù)秒之內(nèi),達(dá)成處理數(shù)以千萬(wàn)計(jì)甚至億計(jì)的信息,達(dá)到和“超級(jí)計(jì)算機(jī)”同樣強(qiáng)大效能的網(wǎng)絡(luò)服務(wù)。云計(jì)算是一種資源交付和使用模式,指通過網(wǎng)絡(luò)獲得應(yīng)用所需的資源(硬件、平臺(tái)、軟件)。提供資源的網(wǎng)絡(luò)被稱為“云”。白云下面數(shù)據(jù)跑藍(lán)藍(lán)的天上白云飄如果數(shù)據(jù)是財(cái)富,那么大數(shù)據(jù)就是寶藏,而云計(jì)算就是挖掘和利用寶藏的利器。沒有強(qiáng)大的計(jì)算能力,數(shù)據(jù)寶藏終究是鏡中花;沒有大數(shù)據(jù)的積淀,云計(jì)算也只能是殺雞用的宰牛刀。云計(jì)算和云存儲(chǔ)云計(jì)算和云存儲(chǔ)云存儲(chǔ)是在云計(jì)算(cloudcomputing)概念上延伸和發(fā)展出來的一個(gè)新概念,是指通過集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲(chǔ)設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問功能的一個(gè)系統(tǒng)。當(dāng)云計(jì)算系統(tǒng)運(yùn)算和處理的核心是大量數(shù)據(jù)的存儲(chǔ)和管理時(shí),云計(jì)算系統(tǒng)中就需要配置大量的存儲(chǔ)設(shè)備,那么云計(jì)算系統(tǒng)就轉(zhuǎn)變成為一個(gè)云存儲(chǔ)系統(tǒng),所以云存儲(chǔ)是一個(gè)以數(shù)據(jù)存儲(chǔ)和管理為核心的云計(jì)算系統(tǒng)。實(shí)時(shí)流處理傳統(tǒng)的分布式計(jì)算往往是先積累大量的數(shù)據(jù),再進(jìn)行數(shù)據(jù)拆分和聚合。而實(shí)時(shí)流處理則是讓數(shù)據(jù)流動(dòng)起來,數(shù)據(jù)從內(nèi)存中流過,截取需要的數(shù)據(jù),進(jìn)行實(shí)時(shí)分析計(jì)算。實(shí)時(shí)流處理傳統(tǒng)的分布式計(jì)算往往是先積累大量的數(shù)據(jù),再進(jìn)行數(shù)據(jù)拆分和聚合。而實(shí)時(shí)流處理則是讓數(shù)據(jù)流動(dòng)起來,數(shù)據(jù)從內(nèi)存中流過,截取需要的數(shù)據(jù),進(jìn)行實(shí)時(shí)分析計(jì)算。數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存與管理數(shù)據(jù)分析與挖掘計(jì)算結(jié)果展示大數(shù)據(jù)的相關(guān)技術(shù)ETL數(shù)據(jù)眾包(CrowdSouring)結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)分布式文件系統(tǒng)關(guān)系數(shù)據(jù)庫(kù)非關(guān)系數(shù)據(jù)庫(kù)(NoSQL)數(shù)據(jù)倉(cāng)庫(kù)云計(jì)算和云存儲(chǔ)實(shí)時(shí)流處理A/BTesting關(guān)聯(lián)規(guī)則分析分類聚類遺傳算法神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型模式識(shí)別時(shí)間序列分析回歸分析系統(tǒng)仿真機(jī)器學(xué)習(xí)優(yōu)化空間分析社會(huì)網(wǎng)絡(luò)分析自然語(yǔ)言分析MapReduceR語(yǔ)言A/BTestingA/B測(cè)試是可用性測(cè)試的一個(gè)方法,其核心為:同時(shí)實(shí)驗(yàn)兩個(gè)元素或版本(A和B),確定哪個(gè)更好。注冊(cè)按鈕由綠色改成紅色提高轉(zhuǎn)化率34%人性化的表格提高11%的轉(zhuǎn)化率。MapReduceMapReduce是Google提出的一個(gè)軟件架構(gòu),用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。它使編程人員在不了解分布式并行編程的情況下,能將自己的程序運(yùn)行在分布式系統(tǒng)上。Map=映射Reduce=規(guī)約或化簡(jiǎn)MapReduceR語(yǔ)言R語(yǔ)言是一種自由軟件編程語(yǔ)言與操作環(huán)境,主要用于統(tǒng)計(jì)分析、繪圖、數(shù)據(jù)挖掘。R語(yǔ)言擅長(zhǎng)在Hadoop分布式文件系統(tǒng)中存儲(chǔ)的非結(jié)構(gòu)化數(shù)據(jù)上的分析。R現(xiàn)在還可以運(yùn)行在HBase這種非關(guān)系型的數(shù)據(jù)庫(kù)以及面向列的分布式數(shù)據(jù)存儲(chǔ)之上。數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存與管理數(shù)據(jù)分析與挖掘計(jì)算結(jié)果展示大數(shù)據(jù)的相關(guān)技術(shù)ETL數(shù)據(jù)眾包(CrowdSouring)結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)分布式文件系統(tǒng)關(guān)系數(shù)據(jù)庫(kù)非關(guān)系數(shù)據(jù)庫(kù)(NoSQL)數(shù)據(jù)倉(cāng)庫(kù)云計(jì)算和云存儲(chǔ)實(shí)時(shí)流處理A/BTesting關(guān)聯(lián)規(guī)則分析分類聚類遺傳算法神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型模式識(shí)別時(shí)間序列分析回歸分析系統(tǒng)仿真機(jī)器學(xué)習(xí)優(yōu)化空間分析社會(huì)網(wǎng)絡(luò)分析自然語(yǔ)言分析MapReduceR語(yǔ)言標(biāo)簽云(TagCloud)聚類圖(Clustergram)空間信息流(Spatialinformationflow)熱圖(Heatmap)標(biāo)簽云標(biāo)簽云(TagCloud)是一套相關(guān)的標(biāo)簽以及與此相應(yīng)的權(quán)重。權(quán)值影響標(biāo)簽的字體大小、顏色或其他視覺效果。典型的標(biāo)簽云有30至150個(gè)標(biāo)簽,用以表示一個(gè)網(wǎng)站中的內(nèi)容及其熱門程度。標(biāo)簽通常是超鏈接,指向分類頁(yè)面。標(biāo)簽云奧巴馬布什克林頓林肯聚類圖聚類圖(Clustergram)是指用圖形方式展示聚類分析結(jié)果的技術(shù),可以有助于判斷簇?cái)?shù)量不同時(shí)的聚類效果??臻g信息流空間信息流(Spatialinformationflow)是展示信息空間狀態(tài)的一種可視化技術(shù)。熱圖熱圖(Heatmap)是一項(xiàng)數(shù)據(jù)展示技術(shù),將變量值用不同的顏色或高亮形式描繪出來??梢苑浅V庇^的呈現(xiàn)一些原本不易理解或表達(dá)的數(shù)據(jù),比如密度、頻率、溫度等。熱圖大數(shù)據(jù)的應(yīng)用實(shí)例電商數(shù)據(jù)中心(一)HadoopHiveHBASE(NoSQL)指標(biāo)體系TMSWMSERP交易…DataXStorm報(bào)表體系報(bào)告體系運(yùn)營(yíng)體系監(jiān)控體系UDFile移動(dòng)端關(guān)系數(shù)據(jù)庫(kù)與Hadoop混搭技術(shù)混搭、理念融合電商基本系統(tǒng)名稱CMSFMSOMSPMSWMSTMSAMSSCMCRM44軟件的功能:為了測(cè)試用戶數(shù)據(jù)業(yè)務(wù)的QOE,得出用戶上網(wǎng)的真實(shí)評(píng)價(jià)主動(dòng)測(cè)試部分:用戶主動(dòng)上網(wǎng)行為的模擬(上傳、下載和時(shí)延)打開網(wǎng)頁(yè)的模擬(網(wǎng)站響應(yīng)的時(shí)延、速度測(cè)試)對(duì)于軟件的監(jiān)控:流量和使用時(shí)長(zhǎng)的監(jiān)控測(cè)試的地圖展示北郵APP采集數(shù)據(jù)分析我們的軟件Anttest45手推車速度自行車速度小汽車速度火車速度飛機(jī)速度火箭速度沖浪速度網(wǎng)速評(píng)價(jià)指標(biāo)我們的軟件Anttest46要獲得用戶真正的QOE只有主動(dòng)測(cè)試是遠(yuǎn)遠(yuǎn)不夠的,還需要對(duì)用戶的APP使用和上網(wǎng)情況,進(jìn)行被動(dòng)的監(jiān)控,獲取真實(shí)的數(shù)據(jù),進(jìn)行分析。我們的軟件Anttest47測(cè)試的數(shù)據(jù)來源:主動(dòng)測(cè)試的收集和被動(dòng)監(jiān)控的收集推廣方式:各大android市場(chǎng)發(fā)布和北京各高校論壇推廣測(cè)試用戶:android市場(chǎng)下載使用者和校內(nèi)友好用戶數(shù)據(jù)的收集48校園大規(guī)模測(cè)試

時(shí)間:2013.7.10-2013.7.208days上午:9:00-11:30下午:14:00-17:00晚上:19:30-21:00搜集:主動(dòng)測(cè)試的信息被動(dòng)監(jiān)控的信息3.數(shù)據(jù)的收集49移動(dòng)(1746)聯(lián)通(2060)電信(2094)3.數(shù)據(jù)的收集50上傳平均速度下載平均速度平均時(shí)延3.數(shù)據(jù)的收集51CMCC強(qiáng)度(dBm)CUCC強(qiáng)度(dBm)CTCC強(qiáng)度(dBm)3.數(shù)據(jù)的收集52CMCCCUCCCTCCCMCCCUCCCTCC3.數(shù)據(jù)的收集53移動(dòng)聯(lián)通電信數(shù)據(jù)聯(lián)通性測(cè)試:時(shí)間:2013-10-15~2013-10-18(4天)搜集:北郵校內(nèi)的數(shù)據(jù)聯(lián)通率移動(dòng):15,857聯(lián)通:3,713電信:3,252WI-FI:3,061總計(jì):31,899說明:紅色的點(diǎn)代表數(shù)據(jù)聯(lián)通性出現(xiàn)問題,藍(lán)色的點(diǎn)代表數(shù)據(jù)聯(lián)通性正常3.數(shù)據(jù)的收集54數(shù)據(jù)表數(shù)據(jù)條目主動(dòng)測(cè)試數(shù)據(jù)25,420小區(qū)強(qiáng)度數(shù)據(jù)5,116,604數(shù)據(jù)聯(lián)通性數(shù)據(jù)32,851APP流量數(shù)據(jù)26,433,4893.數(shù)據(jù)的收集目前為止,Mysql數(shù)據(jù)庫(kù)大小,超過10GB。當(dāng)數(shù)據(jù)表超過1300百萬(wàn)條時(shí)Mysql計(jì)算均值,平均響應(yīng)在30s左右555.2大數(shù)據(jù)分析結(jié)果示例-1使用不同網(wǎng)絡(luò)的人數(shù)對(duì)比,發(fā)現(xiàn)在使用我們軟件的人數(shù)中,2G網(wǎng)絡(luò)的用戶還是占了一大部分呢,大概在50%左右。LTE手機(jī)上市還沒有多久,也有LTE的手機(jī)在使用我們的軟件565.2大數(shù)據(jù)分析結(jié)果示例-2從統(tǒng)計(jì)的總體流量來看,Wi-Fi的總流量遠(yuǎn)遠(yuǎn)超出了其他網(wǎng)絡(luò)的用戶流量數(shù),上行統(tǒng)計(jì)達(dá)到1690.6GB,下行統(tǒng)計(jì)達(dá)到3031.9GB,圖中1xRTT上行流量統(tǒng)計(jì)只有0.21GB。57使用移動(dòng)網(wǎng)絡(luò)2.45%0.06%42.18%42.47%12.84%分析發(fā)現(xiàn),我們?nèi)粘J褂玫囊苿?dòng)網(wǎng)絡(luò),85%的用戶數(shù)平均下載速度是在1KB/s-100KB/s區(qū)間,難怪用戶經(jīng)常抱怨網(wǎng)速不給力。5.2大數(shù)據(jù)分析結(jié)果示例-358對(duì)于一天24小時(shí),各個(gè)時(shí)間段的上行和下行流量對(duì)比。12:00左右會(huì)達(dá)到一個(gè)小高峰,但是不是很明顯。每天20:00之后,使用Wi-Fi的流量持續(xù),增長(zhǎng)到23:00-24:00期間,達(dá)到最高峰。每天早晨5:00-6:00是Wi-Fi流量使用的最低谷。5.2大數(shù)據(jù)分析結(jié)果示例-459對(duì)于一天24小時(shí),各個(gè)時(shí)間段的上行和下行流量對(duì)比。使用移動(dòng)網(wǎng)絡(luò)和Wi-Fi的流量圖有著明顯的區(qū)別,在8:00、10:00、13:00左右出現(xiàn)三個(gè)高峰,8:00左右是在上班的路上,在地鐵和公交上的人會(huì)習(xí)慣性使用手機(jī)打發(fā)時(shí)間。10:00是工作開始后的第一個(gè)小時(shí),13:00是在午休期間。5.2大數(shù)據(jù)分析結(jié)果示例-560不同流量的人數(shù)分布,比如說有多少人用了1G,有多少人用了2G,等等……只使用10M的有幾人,能用到100M總流量的有幾人,上G的又有幾人。分為日均,周均和月均。使用移動(dòng)網(wǎng)絡(luò),低流量用戶還是占了絕大多數(shù)。5.2大數(shù)據(jù)分析結(jié)果示例-6615.2大數(shù)據(jù)分析結(jié)果示例-762平均每個(gè)人每天上網(wǎng)時(shí)間的分布,看看多少用戶每天用多少時(shí)間上網(wǎng)。每天使用網(wǎng)10分鐘的有幾人,一小時(shí)的有幾人,3小時(shí)的有幾人。絕大多數(shù)用戶日均上網(wǎng)時(shí)間在2-15min和15min到2.5小時(shí)這兩個(gè)段內(nèi)。5.2大數(shù)據(jù)分析結(jié)果示例-863App網(wǎng)絡(luò)活躍度時(shí)間統(tǒng)計(jì),比如日均上網(wǎng)使用了10分鐘的app有多少,一小時(shí)的app有多少。5.2大數(shù)據(jù)分析結(jié)果示例-964App日均消耗流量分布圖,日均消耗1KB~10KB的App有多少款,消耗10KB~1MB的App有多少款。使用移動(dòng)網(wǎng)絡(luò)使用Wi-Fi網(wǎng)絡(luò)43.62%39.93%10.96%3.19%1.70%0.52%0.07%57.68%32.40%8.09%1.27%0.50%0.05%5.2大數(shù)據(jù)分析結(jié)果示例-95.2大數(shù)據(jù)分析結(jié)果示例-流量變化不同類型應(yīng)用用戶數(shù)量隨時(shí)間變化橫坐標(biāo)是時(shí)間,縱坐標(biāo)是用戶數(shù)量不同類型應(yīng)用用戶之間的連接數(shù)隨時(shí)間變化橫坐標(biāo)是時(shí)間,縱坐標(biāo)是用戶數(shù)量用戶數(shù)量、連接數(shù)在一天內(nèi)的變化與人的作息相似。不同類型應(yīng)用用戶平均度隨時(shí)間變化橫坐標(biāo)是時(shí)間,縱坐標(biāo)是用戶平均度不同類型應(yīng)用用戶平均流量隨時(shí)間變化橫坐標(biāo)是時(shí)間,縱坐標(biāo)是用戶平均流量不同類型的相互比較顯示,Web用戶平均連接數(shù)最大,VideoStream用戶的平均流量最大。Web用戶的平均連接數(shù)在一天內(nèi)不斷變化,并在2-5時(shí)達(dá)到最小。VideoStream用戶的用戶平均流量在2-5時(shí)達(dá)到最大。653小時(shí)內(nèi)使用兩種應(yīng)用的用戶比例例如:使用Web的用戶同時(shí)有58.3%使用了P2PD,51.6%使用了P2PS等。比較突出是既使用Web又使用Video應(yīng)用的用戶占了所有使用Video用戶的90.1%。5.2大數(shù)據(jù)分析結(jié)果示例-社團(tuán)結(jié)構(gòu)-交叉用戶66用戶平均應(yīng)用數(shù)橫坐標(biāo)是時(shí)間,每小時(shí)統(tǒng)計(jì)一次。縱坐標(biāo)是用戶平均使用應(yīng)用數(shù)??梢钥吹接脩粼诓煌囊恍r(shí)時(shí)間段內(nèi)使用應(yīng)用的平均數(shù)為1.3到1.65.2大數(shù)據(jù)分析結(jié)果示例:社團(tuán)結(jié)構(gòu)-交叉用戶67使用同種類型應(yīng)用的用戶之間的關(guān)聯(lián)性橫坐標(biāo)為圖中點(diǎn)的個(gè)數(shù),代表網(wǎng)絡(luò)中用戶的數(shù)量。

縱坐標(biāo)為模塊度,代表了同種應(yīng)用內(nèi)部關(guān)聯(lián)度與不同應(yīng)用之

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論