智能交通系統(tǒng)數(shù)據(jù)分析課件5第五章_第1頁(yè)
智能交通系統(tǒng)數(shù)據(jù)分析課件5第五章_第2頁(yè)
智能交通系統(tǒng)數(shù)據(jù)分析課件5第五章_第3頁(yè)
智能交通系統(tǒng)數(shù)據(jù)分析課件5第五章_第4頁(yè)
智能交通系統(tǒng)數(shù)據(jù)分析課件5第五章_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、智能交通系統(tǒng)的數(shù)據(jù)基礎(chǔ)設(shè)施5.1簡(jiǎn)介越來(lái)越多的數(shù)據(jù)是通過(guò)聯(lián)網(wǎng)運(yùn)輸系統(tǒng)產(chǎn)生和處理的,這些系統(tǒng)由部署在聯(lián)網(wǎng)車輛、道路 / 路側(cè)設(shè)備、交通信號(hào)和移動(dòng)設(shè)備(統(tǒng)稱為物聯(lián)網(wǎng))中的大量傳感器組成。有效地收集、處理和分析這些數(shù)據(jù)的能力,以及提取驅(qū)動(dòng)智能交通系統(tǒng)(ITS)的洞察力和知識(shí)的能力是至關(guān)重要的。本章的目的是概述支持網(wǎng)聯(lián)交通系統(tǒng)(CTS)應(yīng)用需求的基礎(chǔ)設(shè)施。為了解決 CTS 的復(fù)雜需求,需要一個(gè)能夠使用不同的抽象和運(yùn)行系統(tǒng)存儲(chǔ) / 處理大量數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)設(shè)施。5.2網(wǎng)聯(lián)的交通管理系統(tǒng)及其負(fù)載特征CTS 數(shù)據(jù)應(yīng)用程序的負(fù)載特性:1)收集和獲?。篊TS 應(yīng)用的一個(gè)常見(jiàn)挑戰(zhàn)是數(shù)據(jù)收集。2)分析:典型的負(fù)載包括

2、將大量數(shù)據(jù)解析為結(jié)構(gòu)化格式。3)機(jī)器學(xué)習(xí):這涉及到以識(shí)別模式(非監(jiān)督學(xué)習(xí))、分類和 / 或預(yù)測(cè)(監(jiān)督學(xué)習(xí))為目標(biāo)的算法的使用。4)模型部署:開(kāi)發(fā)的模型通常部署在服務(wù)于用戶應(yīng)用程序的在線系統(tǒng)中。5.3基礎(chǔ)設(shè)施簡(jiǎn)介為了支持 CTS 中的應(yīng)用程序和數(shù)據(jù)管道的不同階段,需要一個(gè)以數(shù)據(jù)為中心的基礎(chǔ)結(jié)構(gòu),它具有數(shù)據(jù)收集、存儲(chǔ)、處理和模型部署并將結(jié)果提供給數(shù)據(jù)應(yīng)用程序的能力。5.4數(shù)據(jù)基礎(chǔ)設(shè)施頂層設(shè)計(jì)5.4.1 MapReduce :可拓展的數(shù)據(jù)處理Hadoop MapReduce 基于一種面向磁盤(pán)的方法,即在每次 MapReduce 運(yùn)行后需要在 HDFS 中持久化數(shù)據(jù)。這對(duì)于需要查詢的交互式或?qū)崟r(shí)分析以

3、及機(jī)器學(xué)習(xí)的迭代處理來(lái)說(shuō),會(huì)導(dǎo)致訪問(wèn)速度變慢。為了解決這些問(wèn)題,出現(xiàn)了各種處理和執(zhí)行框架,如Spark、Flink 和 Tez。5.4.2數(shù)據(jù)接受和流處理傳統(tǒng)的數(shù)據(jù)集方法側(cè)重于完整的有界數(shù)據(jù)集的收集、存儲(chǔ)和分析。在 CTS 中,當(dāng)數(shù)據(jù)可能到達(dá)網(wǎng)絡(luò)邊緣或設(shè)備本身時(shí),分析數(shù)據(jù)通常是至關(guān)重要的。流處理的主要組件:消息代理系統(tǒng)流 處 理 引 擎5.4.3 SQL 和數(shù)據(jù)表SQL 已被證明是一種穩(wěn)定的數(shù)據(jù)查詢方法。SQL 的優(yōu)點(diǎn)眾所周知,它的查詢語(yǔ)言提供了一種魯棒的方法來(lái)獲取數(shù)據(jù)。許多案例依賴 SQL 作為數(shù)據(jù)提取的通用語(yǔ)法。它對(duì)于查詢來(lái)自較少結(jié)構(gòu)化數(shù)據(jù)源的柱狀數(shù)據(jù)特別有用。一般來(lái)說(shuō),有兩種架構(gòu):(1)

4、將 Hadoop 與現(xiàn)有的關(guān)系型數(shù)據(jù)庫(kù)集成;(2)在核心 Hadoop 服務(wù)(即 HDFS 和 YARN)之上實(shí)現(xiàn) SQL 引擎。數(shù)據(jù)結(jié)構(gòu)是基于 Spark SQL 并與之緊密集成的,允許用戶將不同的編程模型組合起來(lái)進(jìn)行數(shù)據(jù)提取和特征工程。數(shù)據(jù)結(jié)構(gòu)用于數(shù)據(jù)操作、分析和建模的強(qiáng)大抽象。5.4.4短時(shí)隨機(jī)數(shù)據(jù)讀取管理大多數(shù) Hadoop 工具依賴于快速順序讀取,用于支持可擴(kuò)展分析應(yīng)用程序的。其他數(shù)據(jù)訪問(wèn)模式,比如短時(shí)運(yùn)行和隨機(jī)訪問(wèn)查詢,與傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)相比,它們只是一個(gè)次要問(wèn)題。例如,HBase 允許可變和隨機(jī)訪問(wèn)數(shù)據(jù)集。HBase40 是一個(gè)基于 HDFS文件系統(tǒng)和 Hadoop 的面向列

5、的數(shù)據(jù)存儲(chǔ)。其他基于 Hadoop 的分析框架(比如 Hive 和Spark)可以直接訪問(wèn)它,而不需要移動(dòng)數(shù)據(jù)。5.4.5基于搜索的分析Gartner 將基于搜索的數(shù)據(jù)發(fā)現(xiàn)工具定義為:允許終端 / 業(yè)務(wù)用戶使用搜索詞創(chuàng)建結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的視圖和分析的工具 41。一些基于搜索的數(shù)據(jù)發(fā)現(xiàn)工具,例如 Elasticsearch、Solr 和 Splunk。ELK 棧使用 3 個(gè)互補(bǔ)的開(kāi)源工具:Elasticsearch42、Logstash43 和 Kibana44。Elasticsearch 支持基于索引搜索的數(shù)據(jù)分析,Logstash 是一種主要為日志文件設(shè)計(jì)的數(shù)據(jù)獲取和改進(jìn)的工具,Kiba

6、na 是一種可視化工具。5.4.6商業(yè)智能與數(shù)據(jù)科學(xué)可視化是數(shù)據(jù)分析過(guò)程的關(guān)鍵部分,對(duì)于提供分析見(jiàn)解至關(guān)重要。有兩組支持?jǐn)?shù)據(jù)分析的工具:BI 工具通常側(cè)重于在眾所周知的結(jié)構(gòu)化數(shù)據(jù)源上創(chuàng)建儀表盤(pán)的能力。數(shù)據(jù)科學(xué)工具支持更深層的數(shù)據(jù)處理和復(fù)雜的數(shù)據(jù)管道用于清洗、準(zhǔn)備和分析數(shù)據(jù)。為此,需要訪問(wèn)從 Excel 文件到 Hadoop 集群,再到關(guān)系型數(shù)據(jù)庫(kù)的各種數(shù)據(jù)源。隨著 BI 工具增加了訪問(wèn) Hadoop 集群和執(zhí)行高級(jí)分析的能力(例如通過(guò)集成 R),這兩個(gè)工具類別正在聚合。與此同時(shí),用于數(shù)據(jù)探索和發(fā)現(xiàn)的新的可視化工具出現(xiàn)了,比如 Trifacta。5.4.7機(jī)器學(xué)習(xí)大多數(shù)數(shù)據(jù)科學(xué)涉及到上百種多是手

7、工編寫(xiě)的簡(jiǎn)單易懂的算法的使用,如線性和邏輯回歸、支持向量機(jī)、隨機(jī)森林等。R 和 Python 都為機(jī)器學(xué)習(xí)提供了豐富的庫(kù)。Python數(shù)據(jù)生態(tài)系統(tǒng)包含強(qiáng)大的科學(xué)和分析庫(kù),如 NumPy、Pandas 和 Scikit-Learn。但是,它們通常不是并行的,因此在可擴(kuò)展性方面受到限制。Mahout、MLlib、Dato 和H2O 是在 Hadoop 基礎(chǔ)上提供高級(jí)機(jī)器學(xué)習(xí)功能的一些示例。5.5數(shù)據(jù)基礎(chǔ)設(shè)施底層設(shè)計(jì)5.5.1 Hadoop :存儲(chǔ)和計(jì)算管理Hadoop 核心包含兩個(gè)組件:Hadoop 分布式文件系統(tǒng)(HDFS) 和另一個(gè)資源協(xié)調(diào)器(YARN)。HDFS 提供了一個(gè)分布式文件系統(tǒng),它能夠隨著數(shù)據(jù)量增加而擴(kuò)展,同時(shí)還提供了冗余和完整性。YARN 為集群提供資源管理。5.5.2云環(huán)境下Hadoop 3 種模式可以用于云計(jì)算:公共模式、私有模式和混合模式。公共云在可擴(kuò)展性方面具有較大的靈活性。5.6章節(jié)總結(jié)與結(jié)論本章討論了支持 CTS 應(yīng)用的數(shù)據(jù)基礎(chǔ)設(shè)施。它提供了基礎(chǔ)設(shè)施的概述,以支持能夠使用不同的結(jié)構(gòu)和運(yùn)行系統(tǒng)存儲(chǔ)、處理和分配大量數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)設(shè)施的需求。Hadoop是一個(gè)可擴(kuò)展的計(jì)算和存儲(chǔ)平臺(tái),在互聯(lián)網(wǎng)公司和科學(xué)界被廣泛

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論