智能交通系統(tǒng)數(shù)據(jù)分析課件5第五章

上傳人：z*** IP屬地：貴州上傳時(shí)間：2022-09-25 格式：PPTX 頁(yè)數(shù)：14 大小：2.49MB 積分：22 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩9頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、智能交通系統(tǒng)的數(shù)據(jù)基礎(chǔ)設(shè)施5.1簡(jiǎn)介越來(lái)越多的數(shù)據(jù)是通過(guò)聯(lián)網(wǎng)運(yùn)輸系統(tǒng)產(chǎn)生和處理的，這些系統(tǒng)由部署在聯(lián)網(wǎng)車輛、道路 / 路側(cè)設(shè)備、交通信號(hào)和移動(dòng)設(shè)備（統(tǒng)稱為物聯(lián)網(wǎng)）中的大量傳感器組成。有效地收集、處理和分析這些數(shù)據(jù)的能力，以及提取驅(qū)動(dòng)智能交通系統(tǒng)（ITS）的洞察力和知識(shí)的能力是至關(guān)重要的。本章的目的是概述支持網(wǎng)聯(lián)交通系統(tǒng)（CTS）應(yīng)用需求的基礎(chǔ)設(shè)施。為了解決 CTS 的復(fù)雜需求，需要一個(gè)能夠使用不同的抽象和運(yùn)行系統(tǒng)存儲(chǔ) / 處理大量數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)設(shè)施。5.2網(wǎng)聯(lián)的交通管理系統(tǒng)及其負(fù)載特征CTS 數(shù)據(jù)應(yīng)用程序的負(fù)載特性:1）收集和獲?。篊TS 應(yīng)用的一個(gè)常見(jiàn)挑戰(zhàn)是數(shù)據(jù)收集。2）分析：典型的負(fù)載包括

2、將大量數(shù)據(jù)解析為結(jié)構(gòu)化格式。3）機(jī)器學(xué)習(xí)：這涉及到以識(shí)別模式（非監(jiān)督學(xué)習(xí)）、分類和 / 或預(yù)測(cè)（監(jiān)督學(xué)習(xí)）為目標(biāo)的算法的使用。4）模型部署：開(kāi)發(fā)的模型通常部署在服務(wù)于用戶應(yīng)用程序的在線系統(tǒng)中。5.3基礎(chǔ)設(shè)施簡(jiǎn)介為了支持 CTS 中的應(yīng)用程序和數(shù)據(jù)管道的不同階段，需要一個(gè)以數(shù)據(jù)為中心的基礎(chǔ)結(jié)構(gòu)，它具有數(shù)據(jù)收集、存儲(chǔ)、處理和模型部署并將結(jié)果提供給數(shù)據(jù)應(yīng)用程序的能力。5.4數(shù)據(jù)基礎(chǔ)設(shè)施頂層設(shè)計(jì)5.4.1 MapReduce ：可拓展的數(shù)據(jù)處理Hadoop MapReduce 基于一種面向磁盤(pán)的方法，即在每次 MapReduce 運(yùn)行后需要在 HDFS 中持久化數(shù)據(jù)。這對(duì)于需要查詢的交互式或?qū)崟r(shí)分析以

3、及機(jī)器學(xué)習(xí)的迭代處理來(lái)說(shuō)，會(huì)導(dǎo)致訪問(wèn)速度變慢。為了解決這些問(wèn)題，出現(xiàn)了各種處理和執(zhí)行框架，如Spark、Flink 和 Tez。5.4.2數(shù)據(jù)接受和流處理傳統(tǒng)的數(shù)據(jù)集方法側(cè)重于完整的有界數(shù)據(jù)集的收集、存儲(chǔ)和分析。在 CTS 中，當(dāng)數(shù)據(jù)可能到達(dá)網(wǎng)絡(luò)邊緣或設(shè)備本身時(shí)，分析數(shù)據(jù)通常是至關(guān)重要的。流處理的主要組件：消息代理系統(tǒng)流處理引擎5.4.3 SQL 和數(shù)據(jù)表SQL 已被證明是一種穩(wěn)定的數(shù)據(jù)查詢方法。SQL 的優(yōu)點(diǎn)眾所周知，它的查詢語(yǔ)言提供了一種魯棒的方法來(lái)獲取數(shù)據(jù)。許多案例依賴 SQL 作為數(shù)據(jù)提取的通用語(yǔ)法。它對(duì)于查詢來(lái)自較少結(jié)構(gòu)化數(shù)據(jù)源的柱狀數(shù)據(jù)特別有用。一般來(lái)說(shuō)，有兩種架構(gòu)：（1）

4、將 Hadoop 與現(xiàn)有的關(guān)系型數(shù)據(jù)庫(kù)集成；（2）在核心 Hadoop 服務(wù)（即 HDFS 和 YARN）之上實(shí)現(xiàn) SQL 引擎。數(shù)據(jù)結(jié)構(gòu)是基于 Spark SQL 并與之緊密集成的，允許用戶將不同的編程模型組合起來(lái)進(jìn)行數(shù)據(jù)提取和特征工程。數(shù)據(jù)結(jié)構(gòu)用于數(shù)據(jù)操作、分析和建模的強(qiáng)大抽象。5.4.4短時(shí)隨機(jī)數(shù)據(jù)讀取管理大多數(shù) Hadoop 工具依賴于快速順序讀取，用于支持可擴(kuò)展分析應(yīng)用程序的。其他數(shù)據(jù)訪問(wèn)模式，比如短時(shí)運(yùn)行和隨機(jī)訪問(wèn)查詢，與傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)相比，它們只是一個(gè)次要問(wèn)題。例如，HBase 允許可變和隨機(jī)訪問(wèn)數(shù)據(jù)集。HBase40 是一個(gè)基于 HDFS文件系統(tǒng)和 Hadoop 的面向列

5、的數(shù)據(jù)存儲(chǔ)。其他基于 Hadoop 的分析框架（比如 Hive 和Spark）可以直接訪問(wèn)它，而不需要移動(dòng)數(shù)據(jù)。5.4.5基于搜索的分析Gartner 將基于搜索的數(shù)據(jù)發(fā)現(xiàn)工具定義為：允許終端 / 業(yè)務(wù)用戶使用搜索詞創(chuàng)建結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的視圖和分析的工具 41。一些基于搜索的數(shù)據(jù)發(fā)現(xiàn)工具，例如 Elasticsearch、Solr 和 Splunk。ELK 棧使用 3 個(gè)互補(bǔ)的開(kāi)源工具：Elasticsearch42、Logstash43 和 Kibana44。Elasticsearch 支持基于索引搜索的數(shù)據(jù)分析，Logstash 是一種主要為日志文件設(shè)計(jì)的數(shù)據(jù)獲取和改進(jìn)的工具，Kiba

6、na 是一種可視化工具。5.4.6商業(yè)智能與數(shù)據(jù)科學(xué)可視化是數(shù)據(jù)分析過(guò)程的關(guān)鍵部分，對(duì)于提供分析見(jiàn)解至關(guān)重要。有兩組支持?jǐn)?shù)據(jù)分析的工具：BI 工具通常側(cè)重于在眾所周知的結(jié)構(gòu)化數(shù)據(jù)源上創(chuàng)建儀表盤(pán)的能力。數(shù)據(jù)科學(xué)工具支持更深層的數(shù)據(jù)處理和復(fù)雜的數(shù)據(jù)管道用于清洗、準(zhǔn)備和分析數(shù)據(jù)。為此，需要訪問(wèn)從 Excel 文件到 Hadoop 集群，再到關(guān)系型數(shù)據(jù)庫(kù)的各種數(shù)據(jù)源。隨著 BI 工具增加了訪問(wèn) Hadoop 集群和執(zhí)行高級(jí)分析的能力（例如通過(guò)集成 R），這兩個(gè)工具類別正在聚合。與此同時(shí)，用于數(shù)據(jù)探索和發(fā)現(xiàn)的新的可視化工具出現(xiàn)了，比如 Trifacta。5.4.7機(jī)器學(xué)習(xí)大多數(shù)數(shù)據(jù)科學(xué)涉及到上百種多是手

7、工編寫(xiě)的簡(jiǎn)單易懂的算法的使用，如線性和邏輯回歸、支持向量機(jī)、隨機(jī)森林等。R 和 Python 都為機(jī)器學(xué)習(xí)提供了豐富的庫(kù)。Python數(shù)據(jù)生態(tài)系統(tǒng)包含強(qiáng)大的科學(xué)和分析庫(kù)，如 NumPy、Pandas 和 Scikit-Learn。但是，它們通常不是并行的，因此在可擴(kuò)展性方面受到限制。Mahout、MLlib、Dato 和H2O 是在 Hadoop 基礎(chǔ)上提供高級(jí)機(jī)器學(xué)習(xí)功能的一些示例。5.5數(shù)據(jù)基礎(chǔ)設(shè)施底層設(shè)計(jì)5.5.1 Hadoop ：存儲(chǔ)和計(jì)算管理Hadoop 核心包含兩個(gè)組件：Hadoop 分布式文件系統(tǒng)（HDFS）和另一個(gè)資源協(xié)調(diào)器（YARN）。HDFS 提供了一個(gè)分布式文件系統(tǒng)，它能夠隨著數(shù)據(jù)量增加而擴(kuò)展，同時(shí)還提供了冗余和完整性。YARN 為集群提供資源管理。5.5.2云環(huán)境下Hadoop 3 種模式可以用于云計(jì)算：公共模式、私有模式和混合模式。公共云在可擴(kuò)展性方面具有較大的靈活性。5.6章節(jié)總結(jié)與結(jié)論本章討論了支持 CTS 應(yīng)用的數(shù)據(jù)基礎(chǔ)設(shè)施。它提供了基礎(chǔ)設(shè)施的概述，以支持能夠使用不同的結(jié)構(gòu)和運(yùn)行系統(tǒng)存儲(chǔ)、處理和分配大量數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)設(shè)施的需求。Hadoop是一個(gè)可擴(kuò)展的計(jì)算和存儲(chǔ)平臺(tái)，在互聯(lián)網(wǎng)公司和科學(xué)界被廣泛

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

智能交通系統(tǒng)數(shù)據(jù)分析課件5第五章

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

智能交通系統(tǒng)數(shù)據(jù)分析課件5第五章

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔