版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、智能交通系統(tǒng)的數(shù)據(jù)基礎(chǔ)設(shè)施5.1簡(jiǎn)介越來(lái)越多的數(shù)據(jù)是通過(guò)聯(lián)網(wǎng)運(yùn)輸系統(tǒng)產(chǎn)生和處理的,這些系統(tǒng)由部署在聯(lián)網(wǎng)車輛、道路 / 路側(cè)設(shè)備、交通信號(hào)和移動(dòng)設(shè)備(統(tǒng)稱為物聯(lián)網(wǎng))中的大量傳感器組成。有效地收集、處理和分析這些數(shù)據(jù)的能力,以及提取驅(qū)動(dòng)智能交通系統(tǒng)(ITS)的洞察力和知識(shí)的能力是至關(guān)重要的。本章的目的是概述支持網(wǎng)聯(lián)交通系統(tǒng)(CTS)應(yīng)用需求的基礎(chǔ)設(shè)施。為了解決 CTS 的復(fù)雜需求,需要一個(gè)能夠使用不同的抽象和運(yùn)行系統(tǒng)存儲(chǔ) / 處理大量數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)設(shè)施。5.2網(wǎng)聯(lián)的交通管理系統(tǒng)及其負(fù)載特征CTS 數(shù)據(jù)應(yīng)用程序的負(fù)載特性:1)收集和獲?。篊TS 應(yīng)用的一個(gè)常見(jiàn)挑戰(zhàn)是數(shù)據(jù)收集。2)分析:典型的負(fù)載包括
2、將大量數(shù)據(jù)解析為結(jié)構(gòu)化格式。3)機(jī)器學(xué)習(xí):這涉及到以識(shí)別模式(非監(jiān)督學(xué)習(xí))、分類和 / 或預(yù)測(cè)(監(jiān)督學(xué)習(xí))為目標(biāo)的算法的使用。4)模型部署:開(kāi)發(fā)的模型通常部署在服務(wù)于用戶應(yīng)用程序的在線系統(tǒng)中。5.3基礎(chǔ)設(shè)施簡(jiǎn)介為了支持 CTS 中的應(yīng)用程序和數(shù)據(jù)管道的不同階段,需要一個(gè)以數(shù)據(jù)為中心的基礎(chǔ)結(jié)構(gòu),它具有數(shù)據(jù)收集、存儲(chǔ)、處理和模型部署并將結(jié)果提供給數(shù)據(jù)應(yīng)用程序的能力。5.4數(shù)據(jù)基礎(chǔ)設(shè)施頂層設(shè)計(jì)5.4.1 MapReduce :可拓展的數(shù)據(jù)處理Hadoop MapReduce 基于一種面向磁盤(pán)的方法,即在每次 MapReduce 運(yùn)行后需要在 HDFS 中持久化數(shù)據(jù)。這對(duì)于需要查詢的交互式或?qū)崟r(shí)分析以
3、及機(jī)器學(xué)習(xí)的迭代處理來(lái)說(shuō),會(huì)導(dǎo)致訪問(wèn)速度變慢。為了解決這些問(wèn)題,出現(xiàn)了各種處理和執(zhí)行框架,如Spark、Flink 和 Tez。5.4.2數(shù)據(jù)接受和流處理傳統(tǒng)的數(shù)據(jù)集方法側(cè)重于完整的有界數(shù)據(jù)集的收集、存儲(chǔ)和分析。在 CTS 中,當(dāng)數(shù)據(jù)可能到達(dá)網(wǎng)絡(luò)邊緣或設(shè)備本身時(shí),分析數(shù)據(jù)通常是至關(guān)重要的。流處理的主要組件:消息代理系統(tǒng)流 處 理 引 擎5.4.3 SQL 和數(shù)據(jù)表SQL 已被證明是一種穩(wěn)定的數(shù)據(jù)查詢方法。SQL 的優(yōu)點(diǎn)眾所周知,它的查詢語(yǔ)言提供了一種魯棒的方法來(lái)獲取數(shù)據(jù)。許多案例依賴 SQL 作為數(shù)據(jù)提取的通用語(yǔ)法。它對(duì)于查詢來(lái)自較少結(jié)構(gòu)化數(shù)據(jù)源的柱狀數(shù)據(jù)特別有用。一般來(lái)說(shuō),有兩種架構(gòu):(1)
4、將 Hadoop 與現(xiàn)有的關(guān)系型數(shù)據(jù)庫(kù)集成;(2)在核心 Hadoop 服務(wù)(即 HDFS 和 YARN)之上實(shí)現(xiàn) SQL 引擎。數(shù)據(jù)結(jié)構(gòu)是基于 Spark SQL 并與之緊密集成的,允許用戶將不同的編程模型組合起來(lái)進(jìn)行數(shù)據(jù)提取和特征工程。數(shù)據(jù)結(jié)構(gòu)用于數(shù)據(jù)操作、分析和建模的強(qiáng)大抽象。5.4.4短時(shí)隨機(jī)數(shù)據(jù)讀取管理大多數(shù) Hadoop 工具依賴于快速順序讀取,用于支持可擴(kuò)展分析應(yīng)用程序的。其他數(shù)據(jù)訪問(wèn)模式,比如短時(shí)運(yùn)行和隨機(jī)訪問(wèn)查詢,與傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)相比,它們只是一個(gè)次要問(wèn)題。例如,HBase 允許可變和隨機(jī)訪問(wèn)數(shù)據(jù)集。HBase40 是一個(gè)基于 HDFS文件系統(tǒng)和 Hadoop 的面向列
5、的數(shù)據(jù)存儲(chǔ)。其他基于 Hadoop 的分析框架(比如 Hive 和Spark)可以直接訪問(wèn)它,而不需要移動(dòng)數(shù)據(jù)。5.4.5基于搜索的分析Gartner 將基于搜索的數(shù)據(jù)發(fā)現(xiàn)工具定義為:允許終端 / 業(yè)務(wù)用戶使用搜索詞創(chuàng)建結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的視圖和分析的工具 41。一些基于搜索的數(shù)據(jù)發(fā)現(xiàn)工具,例如 Elasticsearch、Solr 和 Splunk。ELK 棧使用 3 個(gè)互補(bǔ)的開(kāi)源工具:Elasticsearch42、Logstash43 和 Kibana44。Elasticsearch 支持基于索引搜索的數(shù)據(jù)分析,Logstash 是一種主要為日志文件設(shè)計(jì)的數(shù)據(jù)獲取和改進(jìn)的工具,Kiba
6、na 是一種可視化工具。5.4.6商業(yè)智能與數(shù)據(jù)科學(xué)可視化是數(shù)據(jù)分析過(guò)程的關(guān)鍵部分,對(duì)于提供分析見(jiàn)解至關(guān)重要。有兩組支持?jǐn)?shù)據(jù)分析的工具:BI 工具通常側(cè)重于在眾所周知的結(jié)構(gòu)化數(shù)據(jù)源上創(chuàng)建儀表盤(pán)的能力。數(shù)據(jù)科學(xué)工具支持更深層的數(shù)據(jù)處理和復(fù)雜的數(shù)據(jù)管道用于清洗、準(zhǔn)備和分析數(shù)據(jù)。為此,需要訪問(wèn)從 Excel 文件到 Hadoop 集群,再到關(guān)系型數(shù)據(jù)庫(kù)的各種數(shù)據(jù)源。隨著 BI 工具增加了訪問(wèn) Hadoop 集群和執(zhí)行高級(jí)分析的能力(例如通過(guò)集成 R),這兩個(gè)工具類別正在聚合。與此同時(shí),用于數(shù)據(jù)探索和發(fā)現(xiàn)的新的可視化工具出現(xiàn)了,比如 Trifacta。5.4.7機(jī)器學(xué)習(xí)大多數(shù)數(shù)據(jù)科學(xué)涉及到上百種多是手
7、工編寫(xiě)的簡(jiǎn)單易懂的算法的使用,如線性和邏輯回歸、支持向量機(jī)、隨機(jī)森林等。R 和 Python 都為機(jī)器學(xué)習(xí)提供了豐富的庫(kù)。Python數(shù)據(jù)生態(tài)系統(tǒng)包含強(qiáng)大的科學(xué)和分析庫(kù),如 NumPy、Pandas 和 Scikit-Learn。但是,它們通常不是并行的,因此在可擴(kuò)展性方面受到限制。Mahout、MLlib、Dato 和H2O 是在 Hadoop 基礎(chǔ)上提供高級(jí)機(jī)器學(xué)習(xí)功能的一些示例。5.5數(shù)據(jù)基礎(chǔ)設(shè)施底層設(shè)計(jì)5.5.1 Hadoop :存儲(chǔ)和計(jì)算管理Hadoop 核心包含兩個(gè)組件:Hadoop 分布式文件系統(tǒng)(HDFS) 和另一個(gè)資源協(xié)調(diào)器(YARN)。HDFS 提供了一個(gè)分布式文件系統(tǒng),它能夠隨著數(shù)據(jù)量增加而擴(kuò)展,同時(shí)還提供了冗余和完整性。YARN 為集群提供資源管理。5.5.2云環(huán)境下Hadoop 3 種模式可以用于云計(jì)算:公共模式、私有模式和混合模式。公共云在可擴(kuò)展性方面具有較大的靈活性。5.6章節(jié)總結(jié)與結(jié)論本章討論了支持 CTS 應(yīng)用的數(shù)據(jù)基礎(chǔ)設(shè)施。它提供了基礎(chǔ)設(shè)施的概述,以支持能夠使用不同的結(jié)構(gòu)和運(yùn)行系統(tǒng)存儲(chǔ)、處理和分配大量數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)設(shè)施的需求。Hadoop是一個(gè)可擴(kuò)展的計(jì)算和存儲(chǔ)平臺(tái),在互聯(lián)網(wǎng)公司和科學(xué)界被廣泛
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 貴州城市職業(yè)學(xué)院《操作系統(tǒng)概論》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年江蘇省安全員C證考試(專職安全員)題庫(kù)附答案
- 2025山東省建筑安全員A證考試題庫(kù)
- 飼草種植加工基地建設(shè)項(xiàng)目可行性研究報(bào)告-畜牧業(yè)需求持續(xù)擴(kuò)大
- 貴陽(yáng)人文科技學(xué)院《過(guò)程設(shè)備機(jī)械基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年江蘇省安全員B證考試題庫(kù)及答案
- 廣州現(xiàn)代信息工程職業(yè)技術(shù)學(xué)院《用戶調(diào)研》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣州鐵路職業(yè)技術(shù)學(xué)院《園藝作物育種學(xué)總論》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年-遼寧省安全員-C證考試(專職安全員)題庫(kù)附答案
- 2025遼寧建筑安全員-B證考試題庫(kù)及答案
- 2022年新媒體編輯實(shí)戰(zhàn)教程試題帶答案(題庫(kù))
- 在一日活動(dòng)中培養(yǎng)幼兒親社會(huì)行為的實(shí)踐研究報(bào)告
- 螺紋及緊固件基礎(chǔ)知識(shí)
- 滴滴打車項(xiàng)目融資計(jì)劃書(shū)ppt課件
- 【課文翻譯】新人教必修三 Unit 1-Unit5 課文翻譯(英漢對(duì)照)
- 高三數(shù)學(xué)集體備課記錄《函數(shù)的單調(diào)性與最值》
- 鋁合金型材切割作業(yè)指導(dǎo)書(shū)
- Windows錯(cuò)誤代碼解釋大全
- 閉水試驗(yàn)自動(dòng)計(jì)算公式及說(shuō)明
- “挑戰(zhàn)杯”優(yōu)秀組織獎(jiǎng)申報(bào)材料
- 小學(xué)二年級(jí)上冊(cè)道德與法治教學(xué)工作總結(jié)
評(píng)論
0/150
提交評(píng)論