



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)挖掘在智慧交通領域的應用 摘要:論述了數(shù)據(jù)挖掘的技術概述和方法論,分析了智慧交通領域數(shù)據(jù)的現(xiàn)狀,結合數(shù)據(jù)挖掘方法論和當前國內研究實際情況,提出了適合智慧城市建設的挖掘思路,以一個典型的挖掘案例來具體說明這些關鍵環(huán)節(jié)上的主要工作和產物。 關鍵詞: CRISP-DM;數(shù)據(jù)挖掘;智慧城市;聚類算法 中圖分類號: F49 文獻標識碼:A 文章編號:16723198(2013)12015202 1引言 2009年某省會城市市委提出,將充分發(fā)揮軟件產業(yè)優(yōu)勢,集成先進技術,推進電信網、廣電網與互聯(lián)網在技術上的融合,努力建設以信息資源數(shù)字化、信息傳輸網絡化、信
2、息技術應用普及化為主要標志的“智慧城市”。 “智能交通”工程是智慧城市中的一個重要標志,目前該城市用地布局已基本確定,在中心城區(qū)道路不允許大規(guī)模擴建和改造的前提下,唯有依靠智能交通系統(tǒng)(ITS),對城市交通進行更有效的控制和管理,提高交通的機動性、安全性,最大限度地發(fā)揮現(xiàn)有道路資源的效率。交通信息主要由道路信息、監(jiān)測基站、車輛種類、車輛速度、車流量、違法違章信息、道路事故等信息組成,隨著設備的部署及時間的推移,交通信息的數(shù)據(jù)量越來越龐大,面對海量的獨立的數(shù)據(jù),按照傳統(tǒng)的維度匯總、以特定的視角去分析統(tǒng)計的方法是無法從這些龐大的數(shù)據(jù)中獲取價值。因此我們需要新的智慧的手段、能夠發(fā)現(xiàn)有效信息的技術,這
3、就是數(shù)據(jù)挖掘(Data Mining)。 數(shù)據(jù)挖掘是為了在海量的低價值數(shù)據(jù)中發(fā)掘出有用的高價值數(shù)據(jù),在交通領域可以用來識別道路通行的能力并可用作未來車輛流量的預測依據(jù),把抽樣的數(shù)據(jù)進行類比分析得出隱藏在數(shù)據(jù)中的的發(fā)展趨勢,預測道路車輛流量的發(fā)展,并根據(jù)預測的結論來管理交通。另一方面可以研究各種與交通存在潛在關系的對象的數(shù)據(jù),來識別這些影響道路運營的因素,同時演算出測出各個因素的影響度,最終的目的是利用這些挖掘出來的高價值信息,精確地指導交通,為城市服務。 2數(shù)據(jù)挖掘概述 數(shù)據(jù)挖掘是從大量的、有噪聲的、模糊的數(shù)據(jù)中提取隱含在其中未知的、有用的信息和知識的過程。隨著互聯(lián)網時代的到來,城市在運作過程
4、中形成的數(shù)據(jù)快速增長,小到個人,大到企業(yè)、政府城市都堆積了海量的信息。數(shù)據(jù)的爆炸式增長,廣泛可用和海量的數(shù)據(jù)使我們進入了數(shù)據(jù)時代,同時也讓我們面臨信息匱乏的困境,因此能從海量數(shù)據(jù)中發(fā)掘有效信息的工具成了人們的迫切需求,數(shù)據(jù)挖掘正是順應這種需求而誕生。 數(shù)據(jù)挖掘的通常有如下幾大任務:關聯(lián)分析、分類分析、聚類分析、離群點分析、時間序列分析等。 (1)關聯(lián)分析是指如果兩個或多個對象之間存在某種關聯(lián),那么其中一個對象就能通過其它對象進行預測。其目的是為了挖掘數(shù)據(jù)間的隱藏在相互關系。而數(shù)據(jù)關聯(lián)說的是數(shù)據(jù)庫中重要的、可被發(fā)現(xiàn)的知識。關聯(lián)分為簡單、時序和關聯(lián)。它通常由兩個關鍵指標來度量其相關性:支持度與可信
5、度,后續(xù)研究過程中逐步引入其它參數(shù),如興趣度、相關性等,保證挖掘得到的規(guī)則更接近真實情況。 關聯(lián)性分析廣泛應用于銷售分析與事務數(shù)據(jù)分析之中。更重要的是關聯(lián)性分析是很多其它挖掘任務,如classification、sequential pattern mining的基礎。 (2)分類分析就是找出一個描述和區(qū)分數(shù)據(jù)類別的模型,以便可以預測未知數(shù)據(jù)的類別。分類的主概念是訓練集,數(shù)據(jù)利用它按特定的模型推出分類。應用最為廣泛的兩種分類模型是決策樹模型和樸素貝葉斯模型。 (3)聚類分析是在數(shù)據(jù)對象沒有預定類別的前提下,把數(shù)據(jù)按照相“最大化類內相似性,最小化類間相似性”的原則歸納成若干類別,從而使得同一類的
6、數(shù)據(jù)對象有很高的相似性,不同類之間相似性比較低。通常對于數(shù)據(jù)的分析,宏觀性的概念可以由聚類來建立,得出它的分布模式,同時可以發(fā)現(xiàn)一些屬性間的相互依賴關系。 (4)離群點分析通過假定一個數(shù)據(jù)分布或者概率模型,利用統(tǒng)計檢驗來檢測離群點,或者使用距離度量,將遠離簇的對象發(fā)現(xiàn)離群點。數(shù)據(jù)集中可能包含一些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對象,它們被稱為離群點,大部分數(shù)據(jù)挖掘方法都將離群點視為異常或者是噪聲將其丟棄,然而在一些應用中,罕見的事比正常的事包含根據(jù)豐富的信息量。 (5)時間序列是按時間順序的一組數(shù)字序列,分析這些數(shù)據(jù),演算出的重復發(fā)生概率較高的模式,進而通過分析,根據(jù)已有的數(shù)據(jù)推算出未來的數(shù)
7、據(jù)范圍。時間序列分析則側重研究數(shù)據(jù)序列的互相依賴關系。 3數(shù)據(jù)挖掘在智慧交通領域的應用 智慧城市數(shù)據(jù)中心最終要求構建一個開發(fā)、可擴展的統(tǒng)一數(shù)據(jù)中心平臺。其中交通是該平臺的一塊比較重要的領域,智能交通技術已經越來越成為大家備受關注的交通技術,“智能”的能力體現(xiàn)在可以使用一定的算法來海量、獨立、雜亂、不規(guī)則的數(shù)據(jù)。它需要能從這些數(shù)據(jù)中提煉出一些規(guī)則,而這些規(guī)則都擁有一顆“智慧”的心,利用它們可以很好的指導交通,從而發(fā)現(xiàn)日常數(shù)據(jù)中隱藏的變化規(guī)律和結論。本文將采用IBM的SPSS對交通數(shù)據(jù)進行挖掘,力求更加準確的得到數(shù)據(jù)中隱藏的“知識”。 3.1數(shù)據(jù)挖掘過程模型應用 智慧城市平臺架構要能為城市管理提供
8、如下信息驅動業(yè)務的閉環(huán)流程:獲取信息分析數(shù)據(jù)管理決策績效分析獲取信息,通過這種良性的持續(xù)改善流程循環(huán)來實現(xiàn)數(shù)據(jù)中心的最佳實踐目標。結合CRISP-DM過程模型設計出挖掘的整體框架,如圖1。 圖1智慧交通數(shù)據(jù)挖掘過程圖 3.2交通數(shù)據(jù)預處理 本數(shù)據(jù)來源于該城市各個路段車輛抓拍設備采集的原始數(shù)據(jù),包括了2013年2月和3月份的主要數(shù)據(jù)。由于抓拍設備故障、車輛狀況或天氣情況通常會造成數(shù)據(jù)錯誤、不完整甚至數(shù)據(jù)缺失,這樣會對后續(xù)的分析效果產生極大的影響。所以在分析數(shù)據(jù)之前,必須對錯誤、不完整和丟失的數(shù)據(jù)進行預處理,為后續(xù)數(shù)據(jù)分析做好比較好的基礎。 為了方便處理,把數(shù)據(jù)全部加載到數(shù)據(jù)庫中,根據(jù)數(shù)據(jù)的特點,
9、針對異常數(shù)據(jù)情況進行分別處理。首先分析各個字段,檢查數(shù)據(jù)是否滿足既定的業(yè)務含義,對于數(shù)字型字段通過閾值法識別出明顯的錯誤數(shù)據(jù);然后采用正態(tài)分布原則識別出去除較為隱含的異常數(shù)據(jù)。在識別出異常的數(shù)據(jù)之后,可以用當前時間的相鄰的同期歷史均值將其替代補償。同時為了保證樣本數(shù)據(jù)的完整性和精確性,采樣數(shù)據(jù)的時間間隔處理為5分鐘,得出某個一天的抓拍數(shù)據(jù)采樣個數(shù)為288。 3.3建立挖掘模型 本文選擇了該城市的某個快速路段這兩月內抓拍數(shù)據(jù)按照時間序列進行聚類分析。希望發(fā)現(xiàn)一些典型的車輛流量的變化趨勢,同時識別出不同類別車輛流量模式背后的時段特性,可以為日后的車輛流量預測做好數(shù)據(jù)準備理論依據(jù)。在數(shù)據(jù)挖掘的聚類過
10、程中,不需要事先人為的確定分類數(shù),分類的個數(shù)由工具在通過聚類算法過程中的不斷變化的統(tǒng)計量來自動調整確定。 3.4實驗結果 需要通過聚類先觀察數(shù)據(jù)的特點,打開SPSS Modeler建立了待分析的數(shù)據(jù)源、視圖和需要挖掘的結構,本次為了找到數(shù)據(jù)內部不同時間的特點,采用了聚類算法,希望得出這些數(shù)據(jù)自身可以分為幾類,分析每個類別之間的有沒有存在關系等。根據(jù)分類后的數(shù)據(jù),單獨每類統(tǒng)計車流量曲線圖,再根據(jù)多條同類別的曲線圖,轉換為流量模式曲線圖。最終合成在同一個圖中,得到5條車流量模式曲線對比圖,如圖2。 圖2各類車流量模式曲線 3.5挖掘結果分析 根據(jù)上一節(jié)中兩個月來的數(shù)據(jù)得來的五類車流量模式曲線對比圖
11、以及各類的樣本分布情況,可以得出以下結論: (1)二月數(shù)據(jù)相對均勻分布在各個類別中,而三月則主要集中在前三類中,由此可以得出兩月流量趨勢總體上有比較大的不同,形成這樣的原因應該和兩個月份不同假期情況、天氣情況有很大關系。 (2)平常工作日的車流量大致分為兩種情況,參見2中第一、二類曲線,總體上比較接近,各自有3到4個高峰點,和市民實際生活中的早中晚的上下班小高峰一一對應。需要額外注意的是,另外一個小高峰會在晚上9點左右呈現(xiàn)。這兩類情況,總體態(tài)勢類似,但是各自的高峰時間不是同時來臨的,且它們達到高峰的數(shù)據(jù)值也不相等,各自的持續(xù)時間也不一樣。 (3)兩個月的周末流量均呈現(xiàn)同種態(tài)勢,如圖2中第三類曲
12、線,這條曲線它的峰值出現(xiàn)不是很明顯,只是存在幾個小的平高峰,而且這些區(qū)域的走勢總體變化平緩,數(shù)值上下波動不大,時間持續(xù)亦較長,考慮到市民實際出行情況,由于是非工作日,市民的出行比較不規(guī)律,不容易看到類似平常工作日的上下班高峰點,僅僅是在上下午出現(xiàn)了長時間的平高峰。 (4)對于二月份特有的曲線,如圖2,在第四類中,正值春節(jié)長假期間,人們出行隨機性大,走勢非常平穩(wěn)。對于第五類中夜間的流量較為大,恰逢節(jié)假日邊緣,人們往返流量較大,符合日常假期的流動情況。 將這些有著類似變化趨勢的車輛流量數(shù)據(jù)按照時間序列通過聚類分析是一件很有實際意義的事,它能夠發(fā)現(xiàn)車輛流量逐漸發(fā)生變化走勢情況,同時也能夠對這些有著不
13、同走勢特性的數(shù)據(jù)進行組合,這些組內的數(shù)據(jù)有著比較接近的特性。后續(xù)我們依據(jù)此分析結果,可以進一步對路段車輛流量進行精確預測,再結合其它方面的因素,為更好的規(guī)劃、控制和優(yōu)化交通提供幫助。 4結論 智慧交通是智慧城市的一部分,是一個服務于特大型城市級別的,具有自適應性的智慧應用與整合能力的集成軟件系統(tǒng)。所以設立一套科學、合理的方法論和管理過程模型,是保證該項目成功的一個非常重要的前提,數(shù)據(jù)挖掘方法論和過程模型為實現(xiàn)由信息驅動業(yè)務的持續(xù)改善閉環(huán)提供了可能,同時也為該項目的大規(guī)模復制和推廣創(chuàng)造了基礎條件。針對交通信息甚至城市發(fā)展中各類信息的不確定性,傳統(tǒng)的多維匯總分析數(shù)據(jù)是存在不足的,而數(shù)據(jù)挖掘技術的使用是很有必要的。隨著挖
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專項10 文學常識(試卷版)
- 2025屆江蘇省鹽城市射陽中學高三上學期一模物理試題(解析版)
- 2025屆四川省資陽市安岳中學高三二模語文試題(原卷版+解析版)
- 人教版九年級下冊化學教學工作計劃(含進度表)
- 《跨境電子商務法律法規(guī) 》全套教學課件
- 廣東省廣州市華南師范附屬中學2024-2025學年高二下學期3月月考物理試卷(原卷版+解析版)
- 教育咨詢居間協(xié)議樣本
- 汽車車身電子控制技術指南
- 中醫(yī)護理學(第5版)課件 第三節(jié) 中藥煎服法與護理
- 雨水收集再利用系統(tǒng)
- JJG 257-2007浮子流量計行業(yè)標準
- 2023年 新版評審準則質量記錄手冊表格匯編
- 2024年全國版圖知識競賽(小學組)考試題庫大全(含答案)
- 博物館保安服務投標方案(技術方案)
- (高清版)TDT 1047-2016 土地整治重大項目實施方案編制規(guī)程
- 2024年新疆維吾爾自治區(qū)中考一模綜合道德與法治試題
- 醫(yī)藥代表專業(yè)化拜訪技巧培訓
- 今年夏天二部合唱譜
- 現(xiàn)代制造技術課件
- 小米公司招聘測試題目
- 2024年北京控股集團有限公司招聘筆試參考題庫含答案解析
評論
0/150
提交評論