基于SSIS的運(yùn)輸管理數(shù)據(jù)中心的建設(shè)與研究_第1頁
基于SSIS的運(yùn)輸管理數(shù)據(jù)中心的建設(shè)與研究_第2頁
基于SSIS的運(yùn)輸管理數(shù)據(jù)中心的建設(shè)與研究_第3頁
基于SSIS的運(yùn)輸管理數(shù)據(jù)中心的建設(shè)與研究_第4頁
基于SSIS的運(yùn)輸管理數(shù)據(jù)中心的建設(shè)與研究_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、基于SSIS的運(yùn)輸管理數(shù)據(jù)中心的建設(shè)與研究    摘要:隨著互聯(lián)網(wǎng)的迅猛發(fā)展,運(yùn)輸管理網(wǎng)絡(luò)建設(shè)進(jìn)入的一個(gè)新的階段,即數(shù)字化交通運(yùn)輸網(wǎng)絡(luò),數(shù)字化網(wǎng)絡(luò)以運(yùn)輸管理數(shù)據(jù)中心為中心,用SQL Server 2005 Integration Service工具,對(duì)交通運(yùn)輸管理中的運(yùn)輸、管理等交通運(yùn)輸部門數(shù)據(jù)進(jìn)行整合,以實(shí)現(xiàn)信息的共享,從而解決交通運(yùn)輸管理“信息孤島”問題。關(guān)鍵詞:運(yùn)輸管理;數(shù)據(jù)中心;ETL;SQL Server 2005;SSIS;數(shù)據(jù)挖掘中中圖分類號(hào):N37 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007-9599 (2010) 07-0000-02SSIS-b

2、ased Transportation Management Data CenterConstruction and ResearchDong Wanjie(Transportation Bureau of Handan,Handan056002,China)Abstract:With the rapid development of Internet,transportation management network construction into a new stage,namely,the digital transportation network,digital network

3、in transport management data center as the center,with SQL Server 2005 need for transportation service tool,the road transport administration and management,transportation departments,in order to realize the integration of data sharing of information,so as to solve transportation management"isl

4、ands of information".Keywords:Transportation management;Data center;ETL;SQL server 2005;SSIS;Data mining隨著互聯(lián)網(wǎng)的迅猛發(fā)展,交通運(yùn)輸管理網(wǎng)絡(luò)建設(shè)進(jìn)入的一個(gè)新的階段,即數(shù)字化交通運(yùn)輸管理網(wǎng)絡(luò),數(shù)字化網(wǎng)絡(luò)是以交通運(yùn)輸管理數(shù)據(jù)中心為中心,用現(xiàn)代先進(jìn)的和成熟的信息技術(shù)為工具,對(duì)交通運(yùn)輸管理中的道路、運(yùn)輸、管理等運(yùn)輸部門數(shù)據(jù)進(jìn)行整合,以實(shí)現(xiàn)區(qū)域內(nèi)運(yùn)輸管理信息的共享。目前,從表面上看運(yùn)輸、管理等部門的管理和服務(wù)信息相當(dāng)完善。但是,這些管理服務(wù)信息是在不同的時(shí)間、技術(shù)和環(huán)境下設(shè)計(jì)開發(fā),所以在開

5、發(fā)技術(shù)、時(shí)間和設(shè)計(jì)思想上有著很大差異,這樣就可能導(dǎo)致信息和數(shù)據(jù)存在不兼容或者不健全。而且這些信息服務(wù)各自為一體,彼此孤立,缺少統(tǒng)一的管理,使用的數(shù)據(jù)庫雜亂無章,數(shù)據(jù)類型不相統(tǒng)一,內(nèi)部數(shù)據(jù)存儲(chǔ)相對(duì)比較混亂。同時(shí)各部門也缺少相互溝通,造成了各個(gè)部門的信息成了“信息孤島”,給整個(gè)網(wǎng)絡(luò)管理也帶來了相當(dāng)大的困難,從而也使一些黑客有機(jī)會(huì)可乘,對(duì)數(shù)據(jù)信息造成一定的破壞。并且對(duì)用戶使用來說也不得不調(diào)用不同的數(shù)據(jù)庫來尋找獲得數(shù)據(jù),操作相當(dāng)復(fù)雜。因此,必須建立一個(gè)公共數(shù)據(jù)中心平臺(tái),集中統(tǒng)一各個(gè)部門的數(shù)據(jù),將各部門的數(shù)據(jù)統(tǒng)一進(jìn)行管理,讓用戶來共享,從而使用戶通過公共數(shù)據(jù)中心平臺(tái)獲得更多、更安全的數(shù)據(jù)信息。一、什么是

6、SSISSSIS(Microsoft SQL Server 2005 Integration Services)是生成高性能數(shù)據(jù)集成解決方案的一個(gè)平臺(tái),它包括數(shù)據(jù)倉庫的提取、轉(zhuǎn)換和加載(ETL)包。可以連接各種各樣的數(shù)據(jù)源,包括使用·net和OLE DB連接的關(guān)系數(shù)據(jù)庫、使用 ODBC連接的早期數(shù)據(jù)庫以及平面文件、Excel文件等。將來自異類數(shù)據(jù)存儲(chǔ)區(qū)、不同數(shù)據(jù)源的數(shù)據(jù)經(jīng)過提取、轉(zhuǎn)換填充到數(shù)據(jù)倉庫和數(shù)據(jù)集中。二、數(shù)據(jù)中心建設(shè)技術(shù)和方法(一)ETL技術(shù)ETL(Extraction-Transformation-Loading)稱為數(shù)據(jù)提取、轉(zhuǎn)換和加載。就是運(yùn)輸管理公共數(shù)據(jù)中心平臺(tái)通過專

7、門的技術(shù)和手段從各個(gè)部門數(shù)據(jù)庫中提取,轉(zhuǎn)化數(shù)據(jù),使數(shù)據(jù)庫中數(shù)據(jù)類型轉(zhuǎn)換成一致,然后裝載如數(shù)據(jù)倉庫(公共數(shù)據(jù)中心平臺(tái)),從而對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一的管理和維護(hù),這種手段就是ETL技術(shù)。ETL用于從多個(gè)數(shù)據(jù)源提取業(yè)務(wù)數(shù)據(jù),清理數(shù)據(jù),然后集成這些數(shù)據(jù),并將它們裝入數(shù)據(jù)倉庫數(shù)據(jù)庫中,為數(shù)據(jù)分析做好準(zhǔn)備。也就是說ETL是將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉庫的過程,目的是將管理的各部門中分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起,為交通運(yùn)輸管理的決策提供分析依據(jù)。從而避免了用戶直接訪問各部門的數(shù)據(jù)庫,對(duì)數(shù)據(jù)庫造成破環(huán)。同時(shí)也提高了用戶的訪問速度,使個(gè)部門數(shù)據(jù)能夠最大限度的實(shí)現(xiàn)共享。減少了數(shù)據(jù)冗余,節(jié)省

8、了資源空間。(二)實(shí)現(xiàn)方法目前,ETL的實(shí)現(xiàn)方法有多種,微軟新一代數(shù)據(jù)管理與分析平臺(tái)SQL Server 2005為構(gòu)建交通運(yùn)輸管理公共數(shù)據(jù)平臺(tái)提供了一整套解決方案。它是一個(gè)更安全、可靠和高效的數(shù)據(jù)平臺(tái)。它集成的Integration Service(SSIS)服務(wù),對(duì)大量的數(shù)據(jù)SSIS能以高速進(jìn)行復(fù)雜的數(shù)據(jù)集成、轉(zhuǎn)換及合成,可以更加容易的集成和分析來自多個(gè)異構(gòu)信息源的數(shù)據(jù)信息。并且,SSIS還具有完全的可編程性、可嵌入性和可擴(kuò)展性,使它成為一個(gè)理想的數(shù)據(jù)信息采集平臺(tái),堪稱企業(yè)級(jí)數(shù)據(jù)挖掘工具。SSIS提供了很多的數(shù)據(jù)類型的連接,如平面文件連接,各種數(shù)據(jù)庫文件連接等,它能夠從多個(gè)數(shù)據(jù)源中提取數(shù)據(jù)

9、,并能夠在內(nèi)存中進(jìn)行集成轉(zhuǎn)換,然后再寫入到一個(gè)或者多個(gè)目的數(shù)據(jù)庫中去。在ETL設(shè)計(jì)過程中,SSIS把控制流和數(shù)據(jù)流分開進(jìn)行操作,這樣能夠使用戶在開發(fā)設(shè)計(jì)時(shí)思路更加的清晰自然,準(zhǔn)確明了。同時(shí),SSIS還提供了多種數(shù)據(jù)轉(zhuǎn)換類型,涵蓋了當(dāng)前幾乎所有數(shù)據(jù)庫所涉及的數(shù)據(jù)類型,用戶在使用過程中完全不必因?yàn)閿?shù)據(jù)類型不相匹配而苦惱。因此,SSIS是構(gòu)建當(dāng)前交通運(yùn)輸管理公共數(shù)據(jù)中心平臺(tái)最理想、最便捷的工具。三、數(shù)據(jù)中心建設(shè)的技術(shù)實(shí)現(xiàn)運(yùn)輸管理數(shù)據(jù)中心ETL技術(shù)的實(shí)現(xiàn)過程分三步進(jìn)行:1.數(shù)據(jù)提取;2.數(shù)據(jù)的清洗轉(zhuǎn)換;3.數(shù)據(jù)的裝載和日志。而在構(gòu)建公共數(shù)據(jù)平臺(tái)的時(shí)候,也是按照這三步進(jìn)行。(一)數(shù)據(jù)提取在對(duì)數(shù)據(jù)處理之前

10、,首先需要對(duì)數(shù)據(jù)源進(jìn)行詳細(xì)分析,弄清楚各個(gè)部門所用的數(shù)據(jù)庫和數(shù)據(jù)庫中的數(shù)據(jù)類型,了解要提取數(shù)據(jù)庫中的哪些有用字段。同時(shí)對(duì)提取數(shù)據(jù)庫的關(guān)鍵字段和涉及部門隱私信息進(jìn)行處理。收集完這些數(shù)據(jù)信息后,才能開始數(shù)據(jù)的提取設(shè)計(jì)。數(shù)據(jù)提取的時(shí)候,首先要對(duì)各部門數(shù)據(jù)庫進(jìn)行有效連接,SSIS提供了多種數(shù)據(jù)庫的連接方式:1.對(duì)于文件類型數(shù)據(jù)源(.txt、.xls)連接時(shí),可以用SSIS提供的平面文件源進(jìn)行連接。2.對(duì)非文件類型的數(shù)據(jù)源進(jìn)行連接時(shí),一般是采用驅(qū)動(dòng)接口來建立連接,SSIS在OLE DB源中提供了一整套的驅(qū)動(dòng)接口類型,就是為異構(gòu)數(shù)據(jù)庫連接做準(zhǔn)備。3.在與ORACLE 數(shù)據(jù)源相連接是時(shí)候,必須要安裝ORAC

11、LE 客戶端,這樣才能與ORACLE數(shù)據(jù)庫相連接。微軟的SSIS為連接ORACELE提供了兩種接口類型:一種是Microsoft OLEDB Provider for Oracle;另外一種是Oracle Provider for OLEDB。前一中驅(qū)動(dòng)接口,消耗內(nèi)存小,處理速度慢;而后一種,消耗內(nèi)存大,處理速度快,在遇到數(shù)據(jù)量大的時(shí)候,并且經(jīng)常會(huì)出現(xiàn)數(shù)據(jù)處理不過來所執(zhí)行的任務(wù),而在處理小量數(shù)據(jù)的時(shí)候,Oracle Provider for OLEDB驅(qū)動(dòng)的速度比Microsoft OLEDB Provider for Oracle 的數(shù)據(jù)處理速度快近一倍。因此,在選擇驅(qū)動(dòng)類型的時(shí)候,要根據(jù)數(shù)

12、據(jù)量的大小來確定數(shù)據(jù)庫接口類型。(二)數(shù)據(jù)的清洗轉(zhuǎn)換運(yùn)輸管理公共數(shù)據(jù)中心在集成各個(gè)部門數(shù)據(jù)庫中數(shù)據(jù)的時(shí)候,最大的困難就是數(shù)據(jù)類型的轉(zhuǎn)換。各部門使用的數(shù)據(jù)庫各不相同,對(duì)數(shù)據(jù)庫中各字段的命名規(guī)則也不一致,數(shù)據(jù)庫中字段的數(shù)據(jù)類型也是千差萬別。如在人事管理系統(tǒng)中,表示單位職工性別的是“男”和“女”,而到工資管理系統(tǒng)中職工性別則為“M”和“F”;表示車牌號(hào)碼有的用漢字,有的用漢語拼音,有的用英文。同時(shí),各部門數(shù)據(jù)一些數(shù)據(jù)不完整,一些重要數(shù)據(jù)空缺,或者數(shù)據(jù)錯(cuò)誤等等,這樣就必須對(duì)數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行清洗和轉(zhuǎn)換。因此,數(shù)據(jù)清洗和轉(zhuǎn)換過程是建設(shè)整個(gè)數(shù)據(jù)中心平臺(tái)的關(guān)鍵環(huán)節(jié)。數(shù)據(jù)清洗的任務(wù)是指過濾掉那些沒用、不完整的和

13、錯(cuò)誤的數(shù)據(jù),然后把這些數(shù)據(jù)返回給各個(gè)部門,使這些數(shù)據(jù)更正后在進(jìn)行轉(zhuǎn)換。這在SSIS設(shè)計(jì)過程中可以對(duì)數(shù)據(jù)流進(jìn)行錯(cuò)誤的重定向,當(dāng)從數(shù)據(jù)源獲取數(shù)據(jù)的時(shí)候,發(fā)現(xiàn)這些數(shù)據(jù)異常,SSIS可以發(fā)送信息給管理者,管理者再對(duì)這些異常數(shù)據(jù)進(jìn)行修改處理。數(shù)據(jù)轉(zhuǎn)換的任務(wù)主要進(jìn)行不一致的數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)粒度的轉(zhuǎn)換以及一些規(guī)則的計(jì)算。對(duì)于數(shù)據(jù)的轉(zhuǎn)換有多種的解決方法:(1)直接映射。就是說數(shù)據(jù)原來是什么屬性,仍就是什么屬性,將數(shù)據(jù)原封不動(dòng)照抄照搬過來。對(duì)這樣的規(guī)則,如果數(shù)據(jù)源的字段和目標(biāo)字段長度或精度不符,就需要特別注意,看數(shù)據(jù)是否真的可以直接映射,還是需要做一些簡單的運(yùn)算。(2)字段運(yùn)算。是數(shù)據(jù)源的一個(gè)或多個(gè)字段進(jìn)行數(shù)學(xué)運(yùn)

14、算得到的目標(biāo)字段,這種規(guī)則一般對(duì)數(shù)值型字段而言。(3)字符串處理。從數(shù)據(jù)源某個(gè)字符串字段中,經(jīng)??梢垣@取特定信息,例如:身份證號(hào)等。而且,經(jīng)常會(huì)有數(shù)值型值,以字符串形式體現(xiàn)。對(duì)字符串的操作通常有類型轉(zhuǎn)換、字符串截取等。但是由于字符類型字段的隨意性也造成了臟數(shù)據(jù)的隱患,所以在處理這種規(guī)則的時(shí)候,一定要加上異常處理。(4)日期轉(zhuǎn)換。在數(shù)據(jù)倉庫中日期值一般都會(huì)有特定的,不同于日期類型值的表示方法。例如使用8位整型20100628表示日期,而在數(shù)據(jù)源中,這種字段基本都是日期類型的,所以對(duì)于這樣的規(guī)則,需要一些共通函數(shù)來處理,將日期轉(zhuǎn)換為8位日期值、6位月份值等。在做數(shù)據(jù)轉(zhuǎn)換過程中,要面對(duì)具體的問題具體

15、對(duì)待和分析,同時(shí)也要做好數(shù)據(jù)差錯(cuò)異常的處理,形成一套自己特有的數(shù)據(jù)轉(zhuǎn)換思想。(三)數(shù)據(jù)的裝載和日志在數(shù)據(jù)清洗和轉(zhuǎn)換完成后,數(shù)據(jù)就可用直接裝載到公共數(shù)據(jù)平臺(tái)中。但是,交通運(yùn)輸管理各個(gè)部門的數(shù)據(jù)是在不斷的變化、更新的。這時(shí),我們就必須把公共數(shù)據(jù)平臺(tái)的數(shù)據(jù)也隨著更新,從而保證數(shù)據(jù)的同步性和一致性。我們可以選用SQL Server 2005代理服務(wù)建立一個(gè)Job,每天動(dòng)態(tài)執(zhí)行ETL包,以保證歌部門數(shù)據(jù)的同步和一致性。SSIS具有豐富的日志功能,用以記錄異常處理、包的運(yùn)行狀態(tài)的檢測、錯(cuò)誤的記錄等等數(shù)據(jù)信息。在整個(gè)包設(shè)計(jì)過程中,要做好日志的記錄。日志對(duì)整個(gè)數(shù)據(jù)中心平臺(tái)作業(yè)非常重要,它使管理者能夠清晰的了解數(shù)據(jù)從提取、轉(zhuǎn)換、清洗,到裝載整個(gè)過程,并能夠及時(shí)的處理數(shù)據(jù)流運(yùn)行時(shí),出現(xiàn)的各種問題,從而保證了數(shù)據(jù)中心數(shù)據(jù)的完整性和一致性。結(jié)束語構(gòu)建運(yùn)輸管理公共數(shù)據(jù)中心平臺(tái)是一個(gè)非常細(xì)心、任務(wù)量比較大的任務(wù)。在設(shè)計(jì)前,要進(jìn)行詳細(xì)的整體規(guī)劃,拿出一個(gè)比較完美的解決方案。同時(shí),要從管理部門本身的實(shí)際出發(fā),考慮到人力、物力和技術(shù)水平。在設(shè)計(jì)時(shí),要理清思路,注意好數(shù)據(jù)流程的各個(gè)細(xì)節(jié)。設(shè)計(jì)完成后,做好公共數(shù)據(jù)平臺(tái)的后期維護(hù)、差錯(cuò)統(tǒng)計(jì)和分析,以保證公共數(shù)據(jù)平臺(tái)的完善和可靠。參考文獻(xiàn):作者簡介:董萬杰(1971-),男,河北省邯鄲市交通運(yùn)輸局;研

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論