


版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 一種基于ETL技術(shù)的遙感云服務(wù)框架的設(shè)計(jì)與實(shí)現(xiàn) 韓海濤Summary:為改進(jìn)傳統(tǒng)遙感云服務(wù)框架中存在的性能問題,減少計(jì)算力資源的浪費(fèi),優(yōu)化用戶體驗(yàn),利用ETL(Extraction Transformation Loading,抽取轉(zhuǎn)換裝載)技術(shù)對傳統(tǒng)框架的用戶業(yè)務(wù)處理模式進(jìn)行了優(yōu)化,將用戶業(yè)務(wù)處理部分從虛擬設(shè)備轉(zhuǎn)移到計(jì)算集群,由高性能計(jì)算節(jié)點(diǎn)統(tǒng)一處理,并通過流程引擎進(jìn)行自動(dòng)化管理和控制,最終,用戶通過Web接口實(shí)現(xiàn)需求的定義和對服務(wù)的訪問。經(jīng)原型測試表明:改進(jìn)框架實(shí)現(xiàn)了業(yè)務(wù)的自動(dòng)化處理,并有效減少了I/O開支、提高了CPU利用率、提升了整體效率、優(yōu)化了用戶體驗(yàn)。Key:抽取轉(zhuǎn)換裝載;遙感;
2、數(shù)據(jù)技術(shù);云服務(wù):TP702文獻(xiàn)標(biāo)志碼:A:2095-5383(2020)02-0026-03Abstract: In order to improve the performance problems existing in the traditional remote sensing cloud service framework, reduce the waste of computing power resources, and optimize the user experience, ETL (Extraction Transformation Loading) technolog
3、y was used to optimize the user business processing mode of traditional framework. That is, the users business processing part was transferred from the virtual equipment to the computing cluster, which was processed by the high-performance computing node and was automatically managed and controlled
4、by the process engine. Finally, users realize the definition of requirements and access to services through the web interface. The prototype test shows that the improved framework realizes the automatic processing of business, effectively reduces the I/O expenses, improves the CPU utilization, impro
5、ves the overall efficiency and optimizes the user experience.Keywords:extraction transformation loading; remote sensing; data technology; cloud services隨著成像、通信、航空航天等技術(shù)的發(fā)展,遙感技術(shù)也得到了飛躍式發(fā)展,遙感數(shù)據(jù)也越來越顯示出數(shù)據(jù)量龐大、更新周期短、數(shù)據(jù)類型多樣等大數(shù)據(jù)特征1,而傳統(tǒng)的單機(jī)、網(wǎng)格化處理方式,已經(jīng)不能滿足海量遙感數(shù)據(jù)的處理需求2,因此,云計(jì)算技術(shù)在遙感產(chǎn)業(yè)中得到了廣泛應(yīng)用?,F(xiàn)階段,這些應(yīng)用通常依托于由處理一般業(yè)務(wù)的云
6、服務(wù)改進(jìn)而來的框架3,但這種框架在處理遙感業(yè)務(wù)時(shí),面對龐大的數(shù)據(jù)量和復(fù)雜的業(yè)務(wù)邏輯往往不能很好地滿足需求。為此,本文對業(yè)務(wù)處理的流程進(jìn)行了優(yōu)化,并利用ETL技術(shù)用戶友好和自動(dòng)化程度高的特點(diǎn),對服務(wù)進(jìn)行了重新架構(gòu),設(shè)計(jì)并實(shí)現(xiàn)了一種用戶友好、高效、自動(dòng)化的遙感云服務(wù)框架。1 相關(guān)技術(shù)1.1 遙感云服務(wù)遙感云服務(wù)是基于云計(jì)算整合了大規(guī)模遙感數(shù)據(jù)資源和技術(shù)資源,基于互聯(lián)網(wǎng)環(huán)境以按需共享的方式提供在線遙感應(yīng)用服務(wù)4。因此,遙感云服務(wù)是可以充分利用云計(jì)算技術(shù)的優(yōu)勢大大降低遙感數(shù)據(jù)的處理和使用成本,并且實(shí)現(xiàn)資源整合和按需共享的服務(wù)模式3。遙感云服務(wù)中用戶通過系統(tǒng)提供的虛擬設(shè)備,能夠在基于互聯(lián)網(wǎng)的輕量級設(shè)備上
7、完成對海量數(shù)據(jù)的訪問、處理、分析及共享,避免了本地存儲(chǔ)和網(wǎng)絡(luò)資源的浪費(fèi),降低了數(shù)據(jù)處理和使用成本。1.2 ETL技術(shù)在大型數(shù)據(jù)服務(wù)的構(gòu)建過程中,需要將各種分布的、異構(gòu)的數(shù)據(jù)源中的數(shù)據(jù)抽取后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)庫中,這個(gè)過程叫做抽取轉(zhuǎn)換裝載(Extraction Transformation Loading,ETL)5。ETL是數(shù)據(jù)服務(wù)構(gòu)建和使用過程中非常重要的一個(gè)步驟,ETL處理效率的高低、轉(zhuǎn)換質(zhì)量的好壞,直接影響著數(shù)據(jù)服務(wù)的建設(shè)和數(shù)據(jù)使用的有效性5。ETL技術(shù)包含了與各種數(shù)據(jù)源的連接、異構(gòu)數(shù)據(jù)的抽取、數(shù)據(jù)的清洗和轉(zhuǎn)化等具體的數(shù)據(jù)技術(shù)、并發(fā)處理、自動(dòng)化流程管理等一系列綜合技術(shù)。
8、具有規(guī)范、安全、自動(dòng)化、用戶友好等特點(diǎn)6。云服務(wù)中通常會(huì)把ETL相關(guān)模塊作為數(shù)據(jù)工程工具集成到存儲(chǔ)集群中,并開放接口供系統(tǒng)和用戶調(diào)用,以此實(shí)現(xiàn)對數(shù)據(jù)與工具的封裝。2 系統(tǒng)架構(gòu)與流程2.1 系統(tǒng)工作流程遙感云服務(wù)平臺(tái)通常通過基于虛擬化(Virtualization)技術(shù)的資源分配方式為用戶提供計(jì)存儲(chǔ)、帶寬、算力等資源。實(shí)現(xiàn)一種讓用戶租用1臺(tái)運(yùn)行在云端的高性能設(shè)備來處理業(yè)務(wù)的IaaS(Infrastructure-as-a-Service,基礎(chǔ)設(shè)施即服務(wù))。在單一的用戶使用周期內(nèi),允許用戶在虛擬設(shè)備上進(jìn)行一個(gè)或多個(gè)業(yè)務(wù)的處理,在每個(gè)業(yè)務(wù)的處理中,根據(jù)用戶需要需求,由虛擬設(shè)備請求并從存儲(chǔ)節(jié)點(diǎn)獲取數(shù)據(jù)
9、,獲取完成后在虛擬設(shè)備上對數(shù)據(jù)進(jìn)行處理、分析,最終獲取并存儲(chǔ)處理結(jié)果4。以此為基礎(chǔ),為避免數(shù)據(jù)的冗余傳輸,減少計(jì)算力資源的浪費(fèi),優(yōu)化用戶體驗(yàn),充分利用硬件性能,通過創(chuàng)建一個(gè)高性能計(jì)算節(jié)點(diǎn),以每個(gè)業(yè)務(wù)為單元,利用ETL技術(shù)了進(jìn)行封裝,對整體業(yè)務(wù)流程進(jìn)行了進(jìn)一步優(yōu)化。優(yōu)化后,在完成系統(tǒng)部署,向用戶提供服務(wù)之前,系統(tǒng)會(huì)向服務(wù)器申請創(chuàng)建一個(gè)高帶寬、高算力的持久性高性能計(jì)算節(jié)點(diǎn),該邏輯節(jié)點(diǎn)為遙感業(yè)務(wù)中大量圖像處理及復(fù)雜計(jì)算提供主要算力。如圖1所示,框架優(yōu)化后業(yè)務(wù)處理的過程需要經(jīng)歷3個(gè)階段。第1階段:當(dāng)用戶開始業(yè)務(wù)操作時(shí),首先通過Web接口訪問服務(wù)來定義算法、創(chuàng)建業(yè)務(wù)流程,然后將流程的配置參數(shù)和用戶數(shù)據(jù)委
10、托給高性能計(jì)算節(jié)點(diǎn)。第2階段:計(jì)算節(jié)點(diǎn)按照業(yè)務(wù)流程,向存儲(chǔ)節(jié)點(diǎn)請求數(shù)據(jù),由存儲(chǔ)節(jié)點(diǎn)對各類異構(gòu)數(shù)據(jù)進(jìn)行提取。在獲取所有數(shù)據(jù)后,計(jì)算節(jié)點(diǎn)利用ETL工具進(jìn)行數(shù)據(jù)清洗和裝載,當(dāng)數(shù)據(jù)全部載入成功,系統(tǒng)將按照用戶定義的算法對數(shù)據(jù)進(jìn)行處理和運(yùn)算。第3階段:數(shù)據(jù)處理完成后系統(tǒng)通過Web將結(jié)果反饋給用戶,用戶根據(jù)自身需求保存和輸出最終結(jié)果。同時(shí)可以設(shè)置分享權(quán)限并將結(jié)果推送到存儲(chǔ)節(jié)點(diǎn),完成業(yè)務(wù)處理。2.2 系統(tǒng)架構(gòu)與模塊功能如圖2所示,根據(jù)流程優(yōu)化,系統(tǒng)總體架構(gòu)被設(shè)計(jì)為3部分。2.2.1 基礎(chǔ)數(shù)據(jù)存儲(chǔ)在Linux存儲(chǔ)集群的環(huán)境基礎(chǔ)上,部署了該系統(tǒng)的提取工具。對于存儲(chǔ)遙感數(shù)據(jù)的分布式文件系統(tǒng)、文件系統(tǒng)、結(jié)構(gòu)化數(shù)據(jù)庫
11、、NOSQL數(shù)據(jù)庫等不同的存儲(chǔ)形式,提取工具為其配置了連接各種數(shù)據(jù)源的接口,用于訪問各類不同的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。根據(jù)數(shù)據(jù)的不同類型,系統(tǒng)預(yù)置了FTP、URI、數(shù)據(jù)訪問對象、數(shù)據(jù)交換文件、自定義字節(jié)流等傳輸方式,用于向計(jì)算集群傳輸數(shù)據(jù)。2.2.2 數(shù)據(jù)處理與運(yùn)算部署在計(jì)算集群上的計(jì)算節(jié)點(diǎn)利用Docker技術(shù)動(dòng)態(tài)的處理各種業(yè)務(wù)邏輯,為每個(gè)業(yè)務(wù)實(shí)例分配系統(tǒng)資源,維護(hù)多個(gè)實(shí)例的并發(fā)安全。靜態(tài)資源由轉(zhuǎn)換工具(Translator)、 載入工具(Loader)以及遙感數(shù)據(jù)處理所需的各種工具構(gòu)成,可以被各個(gè)業(yè)務(wù)實(shí)例使用。以此為基礎(chǔ),計(jì)算節(jié)點(diǎn)創(chuàng)建的每個(gè)業(yè)務(wù)實(shí)例依托流程管理工具,控制各模塊按照流程有序執(zhí)行。
12、通信模塊負(fù)責(zé)流程各個(gè)階段中業(yè)務(wù)實(shí)例與存儲(chǔ)節(jié)點(diǎn)或用戶進(jìn)行一對一的交互和數(shù)據(jù)的傳輸。Nginx服務(wù)獨(dú)立于通信模塊,用于解決計(jì)算節(jié)點(diǎn)與用戶一對多通信問題,實(shí)現(xiàn)業(yè)務(wù)初始化信息的接收與最終處理結(jié)果的發(fā)布。2.2.3 用戶訪問接口用戶通過Web入口可登錄訪問服務(wù)。在用戶界面中可使用圖形或XML文本的形式來定義算法和需求。流程解析器會(huì)根據(jù)用戶定義的需求將其解析為能夠被計(jì)算節(jié)點(diǎn)接受的格式,并與用戶數(shù)據(jù)一起打包發(fā)送到計(jì)算節(jié)點(diǎn),開啟業(yè)務(wù)流程。3 原型系統(tǒng)實(shí)現(xiàn)與測試為測試原型系統(tǒng)性能,在2臺(tái)配置了24 GB內(nèi)存,24核CPU,1TB硬盤空間,操作系統(tǒng)為64位CentOS7的物理主機(jī)上,通過Docker技術(shù)先后模擬了
13、云服務(wù)運(yùn)行的2種框架。使用500 GB經(jīng)IMAPP預(yù)處理軟件包處理生成的MODIS 1B數(shù)據(jù)為測試數(shù)據(jù),以“從文件系統(tǒng)查找數(shù)據(jù)文件,提取其元數(shù)據(jù)后生成快視圖并將快視圖傳輸給用戶”的簡單業(yè)務(wù)流程為測試用例,進(jìn)行多用戶并發(fā)測試,來對比2種服務(wù)框架的性能。在傳統(tǒng)框架下,系統(tǒng)會(huì)在提供運(yùn)算服務(wù)的主機(jī)上,為用戶創(chuàng)建滿足數(shù)據(jù)處理需求的固定大小的虛擬設(shè)備,用戶在虛擬設(shè)備上利用Python執(zhí)行測試用例,每次執(zhí)行完成后系統(tǒng)會(huì)將虛擬設(shè)備初始化后分配給下一名用戶。在新的框架下,系統(tǒng)僅會(huì)分配一個(gè)滿足Web訪問需求的虛擬設(shè)備,讓多個(gè)用戶通過Web執(zhí)行用例。經(jīng)3輪測試,測試時(shí)間段內(nèi)系統(tǒng)資源的總體占用對比情況如表1所示。在高
14、并發(fā)狀態(tài)下,2種框架內(nèi)存使用率都較高。由于虛擬設(shè)備的網(wǎng)絡(luò)帶寬限制,傳統(tǒng)框架數(shù)據(jù)讀寫量更大,拖慢了整體效率。新框架下CPU空閑率低、利用率較高, 相對傳統(tǒng)框架會(huì)有更少的資源浪費(fèi)。4 結(jié)語本文設(shè)計(jì)并實(shí)現(xiàn)了一種基于ETL技術(shù)的遙感云服務(wù)框架。ETL技術(shù)不僅可以為數(shù)據(jù)的規(guī)范化管理提供支撐,更可以為用戶業(yè)務(wù)的自動(dòng)化管理提供便利,圖形化的需求定義方式也能大大降低系統(tǒng)的使用門檻。將ETL技術(shù)應(yīng)用到遙感云服務(wù)中,不僅規(guī)范了遙感數(shù)據(jù)的管理,還為用戶提供更加友好的交互方式。同時(shí)對服務(wù)框架的優(yōu)化,在保證系統(tǒng)運(yùn)行效率的前提下,有效提高了系統(tǒng)資源的利用率,避免了浪費(fèi)。使遙感云服務(wù)能更多、更好地服務(wù)用戶。最后,由于系統(tǒng)的實(shí)現(xiàn)處于原型階段,其穩(wěn)定性及擴(kuò)展性仍存在一些問題,交互方式也需進(jìn)行優(yōu)化,對此本文作者將會(huì)做進(jìn)一步的研究和實(shí)驗(yàn)。Reference:1朱建章, 石強(qiáng), 陳鳳娥,等.遙感大數(shù)據(jù)研究現(xiàn)狀與發(fā)展趨勢J.中國圖象圖形學(xué)報(bào), 2016, 21(11):1425-1439.2史園莉, 申文明, 熊文成,等.遙感數(shù)據(jù)集群處理作業(yè)調(diào)度管理系統(tǒng)研究J.計(jì)算機(jī)工程
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 信息技術(shù) 第二冊(五年制高職)課件 9.1.8 大數(shù)據(jù)對人工智能發(fā)展的推動(dòng)作用
- 2024年3月份跨境物流中高價(jià)值材料防篡改封裝技術(shù)規(guī)范
- 護(hù)士簡述鼻科手術(shù)后護(hù)理常規(guī)
- 醫(yī)務(wù)人員崗位培訓(xùn)
- 浙江省醫(yī)療衛(wèi)生事業(yè)單位招聘-中藥類歷年考試真題庫(含答案)
- 山西省衛(wèi)生類事業(yè)單位公開招聘(醫(yī)學(xué)影像)歷年考試真題庫及答案
- 放射科操作規(guī)范
- 我愛刷牙繪畫課件
- 2025屆新余市重點(diǎn)中學(xué)高考化學(xué)全真模擬密押卷含解析
- 河南省環(huán)際大聯(lián)考“逐夢計(jì)劃”2024-2025學(xué)年高一下學(xué)期階段性考試(一)數(shù)學(xué)試題(解析版)
- 茶葉產(chǎn)業(yè)園項(xiàng)目計(jì)劃書(參考模板)
- 入伍簡歷當(dāng)兵簡歷.doc
- 國家旅游局新版團(tuán)隊(duì)出境旅游合同模板
- 裝修工程施工進(jìn)度計(jì)劃表excel模板
- 一元立木材積表
- 4S店三表一卡標(biāo)準(zhǔn)模板
- 部編人教版二年級下冊道德與法治全冊教學(xué)課件
- 五年級語文下冊 第四單元 9 古詩三首教學(xué)反思1 新人教版 素材
- 高中生物競賽 第九章 染色體畸變課件
- 四年級下冊《小數(shù)的意義和性質(zhì)》整理和復(fù)習(xí)
- 土壤污染修復(fù)技術(shù)對比分析
評論
0/150
提交評論