外貿(mào)數(shù)據(jù)ETL的需求分析_第1頁
外貿(mào)數(shù)據(jù)ETL的需求分析_第2頁
外貿(mào)數(shù)據(jù)ETL的需求分析_第3頁
外貿(mào)數(shù)據(jù)ETL的需求分析_第4頁
外貿(mào)數(shù)據(jù)ETL的需求分析_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

負(fù)責(zé)人:胡晶01目錄外貿(mào)數(shù)據(jù)ETL的需求分析外貿(mào)數(shù)據(jù)ETL的需求分析1外貿(mào)數(shù)據(jù)ETL的需求分析信息是現(xiàn)代企業(yè)的重要資源,是企業(yè)運(yùn)用科學(xué)管理、決策分析的基礎(chǔ)。目前,大多數(shù)企業(yè)花費(fèi)大量的資金和時(shí)間來構(gòu)建聯(lián)機(jī)事務(wù)處理OLTP的業(yè)務(wù)系統(tǒng)和辦公自動(dòng)化系統(tǒng),用來記錄事務(wù)處理的各種相關(guān)數(shù)據(jù)。據(jù)統(tǒng)計(jì),數(shù)據(jù)量每2~3年時(shí)間就會(huì)成倍增長(zhǎng),這些數(shù)據(jù)蘊(yùn)含著巨大的商業(yè)價(jià)值,而企業(yè)所關(guān)注的通常只占在總數(shù)據(jù)量的2%~4%左右。因此,企業(yè)仍然沒有最大化地利用已存在的數(shù)據(jù)資源,以致于浪費(fèi)了更多的時(shí)間和資金,也失去制定關(guān)鍵商業(yè)決策的最佳契機(jī)。于是,企業(yè)如何通過各種技術(shù)手段,并把數(shù)據(jù)轉(zhuǎn)換為信息、知識(shí),已經(jīng)成了提高其核心競(jìng)爭(zhēng)力的主要瓶頸。而ETL則是主要的一個(gè)技術(shù)手段。外貿(mào)數(shù)據(jù)ETL的需求分析通過KETTLE工具將數(shù)據(jù)源的數(shù)據(jù)導(dǎo)入大數(shù)據(jù)平臺(tái)的HIVE數(shù)據(jù)倉庫中,并根據(jù)業(yè)務(wù)邏輯進(jìn)行數(shù)據(jù)清洗。以上從海關(guān)獲取的五份數(shù)據(jù),以專業(yè)方式進(jìn)行區(qū)分,其中四份編碼表數(shù)據(jù):企業(yè)類型enterprisenature.txt、省份代碼cux_administration_region.txt、貿(mào)易方式modeoftrans.txt、運(yùn)輸方式modeoftransportation.txt,可歸入維度數(shù)據(jù),一份外貿(mào)交易清單數(shù)據(jù)(origin.txt)可歸入基礎(chǔ)事實(shí)表數(shù)據(jù)。將四張維度數(shù)據(jù)和一張基礎(chǔ)事實(shí)表數(shù)據(jù)進(jìn)行整合,最終生成寬表newo3_all,并在newo3_all完成最后的清洗工作。外貿(mào)數(shù)據(jù)ETL的需求分析1.首先先將這五份原始數(shù)據(jù)導(dǎo)入hdfs,然后通過hive制成對(duì)應(yīng)的表;2.創(chuàng)建newo3_all基礎(chǔ)全量表(寬表),用于接收四張維度表與一張事實(shí)表數(shù)據(jù);3.將四張維度表分別與這個(gè)newo3_all基礎(chǔ)全表整合,將四張維度表相應(yīng)代碼與名稱都導(dǎo)入newo3_all表;4.將集合了四張維度表和一張事實(shí)表newo3_all的數(shù)據(jù)進(jìn)行最后的清洗工作,將不規(guī)范的字段進(jìn)行調(diào)整和填充,最終形成清洗后可用于數(shù)據(jù)分析的有效數(shù)據(jù)。大致過程如下:外貿(mào)數(shù)據(jù)ETL的需求分析數(shù)據(jù)獲取主要是針對(duì)各個(gè)業(yè)務(wù)系統(tǒng)及不同網(wǎng)點(diǎn)的分散數(shù)據(jù),充分理解數(shù)據(jù)定義后,規(guī)劃需要的數(shù)據(jù)源及數(shù)據(jù)定義,并進(jìn)一步通過這些數(shù)據(jù)源獲取希望的數(shù)據(jù)。確定如何獲取或查詢?cè)磾?shù)據(jù)并非易事,因?yàn)樗鎯?chǔ)在多個(gè)地方,可能是一個(gè)RDMS、一個(gè)文本文件、一個(gè)Excel文件、一個(gè)DBF文件或其他類型文件。1.數(shù)據(jù)獲取外貿(mào)數(shù)據(jù)ETL的需求分析數(shù)據(jù)傳輸是通過網(wǎng)絡(luò)負(fù)責(zé)把遠(yuǎn)程的數(shù)據(jù)文件傳輸?shù)奖镜啬夸浵?。在?shí)施中,它的步驟包括:初始化參數(shù)表,如間隔時(shí)間、遠(yuǎn)程數(shù)據(jù)文件的存放位置、本地?cái)?shù)據(jù)文件傳路徑,并連接到遠(yuǎn)程主機(jī)上;取遠(yuǎn)程數(shù)據(jù)文件列表,將其取至本地;根據(jù)遠(yuǎn)程數(shù)據(jù)文件列表,生成取數(shù)據(jù)文件的腳本,運(yùn)行此腳本;完成取數(shù)據(jù)操作后,生成取回?cái)?shù)據(jù)的列表,根據(jù)此列表生產(chǎn)刪除遠(yuǎn)程數(shù)據(jù)文件的腳本,運(yùn)行此腳本;將取回的數(shù)據(jù)文件移到指定文件夾中,并繼續(xù)監(jiān)控。2.數(shù)據(jù)傳輸外貿(mào)數(shù)據(jù)ETL的需求分析數(shù)據(jù)轉(zhuǎn)換主要是針對(duì)數(shù)據(jù)倉庫建立的模型,通過一系列的轉(zhuǎn)換來實(shí)現(xiàn)將數(shù)據(jù)從業(yè)務(wù)模型到分析模型,通過內(nèi)建的庫函數(shù)、自定義腳本或其他的擴(kuò)展方式,實(shí)現(xiàn)了各種復(fù)雜的轉(zhuǎn)換,并且支持調(diào)試環(huán)境,清楚地監(jiān)控?cái)?shù)據(jù)轉(zhuǎn)換的狀態(tài)。數(shù)據(jù)轉(zhuǎn)換是真正將源數(shù)據(jù)變?yōu)槟繕?biāo)數(shù)據(jù)的關(guān)鍵環(huán)節(jié),它包括數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論