




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
負(fù)責(zé)人:胡晶01目錄外貿(mào)數(shù)據(jù)ETL的需求分析外貿(mào)數(shù)據(jù)ETL的需求分析1外貿(mào)數(shù)據(jù)ETL的需求分析信息是現(xiàn)代企業(yè)的重要資源,是企業(yè)運(yùn)用科學(xué)管理、決策分析的基礎(chǔ)。目前,大多數(shù)企業(yè)花費(fèi)大量的資金和時(shí)間來構(gòu)建聯(lián)機(jī)事務(wù)處理OLTP的業(yè)務(wù)系統(tǒng)和辦公自動(dòng)化系統(tǒng),用來記錄事務(wù)處理的各種相關(guān)數(shù)據(jù)。據(jù)統(tǒng)計(jì),數(shù)據(jù)量每2~3年時(shí)間就會(huì)成倍增長(zhǎng),這些數(shù)據(jù)蘊(yùn)含著巨大的商業(yè)價(jià)值,而企業(yè)所關(guān)注的通常只占在總數(shù)據(jù)量的2%~4%左右。因此,企業(yè)仍然沒有最大化地利用已存在的數(shù)據(jù)資源,以致于浪費(fèi)了更多的時(shí)間和資金,也失去制定關(guān)鍵商業(yè)決策的最佳契機(jī)。于是,企業(yè)如何通過各種技術(shù)手段,并把數(shù)據(jù)轉(zhuǎn)換為信息、知識(shí),已經(jīng)成了提高其核心競(jìng)爭(zhēng)力的主要瓶頸。而ETL則是主要的一個(gè)技術(shù)手段。外貿(mào)數(shù)據(jù)ETL的需求分析通過KETTLE工具將數(shù)據(jù)源的數(shù)據(jù)導(dǎo)入大數(shù)據(jù)平臺(tái)的HIVE數(shù)據(jù)倉庫中,并根據(jù)業(yè)務(wù)邏輯進(jìn)行數(shù)據(jù)清洗。以上從海關(guān)獲取的五份數(shù)據(jù),以專業(yè)方式進(jìn)行區(qū)分,其中四份編碼表數(shù)據(jù):企業(yè)類型enterprisenature.txt、省份代碼cux_administration_region.txt、貿(mào)易方式modeoftrans.txt、運(yùn)輸方式modeoftransportation.txt,可歸入維度數(shù)據(jù),一份外貿(mào)交易清單數(shù)據(jù)(origin.txt)可歸入基礎(chǔ)事實(shí)表數(shù)據(jù)。將四張維度數(shù)據(jù)和一張基礎(chǔ)事實(shí)表數(shù)據(jù)進(jìn)行整合,最終生成寬表newo3_all,并在newo3_all完成最后的清洗工作。外貿(mào)數(shù)據(jù)ETL的需求分析1.首先先將這五份原始數(shù)據(jù)導(dǎo)入hdfs,然后通過hive制成對(duì)應(yīng)的表;2.創(chuàng)建newo3_all基礎(chǔ)全量表(寬表),用于接收四張維度表與一張事實(shí)表數(shù)據(jù);3.將四張維度表分別與這個(gè)newo3_all基礎(chǔ)全表整合,將四張維度表相應(yīng)代碼與名稱都導(dǎo)入newo3_all表;4.將集合了四張維度表和一張事實(shí)表newo3_all的數(shù)據(jù)進(jìn)行最后的清洗工作,將不規(guī)范的字段進(jìn)行調(diào)整和填充,最終形成清洗后可用于數(shù)據(jù)分析的有效數(shù)據(jù)。大致過程如下:外貿(mào)數(shù)據(jù)ETL的需求分析數(shù)據(jù)獲取主要是針對(duì)各個(gè)業(yè)務(wù)系統(tǒng)及不同網(wǎng)點(diǎn)的分散數(shù)據(jù),充分理解數(shù)據(jù)定義后,規(guī)劃需要的數(shù)據(jù)源及數(shù)據(jù)定義,并進(jìn)一步通過這些數(shù)據(jù)源獲取希望的數(shù)據(jù)。確定如何獲取或查詢?cè)磾?shù)據(jù)并非易事,因?yàn)樗鎯?chǔ)在多個(gè)地方,可能是一個(gè)RDMS、一個(gè)文本文件、一個(gè)Excel文件、一個(gè)DBF文件或其他類型文件。1.數(shù)據(jù)獲取外貿(mào)數(shù)據(jù)ETL的需求分析數(shù)據(jù)傳輸是通過網(wǎng)絡(luò)負(fù)責(zé)把遠(yuǎn)程的數(shù)據(jù)文件傳輸?shù)奖镜啬夸浵?。在?shí)施中,它的步驟包括:初始化參數(shù)表,如間隔時(shí)間、遠(yuǎn)程數(shù)據(jù)文件的存放位置、本地?cái)?shù)據(jù)文件傳路徑,并連接到遠(yuǎn)程主機(jī)上;取遠(yuǎn)程數(shù)據(jù)文件列表,將其取至本地;根據(jù)遠(yuǎn)程數(shù)據(jù)文件列表,生成取數(shù)據(jù)文件的腳本,運(yùn)行此腳本;完成取數(shù)據(jù)操作后,生成取回?cái)?shù)據(jù)的列表,根據(jù)此列表生產(chǎn)刪除遠(yuǎn)程數(shù)據(jù)文件的腳本,運(yùn)行此腳本;將取回的數(shù)據(jù)文件移到指定文件夾中,并繼續(xù)監(jiān)控。2.數(shù)據(jù)傳輸外貿(mào)數(shù)據(jù)ETL的需求分析數(shù)據(jù)轉(zhuǎn)換主要是針對(duì)數(shù)據(jù)倉庫建立的模型,通過一系列的轉(zhuǎn)換來實(shí)現(xiàn)將數(shù)據(jù)從業(yè)務(wù)模型到分析模型,通過內(nèi)建的庫函數(shù)、自定義腳本或其他的擴(kuò)展方式,實(shí)現(xiàn)了各種復(fù)雜的轉(zhuǎn)換,并且支持調(diào)試環(huán)境,清楚地監(jiān)控?cái)?shù)據(jù)轉(zhuǎn)換的狀態(tài)。數(shù)據(jù)轉(zhuǎn)換是真正將源數(shù)據(jù)變?yōu)槟繕?biāo)數(shù)據(jù)的關(guān)鍵環(huán)節(jié),它包括數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度租船運(yùn)輸費(fèi)用及船舶交易中介服務(wù)協(xié)議
- 2025年度知識(shí)產(chǎn)權(quán)授權(quán)保證金協(xié)議
- 2025年度私家車個(gè)人車輛抵押融資合同
- 二零二五年度勞務(wù)班組退場(chǎng)及新能源項(xiàng)目設(shè)備回收協(xié)議
- 二零二五年度機(jī)床轉(zhuǎn)讓與知識(shí)產(chǎn)權(quán)保護(hù)協(xié)議
- 2025年度生物科技企業(yè)研發(fā)人員勞動(dòng)用工協(xié)議書
- 二零二五年度手房貸款買賣合同(含裝修款分期支付)
- 二零二五年度古井買賣合同范本全新解讀
- 二零二五年度科室承包責(zé)任書及考核協(xié)議
- 幼兒園與社區(qū)聯(lián)合舉辦親子活動(dòng)的合作協(xié)議
- 高三二輪復(fù)習(xí)備考指導(dǎo)意見
- 港口散裝液體危險(xiǎn)化學(xué)品港口經(jīng)營(yíng)人的裝卸管理人員從業(yè)資格考試
- 2023年四川省公務(wù)員考試行測(cè)真題及答案解析
- 日本商務(wù)禮儀課件
- 中國(guó)民間傳說:田螺姑娘
- 淺談鋼琴即興伴奏在教學(xué)中應(yīng)用現(xiàn)狀及提高方法 論文
- 身體功能訓(xùn)練
- 部編人教版四年級(jí)語文下冊(cè)《全冊(cè)全套》課件ppt
- 英文版-你來比劃我來猜游戲
- 皖2015s209 混凝土砌塊式排水檢查井
- 五年級(jí)道德與法治下冊(cè) (我參與我奉獻(xiàn))新課件
評(píng)論
0/150
提交評(píng)論