數(shù)據(jù)倉庫Hive應(yīng)用實(shí)戰(zhàn)- 課件 模塊9 數(shù)據(jù)倉庫應(yīng)用實(shí)戰(zhàn)_第1頁
數(shù)據(jù)倉庫Hive應(yīng)用實(shí)戰(zhàn)- 課件 模塊9 數(shù)據(jù)倉庫應(yīng)用實(shí)戰(zhàn)_第2頁
數(shù)據(jù)倉庫Hive應(yīng)用實(shí)戰(zhàn)- 課件 模塊9 數(shù)據(jù)倉庫應(yīng)用實(shí)戰(zhàn)_第3頁
數(shù)據(jù)倉庫Hive應(yīng)用實(shí)戰(zhàn)- 課件 模塊9 數(shù)據(jù)倉庫應(yīng)用實(shí)戰(zhàn)_第4頁
數(shù)據(jù)倉庫Hive應(yīng)用實(shí)戰(zhàn)- 課件 模塊9 數(shù)據(jù)倉庫應(yīng)用實(shí)戰(zhàn)_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

理解并熟記創(chuàng)建數(shù)據(jù)庫的語法和應(yīng)用方法理解并熟記修改和刪除數(shù)據(jù)庫的語法和應(yīng)用方法理解并熟記查詢和切換數(shù)據(jù)庫的語法和應(yīng)用方法理解并熟記修改數(shù)據(jù)庫存儲位置的語法和應(yīng)用方法理解并初步建立大數(shù)據(jù)倉庫安全與規(guī)范意識

聯(lián)通運(yùn)營商數(shù)據(jù)中的通話時長、出賬費(fèi)用、流量使用、產(chǎn)品到期等指標(biāo)數(shù)據(jù)存放在四張數(shù)據(jù)表中,我們需要根據(jù)聯(lián)通運(yùn)營商數(shù)據(jù)文件,完成“聯(lián)通運(yùn)營商數(shù)據(jù)分析項目”數(shù)據(jù)倉庫的構(gòu)建、表的創(chuàng)建。表9-1展示了數(shù)據(jù)和表的對應(yīng)關(guān)系。

本任務(wù)以“聯(lián)通運(yùn)營商大數(shù)據(jù)分析”項目為實(shí)操載體,完成創(chuàng)建數(shù)據(jù)倉庫、創(chuàng)建用戶基礎(chǔ)信息表、創(chuàng)建用戶產(chǎn)品屬性表、創(chuàng)建用戶使用信息表和創(chuàng)建寬表等學(xué)習(xí)目標(biāo)。任務(wù)1設(shè)計數(shù)據(jù)倉庫“聯(lián)通運(yùn)營商數(shù)據(jù)分析項目”數(shù)據(jù)表規(guī)劃任務(wù)1創(chuàng)建數(shù)據(jù)倉庫文件名文件內(nèi)容表名備注list1_test.txt用戶產(chǎn)品信息表user_product_info

list2_test1.txt用戶基礎(chǔ)信息表user_info_basic

list2_test2.txt用戶產(chǎn)品屬性表user_product_attr

list3_test.txt用戶使用信息表user_info

//user_churn_total寬表,經(jīng)過各種加工匯總,得到信息匯總表數(shù)據(jù)示例list1_test.txt任務(wù)1創(chuàng)建數(shù)據(jù)倉庫100100900531023713G032017-12-0114:59:552050-12-3100:00:00201801100101000531023713G032017-03-1110:55:172050-12-3100:00:00201801100101200531023713G032017-08-0100:00:002050-12-3100:00:00201801......用戶基礎(chǔ)信息表任務(wù)1創(chuàng)建數(shù)據(jù)倉庫字段字段類型字段描述口徑概要說明d_useridString用戶唯一標(biāo)識電信公司內(nèi)部用于區(qū)分用戶的唯一編碼13service_typeString業(yè)務(wù)類型2G/3G/4G,指用戶使用的最高的網(wǎng)絡(luò)類型。pay_modeString付費(fèi)模式分為后付費(fèi)/預(yù)付費(fèi)兩種,cert_ageInt用戶年齡用戶年齡chnl_typeString發(fā)展渠道聯(lián)通在發(fā)展新用戶時的發(fā)展渠道m(xù)onth_idString賬期-月用戶使用業(yè)務(wù)后會產(chǎn)生語音通話等數(shù)據(jù),根據(jù)統(tǒng)計頻率的不同,賬期分為月/日等不同粒度,由于統(tǒng)計的是用戶已發(fā)生的數(shù)據(jù),通常滯后一個賬期數(shù)據(jù)示例list2_test1.txt任務(wù)1創(chuàng)建數(shù)據(jù)倉庫100092540AAAAAA143社會實(shí)體渠道201801100092720AAAAAA153社會實(shí)體渠道201801100092940AAAAAA146社會實(shí)體渠道201801.......用戶產(chǎn)品信息表任務(wù)1創(chuàng)建數(shù)據(jù)倉庫字段字段類型字段描述口徑概要說明d_useridString用戶唯一標(biāo)識電信公司內(nèi)部用于區(qū)分用戶的唯一編碼product_modeString產(chǎn)品模式分為主產(chǎn)品(例如106元套餐)、附屬產(chǎn)品(例如10元300M流量包)product_idString產(chǎn)品編碼產(chǎn)品是指用戶選擇的資費(fèi)標(biāo)準(zhǔn),如106套餐brand_codeString品牌編碼品牌例如:如意通、新勢力、世界風(fēng)start_dateString產(chǎn)品生效時間產(chǎn)品生效時間end_dateString產(chǎn)品到期時間產(chǎn)品到期時間month_idString賬期-月用戶使用電信業(yè)務(wù)后會產(chǎn)生語音通話等數(shù)據(jù),根據(jù)統(tǒng)計頻率的不同,賬期分為月/日等不同粒度,由于統(tǒng)計的是用戶已發(fā)生的數(shù)據(jù),通常滯后一個賬期數(shù)據(jù)示例list2_test2.txt任務(wù)1創(chuàng)建數(shù)據(jù)倉庫1000925NULL無單卡2018011000927NULL無單卡201801......1002754NULL智慧沃家組合優(yōu)化版單卡2018011002756NULL主副卡單卡201801.......用戶產(chǎn)品屬性表任務(wù)1創(chuàng)建數(shù)據(jù)倉庫字段字段類型字段描述口徑概要說明d_useridString用戶唯一標(biāo)識

product_class_descString產(chǎn)品類別產(chǎn)品分類,如標(biāo)準(zhǔn)化套餐、省份制定的個性化套餐、互聯(lián)網(wǎng)類套餐等comp_typeString融合產(chǎn)品類型融合產(chǎn)品是指用戶既有移動號碼又有寬帶activity_typeString活動類型用戶主產(chǎn)品辦理時參加的活動,如存費(fèi)送機(jī)/購機(jī)送費(fèi)等month_idString賬期-月用戶使用業(yè)務(wù)后會產(chǎn)生語音通話等數(shù)據(jù),根據(jù)統(tǒng)計頻率的不同,賬期分為月/日等不同粒度,由于統(tǒng)計的是用戶已發(fā)生的數(shù)據(jù),通常滯后一個賬期數(shù)據(jù)示例list3_test.txt任務(wù)1創(chuàng)建數(shù)據(jù)倉庫10009251653493022.34-182.69-5.95112480.5764000002018011000927141018-4.600001863.751400000201801100092916321840.14.134.12002351.72200000201801......用戶使用信息表任務(wù)1創(chuàng)建數(shù)據(jù)倉庫字段字段類型字段描述口徑概要說明d_useridString用戶唯一標(biāo)識

moudecimal(30,2)戶均通話時長用戶每月平均通話時長doudecimal(30,2)戶均上網(wǎng)流量用戶每月平均上網(wǎng)流量arpudecimal(30,2)月均出賬費(fèi)-元用戶每月平均消費(fèi)金額mou_vardecimal(30,2)月通話時長-方差方差:月均值的期望值dou_vardecimal(30,2)月上網(wǎng)流量-方差方差:月均值的期望值arpu_vardecimal(30,2)月出賬費(fèi)-方差方差:月均值的期望值smsInt短信使用條數(shù)用戶月度短信使用條數(shù)flux_4gdecimal(30,2)4G流量使用量使用4G網(wǎng)絡(luò)產(chǎn)生的流量使用量call_ringInt呼叫圈個數(shù)與該用戶產(chǎn)生通話行為的主要用戶的個數(shù)unicom_scoredecimal(30,2)用戶分值系統(tǒng)內(nèi)部評定分值innet_monthsInt在網(wǎng)月份數(shù)用戶從開始使用該號碼,持續(xù)到現(xiàn)在的月份數(shù)is_cardString是否單卡該移網(wǎng)用戶相同證件下是否有寬帶業(yè)務(wù),有寬帶則為融合,無寬帶則為單卡is_groupString是否集客指以集團(tuán)組織或法人單位與電信公司辦理業(yè)務(wù)協(xié)議等is_lvString是否低價值用戶低價值:出賬費(fèi)用小于一定額度,語音/流量/短信使用量很少is_transString是否轉(zhuǎn)網(wǎng)指在2G或3G用戶轉(zhuǎn)到4G網(wǎng)絡(luò)is_acct_lostString是否流失本例的目標(biāo)字段。0-未流失,1-流失15month_idString賬期-月用戶使用業(yè)務(wù)后會產(chǎn)生語音通話等數(shù)據(jù),根據(jù)統(tǒng)計頻率的不同,賬期分為月/日等不同粒度,由于統(tǒng)計的是用戶已發(fā)生的數(shù)據(jù),通常滯后一個賬期聯(lián)通運(yùn)營商大數(shù)據(jù)分析本任務(wù)實(shí)施以“聯(lián)通運(yùn)營商大數(shù)據(jù)分析”項目為實(shí)操載體,依次完成創(chuàng)建數(shù)據(jù)倉庫、創(chuàng)建用戶基礎(chǔ)信息表、創(chuàng)建用戶產(chǎn)品屬性表、創(chuàng)建用戶使用信息表和創(chuàng)建寬表等操作,最終完成數(shù)據(jù)倉庫的設(shè)計和表的創(chuàng)建。任務(wù)1創(chuàng)建數(shù)據(jù)倉庫9.1.1創(chuàng)建數(shù)據(jù)倉庫我們使用Hive構(gòu)建原始數(shù)據(jù)的數(shù)據(jù)倉庫,進(jìn)入Hive客戶端創(chuàng)建數(shù)據(jù)建庫user_churn,操作命令如下所示:CREATEdatabaseifnotexistsuser_churn;查看hive中所有數(shù)據(jù)庫,使用user_churn數(shù)據(jù)庫。任務(wù)1設(shè)計數(shù)據(jù)倉庫9.1.2創(chuàng)建用戶產(chǎn)品信息表createtableuser_product_info(

d_useridstringCOMMENT'用戶唯一標(biāo)識',

product_modestringCOMMENT'產(chǎn)品模式',

product_idstringCOMMENT'產(chǎn)品編碼',

brand_codestringCOMMENT'品牌編碼',

start_datestringCOMMENT'產(chǎn)品生效時間',

end_datestringCOMMENT'產(chǎn)品到期時間',

month_idstringCOMMENT'賬期-月')rowformatdelimitedfieldsterminatedby'\u0001'nulldefinedas''storedastextfile;任務(wù)1設(shè)計數(shù)據(jù)倉庫9.1.3創(chuàng)建用戶基礎(chǔ)信息表createtableuser_info_basic(

d_useridstringCOMMENT'用戶唯一標(biāo)識',

service_typestringCOMMENT'業(yè)務(wù)類型',

pay_modestringCOMMENT'付費(fèi)模式',

cert_ageintCOMMENT'用戶年齡',

chnl_typestringCOMMENT'發(fā)展渠道',

month_idstringCOMMENT'賬期-月')rowformatdelimitedfieldsterminatedby'\u0001'nulldefinedas''storedastextfile;任務(wù)1設(shè)計數(shù)據(jù)倉庫9.1.4創(chuàng)建用戶產(chǎn)品屬性表createtableuser_product_attr(

d_useridstringCOMMENT'用戶唯一標(biāo)識',

product_class_descstringCOMMENT'產(chǎn)品類別',

comp_typestringCOMMENT'融合產(chǎn)品類型',

activity_typestringCOMMENT'活動類型',

month_idstringCOMMENT'賬期-月')rowformatdelimitedfieldsterminatedby'\u0001'nulldefinedas''storedastextfile;任務(wù)1設(shè)計數(shù)據(jù)倉庫9.1.5創(chuàng)建用戶使用信息表任務(wù)1設(shè)計數(shù)據(jù)倉庫9.1.6創(chuàng)建寬表createtableuser_churn_total(d_useridstringCOMMENT'用戶唯一標(biāo)識',product_idstringCOMMENT'產(chǎn)品編碼',brand_codestringCOMMENT'品牌編碼',service_typestringCOMMENT'業(yè)務(wù)類型',product_class_descstringCOMMENT'產(chǎn)品類別',pay_modestringCOMMENT'付費(fèi)模式',cert_ageintCOMMENT'用戶年齡',chnl_typestringCOMMENT'發(fā)展渠道',comp_typestringCOMMENT'融合產(chǎn)品類型',activity_typestringCOMMENT'活動類型',moudecimal(30,2)COMMENT'戶均通話時長',任務(wù)1設(shè)計數(shù)據(jù)倉庫9.1.6創(chuàng)建寬表doudecimal(30,2)COMMENT'戶均上網(wǎng)流量',arpudecimal(30,2)COMMENT'月均出賬費(fèi)-元',mou_vardecimal(30,2)COMMENT'月通話時長-方差',dou_vardecimal(30,2)COMMENT'月上網(wǎng)流量-方差',arpu_vardecimal(30,2)COMMENT'月出賬費(fèi)-方差',smsintCOMMENT'短信使用條數(shù)',flux_4gdecimal(30,2)COMMENT'4G流量使用量',call_ringintCOMMENT'呼叫圈個數(shù)',unicom_scoredecimal(30,2)COMMENT'用戶分值',innet_monthsintCOMMENT'在網(wǎng)月份數(shù)',is_cardstringCOMMENT'是否單卡',任務(wù)1設(shè)計數(shù)據(jù)倉庫9.1.6創(chuàng)建寬表is_groupstringCOMMENT'是否集客',is_lvstringCOMMENT'是否低價值用戶',is_transstringCOMMENT'是否轉(zhuǎn)網(wǎng)',is_acct_loststringCOMMENT'是否流失',rest_monthsstringCOMMENT'到期剩余月份數(shù)')PARTITIONEDBY(month_idstringCOMMENT'賬期-月')rowformatdelimitedfieldsterminatedby'\u0001'nulldefinedas''storedastextfile;任務(wù)1設(shè)計數(shù)據(jù)倉庫

本任務(wù)以“聯(lián)通運(yùn)營商大數(shù)據(jù)分析”項目為實(shí)操載體,完成導(dǎo)入數(shù)據(jù)、驗證導(dǎo)入結(jié)果等學(xué)習(xí)目標(biāo)。

完成數(shù)據(jù)導(dǎo)入操作,需將現(xiàn)有數(shù)據(jù)list1_test.txt、list2_test1.txt、list2_test2.txt和list3_test.txt存放到本地目錄下,使用secureFX工具上傳數(shù)據(jù)到本地目錄/hivepro。任務(wù)2導(dǎo)入聯(lián)通運(yùn)營商數(shù)據(jù)到數(shù)據(jù)倉庫9.2.1導(dǎo)入數(shù)據(jù)向表中加載對應(yīng)數(shù)據(jù)。loaddatalocalinpath'/hivepro/list1_test.txt'overwriteintotableuser_product_info;loaddatalocalinpath'/hivepro/list2_test1.txt'overwriteintotableuser_info_basic;loaddatalocalinpath'/hivepro/list2_test2.txt'overwriteintotableuser_product_attr;loaddatalocalinpath'/hivepro/list3_test.txt'overwriteintotableuser_info;任務(wù)2導(dǎo)入聯(lián)通運(yùn)營商數(shù)據(jù)到數(shù)據(jù)倉庫9.2.2驗證導(dǎo)入結(jié)果1、驗證user_product_info數(shù)據(jù)。查看user_product_info表的前3條數(shù)據(jù)和數(shù)據(jù)總條數(shù)。任務(wù)2導(dǎo)入聯(lián)通運(yùn)營商數(shù)據(jù)到數(shù)據(jù)倉庫9.2.2驗證導(dǎo)入結(jié)果2、驗證user_info_basic數(shù)據(jù)。查看user_info_basic表中前3條數(shù)據(jù)和數(shù)據(jù)總條數(shù)。任務(wù)2導(dǎo)入聯(lián)通運(yùn)營商數(shù)據(jù)到數(shù)據(jù)倉庫9.2.2驗證導(dǎo)入結(jié)果3、驗證user_product_attr數(shù)據(jù)。查看user_product_attr表中前3條數(shù)據(jù)和數(shù)據(jù)總條數(shù)。任務(wù)2導(dǎo)入聯(lián)通運(yùn)營商數(shù)據(jù)到數(shù)據(jù)倉庫9.2.2驗證導(dǎo)入結(jié)果4、驗證user_info數(shù)據(jù)。查看user_info表中前3條數(shù)據(jù)和數(shù)據(jù)總條數(shù)。任務(wù)2導(dǎo)入聯(lián)通運(yùn)營商數(shù)據(jù)到數(shù)據(jù)倉庫

在對數(shù)據(jù)進(jìn)行統(tǒng)計分析之前,需要對原始數(shù)據(jù)進(jìn)行必要的清洗、集成和轉(zhuǎn)換等操作,目的在于刪除重復(fù)信息,糾正存在的錯誤,處理無效值和缺失值。

本任務(wù)以“聯(lián)通運(yùn)營商大數(shù)據(jù)分析”項目為實(shí)操載體,完成聯(lián)通運(yùn)營商數(shù)據(jù)的預(yù)處理,包括刪除重復(fù)數(shù)據(jù)、處理缺失值、衍生新指標(biāo)、刪除無效字段和數(shù)據(jù)歸集數(shù)據(jù)等學(xué)習(xí)目標(biāo)。任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)9.3.1刪除重復(fù)數(shù)據(jù)1、數(shù)據(jù)核查核查是否有重復(fù)數(shù)據(jù),將user_product_info表按賬期與號碼分組,查詢數(shù)據(jù)中分組個數(shù)大于等于2個的數(shù)據(jù)。任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)9.3.1刪除重復(fù)數(shù)據(jù)2、功能分析查看和分析重復(fù)數(shù)據(jù)情況,利用上面查詢到的重復(fù)數(shù)據(jù)d_userid(用戶唯一標(biāo)識)結(jié)果,查詢所有重復(fù)數(shù)據(jù)的每個字段,按照d_userid正序排列。任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)9.3.1刪除重復(fù)數(shù)據(jù)3、程序開發(fā)將user_product_info表中數(shù)據(jù)按end_date倒序排列,保留順序號為1的記錄重新插入到user_product_info表中。任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)insertoverwritetableuser_product_infoselecta.d_userid,product_mode,product_id,brand_code,start_date,end_date,month_idfrom(selectt.*,row_number()over(partitionbyt.d_userid,t.month_idorderbyt.end_datedesc)rnfromuser_product_infot)awherea.rn=1;9.3.1刪除重復(fù)數(shù)據(jù)3、程序開發(fā)去除重復(fù)數(shù)據(jù)之后,我們可以驗證去重結(jié)果:任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)9.3.2處理缺失值1、數(shù)據(jù)核查HQL命令統(tǒng)計缺失值,查詢user_product_info表中所有字段等于‘NULL’或者為空的個數(shù),并展示出來。任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)9.3.2處理缺失值1、數(shù)據(jù)核查同理可以查詢其他三個表中的缺失值。user_info_basic表空值情況:任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)9.3.2處理缺失值1、數(shù)據(jù)核查user_product_attr表空值情況:任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)9.3.2處理缺失值1、數(shù)據(jù)核查user_info表空值情況:任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)9.3.2處理缺失值2、功能分析user_product_info表的product_mode、product_id、brand_code、start_date、end_date這5個字段有30個空值,記錄比較少,刪除幾乎不會影響到數(shù)據(jù)信息,可做刪除處理user_product_attr表的product_class_desc字段有134461個空值,空值較多,刪除會導(dǎo)致信息損失,由于是字符型字段,可用某個不常用字符填充,如‘missing’;user_info_basic表的cert_age字段有8914個空值,是年齡字段,根據(jù)業(yè)務(wù)經(jīng)驗,可用均值填充。任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)9.3.2處理缺失值3、程序開發(fā)(1)空值記錄刪除:將user_product_info表中字段不為空的數(shù)據(jù)重新插入user_product_info表中:任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)insertoverwritetableuser_product_infoselecta.*fromuser_product_infoawhere(duct_modeisnotnull)OR(duct_idisnotnull)OR(a.brand_codeisnotnull)OR(a.start_dateisnotnull)OR(a.end_dateisnotnull);9.3.2處理缺失值3、程序開發(fā)刪除空值后的user_product_info表數(shù)據(jù)總條數(shù)如下:任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)9.3.2處理缺失值3、程序開發(fā)(2)空值記錄填充:user_product_attr表和user_info_basic表都要進(jìn)行空值填充操作。product_class_desc字段填充,將字段等于'NULL'或者為空的記錄替換為'missing'重新插入到表中。任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)insertoverwritetableuser_product_attrselectd_userid,casewhenproduct_class_desc='NULL'ORproduct_class_descisnullthen'missing'elseproduct_class_descend,comp_type,activity_type,month_idfromuser_product_attra;9.3.2處理缺失值3、程序開發(fā)(2)空值記錄填充:user_product_attr表和user_info_basic表都要進(jìn)行空值填充操作。②cert_age字段填充,先對年齡取均值,然后關(guān)聯(lián)表user_info_basic,將年齡等于'NULL'或者為空的記錄替換為均值重新插入到表中。任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)insertoverwritetableuser_info_basicselectd_userid,service_type,pay_mode,casewhencert_age='NULL'ORcert_ageisnullthenb.avg_ageelsecert_ageend,chnl_type,month_idfromuser_info_basicajoin(selectround(avg(cert_age),0)avg_agefromuser_info_basic)b;9.3.3衍生新指標(biāo)1、功能分析產(chǎn)品的開始時間(start_date)和結(jié)束時間(end_date)都是時點(diǎn)數(shù)據(jù),分析時很少直接使用,通常都用于衍生其他字段,比如用end_date與賬期做差值,衍生出“到期剩余月份數(shù)”指標(biāo),去掉start_date和end_date,并生成新表:user_product_info_new。任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)9.3.3衍生新指標(biāo)2、程序開發(fā)任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)createtableuser_product_info_newasselectd_userid,product_mode,product_id,brand_code,floOR(months_between(end_date_re,month_id_re))rest_months,month_idfrom(selectt1.*,substr(end_date,1,10)end_date_re,from_unixtime(unix_timestamp(concat(month_id,'01'),'yyyymmdd'),'yyyy-mm-dd')month_id_refromuser_product_infot1)a;9.3.3衍生新指標(biāo)2、程序開發(fā)生成的新表user_product_info_new數(shù)據(jù)展示:任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)9.3.4刪除無效字段2、程序開發(fā)對于字段的刪除,我們通常很少在原表上進(jìn)行操作,而是在使用的時候直接放棄選擇這個字段,所以product_mode等字段在數(shù)據(jù)歸集成寬表時直接棄用。任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)9.3.5歸集數(shù)據(jù)1、功能分析先將user_info_basic表與user_product_attr表合并為一張中間表user_churn_temp,再將中間表user_churn_temp、user_product_info表和user_info表合并到同一張寬表中,以便于后續(xù)分析。任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)9.3.5歸集數(shù)據(jù)2、程序開發(fā)(1)user_info_basic表與user_product_attr表按照用戶唯一標(biāo)識關(guān)聯(lián)合并中間表,限定賬期為“201801”。任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)9.3.5歸集數(shù)據(jù)查看中間表的數(shù)據(jù):任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)9.3.5歸集數(shù)據(jù)2、程序開發(fā)(2)中間表user_churn_temp、user_product_info表和user_info表按照用戶唯一標(biāo)識關(guān)聯(lián)合并成寬表user_churn_total,將賬期為“201801”的數(shù)據(jù)插入到“201801”分區(qū)中。任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)9.3.5歸集數(shù)據(jù)查看寬表user_churn_total的前3條數(shù)據(jù)和數(shù)據(jù)總條數(shù):任務(wù)3處理聯(lián)通運(yùn)營商數(shù)據(jù)9.3.5歸集數(shù)據(jù)2、程序開發(fā)(3)生成中間表,對賬期為“201802”的數(shù)據(jù)則重復(fù)上面的步驟,將month_id='201801'改為month_id='2018

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論