版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
廣電用戶數(shù)據(jù)存儲(chǔ)與分析廣播電視行業(yè)是指專業(yè)從事廣電設(shè)備的生產(chǎn)、研究、銷售的單位,主要包括攝、錄、監(jiān)、采、編、播、管、存等方面。伴隨互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,各種網(wǎng)絡(luò)電視和視頻應(yīng)用(如愛奇藝、騰訊視頻、芒果TV等)遍地開花,人們的電視觀看行為正發(fā)生變化,由之前的傳統(tǒng)電視媒介向電腦、手機(jī)、平板端的網(wǎng)絡(luò)電視轉(zhuǎn)化。目前某廣播電視網(wǎng)絡(luò)運(yùn)營集團(tuán)已建成完整覆蓋各區(qū)(縣級(jí)市)的有線傳輸與無線傳輸互為延伸、互為補(bǔ)充的廣電寬帶信息網(wǎng)絡(luò),實(shí)現(xiàn)了城區(qū)全程全網(wǎng)的雙向覆蓋,為廣大市民提供有線數(shù)字電視、互聯(lián)網(wǎng)接入服務(wù)、高清互動(dòng)電視、移動(dòng)數(shù)字電視、手機(jī)電視、信息內(nèi)容集成等多樣化、跨平臺(tái)的信息服務(wù)。該集團(tuán)的數(shù)據(jù)來源多種多樣,需要對(duì)這些數(shù)據(jù)進(jìn)行存儲(chǔ)和分析。項(xiàng)目描述項(xiàng)目背景本項(xiàng)目將實(shí)現(xiàn)廣電用戶數(shù)據(jù)的存儲(chǔ)、處理和分析,先將CSV的數(shù)據(jù)導(dǎo)入至ElasticSearch中,再將ElasticSearch數(shù)據(jù)導(dǎo)入到Hive進(jìn)行數(shù)據(jù)探索、清洗和分析,最后將清洗分析的結(jié)果導(dǎo)入MySQL和HBase中。項(xiàng)目描述項(xiàng)目目標(biāo)根據(jù)該廣電公司的業(yè)務(wù)需求進(jìn)行具體分析,確定存儲(chǔ)與分析的技術(shù)選型,并設(shè)計(jì)存儲(chǔ)與分析架構(gòu)。為模擬真實(shí)生產(chǎn)環(huán)境,先將CSV的數(shù)據(jù)導(dǎo)入至ElasticSearch中,再將ElasticSearch數(shù)據(jù)導(dǎo)入至Hive中。對(duì)廣電用戶數(shù)據(jù)進(jìn)行基礎(chǔ)探索分析和業(yè)務(wù)探索分析,統(tǒng)計(jì)出不同類型的用戶記錄數(shù)、用戶收視時(shí)長分布和用戶的機(jī)頂盒待機(jī)記錄。再根據(jù)數(shù)據(jù)探索總結(jié)出數(shù)據(jù)清洗規(guī)則,處理廣電用戶數(shù)據(jù)中的無效數(shù)據(jù),包括無效的用戶、收視、賬單、訂單數(shù)據(jù)。根據(jù)廣電用戶的月均消費(fèi)金額,計(jì)算用戶的電視消費(fèi)水平和寬帶消費(fèi)水平,作為廣電用戶的消費(fèi)水平標(biāo)簽。最終將處理后的結(jié)果保存至MySQL數(shù)據(jù)庫中。項(xiàng)目描述項(xiàng)目分析1導(dǎo)入CSV格式數(shù)據(jù)到ElasticSearch目錄分析需求與架構(gòu)2轉(zhuǎn)移ElasticSearch數(shù)據(jù)到Hive3統(tǒng)計(jì)各表宣傳和政企用戶記錄數(shù)據(jù)4用戶收視行為數(shù)據(jù):用戶收視行為數(shù)據(jù)由網(wǎng)管系統(tǒng)實(shí)時(shí)采集。用戶消費(fèi)水平標(biāo)簽閾值探索:利用大數(shù)據(jù)技術(shù)進(jìn)行用戶畫像,將用戶標(biāo)簽化,以用戶為中心,串聯(lián)起用戶所有的歷史行為,然后根據(jù)歷史行為建立用戶畫像,細(xì)分出用戶的各種特征,由此能夠從整體上深入了解每一個(gè)用戶。用戶入網(wǎng)程度標(biāo)簽閾值探索:利用用戶基本信息表可以給用戶貼上用戶入網(wǎng)程度標(biāo)簽,即電視入網(wǎng)程度標(biāo)簽(子標(biāo)簽包含老用戶、中等用戶和新用戶),寬帶入網(wǎng)程度標(biāo)簽(子標(biāo)簽包含老用戶、中等用戶和新用戶)。
業(yè)務(wù)需求分析業(yè)務(wù)數(shù)據(jù)存儲(chǔ)使用ElasticSearch。使用Hive外部表關(guān)聯(lián)ElasticSearch。使用Sqoop實(shí)現(xiàn)將存儲(chǔ)在Hive的數(shù)據(jù)結(jié)果傳輸?shù)組ySQL中。
選擇存儲(chǔ)與分析技術(shù)將業(yè)務(wù)數(shù)據(jù)導(dǎo)入ElasticSearch。使用Hive外部表關(guān)聯(lián)ElasticSearch。利用Hive實(shí)現(xiàn)業(yè)務(wù)需求。利用Sqoop將畫像結(jié)果傳輸?shù)組ySQL中。設(shè)計(jì)存儲(chǔ)與分析架構(gòu)目錄轉(zhuǎn)移ElasticSearch數(shù)據(jù)到Hive3統(tǒng)計(jì)各表宣傳和政企用戶記錄數(shù)據(jù)41導(dǎo)入CSV格式數(shù)據(jù)到ElasticSearch分析需求與架構(gòu)2用戶基本信息表:用戶基本信息表記錄的是用戶最新狀態(tài)信息。
了解數(shù)據(jù)用戶狀態(tài)信息變更表:用戶狀態(tài)信息變更表用于記錄用戶所有時(shí)段的狀態(tài)信息。
了解數(shù)據(jù)賬單信息表:賬單信息表記錄用戶每月的賬單信息。
了解數(shù)據(jù)用戶收視行為信息表:用戶收視行為信息表記錄了用戶觀看電視的收視信息,其中觀看方式可分為直播、點(diǎn)播和回看,用戶每切換一個(gè)頻道都會(huì)生成一條新的記錄。
了解數(shù)據(jù)數(shù)據(jù)導(dǎo)入:利用ElaticSearch的Bulk
API,批量地將數(shù)據(jù)導(dǎo)入ElasticSearch中。查詢各表數(shù)據(jù)記錄數(shù):利用Head插件提交查詢請(qǐng)求,查詢各表數(shù)據(jù)記錄數(shù)。導(dǎo)入數(shù)據(jù)到ElasticSearch目錄統(tǒng)計(jì)各表宣傳和政企用戶記錄數(shù)據(jù)41分析方法與過程背景與挖掘目標(biāo)2轉(zhuǎn)移ElasticSearch數(shù)據(jù)到Hive3分析需求與架構(gòu)導(dǎo)入CSV格式數(shù)據(jù)到ElasticSearch在Hive中用戶基本信息表:用戶基本信息表記錄的是用戶最新狀態(tài)信息。分別將各個(gè)表數(shù)據(jù)從ElasticSearch導(dǎo)入Hive。導(dǎo)入數(shù)據(jù)后,檢查導(dǎo)入數(shù)據(jù)是否完整。在Hive中建立并導(dǎo)入數(shù)據(jù)管理表在Hive中查詢表中的數(shù)據(jù)使用select語句。其基本的語法如下。
查看Hive中的表數(shù)據(jù)SELECT[ALL|DITINCT]select_expr,select_expr,...FROMtable_reference[WHEREwhere_condition][GROUPBYcol_list[HAVINGcondition][CLUSTERBYcol_list|[DISTRIBUTEBYcol_list][SORTBY|ORDERBYcol_list]][LIMITnumber]目錄統(tǒng)計(jì)各表宣傳和政企用戶記錄數(shù)據(jù)41分析方法與過程背景與挖掘目標(biāo)2分析需求與架構(gòu)導(dǎo)入CSV格式數(shù)據(jù)到ElasticSearch結(jié)果分析3轉(zhuǎn)移ElasticSearch數(shù)據(jù)到Hive根據(jù)廣電集團(tuán)提供的資料,在各個(gè)表中owner_code為02、09、10的數(shù)據(jù)就是宣傳數(shù)據(jù)。使用“where
owner_codein("02","09","10")”篩選出宣傳數(shù)據(jù),再用count(*)進(jìn)行統(tǒng)計(jì)。
統(tǒng)計(jì)各表宣傳數(shù)據(jù)記錄數(shù)在各個(gè)表中owner_name=“EA”或“EB”或“EC”或“ED”或“EE”的數(shù)據(jù)即為政企用戶記錄。使用“whereowner_namein("EA級(jí)","EB級(jí)","EC級(jí)","ED級(jí)","EE級(jí)")”命令篩選出政企用戶數(shù)據(jù),再用count(*)進(jìn)行統(tǒng)計(jì)。
統(tǒng)計(jì)各表政企用戶數(shù)據(jù)記錄數(shù)統(tǒng)計(jì)各無效收視數(shù)據(jù)目錄6統(tǒng)計(jì)各表無效數(shù)據(jù)7計(jì)算用戶電視消費(fèi)水平和寬帶消費(fèi)水平5統(tǒng)計(jì)出用戶收視時(shí)長的分布情況,統(tǒng)計(jì)用戶收視時(shí)長分布。用戶收視時(shí)長是根據(jù)表media_index的duration字段計(jì)算的。統(tǒng)計(jì)時(shí)長時(shí)需要注意,數(shù)據(jù)庫中存放的數(shù)據(jù)時(shí)以毫秒為單位,需要在程序中進(jìn)行換算。統(tǒng)計(jì)用戶收視時(shí)長分布在統(tǒng)計(jì)中,若同一個(gè)節(jié)目觀看時(shí)長超過5個(gè)小時(shí),分析模型則認(rèn)為是機(jī)頂盒待機(jī)狀態(tài)。為了得到更準(zhǔn)確的數(shù)據(jù)分析結(jié)果,統(tǒng)計(jì)機(jī)頂盒待機(jī)的記錄數(shù)
統(tǒng)計(jì)機(jī)頂盒待機(jī)記錄數(shù)統(tǒng)計(jì)各無效收視數(shù)據(jù)目錄6統(tǒng)計(jì)各表無效數(shù)據(jù)7計(jì)算用戶電視消費(fèi)水平和寬帶消費(fèi)水平5處理無效用戶信息:無效用戶包括用戶狀態(tài)為被動(dòng)銷戶、創(chuàng)建、沖正、銷號(hào)的用戶,以及宣傳和政企用戶,對(duì)這些字段進(jìn)行清洗。處理無效收視信息:無效收視數(shù)據(jù)判定規(guī)則是觀看時(shí)長小于20秒或者觀看時(shí)長大于5小時(shí)的數(shù)據(jù),清洗無效收視數(shù)據(jù)。處理無效賬單信息:無效賬單是指賬單數(shù)據(jù)mmconsume_billevents的should_pay字段數(shù)值小于0的記錄。查詢無效賬單的數(shù)量,對(duì)其進(jìn)行清洗,并將清洗結(jié)果存入mmconsume_billevents_preprocessed表中。處理無效訂單信息:無效訂單數(shù)據(jù)是指訂單數(shù)據(jù)order_index的cost字段數(shù)為空的記錄。查詢無效訂單的數(shù)量,對(duì)其進(jìn)行清洗,并將清洗結(jié)果存入order_index_preprocessed表中
處理各表無效數(shù)據(jù)統(tǒng)計(jì)各無效收視數(shù)據(jù)目錄6統(tǒng)計(jì)各表無效數(shù)據(jù)5計(jì)算用戶電視消費(fèi)水平和寬帶消費(fèi)水平7統(tǒng)計(jì)電視消費(fèi)水平主要是對(duì)mmconsume_billevents_preprocessed表中電視用戶的應(yīng)付金額數(shù)據(jù)進(jìn)行分析。用戶實(shí)際消費(fèi)金額應(yīng)等于應(yīng)付金額減去優(yōu)惠金額。由于數(shù)據(jù)是3個(gè)月的數(shù)據(jù),所以還需要再除以3才能得到用戶的月均消費(fèi)金額。計(jì)算電視消費(fèi)水平和寬帶消費(fèi)水平1.電視消費(fèi)水平根據(jù)電視用戶的月均消費(fèi)金額,制定電視消費(fèi)水平標(biāo)簽的子標(biāo)簽的判斷閾值。對(duì)mmconsume_billevents_preprocessed表中should_pay字段的消費(fèi)數(shù)據(jù)進(jìn)行分類,得到電視超低消費(fèi)、電視低消費(fèi)、電視中等消費(fèi)和電視高消費(fèi)。計(jì)算電視消費(fèi)水平和寬帶消費(fèi)水平月消費(fèi)金額消費(fèi)水平>-26.5and<26.5電視超低消費(fèi)>=26.5and<46.5電視低消費(fèi)>=46.5and<66.5電視中等消費(fèi)>=66.5電視高消費(fèi)統(tǒng)計(jì)寬帶消費(fèi)水平主要是對(duì)mmconsume_billevents_preprocessed表中寬帶用戶的應(yīng)付金額數(shù)據(jù)進(jìn)行分析。用戶實(shí)際消費(fèi)金額應(yīng)等于應(yīng)付金額減去優(yōu)惠金額。由于數(shù)據(jù)總共3個(gè)月的數(shù)據(jù),所以還需要再除以3才能得到用戶的月均消費(fèi)金額。計(jì)算電視消費(fèi)水平和寬帶消費(fèi)水平2.寬帶消費(fèi)水平根據(jù)用戶的月均消費(fèi)金額,制定寬帶消費(fèi)水平標(biāo)簽的子標(biāo)簽的判斷閾值。對(duì)mmconsume_billevents_preprocessed表中should_pay字段的消費(fèi)數(shù)據(jù)進(jìn)行分類,得到寬帶低消費(fèi)、寬帶中消費(fèi)和寬帶高消費(fèi)。計(jì)算電視消費(fèi)水平和寬帶消費(fèi)水平月消費(fèi)金額消費(fèi)水平<=25低消費(fèi)>25and<=45中等消費(fèi)>45高消費(fèi)將數(shù)據(jù)傳輸?shù)組ySQL首先需要先將Hive中的數(shù)據(jù)的表結(jié)構(gòu)復(fù)制到MySQL中。從關(guān)系數(shù)據(jù)庫導(dǎo)入文件到MySQL中。將數(shù)據(jù)傳輸?shù)紿Base
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 影響農(nóng)村信用社發(fā)展的政策性障礙分析
- 輪椅車 第31部分 電動(dòng)輪椅車的鋰離子電池系統(tǒng)和充電器 要求和試驗(yàn)方法 征求意見稿
- 直播招商課件教學(xué)課件
- 金融培訓(xùn)課件教學(xué)課件
- 三年級(jí)數(shù)學(xué)計(jì)算題專項(xiàng)練習(xí)及答案集錦
- 維修水泵機(jī)組合同(2篇)
- 學(xué)習(xí)領(lǐng)會(huì)《新就業(yè)形態(tài)勞動(dòng)者權(quán)益協(xié)商指引》心得體會(huì)
- 南京航空航天大學(xué)《編譯原理》2022-2023學(xué)年第一學(xué)期期末試卷
- 發(fā)現(xiàn)問題說課稿
- 陽春市河朗鎮(zhèn)飲用水供水工程施工組織設(shè)計(jì)
- 人教版五年級(jí)上冊(cè)數(shù)學(xué)《可能性》作業(yè)設(shè)計(jì)
- 學(xué)校建設(shè)工程項(xiàng)目自查報(bào)告
- 混凝土結(jié)構(gòu)理論智慧樹知到答案章節(jié)測(cè)試2023年華南理工大學(xué)
- 超聲引導(dǎo)下腰椎部位穿刺
- 土地整理項(xiàng)目結(jié)算審計(jì)方案及提供資料清單
- 某文化博物館建設(shè)項(xiàng)目可行性研究報(bào)告
- 二年級(jí)語文質(zhì)量分析ppt課件精選ppt
- JJF 1272-2011阻容法露點(diǎn)濕度計(jì)校準(zhǔn)規(guī)范
- GB/T 39517.2-2020農(nóng)林拖拉機(jī)和機(jī)械農(nóng)用定位與導(dǎo)航系統(tǒng)測(cè)試規(guī)程第2部分:在直線和水平運(yùn)行狀態(tài)下衛(wèi)星自動(dòng)導(dǎo)航系統(tǒng)的測(cè)試
- 高中生學(xué)法指導(dǎo)課件
- GB/T 12363-2005鍛件功能分類
評(píng)論
0/150
提交評(píng)論