版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)技術(shù)應(yīng)用實(shí)例大數(shù)據(jù)技術(shù)在城市管理中的應(yīng)用大數(shù)據(jù)技術(shù)在金融領(lǐng)域的應(yīng)用大數(shù)據(jù)技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用大數(shù)據(jù)技術(shù)在零售行業(yè)的應(yīng)用大數(shù)據(jù)技術(shù)在城市管理中的應(yīng)用
隨著信息化技術(shù)的不斷發(fā)展,大數(shù)據(jù)在城市管理中的重要性顯得愈發(fā)突出。大數(shù)據(jù)不僅改變了人類社會(huì)的生活方式,也從根本上增強(qiáng)了城市管理及決策的精準(zhǔn)度和科學(xué)性。城市公交用戶出行分析獲知城市居民出行行為屬性特征,將信息進(jìn)行分析處理,采用一定的挖掘算法即可識別用戶的出行方式,借此獲知居民的出行軌跡,從而獲得出行用戶偏好等相關(guān)信息。利用大數(shù)據(jù)分析能力可加強(qiáng)公交精細(xì)化管理,將大數(shù)據(jù)與定性分析相結(jié)合,用數(shù)據(jù)規(guī)劃公交線路,克服人為主觀性、片面性的缺陷,就如同遇到問題時(shí)需要從多方面、多角度看待、分析和處理。公共交通數(shù)據(jù)包括公交卡刷卡數(shù)據(jù)、公交GPS定位數(shù)據(jù)。交通出行方式的識別,是對用戶出行軌跡中每一對相鄰出行節(jié)點(diǎn)出行過程特征的識別。若相鄰出行過程中運(yùn)動(dòng)軌跡特征大致相同,則認(rèn)為相鄰兩階段出行方式相同;若出現(xiàn)較大差異,則認(rèn)為出現(xiàn)了停駐或采用了其他的交通方式??梢酝ㄟ^用戶出行的歷史軌跡以及公交GPS定位數(shù)據(jù)來挖掘用戶的出行規(guī)律。城市公交用戶出行分析1.公交用戶出行系統(tǒng)整體架構(gòu)城市公交用戶出行分析2.公交用戶的公共交通數(shù)據(jù)說明下例公共交通數(shù)據(jù)來源于某市2021年5月份公交卡刷卡數(shù)據(jù),日均數(shù)據(jù)大小為1.2GB;公交GPS定位數(shù)據(jù),日均數(shù)據(jù)大小為6.9GB。公交卡刷卡數(shù)據(jù)說明如右表。序號字段內(nèi)容備注1設(shè)備編碼刷卡設(shè)備編號2IC卡編碼公交卡編號3刷卡記錄編碼記錄標(biāo)識4交易金額本次刷卡金額5交易類型公交刷卡11地鐵進(jìn)站21地鐵出站226卡內(nèi)余額公交卡余額7刷卡時(shí)間出行時(shí)間8線路名稱乘坐線路名稱9站點(diǎn)名稱刷卡站點(diǎn)名稱10車牌號乘坐記錄車牌號城市公交用戶出行分析公交GPS定位數(shù)據(jù)如右表。序號字段內(nèi)容備注1設(shè)備編號車輛唯一標(biāo)識2車牌號運(yùn)行車輛車牌號3線路車輛線路編號4系統(tǒng)時(shí)間上傳數(shù)據(jù)時(shí)間5定位狀態(tài)狀態(tài)判斷代碼6定位經(jīng)度百度地圖經(jīng)度標(biāo)準(zhǔn)7定位緯度百度地圖緯度標(biāo)準(zhǔn)8速度測量速度9方向行駛方向10行車記錄儀速度設(shè)備速度11行車記錄儀里程車輛行駛里程3.城市公交用戶出行數(shù)據(jù)預(yù)處理城市公交用戶出行分析在實(shí)際數(shù)據(jù)接入過程中,由于數(shù)據(jù)總量龐大,對公交卡刷卡數(shù)據(jù)、公交GPS定位數(shù)據(jù)進(jìn)行采集的過程中難免會(huì)有字段不完整、數(shù)據(jù)格式錯(cuò)誤、數(shù)據(jù)丟失以及日期不正確等問題產(chǎn)生,因此數(shù)據(jù)預(yù)處理顯得尤為重要。用戶出行數(shù)據(jù)預(yù)處理流程如右圖,數(shù)據(jù)預(yù)處理環(huán)節(jié)包括出行缺失數(shù)據(jù)補(bǔ)償、異常出行數(shù)據(jù)剔除、出行數(shù)據(jù)不一致檢測、出行數(shù)據(jù)噪聲識別、出行數(shù)據(jù)過濾與修正、多種出行數(shù)據(jù)源集成、降低數(shù)據(jù)集規(guī)模和基于模型的數(shù)據(jù)轉(zhuǎn)換。城市公交用戶出行分析
交通方式判別工作包括出行段分割、統(tǒng)計(jì)量選取、機(jī)器學(xué)習(xí)3個(gè)步驟。首先根據(jù)出行軌跡信息識別停駐,并根據(jù)停駐將出行軌跡分割成多種出行,根據(jù)換乘點(diǎn)將某種出行分割成只含一種交通方式的出行段;然后選取分割后的出行段。最后基于出行段運(yùn)用機(jī)器學(xué)習(xí)算法識別出行方式。分析挖掘公交用戶出行行為,可通過公共交通數(shù)據(jù)等多源數(shù)據(jù)集對用戶的出行特點(diǎn)進(jìn)行分析,包括用戶乘車頻次、多段換乘出行情況、短途出行情況及出行時(shí)段。4.公交用戶出行數(shù)據(jù)特征分析(1)用戶乘車頻次城市公交用戶出行分析將清洗后的公交卡刷卡數(shù)據(jù)按用戶分組,將員工卡和特殊人群的刷卡數(shù)據(jù)濾除,對單個(gè)用戶的出行頻次進(jìn)行統(tǒng)計(jì)。將出行次數(shù)區(qū)間劃分為(0,10]、(10,20]、(20,30]、(30,40]、(40,50]、(50,+∞)共6個(gè)區(qū)間范圍,計(jì)算每個(gè)區(qū)間對應(yīng)的刷卡人數(shù)分布,如右圖。大部分用戶5月份刷卡次數(shù)集中在30到40次,只有少部分用戶的刷卡次數(shù)大于50次。城市公交用戶出行分析刷卡頻次的累計(jì)分布圖,如右圖,刷卡次數(shù)在60次以下的用戶占比80%,大多數(shù)用戶的刷卡次數(shù)集中在30到60次的范圍內(nèi)。根據(jù)長尾效應(yīng)可得出,在70次左右的位置,累次百分比基本趨于100%,說明大于70次的用戶幾乎為0,概率線已趨于平滑。(2)多段換乘出行情況城市公交用戶出行分析將出行次數(shù)與刷卡次數(shù)對比分析,如右圖。右圖將出行次數(shù)區(qū)間劃分為(0,10]、(10,20]、(20,30]、(30,40]、(40,50]、(50,+∞)共6個(gè)區(qū)間范圍,說明刷卡次數(shù)相對較多的用戶出行大多需要換乘多次,經(jīng)過的站點(diǎn)數(shù)也相對較多。城市公交用戶出行分析右圖則表示刷卡次數(shù)越多,出行的次數(shù)也相對較多。(3)短途出行情況城市公交用戶出行分析用戶每次出行途經(jīng)的站點(diǎn)數(shù)也是分析出行行為的特征值之一,站點(diǎn)數(shù)的多少可直接衡量出行距離的遠(yuǎn)近,經(jīng)過站點(diǎn)數(shù)較少的出行可看作短途出行。由右圖可以看出,有短途乘車行為的用戶占12.42%,非短途乘車行為的用戶占87.58%。說明短途出行主要集中在小部分人群,短途出行情況作為特征值具有一定的區(qū)分作用。(4)出行時(shí)段城市公交用戶出行分析將一天24小時(shí)均分為24個(gè)出行時(shí)間段,以上車刷卡時(shí)間為出行的時(shí)間基準(zhǔn),以一小時(shí)時(shí)間段的長度統(tǒng)計(jì)刷卡人數(shù),如圖7-8所示。由右圖可明顯看出兩個(gè)出行峰值,即早高峰和晚高峰,早高峰峰值高于晚高峰,原因可能是下班和放學(xué)時(shí)間不同;0點(diǎn)到早上5點(diǎn)乘車人數(shù)基本為零,可能是凌晨之后部分公交和地鐵停運(yùn)而導(dǎo)致的。1.大數(shù)據(jù)在環(huán)保監(jiān)測中的優(yōu)勢利用智慧分析系統(tǒng)輔助環(huán)保部門科學(xué)決策,通過環(huán)境業(yè)務(wù)與地理信息系統(tǒng)的結(jié)合,實(shí)現(xiàn)生態(tài)環(huán)保高度信息化、現(xiàn)代化、智慧化,及時(shí)把控生態(tài)環(huán)境發(fā)展機(jī)遇,破解生態(tài)污染難題,將環(huán)保決策失敗率降至最低。智慧分析系統(tǒng)能夠直觀呈現(xiàn)天氣、水質(zhì)、空氣質(zhì)量、植被覆蓋等數(shù)據(jù)信息,并對可能發(fā)生的氣象災(zāi)害、環(huán)境污染進(jìn)行提示,環(huán)保部門可通過智慧分析系統(tǒng)觀測轄區(qū)生態(tài)狀況,為環(huán)境治理提供科學(xué)的解決方案。環(huán)保監(jiān)測環(huán)保監(jiān)測2.環(huán)保監(jiān)測大數(shù)據(jù)平臺框架結(jié)構(gòu)環(huán)境監(jiān)測平臺由數(shù)據(jù)采集層、數(shù)據(jù)處理層、數(shù)據(jù)計(jì)算層和數(shù)據(jù)應(yīng)用層組成。大數(shù)據(jù)環(huán)境監(jiān)測平臺框架結(jié)構(gòu)如下圖。環(huán)保監(jiān)測2.環(huán)保監(jiān)測大數(shù)據(jù)平臺框架結(jié)構(gòu)在保證數(shù)據(jù)真實(shí)的前提下,通過傳感器網(wǎng)絡(luò)、遠(yuǎn)程監(jiān)控、攝像頭、過程監(jiān)測、全方位監(jiān)測等設(shè)備,從多個(gè)維度、時(shí)空屬性、不同的粒度進(jìn)行數(shù)據(jù)采集。有噪聲的數(shù)據(jù)經(jīng)過整合與處理,轉(zhuǎn)換為標(biāo)準(zhǔn)數(shù)據(jù)。再借助數(shù)據(jù)計(jì)算框架,如海量數(shù)據(jù)處理框架Hadoop中的核心組件MapReduce、數(shù)據(jù)處理框架Spark或Storm、圖數(shù)據(jù)處理框架GraphX等對數(shù)據(jù)進(jìn)行計(jì)算。最后在應(yīng)用層實(shí)現(xiàn)智能監(jiān)控、自動(dòng)預(yù)警、智能分析、污染物溯源和智能呈現(xiàn)等功能。環(huán)保監(jiān)測3.環(huán)保監(jiān)測平臺的數(shù)據(jù)處理大數(shù)據(jù)環(huán)境監(jiān)測平臺將前端采集積累到的監(jiān)測數(shù)據(jù)資源、污染源數(shù)據(jù)、機(jī)動(dòng)車排污等數(shù)據(jù)資源進(jìn)行整合,集中到數(shù)據(jù)庫平臺中,方便查詢、分析和管理。采集的數(shù)據(jù)含有噪聲數(shù)據(jù),無法直接建模,需要對數(shù)據(jù)進(jìn)行規(guī)范化處理,通過缺失數(shù)據(jù)補(bǔ)充、冗余數(shù)據(jù)刪除、數(shù)據(jù)類型轉(zhuǎn)換、數(shù)據(jù)分類、數(shù)據(jù)融合等操作將數(shù)據(jù)整理成標(biāo)準(zhǔn)數(shù)據(jù)。環(huán)保監(jiān)測4.環(huán)保大數(shù)據(jù)平臺的應(yīng)用(1)污染物排放預(yù)警(2)污染物溯源(3)科學(xué)決策大數(shù)據(jù)技術(shù)在城市管理中的應(yīng)用大數(shù)據(jù)技術(shù)在金融領(lǐng)域的應(yīng)用大數(shù)據(jù)技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用大數(shù)據(jù)技術(shù)在零售行業(yè)的應(yīng)用大數(shù)據(jù)技術(shù)在金融領(lǐng)域的應(yīng)用大數(shù)據(jù)與金融領(lǐng)域的融合是時(shí)代發(fā)展的必然產(chǎn)物,大數(shù)據(jù)技術(shù)對數(shù)據(jù)處理的效率在市場變化、用戶營銷、產(chǎn)品優(yōu)化、銷售競爭等多方面應(yīng)用的便捷性、有效性是不言而喻的。將金融數(shù)據(jù)信息進(jìn)行深度挖掘與有效把握,可以幫助企業(yè)掌握自身經(jīng)營狀況,更準(zhǔn)確地預(yù)測市場變化,為優(yōu)化產(chǎn)業(yè)布局、分析客戶交易、改進(jìn)產(chǎn)品提供有效的數(shù)據(jù)支撐。股票價(jià)格漲跌趨勢預(yù)測1.股票價(jià)格漲跌趨勢預(yù)測技術(shù)選擇(1)BP神經(jīng)網(wǎng)絡(luò)
采用BP(BackPropagation)神經(jīng)網(wǎng)絡(luò)算法對股票價(jià)格進(jìn)行預(yù)測,將股票市場所采用的技術(shù)指標(biāo)作為神經(jīng)網(wǎng)絡(luò)輸入變量,利用逐步回歸方法篩選出影響股票價(jià)格漲跌的變量,從而建立起B(yǎng)P神經(jīng)網(wǎng)絡(luò)模型。(2)BP神經(jīng)網(wǎng)絡(luò)模型的參數(shù)確定
對BP神經(jīng)網(wǎng)絡(luò)模型的參數(shù)進(jìn)行選擇,通過獲取股票的收盤價(jià)和開盤價(jià)等指標(biāo)對BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。股票價(jià)格漲跌趨勢預(yù)測2.股票價(jià)格漲跌趨勢預(yù)測數(shù)據(jù)處理首先收集目前市場上常被使用的技術(shù)指標(biāo),當(dāng)作“候選”的輸入變量。然后采用逐步回歸方法來篩選候選變量,以決定哪些是影響股價(jià)變動(dòng)的關(guān)鍵因素。3.股票價(jià)格漲跌趨勢預(yù)測算法實(shí)現(xiàn)經(jīng)過多次調(diào)試試驗(yàn),最終確定最佳的隱藏層節(jié)點(diǎn)數(shù)量為20。通過大數(shù)據(jù)的收集和整理,選取2021年3月至4月共61個(gè)交易日的記錄為實(shí)驗(yàn)基礎(chǔ),其中選擇31組交易數(shù)據(jù)對BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,剩下30組數(shù)據(jù)待輸出結(jié)果后與實(shí)際值進(jìn)行對比。右圖是經(jīng)過BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)之后,預(yù)測的30組數(shù)據(jù)的輸出值與實(shí)際值相對比所產(chǎn)生的4只股票收盤價(jià)的相對誤差圖。股票價(jià)格漲跌趨勢預(yù)測
BP神經(jīng)網(wǎng)絡(luò)預(yù)測的股票A收盤價(jià)的相對誤差右圖是經(jīng)過BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)之后,預(yù)測的30組數(shù)據(jù)的輸出值與實(shí)際值相對比所產(chǎn)生的4只股票收盤價(jià)的相對誤差圖。股票價(jià)格漲跌趨勢預(yù)測
BP神經(jīng)網(wǎng)絡(luò)預(yù)測的股票B收盤價(jià)的相對誤差右圖是經(jīng)過BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)之后,預(yù)測的30組數(shù)據(jù)的輸出值與實(shí)際值相對比所產(chǎn)生的4只股票收盤價(jià)的相對誤差圖。股票價(jià)格漲跌趨勢預(yù)測
BP神經(jīng)網(wǎng)絡(luò)預(yù)測的股票C收盤價(jià)的相對誤差右圖是經(jīng)過BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)之后,預(yù)測的30組數(shù)據(jù)的輸出值與實(shí)際值相對比所產(chǎn)生的4只股票收盤價(jià)的相對誤差圖。股票價(jià)格漲跌趨勢預(yù)測
BP神經(jīng)網(wǎng)絡(luò)預(yù)測的股票D收盤價(jià)的相對誤差股票價(jià)格漲跌趨勢預(yù)測4.股票價(jià)格漲跌趨勢預(yù)測分析將股票A、股票B、股票C、股票D這4只股票的歷史數(shù)據(jù)在BP神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行學(xué)習(xí)訓(xùn)練,得出31組經(jīng)過學(xué)習(xí)之后輸出的預(yù)測值,然后將預(yù)測值與實(shí)際值相對比,進(jìn)一步得出了4只股票的相對誤差圖。通過圖不難發(fā)現(xiàn),A、B、C、D這4只股票的相對誤差控制在±2.5%以內(nèi),已經(jīng)能夠較好地對股票收盤的價(jià)格以及趨勢進(jìn)行預(yù)測,可以實(shí)現(xiàn)利用BP神經(jīng)網(wǎng)絡(luò)模型對股票進(jìn)行指導(dǎo)性預(yù)測,實(shí)現(xiàn)為廣大股民提供科學(xué)、理性投資的目的。上市公司綜合能力聚類分析1.上市公司綜合能力分析案例任務(wù)利用大數(shù)據(jù)技術(shù),采用因子分析法和聚類分析法對旅游上市公司的經(jīng)營績效進(jìn)行評價(jià)比較,分析旅游上市公司的經(jīng)營績效,提出相應(yīng)的改善措施,為旅游上市公司的高質(zhì)量發(fā)展提供參考。對于旅游上市公司,提出運(yùn)用模糊改進(jìn)方法對公司財(cái)務(wù)風(fēng)險(xiǎn)進(jìn)行評價(jià),運(yùn)用數(shù)據(jù)包絡(luò)分析(DataEnvelopmentAnalysis,DEA)模型對公司經(jīng)營效率進(jìn)行測度,運(yùn)用因子分析法進(jìn)行業(yè)績評價(jià)。上市公司綜合能力聚類分析2.上市公司綜合能力分析技術(shù)選擇主要基于因子分析法評價(jià)的客觀性和綜合性,采取因子分析法和聚類分析法對旅游上市公司的經(jīng)營績效進(jìn)行評價(jià),通過4種能力的指標(biāo)選取和樣本選取確定因子數(shù)量。(1)指標(biāo)選取
從贏利能力、償債能力、發(fā)展能力和營運(yùn)能力4個(gè)方面選取指標(biāo)。
(2)樣本選取
基于財(cái)務(wù)報(bào)表與東方財(cái)富網(wǎng)數(shù)據(jù)中心的數(shù)據(jù),選取了滬深交易所的24家A股旅游上市公司,然后運(yùn)用分析工具探究上市公司綜合能力的影響因子。上市公司綜合能力聚類分析(3)因子數(shù)量確定
選取每股收益、凈資產(chǎn)收益率等9個(gè)指標(biāo)進(jìn)行因子分析,指標(biāo)選取結(jié)果如下表。指標(biāo)因子指標(biāo)因子每股收益X1速動(dòng)比率X6凈資產(chǎn)收益率X2總資產(chǎn)周轉(zhuǎn)率X7銷售凈利率X3存貨周轉(zhuǎn)率X8資產(chǎn)負(fù)債率X4營業(yè)收入增長率X9流動(dòng)比率X5上市公司綜合能力聚類分析3.上市公司綜合能力分析數(shù)據(jù)預(yù)處理綜合業(yè)績得分排名前七的有:公司1、公司4、公司7、公司9、公司13、公司6、公司5。其中公司1綜合績效得分高于其他企業(yè)的得分,公司5的綜合得分為-1.63,低于其他企業(yè)。因子得分和綜合排名如右表。旅游上市公司償債因子贏利和成長因子營運(yùn)因子綜合得分綜合排名公司13.00252-0.57814-0.169661.131公司4-0.170852.431721.507131.052公司72.179870.06324-0.328690.933公司9-0.10198-0.961134.125130.594公司130.874280.68306-0.289100.555公司61.31748-0.33980-0.241810.436公司50.427740.22721-0.30660-1.637上市公司綜合能力聚類分析因子得分和綜合排名的雷達(dá)圖如下圖。上市公司綜合能力聚類分析4.上市公司綜合能力應(yīng)用分析在因子分析的基礎(chǔ)上進(jìn)行K均值聚類分析,聚類結(jié)果如右表。結(jié)果表明,旅游上市公司的經(jīng)營績效不夠理想。不同企業(yè)在不同因子上的得分一般不同,能兼顧償債能力、贏利能力、成長能力、營運(yùn)能力的企業(yè)較少,大都各項(xiàng)一般或其中一項(xiàng)較好、其他較差。類別旅游上市公司業(yè)績得分第一類公司1、公司4高第二類公司7較高第三類公司9、公司13低第四類公司6較低第五類公司5一般上市公司綜合能力聚類分析4.上市公司綜合能力應(yīng)用分析通過綜合能力分析,企業(yè)可以從3個(gè)方面改善公司績效。建議說明合理的多元化目前多元化已成為旅游業(yè)的普遍現(xiàn)象,從公司的實(shí)際狀況出發(fā),合理地涉足其他產(chǎn)業(yè),有利于旅游上市公司獲得規(guī)模效應(yīng)從而提升績效提高企業(yè)投資效率旅游企業(yè)投資效率與企業(yè)的成長性呈顯著正相關(guān),可以通過監(jiān)管信息質(zhì)量、擴(kuò)大資本市場、提高企業(yè)管理促進(jìn)投資效率,推動(dòng)企業(yè)成長提高抗風(fēng)險(xiǎn)能力重大事件帶來的沖擊對于旅游業(yè)來說幾乎是毀滅性的,要求企業(yè)提升經(jīng)營效率,做好戰(zhàn)略規(guī)劃,增強(qiáng)創(chuàng)新力,以在復(fù)蘇的市場中更有競爭力大數(shù)據(jù)技術(shù)在城市管理中的應(yīng)用大數(shù)據(jù)技術(shù)在金融領(lǐng)域的應(yīng)用大數(shù)據(jù)技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用大數(shù)據(jù)技術(shù)在零售行業(yè)的應(yīng)用大數(shù)據(jù)技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用移動(dòng)互聯(lián)網(wǎng)精準(zhǔn)營銷是大數(shù)據(jù)時(shí)代背景下的新型營銷模式,在互聯(lián)網(wǎng)技術(shù)和通信技術(shù)迅猛發(fā)展的背景下,無論是營銷內(nèi)容、呈現(xiàn)形式和投放方式,還是廣告主、廣告商、用戶之間的角色定位、傳播效果和用戶體驗(yàn),都有了顛覆性和創(chuàng)新性的變化。因此,移動(dòng)互聯(lián)網(wǎng)如何借助大數(shù)據(jù)實(shí)現(xiàn)滿足用戶個(gè)性化需求的精準(zhǔn)營銷,以及如何有效監(jiān)測營銷效果,成為業(yè)界及學(xué)者們共同關(guān)注的課題。音樂推薦系統(tǒng)音樂推薦系統(tǒng)通常由用戶偏好模型、音樂資源模塊和推薦算法3個(gè)部分組成,如右圖。音樂資源模塊主要包括對音樂資源(歌曲、歌手、專輯等)的組織和管理,通過定義不同級別的復(fù)雜度和抽象程度來構(gòu)建音樂特征數(shù)據(jù)庫,為音樂推薦模型提供有效的輸入數(shù)據(jù)。1.音樂推薦系統(tǒng)框架結(jié)構(gòu)音樂推薦系統(tǒng)2.音樂推薦系統(tǒng)技術(shù)選擇
交替最小二乘法(AlternatingLeastSquares,ALS)在機(jī)器學(xué)習(xí)中特指使用最小二乘法求解的協(xié)同過濾算法中的一種。ALS算法在構(gòu)建Spark推薦系統(tǒng)時(shí),是被使用得最多的協(xié)同過濾算法。ALS算法屬于User-ItemCF,是同時(shí)考慮到用戶和物品的算法,是基于矩陣分解的協(xié)同過濾算法。3.音樂推薦系統(tǒng)數(shù)據(jù)處理
本系統(tǒng)使用Hadoop與Spark統(tǒng)一部署環(huán)境,基于ALS協(xié)同過濾算法及關(guān)系數(shù)據(jù)庫,建立基于Spark的底層推薦算法,利用擬牛頓法解決優(yōu)化約束問題,使用Node.js搭建音樂推薦系統(tǒng)前端。音樂推薦系統(tǒng)4.音樂推薦系統(tǒng)應(yīng)用分析
利用數(shù)據(jù)庫musicrecommend中的3份數(shù)據(jù)進(jìn)行實(shí)驗(yàn),通過算法不斷對訓(xùn)練集學(xué)習(xí),可以發(fā)現(xiàn)利用主成分分析法(PrincipalComponentAnalysis,PCA)將原始評分矩陣從943×1682降維到943×1000,實(shí)驗(yàn)結(jié)果最好,即d=1000時(shí)推薦效果最好,擬牛頓法比傳統(tǒng)的推薦算法準(zhǔn)確率更高。音樂推薦系統(tǒng)基于標(biāo)簽重要程度的協(xié)調(diào)過濾文獻(xiàn)算法、傳統(tǒng)協(xié)同過濾算法及本節(jié)使用的優(yōu)化算法之間的綜合性能比較如下圖。平均絕對誤差(MeanAbsoluteError,MAE),因其離差(預(yù)測值與實(shí)際觀測值之差)被絕對值化的特性,可避免誤差正負(fù)相互抵消,更準(zhǔn)確地反映實(shí)際預(yù)測誤差的大小,綜合評價(jià)指標(biāo)更合理。由于MAE值越小說明模型質(zhì)量越好、預(yù)測越準(zhǔn)確,所以本節(jié)使用的優(yōu)化算法質(zhì)量最好,使用優(yōu)化算法的推薦系統(tǒng)可以降低推薦時(shí)間,提高推薦準(zhǔn)確率。大數(shù)據(jù)技術(shù)在城市管理中的應(yīng)用大數(shù)據(jù)技術(shù)在金融領(lǐng)域的應(yīng)用大數(shù)據(jù)技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用大數(shù)據(jù)技術(shù)在零售行業(yè)的應(yīng)用大數(shù)據(jù)技術(shù)在零售行業(yè)的應(yīng)用在零售行業(yè),現(xiàn)代連鎖零售企業(yè)有著海量的交易數(shù)據(jù),對交易數(shù)據(jù)進(jìn)行有效的挖掘可以幫助企業(yè)提升科學(xué)管理水平。購物籃分析(MarketBasketAnalysis)是數(shù)據(jù)挖掘技術(shù)在零售業(yè)的典型應(yīng)用之一,旨在從零售記錄中分析出顧客經(jīng)常同時(shí)購買的商品組合,挖掘出購物籃中有價(jià)值的信息。購物籃分析1.購物籃分析案例任務(wù)
顧客的購買行為是一種整體行為,購買一件商品可能會(huì)影響到其他商品的購買,從而影響到每個(gè)購物籃的利潤,所以購物籃分析的目標(biāo)就是尋找重要而且有價(jià)值的購物信息。
2.購物籃分析技術(shù)選擇
購物籃分析是關(guān)聯(lián)規(guī)則在零售業(yè)的一個(gè)重要應(yīng)用,通過發(fā)現(xiàn)顧客每次放入購物籃商品之間的聯(lián)系,分析顧客的購買行為,并輔助零售企業(yè)制定營銷策略。在購物籃分析中,主要參考的商品相關(guān)性分析指標(biāo)有支持度、置信度。購物籃分析構(gòu)建商品層次結(jié)構(gòu)樹,如右圖??梢缘玫矫總€(gè)節(jié)點(diǎn)的父節(jié)點(diǎn)和兄弟節(jié)點(diǎn)信息,從而判斷不同商品是否屬于同一父類,為生成購物籃時(shí)加入約束條件提供支持。另一方面,因?yàn)樵谏缮唐穼哟谓Y(jié)構(gòu)樹的過程中需要遍歷交易數(shù)據(jù),所以還可以進(jìn)行統(tǒng)計(jì)分析的工作,輔助商品銷售分析。購物籃分析3.購物籃分析數(shù)據(jù)挖掘
選擇根據(jù)實(shí)際交易數(shù)據(jù)生成商品銷售樹,得到的商品層次結(jié)構(gòu)更具針對性,可以提高后續(xù)購物籃分析的準(zhǔn)確性與合理性,也方便對所選擇的交易數(shù)據(jù)進(jìn)行商品銷售分析。4.購物籃應(yīng)用分析
結(jié)合挖掘出的商品層次結(jié)構(gòu)樹,在樹的每個(gè)節(jié)點(diǎn)添加統(tǒng)計(jì)信息,從而進(jìn)行商品銷售分析。例如,一棵含有統(tǒng)計(jì)信息的商品層次結(jié)構(gòu)樹,樹中每個(gè)節(jié)點(diǎn)有節(jié)點(diǎn)名稱、銷售量、銷售額占比3個(gè)屬性值,如右圖。其中n表示商品的銷售量,%表示銷售額占比。以參數(shù)的形式來控制展示樹每一層的節(jié)點(diǎn)個(gè)數(shù),圖中樹的每層節(jié)點(diǎn)只顯示5個(gè)小類,企業(yè)可以聚焦銷售量最大的幾種商品,從而制定相應(yīng)的銷售策略。購物籃分析
在大數(shù)據(jù)時(shí)代,研究如何有效實(shí)現(xiàn)對客戶價(jià)值的挖掘成為企業(yè)經(jīng)營發(fā)展的重要工作,并有效提高企業(yè)在市場中的競爭實(shí)力。
客戶價(jià)值金字塔參考如右圖??蛻魞r(jià)值分析1.航空公司客戶分布畫像分析客戶價(jià)值分析(1)不同性別會(huì)員分布畫像對于不同性別的會(huì)員進(jìn)行統(tǒng)計(jì)需先使用分組聚合,對性別進(jìn)行分組,統(tǒng)計(jì)不同性別的會(huì)員人數(shù),繪制餅圖,標(biāo)記不同性別占總?cè)藬?shù)的百分比,如右圖。由圖可知,會(huì)員中男性占比為76.5%,女性占比為23.5%,說明在航空公司會(huì)員中,男性客戶的比例較大。(2)不同等級會(huì)員的性別分布畫像客戶價(jià)值分析對等級、性別進(jìn)行分組,統(tǒng)計(jì)不同等級中不同性別的會(huì)員人數(shù),男性數(shù)量用淺色條形表示,女性數(shù)量用黑色條形表示,以此來繪制不同等級會(huì)員的性別柱形圖,如下圖。大多數(shù)會(huì)員的等級都是4級,男性4級會(huì)員人數(shù)高達(dá)40000多人,女性相對較少,只有10000多人,很少一部分會(huì)員的等級為6級。根據(jù)不同等級會(huì)員的人數(shù)分布,可以看出大多數(shù)會(huì)員乘坐飛機(jī)的次數(shù)不是特別多;
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《伊斯蘭文化圈》課件
- 【培訓(xùn)課件】《思維導(dǎo)圖》培訓(xùn)
- 二零二五年度深圳財(cái)務(wù)顧問合同2篇
- 《電子檔案管理》課件
- 2025年度醫(yī)療器械臨床試驗(yàn)項(xiàng)目管理委托代理合同3篇
- 稅收逃避打擊總結(jié)
- 2024版遠(yuǎn)程桌面維護(hù)服務(wù)合同3篇
- 圖像識別技術(shù)開發(fā)合同(2篇)
- 二零二五年度汽車融資租賃合同樣本與仲裁委裁決書應(yīng)用
- 青島城市學(xué)院《統(tǒng)計(jì)學(xué)(PM)》2023-2024學(xué)年第一學(xué)期期末試卷
- 江蘇某小區(qū)園林施工組織設(shè)計(jì)方案
- 勘察工作質(zhì)量及保證措施
- 體外膜肺氧合(ECMO)并發(fā)癥及護(hù)理
- 墊江縣中醫(yī)院2018年11月份臨床技能中心教學(xué)設(shè)備招標(biāo)項(xiàng)目招標(biāo)文件
- 排放源統(tǒng)計(jì)(環(huán)統(tǒng))年報(bào)填報(bào)指南
- 反射療法師理論考試復(fù)習(xí)題及答案
- 房地產(chǎn)銷售主管崗位招聘筆試題及解答(某大型國企)2025年
- 心電圖并發(fā)癥預(yù)防及處理
- 重慶市七中學(xué)2023-2024學(xué)年數(shù)學(xué)八上期末統(tǒng)考模擬試題【含解析】
- 檢驗(yàn)科lis系統(tǒng)需求
- 中東及非洲空氣制水機(jī)行業(yè)現(xiàn)狀及發(fā)展機(jī)遇分析2024-2030
評論
0/150
提交評論