大數(shù)據(jù)導(dǎo)論 課件 張良均第6、7章 數(shù)據(jù)安全、隱私保護(hù)與開放共享;大數(shù)據(jù)技術(shù)應(yīng)用實(shí)例_第1頁
大數(shù)據(jù)導(dǎo)論 課件 張良均第6、7章 數(shù)據(jù)安全、隱私保護(hù)與開放共享;大數(shù)據(jù)技術(shù)應(yīng)用實(shí)例_第2頁
大數(shù)據(jù)導(dǎo)論 課件 張良均第6、7章 數(shù)據(jù)安全、隱私保護(hù)與開放共享;大數(shù)據(jù)技術(shù)應(yīng)用實(shí)例_第3頁
大數(shù)據(jù)導(dǎo)論 課件 張良均第6、7章 數(shù)據(jù)安全、隱私保護(hù)與開放共享;大數(shù)據(jù)技術(shù)應(yīng)用實(shí)例_第4頁
大數(shù)據(jù)導(dǎo)論 課件 張良均第6、7章 數(shù)據(jù)安全、隱私保護(hù)與開放共享;大數(shù)據(jù)技術(shù)應(yīng)用實(shí)例_第5頁
已閱讀5頁,還剩72頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)安全、隱私保護(hù)與開放共享1234實(shí)例引入:菜鳥平臺(tái)共享物流信息數(shù)據(jù)安全與隱私大數(shù)據(jù)安全及隱私保護(hù)關(guān)鍵技術(shù)數(shù)據(jù)開放與共享實(shí)例引入:菜鳥平臺(tái)共享物流信息菜鳥是一家互聯(lián)網(wǎng)科技公司,專注于物流網(wǎng)絡(luò)的平臺(tái)服務(wù),包含物流倉儲(chǔ)平臺(tái)和物流信息系統(tǒng),通過大數(shù)據(jù)、云計(jì)算、智能技術(shù),可以提供充分滿足個(gè)性化需求的物流服務(wù)。如客戶在網(wǎng)絡(luò)下單時(shí),可以選擇“時(shí)效最快”“成本最低”“服務(wù)最好”“最安全”等多個(gè)快遞服務(wù)組合類型。2022年11月,菜鳥官網(wǎng)顯示,菜鳥供應(yīng)鏈物流骨干網(wǎng)絡(luò)如圖所示。實(shí)例引入:菜鳥平臺(tái)共享物流信息菜鳥注重自身合規(guī)性發(fā)展,參考國內(nèi)和國際的各項(xiàng)合規(guī)標(biāo)準(zhǔn),持續(xù)完善菜鳥各業(yè)務(wù)系統(tǒng)的建設(shè),為用戶提供安全、可靠的物流平臺(tái)服務(wù)。2017年5月,菜鳥面向行業(yè)推出“隱私面單”,可有效避免消費(fèi)者個(gè)人信息全部暴露在快遞面單上。菜鳥核心作用的發(fā)揮,關(guān)鍵在于對(duì)多方物流數(shù)據(jù)的有效整合,與菜鳥合作的相關(guān)物流企業(yè),都會(huì)將自己企業(yè)內(nèi)部的物流數(shù)據(jù)(主要是包裹軌跡數(shù)據(jù))共享出來,由菜鳥平臺(tái)對(duì)電商和物流數(shù)據(jù)進(jìn)行統(tǒng)一整合分析。只要人們掌握了大數(shù)據(jù)的規(guī)律和技術(shù),就可以更好地利用大數(shù)據(jù),并盡量避免諸如侵犯隱私等問題的出現(xiàn)。1234實(shí)例引入:菜鳥平臺(tái)共享物流信息數(shù)據(jù)安全與隱私大數(shù)據(jù)安全及隱私保護(hù)關(guān)鍵技術(shù)數(shù)據(jù)開放與共享數(shù)據(jù)安全與隱私1.大數(shù)據(jù)安全概述1傳統(tǒng)的數(shù)據(jù)安全的威脅主要包括計(jì)算機(jī)病毒、黑客攻擊、數(shù)據(jù)信息存儲(chǔ)介質(zhì)的損壞。2傳統(tǒng)信息安全關(guān)注個(gè)人計(jì)算機(jī)、智能終端、網(wǎng)絡(luò)服務(wù)器等用戶或系統(tǒng)的安全防護(hù)不同。3當(dāng)下情況數(shù)據(jù)安全面臨許多不同的威脅,數(shù)據(jù)安全面臨著新的安全隱患,受到各類威脅。1.大數(shù)據(jù)安全概述在大數(shù)據(jù)的研究與分析中傳統(tǒng)的安全保護(hù)機(jī)制以及體系已經(jīng)不能夠?yàn)轱w速發(fā)展的大數(shù)據(jù)進(jìn)行良好的數(shù)據(jù)保護(hù)。因此,應(yīng)積極發(fā)展新型的大數(shù)據(jù)安全防護(hù)架構(gòu),進(jìn)而對(duì)大數(shù)據(jù)時(shí)代下的數(shù)據(jù)隱私進(jìn)行保護(hù)。在現(xiàn)階段的大數(shù)據(jù)宏觀環(huán)境中用戶已經(jīng)不再享有數(shù)據(jù)的絕對(duì)控制權(quán),從而影響用戶的使用效率與質(zhì)量。因此,建立有效安全的大數(shù)據(jù)隱私保護(hù)勢(shì)在必行,國家也將完善重點(diǎn)領(lǐng)域安全保障體系,強(qiáng)化經(jīng)濟(jì)、重大基礎(chǔ)設(shè)施、金融、網(wǎng)絡(luò)等安全保障體系建設(shè)。大數(shù)據(jù)安全與隱私保護(hù)技術(shù)體系中的安全防護(hù)技術(shù)主要分4個(gè)層次,分別為設(shè)施層、數(shù)據(jù)層、接口層和系統(tǒng)層的安全防護(hù),如圖所示。數(shù)據(jù)安全與隱私2.大數(shù)據(jù)安全與隱私保護(hù)技術(shù)體系架構(gòu)2.大數(shù)據(jù)安全與隱私保護(hù)技術(shù)體系架構(gòu)大數(shù)據(jù)安全與隱私保護(hù)技術(shù)體系架構(gòu)如下表。層次說明設(shè)施層主要應(yīng)對(duì)終端、云平臺(tái)和大數(shù)據(jù)基礎(chǔ)設(shè)施的安全問題,包括平臺(tái)崩潰、設(shè)備失效、電磁破壞等,采用的關(guān)鍵安全防護(hù)技術(shù)主要有終端安全防護(hù)技術(shù)等,大數(shù)據(jù)基礎(chǔ)設(shè)施安全防護(hù)技術(shù)主要對(duì)大數(shù)據(jù)的網(wǎng)絡(luò)設(shè)施、存儲(chǔ)設(shè)施、計(jì)算設(shè)施和物理環(huán)境進(jìn)行保護(hù)數(shù)據(jù)層主要解決數(shù)據(jù)處理的生命周期帶來的安全問題,包括數(shù)據(jù)混亂等,采用的關(guān)鍵安全防護(hù)技術(shù)包括數(shù)據(jù)采集安全技術(shù)、隱私數(shù)據(jù)保護(hù)安全技術(shù)等接口層主要解決大數(shù)據(jù)系統(tǒng)中數(shù)據(jù)提供者、數(shù)據(jù)消費(fèi)者、大數(shù)據(jù)應(yīng)用提供者、大數(shù)據(jù)框架提供者、系統(tǒng)協(xié)調(diào)者等角色之間的接口面臨的安全問題,包括數(shù)據(jù)損失等,采用的關(guān)鍵技術(shù)包括對(duì)數(shù)據(jù)提供者與大數(shù)據(jù)應(yīng)用提供者之間的接口安全控制技術(shù)等系統(tǒng)層主要解決系統(tǒng)面臨的安全問題,包括運(yùn)行干擾、遠(yuǎn)程操控、高級(jí)持續(xù)性威脅(APT)攻擊、業(yè)務(wù)風(fēng)險(xiǎn)等,采用的關(guān)鍵技術(shù)包括實(shí)時(shí)安全監(jiān)測(cè)、安全事件管理、大數(shù)據(jù)安全態(tài)勢(shì)感知、APT攻擊防御等1234實(shí)例引入:菜鳥平臺(tái)共享物流信息數(shù)據(jù)安全與隱私大數(shù)據(jù)安全及隱私保護(hù)關(guān)鍵技術(shù)數(shù)據(jù)開放與共享大數(shù)據(jù)安全及隱私保護(hù)關(guān)鍵技術(shù)1.數(shù)據(jù)安全技術(shù)目前,數(shù)據(jù)安全的防護(hù)一般是從數(shù)據(jù)生命周期防護(hù)的視角出發(fā),設(shè)置分級(jí)分類的動(dòng)態(tài)防護(hù)策略,減少對(duì)業(yè)務(wù)數(shù)據(jù)流動(dòng)的干擾與傷害。隨著大數(shù)據(jù)云計(jì)算技術(shù)的普及,數(shù)據(jù)流動(dòng)性已成為數(shù)據(jù)的基本特征,也引發(fā)了數(shù)據(jù)安全體系建設(shè)的變化。數(shù)據(jù)從采集、傳輸?shù)酱鎯?chǔ)、處理、共享直至銷毀的全生命周期的各個(gè)環(huán)節(jié)均面臨安全風(fēng)險(xiǎn),數(shù)據(jù)安全防御體系必須貫穿生命周期的始終。數(shù)據(jù)融合共享成為趨勢(shì)數(shù)據(jù)應(yīng)用系統(tǒng)的角度1.數(shù)據(jù)安全技術(shù)數(shù)據(jù)全生命周期可分為數(shù)據(jù)采集、傳輸、存儲(chǔ)、處理、共享、銷毀6部分,其對(duì)應(yīng)的安全防護(hù)技術(shù)說明如表所示。環(huán)節(jié)說明采集安全環(huán)節(jié)主要通過采集白名單、數(shù)據(jù)源操作權(quán)限管理、事前敏感字段標(biāo)注、安全級(jí)別設(shè)置、靜態(tài)脫敏等技術(shù)來實(shí)現(xiàn)采集流程的安全防護(hù)。傳輸安全環(huán)節(jié)主要通過傳輸加密、完整性檢驗(yàn)技術(shù)實(shí)現(xiàn)傳輸通道的安全防護(hù)。存儲(chǔ)安全環(huán)節(jié)主要通過透明加密、完整性檢驗(yàn)提高數(shù)據(jù)存儲(chǔ)安全性。處理安全環(huán)節(jié)主要通過細(xì)粒度的權(quán)限管控、動(dòng)態(tài)脫敏等技術(shù)保障數(shù)據(jù)處理的安全。共享安全環(huán)節(jié)針對(duì)數(shù)據(jù)流接口的方式,采用接口操作權(quán)限管理、流量管控、接口認(rèn)證等方式保障接口的安全。銷毀安全環(huán)節(jié)主要通過物理摧毀和消磁等技術(shù)手段來破壞存儲(chǔ)介質(zhì)中數(shù)據(jù)的完整性,以防非授權(quán)用戶利用殘留數(shù)據(jù)惡意恢復(fù),達(dá)到保護(hù)數(shù)據(jù)的目的。1.數(shù)據(jù)安全技術(shù)數(shù)據(jù)的多維多重保護(hù)0103040502安全監(jiān)控與防護(hù)技術(shù)從海量的數(shù)據(jù)中挑選出敏感數(shù)據(jù),完成對(duì)敏感數(shù)據(jù)的識(shí)別,并采取分類分級(jí)的安全防護(hù)策略。數(shù)據(jù)防泄漏技術(shù)指通過技術(shù)手段,防止數(shù)據(jù)以違反安全策略規(guī)定的形式流出企業(yè)的數(shù)據(jù)安全防護(hù)手段。密文計(jì)算技術(shù)密文計(jì)算技術(shù)又分為同態(tài)加密和安全多方計(jì)算。數(shù)字水印技術(shù)可實(shí)現(xiàn)對(duì)分發(fā)后的數(shù)據(jù)流向的追蹤,在數(shù)據(jù)泄露行為發(fā)生后,對(duì)造成數(shù)據(jù)泄露的源頭可進(jìn)行回溯。數(shù)字溯源技術(shù)數(shù)據(jù)溯源技術(shù)是指查找數(shù)據(jù)產(chǎn)生的鏈路。數(shù)據(jù)溯源可以記載對(duì)數(shù)據(jù)處理的整個(gè)歷史,包括數(shù)據(jù)的起源和處理數(shù)據(jù)的所有后繼過程。大數(shù)據(jù)安全及隱私保護(hù)關(guān)鍵技術(shù)2.個(gè)人隱私保護(hù)技術(shù)數(shù)據(jù)脫敏技術(shù)數(shù)據(jù)脫敏是指對(duì)某些敏感信息通過脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實(shí)現(xiàn)對(duì)個(gè)人數(shù)據(jù)的隱私保護(hù),是應(yīng)用廣泛的隱私保護(hù)技術(shù)。技術(shù)方法說明加密方法加密方法是指標(biāo)準(zhǔn)的加密算法,加密后完全失去業(yè)務(wù)屬性,屬于低層次脫敏,算法開銷大,適用于機(jī)密性要求高、不需要保持業(yè)務(wù)屬性的場景基于數(shù)據(jù)失真的技術(shù)基于數(shù)據(jù)失真的技術(shù)主要通過添加噪聲等方法,使敏感數(shù)據(jù)失真,但同時(shí)保持某些數(shù)據(jù)或數(shù)據(jù)屬性不變,仍然保持某些統(tǒng)計(jì)方面的性質(zhì)。包括隨機(jī)化,即對(duì)原始數(shù)據(jù)加入隨機(jī)噪聲,然后發(fā)布擾動(dòng)后數(shù)據(jù)的方法,適用于群體信息統(tǒng)計(jì)或需要保持業(yè)務(wù)屬性的場景可逆的置換算法兼具可逆和保證業(yè)務(wù)屬性的特征,可以通過位置變換、表映射、算法映射等方式實(shí)現(xiàn),表映射方法應(yīng)用起來相對(duì)簡單,也能解決業(yè)務(wù)屬性保留的問題,但是隨著數(shù)據(jù)量的增多,相應(yīng)的映射表同比增大,應(yīng)用局限性較高2.個(gè)人隱私保護(hù)技術(shù)去標(biāo)識(shí)化技術(shù)去標(biāo)識(shí)化是指通過對(duì)個(gè)人信息的技術(shù)處理,在不借助額外信息的情況下,使得他人無法識(shí)別個(gè)人信息主體的過程。新的安全保障需求統(tǒng)計(jì)技術(shù)1密碼技術(shù)2抑制技術(shù)3假名化技術(shù)4泛化技術(shù)4隨機(jī)化技術(shù)5數(shù)據(jù)合成技術(shù)6常用的去標(biāo)識(shí)化技術(shù)數(shù)據(jù)的采集和溯源成為突出的安全風(fēng)險(xiǎn)點(diǎn),應(yīng)加強(qiáng)數(shù)據(jù)采集、運(yùn)算、溯源等關(guān)鍵環(huán)節(jié)的保障能力建設(shè),以數(shù)據(jù)安全關(guān)鍵環(huán)節(jié)和關(guān)鍵技術(shù)研究為突破點(diǎn),完善數(shù)據(jù)安全技術(shù)體系。1234實(shí)例引入:菜鳥平臺(tái)共享物流信息數(shù)據(jù)安全與隱私大數(shù)據(jù)安全及隱私保護(hù)關(guān)鍵技術(shù)數(shù)據(jù)開放與共享數(shù)據(jù)開放與共享1.數(shù)據(jù)開放與共享的概念數(shù)據(jù):是指原始的、未經(jīng)處理的并允許個(gè)人和企業(yè)自由利用的數(shù)據(jù)。開放:一般來說開放的概念具有如下兩個(gè)層次的含義。技術(shù)上的開放,即以機(jī)器可讀的標(biāo)準(zhǔn)格式開放。法律上的開放,即不受限制地明確允許商業(yè)和非商業(yè)利用和再利用。開放數(shù)據(jù)是指一種經(jīng)過挑選與許可的數(shù)據(jù),不受著作權(quán)、專利權(quán)以及其他管理機(jī)制所限制,可以被任何人自由免費(fèi)地訪問、獲取、利用和分享數(shù)據(jù)共享指處于不同時(shí)空的用戶使用不同計(jì)算機(jī)、不同軟件能夠讀取他人數(shù)據(jù)并進(jìn)行各種操作運(yùn)算和分析。開放數(shù)據(jù)僅是大數(shù)據(jù)的一部分,不完全等同于大數(shù)據(jù),也有別于公開數(shù)據(jù)和共享數(shù)據(jù)。開放數(shù)據(jù)的定義突出了開放數(shù)據(jù)的如下兩個(gè)核心要素。數(shù)據(jù)開放與共享2.數(shù)據(jù)開放與共享的意義意義說明有助于提升資源利用率統(tǒng)一數(shù)據(jù)存儲(chǔ)、共享開放、安全管理等職能,消滅傳統(tǒng)信息化平臺(tái)建設(shè)中的“豎井式”業(yè)務(wù)、“數(shù)據(jù)孤島”、重復(fù)建設(shè)、資源浪費(fèi)等問題有助于提升工作效率通過大數(shù)據(jù)共享開放平臺(tái),整合大數(shù)據(jù)各用戶之間的數(shù)據(jù)共享渠道,為安全、高效、有序、可靠的數(shù)據(jù)共享開放提供平臺(tái)支撐。通過平臺(tái)資源的統(tǒng)一整合,在數(shù)據(jù)存儲(chǔ)與交換機(jī)制中可以考慮數(shù)據(jù)可用不可見、數(shù)據(jù)不搬家、數(shù)據(jù)點(diǎn)對(duì)點(diǎn)直接交換等交換模式,大大提升了交換效率有助于企業(yè)獲得更好的經(jīng)營發(fā)展能力數(shù)據(jù)信息的增多可以增加企業(yè)做出正確選擇的能力,從而提高經(jīng)濟(jì)效益,更好地體現(xiàn)信息的價(jià)值有助于推動(dòng)社會(huì)治理創(chuàng)新依托數(shù)據(jù)共享和大數(shù)據(jù)技術(shù)應(yīng)用,有利于實(shí)現(xiàn)社會(huì)治理機(jī)制的創(chuàng)新,給公眾的生活帶來便利,如緩解交通壓力、保障食品安全、解決環(huán)境污染數(shù)據(jù)開放與共享數(shù)據(jù)集選擇:選取將要開放的數(shù)據(jù)集是數(shù)據(jù)開放與共享的第一步,同時(shí)也是在數(shù)據(jù)開放與共享實(shí)施過程中工作量很大的一步,特別是涉及數(shù)據(jù)所有權(quán),需要數(shù)據(jù)發(fā)布者事先制定數(shù)據(jù)開放的標(biāo)準(zhǔn)和對(duì)數(shù)據(jù)進(jìn)行分級(jí)處理。開放許可協(xié)議:在選擇好待發(fā)布的數(shù)據(jù)集后,應(yīng)該考慮對(duì)數(shù)據(jù)應(yīng)用什么樣的許可協(xié)議。對(duì)于開放數(shù)據(jù),推薦選用遵循開放知識(shí)定義并且適用于數(shù)據(jù)的開放許可協(xié)議,如知識(shí)共享、開放數(shù)據(jù)公用等。數(shù)據(jù)集發(fā)現(xiàn)與獲?。哼x擇好數(shù)據(jù)開放許可協(xié)議后,數(shù)據(jù)發(fā)布者可將數(shù)據(jù)集發(fā)布到相應(yīng)的數(shù)據(jù)開放與共享平臺(tái)。數(shù)據(jù)開放的目的是數(shù)據(jù)的再利用,因此數(shù)據(jù)發(fā)布者必須確保數(shù)據(jù)是可再次訪問和獲取的,且提供機(jī)器能夠訪問的文件格式。數(shù)據(jù)開放與共享的實(shí)施既是一個(gè)技術(shù)過程又是一個(gè)管理過程。一般來說,數(shù)據(jù)開放與共享實(shí)施涉及3個(gè)主要步驟,即數(shù)據(jù)集選擇、開放許可協(xié)議、數(shù)據(jù)集發(fā)現(xiàn)與獲取。3.數(shù)據(jù)開放與共享實(shí)施指南小結(jié)數(shù)據(jù)素養(yǎng)教育是大數(shù)據(jù)專業(yè)人才培養(yǎng)的核心內(nèi)容,數(shù)據(jù)安全、隱私保護(hù)和數(shù)據(jù)共享是培養(yǎng)學(xué)生數(shù)據(jù)素養(yǎng)的重要內(nèi)容。本章通過菜鳥平臺(tái)共享物流信息實(shí)例,引入了數(shù)據(jù)安全、隱私保護(hù)、數(shù)據(jù)共享與開放等知識(shí)點(diǎn),然后詳細(xì)介紹了數(shù)據(jù)安全和隱私保護(hù)的現(xiàn)狀、技術(shù)的架構(gòu)等,從而進(jìn)一步學(xué)習(xí)了數(shù)據(jù)安全與隱私保護(hù)的技術(shù)。介紹了數(shù)據(jù)開放與共享的概念、意義和實(shí)施。通過本章的學(xué)習(xí),讀者可掌握大數(shù)據(jù)安全、大數(shù)據(jù)隱私技術(shù)、大數(shù)據(jù)開放共享,為培養(yǎng)法治思維和數(shù)據(jù)素養(yǎng)奠定堅(jiān)實(shí)的基礎(chǔ)。大數(shù)據(jù)技術(shù)應(yīng)用實(shí)例大數(shù)據(jù)技術(shù)在城市管理中的應(yīng)用大數(shù)據(jù)技術(shù)在金融領(lǐng)域的應(yīng)用大數(shù)據(jù)技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用大數(shù)據(jù)技術(shù)在零售行業(yè)的應(yīng)用大數(shù)據(jù)技術(shù)在城市管理中的應(yīng)用

隨著信息化技術(shù)的不斷發(fā)展,大數(shù)據(jù)在城市管理中的重要性顯得愈發(fā)突出。大數(shù)據(jù)不僅改變了人類社會(huì)的生活方式,也從根本上增強(qiáng)了城市管理及決策的精準(zhǔn)度和科學(xué)性。城市公交用戶出行分析獲知城市居民出行行為屬性特征,將信息進(jìn)行分析處理,采用一定的挖掘算法即可識(shí)別用戶的出行方式,借此獲知居民的出行軌跡,從而獲得出行用戶偏好等相關(guān)信息。利用大數(shù)據(jù)分析能力可加強(qiáng)公交精細(xì)化管理,將大數(shù)據(jù)與定性分析相結(jié)合,用數(shù)據(jù)規(guī)劃公交線路,克服人為主觀性、片面性的缺陷,就如同遇到問題時(shí)需要從多方面、多角度看待、分析和處理。公共交通數(shù)據(jù)包括公交卡刷卡數(shù)據(jù)、公交GPS定位數(shù)據(jù)。交通出行方式的識(shí)別,是對(duì)用戶出行軌跡中每一對(duì)相鄰出行節(jié)點(diǎn)出行過程特征的識(shí)別。若相鄰出行過程中運(yùn)動(dòng)軌跡特征大致相同,則認(rèn)為相鄰兩階段出行方式相同;若出現(xiàn)較大差異,則認(rèn)為出現(xiàn)了停駐或采用了其他的交通方式??梢酝ㄟ^用戶出行的歷史軌跡以及公交GPS定位數(shù)據(jù)來挖掘用戶的出行規(guī)律。城市公交用戶出行分析1.公交用戶出行系統(tǒng)整體架構(gòu)城市公交用戶出行分析2.公交用戶的公共交通數(shù)據(jù)說明下例公共交通數(shù)據(jù)來源于某市2021年5月份公交卡刷卡數(shù)據(jù),日均數(shù)據(jù)大小為1.2GB;公交GPS定位數(shù)據(jù),日均數(shù)據(jù)大小為6.9GB。公交卡刷卡數(shù)據(jù)說明如右表。序號(hào)字段內(nèi)容備注1設(shè)備編碼刷卡設(shè)備編號(hào)2IC卡編碼公交卡編號(hào)3刷卡記錄編碼記錄標(biāo)識(shí)4交易金額本次刷卡金額5交易類型公交刷卡11地鐵進(jìn)站21地鐵出站226卡內(nèi)余額公交卡余額7刷卡時(shí)間出行時(shí)間8線路名稱乘坐線路名稱9站點(diǎn)名稱刷卡站點(diǎn)名稱10車牌號(hào)乘坐記錄車牌號(hào)城市公交用戶出行分析公交GPS定位數(shù)據(jù)如右表。序號(hào)字段內(nèi)容備注1設(shè)備編號(hào)車輛唯一標(biāo)識(shí)2車牌號(hào)運(yùn)行車輛車牌號(hào)3線路車輛線路編號(hào)4系統(tǒng)時(shí)間上傳數(shù)據(jù)時(shí)間5定位狀態(tài)狀態(tài)判斷代碼6定位經(jīng)度百度地圖經(jīng)度標(biāo)準(zhǔn)7定位緯度百度地圖緯度標(biāo)準(zhǔn)8速度測(cè)量速度9方向行駛方向10行車記錄儀速度設(shè)備速度11行車記錄儀里程車輛行駛里程3.城市公交用戶出行數(shù)據(jù)預(yù)處理城市公交用戶出行分析在實(shí)際數(shù)據(jù)接入過程中,由于數(shù)據(jù)總量龐大,對(duì)公交卡刷卡數(shù)據(jù)、公交GPS定位數(shù)據(jù)進(jìn)行采集的過程中難免會(huì)有字段不完整、數(shù)據(jù)格式錯(cuò)誤、數(shù)據(jù)丟失以及日期不正確等問題產(chǎn)生,因此數(shù)據(jù)預(yù)處理顯得尤為重要。用戶出行數(shù)據(jù)預(yù)處理流程如右圖,數(shù)據(jù)預(yù)處理環(huán)節(jié)包括出行缺失數(shù)據(jù)補(bǔ)償、異常出行數(shù)據(jù)剔除、出行數(shù)據(jù)不一致檢測(cè)、出行數(shù)據(jù)噪聲識(shí)別、出行數(shù)據(jù)過濾與修正、多種出行數(shù)據(jù)源集成、降低數(shù)據(jù)集規(guī)模和基于模型的數(shù)據(jù)轉(zhuǎn)換。城市公交用戶出行分析

交通方式判別工作包括出行段分割、統(tǒng)計(jì)量選取、機(jī)器學(xué)習(xí)3個(gè)步驟。首先根據(jù)出行軌跡信息識(shí)別停駐,并根據(jù)停駐將出行軌跡分割成多種出行,根據(jù)換乘點(diǎn)將某種出行分割成只含一種交通方式的出行段;然后選取分割后的出行段。最后基于出行段運(yùn)用機(jī)器學(xué)習(xí)算法識(shí)別出行方式。分析挖掘公交用戶出行行為,可通過公共交通數(shù)據(jù)等多源數(shù)據(jù)集對(duì)用戶的出行特點(diǎn)進(jìn)行分析,包括用戶乘車頻次、多段換乘出行情況、短途出行情況及出行時(shí)段。4.公交用戶出行數(shù)據(jù)特征分析(1)用戶乘車頻次城市公交用戶出行分析將清洗后的公交卡刷卡數(shù)據(jù)按用戶分組,將員工卡和特殊人群的刷卡數(shù)據(jù)濾除,對(duì)單個(gè)用戶的出行頻次進(jìn)行統(tǒng)計(jì)。將出行次數(shù)區(qū)間劃分為(0,10]、(10,20]、(20,30]、(30,40]、(40,50]、(50,+∞)共6個(gè)區(qū)間范圍,計(jì)算每個(gè)區(qū)間對(duì)應(yīng)的刷卡人數(shù)分布,如右圖。大部分用戶5月份刷卡次數(shù)集中在30到40次,只有少部分用戶的刷卡次數(shù)大于50次。城市公交用戶出行分析刷卡頻次的累計(jì)分布圖,如右圖,刷卡次數(shù)在60次以下的用戶占比80%,大多數(shù)用戶的刷卡次數(shù)集中在30到60次的范圍內(nèi)。根據(jù)長尾效應(yīng)可得出,在70次左右的位置,累次百分比基本趨于100%,說明大于70次的用戶幾乎為0,概率線已趨于平滑。(2)多段換乘出行情況城市公交用戶出行分析將出行次數(shù)與刷卡次數(shù)對(duì)比分析,如右圖。右圖將出行次數(shù)區(qū)間劃分為(0,10]、(10,20]、(20,30]、(30,40]、(40,50]、(50,+∞)共6個(gè)區(qū)間范圍,說明刷卡次數(shù)相對(duì)較多的用戶出行大多需要換乘多次,經(jīng)過的站點(diǎn)數(shù)也相對(duì)較多。城市公交用戶出行分析右圖則表示刷卡次數(shù)越多,出行的次數(shù)也相對(duì)較多。(3)短途出行情況城市公交用戶出行分析用戶每次出行途經(jīng)的站點(diǎn)數(shù)也是分析出行行為的特征值之一,站點(diǎn)數(shù)的多少可直接衡量出行距離的遠(yuǎn)近,經(jīng)過站點(diǎn)數(shù)較少的出行可看作短途出行。由右圖可以看出,有短途乘車行為的用戶占12.42%,非短途乘車行為的用戶占87.58%。說明短途出行主要集中在小部分人群,短途出行情況作為特征值具有一定的區(qū)分作用。(4)出行時(shí)段城市公交用戶出行分析將一天24小時(shí)均分為24個(gè)出行時(shí)間段,以上車刷卡時(shí)間為出行的時(shí)間基準(zhǔn),以一小時(shí)時(shí)間段的長度統(tǒng)計(jì)刷卡人數(shù),如圖7-8所示。由右圖可明顯看出兩個(gè)出行峰值,即早高峰和晚高峰,早高峰峰值高于晚高峰,原因可能是下班和放學(xué)時(shí)間不同;0點(diǎn)到早上5點(diǎn)乘車人數(shù)基本為零,可能是凌晨之后部分公交和地鐵停運(yùn)而導(dǎo)致的。1.大數(shù)據(jù)在環(huán)保監(jiān)測(cè)中的優(yōu)勢(shì)利用智慧分析系統(tǒng)輔助環(huán)保部門科學(xué)決策,通過環(huán)境業(yè)務(wù)與地理信息系統(tǒng)的結(jié)合,實(shí)現(xiàn)生態(tài)環(huán)保高度信息化、現(xiàn)代化、智慧化,及時(shí)把控生態(tài)環(huán)境發(fā)展機(jī)遇,破解生態(tài)污染難題,將環(huán)保決策失敗率降至最低。智慧分析系統(tǒng)能夠直觀呈現(xiàn)天氣、水質(zhì)、空氣質(zhì)量、植被覆蓋等數(shù)據(jù)信息,并對(duì)可能發(fā)生的氣象災(zāi)害、環(huán)境污染進(jìn)行提示,環(huán)保部門可通過智慧分析系統(tǒng)觀測(cè)轄區(qū)生態(tài)狀況,為環(huán)境治理提供科學(xué)的解決方案。環(huán)保監(jiān)測(cè)環(huán)保監(jiān)測(cè)2.環(huán)保監(jiān)測(cè)大數(shù)據(jù)平臺(tái)框架結(jié)構(gòu)環(huán)境監(jiān)測(cè)平臺(tái)由數(shù)據(jù)采集層、數(shù)據(jù)處理層、數(shù)據(jù)計(jì)算層和數(shù)據(jù)應(yīng)用層組成。大數(shù)據(jù)環(huán)境監(jiān)測(cè)平臺(tái)框架結(jié)構(gòu)如下圖。環(huán)保監(jiān)測(cè)2.環(huán)保監(jiān)測(cè)大數(shù)據(jù)平臺(tái)框架結(jié)構(gòu)在保證數(shù)據(jù)真實(shí)的前提下,通過傳感器網(wǎng)絡(luò)、遠(yuǎn)程監(jiān)控、攝像頭、過程監(jiān)測(cè)、全方位監(jiān)測(cè)等設(shè)備,從多個(gè)維度、時(shí)空屬性、不同的粒度進(jìn)行數(shù)據(jù)采集。有噪聲的數(shù)據(jù)經(jīng)過整合與處理,轉(zhuǎn)換為標(biāo)準(zhǔn)數(shù)據(jù)。再借助數(shù)據(jù)計(jì)算框架,如海量數(shù)據(jù)處理框架Hadoop中的核心組件MapReduce、數(shù)據(jù)處理框架Spark或Storm、圖數(shù)據(jù)處理框架GraphX等對(duì)數(shù)據(jù)進(jìn)行計(jì)算。最后在應(yīng)用層實(shí)現(xiàn)智能監(jiān)控、自動(dòng)預(yù)警、智能分析、污染物溯源和智能呈現(xiàn)等功能。環(huán)保監(jiān)測(cè)3.環(huán)保監(jiān)測(cè)平臺(tái)的數(shù)據(jù)處理大數(shù)據(jù)環(huán)境監(jiān)測(cè)平臺(tái)將前端采集積累到的監(jiān)測(cè)數(shù)據(jù)資源、污染源數(shù)據(jù)、機(jī)動(dòng)車排污等數(shù)據(jù)資源進(jìn)行整合,集中到數(shù)據(jù)庫平臺(tái)中,方便查詢、分析和管理。采集的數(shù)據(jù)含有噪聲數(shù)據(jù),無法直接建模,需要對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,通過缺失數(shù)據(jù)補(bǔ)充、冗余數(shù)據(jù)刪除、數(shù)據(jù)類型轉(zhuǎn)換、數(shù)據(jù)分類、數(shù)據(jù)融合等操作將數(shù)據(jù)整理成標(biāo)準(zhǔn)數(shù)據(jù)。環(huán)保監(jiān)測(cè)4.環(huán)保大數(shù)據(jù)平臺(tái)的應(yīng)用(1)污染物排放預(yù)警(2)污染物溯源(3)科學(xué)決策大數(shù)據(jù)技術(shù)在城市管理中的應(yīng)用大數(shù)據(jù)技術(shù)在金融領(lǐng)域的應(yīng)用大數(shù)據(jù)技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用大數(shù)據(jù)技術(shù)在零售行業(yè)的應(yīng)用大數(shù)據(jù)技術(shù)在金融領(lǐng)域的應(yīng)用大數(shù)據(jù)與金融領(lǐng)域的融合是時(shí)代發(fā)展的必然產(chǎn)物,大數(shù)據(jù)技術(shù)對(duì)數(shù)據(jù)處理的效率在市場變化、用戶營銷、產(chǎn)品優(yōu)化、銷售競爭等多方面應(yīng)用的便捷性、有效性是不言而喻的。將金融數(shù)據(jù)信息進(jìn)行深度挖掘與有效把握,可以幫助企業(yè)掌握自身經(jīng)營狀況,更準(zhǔn)確地預(yù)測(cè)市場變化,為優(yōu)化產(chǎn)業(yè)布局、分析客戶交易、改進(jìn)產(chǎn)品提供有效的數(shù)據(jù)支撐。股票價(jià)格漲跌趨勢(shì)預(yù)測(cè)1.股票價(jià)格漲跌趨勢(shì)預(yù)測(cè)技術(shù)選擇(1)BP神經(jīng)網(wǎng)絡(luò)

采用BP(BackPropagation)神經(jīng)網(wǎng)絡(luò)算法對(duì)股票價(jià)格進(jìn)行預(yù)測(cè),將股票市場所采用的技術(shù)指標(biāo)作為神經(jīng)網(wǎng)絡(luò)輸入變量,利用逐步回歸方法篩選出影響股票價(jià)格漲跌的變量,從而建立起B(yǎng)P神經(jīng)網(wǎng)絡(luò)模型。(2)BP神經(jīng)網(wǎng)絡(luò)模型的參數(shù)確定

對(duì)BP神經(jīng)網(wǎng)絡(luò)模型的參數(shù)進(jìn)行選擇,通過獲取股票的收盤價(jià)和開盤價(jià)等指標(biāo)對(duì)BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。股票價(jià)格漲跌趨勢(shì)預(yù)測(cè)2.股票價(jià)格漲跌趨勢(shì)預(yù)測(cè)數(shù)據(jù)處理首先收集目前市場上常被使用的技術(shù)指標(biāo),當(dāng)作“候選”的輸入變量。然后采用逐步回歸方法來篩選候選變量,以決定哪些是影響股價(jià)變動(dòng)的關(guān)鍵因素。3.股票價(jià)格漲跌趨勢(shì)預(yù)測(cè)算法實(shí)現(xiàn)經(jīng)過多次調(diào)試試驗(yàn),最終確定最佳的隱藏層節(jié)點(diǎn)數(shù)量為20。通過大數(shù)據(jù)的收集和整理,選取2021年3月至4月共61個(gè)交易日的記錄為實(shí)驗(yàn)基礎(chǔ),其中選擇31組交易數(shù)據(jù)對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,剩下30組數(shù)據(jù)待輸出結(jié)果后與實(shí)際值進(jìn)行對(duì)比。右圖是經(jīng)過BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)之后,預(yù)測(cè)的30組數(shù)據(jù)的輸出值與實(shí)際值相對(duì)比所產(chǎn)生的4只股票收盤價(jià)的相對(duì)誤差圖。股票價(jià)格漲跌趨勢(shì)預(yù)測(cè)

BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的股票A收盤價(jià)的相對(duì)誤差右圖是經(jīng)過BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)之后,預(yù)測(cè)的30組數(shù)據(jù)的輸出值與實(shí)際值相對(duì)比所產(chǎn)生的4只股票收盤價(jià)的相對(duì)誤差圖。股票價(jià)格漲跌趨勢(shì)預(yù)測(cè)

BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的股票B收盤價(jià)的相對(duì)誤差右圖是經(jīng)過BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)之后,預(yù)測(cè)的30組數(shù)據(jù)的輸出值與實(shí)際值相對(duì)比所產(chǎn)生的4只股票收盤價(jià)的相對(duì)誤差圖。股票價(jià)格漲跌趨勢(shì)預(yù)測(cè)

BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的股票C收盤價(jià)的相對(duì)誤差右圖是經(jīng)過BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)之后,預(yù)測(cè)的30組數(shù)據(jù)的輸出值與實(shí)際值相對(duì)比所產(chǎn)生的4只股票收盤價(jià)的相對(duì)誤差圖。股票價(jià)格漲跌趨勢(shì)預(yù)測(cè)

BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的股票D收盤價(jià)的相對(duì)誤差股票價(jià)格漲跌趨勢(shì)預(yù)測(cè)4.股票價(jià)格漲跌趨勢(shì)預(yù)測(cè)分析將股票A、股票B、股票C、股票D這4只股票的歷史數(shù)據(jù)在BP神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行學(xué)習(xí)訓(xùn)練,得出31組經(jīng)過學(xué)習(xí)之后輸出的預(yù)測(cè)值,然后將預(yù)測(cè)值與實(shí)際值相對(duì)比,進(jìn)一步得出了4只股票的相對(duì)誤差圖。通過圖不難發(fā)現(xiàn),A、B、C、D這4只股票的相對(duì)誤差控制在±2.5%以內(nèi),已經(jīng)能夠較好地對(duì)股票收盤的價(jià)格以及趨勢(shì)進(jìn)行預(yù)測(cè),可以實(shí)現(xiàn)利用BP神經(jīng)網(wǎng)絡(luò)模型對(duì)股票進(jìn)行指導(dǎo)性預(yù)測(cè),實(shí)現(xiàn)為廣大股民提供科學(xué)、理性投資的目的。上市公司綜合能力聚類分析1.上市公司綜合能力分析案例任務(wù)利用大數(shù)據(jù)技術(shù),采用因子分析法和聚類分析法對(duì)旅游上市公司的經(jīng)營績效進(jìn)行評(píng)價(jià)比較,分析旅游上市公司的經(jīng)營績效,提出相應(yīng)的改善措施,為旅游上市公司的高質(zhì)量發(fā)展提供參考。對(duì)于旅游上市公司,提出運(yùn)用模糊改進(jìn)方法對(duì)公司財(cái)務(wù)風(fēng)險(xiǎn)進(jìn)行評(píng)價(jià),運(yùn)用數(shù)據(jù)包絡(luò)分析(DataEnvelopmentAnalysis,DEA)模型對(duì)公司經(jīng)營效率進(jìn)行測(cè)度,運(yùn)用因子分析法進(jìn)行業(yè)績?cè)u(píng)價(jià)。上市公司綜合能力聚類分析2.上市公司綜合能力分析技術(shù)選擇主要基于因子分析法評(píng)價(jià)的客觀性和綜合性,采取因子分析法和聚類分析法對(duì)旅游上市公司的經(jīng)營績效進(jìn)行評(píng)價(jià),通過4種能力的指標(biāo)選取和樣本選取確定因子數(shù)量。(1)指標(biāo)選取

從贏利能力、償債能力、發(fā)展能力和營運(yùn)能力4個(gè)方面選取指標(biāo)。

(2)樣本選取

基于財(cái)務(wù)報(bào)表與東方財(cái)富網(wǎng)數(shù)據(jù)中心的數(shù)據(jù),選取了滬深交易所的24家A股旅游上市公司,然后運(yùn)用分析工具探究上市公司綜合能力的影響因子。上市公司綜合能力聚類分析(3)因子數(shù)量確定

選取每股收益、凈資產(chǎn)收益率等9個(gè)指標(biāo)進(jìn)行因子分析,指標(biāo)選取結(jié)果如下表。指標(biāo)因子指標(biāo)因子每股收益X1速動(dòng)比率X6凈資產(chǎn)收益率X2總資產(chǎn)周轉(zhuǎn)率X7銷售凈利率X3存貨周轉(zhuǎn)率X8資產(chǎn)負(fù)債率X4營業(yè)收入增長率X9流動(dòng)比率X5上市公司綜合能力聚類分析3.上市公司綜合能力分析數(shù)據(jù)預(yù)處理綜合業(yè)績得分排名前七的有:公司1、公司4、公司7、公司9、公司13、公司6、公司5。其中公司1綜合績效得分高于其他企業(yè)的得分,公司5的綜合得分為-1.63,低于其他企業(yè)。因子得分和綜合排名如右表。旅游上市公司償債因子贏利和成長因子營運(yùn)因子綜合得分綜合排名公司13.00252-0.57814-0.169661.131公司4-0.170852.431721.507131.052公司72.179870.06324-0.328690.933公司9-0.10198-0.961134.125130.594公司130.874280.68306-0.289100.555公司61.31748-0.33980-0.241810.436公司50.427740.22721-0.30660-1.637上市公司綜合能力聚類分析因子得分和綜合排名的雷達(dá)圖如下圖。上市公司綜合能力聚類分析4.上市公司綜合能力應(yīng)用分析在因子分析的基礎(chǔ)上進(jìn)行K均值聚類分析,聚類結(jié)果如右表。結(jié)果表明,旅游上市公司的經(jīng)營績效不夠理想。不同企業(yè)在不同因子上的得分一般不同,能兼顧償債能力、贏利能力、成長能力、營運(yùn)能力的企業(yè)較少,大都各項(xiàng)一般或其中一項(xiàng)較好、其他較差。類別旅游上市公司業(yè)績得分第一類公司1、公司4高第二類公司7較高第三類公司9、公司13低第四類公司6較低第五類公司5一般上市公司綜合能力聚類分析4.上市公司綜合能力應(yīng)用分析通過綜合能力分析,企業(yè)可以從3個(gè)方面改善公司績效。建議說明合理的多元化目前多元化已成為旅游業(yè)的普遍現(xiàn)象,從公司的實(shí)際狀況出發(fā),合理地涉足其他產(chǎn)業(yè),有利于旅游上市公司獲得規(guī)模效應(yīng)從而提升績效提高企業(yè)投資效率旅游企業(yè)投資效率與企業(yè)的成長性呈顯著正相關(guān),可以通過監(jiān)管信息質(zhì)量、擴(kuò)大資本市場、提高企業(yè)管理促進(jìn)投資效率,推動(dòng)企業(yè)成長提高抗風(fēng)險(xiǎn)能力重大事件帶來的沖擊對(duì)于旅游業(yè)來說幾乎是毀滅性的,要求企業(yè)提升經(jīng)營效率,做好戰(zhàn)略規(guī)劃,增強(qiáng)創(chuàng)新力,以在復(fù)蘇的市場中更有競爭力大數(shù)據(jù)技術(shù)在城市管理中的應(yīng)用大數(shù)據(jù)技術(shù)在金融領(lǐng)域的應(yīng)用大數(shù)據(jù)技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用大數(shù)據(jù)技術(shù)在零售行業(yè)的應(yīng)用大數(shù)據(jù)技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用移動(dòng)互聯(lián)網(wǎng)精準(zhǔn)營銷是大數(shù)據(jù)時(shí)代背景下的新型營銷模式,在互聯(lián)網(wǎng)技術(shù)和通信技術(shù)迅猛發(fā)展的背景下,無論是營銷內(nèi)容、呈現(xiàn)形式和投放方式,還是廣告主、廣告商、用戶之間的角色定位、傳播效果和用戶體驗(yàn),都有了顛覆性和創(chuàng)新性的變化。因此,移動(dòng)互聯(lián)網(wǎng)如何借助大數(shù)據(jù)實(shí)現(xiàn)滿足用戶個(gè)性化需求的精準(zhǔn)營銷,以及如何有效監(jiān)測(cè)營銷效果,成為業(yè)界及學(xué)者們共同關(guān)注的課題。音樂推薦系統(tǒng)音樂推薦系統(tǒng)通常由用戶偏好模型、音樂資源模塊和推薦算法3個(gè)部分組成,如右圖。音樂資源模塊主要包括對(duì)音樂資源(歌曲、歌手、專輯等)的組織和管理,通過定義不同級(jí)別的復(fù)雜度和抽象程度來構(gòu)建音樂特征數(shù)據(jù)庫,為音樂推薦模型提供有效的輸入數(shù)據(jù)。1.音樂推薦系統(tǒng)框架結(jié)構(gòu)音樂推薦系統(tǒng)2.音樂推薦系統(tǒng)技術(shù)選擇

交替最小二乘法(AlternatingLeastSquares,ALS)在機(jī)器學(xué)習(xí)中特指使用最小二乘法求解的協(xié)同過濾算法中的一種。ALS算法在構(gòu)建Spark推薦系統(tǒng)時(shí),是被使用得最多的協(xié)同過濾算法。ALS算法屬于User-ItemCF,是同時(shí)考慮到用戶和物品的算法,是基于矩陣分解的協(xié)同過濾算法。3.音樂推薦系統(tǒng)數(shù)據(jù)處理

本系統(tǒng)使用Hadoop與Spark統(tǒng)一部署環(huán)境,基于ALS協(xié)同過濾算法及關(guān)系數(shù)據(jù)庫,建立基于Spark的底層推薦算法,利用擬牛頓法解決優(yōu)化約束問題,使用Node.js搭建音樂推薦系統(tǒng)前端。音樂推薦系統(tǒng)4.音樂推薦系統(tǒng)應(yīng)用分析

利用數(shù)據(jù)庫musicrecommend中的3份數(shù)據(jù)進(jìn)行實(shí)驗(yàn),通過算法不斷對(duì)訓(xùn)練集學(xué)習(xí),可以發(fā)現(xiàn)利用主成分分析法(PrincipalComponentAnalysis,PCA)將原始評(píng)分矩陣從943×1682降維到943×1000,實(shí)驗(yàn)結(jié)果最好,即d=1000時(shí)推薦效果最好,擬牛頓法比傳統(tǒng)的推薦算法準(zhǔn)確率更高。音樂推薦系統(tǒng)基于標(biāo)簽重要程度的協(xié)調(diào)過濾文獻(xiàn)算法、傳統(tǒng)協(xié)同過濾算法及本節(jié)使用的優(yōu)化算法之間的綜合性能比較如下圖。平均絕對(duì)誤差(MeanAbsoluteError,MAE),因其離差(預(yù)測(cè)值與實(shí)際觀測(cè)值之差)被絕對(duì)值化的特性,可避免誤差正負(fù)相互抵消,更準(zhǔn)確地反映實(shí)際預(yù)測(cè)誤差的大小,綜合評(píng)價(jià)指標(biāo)更合理。由于MAE值越小說明模型質(zhì)量越好、預(yù)測(cè)越準(zhǔn)確,所以本節(jié)使用的優(yōu)化算法質(zhì)量最好,使用優(yōu)化算法的推薦系統(tǒng)可以降低推薦時(shí)間,提高推薦準(zhǔn)確率。大數(shù)據(jù)技術(shù)在城市管理中的應(yīng)用大數(shù)據(jù)技術(shù)在金融領(lǐng)域的應(yīng)用大數(shù)據(jù)技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用大數(shù)據(jù)技術(shù)在零售行業(yè)的應(yīng)用大數(shù)據(jù)技術(shù)在零售行業(yè)的應(yīng)用在零售行業(yè),現(xiàn)代連鎖零售企業(yè)有著海量的交易數(shù)據(jù),對(duì)交易數(shù)據(jù)進(jìn)行有效的挖掘可以幫助企業(yè)提升科學(xué)管理水平。購物籃分析(MarketBasketAnalysis)是數(shù)據(jù)挖掘技術(shù)在零售業(yè)的典型應(yīng)用之一,旨在從零售記錄中分析出顧客經(jīng)常同時(shí)購買的商品組合,挖掘出購物籃中有價(jià)值的信息。購物籃分析1.購物籃分析案例任務(wù)

顧客的購買行為是一種整體行為,購買一件商品可能會(huì)影響到其他商品的購買,從而影響到每個(gè)購物籃的利潤,所以購物籃分析的目標(biāo)就是尋找重要而且有價(jià)值的購物信息。

2.購物籃分析技術(shù)選擇

購物籃分析是關(guān)聯(lián)規(guī)則在零售業(yè)的一個(gè)重要應(yīng)用,通過發(fā)現(xiàn)顧客每次放入購物籃商品之間的聯(lián)系,分析顧客的購買行為,并輔助零售企業(yè)制定營銷策略。在購物籃分析中,主要參考的商品相關(guān)性分析指標(biāo)有支持度、置信度。購物籃分析構(gòu)建商品層次結(jié)構(gòu)樹,如右圖??梢缘玫矫總€(gè)節(jié)點(diǎn)的父節(jié)點(diǎn)和兄弟節(jié)點(diǎn)信息,從而判斷不同商品是否屬于同一父類,為生成購物籃時(shí)加入約束條件提供支持。另一方面,因?yàn)樵谏缮唐穼哟谓Y(jié)構(gòu)樹的過程中需要遍歷交易數(shù)據(jù),所以還可以進(jìn)行統(tǒng)計(jì)分析的工作,輔助商品銷售分析。購物籃分析3.購物籃分析數(shù)據(jù)挖掘

選擇根據(jù)實(shí)際交易數(shù)據(jù)生成商品銷售樹,得到的商品層次結(jié)構(gòu)更具針對(duì)性,可以提高后續(xù)購物籃分析的準(zhǔn)確性與合理性,也方便對(duì)所選擇的交易數(shù)據(jù)進(jìn)行商品銷售分析。4.購物籃應(yīng)用分析

結(jié)合挖掘出的商品層次結(jié)構(gòu)樹,在樹的每個(gè)節(jié)點(diǎn)添加統(tǒng)計(jì)信息,從而進(jìn)行商品銷售分析。例如,一棵含有統(tǒng)計(jì)信息的商品層次結(jié)構(gòu)樹,樹中每個(gè)節(jié)點(diǎn)有節(jié)點(diǎn)名稱、銷售量、銷售額占比3個(gè)屬性值,如右圖。其中n表示商品的銷售量,%表示銷售額占比。以參數(shù)的形式來控制展示樹每一層的節(jié)點(diǎn)個(gè)數(shù),圖中樹的每層節(jié)點(diǎn)只顯示5個(gè)小類,企業(yè)可以聚焦銷售量最大的幾種商品,從而制定相應(yīng)的銷售策略。購物籃分析

在大數(shù)據(jù)時(shí)代,研究如何有效實(shí)現(xiàn)對(duì)客戶價(jià)值的挖掘成為企業(yè)經(jīng)營發(fā)展的重要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論