版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
0引言近年來,航空領(lǐng)域大量應(yīng)用了大數(shù)據(jù)和人工智能技術(shù),如基于大數(shù)據(jù)機(jī)器學(xué)習(xí)的航空人為因素在航空事故調(diào)查中的影響研究、基于MI-SVR模型研究航空旅客出行指數(shù)預(yù)測的方法、基于長短時(shí)記憶網(wǎng)絡(luò)(LongShort-TermMemory)的航班預(yù)售期內(nèi)每日訂座數(shù)預(yù)測研究等,采用大數(shù)據(jù)和人工智能算法解決航空領(lǐng)域內(nèi)的故障預(yù)測、航空旅客出行指數(shù)預(yù)測、航班行程人數(shù)預(yù)測等問題。天氣因素、人均收入和其他出行數(shù)據(jù)(高鐵出行、長途汽車等)將對其預(yù)測的準(zhǔn)確性產(chǎn)生極大影響。如何綜合多行業(yè)數(shù)據(jù)進(jìn)行精準(zhǔn)預(yù)測是目前人工智能技術(shù)應(yīng)用到航空領(lǐng)域亟需解決的問題。人工智能(ArtificalIntelligence,AI)技術(shù)是在多維度、全方位分析數(shù)據(jù)的基礎(chǔ)上,根據(jù)特定的應(yīng)用目標(biāo)采集其中有用的特征進(jìn)行訓(xùn)練、學(xué)習(xí),最后實(shí)現(xiàn)應(yīng)用智能化的目標(biāo)。隨著大數(shù)據(jù)、機(jī)器視覺檢測、超級計(jì)算、可穿戴設(shè)備等技術(shù)的逐步普及應(yīng)用,人工智能技術(shù)得到了快速發(fā)展并取得了顯著的成果。如特斯拉推出的自動駕駛汽車、谷歌AlphaGo機(jī)器人等。人工智能技術(shù)應(yīng)用的基礎(chǔ)就是數(shù)據(jù)的采集、處理、計(jì)算。因此需要很多應(yīng)用系統(tǒng)支持對數(shù)據(jù)進(jìn)行自動收集挖掘、整合分析,從而作出支持計(jì)算的行為決策,即人工智能技術(shù)嚴(yán)格依賴數(shù)據(jù)采集。然而在目前的發(fā)展過程中,數(shù)據(jù)采集和處理的過程中存在以下兩個(gè)問題:(1)數(shù)據(jù)孤島問題:目前,大多數(shù)企業(yè)存儲的數(shù)據(jù)通常局限于本企業(yè)經(jīng)營產(chǎn)生的業(yè)務(wù)數(shù)據(jù),往往存在數(shù)據(jù)規(guī)模有限、數(shù)據(jù)質(zhì)量良莠不齊的問題。另外,由于行業(yè)競爭、隱私保護(hù)等問題,造成了數(shù)據(jù)難以在不同的系統(tǒng)之間共享、整合的問題,導(dǎo)致整個(gè)互聯(lián)網(wǎng)范圍內(nèi)的數(shù)據(jù)都是按照不同的應(yīng)用彼此分離、單點(diǎn)存在的。由于人工智能技術(shù)往往基于多個(gè)領(lǐng)域,需要的數(shù)據(jù)覆蓋范圍廣,不同應(yīng)用之間無法共享數(shù)據(jù),使得其要求的多領(lǐng)域的特點(diǎn)很難被滿足,也即單個(gè)系統(tǒng)擁有的數(shù)據(jù)無法為人工智能技術(shù)的開展提供有力的支持。對于每個(gè)企業(yè)的應(yīng)用系統(tǒng)而言,其花費(fèi)了大量的成本部署數(shù)據(jù)采集、清洗、轉(zhuǎn)換等應(yīng)用,但是數(shù)據(jù)可能僅僅局限于自身系統(tǒng)使用,無法在整個(gè)互聯(lián)網(wǎng)范圍內(nèi)高效地共享進(jìn)而轉(zhuǎn)換為更廣泛的應(yīng)用。這一方面無疑是對互聯(lián)網(wǎng)數(shù)據(jù)資源的一種浪費(fèi),另一方面不同應(yīng)用系統(tǒng)間的數(shù)據(jù)壁壘也導(dǎo)致大范圍級別的數(shù)據(jù)應(yīng)用,比如人工智能技術(shù)在各行各業(yè)的應(yīng)用變得成本更加高昂、實(shí)施也更加困難。(2)隱私保護(hù)問題:最近幾年,隨著各種網(wǎng)絡(luò)新應(yīng)用的不斷涌現(xiàn),應(yīng)用對應(yīng)的用戶數(shù)據(jù)如何合理采集、安全傳輸、存儲和處理變得愈來愈重要。一旦用戶數(shù)據(jù)發(fā)生泄漏,都會引起社會的強(qiáng)烈譴責(zé),甚至?xí)?yīng)用造成嚴(yán)重的信任危機(jī)。如2018年3月,英國一家名為劍橋分析的公司獲取了數(shù)千萬條臉書注冊用戶的個(gè)人信息。由于涉及的用戶人數(shù)眾多、數(shù)據(jù)種類廣泛、數(shù)據(jù)內(nèi)容繁多,此次數(shù)據(jù)泄露在世界范圍內(nèi)引起了抵制使用臉書的抗議活動。與此同時(shí),針對用戶數(shù)據(jù)隱私和安全管理的監(jiān)管也在逐漸變得更為嚴(yán)格。國際上,2018年5月起歐盟開始正式出臺《通用數(shù)據(jù)保護(hù)條例》(GeneralDataProtectionRegulation,GDPR)法案。國內(nèi)在更早的2017年6月開始推行《網(wǎng)絡(luò)安全法》,也在2019年5月開始實(shí)施《數(shù)據(jù)安全管理辦法(征求意見稿)》。上述法案對應(yīng)用系統(tǒng)采集、傳輸、使用數(shù)據(jù)整個(gè)過程的安全規(guī)范都有明確規(guī)定,如未經(jīng)數(shù)據(jù)平臺方的允許,任何第三方不得隨意抓取、使用數(shù)據(jù)平臺方的數(shù)據(jù),以及未經(jīng)用戶同意不得隨意將敏感類數(shù)據(jù)分享給第三方。一旦違反將會面臨巨額罰款甚至需要承擔(dān)法律責(zé)任。上述多項(xiàng)監(jiān)管措施,使得在沒有得到用戶充分授權(quán)的情況下,單個(gè)應(yīng)用采集數(shù)據(jù)及不同應(yīng)用間數(shù)據(jù)整合面臨重重阻力,這為人工智能領(lǐng)域傳統(tǒng)的數(shù)據(jù)獲取模式帶來了新的巨大的挑戰(zhàn)。上述數(shù)據(jù)孤島和隱私保護(hù)問題廣泛存在,并且兩者存在相互制衡的關(guān)系,制約了數(shù)據(jù)的廣泛采集、共享和進(jìn)一步的應(yīng)用及人工智能技術(shù)的發(fā)展。如何在保護(hù)隱私安全、滿足法律監(jiān)管要求的前提下,設(shè)計(jì)一個(gè)全新的機(jī)器學(xué)習(xí)框架,達(dá)到整合多方數(shù)據(jù)、跨界共同建模,共同受益的目標(biāo),這是近年來數(shù)據(jù)安全領(lǐng)域和人工智能領(lǐng)域發(fā)展的一個(gè)重要課題?;谌斯ぶ悄芗夹g(shù)的航空出行數(shù)據(jù)預(yù)測需要在整合多方數(shù)據(jù)的基礎(chǔ)上作出分析、決策,因此首先要解決上述的數(shù)據(jù)孤島和隱私保護(hù)兩個(gè)問題。本文提出一種全新的基于聯(lián)邦學(xué)習(xí)的航空出行預(yù)測算法,其設(shè)計(jì)目標(biāo)是在滿足數(shù)據(jù)安全的前提下,采用人工智能技術(shù)提高航空公司出行數(shù)據(jù)預(yù)測的正確率。1聯(lián)邦學(xué)習(xí)背景本聯(lián)邦學(xué)習(xí)(FederatedLearning)是為應(yīng)對人工智能實(shí)際應(yīng)用時(shí)面對的數(shù)據(jù)隱私保護(hù)問題而誕生的一種全新的人工智能學(xué)習(xí)框架。其最早由Google公司在2016年提出,核心目標(biāo)是使各個(gè)參與者在無需直接交換數(shù)據(jù)的前提下,實(shí)現(xiàn)數(shù)據(jù)在多個(gè)節(jié)點(diǎn)之間進(jìn)行聯(lián)合訓(xùn)練,達(dá)到建立共享的、全局有效的人工智能學(xué)習(xí)模型的目地。基于聯(lián)邦學(xué)習(xí)框架的人工智能模型的訓(xùn)練流程為:(1)在遠(yuǎn)程云上建立一個(gè)協(xié)調(diào)者,該協(xié)調(diào)者首先生成初始的全局?jǐn)?shù)據(jù)模型;(2)在第
i
輪訓(xùn)練過程中,每個(gè)參與者基于全局?jǐn)?shù)據(jù)模型和本地保存的數(shù)據(jù)對本地人工智能模型進(jìn)行訓(xùn)練;(3)本地模型迭代更新后,根據(jù)某種加密通信機(jī)制,客戶端將該模型參數(shù)傳輸?shù)絽f(xié)調(diào)者;(4)協(xié)調(diào)者聚合每個(gè)參與者上傳的數(shù)據(jù)并進(jìn)行訓(xùn)練以構(gòu)建全局模型;(5)重復(fù)上述步驟,直到全局模型參數(shù)收斂。相對于傳統(tǒng)的人工智能學(xué)習(xí)框架,聯(lián)邦學(xué)習(xí)的典型特點(diǎn)是:訓(xùn)練過程無需共享數(shù)據(jù),通過加密機(jī)制下的參數(shù)交換方式,在不會泄露用戶隱私或違反監(jiān)管條例的前提下,在云上建立一個(gè)虛擬的共有模型并對其進(jìn)行訓(xùn)練更新。這些特點(diǎn),充分整合了各個(gè)孤立數(shù)據(jù)源,匯聚多維度數(shù)據(jù)形成一個(gè)數(shù)據(jù)聯(lián)邦,各個(gè)參與者都可從其中獲益,真正實(shí)現(xiàn)了合作共贏。另外,多個(gè)參與者的數(shù)據(jù)始終保留在本地,無需上傳共享,參與者之間也無法相互推測出對方擁有的特征,數(shù)據(jù)隱私也得到很好的保護(hù)。聯(lián)邦學(xué)習(xí)的理念自提出以來,就受到了極大的關(guān)注,多家企業(yè)參與到研發(fā)聯(lián)邦學(xué)習(xí)的框架中,如谷歌的TensorflowFederated(TFF)框架目前已較好的支持了橫向聯(lián)邦學(xué)習(xí),并支持用戶自定義模型訓(xùn)練算法。OpenMided開源的Pysyft框架,提供了多種安全加密算法,為隱私保護(hù)提供更強(qiáng)有力的保證。國內(nèi)的騰訊公司也推出了FATE框架,該框架率先在其內(nèi)部的微眾銀行平臺得到應(yīng)用,在工業(yè)產(chǎn)品中驗(yàn)證了其高效性。另外,基于聯(lián)邦學(xué)習(xí)框架的成熟的人工智能產(chǎn)品近來也不斷涌現(xiàn)。Google在Android的GoogleGboard鍵盤中,采用了橫向聯(lián)邦學(xué)習(xí)技術(shù),根據(jù)設(shè)備上的歷史記錄,在下一次迭代中改進(jìn)輸入法預(yù)測模型的性能。Gboard主要會根據(jù)使用者已輸入的單詞推薦即將使用的下一個(gè)單詞,以此來加快使用者的打字速度。據(jù)計(jì)算,Gboard輸入法聯(lián)想詞預(yù)測準(zhǔn)確率增加24%,聯(lián)想詞條點(diǎn)擊率增加10%。正如其宣傳語所言,Gboard實(shí)現(xiàn)了你的數(shù)據(jù)就在你手機(jī)本地,Google輸入法只是用它的目標(biāo)。Nvidia與倫敦King'sCollege合作,利用聯(lián)盟學(xué)習(xí)方式,開發(fā)醫(yī)療影像的人工智慧系統(tǒng)。該系統(tǒng)只需從每個(gè)終端裝置傳送分析結(jié)果到中央模型就能訓(xùn)練。至于訓(xùn)練出的人工智慧系統(tǒng),將運(yùn)用在腦腫瘤分割分析。此過程不會泄漏病人任何隱私數(shù)據(jù),對提升醫(yī)療結(jié)構(gòu)用戶體驗(yàn)有很大幫助。阿里巴巴利用聯(lián)邦學(xué)習(xí)技術(shù),推出螞蟻金服共享學(xué)習(xí)平臺,破解了電商數(shù)據(jù)共享和隱私保護(hù)難以平衡的難題,實(shí)現(xiàn)數(shù)據(jù)的多方協(xié)同和授權(quán)共享,應(yīng)用在智能信貸、智能風(fēng)控等專業(yè)領(lǐng)域中。聯(lián)邦學(xué)習(xí)不斷發(fā)展的過程中,必然會有越來越多的領(lǐng)域從此項(xiàng)技術(shù)中獲益。以航空出行領(lǐng)域應(yīng)用為例,雖然人工智能技術(shù)應(yīng)用越來越廣泛,目前也有多家航空企業(yè)推出了基于人工智能技術(shù)的出行預(yù)測服務(wù),但目前各個(gè)企業(yè)之間的內(nèi)容安全服務(wù)和數(shù)據(jù)都是獨(dú)立的,在數(shù)據(jù)不能互通的情況下,各家企業(yè)的數(shù)據(jù)資源非常有限。另外,并沒有成功借鑒具有重要參考價(jià)值的鐵路出行數(shù)據(jù),以及部分用戶消費(fèi)App數(shù)據(jù)。這些原因?qū)е潞娇粘鲂蓄A(yù)測模型的效果不盡人意,要實(shí)現(xiàn)跨企業(yè)、行業(yè)甚至跨應(yīng)用等多機(jī)構(gòu)的整體安全協(xié)同治理也很困難。聯(lián)邦學(xué)習(xí)可直擊這些航空企業(yè)的痛點(diǎn),幾近完美地解決存在的問題。綜合來看,聯(lián)邦學(xué)習(xí)破解了數(shù)據(jù)隱私保護(hù)的難題,另外為人工智能技術(shù)的發(fā)展提供了全新的模型框架,對于數(shù)據(jù)安全和人工智能領(lǐng)域的不斷發(fā)展和技術(shù)落地都有很重要的意義。2聯(lián)邦學(xué)習(xí)原理2.1聯(lián)邦學(xué)習(xí)數(shù)學(xué)模型聯(lián)邦學(xué)習(xí)的目標(biāo)就是通過使用全新的訓(xùn)練模式使其訓(xùn)練效果超越傳統(tǒng)的機(jī)器學(xué)習(xí)模型,在具體的數(shù)學(xué)數(shù)據(jù)模型為:2.2聯(lián)邦學(xué)習(xí)數(shù)學(xué)模型聯(lián)邦學(xué)習(xí)根據(jù)參與者的數(shù)據(jù)的特征分類為橫向聯(lián)邦學(xué)習(xí)(HorizontalFedetatedLearning,HFL)、縱向聯(lián)邦學(xué)習(xí)(VerticalFedetatedLearning,VFL)和聯(lián)邦遷移學(xué)習(xí)(FedetatedTransferLearning,F(xiàn)TL)三類。2.2.1橫向聯(lián)邦學(xué)習(xí)橫向聯(lián)邦學(xué)習(xí)適用于特征(Features)重疊性高且用戶(Samples)樣本重疊少時(shí)的情境。在這種情況下,將數(shù)據(jù)集按照用戶維度進(jìn)行切分,并對不同用戶的特征取交集進(jìn)行計(jì)算。比如不同地區(qū)的航空公司,他們的業(yè)務(wù)相似(特征相似),但客戶不同(樣本不同)。橫向聯(lián)邦學(xué)習(xí)適用場景如圖1所示:圖1橫向聯(lián)邦學(xué)習(xí)適用場景橫向聯(lián)邦學(xué)習(xí)過程如圖2所示,具體為:(1)每個(gè)參與者(DatabaseBi)利用自己的資料訓(xùn)練模型,各自計(jì)算梯度,再將加密過的梯度修正量上傳至中央服務(wù)器(Sever);(2)由中央服務(wù)器整合各參與者的梯度并且更新模型;(3)中央服務(wù)器回傳模型更新后的梯度給各個(gè)參與者;(4)參與者更新各自的模型。圖2橫向聯(lián)邦學(xué)習(xí)過程橫向聯(lián)邦學(xué)習(xí)是聯(lián)邦學(xué)習(xí)架構(gòu)中最典型的一種,目前由于其架構(gòu)簡單,實(shí)用性高,因此也被運(yùn)用的最為廣泛。2.2.2縱向聯(lián)邦學(xué)習(xí)縱向聯(lián)邦學(xué)習(xí)適用于樣本(Samples)重疊多且特征(Features)重疊少的情境。在這種情況下,將數(shù)據(jù)集按照特征維度進(jìn)行切分,對相同用戶的特征差集進(jìn)行計(jì)算。比如同一地區(qū)的航空公司的客運(yùn)和傳媒,他們接觸的客戶都為該航班的旅客(樣本相同),但業(yè)務(wù)不同(特征不同)??v向聯(lián)邦學(xué)習(xí)適用場景如圖3所示:圖3縱向聯(lián)邦學(xué)習(xí)適用場景縱向聯(lián)邦學(xué)習(xí)過程如圖4所示,具體為:(1)協(xié)調(diào)者(Collaborator,C)將公鑰發(fā)給參與者A和參與者B;(2)參與者A和B分別計(jì)算和自己相關(guān)的特征中間結(jié)果,并加密交互,用來求得各自梯度和損失值(Loss);(3)參與者A和B分別將計(jì)算后且加密的梯度修正量傳送給協(xié)調(diào)者,同時(shí)B根據(jù)標(biāo)簽計(jì)算損失值并把結(jié)果匯整給協(xié)調(diào)者;協(xié)調(diào)者將解密后的梯度修正量分別回傳給A和B,更新雙方的模型。圖4縱向聯(lián)邦學(xué)習(xí)過程縱向聯(lián)邦學(xué)習(xí)雖然解決特征重疊少的問題,但是隨著參與端增多,其對應(yīng)的架構(gòu)復(fù)雜度就會增加,相對更難以執(zhí)行。2.2.3聯(lián)邦遷移學(xué)習(xí)聯(lián)邦遷移學(xué)習(xí)適用于當(dāng)多個(gè)參與者的數(shù)據(jù)的特征(Features)和樣本(Samples)重疊都很少的情境。在這種狀況下,就不會針對數(shù)據(jù)進(jìn)行切割,而會引入遷移式學(xué)習(xí)(TransferLearning)來克服資料與標(biāo)簽不足的狀況。比如不同國家的航空公司和航空傳媒公司,由于地理位置相差遙遠(yuǎn),他們的用戶群體交集很小。另外,由于處理的業(yè)務(wù)不同,二者擁有的數(shù)據(jù)特征也大相徑庭。聯(lián)邦遷移學(xué)習(xí)適用場景如圖5所示:圖5聯(lián)邦遷移學(xué)習(xí)適應(yīng)的場景針對不同的場景,需要的遷移學(xué)習(xí)算法不同,因此聯(lián)邦遷移學(xué)習(xí)并沒有統(tǒng)一的學(xué)習(xí)過程。3基于聯(lián)邦學(xué)習(xí)的航空出行預(yù)測優(yōu)化算法3.1模型原理本文提出了面向數(shù)據(jù)隱私保護(hù)的聯(lián)邦學(xué)習(xí)航空出行預(yù)測技術(shù),在引入其他行業(yè)或公司數(shù)據(jù)(如居民收入數(shù)據(jù)、高鐵出行數(shù)據(jù)和第三方App應(yīng)用數(shù)據(jù))大大提高航空領(lǐng)域出行預(yù)測準(zhǔn)確率的情況下,同時(shí)解決了交通出行領(lǐng)域多行業(yè)、跨行業(yè)數(shù)據(jù)共享的安全性問題。算法框架如圖6所示:圖6聯(lián)邦遷移學(xué)習(xí)應(yīng)用領(lǐng)域其主要步驟為:(1)航空公司A和航空公司B之間采用橫向聯(lián)邦學(xué)習(xí),提取共同的出行參數(shù),如用戶搜索記錄、訪問時(shí)間、航班預(yù)訂記錄、航空優(yōu)惠信息等,最終經(jīng)過訓(xùn)練形成航空出行模型A;(2)航空公司和高鐵集團(tuán)之間采用縱向聯(lián)邦學(xué)習(xí),提取多維度特征參數(shù)指標(biāo)和同用戶訓(xùn)練樣本,綜合考察同一個(gè)用戶的航空訪問信息和高鐵查詢記錄,與高鐵模型B經(jīng)過聯(lián)合模型訓(xùn)練后形成出行模型C;(3)航空公司和第三方應(yīng)用App之間(如酒店預(yù)訂、旅游類等消費(fèi)App),由于參與者的數(shù)據(jù)的特征(Features)和樣本(Samples)重疊都很少,因此采用聯(lián)邦遷移學(xué)習(xí)算法進(jìn)行聯(lián)合調(diào)參。消費(fèi)模型D與出行模型E,經(jīng)過計(jì)算融合,最終形成航空出行預(yù)測模型E;(4)在出行模型、消費(fèi)模型以及最終的航空出行預(yù)測模型對應(yīng)的參數(shù)收斂之前,需要反向更新各模型的參數(shù),以達(dá)到不斷迭代的目的。上述基于聯(lián)邦學(xué)習(xí)模型的航空預(yù)測模型中,還需要考慮模型參數(shù)在正向和反向傳遞過程中的安全性問題。綜合考慮數(shù)據(jù)安全性及應(yīng)用場景的特點(diǎn),該模型采用非對稱密鑰的方式進(jìn)行加密。非對稱加密算法使用私鑰進(jìn)行信息加密,公鑰對加密信息解密。以航空出行模型A與高鐵出行模型B進(jìn)行橫向聯(lián)邦學(xué)習(xí)的過程舉例,具體使用方式為:(1)航空出行模型A與高鐵出行模型B分別用其對應(yīng)的私鑰加密模型的各項(xiàng)參數(shù),并各自將模型參數(shù)傳送給出行模型C;(2)出行模型C用事先約定好的公鑰對收到的加密參數(shù)進(jìn)行解密,并驗(yàn)證發(fā)送者的身份,如果驗(yàn)證通過,則模型C更新對應(yīng)的輸入?yún)?shù)。3.2實(shí)驗(yàn)結(jié)果對比與分析3.2.1聯(lián)邦學(xué)習(xí)與分布式機(jī)器學(xué)習(xí)對比當(dāng)前,大規(guī)模機(jī)器學(xué)習(xí)模型在訓(xùn)練過程中存在對單個(gè)機(jī)器節(jié)點(diǎn)計(jì)算能力的要求超出其實(shí)際存儲和計(jì)算上限的問題。針對這個(gè)問題,目前業(yè)界通用的解決辦法是使用分布式機(jī)器學(xué)習(xí)系統(tǒng)。分布式機(jī)器學(xué)習(xí)系統(tǒng)通過采用數(shù)據(jù)并行、模型并行等方式,對數(shù)據(jù)訓(xùn)練集或者學(xué)習(xí)模型進(jìn)行模塊劃分,利用分布式集群來實(shí)現(xiàn)完成大規(guī)模甚至超大規(guī)模機(jī)器學(xué)習(xí)目標(biāo)。其中數(shù)據(jù)并行是分布式機(jī)器學(xué)習(xí)最常用的解決方法,數(shù)據(jù)并行指的是在分布式集群的每一個(gè)計(jì)算節(jié)點(diǎn)上保有相同的模型,然后將大量的數(shù)據(jù)分拆成不同的子集,各個(gè)計(jì)算節(jié)點(diǎn)負(fù)責(zé)一個(gè)數(shù)據(jù)子集的計(jì)算,在節(jié)點(diǎn)之間同步梯度、并更新模型參數(shù)。該方法實(shí)現(xiàn)過程簡單,但在數(shù)據(jù)劃分時(shí)需要事先在全局范圍內(nèi)共享數(shù)據(jù),存在IO開銷大、數(shù)據(jù)隱私無法保證兩個(gè)問題。聯(lián)邦學(xué)習(xí)與分布式機(jī)器學(xué)習(xí)有相似的地方,即都充分利用了分布式節(jié)點(diǎn)的計(jì)算、存儲能力。但是聯(lián)邦學(xué)習(xí)的具體學(xué)習(xí)過程中,最典型的特點(diǎn)是每個(gè)節(jié)點(diǎn)可在不共享資料的前提下,達(dá)到同樣的訓(xùn)練模型的目標(biāo)。這樣帶來的好處一方面減少了數(shù)據(jù)帶來的網(wǎng)絡(luò)、IO開銷,另一方面不泄漏用戶隱私得到保護(hù),滿足日益嚴(yán)格的安全監(jiān)管規(guī)范。聯(lián)邦學(xué)習(xí)與分布式機(jī)器學(xué)習(xí)在數(shù)據(jù)處理、學(xué)習(xí)過程、額外優(yōu)勢方面的具體對比如表1所示:邏輯回歸模型(LogisticRegressionModel)是目前廣泛應(yīng)用的一種機(jī)器學(xué)習(xí)算法,它通過將數(shù)據(jù)擬合到一個(gè)邏輯函數(shù)中,較大影響的因素分配高權(quán)重,完成對事件發(fā)生概率的預(yù)測。本文對比實(shí)驗(yàn)使用基于邏輯回歸模型的分布式機(jī)器學(xué)習(xí)算法對相同的數(shù)據(jù)進(jìn)行分析預(yù)測,以對比不同算法的優(yōu)劣。3.2.2實(shí)驗(yàn)結(jié)果分析本文主要應(yīng)用Spark分析平臺對出行數(shù)據(jù)進(jìn)行分析預(yù)測,具體的實(shí)驗(yàn)環(huán)境如表2所示:采用本文所提出的算法與傳統(tǒng)基于邏輯回歸模型的分布式機(jī)器學(xué)習(xí)算法對多個(gè)數(shù)量級的旅客信息出行分析,并以此為基礎(chǔ),分別對未來一周、一個(gè)月和三個(gè)月內(nèi)的出行人數(shù)進(jìn)行預(yù)測,算法預(yù)測的準(zhǔn)確率分別如圖7、圖8和圖9所示,其中橫坐標(biāo)軸代表分析的數(shù)據(jù)人數(shù)總量,縱坐標(biāo)代表使用兩種算法分別計(jì)算出的預(yù)測正確率。圖7模型預(yù)測準(zhǔn)確率一周對比情況圖8模型預(yù)測準(zhǔn)確率一個(gè)月對比情況圖9模型預(yù)測準(zhǔn)確率三個(gè)月對比情況從上圖算法準(zhǔn)確率對比圖中可以看出:(1)在相同預(yù)測時(shí)間范圍、相同數(shù)據(jù)規(guī)模的情況下,基于聯(lián)邦學(xué)習(xí)預(yù)測算法的預(yù)測正確率均高于傳統(tǒng)的基于邏輯回歸模型的分布式機(jī)器學(xué)習(xí)算法,準(zhǔn)確率最大差異可達(dá)14.5%(預(yù)測周期為一個(gè)月,人群數(shù)據(jù)規(guī)模為100萬時(shí)),體現(xiàn)出了基于聯(lián)邦學(xué)習(xí)預(yù)測算法的優(yōu)越性。(2)在預(yù)測未來相同時(shí)間范圍內(nèi)的出行數(shù)據(jù)時(shí),隨著人群數(shù)據(jù)從1萬到1000萬過程中,兩種算法的計(jì)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年消防報(bào)警系統(tǒng)升級清工合同標(biāo)準(zhǔn)文本3篇
- 年度印刷品、記錄媒介復(fù)制品產(chǎn)業(yè)分析報(bào)告
- 無縫鋼管施工方案
- 2025年金融理財(cái)產(chǎn)品銷售合同修訂與風(fēng)險(xiǎn)披露機(jī)制2篇
- 2025年度離婚財(cái)產(chǎn)分割協(xié)議書及無形資產(chǎn)評估范本3篇
- CISP0501信息安全法規(guī)、政策和標(biāo)準(zhǔn)-含網(wǎng)絡(luò)安全法
- 2024離婚冷靜期婚姻家庭關(guān)系咨詢與輔導(dǎo)服務(wù)合同3篇
- 二零二五版反擔(dān)保動產(chǎn)質(zhì)押倉儲管理服務(wù)合同2篇
- 路口施工方案
- 2025年生態(tài)旅游PPP項(xiàng)目合同范本3篇
- 2024至2030年中國膨潤土行業(yè)投資戰(zhàn)略分析及發(fā)展前景研究報(bào)告
- 【地理】地圖的選擇和應(yīng)用(分層練) 2024-2025學(xué)年七年級地理上冊同步備課系列(人教版)
- 2024年深圳中考數(shù)學(xué)真題及答案
- 土方轉(zhuǎn)運(yùn)合同協(xié)議書
- Module 3 Unit 1 Point to the door(教學(xué)設(shè)計(jì))-2024-2025學(xué)年外研版(三起)英語三年級上冊
- 智能交通信號燈安裝合同樣本
- 安全生產(chǎn)法律法規(guī)清單(2024年5月版)
- 江蘇省連云港市2023-2024學(xué)年八年級下學(xué)期期末道德與法治試卷(含答案解析)
- 2024年大學(xué)試題(宗教學(xué))-佛教文化筆試考試歷年高頻考點(diǎn)試題摘選含答案
- JBT 14588-2023 激光加工鏡頭 (正式版)
- 七年級語文下冊專項(xiàng)練習(xí)知識(對聯(lián))
評論
0/150
提交評論