【基于差分隱私保護(hù)的學(xué)生成績應(yīng)用探究(論文)8000字】_第1頁
【基于差分隱私保護(hù)的學(xué)生成績應(yīng)用探究(論文)8000字】_第2頁
【基于差分隱私保護(hù)的學(xué)生成績應(yīng)用探究(論文)8000字】_第3頁
【基于差分隱私保護(hù)的學(xué)生成績應(yīng)用探究(論文)8000字】_第4頁
【基于差分隱私保護(hù)的學(xué)生成績應(yīng)用探究(論文)8000字】_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

摘要伴隨著互聯(lián)網(wǎng)時代的到來,數(shù)據(jù)和數(shù)據(jù)之間的價值變得日益重要。同時,隨著國家相關(guān)政策的出臺以及經(jīng)濟(jì)的迅猛增長,教育成為人們密切關(guān)注的領(lǐng)域。因此,本文旨在研究學(xué)期課程之間的聯(lián)系,為學(xué)校優(yōu)化課程安排作出更合理的選擇。首先,針對學(xué)生學(xué)期末各課程的測試成績,運用關(guān)聯(lián)規(guī)則挖掘中的Apriori算法進(jìn)行分析,得到各個課程之間的關(guān)聯(lián)性。得出各課程成績最高分布區(qū)間及課程間存在強關(guān)聯(lián)性等結(jié)論。但與此同時,運用學(xué)生成績得到分析結(jié)果意味著學(xué)生個人信息可能會遭到泄露。因此,為了保護(hù)學(xué)生的隱私,本文采用拉普拉斯機制進(jìn)行差分隱私保護(hù),并引入了服從隨機分布的噪聲干擾值,使除學(xué)生本人以外,隱私攻擊者無法獲取學(xué)生的個人信息,起到良好的隱私保護(hù)的作用。得出在存在強關(guān)聯(lián)規(guī)則的前提下,學(xué)生也無法通過已知的應(yīng)用統(tǒng)計學(xué)成績獲取到離散數(shù)學(xué)的成績的結(jié)論。關(guān)鍵詞:學(xué)生成績分析;差分隱私;關(guān)聯(lián)規(guī)則挖掘;Apriori挖掘算法1緒論1.1研究背景與意義近年來,隨著數(shù)據(jù)信息的深入研究,數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則的挖掘已迅速發(fā)展成為所有研究領(lǐng)域甚至各國政府的熱門話題。挖掘數(shù)據(jù)相關(guān)性的算法數(shù)不勝數(shù),其中關(guān)聯(lián)規(guī)則挖掘算法得到了最為廣泛的應(yīng)用。同時,在關(guān)聯(lián)規(guī)則挖掘算法的眾多分支發(fā)展中,Apriori算法最早被人提出來,且以其原理簡單、結(jié)果更易實現(xiàn)的特點成為實用性最強的算法。研究數(shù)據(jù)相關(guān)性的方法層出不窮的同時,如何在已有數(shù)據(jù)相關(guān)性結(jié)論之下,對隱私數(shù)據(jù)進(jìn)行保護(hù)顯得更為重要。差分隱私保護(hù)可以有效地保護(hù)數(shù)據(jù):首先,隱私攻擊者不論有多少相關(guān)的已知信息,也不能推斷出信息所有者的其余重要隱私信息;其次,統(tǒng)計模型的嚴(yán)謹(jǐn)性使得在使用差分隱私時可以更好地得出準(zhǔn)確的分析結(jié)論。在教育領(lǐng)域中,挖掘?qū)W生各學(xué)科成績之間的關(guān)聯(lián)性,有助于學(xué)校更深入了解課程之間的關(guān)系以更好的為學(xué)生定制課程,同時有利于學(xué)生有針對性地查漏補缺,強化優(yōu)勢學(xué)科,彌補弱勢學(xué)科。然而,在得到各課程相關(guān)性結(jié)果的同時,學(xué)生的各科成績信息存在被泄露的風(fēng)險。因此,針對此類問題,可采用差分隱私保護(hù)學(xué)生個人隱私,拉普拉斯機制中的服從隨機分布的噪聲值干擾可以使學(xué)生只能獲得自己的學(xué)習(xí)成績信息,而不能推斷他人的信息。綜上所述,教育領(lǐng)域中,對于學(xué)生各科成績進(jìn)行基于差分隱私保護(hù)的關(guān)聯(lián)規(guī)則挖掘非常有意義。因此,本文先是通過關(guān)聯(lián)規(guī)則挖掘出課程之間的聯(lián)系,以便學(xué)校更好的優(yōu)化課程安排,后通過差分隱私引入噪聲值保護(hù)學(xué)生的成績隱私免于暴露。1.2國內(nèi)外研究現(xiàn)狀2010年,Enrique等人[1]提出了一種基于關(guān)聯(lián)規(guī)則挖掘的協(xié)同教育數(shù)據(jù)挖掘工具。旨在幫助老師改善教學(xué)課程。2012年,王冬秀等人[2]為了提高Apriori算法在交通事故分析中的效率,提出了一種改進(jìn)的Apriori算法來分析大量的交通事故記錄并查找頻繁因素的組合。2013年,Aher[3]在課程推薦系統(tǒng)中,使用k-means聚類算法對學(xué)生進(jìn)行分類。在同一集群中,使用Apriori算法分析學(xué)習(xí)記錄并推薦系統(tǒng)。2015年,楊財英[4]在已經(jīng)優(yōu)化過的Apriori算法基礎(chǔ)上再次進(jìn)行改進(jìn),生成Apriori33算法,此算法應(yīng)用于學(xué)生成績數(shù)據(jù)挖掘中。該算法可以更好地開展教學(xué)工作以及提高教學(xué)質(zhì)量,也可以為教學(xué)和相關(guān)管理提供強有力的決策支持。2017年SongShaoyun[5]等人利用sqlserver關(guān)聯(lián)規(guī)則挖掘算法,通過關(guān)聯(lián)規(guī)則挖掘建立學(xué)生成績預(yù)警模型。并分析了學(xué)生第一次課程考試的關(guān)聯(lián)規(guī)則。2018年SungSik[6]等人使用Apriori算法對數(shù)學(xué)成績與解題思路進(jìn)行關(guān)聯(lián)分析,提高學(xué)生成績中有價值的信息。2018年,馬天昊[7]等人使用經(jīng)典的Apriori算法,挖掘每個學(xué)科之間的潛在關(guān)聯(lián)關(guān)系,并獲得一系列關(guān)聯(lián)規(guī)則。在此基礎(chǔ)上,我們可以對如何提高學(xué)生的學(xué)習(xí)成績提出建議。2020年余弦[8]等人提出了一種大數(shù)據(jù)背景下基于Apriori算法的學(xué)生成績與就業(yè)流向研究。為高校就業(yè)管理工作提供理論指導(dǎo)。2013年,MarcoGaboardi等人[9]證明了DFuzz增強的表達(dá)能力,證明了一大類迭代算法的差異隱私性,通常而言這些迭代算法以前是無法鍵入的。2014年,熊平[10]等人分析了差異隱私保護(hù)模型相對于傳統(tǒng)安全模型的優(yōu)勢。本文綜述了差異隱私的基本理論及其在數(shù)據(jù)發(fā)布和數(shù)據(jù)挖掘中的應(yīng)用。2015年,Hong,Y等人[11]提出了一種高效的協(xié)議-協(xié)作搜索日志消毒(CELS),以滿足這兩個隱私要求。除了安全/隱私和成本分析外,作者還通過實際數(shù)據(jù)集演示了該方法的實用性和效率。2016年,ChiLin等人[12]提出了一種基于差分隱私保護(hù)的車身傳感器網(wǎng)絡(luò)大數(shù)據(jù)保密方案。與以往方法相比,該方案將提供更高的可用性和可靠性的隱私保護(hù)。并引入動態(tài)噪聲閾值的概念,使該方案更適合于處理大數(shù)據(jù)。2017年,葉青青[13]等人介紹了局部差分隱私的原理和特點,并總結(jié)了該技術(shù)的最新研究工作。最后,作者重點分析了該技術(shù)的研究熱點:局部差分隱私下的頻率統(tǒng)計和均值統(tǒng)計,以及滿足局部差分隱私的干擾機制的設(shè)計。2021年,WangDi等人[14]通過研究局部屬性差分隱私模型下的真值推斷問題部分地解決了這些問題。并在經(jīng)典Dawid-Skene方法的基礎(chǔ)上提出了一種新的算法private-Dawid-Skene。1.3研究方法本篇畢業(yè)設(shè)計主要采用兩種研究方法,包括文獻(xiàn)研究法、定量分析法。文獻(xiàn)研究法:文獻(xiàn)研究法是根據(jù)所選擇的相應(yīng)研究方向與主題,對已發(fā)表的文獻(xiàn)進(jìn)行資料的歸納與積累的過程。旨在對所研究方向有更為深入細(xì)致的了解。文獻(xiàn)研究法被廣泛應(yīng)用于各類研究中。定量分析法:定量分析法是指在科學(xué)研究中,通過一定的計算及編程工具使所研究內(nèi)容更精確的量化,以便更精準(zhǔn)的掌握科學(xué)規(guī)律,參透本質(zhì),從而進(jìn)一步正確預(yù)測發(fā)展趨勢。1.4研究內(nèi)容互聯(lián)網(wǎng)時代下,挖掘數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則愈來愈重要,而在學(xué)生所學(xué)習(xí)過的多門課程中,某些課程存在較強的關(guān)聯(lián)性,影響學(xué)生的學(xué)習(xí)情況。而如何挖掘出學(xué)生各學(xué)科成績間的關(guān)聯(lián)規(guī)則,日益成為值得研究的課題?;谝陨嫌懻摚疚臎Q定使用關(guān)聯(lián)規(guī)則挖掘算法Apriori算法來分析和挖掘?qū)W校課程之間的相關(guān)性,為學(xué)校優(yōu)化課程安排提供更好的選擇。此外,數(shù)據(jù)之間的關(guān)聯(lián)性越來越多的被挖掘,同時,學(xué)生對未知事物的獵奇心理更重,在得到個人的成績數(shù)據(jù)后,存在較大概率想要推算出其他同學(xué)相對應(yīng)學(xué)科的分?jǐn)?shù)。導(dǎo)致學(xué)生成績隱私存在較大的被泄露風(fēng)險。因此,迫切需要一種合理、正確的方法來保護(hù)學(xué)生的學(xué)科成績數(shù)據(jù)不被泄露。基于此,本文采用差分隱私保護(hù)機制,引入噪聲值,使得學(xué)生無法反推出其他同學(xué)的成績,從而保護(hù)好學(xué)生的成績隱私。2理論基礎(chǔ)2.1關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)是指存在兩個及以上的變量相互聯(lián)系,則稱此兩類變量存在關(guān)聯(lián)。關(guān)聯(lián)分析是指在大量數(shù)據(jù)集中存在某種數(shù)據(jù)關(guān)聯(lián),然后使用某種技術(shù)或算法來挖掘數(shù)據(jù)屬性之間的規(guī)則和關(guān)系,這種分析技術(shù)的特點是實用、簡單。關(guān)聯(lián)規(guī)則挖掘技術(shù)在數(shù)據(jù)挖掘和分析中的應(yīng)用旨在挖掘數(shù)據(jù)集中信息之間的某些關(guān)系和關(guān)聯(lián)規(guī)則。值得注意的是,關(guān)聯(lián)不是人為預(yù)先預(yù)測的,而是通過收集數(shù)據(jù)和挖掘關(guān)聯(lián)規(guī)則來獲得的。首次提出運用數(shù)據(jù)挖掘分析數(shù)據(jù)相關(guān)性的是沃爾瑪連鎖超市,根據(jù)啤酒、牛奶、尿布等的商品營銷組合,發(fā)掘出尿布與啤酒為最佳銷售組合,以此打開了數(shù)據(jù)相關(guān)性分析即關(guān)聯(lián)規(guī)則挖掘的大門,同時為沃爾瑪帶來不低的利潤。由此可知,關(guān)聯(lián)挖掘規(guī)則對商業(yè)營銷決策具有不可忽視的價值,常用于實體店商品捆綁售賣、線上門店商品聯(lián)合推薦以及貨物陳列等,為商業(yè)營銷帶來業(yè)績增長,達(dá)到尋找高潛力消費者的目的。2.2差分隱私保護(hù)隱私是指當(dāng)事人不愿意或者不愿暴露自己的個人信息提供給公眾。差分隱私保護(hù)是指根據(jù)隨機算法對特定數(shù)據(jù)集的結(jié)果進(jìn)行隨機化。該算法輸出的統(tǒng)計結(jié)果的概率變化不大。隱私攻擊者無法根據(jù)算法運行的統(tǒng)計結(jié)果推斷出一定的數(shù)據(jù)記錄是否存在于原始數(shù)據(jù)集中。拉普拉斯機制和指數(shù)機制為差分隱私的兩類實現(xiàn)機制。上世紀(jì)九十年代中后期,為促進(jìn)公共醫(yī)學(xué)研究的發(fā)展,馬薩諸塞州集團(tuán)保險委員會發(fā)布一批醫(yī)院導(dǎo)出數(shù)據(jù)。而這些醫(yī)療數(shù)據(jù),為防止別有用心人士盜取醫(yī)療患者信息挪作他用,刪除了所有醫(yī)療患者的姓名、住址等隱私信息。但一位在卡內(nèi)基梅隆大學(xué)修學(xué)的博士LatanyaSweeney,將保險委員會公布的數(shù)據(jù)與選民公開記錄對比后,挖掘出醫(yī)療患者被刻意隱藏掉的私人信息,因此,形成影響力巨大的隱私泄露事件。此事件發(fā)生之后,研究人士開始陸續(xù)提出差分隱私保護(hù)的概念,并著手研究。3基于AprioriDP算法的研究3.1問題描述項與項集:令,其中,。每一個稱為項。項所組成的集合稱為項集。其中,包含個項的項集稱為項集。事務(wù)(事件)與事務(wù)集:一個事務(wù)集可屬于一個項集。也就是說事務(wù)集是項集的一個子集。任何一個可標(biāo)識符都存在一個相對應(yīng)的事務(wù)。支持度:是一個比值,即事務(wù)庫中具有一組特定項集的事務(wù)數(shù)。其中,既包括特定項集項又包括項集的事務(wù)計數(shù)可表示為,事務(wù)的計數(shù)可表示為。公式如下所示:可信度:置信度為一個比值,即支持度與支持度的比值,表示含有特定項集的數(shù)量,公式如下所示:頻繁項集:如果項集的支持度超過定義的最小支持閾值,則稱為頻繁項目集。3.2算法實現(xiàn)原理及步驟3.2.1算法實現(xiàn)原理找出所有的頻繁項集(如圖1所示):每個項集都包含在候選1項的集合中。該算法將掃描每個事務(wù)以獲取所有項目,然后生成的集合。之后,計算所有項目的總數(shù)。對于不符合條件(小于最小支持閾值)的項,刪除該項集,并獲得頻繁項集。經(jīng)過重復(fù)操作后,通過修剪策略進(jìn)行自身連接并應(yīng)用于頻繁項集生成的集合,以獲得候選項集。然后,重復(fù)步驟(1)以掃描交易,并計算集合中的項目總數(shù)。最后,通過刪除不滿足最小支持規(guī)則的項來獲得頻繁項目集。計算強關(guān)聯(lián)規(guī)則:根據(jù)之前計算的頻繁項集,可以通過公式獲得強關(guān)聯(lián)規(guī)則。因此,不難看出關(guān)聯(lián)規(guī)則挖掘的效率在很大程度上取決于頻繁項集搜索。圖SEQ圖\*ARABIC1頻繁項集生成步驟3.2.2AprioriDP算法實現(xiàn)算法輸入:數(shù)據(jù)集,最小支持度,最小可信度輸出:頻繁項集defgenerateLk_Ck(dataset,Ck,min_support,support_data):

2.Lk=set()//根據(jù)Ck,通過最小支持度生成Lk

3.i_count={}

4.forjindataset:

5.foriinCk:

6.ifi.issubset(t):

7.ifinotini_count:

8.i_count[i]=1

9.else:

10.i_count[i]+=1

11.j_num=float(len(dataset))

12.foriini_count:

13.if(i_count[item]/j_num)>=min_support:

14.Lk.add(i)

15.support_data[i]=i_count[i]/j_num

16.returnLk4基于差分隱私保護(hù)的研究4.1問題描述查詢:查詢是指數(shù)據(jù)集中定義的各種映射函數(shù)。用來表示。兄弟數(shù)據(jù)集:存在兩數(shù)據(jù)集屬性相同,兩數(shù)據(jù)集的對稱差可表示為,兩數(shù)據(jù)集的數(shù)據(jù)差數(shù)值可表示為。若,則稱兩數(shù)據(jù)集為兄弟數(shù)據(jù)集。靈敏度:靈敏度是指數(shù)據(jù)集中的某條數(shù)據(jù)刪除后對最終結(jié)果的影響,常用作測試噪聲量大小。包括兩種方式,一種為全局靈敏度,一種為局部靈敏度。差分隱私:將一個隨機算法中全部的輸出結(jié)果整合到一起,形成的集合用表示。假設(shè)存在和兩個兄弟數(shù)據(jù)集,以及的任何子集,表示事件發(fā)生概率。那么,算法能夠滿足:通常而言,越小,數(shù)據(jù)的可用程度越低,數(shù)據(jù)的保密程度越高。越大,數(shù)據(jù)的可用程度越高,數(shù)據(jù)的保密程度越低。因此,確定恰當(dāng)?shù)臑橹刂兄亍?.2算法實現(xiàn)原理及步驟4.2.1Laplace機制實現(xiàn)原理數(shù)值類查詢結(jié)果通常使用差分隱私保護(hù)機制,而非數(shù)值類查詢結(jié)果通常使用指數(shù)性機制進(jìn)行差異隱私保護(hù)。基于本篇畢業(yè)設(shè)計中學(xué)生學(xué)科成績?yōu)閿?shù)值類數(shù)據(jù)。所以,采用差分隱私保護(hù)中的機制。對于某一給定的數(shù)據(jù)集,設(shè)定映射函數(shù)為:,映射函數(shù)的敏感度可用表示,隨機噪聲可用表示,其中,隨機噪聲的參數(shù)服從保護(hù)機制。對隨機算法加入隱私保護(hù),則。函數(shù):,其中,表示參數(shù),表示期望。4.2.2Laplace算法步驟算法輸入:噪聲值,最大差值輸出:差分隱私后的數(shù)據(jù)defset_noisy(epsilon,value):

2.w=np.random.random()-0.5

3.noisy=0.0-value/epsilon*np.sign(w)*np.log(1.0-2*np.abs(w))

4.returnnp.rint(noisy)5.foriingrade:

6.noisy_grade[i]=(noisy_grade[i]+set_noisy(epsilon,value))

7.print('原始的數(shù)據(jù)如下:{}'.format(grade))

8.print('差分隱私后的數(shù)據(jù)如下:{}'.format(noisy_grade))5基于差分隱私保護(hù)的學(xué)生成績應(yīng)用通過關(guān)聯(lián)規(guī)則挖掘?qū)W生的學(xué)業(yè)成績之間的相關(guān)性時,有可能會泄露學(xué)生的學(xué)業(yè)成績。因此,研究人員需要采取某些措施來保護(hù)學(xué)生的個人隱私信息。在發(fā)送挖掘結(jié)論時,如何使得學(xué)生不能通過所發(fā)送的成績結(jié)果推斷出其他學(xué)生的成績數(shù)據(jù),同時保證保護(hù)學(xué)生自身的成績不被他人推斷出來。全體學(xué)生成績相關(guān)性挖掘結(jié)果公示時,應(yīng)當(dāng)確保學(xué)生個人的成績信息不被直接或間接攻擊泄露。在采取一定措施保護(hù)學(xué)生個人信息后,應(yīng)保證只有學(xué)生本人或其任課老師可獲得學(xué)生的學(xué)科成績。同時,該名學(xué)生無法通過自身信息獲知其他同學(xué)的相關(guān)信息。因此,將算法應(yīng)用到學(xué)生成績分析中去。通過本校商學(xué)院2017級工程管理專業(yè)學(xué)生學(xué)習(xí)《離散數(shù)學(xué)》、《計算機網(wǎng)絡(luò)與應(yīng)用》、《戰(zhàn)略管理》、《管理學(xué)》、《應(yīng)用統(tǒng)計學(xué)》、《概率論與數(shù)理統(tǒng)計》等十五門課程的學(xué)習(xí)數(shù)據(jù)進(jìn)行實驗分析。通過實驗結(jié)果分析出學(xué)生各學(xué)科成績之間的關(guān)聯(lián)性強弱。通過基于算法對學(xué)生各學(xué)科成績進(jìn)行分析,在保護(hù)學(xué)生個體隱私下,挖掘?qū)W生各學(xué)科成績背后隱藏的價值信息。5.1實驗數(shù)據(jù)集5.1.1數(shù)據(jù)來源本文首先收集本校商學(xué)院工程管理2017級學(xué)生學(xué)習(xí)《離散數(shù)學(xué)》等十五門課程的成績數(shù)據(jù),主要包括學(xué)期末十五門學(xué)科的測試成績。原始數(shù)據(jù)集一共包括69名學(xué)生的成績信息。研究使用的信息包括學(xué)生學(xué)科成績,姓名,學(xué)號等幾部分,部分?jǐn)?shù)據(jù)顯示如圖2所示:圖SEQ圖\*ARABIC2原始數(shù)據(jù)學(xué)生成績信息5.1.2數(shù)據(jù)預(yù)處理數(shù)據(jù)清理:旨在刪除重復(fù)值、處理缺省值并對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理的過程成為數(shù)據(jù)清理。收集的學(xué)生學(xué)科成績中,存在部分學(xué)生未選修所測試學(xué)科。因此,學(xué)科測試成績殘缺值以平均值進(jìn)行填充。5.1.3數(shù)據(jù)轉(zhuǎn)換將數(shù)據(jù)轉(zhuǎn)換為應(yīng)用算法適用格式的過程成為數(shù)據(jù)的轉(zhuǎn)換。學(xué)生的學(xué)科測試成績?yōu)殡x散化數(shù)值,雖滿足了算法的輸入為離散化的數(shù)值信息這一要求。但成績的數(shù)值間隔微小,并且僅以學(xué)生成績這一單一維度作為測試數(shù)據(jù)挖掘各學(xué)科間的關(guān)聯(lián)關(guān)系,會導(dǎo)致算法執(zhí)行過程中效率低下且算法結(jié)果會使得后期的分析過程繁雜化,無法得到準(zhǔn)確的關(guān)聯(lián)情況。此外,所選中學(xué)科的學(xué)習(xí)成績是百分制的數(shù)值型數(shù)據(jù)?;诖耍瑢W(xué)生的各學(xué)科學(xué)習(xí)成績按照成績區(qū)間段劃分為A~E五段,劃分規(guī)則如表1所示。表1學(xué)生成績區(qū)間劃分學(xué)習(xí)成績所屬類別[90,100]A[80,90)B[70,80)C[60,70)D[0,60)E此外,將十五門學(xué)科的名稱用序號1~9表示。對數(shù)據(jù)進(jìn)行轉(zhuǎn)換與處理后,所匯總得到的數(shù)據(jù)如圖3所示圖3處理后學(xué)生成績信息5.2實驗結(jié)果與分析5.2.1學(xué)生成績相關(guān)性分析在對學(xué)生學(xué)科成績進(jìn)行數(shù)據(jù)挖掘后,可得到單門學(xué)科成績所處分類級別及對應(yīng)支持度,如表2。在所統(tǒng)計的15們學(xué)科中,B(即區(qū)間為80~90)為七門學(xué)科中占比例最高的分類級別,A(即分?jǐn)?shù)區(qū)間90~100)為五門學(xué)科中占比例最高的分類級別。分類級別最高占比無D與E分類,表明十五門學(xué)科的學(xué)生成績大都高于70分。計算機網(wǎng)絡(luò)與應(yīng)用中,存在96%的人數(shù)獲得了90分以上的成績,表明學(xué)生對該學(xué)科掌握較好。而在概率論與數(shù)理統(tǒng)計中,B為最高占比區(qū)間,但比例僅為29%,表明該學(xué)科對應(yīng)的學(xué)生成績分布較為均勻。表2單門學(xué)科學(xué)生成績支持度學(xué)科得分最高區(qū)間得分區(qū)間占比學(xué)科得分最高區(qū)間得分區(qū)間占比離散數(shù)學(xué)A0.80數(shù)據(jù)庫系統(tǒng)概論C0.36計算機網(wǎng)絡(luò)與應(yīng)用A0.96體育B0.52戰(zhàn)略管理A0.65應(yīng)用統(tǒng)計學(xué)B0.45馬克思主義基本原理概論C0.62機器學(xué)習(xí)C0.36管理學(xué)A0.55運籌學(xué)A0.87營銷學(xué)概論B0.83體育B0.52概率論與數(shù)理統(tǒng)計B0.29毛澤東思想概論B0.48電子商務(wù)B0.59可得到雙門學(xué)科重復(fù)出現(xiàn)同一區(qū)間的情況及對應(yīng)支持度,僅統(tǒng)計占比>0.70,如表3。運籌學(xué)與計算機網(wǎng)絡(luò)與應(yīng)用最高區(qū)間均為A(即90~100),且所占比例高達(dá)83%,表明大多數(shù)學(xué)生在學(xué)習(xí)此兩門課程中,較易理解,得分都較高。而營銷學(xué)與計算機網(wǎng)絡(luò)與應(yīng)用的組合中,營銷學(xué)分類級別為B與計算機網(wǎng)絡(luò)分類為A的所占比例最高,表明大多數(shù)學(xué)生在學(xué)習(xí)兩門課程時得分高于80分。表3雙門學(xué)科學(xué)生成績支持度學(xué)科區(qū)間占比運籌學(xué),計算機網(wǎng)絡(luò)與應(yīng)用A,A0.83營銷學(xué),計算機網(wǎng)絡(luò)與應(yīng)用B,A0.78離散數(shù)學(xué),計算機網(wǎng)絡(luò)與應(yīng)用A,A0.77運籌學(xué),概率論A,B0.75可獲得三門學(xué)科重復(fù)出現(xiàn)同一區(qū)間的情況及相應(yīng)的支持度,僅統(tǒng)計占比>0.60,如表4。在運籌,計算機網(wǎng)絡(luò)與營銷學(xué)的組合中,存在71%的學(xué)生運籌學(xué)與計算機網(wǎng)絡(luò)同時獲得90分以上的成績,同時運籌學(xué)獲得80~90分的成績。表4三門學(xué)科學(xué)生成績支持度學(xué)科區(qū)間占比運籌學(xué),計算機網(wǎng)絡(luò)與應(yīng)用,營銷學(xué)A,A,B0.71運籌學(xué),離散數(shù)學(xué),計算機網(wǎng)絡(luò)與應(yīng)用A,A,A0.65計算機網(wǎng)絡(luò)與應(yīng)用,離散數(shù)學(xué),營銷學(xué)A,A,B0.62可獲得學(xué)科間的強關(guān)聯(lián)規(guī)則部分如表5。由表中數(shù)據(jù)可知,大多數(shù)數(shù)據(jù)都可與計算機網(wǎng)絡(luò)與應(yīng)用形成強關(guān)聯(lián)規(guī)則。由上文分析可知,計算機網(wǎng)絡(luò)存在96%的學(xué)生該學(xué)科測試成績在90分及以上,因此可分析出多數(shù)學(xué)科數(shù)據(jù)易與計算機網(wǎng)絡(luò)形成關(guān)聯(lián)規(guī)則。概率論與數(shù)理統(tǒng)計的成績區(qū)間在80~90之間的學(xué)生所獲得的運籌學(xué)成績一定在90分以上。同時,機器學(xué)習(xí)的成績區(qū)間在80~90之間的學(xué)生所測試的運籌學(xué)成績也一定在90分以上。毛澤東思想概論的成績區(qū)間在70~80之間的學(xué)生有0.77的概率在馬克思的成績中同樣得到70~80的成績。表5學(xué)科成績置信度強關(guān)聯(lián)規(guī)則置信度強關(guān)聯(lián)規(guī)則置信度A10=>A21.001.00B11=>A10.87C10=>A2A7=>A30.85B7=>A131.00A7=>A50.80B12=>A131.00B7=>C40.80B11=>A130.97C10=>B80.78A7=>B60.95C15=>C40.77B7=>B60.9A8=>A50.76C15=>A10.88B10=>B140.72C4=>B60.88A8=>B140.72A1=>A130.85A8=>B100.72A1=>B60.81C12=>A30.72A2=>A130.86A5=>A30.71A2=>B60.81A1=>A30.705.2.2學(xué)生成績隱私保護(hù)在存在強關(guān)聯(lián)規(guī)則的前提下,以B11=>A1為例,假設(shè)學(xué)生B得知學(xué)生A的應(yīng)用統(tǒng)計學(xué)成績在80~90的區(qū)間內(nèi),則學(xué)生B較為容易推斷出學(xué)生A的離散數(shù)學(xué)成績。為保護(hù)學(xué)生隱私不受侵犯,本篇畢業(yè)設(shè)計以對離散數(shù)學(xué)進(jìn)行差分隱私為例,對于每名學(xué)生的離散數(shù)學(xué)的測試成績給予不同的隱私保護(hù)參數(shù),之后觀察不同隱私對隱私安全度的影響。圖5-3給出的四個折線圖分別表示不同的隱私保護(hù)參數(shù)下得到的學(xué)生離散數(shù)學(xué)被保護(hù)后的結(jié)果。其中,圖4(a)為學(xué)生測試成績的原始數(shù)據(jù);圖4(b)為當(dāng)時生成的學(xué)生成績結(jié)果;圖4(c)為當(dāng)時生成的成績;圖4(d)為當(dāng)時生成的推薦結(jié)果。可以看出,當(dāng)隱私保護(hù)預(yù)算參數(shù)不為零時,的不同值會使原始數(shù)據(jù)有一定程度的失真,從而起到隱私保護(hù)的作用。同時,設(shè)置不同的隱私保護(hù)預(yù)算參數(shù)可以獲得不同的數(shù)據(jù)組。(a)原始數(shù)據(jù)(b)(c)(d)圖4不同噪聲值下學(xué)生學(xué)科成績根據(jù)圖5易看出,隱私參數(shù)設(shè)值不同的情況下,噪聲值的波動范圍也會不斷發(fā)生變化。的值越小,越有可能偏離原始建議值,使得學(xué)生的成績范圍波動變大,最值擴大,并且其可用性變差。但是會使得隱私保護(hù)程度更高。因此,在今后的研究中,對于隱私保護(hù)級別的區(qū)分可以通過設(shè)置不同的值來實現(xiàn),并且可以實現(xiàn)數(shù)據(jù)可用性與不同隱私保護(hù)級別兩者的平衡。圖5不同隱私保護(hù)參數(shù)對比6總結(jié)與展望本文對基于差分隱私保護(hù)的學(xué)生成績分析進(jìn)行了一系列的研究。首先,對目前國內(nèi)外研究相關(guān)方向的文獻(xiàn)進(jìn)行了總結(jié),得出進(jìn)行成績分析對學(xué)校優(yōu)化課程安排的重要性。其次,對于學(xué)生各學(xué)科成績采用Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘,旨在分析出學(xué)校各學(xué)科相互之間的影響,以對今后的學(xué)校課程安排上提出合理的建議。再次,由于挖掘結(jié)果的公布,可能會導(dǎo)致學(xué)生的個人信息存在泄露的風(fēng)險。并且公布數(shù)據(jù)越多,學(xué)生信息遭泄露的概率越高,風(fēng)險越大。因此,提出利用差分隱私保護(hù),調(diào)整隱私參數(shù)來控制隱私保護(hù)程度,使得隱私攻擊者無法根據(jù)已知信息推導(dǎo)出信息所有者的相關(guān)數(shù)據(jù)。在本篇畢業(yè)設(shè)計中,僅針對單門學(xué)科之間的置信度進(jìn)行隱私保護(hù),希望在未來的研究中,在已知多門學(xué)科的相關(guān)關(guān)系中進(jìn)行差分隱私擾動,更好的確保學(xué)生個人信息受到保護(hù)。參考文獻(xiàn)EnriqueGarcia,CristobalRomero,SebastianVentura,etal.Acollaborativeeducationalassociationruleminingtool[J].Internet&HigherEducation,2010,14(02):77-88.王冬秀.關(guān)聯(lián)規(guī)則挖掘的Apriori算法的改進(jìn)與應(yīng)用[J].廣西工學(xué)院學(xué)報,2012,23(04):27-31.AherSB,LoboLMRJ.CombinationofmachinelearningalgorithmsforrecommendationofcoursesinE-LearningSystembasedonhistoricaldata[J].Knowledge-BasedSystems,2013,519(otc):1-14.楊財英.Apriori算法及其在學(xué)生成績分析中的應(yīng)用研究[D].湖南大學(xué),2016.SongShaoyun.TheResearchonAssociationRulesMiningTechnologyinStudentAchievementEarlyWarning[P].Proceedingsofthe20177thInternationalConferenceonSocialNetwork,CommunicationandEducation(SNCE2017),2017.arkS,ParkYB.Analysisof

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論