研究生論文--開(kāi)題報(bào)告-基于隱私保護(hù)的多源數(shù)據(jù)挖掘高效算法研究__本科論文_第1頁(yè)
研究生論文--開(kāi)題報(bào)告-基于隱私保護(hù)的多源數(shù)據(jù)挖掘高效算法研究__本科論文_第2頁(yè)
研究生論文--開(kāi)題報(bào)告-基于隱私保護(hù)的多源數(shù)據(jù)挖掘高效算法研究__本科論文_第3頁(yè)
研究生論文--開(kāi)題報(bào)告-基于隱私保護(hù)的多源數(shù)據(jù)挖掘高效算法研究__本科論文_第4頁(yè)
研究生論文--開(kāi)題報(bào)告-基于隱私保護(hù)的多源數(shù)據(jù)挖掘高效算法研究__本科論文_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、研究生學(xué)位論文開(kāi)題報(bào)告題目名稱:基于隱私保護(hù)的多源數(shù)據(jù)挖掘高效算法研究姓 名: 學(xué) 號(hào): 專業(yè)名稱: 研究方向: 攻讀學(xué)位: 學(xué) 院: 導(dǎo)師姓名: 導(dǎo)師職稱:填表時(shí)間填表說(shuō)明1. 開(kāi)題報(bào)告是研究生培養(yǎng)的重要環(huán)節(jié),研究生需在認(rèn)真完成。2. 完成時(shí)間:碩士研究生的開(kāi)題報(bào)告應(yīng)于第三學(xué)期末前完成3. 打印要求:此表用A4紙雙面打印。4. 此表與中期考核審核表、成績(jī)單、實(shí)踐報(bào)告、學(xué)術(shù)活動(dòng)列表等材料一起交于學(xué)院,參加中期考核13一、課題來(lái)源,國(guó)內(nèi)外研究現(xiàn)狀、水平及發(fā)展趨勢(shì),選題的研究意義、目的,參考文獻(xiàn)(一)課題來(lái)源 1問(wèn)題的提出數(shù)據(jù)挖掘,顧名思義即是從大型數(shù)據(jù)庫(kù)中提取人們感興趣的知識(shí),這些知識(shí)是隱含的、

2、 事先未知的、潛在的、有用信息,提取的知識(shí)表示為概念、規(guī)則、規(guī)律、模式等形式。數(shù)據(jù)挖掘要處理的問(wèn)題,就是在龐大的數(shù)據(jù)庫(kù)中尋找有價(jià)值的隱藏事件,加以分析,并將這些 有意義的信息歸納成結(jié)構(gòu)模式,提供給有關(guān)部門決策時(shí)參考。目前已經(jīng)提出的常用方法有關(guān) 聯(lián)規(guī)則、決策樹(shù)、聚類、神經(jīng)網(wǎng)絡(luò)等方法。然而,在對(duì)數(shù)據(jù)進(jìn)行挖掘的時(shí)候,都不可避免的會(huì)出現(xiàn)敏感信息泄露的問(wèn)題,隨著數(shù)據(jù) 挖掘技術(shù)的日益發(fā)展,數(shù)據(jù)隱私和信息安全逐漸引起人們的關(guān)注。為了保護(hù)數(shù)據(jù)的隱私,人 們不愿提供正確的信息給服務(wù)商,以免個(gè)人信息泄露造成不必要的麻煩,但是數(shù)據(jù)挖掘結(jié)果 準(zhǔn)確的重要前提是提供的數(shù)據(jù)正確。由于數(shù)據(jù)挖掘主要任務(wù)是對(duì)匯總數(shù)據(jù)的模式開(kāi)發(fā),

3、這使 得構(gòu)造一個(gè)不需要訪問(wèn)精確的單個(gè)信息而獲得準(zhǔn)確的模式的挖掘技術(shù)成為可能。目前,基于 隱私保護(hù)的數(shù)據(jù)挖掘技術(shù)已經(jīng)成為一個(gè)新穎熱門的研究領(lǐng)域,國(guó)內(nèi)外已有很多成熟的研究算 法和技術(shù)。通過(guò)眾多文獻(xiàn)比對(duì)我們發(fā)現(xiàn),目前已有的這些基于隱私保護(hù)的數(shù)據(jù)挖掘算法和技術(shù)大多 是針對(duì)單源數(shù)據(jù)庫(kù)進(jìn)行挖掘和保護(hù),而在實(shí)際應(yīng)用中,有很多情況必須面對(duì)多個(gè)數(shù)據(jù)源。例 如,許多大型企業(yè)、跨國(guó)公司都擁有過(guò)個(gè)子公司,每個(gè)子公司都有自己相應(yīng)的數(shù)據(jù)庫(kù)。這就 迫切需要數(shù)據(jù)庫(kù)挖掘系統(tǒng)具有針對(duì)多數(shù)據(jù)源進(jìn)行挖掘和保護(hù)的能力。已有的國(guó)內(nèi)外文獻(xiàn)中, 針對(duì)多源數(shù)據(jù)進(jìn)行挖掘的模型和算法已經(jīng)出現(xiàn),但是基于隱私保護(hù)技術(shù)的多源數(shù)據(jù)挖掘研究 卻很少提及。這

4、可能是由于多源數(shù)據(jù)挖掘本身的技術(shù)局限性,導(dǎo)致在對(duì)多個(gè)數(shù)據(jù)源進(jìn)行挖掘 時(shí),泄露敏感信息都成為了不可避免的操作。因此,本文在對(duì)當(dāng)前已有的多源序列模式挖掘 技術(shù)研究的基礎(chǔ)上,分析結(jié)合并行和隱私保護(hù)技術(shù)的特點(diǎn),提出新的基于隱私保護(hù)的多源數(shù) 據(jù)挖掘高效算法,使得在多源環(huán)境下既可以高效率高準(zhǔn)確度的挖掘出高投票率模式(全局模 式),又可以隱藏敏感序列模式,達(dá)到較好的隱私保護(hù)效果。(二)國(guó)內(nèi)外研究現(xiàn)狀、水平及發(fā)展趨勢(shì)1隱私保護(hù)技術(shù)的研究進(jìn)展關(guān)于數(shù)據(jù)的隱私保護(hù)問(wèn)題,首次是由Adam N等學(xué)者在Security-control methods forstatistical databases: A com par

5、ison study2文中提出,文章中提出了一種用擾動(dòng)的方式來(lái) 解決數(shù)據(jù)的隱私保護(hù)。所謂“擾動(dòng)”就是發(fā)布數(shù)據(jù)集失真,數(shù)據(jù)獲得者無(wú)法通過(guò)其他途徑構(gòu) 建出原始數(shù)據(jù)集,但是這個(gè)失真的數(shù)據(jù)集又仍然保持?jǐn)?shù)據(jù)獲得者所希望保留的某種特性?;?于數(shù)據(jù)失真的技術(shù)還有隨機(jī)擾動(dòng)、阻塞和凝聚等。目前常用的隱私保護(hù)技術(shù)大多都是以統(tǒng)計(jì)模型和概率模型為主理論,應(yīng)用在較低層次的數(shù)據(jù)隱私保護(hù)。在分布式環(huán)境中,Clift on C等提出使用SMC (Secure Multi-party Computation)安全多方計(jì)算加密技術(shù)保證數(shù)據(jù)的通信安全 ,這種基于加密的隱私保護(hù)技術(shù)可適用于科學(xué)計(jì)算、分布式安全查詢、幾何計(jì)算、分布式數(shù)

6、 據(jù)挖掘等應(yīng)用。當(dāng)前,關(guān)于SMC的研究主要集中在減低計(jì)算開(kāi)銷、以SMC為工具解決問(wèn)題以及優(yōu)化分布式計(jì)算協(xié)議。在國(guó)內(nèi),關(guān)于隱私保護(hù)技術(shù)的研究主要集中在基于數(shù)據(jù)失真或數(shù)據(jù) 加密技術(shù)方面的研究,如基于隱私保護(hù)分類挖掘算法、關(guān)聯(lián)規(guī)則挖掘、分布式數(shù)據(jù)的隱私保 護(hù)協(xié)同過(guò)濾推薦、網(wǎng)格訪問(wèn)控制等。(國(guó)內(nèi)研究現(xiàn)狀)對(duì)數(shù)據(jù)進(jìn)行隱私保護(hù),主要可分為在數(shù)據(jù)發(fā)布過(guò)程中和在數(shù)據(jù)挖掘過(guò)程中進(jìn)行。目前已 有的針對(duì)數(shù)據(jù)發(fā)布的隱私保護(hù)技術(shù)已經(jīng)有很多,本文主要討論數(shù)據(jù)挖掘中的隱私保護(hù)技術(shù)。2、隱私保護(hù)數(shù)據(jù)挖掘的研究進(jìn)展數(shù)據(jù)挖掘中的隱私保護(hù)主要考慮兩個(gè)方面的問(wèn)題,一個(gè)是敏感的原始數(shù)據(jù),一個(gè)是從數(shù) 據(jù)庫(kù)中提取出來(lái)的敏感知識(shí)。這兩種信息

7、都應(yīng)當(dāng)在挖掘的時(shí)候進(jìn)行刪除,因?yàn)榭赡軐?dǎo)致隱私 泄露問(wèn)題。因此,隱私保護(hù)數(shù)據(jù)挖掘的主要目的就是用某種技術(shù)改進(jìn)已有的數(shù)據(jù)挖掘算法來(lái) 修改原始數(shù)據(jù),使得敏感的數(shù)據(jù)和知識(shí)不被泄露。目前,針對(duì)隱私保護(hù)數(shù)據(jù)挖掘的研究,國(guó) 外已經(jīng)有很多方法。文獻(xiàn)4采用數(shù)據(jù)擾亂技術(shù),從訓(xùn)練數(shù)據(jù)中重構(gòu)一個(gè)決策樹(shù)分類器從而解 決數(shù)據(jù)挖掘中隱私保護(hù)問(wèn)題。文獻(xiàn)提出了一種基于隨機(jī)化的方法一一隨機(jī)響應(yīng)技術(shù),禾U用這種源于統(tǒng)計(jì)學(xué)研究中隱私保護(hù)的方法,來(lái)實(shí)現(xiàn)在不泄露隱私數(shù)據(jù)的情況下進(jìn)行一定精度的 建模,文中主要探討了與ID3決策樹(shù)算法結(jié)合進(jìn)行分類的方法。文獻(xiàn)6討論了一個(gè)利用不確定性符號(hào)進(jìn)行數(shù)據(jù)阻塞并應(yīng)用于關(guān)聯(lián)規(guī)則挖掘的具體例子,這種情況下支

8、持度和置信度分別 用支持度區(qū)間和置信度區(qū)間代替。文獻(xiàn)7提出一個(gè)利用添加噪聲數(shù)據(jù)對(duì)待挖掘數(shù)據(jù)庫(kù)進(jìn)行有效分類的框架,滿足了對(duì)數(shù)據(jù)集中敏感信息方差和協(xié)方差的有效保護(hù)。對(duì)于如何很好的平衡 隱藏限制模式和揭露非限制模式,文獻(xiàn)8中提出了一個(gè)基于隱私保護(hù)的頻繁項(xiàng)集數(shù)據(jù)挖掘框架,對(duì)原始數(shù)據(jù)庫(kù)進(jìn)行了一定程度的安全清洗。文獻(xiàn)9針對(duì)交易型數(shù)據(jù)庫(kù),提出一個(gè)新的僅需要一遍掃描數(shù)據(jù)庫(kù)的算法對(duì)原始數(shù)據(jù)庫(kù)數(shù)據(jù)進(jìn)行處理,使得既能達(dá)到保護(hù)隱私數(shù)據(jù),又能 挖掘出準(zhǔn)確的關(guān)聯(lián)規(guī)則,保留關(guān)聯(lián)規(guī)則挖掘的益處。由于在關(guān)聯(lián)規(guī)則挖掘中,很容易從非敏 感信息和原始未分類數(shù)據(jù)中推測(cè)出敏感信息,因此文獻(xiàn)10提出了一個(gè)新的算法來(lái)平衡關(guān)聯(lián)規(guī)則挖掘中的隱私

9、保護(hù)和知識(shí)發(fā)現(xiàn)。該算法對(duì)原始數(shù)據(jù)庫(kù)進(jìn)行兩次掃描,不用考慮數(shù)據(jù)庫(kù)大 小和限制性關(guān)聯(lián)規(guī)則數(shù)目。針對(duì)分布式數(shù)據(jù)環(huán)境進(jìn)行挖掘和隱私保護(hù)的研究是當(dāng)前國(guó)內(nèi)主要熱門研究領(lǐng)域之一。 獻(xiàn)11中,從基于隨機(jī)擾動(dòng)、基于安全多方計(jì)算以及基于限制查詢?nèi)齻€(gè)層次分類別討論了現(xiàn) 有的針對(duì)分布式隱私保護(hù)數(shù)據(jù)挖掘方法,對(duì)比各自優(yōu)缺點(diǎn),總結(jié)未來(lái)發(fā)展方向。文獻(xiàn)12中,總結(jié)了在分布式數(shù)據(jù)庫(kù)特有環(huán)境下,如何解決數(shù)據(jù)安全性計(jì)算效率問(wèn)題。文獻(xiàn)13中,結(jié)合隨機(jī)數(shù)生成器和RSA公鑰加密技術(shù),提出了PPD-ARBSM算法。該算法引入數(shù)據(jù)挖掘服務(wù)器和密碼管理服務(wù)器,保證了敏感數(shù)據(jù)的安全性。文獻(xiàn)14中,針對(duì)分布式數(shù)據(jù)共享及計(jì)算中的隱私保護(hù)問(wèn)題,提出了

10、一種適用于大規(guī)模分布式環(huán)境的隱私保護(hù)計(jì)算模型(PPCMLS),該模型的核心為隱私安全模塊,將計(jì)算劃分為本地計(jì)算和全局計(jì)算。通過(guò)綜合運(yùn)用同態(tài)加密、安 全點(diǎn)積協(xié)議、數(shù)據(jù)隨機(jī)擾亂算法等多種安全技術(shù),在實(shí)現(xiàn)了多個(gè)節(jié)點(diǎn)在一個(gè)互不信任的分布 式環(huán)境下合作計(jì)算的同時(shí),任何節(jié)點(diǎn)無(wú)法獲取其他節(jié)點(diǎn)的隱私信息及敏感中間計(jì)算結(jié)果???體而言,這些研究還都處于起步階段,具有廣闊的發(fā)展空間。文獻(xiàn)15中提出一種分布式匿名數(shù)據(jù)擾亂方法APM,該算法是匿名數(shù)據(jù)交換機(jī)制下的數(shù)據(jù)挖掘隱私保護(hù)方法,在高密度共謀攻擊的半誠(chéng)實(shí)環(huán)境中有較好的魯棒性,與SMC相比具有顯著的效率優(yōu)勢(shì)和較高的靈活性和通用性,能應(yīng)用于關(guān)聯(lián)規(guī)則挖掘和聚類等多種場(chǎng)合

11、。然而現(xiàn)有的隱私保護(hù)研究大都是在關(guān)聯(lián)規(guī)則方面,很少有針對(duì)序列模式方面。序列模式 挖掘包含時(shí)間因素,即每一個(gè)模式的元素之間存在先后順序關(guān)系,因此序列模式挖掘增加了 時(shí)間順序的因素,在某些情況下的應(yīng)用能挖掘出關(guān)聯(lián)規(guī)則所無(wú)法挖掘的模式,提供更有效的 挖掘結(jié)果。本文提出的就是在多數(shù)據(jù)源環(huán)境下針對(duì)序列模式的數(shù)據(jù)挖掘算法,并盡可能的達(dá) 到隱私保護(hù)效果。目前國(guó)內(nèi)外研究中,針對(duì)序列模式的挖掘算法和模型已有一些。文獻(xiàn)16在假設(shè)參與方都是半誠(chéng)實(shí)基礎(chǔ)上,強(qiáng)調(diào)了在一個(gè)類似二維站點(diǎn)的模式中隱私保護(hù)頻繁模式挖掘出現(xiàn)的問(wèn) 題,提出一種基于半?yún)⑴c和不涉及加密的序列模式挖掘新方法。針對(duì)已有的序列模式挖掘方 法都是在數(shù)據(jù)庫(kù)數(shù)據(jù)不

12、發(fā)生任何改變的基礎(chǔ)上進(jìn)行的。文獻(xiàn)17中基于數(shù)據(jù)可隨時(shí)更新的數(shù)據(jù)庫(kù)動(dòng)態(tài)變化,提出一種新的改進(jìn)的序列樹(shù)PS-tree,以解決改進(jìn)的序列模式挖掘中出現(xiàn)的問(wèn)題。文獻(xiàn)18利用密碼學(xué)中同態(tài)加密和數(shù)字信封技術(shù)來(lái)達(dá)到在多方參與中不共享隱私數(shù)據(jù)的 協(xié)同序列模式挖掘。文獻(xiàn)19以PrefixSpan算法為基礎(chǔ),結(jié)合分布式計(jì)算的特點(diǎn),研究并提出了一種分布式序列模式挖掘算法DSP (Distributed Seque ntial P attern Mi ning),并針對(duì)分布式環(huán)境下信息傳遞耗費(fèi)大、任務(wù)可并行執(zhí)行等特點(diǎn),對(duì)DSPM算法進(jìn)行了進(jìn)一步的改進(jìn)。研究并提出了一種分布式序列模式挖掘的隱私保護(hù)算法CLSD(Curr

13、ent Least Sequences Delete),該方法通過(guò)刪除原始序列來(lái)降低敏感序列的支持?jǐn)?shù)達(dá)到隱藏敏感信息的目的?;陔[私保護(hù)的序列模式挖掘算法研究目前還比較少,文獻(xiàn)20中首次提出了三個(gè)敏感序列隱藏算法一 MSA、MSRA和SDRF。這三種算法借鑒了關(guān)聯(lián)規(guī)則隱藏的思想,通過(guò)刪除 原始序列降低支持?jǐn)?shù)的方式實(shí)現(xiàn)了敏感序列的隱藏。但MSA和MSRA算法在選擇被刪除序列時(shí)沒(méi)有做任何優(yōu)化,SDRF對(duì)候選刪除序列只進(jìn)行了基本的篩選,仍存在刪除原始序列過(guò)多的問(wèn)題,而且算法引入的預(yù)期最低支持度可能會(huì)導(dǎo)致敏感序列隱藏失敗情況的出現(xiàn)。已有的 這三種敏感序列隱藏算法均采用了預(yù)期最低支持度來(lái)保證敏感序列的隱

14、藏,它們?cè)趧h除過(guò)程 執(zhí)行之前就確定好了被刪除的原始序列,不能夠動(dòng)態(tài)反映出已刪除序列對(duì)未刪除序列的影 響,沒(méi)有考慮先刪除序列對(duì)后刪除序列的影響,會(huì)刪除掉一些不必要?jiǎng)h除的序列。因此針對(duì) 這一特點(diǎn),文獻(xiàn)21提出一種有效的敏感序列隱藏算法CLSDA ( current least sequences deletealgorithm ),該算法對(duì)候選序列加權(quán),在刪除序列的過(guò)程中隨時(shí)更新權(quán)值,使用貪心算法獲得局部最優(yōu)解,盡可能減少對(duì)原始數(shù)據(jù)庫(kù)的改動(dòng)。文獻(xiàn)22提出一種基于隱私保護(hù)的序列模式挖掘算法PP-SPM。算法以修改原始數(shù)據(jù)庫(kù)中的敏感數(shù)據(jù)來(lái)降低受限序列模式的支持度為原 則,首先構(gòu)建SPAM序列樹(shù),根據(jù)一

15、定的啟發(fā)式規(guī)則,從中獲得敏感序列,再進(jìn)一步在原始 數(shù)據(jù)庫(kù)中找到敏感數(shù)據(jù),對(duì)其做布爾操作,實(shí)現(xiàn)數(shù)據(jù)庫(kù)的清洗。文獻(xiàn)23中提出一個(gè)基于數(shù)據(jù)清洗的敏感序列模式隱藏算法,該算法通過(guò)計(jì)算事務(wù)組影響權(quán)值,選取對(duì)非敏感序列模式 影響最小的事務(wù)組進(jìn)行清洗,從而在確保隱藏敏感序列模式的同時(shí),盡量減少對(duì)非敏感模式 集的影響。從以上兩個(gè)大的數(shù)據(jù)挖掘發(fā)展現(xiàn)狀分析,可以看到大多是針對(duì)單一數(shù)據(jù)源提出的各類算 法和技術(shù),然而隨著互聯(lián)網(wǎng)信息的高度共享和實(shí)際應(yīng)用的需求,多源數(shù)據(jù)挖掘已經(jīng)逐漸成為 數(shù)據(jù)挖掘領(lǐng)域新的進(jìn)展方向,針對(duì)此領(lǐng)域的研究,將更好的應(yīng)用于金融安全等各個(gè)行業(yè)和組 織。3、多源數(shù)據(jù)挖掘的研究進(jìn)展目前對(duì)于多數(shù)據(jù)源數(shù)據(jù)挖掘

16、問(wèn)題的研究,國(guó)內(nèi)外文獻(xiàn)中涉及的都比較少。對(duì)于多源數(shù)據(jù) 挖掘,為了有效從多數(shù)據(jù)庫(kù)挖掘全局序列,必須首先挖掘每個(gè)本地DB的信息,在本地層次上總結(jié)整合。一般情況下,多源數(shù)據(jù)挖掘可分三步進(jìn)行:1)對(duì)多數(shù)據(jù)源進(jìn)行分類;2)挖掘每個(gè)數(shù)據(jù)庫(kù)的知識(shí);3)把同類數(shù)據(jù)庫(kù)挖掘到的知識(shí)進(jìn)行合成。由于多源數(shù)據(jù)挖掘中必須面臨 眾多不同大小的數(shù)據(jù)集,文獻(xiàn) 24提出一個(gè)可供選擇的多源數(shù)據(jù)挖掘技術(shù),僅選擇支持度大 于給定閾值的若干相關(guān)性大的數(shù)據(jù)庫(kù)進(jìn)行挖掘搜索。該方法主要針對(duì)多源數(shù)據(jù)挖掘步驟中第 一步分類進(jìn)行,有效的縮短了搜索代價(jià)。隨后,文獻(xiàn)25中又提出一種根據(jù)用戶查詢從多源數(shù)據(jù)庫(kù)中搜索用戶感興趣知識(shí)的方法,這一過(guò)程僅在被選擇數(shù)

17、據(jù)庫(kù)中進(jìn)行挖掘檢索信息。以 上所采用的方法和技術(shù)構(gòu)成了目前已有的針對(duì)多源數(shù)據(jù)環(huán)境進(jìn)行挖掘的主要模式,我們將其 稱為傳統(tǒng)的多源數(shù)據(jù)挖掘技術(shù)??偨Y(jié)可知,其挖掘過(guò)程可分為三步進(jìn)行:1)通過(guò)數(shù)據(jù)選擇從眾多數(shù)據(jù)庫(kù)中選擇其中有相關(guān)性的若干數(shù)據(jù)庫(kù);2)利用數(shù)據(jù)合成技術(shù)將這些選中數(shù)據(jù)庫(kù)現(xiàn)有合為一個(gè)單一數(shù)據(jù)集;3)對(duì)這個(gè)巨大的單一數(shù)據(jù)集采用單源數(shù)據(jù)挖掘算法,得到最終的模 式集。文獻(xiàn)26介紹了一種將INLEN系統(tǒng)擴(kuò)展到多源數(shù)據(jù)環(huán)境下進(jìn)行知識(shí)發(fā)現(xiàn)的方式。 的并行挖掘技術(shù)有些也可以用來(lái)解決多源數(shù)據(jù)挖掘問(wèn)題27-31。多源數(shù)據(jù)挖掘中的模式主要可分為四類:1)局部模式;2)高投票率模式,高投票率模式也就是通常所說(shuō)的被用來(lái)

18、制定全局決策的全局模式;3)異常模式;4)支持模式。通過(guò)比較分析發(fā)現(xiàn),傳統(tǒng)的多源數(shù)據(jù)挖掘技術(shù)對(duì)于鑒定多源數(shù)據(jù)庫(kù)中出現(xiàn)的兩類新的模式(高投票率模式和異常模式)非常不適用。因此,文獻(xiàn)32綜述性的闡述了多源數(shù)據(jù)挖掘中的若干問(wèn)題和難點(diǎn),介紹了多源數(shù)據(jù)挖掘和單源數(shù)據(jù)挖掘的差別,提出了針對(duì)多源數(shù)據(jù)挖掘的基礎(chǔ)框 架MDM和只在多數(shù)據(jù)源挖掘中才可挖掘出的具有深度意義的高投票率模式和異常模式的概 念。新型的多源數(shù)據(jù)挖掘框架MDM對(duì)傳統(tǒng)的多源數(shù)據(jù)挖掘過(guò)程的不足進(jìn)行了改進(jìn),它更關(guān)注于局部模式分析。具體分三步進(jìn)行:1)尋找全部數(shù)據(jù)庫(kù)的較好的分類;2)從局部模式中鑒定出兩種新模式類型:高投票率模式和異常模式;3)根據(jù)權(quán)

19、重合成局部模式。文獻(xiàn)33基于之前工作提出了從多個(gè)統(tǒng)計(jì)類和交易類數(shù)據(jù)庫(kù)中挖掘特性模式的方法。這一特性模式不 同于異常模式,它代表了所有局部數(shù)據(jù)庫(kù)中某一普遍模式。當(dāng)前的局部模式分析可以從多源數(shù)據(jù)庫(kù)中發(fā)現(xiàn)高頻率的模式,但是仍然存在兩個(gè)關(guān)鍵問(wèn) 題妨礙其擴(kuò)展應(yīng)用范圍:1)從因特網(wǎng)收集的數(shù)據(jù)質(zhì)量較低,無(wú)法區(qū)分是否為有用模式,且大多數(shù)據(jù)是不一致的,這就需要分布式數(shù)據(jù)挖掘技術(shù)來(lái)解決,并且必須在數(shù)據(jù)挖掘之前解決 數(shù)據(jù)不一致,于是提出了數(shù)據(jù)預(yù)處理的需求;2)多源數(shù)據(jù)庫(kù)中鑒定出潛在有用模式的有效算法仍未提出,傳統(tǒng)的多源數(shù)據(jù)挖掘是利用單源數(shù)據(jù)挖掘技術(shù)(即將從相關(guān)數(shù)據(jù)源中獲得的 所有數(shù)據(jù)全部聚集到一個(gè)大型數(shù)據(jù)集中進(jìn)行挖

20、掘),這將破壞有用模式,并且利用局部模式分析時(shí),將產(chǎn)生大量局部模式,時(shí)間空間消耗大。傳統(tǒng)的基于支持度的序列模式挖掘不能總 結(jié)出局部信息,效率較低。為了解決這一問(wèn)題,文獻(xiàn)34中提出一個(gè)可選擇的本地挖掘方法在多DB中發(fā)現(xiàn)本地DB中的近似序列模式一一近似序列模式挖掘ApproxMAP算法。該算法的挖掘步驟是:根據(jù)相似度聚合序列;通過(guò)多序列比較從每個(gè)聚群中挖掘一致模式; 針對(duì)人造和真實(shí)數(shù)據(jù)進(jìn)行試驗(yàn)系統(tǒng)研究算法的性能。目前對(duì)于從多源數(shù)據(jù)庫(kù)中挖掘全局關(guān)聯(lián)規(guī)則的方法已經(jīng)有不少學(xué)者研究提出相關(guān)算法。 文獻(xiàn)35提出一種根據(jù)權(quán)重從不同數(shù)據(jù)來(lái)源數(shù)據(jù)庫(kù)中發(fā)掘合成高頻率關(guān)聯(lián)規(guī)則,文獻(xiàn)36是從多數(shù)據(jù)源中鑒定發(fā)現(xiàn)全局異常模

21、式。文獻(xiàn)37提出一種在多源數(shù)據(jù)挖掘庫(kù)中挖掘異常模式的有效策略,其挖掘時(shí)間復(fù)雜度和空間復(fù)雜度分別為20(m nl)和O(mnl),其中m代表數(shù)據(jù)庫(kù)分類個(gè)數(shù),n代表每個(gè)分類中局部模式數(shù),I代表分類中長(zhǎng)度最長(zhǎng)的數(shù)據(jù)庫(kù)的長(zhǎng)度。國(guó)內(nèi)方面 對(duì)于多源數(shù)據(jù)挖掘的研究還很少,文獻(xiàn)38應(yīng)用聚類思想,提出一種獨(dú)立于應(yīng)用的數(shù)據(jù)庫(kù)分類方法,有效的在多源數(shù)據(jù)挖掘初始步驟將多數(shù)據(jù)庫(kù)合理劃分成若干類。文獻(xiàn)39主要針對(duì)多源數(shù)據(jù)挖掘中第三個(gè)步驟模式合成提出了一個(gè)新的算法,對(duì)多源數(shù)據(jù)先進(jìn)行預(yù)處理,選取 有用規(guī)則,刪除掉冗余和噪聲之后,在利用各個(gè)規(guī)則的權(quán)值來(lái)合成多數(shù)據(jù)源中的關(guān)聯(lián)規(guī)則。 文獻(xiàn)40提出了一種基于聚類技術(shù)的多數(shù)據(jù)源記錄匹配

22、算法,該算法運(yùn)用了專門針對(duì)大型數(shù) 據(jù)聚類的罩蓋聚類技術(shù),大大減少了計(jì)算量,提高了多源環(huán)境下記錄匹配的效率。然而對(duì)于從多源數(shù)據(jù)庫(kù)中挖掘出全局序列模式的研究仍舊為空,因此這也是本文和今后 將要研究的重點(diǎn)所在。分析可知,已有的許多著名的序列模式挖掘算法,如GSP41、PrefixSpan42、SPADE43TSPAM44等,都能夠有效的挖掘出滿足最小支持度的序列模式。 可是當(dāng)將這些算法移植到多源數(shù)據(jù)環(huán)境中后,由于序列模式大量積累產(chǎn)生的內(nèi)在局限性使得 這些算法對(duì)于多源數(shù)據(jù)庫(kù)并不適用。主要存在以下三方面問(wèn)題:1 )許多常規(guī)方法挖掘序列模式的完整集合,容易產(chǎn)生大量、瑣碎的短模式,近來(lái)挖掘相對(duì)緊湊的序列模式

23、表達(dá)式已經(jīng) 被逐漸提出45 ; 2)常規(guī)方法挖掘序列模式需要精確匹配,但實(shí)際中并不是所有客戶的購(gòu)買 習(xí)慣都完全相同,必然在模式之間會(huì)存在一定差異度,若只進(jìn)行精確匹配,很容易挖掘出大 量繁復(fù)的無(wú)可借鑒價(jià)值的短模式;3)僅支持度不能夠區(qū)分統(tǒng)計(jì)上顯著的模式和隨機(jī)事件,許多短模式均意外更改,這種機(jī)率發(fā)生比較頻繁。文獻(xiàn)33提出的一些諸如周期性、隨機(jī)依賴關(guān)系和模式等在多源數(shù)據(jù)庫(kù)中都是隱藏不可發(fā)現(xiàn)的,不能夠簡(jiǎn)單的使用單一挖掘方法進(jìn) 行。因此文獻(xiàn)34中提出了可借鑒的近似序列模式匹配算法,即將從各個(gè)局部數(shù)據(jù)庫(kù)中挖掘 出的局部模式做近似匹配,得到具有滿足一定支持度閾值的近似一致模式,以這個(gè)模式作為局部數(shù)據(jù)庫(kù)的代表

24、,來(lái)進(jìn)而構(gòu)造全局模式。并在挖掘中得到高投票率模式和異常模式兩類有 用模式序列。文獻(xiàn)46提出一種針對(duì)多源數(shù)據(jù)環(huán)境的數(shù)據(jù)庫(kù)分類技術(shù)。文中將多數(shù)據(jù)庫(kù)中的 所有局部數(shù)據(jù)庫(kù)根據(jù)其兩兩之間的相似度劃分成若干聚類,再根據(jù)算法得到最優(yōu)分類。實(shí)驗(yàn) 可知,相比較傳統(tǒng)的從每個(gè)局部數(shù)據(jù)庫(kù)中挖掘局部序列模式再進(jìn)行合成的步驟而言,文中提 出的從這些分類中再進(jìn)行局部序列模式挖掘,可以從很大程度上減少搜索代價(jià)。為了在多源 數(shù)據(jù)庫(kù)中挖掘出更加有價(jià)值的信息,發(fā)現(xiàn)高投票率模式和異常模式的局部模式合成技術(shù)已經(jīng) 在很多文獻(xiàn)中被提出,如前面提到的35,36,37等。綜上所述,對(duì)于多源數(shù)據(jù)挖掘的研究,未來(lái)的研究方向?qū)⒃谌绾卧u(píng)估全局序列模式

25、挖掘 和如何在挖掘的同時(shí)保證隱私信息不被泄露??紤]到真實(shí)的攜帶有用全局模式的序列數(shù)據(jù)在 眾多可得到數(shù)據(jù)中都是非常小的,即使在局部序列模式挖掘中其挖掘難度也是非常大的。因 此,未來(lái)對(duì)于全局挖掘算法的更加系統(tǒng)有效的評(píng)估方法還有待研究,并且對(duì)于如何從真實(shí)多 源數(shù)據(jù)庫(kù)中生成有用全局模式還有很大的研究空間。實(shí)際生活中,由于多數(shù)據(jù)源數(shù)據(jù)挖掘和 隱私保護(hù)同樣重要,因此更加需要在多源數(shù)據(jù)環(huán)境下保證數(shù)據(jù)安全,所以今后的研究重點(diǎn)將 在基于隱私保護(hù)技術(shù)的多源數(shù)據(jù)挖掘技術(shù)和方法領(lǐng)域展開(kāi)。(三)選題的研究意義與目的隨著數(shù)據(jù)挖掘技術(shù)的日趨成熟,其應(yīng)用范圍已逐漸從已有的單一數(shù)據(jù)源逐步向多數(shù)據(jù)源 發(fā)展??紤]單數(shù)據(jù)源和多數(shù)據(jù)源

26、差異,針對(duì)多源數(shù)據(jù)庫(kù)獨(dú)有特點(diǎn)提出的多源數(shù)據(jù)挖掘算法和 技術(shù)已經(jīng)是當(dāng)前數(shù)據(jù)挖掘領(lǐng)域的一個(gè)新興研究熱點(diǎn)。然而,分析可知,當(dāng)前已有的多源數(shù)據(jù) 挖掘算法技術(shù)主要存在以下兩方面空缺:一是這些已有算法大多是針對(duì)關(guān)聯(lián)規(guī)則提出的,對(duì) 于帶有時(shí)間順序的序列模式挖掘研究還較少,且只保證挖掘精度而未考慮挖掘速度;二是在 這些已有多源數(shù)據(jù)挖掘算法中幾乎沒(méi)有涉及考慮隱私保護(hù)問(wèn)題。針對(duì)以上兩個(gè)特點(diǎn),本文的 研究一方面著眼于將已有成熟的序列模式挖掘算法進(jìn)行改進(jìn),結(jié)合并行技術(shù)設(shè)計(jì)研究多源環(huán) 境下高效、高準(zhǔn)確度的序列模式挖掘模型和算法,另一方面考慮在多源數(shù)據(jù)挖掘有效高投票 率模式(全局模式)的同時(shí),結(jié)合隱私保護(hù)技術(shù),將敏感序列

27、模式進(jìn)行隱藏,達(dá)到既從多源 數(shù)據(jù)環(huán)境中挖掘有用序列模式,又在一定程度上進(jìn)行敏感信息保護(hù)的目的。(四) 參考文獻(xiàn)1 Jiawei Han, Micheline Kamber. Data Mining Concept and Techniques. 數(shù)據(jù)挖掘概念與技術(shù)M.北京:機(jī)械 工業(yè)出版社,2001.2 Adam N, Wortmann J. Security-control methods for statistical databases:A comp arison studyA. ACMCom pu ting Surveys, 1989, 21(4) :515-556.3 Clifton

28、 C, Kantaricioglou M. Tools for privacy preserving distributed data miningA. ACM SIGKDDEx plorations, 2002, 4(2):28-34.4 R.Agrawal, R.Srikant. P rivacy -p reserving data-miningC. /P roceedings of ACM SIGMOD on Management ofData. Dallas,2000:439-450.5 W.Du, Z.Zhan. Using randomized respo nse techniqu

29、es for p rivacy -p reserving data miningC. /P roceedings ofThe 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Washington DC,2003:505-510.6 Yucel Saygin, Vassilios S.Verykios, Ahmed K.Elmagarmid. Privacy p reserving association rule miningC./P roceedings of the 12th I

30、nternational Worksh op on Research Issues in Data Engineering. 2002:151-158.7 Md. Zahidul Islam, Ljiljana Brankovic. A Framework for P rivacy P reserving Classification in Data MiningC./P roceedings of the second worksh op on Australasian information security, Data Mining and Web Intelligence, and S

31、oftware Internationalisation - V olume 32, P ages 163-168.8 SRM Oliveira, OR Za? ane. Privacy Preserving Frequent Itemset MiningC. /Proceedings of the IEEEinternational conference on Privacy security and data mining - V olume 14, Pages 43-54.9 SRM Oliveira, OR Za? ane. Protecting Sensitive Knowledge

32、 By Data SanitizationC. /Proceedings of the 3th IEEE International Conference on Data Mining(ICDM03), pages 613-616. Nov 2003.10 SRM Oliveira, OR Za? ane. Algorithms for Balancing Privacy and Knowledge Discovery in Association Rule11121314MiningC. /P roceedings of the 7th International Database Engi

33、neering and App lications Symp osium, p ages 54-63. July 2003.劉英華,楊炳儒等.分布式隱私保護(hù)數(shù)據(jù)挖掘研究J.計(jì)算機(jī)應(yīng)用研究.2011,28(10):3607-3609. 張宏壯,王建民.分布式數(shù)據(jù)庫(kù)保持隱私挖掘方法 J.計(jì)算機(jī)工程與設(shè)計(jì).2008, 29(14):3684-3686. 桂瓊,程小輝,饒建輝.基于RSA的隱私保護(hù)關(guān)聯(lián)規(guī)則挖掘算法J.計(jì)算機(jī)工程.2009, 35(17):138-140.余智欣,黃天戍等.一種新型的分布式隱私保護(hù)計(jì)算模型及其應(yīng)用J.西安交通大學(xué)學(xué)報(bào).2007,41(8):955-958.馬進(jìn),李鋒等.分

34、布式數(shù)據(jù)挖掘中基于擾亂的隱私保護(hù)方法J.浙江大學(xué)學(xué)報(bào).2010,44(2):276-282.1516 Ada Wai-Chee Fu, Raymond Chi-Wing Wong, Ke Wang. Privacy -P reserving Frequent P attern Mining AcrossP rivate DatabsesC. /P roceedings of the 5th IEEE International Conference on Data Mining(ICDMO5).Houston. 2005.17 Jen-Wei Huang, Chi-Yao Tseng, Jia

35、n-Chih Ou, Ming-Syan Chen. On P rogressive Sequential P atternMiningC. /CIKM 06. Virginia. 2006.18 Justin Zhan. P rivacy -P reserving Collaborative Sequential Pattern MiningJ. ACM. 2006(06):12-22.192021常鵬.基于隱私保護(hù)的分布式序列模式挖掘算法研究D.江蘇:江蘇大學(xué)碩士學(xué)位論文,2008.陳肇勳.序列模式探勘的隱私保護(hù)D.中國(guó)臺(tái)灣:靜宜大學(xué)碩十學(xué)位論文,2006.朱玉全,胡天寒,陳耿,常鵬.序列

36、模式挖掘中的隱私保護(hù)方法研究J.計(jì)算機(jī)應(yīng)用研究.222009,26:2489-2491.燕彩榮,朱明,史有群.基于隱私保護(hù)的序列模式挖掘J.小型微型計(jì)算機(jī)系統(tǒng).2008,7(7):1241-1244.23華蓓,鐘誠(chéng)等.通過(guò)計(jì)算影響權(quán)值實(shí)現(xiàn)敏感序列模式隱藏J.小型微型計(jì)算機(jī)系統(tǒng).2010,8(8):1647-1651.24 H. Liu, H. Lu, J. Yao. Identifying Relevant Databases for Multi-database MiningC. / Proceedings ofP acific-Asia Conference on Knowledge Di

37、scovery and Data Mining, pages 210-221, 1998.25 J. Yao, H. Liu. Searching Mult iple Databases for Interesting CompI exesC. /P roceedings of PAKDD, p ages198-210, 1997.26 J. Ribeiro, K. Kaufman, L. Kerschberg. Knowledge discovery from mult iple databasesC. /P roceedings ofKDD95, pages 240-245. 1995.2

38、7 J. Chattratichat, etc. Large scale data mining: challenges and respo nsesC. /P roceedings of InternationalConference on Knowledge Discovery and Data Mining, pages 143-146. 1997.28 D. Cheung, J. Han, V. Ng and C. Wong. Maintenance of discovered association rules in large databases: anincremental up

39、 dating techniqueC. /P roceedings of International Conference on Data Engineering, p ages106-114. 1996.29 A. P rodromidis, S. Stolfo. Pru ning meta-classifiers in a distributed data mining systemC. /P roceedings of the1st National Conference on New Information Technologies, pages 151-160. 1998.30 A.

40、 P rodromidis, P. Chan, and S. Stolfo. Meta-learning in distributed data mining systems: Issues andapp roachesJ. In Advances in Distributed and Parallel Knowledge Discovery, H. Kargupta and P. Chan (editors), AAAI/MIT P ress, 2000.31 T. Shintani, M. Kitsuregawa. Parallel mining algorithms for genera

41、lized association p atterns with classificationhierarchyC. / Proceedings of ACM SIGMOD, pages 25-36. 1998.32 S. Zhang, X. Wu, and C. Zhang. Multi-Database MiningJ. In IEEE Comp utational Intelligence Bulletin 2(1):pages 5-13. June 2003.33 N. Zhong, Y . Yao, and S. Ohsuga. Peculiarity oriented multi-

42、database miningC. /Proceedings of PKDD,p ages 136-146. 1999.34 HC Kum, JH Chang, W Wang. Sequential P attern Mining in Multi-Databases via Mult ip le AlignmentJ. DataMining and Knowledge Discovery,12, pages 151-180, 2006.35 X. Wu and S. Zhang. Synthesizing High-Frequency Rules from Different Data So

43、urcesJ. IEEE Trans.Knowledge Data Engineering 15(2): pages 353-367. 2003.36 C. Zhang, M. Liu, W. Nie, and S. Zhang. Identifying Global Exce ptional P atterns in Multi-database MiningJ.In IEEE Comp utational Intelligence Bulletin 3(1): pages 19-24. Feb 2004.37 S. Zhang, C. Zhang, and J. X. Yu. An eff

44、icient strategy for mining exce ptions in multi-databasesJ. In383940Information System 165(1-2): pages 1-20. 2004.唐懿芳,牛力,鐘智.多數(shù)據(jù)庫(kù)挖掘中獨(dú)立于應(yīng)用的數(shù)據(jù)庫(kù)分類研究J.廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版).2003,21(4):32-36.唐懿芳,牛力,張師超.多數(shù)據(jù)源挖掘中的模式合成技術(shù)J.菏澤師專學(xué)報(bào).2002,24(2):1-4.唐懿芳,鐘達(dá)夫,嚴(yán)小衛(wèi).基于聚類模式的多數(shù)據(jù)源記錄匹配算法J.小型微型計(jì)算機(jī).2005,26(9):1546-1550.41 R. Srikan

45、t and R. Agrawal. Mining sequential p atterns: Generalizations and p erformance imp rovementsC./P roceedings of the 6th Intl. Conf Extending Database Technology (EDBT), pages 3-17. Mar 1996.42 J. Pei, J. Han, et al. PrefixS pan: Mining sequential p atterns efficiently by p refix -p rojected p attern

46、 growthC./P roceedings Of International Conference on Data Engineering (ICDE), pages 215-224. April 2001.43 M. J. Zaki. Efficient enumeration of frequent sequencesC. /P roceedings of the 7th International ConferenceInformation and Knowledge Management, p ages 68-75. Nov 1998.44 J. Ayres, J. Flannick

47、, J. Gehrke, T. Yiu. Sequential p attern mining using a bitma p rep resentationC./P roceedings of the ACM International Conference on Knowledge discovery and data mining (SIGKDD),pages 429-435. July 2002.45 X. Yan, J. Han, and R. Afshar. CloS pan: Mining Closed Sequential P atterns in Larege Dataset

48、sC./P roceedings of the 3rd SIAM International Conference on Data Mining (SDM), pages 166-177, San Fransico.CA, 2003.46 X. Wu, C. Zhang, and S. Zhang. Database classification for multi-database miningJ. In Information System30(1): pages 71-88. 2005.二、研究?jī)?nèi)容(解決的問(wèn)題),獨(dú)創(chuàng)或新穎之處,擬采取的研究方法,預(yù)期成果,論文框架(一)研究?jī)?nèi)容(解決的

49、問(wèn)題)1. 研究?jī)?nèi)容與目標(biāo)(1)對(duì)已有的序列模式數(shù)據(jù)挖掘算法和多源數(shù)據(jù)挖掘算法進(jìn)行研究,分析單源和多源數(shù) 據(jù)環(huán)境中數(shù)據(jù)存儲(chǔ)形式及模式的區(qū)別、傳統(tǒng)多源數(shù)據(jù)挖掘過(guò)程中的局限性,根據(jù)局部模式平 均支持度、模式全局支持度,預(yù)期最低支持度等參數(shù),提出一種新的適用于多源數(shù)據(jù)環(huán)境下 的高投票率模式(全局模式)挖掘模型。(2)在(1)的基礎(chǔ)之上,綜合考慮多源序列模式數(shù)據(jù)挖掘特點(diǎn)和并行技術(shù)特點(diǎn),研究 算法的并行化方案,設(shè)計(jì)一種高效率、可擴(kuò)展性好的多源數(shù)據(jù)環(huán)境下高投票率模式(全局模 式)挖掘的算法。(3)在(1)( 2)的基礎(chǔ)上,結(jié)合隱私保護(hù)技術(shù),根據(jù)局部模式平均支持度、模式全局 支持度、敏感模式支持事務(wù)組、非敏

50、感模式權(quán)值和事務(wù)組影響權(quán)值等參數(shù),研究適用于多源 數(shù)據(jù)環(huán)境下的敏感序列模式隱藏方法,設(shè)計(jì)實(shí)現(xiàn)基于隱私保護(hù)的多源數(shù)據(jù)挖掘模型和算法,使得算法既能快速高效挖掘出全局序列模式,又能很好的隱藏敏感序列模式。2. 待解決的關(guān)鍵技術(shù)問(wèn)題(1)分析考慮單源和多源兩種數(shù)據(jù)環(huán)境的主要區(qū)別,結(jié)合現(xiàn)有多源環(huán)境下序列模式挖 掘算法,根據(jù)局部模式平均支持度、模式全局支持度、預(yù)期最低支持度等參數(shù),提出新的加 入并行思想的快速高效的多源數(shù)據(jù)環(huán)境下全局序列模式挖掘模型。(2 )結(jié)合相關(guān)數(shù)據(jù)清洗技術(shù),在對(duì)多源數(shù)據(jù)進(jìn)行挖掘的初始步驟之前,考慮如何消除 各個(gè)數(shù)據(jù)庫(kù)中低于最低支持度的子模式和異常模式,得到“干凈”數(shù)據(jù)庫(kù)。(3)充分利

51、用多源序列模式數(shù)據(jù)挖掘特點(diǎn)和并行技術(shù),設(shè)計(jì)更加高效的在多源環(huán)境下 挖掘全局序列模式的算法??紤]在對(duì)數(shù)據(jù)庫(kù)進(jìn)行劃分過(guò)程中采用何種技術(shù)以達(dá)到劃分效果和 速度最好。(4)如何在快速高效挖掘從多源數(shù)據(jù)環(huán)境中挖掘出全局序列模式的同時(shí),隱藏支持敏感項(xiàng)集的敏感序列模式。根據(jù)局部模式平均支持度、模式全局支持度、敏感模式支持事務(wù)組、 非敏感模式權(quán)值和事務(wù)組影響權(quán)值等參數(shù),設(shè)計(jì)多源環(huán)境下敏感序列模式隱藏模型。(5)在多源序列模式挖掘初始數(shù)據(jù)清洗時(shí)以何種策略刪除支持敏感序列模式的部分或 者全部敏感項(xiàng)集,并在挖掘之后各個(gè)局部模式進(jìn)行合成步驟時(shí)如何解決合成過(guò)程再次出現(xiàn)敏 感序列的情況。(二)獨(dú)創(chuàng)或新穎之處(1)在考慮單

52、源與多源兩種數(shù)據(jù)環(huán)境的主要不同基礎(chǔ)上研究高效的多源環(huán)境下高投票 率模式(全局模式)挖掘技術(shù)。(2)對(duì)多源數(shù)據(jù)挖掘中數(shù)據(jù)清洗和數(shù)據(jù)庫(kù)分類過(guò)程耗時(shí)較大情況下,充分考慮多源數(shù) 據(jù)庫(kù)分布存儲(chǔ)特性,通過(guò)設(shè)計(jì)有效方法在共享存儲(chǔ)機(jī)器系統(tǒng)上進(jìn)行并行執(zhí)行清洗和分類過(guò)程 來(lái)提高算法的挖掘效率。(3)根據(jù)局部模式平均支持度、模式全局支持度、敏感模式支持事務(wù)組、非敏感模式 權(quán)值和事務(wù)組影響權(quán)值等參數(shù),研究提出基于隱私保護(hù)的多源數(shù)據(jù)挖掘模型,設(shè)計(jì)實(shí)現(xiàn)高效 和高保護(hù)精度的多源環(huán)境下敏感序列隱藏算法。(三)擬采取的研究方法(1)對(duì)已有的單源環(huán)境下的序列模式挖掘算法、多源數(shù)據(jù)挖掘算法進(jìn)行研究和分析, 針對(duì)多源數(shù)據(jù)環(huán)境特點(diǎn),借

53、鑒已有的多源序列模式挖掘算法,對(duì)其進(jìn)行并行化,設(shè)計(jì)多源全 局序列模式挖掘模型,使得在保證挖掘準(zhǔn)確度的同時(shí)盡可能提高挖掘速度。(2)利用并行技術(shù),在已設(shè)計(jì)出的多源序列模式挖掘模型基礎(chǔ)上,研究設(shè)計(jì)高效率、 可擴(kuò)展性好的多源全局序列模式挖掘算法。通過(guò)挖掘準(zhǔn)確度和挖掘速度與已有算法進(jìn)行對(duì)比 實(shí)驗(yàn)分析。(3)結(jié)合隱私保護(hù)技術(shù),根據(jù)局部模式平均支持度、模式全局支持度、敏感模式支持 事務(wù)組、非敏感模式權(quán)值和事務(wù)組影響權(quán)值等參數(shù),設(shè)計(jì)針對(duì)多源數(shù)據(jù)挖掘的敏感序列隱藏 模型。(4)針對(duì)敏感序列和多源數(shù)據(jù)環(huán)境特性,研究提出適用于多源數(shù)據(jù)環(huán)境下的基于隱私 保護(hù)技術(shù)的敏感序列模式隱藏算法。結(jié)合單源隱私保護(hù)數(shù)據(jù)挖掘算法有

54、效性的評(píng)估指標(biāo)(隱 藏失敗率、誤隱藏率、偽模式率)來(lái)評(píng)估本文提出的多源環(huán)境下基于隱私保護(hù)的序列模式挖 掘算法。(5)在多核計(jì)算機(jī)、LinUX操作系統(tǒng)上,采用 C語(yǔ)言和OpenMP并行編程的方法實(shí)現(xiàn)所提出的基于隱私保護(hù)的多源數(shù)據(jù)挖掘高效算法,利用IBM公司的人工數(shù)據(jù)生成器 AssocGen自動(dòng)生成若干包含不同序列模式和最小支持度的數(shù)據(jù)庫(kù)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),記錄實(shí)驗(yàn)結(jié)果,與已有多源序列模式挖掘算法進(jìn)行算法速度和準(zhǔn)確度比較,并根據(jù)隱私保護(hù)數(shù)據(jù)挖 掘算法的若干評(píng)估指標(biāo)進(jìn)行實(shí)驗(yàn)性能測(cè)試與分析評(píng)估算法對(duì)于敏感模式的隱藏情況。(四)預(yù)期成果(1)根據(jù)局部模式平均支持度、模式全局支持度、預(yù)期最低支持度等參數(shù),建立適用 于多數(shù)據(jù)源環(huán)境下的全局序列模式挖掘數(shù)學(xué)模型,旨在保證高準(zhǔn)確度挖掘的前提下更快速的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論