




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、FP-Growth聯(lián)絡(luò)閉系算法利用研討摘要聯(lián)絡(luò)閉系規(guī)矩挖客用于從年夜量數(shù)據(jù)中隱現(xiàn)項(xiàng)散之間的幽默聯(lián)絡(luò)閉系或閉連聯(lián)絡(luò),是數(shù)據(jù)挖客的一項(xiàng)慌張研討內(nèi)容。本文起尾對(duì)FP-Grth算法停頓闡收,然后利用該算法闡收散類成果中的門死簇與該簇門死所具有果素的聯(lián)絡(luò)閉系閉連,理論證年夜黑該算法具有較強(qiáng)的有用性。閉鍵詞數(shù)據(jù)挖客;聯(lián)絡(luò)閉系闡收;頻繁形式;FP-Tree1引止聯(lián)絡(luò)閉系規(guī)矩(AssiatinRules)挖客是數(shù)據(jù)挖客研討范疇的一個(gè)慌張研討標(biāo)的目的,它由好國IBAladenResearhenter的RakeshA-Graal等人于1993年起尾提出,是描摹數(shù)據(jù)庫中數(shù)據(jù)項(xiàng)之間存正在的一些埋伏閉連的規(guī)矩。2聯(lián)絡(luò)閉
2、系闡收沒有俗觀面設(shè)I=I1,I2,I是項(xiàng)的靠攏,D=T1,T2,Tn是一個(gè)事變數(shù)據(jù)庫,其中每個(gè)事變T是項(xiàng)的靠攏,使得TI。每個(gè)事變有一個(gè)標(biāo)識(shí)符,稱為TID。假設(shè)I的一個(gè)子散X謙意XT,那么稱事變T包羅工程散X。一個(gè)聯(lián)絡(luò)閉系規(guī)矩便是形如X=Y的蘊(yùn)涵式,XI、YI、XY=。規(guī)矩XY正在生意營業(yè)數(shù)據(jù)庫中的支撐度(supprt)便是生意營業(yè)會(huì)開包羅X戰(zhàn)Y的生意營業(yè)數(shù)與局部生意營業(yè)數(shù)之比,記為supprt(XY),即supprt(XY)=T:XYT,TD/D。規(guī)矩X=Y正在生意營業(yè)數(shù)據(jù)庫中的置疑度(nfidene)是指包羅X戰(zhàn)Y的生意營業(yè)數(shù)與包羅X的生意營業(yè)數(shù)之比,記為nfidene(X=Y),即nfi
3、dene(X=Y)=T:XYT,TD/T:XT,TD。支撐度戰(zhàn)置疑度是描摹聯(lián)絡(luò)閉系規(guī)矩的兩個(gè)慌張沒有俗觀面,前者用于權(quán)衡聯(lián)絡(luò)閉系規(guī)矩正在全部數(shù)據(jù)會(huì)開的統(tǒng)計(jì)慌張性,后者用于權(quán)衡聯(lián)絡(luò)閉系規(guī)矩的可疑程度。一樣平常去道,只要支撐率戰(zhàn)置疑度均較下的聯(lián)絡(luò)閉系規(guī)矩才年夜要是用戶感愛好、有用的聯(lián)絡(luò)閉系規(guī)矩。聯(lián)絡(luò)閉系規(guī)矩的挖客是一個(gè)兩步的歷程:(1)覓出局部的頻繁項(xiàng)散:根據(jù)定義,那些項(xiàng)散呈現(xiàn)的頻繁性最少即是預(yù)定義的最小支撐度計(jì)數(shù)。(2)由頻繁項(xiàng)散收死強(qiáng)聯(lián)絡(luò)閉系規(guī)矩:根據(jù)定義,那些規(guī)矩必需謙意最小支撐度戰(zhàn)最小置疑度。正在以上兩個(gè)步伐中,第兩步較簡單,挖客聯(lián)絡(luò)閉系規(guī)矩的整體機(jī)能由第一步?jīng)Q議。3FP-Grth聯(lián)絡(luò)閉系
4、算法闡收針對(duì)典范聯(lián)絡(luò)閉系A(chǔ)priri算法的固出缺點(diǎn),收死了候選挖客頻繁項(xiàng)散的要收FP-Grth算法。FP-Grth算法采納分而治之的計(jì)謀,正在經(jīng)過第一遍掃描以后,把數(shù)據(jù)庫中的頻繁項(xiàng)散松縮到一棵頻繁形式樹(FP-Tree),同時(shí)如故保存其中的聯(lián)絡(luò)閉系疑息,隨后再將FP-Tree分化成一些前提數(shù)據(jù)庫,每個(gè)前提數(shù)據(jù)聯(lián)絡(luò)閉系一個(gè)頻繁項(xiàng),然后再別離對(duì)那些前提庫停頓挖客。FP-Grth算法將創(chuàng)制少頻繁形式的題目成績轉(zhuǎn)換為遞回天創(chuàng)制一些短形式,然后毗鄰后綴。它利用最沒有頻繁的項(xiàng)做為后綴,供給了好的挑選性。FP-Grth算法焦頷收袖以下所示:輸進(jìn):事變數(shù)據(jù)庫D;最小支撐度閾值in_sup。輸出:頻繁形式的完好
5、散。要收:(1)構(gòu)制FP-Tree。掃描事變數(shù)據(jù)庫D一次。搜集頻繁項(xiàng)的靠攏F戰(zhàn)它們的支撐度。對(duì)F按支撐度降序排序,成果為頻繁項(xiàng)表L。創(chuàng)立FP-Tree的根節(jié)面,以“NULL標(biāo)識(shí)表記標(biāo)幟它。塞責(zé)D中每個(gè)事變Trans,嘗試:挑選Trans的頻繁項(xiàng),并根據(jù)L中的次第排序。設(shè)排序后的頻繁項(xiàng)表為p|P,其中p是第一個(gè)元素,而P是盈余元素的表。挪用insert_tree(p|P,T)。該歷程嘗試歷程以下:假設(shè)T有后代N使得N.ite-nae=p.ite-nae,那么N的計(jì)數(shù)刪減1,沒有然創(chuàng)立一個(gè)新節(jié)面N,將其計(jì)數(shù)設(shè)置為1,鏈接到它的女節(jié)面T,而且經(jīng)由過程節(jié)面鏈構(gòu)制將其鏈接到具有相似ite-nae的節(jié)面。
6、假設(shè)P非空,遞回天挪用insert_tree(P,N)。(2)經(jīng)由過程挪用FP-Grth(FP-Tree,null)真現(xiàn)FP-Tree的挖客。該歷程真現(xiàn)以下:PredureFP-Grth(Tree,)ifTree露單個(gè)途徑Pthenfr途徑P中節(jié)面的每個(gè)組開(記做)收死形式,其支撐度supprt=中節(jié)面的最小支撐度;elsefreahi正在Tree的頭部收死一個(gè)形式=i,其支撐度supprt=i.supprt;構(gòu)制的前提形式基,然后構(gòu)制的前提FP-Tree;ifTreethen挪用FP-Grth(Tree,);對(duì)FP-Tree要收的機(jī)能研討表黑:塞責(zé)挖客少戰(zhàn)短的頻繁形式,它皆是有用戰(zhàn)可伸縮的,
7、而且比Apriri要收快了1個(gè)數(shù)量級(jí)。4利用真現(xiàn)本文慌張是將FP-Grth算法利用到我校門死成果數(shù)據(jù)庫中,正在門死成果散類的底子上對(duì)門死成果的散類簇與門死的內(nèi)外部果素停頓聯(lián)絡(luò)閉系闡收。4.1聯(lián)絡(luò)閉系闡收目的如古我校里臨的教務(wù)處門死成果數(shù)據(jù)庫是一個(gè)多維的閉連數(shù)據(jù)庫,我們火急需要從那些海量數(shù)據(jù)中創(chuàng)制埋伏的有用疑息去輔佐教教局部把握更多的門死疑息。基于此,根據(jù)門死的成果疑息對(duì)門死散類,那些散類疑息反響了門死進(jìn)修成果的降降降沉等進(jìn)修狀況,連開門死的散類疑息與門死果素沒有俗觀察表疑息,采納聯(lián)絡(luò)閉系挖客妙技闡收每類門死的門死成果與其內(nèi)外部果素間的聯(lián)絡(luò)閉系疑息,進(jìn)而闡收獲得影響門死進(jìn)修的果素。4.2算法真現(xiàn)
8、定義頻繁節(jié)面構(gòu)制,用以構(gòu)制頻繁一次項(xiàng)的降序枚舉typedefstrutItede/SrtIteintunt;/頻繁度intPsitin;/排序地位Itede*Next;/下一個(gè)節(jié)面的所正在StringData;/節(jié)面值Itede;Itede*GetIte(StringTableNae,intSupprt,intNuber,intluNu);/由數(shù)據(jù)庫獲得已排序頻繁一項(xiàng)散節(jié)面鏈,并返回憶節(jié)面;vidGetSrtIte(Itede*pHeadIte);/對(duì)頻繁一項(xiàng)散排序;vidreateFPTree(StringTableNae,TreetrlTepTree,TreetrlTreepy,blSrt
9、,intNuber,intluNu);/根據(jù)頻繁項(xiàng)排序創(chuàng)立FP-Tree;vidGetFPIte(TreetrlTepTree,ListBxLBx,intSupprt,intNuber,intluNu);/按Supprt的支撐度對(duì)TepTree的FP-Tree停頓聯(lián)絡(luò)閉系闡收,獲得頻繁項(xiàng)暗示正在LBx;vidSaveResultTDB();/保存頻繁項(xiàng)散成果到數(shù)據(jù)庫;vidputeAssiate(intNuber,intluNu);/策畫聯(lián)絡(luò)閉系開果的閉連闡收值;vidShInhart(AtiveFrharthart,intNuber,intluNu,intIndex);/將挖客成果暗示正在h
10、art中;4.3挖客成果為了深化理解門死所處的內(nèi)外部果素對(duì)門死成果的影響,將別離對(duì)每個(gè)簇的門死所處的內(nèi)外部果素停頓聯(lián)絡(luò)閉系挖客,以獵與每個(gè)簇門死所處內(nèi)外部果素間的聯(lián)絡(luò)閉系閉連,別離對(duì)每個(gè)簇門死的內(nèi)外部果素采納FP-Grth革新算法停頓聯(lián)絡(luò)閉系挖客,因?yàn)橹味扔?jì)數(shù)是與題目成績域閉連的,用戶可挑選差異的支撐度計(jì)數(shù)嘗試,我們正在那里支撐度計(jì)數(shù)拔與為5。局部簇構(gòu)制FP-Tree如圖1所示,果篇幅有限,只枚舉有代表意義的聯(lián)絡(luò)閉系項(xiàng)。圖1天死的FP-Tree(灰色是頻繁項(xiàng))5完畢語對(duì)該算法的研討戰(zhàn)利用可以看出算法具有很強(qiáng)的有用性。本文對(duì)聯(lián)絡(luò)閉系挖客中支撐度、置疑度的挑選出有停頓深化的研討,因?yàn)槿?zé)一組給定的樣本,因?yàn)槿鄙俳?jīng)歷或詳細(xì)的題目成績域差異等此外去由原果招致事前沒有克沒有及公平天對(duì)散類數(shù)量K、支撐度、置疑度的與值,那是一個(gè)比力棘腳的題目成績,如古閉于那圓里研討的材料文獻(xiàn)較少,果而將此題目成績做為下一步研討的標(biāo)的目的具有慌張的理想意義。參考文獻(xiàn)1減JiaEiHanihelineKaber,范明,孟小峰等譯.數(shù)據(jù)挖客沒有俗觀面與妙技.北京:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 課題申報(bào)書 周以華
- 初中課題立項(xiàng)申報(bào)書
- 廠房委托招商合同范本
- 省級(jí)高校教改課題申報(bào)書
- 醫(yī)療維修托管合同范本
- 咨詢產(chǎn)品服務(wù)合同范本
- 美學(xué)課題申報(bào)書格式要求
- 研究生課題申報(bào)書分工
- 出境加工合同范例
- 關(guān)于郵寄合同范本
- 認(rèn)識(shí)常用電子元件圖解課件
- 2025年鐵嶺衛(wèi)生職業(yè)學(xué)院單招職業(yè)技能測(cè)試題庫1套
- 2025年黑龍江商業(yè)職業(yè)學(xué)院單招職業(yè)技能測(cè)試題庫及參考答案
- GB/T 20840.10-2025互感器第10部分:低功率無源電流互感器的補(bǔ)充技術(shù)要求
- 稅法(第5版) 課件 第13章 印花稅
- 建加油站申請(qǐng)書
- 2024-2025學(xué)年廣州市高二語文上學(xué)期期末考試卷附答案解析
- 課題申報(bào)參考:中外文藝交流互鑒研究
- 少年商學(xué)院《DeepSeek中小學(xué)生使用手冊(cè)》
- 2025年山東鋁業(yè)職業(yè)學(xué)院高職單招職業(yè)技能測(cè)試近5年常考版參考題庫含答案解析
- 2025年上半年天津中煤進(jìn)出口限公司招聘電力及新能源專業(yè)人才易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
評(píng)論
0/150
提交評(píng)論