2023學(xué)年完整公開(kāi)課版13關(guān)聯(lián)分析_第1頁(yè)
2023學(xué)年完整公開(kāi)課版13關(guān)聯(lián)分析_第2頁(yè)
2023學(xué)年完整公開(kāi)課版13關(guān)聯(lián)分析_第3頁(yè)
2023學(xué)年完整公開(kāi)課版13關(guān)聯(lián)分析_第4頁(yè)
2023學(xué)年完整公開(kāi)課版13關(guān)聯(lián)分析_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

項(xiàng)目三

回歸和聚類《物流人工智能技術(shù)》任務(wù)二關(guān)聯(lián)分析2目錄/CONTENTS01關(guān)聯(lián)分析概述02關(guān)聯(lián)分析的評(píng)估指標(biāo)【知識(shí)目標(biāo)】1.了解關(guān)聯(lián)分析的應(yīng)用領(lǐng)域;2.掌握關(guān)聯(lián)分析的評(píng)估指標(biāo)?!厩楦心繕?biāo)】1.具有工匠精神、服務(wù)意識(shí)、環(huán)保意識(shí)、質(zhì)量意識(shí)、安全意識(shí);2.培養(yǎng)獨(dú)立獲取信息和自學(xué)能力;3.堅(jiān)定擁護(hù)中國(guó)共產(chǎn)黨領(lǐng)導(dǎo)和我國(guó)社會(huì)主義制度?!窘虒W(xué)目標(biāo)】關(guān)聯(lián)分析(AssociationAnalysis)用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的有意義的聯(lián)系。所發(fā)現(xiàn)的聯(lián)系可以用關(guān)聯(lián)規(guī)則(Associationrule)或頻繁項(xiàng)集的形式表示。例如,從表6-1所示的數(shù)據(jù)中可以提取如下規(guī)則:{尿布}→{啤酒}該規(guī)則表明尿布和啤酒的銷售之間存在著很強(qiáng)的聯(lián)系,因?yàn)樵S多購(gòu)買(mǎi)尿布的顧客也購(gòu)買(mǎi)啤酒。零售商們可以使用這類規(guī)則,幫助他們發(fā)現(xiàn)新的交叉銷售商機(jī)。表6-1購(gòu)物籃事務(wù)的例子TID項(xiàng)集1{面包,牛奶}2{面包,尿布,啤酒,雞蛋}3{牛奶,尿布,啤酒,可樂(lè)}4{面包,牛奶,尿布,啤酒}5{面包,牛奶,尿布,可樂(lè)}一、關(guān)聯(lián)分析概述除了購(gòu)物籃數(shù)據(jù)外,關(guān)聯(lián)分析也可以應(yīng)用于其他領(lǐng)域,如生物信息學(xué)、醫(yī)療診斷、網(wǎng)頁(yè)挖掘和科學(xué)數(shù)據(jù)分析等。例如,在地球科學(xué)數(shù)據(jù)分析中,關(guān)聯(lián)模式可以揭示海洋、陸地和大氣過(guò)程之間的有趣聯(lián)系。購(gòu)物籃數(shù)據(jù)生物信息學(xué)醫(yī)療診斷網(wǎng)頁(yè)挖掘科學(xué)數(shù)據(jù)分析一、關(guān)聯(lián)分析概述表6-1給出一個(gè)這種數(shù)據(jù)的例子,通常稱作購(gòu)物籃事務(wù)(marketbaskettransaction)。表中每一行對(duì)應(yīng)一個(gè)事務(wù),包含一個(gè)唯一標(biāo)識(shí)TD和給定顧客購(gòu)買(mǎi)的商品的集合。零售商對(duì)分析這些數(shù)據(jù)很感興趣,以便了解他們的顧客的購(gòu)買(mǎi)行為??梢允褂眠@種有價(jià)值的信息來(lái)支持各種商務(wù)應(yīng)用,如市場(chǎng)促銷、庫(kù)存管理和顧客關(guān)系管理等。TID項(xiàng)集1{面包,牛奶}2{面包,尿布,啤酒,雞蛋}3{牛奶,尿布,啤酒,可樂(lè)}4{面包,牛奶,尿布,啤酒}5{面包,牛奶,尿布,可樂(lè)}一、關(guān)聯(lián)分析概述在對(duì)購(gòu)物籃數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析時(shí),需要處理兩個(gè)關(guān)鍵的問(wèn)題:關(guān)聯(lián)規(guī)則是形如X→Y的蘊(yùn)含表達(dá)式,X和Y是不相交的項(xiàng)集,即X∩Y=?。關(guān)聯(lián)規(guī)則的強(qiáng)度可以用它的支持度和置信度度量。支持度確定規(guī)則可以給定數(shù)據(jù)集的頻繁程度,而置信度確定Y在包含X的事務(wù)中出現(xiàn)的頻繁程度。第一,從大型事務(wù)數(shù)據(jù)集中發(fā)現(xiàn)模式可能在計(jì)算上要付出很高的代價(jià);第二,所發(fā)現(xiàn)的某些模式可能是虛假的,因?yàn)樗鼈兛赡苁桥既话l(fā)生的。關(guān)鍵的問(wèn)題:一、關(guān)聯(lián)分析概述1.支持度項(xiàng)集令/={t1,t2,…,td}是購(gòu)物籃數(shù)據(jù)中所有項(xiàng)的集合,而T={t1,t2,…,tN}是所有事務(wù)的集合。每個(gè)事務(wù)ti含的項(xiàng)集都是/的子集。在關(guān)聯(lián)分析中,包含0個(gè)或多個(gè)項(xiàng)的集合被稱為項(xiàng)集(itemset)。如果一個(gè)項(xiàng)集包含k個(gè)項(xiàng),則稱它為k-項(xiàng)集。例如,{啤酒,尿布,牛奶}是個(gè)3-項(xiàng)集。空集是指不包含任何項(xiàng)的項(xiàng)集。二、關(guān)聯(lián)分析的評(píng)估指標(biāo)支持度計(jì)數(shù)事務(wù)的寬度定義為事務(wù)中出現(xiàn)項(xiàng)的個(gè)數(shù)。如果項(xiàng)集Ⅹ是事務(wù)t的子集,則稱事務(wù)t包括項(xiàng)集Ⅹ。例如,在表6-2中第二個(gè)事務(wù)包括項(xiàng)集{面包,尿布},但不包括項(xiàng)集{面包,牛奶}。項(xiàng)集的一個(gè)重要性質(zhì)是它的支持度計(jì)數(shù),即包含特定項(xiàng)集的事務(wù)個(gè)數(shù)。數(shù)學(xué)上,項(xiàng)集X的支持度計(jì)數(shù)a(Ⅹ)可以表示為式(6-1)其中,符號(hào)||表示集合中元素的個(gè)數(shù)。在表6-2顯示的數(shù)據(jù)集中,項(xiàng)集{啤酒,尿布,牛奶}的支持度計(jì)數(shù)為2,因?yàn)橹挥?個(gè)事務(wù)同時(shí)包含這3個(gè)項(xiàng)。支持度(s)的形式定義如式(6-2)二、關(guān)聯(lián)分析的評(píng)估指標(biāo)如上面舉的例子,考慮規(guī)則{牛奶,尿布}→{啤酒}。由于項(xiàng)集{牛奶,尿布,啤酒}的支持度計(jì)數(shù)是2,而事務(wù)的總數(shù)是5,所以規(guī)則的支持度為2/5=0.4。支持度是一種重要度量,因?yàn)橹С侄群艿偷囊?guī)則可能只是偶然出現(xiàn)。從商務(wù)角度來(lái)看,低支持度的規(guī)則多半也是無(wú)意義的,因?yàn)閷?duì)顧客很少同時(shí)購(gòu)買(mǎi)的商品進(jìn)行促銷可能并無(wú)益處。因此,支持度通常用來(lái)刪去那些無(wú)意義的規(guī)則。此外,支持度還具有一種期望的性質(zhì),可以用于關(guān)聯(lián)規(guī)則的有效發(fā)現(xiàn)。二、關(guān)聯(lián)分析的評(píng)估指標(biāo)2.置信度置信度(c)的形式定義如式(6-3)如例【6.1】中,規(guī)則的置信度是項(xiàng)集{牛奶,尿布,啤酒}的支持度計(jì)數(shù)與項(xiàng)集{牛奶,尿布}支持度計(jì)數(shù)的商。由于存在3個(gè)事務(wù)同時(shí)包含牛奶和尿布,所以該規(guī)則的置信度為2/3=0.67。為什么使用置信度?置信度度量通過(guò)規(guī)則進(jìn)行推理具有可靠性。對(duì)于給定的規(guī)則Ⅹ→Y,置信度越高,Y在包含X的事務(wù)中出現(xiàn)的可能性就越大,置信度也可以估計(jì)Y在給定X下的條件概率。二、關(guān)聯(lián)分析的評(píng)估指標(biāo)3.算法復(fù)雜度同一問(wèn)題可用不同算法解決,而一個(gè)算法的質(zhì)量?jī)?yōu)劣將影響到算法乃至程序的效率算法分析的目的在于選擇合適的算法和改進(jìn)算法。算法評(píng)價(jià)主要應(yīng)從時(shí)間復(fù)雜度和空間復(fù)雜度兩方面來(lái)考慮。時(shí)間復(fù)雜度空間復(fù)雜度二、關(guān)聯(lián)分析的評(píng)估指標(biāo)一個(gè)算法中的語(yǔ)句執(zhí)行次數(shù)稱為語(yǔ)句頻度或時(shí)間頻度,記為T(mén)(n)。算法的時(shí)間復(fù)雜度是指執(zhí)行算法所需要的計(jì)算工作量。在剛才提到的時(shí)間頻度中,n稱為問(wèn)題的規(guī)模,當(dāng)n不斷變化時(shí),時(shí)間頻度T(n)也會(huì)不斷變化。但有時(shí)我們想知道它變化時(shí)呈現(xiàn)什么規(guī)律。為此,我們引入時(shí)間復(fù)雜度概念。二、關(guān)聯(lián)分析的評(píng)估指標(biāo)在各種不同算法中,若算法中語(yǔ)句執(zhí)行次數(shù)為—個(gè)常數(shù),則時(shí)間復(fù)雜度為o(1);另外,在時(shí)間頻度不相同時(shí),時(shí)間復(fù)雜度有可能相同,如T(n)=n2+3n+4與T(n)=4n2+2n+1,它的頻度不同,但時(shí)間復(fù)雜度相同,都為o(n2)。與時(shí)間復(fù)雜度類似,空間復(fù)雜度是指算法在計(jì)算機(jī)內(nèi)執(zhí)行時(shí)所需存儲(chǔ)空間的度量。記作:S(n)=o[f(n)]。一般情況下,算法中基本操作重復(fù)執(zhí)行的次數(shù)是問(wèn)題規(guī)模n的某函數(shù),用T(n)表示,若有某個(gè)輔助函數(shù)f(n),使得當(dāng)n趨近于無(wú)窮大時(shí),T(n)/f(n)的極限值為不等于零的常數(shù),則稱f(n)是T(m)的同數(shù)量級(jí)函數(shù)。記作T(n)=o[f(n)],稱o[f(n)]為算法的漸進(jìn)時(shí)間復(fù)雜度,簡(jiǎn)稱時(shí)間復(fù)雜度。二、關(guān)聯(lián)分析的評(píng)估指標(biāo)算法執(zhí)行期間所需要的存儲(chǔ)空間包括3個(gè)部分:在許多實(shí)際問(wèn)題中,為了減少算法所占的存儲(chǔ)空間,通常采用壓縮存儲(chǔ)技術(shù)。123算法程序所占的空間;輸入的初始數(shù)據(jù)所占的存儲(chǔ)空間;算法執(zhí)行過(guò)程中所需要的額外空間。二、關(guān)聯(lián)分析的評(píng)估指標(biāo)17關(guān)聯(lián)分析關(guān)聯(lián)分析概述關(guān)聯(lián)分析用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的有意義的聯(lián)系。所發(fā)現(xiàn)的聯(lián)系可以用關(guān)聯(lián)規(guī)則或頻繁項(xiàng)集的形式表示。關(guān)聯(lián)分析的評(píng)估指標(biāo)1.支持度2.置信度3.

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論