第三章電子商務(wù)信息搜集10-09_第1頁(yè)
第三章電子商務(wù)信息搜集10-09_第2頁(yè)
第三章電子商務(wù)信息搜集10-09_第3頁(yè)
第三章電子商務(wù)信息搜集10-09_第4頁(yè)
第三章電子商務(wù)信息搜集10-09_第5頁(yè)
已閱讀5頁(yè),還剩91頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章電子商務(wù)信息搜集主要內(nèi)容3.1、電子商務(wù)信息搜集途徑3.2、Web2.0環(huán)境下電子商務(wù)信息搜集3.3、關(guān)鍵績(jī)效指標(biāo)信息3.4、電子商務(wù)信息數(shù)據(jù)挖掘2023/2/513.1.1搜索引擎搜索引擎采用“機(jī)器人”、“蜘蛛”、“爬蟲(chóng)”等軟件不間斷地在網(wǎng)上抓取網(wǎng)頁(yè)信息,并建立相應(yīng)索引數(shù)據(jù)庫(kù),從而實(shí)現(xiàn)對(duì)用戶(hù)提出的各種查詢(xún)做出響應(yīng)。

美國(guó):google、雅虎等

中國(guó):百度、搜狗等2023/2/523.1電子商務(wù)信息搜集途徑搜索引擎基本結(jié)構(gòu)數(shù)據(jù)采集:Robot定期對(duì)Web站點(diǎn)的網(wǎng)頁(yè)進(jìn)行遍歷,將搜集的頁(yè)面信息存入到“網(wǎng)頁(yè)數(shù)據(jù)庫(kù)”標(biāo)注索引:對(duì)搜集數(shù)據(jù)的內(nèi)容分析和分詞,構(gòu)建倒排索引表數(shù)據(jù)檢索:根據(jù)用戶(hù)查詢(xún)請(qǐng)求,在索引庫(kù)中查詢(xún)匹配2023/2/532023/2/54Robot搜集數(shù)據(jù)庫(kù)Indexer索引數(shù)據(jù)庫(kù)UserProfile檢索器用戶(hù)接口數(shù)據(jù)挖掘Web1)標(biāo)注索引2023/2/55例:0號(hào)文件內(nèi)容:itiswhatitis1號(hào)文件內(nèi)容:whatitis2號(hào)文件內(nèi)容:itisabanana倒排序列表如作圖所示:

2023/2/56分詞文件序號(hào)a2banana2is0,1,2it0,1,2what0,1若檢索條件是:

“what”*“is”*“it”{0,1}∩{0,1,2}{0,1,2}={0,1}2023/2/57例:0號(hào)文件內(nèi)容:重慶南方翻譯學(xué)院1號(hào)文件內(nèi)容:重慶南方集團(tuán)2號(hào)文件內(nèi)容:渝北回興南方翻譯學(xué)院則其倒排列表為:2023/2/58分詞結(jié)果文件序號(hào)

重慶0,1

南方0,1,2

翻譯0,2

學(xué)院0,2

集團(tuán)1渝北2回興2

檢索條件檢索結(jié)果

“南方”*“學(xué)院”{0,1,2}∩{0,2}={0,2}“重慶”*“集團(tuán)”{0,1}∩{1}={1}“回興”+“重慶”{2}∪{0,1}={0,1,2}2023/2/592)檢索表達(dá)式構(gòu)造方法(i)布爾邏輯檢索策略檢索符:*,+,-(ii)截詞檢索策略檢索符:*(任意多個(gè)字符),

?(任意一個(gè)字符)比如:張*,張?(iii)限制檢索策略“Title”,

”keywords”,”mp3”,”author”2023/2/510(iv)位置邏輯檢索策略

常用檢索符:W,N,FWith(W):A(nW)B表示詞A與詞B之間最多可以插入n個(gè)其他詞,詞A與詞B前后順序不變;Near(N):A(nN)B表示詞A與詞B之間最多可以插入n個(gè)其他詞,詞A與詞B不必保持前后順序;2023/2/511

Field(F):A(F)B表示詞A與詞B必須同時(shí)出現(xiàn)在一個(gè)字段中,如同時(shí)出現(xiàn)在摘要,關(guān)鍵字,篇名中;各詞之間可以插入任意個(gè)其他詞,詞序任意變化;2023/2/5123.1.2目錄檢索雅虎,galaxy,搜狐,美國(guó)虛擬圖書(shū)館等,按類(lèi)別提供相應(yīng)的網(wǎng)絡(luò)資源地址3.1.3網(wǎng)絡(luò)站點(diǎn)3.1.4網(wǎng)絡(luò)數(shù)據(jù)庫(kù)知網(wǎng),萬(wàn)方,維普等3.1.5隱形網(wǎng)絡(luò)2023/2/5133.2、Web2.0環(huán)境下電子商務(wù)信息搜集Web2.0環(huán)境下搜集方式1)blog:網(wǎng)絡(luò)日志,以網(wǎng)絡(luò)作為載體,用戶(hù)對(duì)相關(guān)話(huà)題發(fā)表自己的觀(guān)點(diǎn),及時(shí)與他人交流的個(gè)性化平臺(tái)。主要通過(guò)企業(yè)和公司的博客獲得有價(jià)值商務(wù)信息。2023/2/5142)Tag:是更為有趣、靈活的分類(lèi)方式,通過(guò)對(duì)文檔日志添加不同的標(biāo)簽實(shí)現(xiàn)多種分類(lèi)。比如:您寫(xiě)了一篇北京旅游的日志,原先都放到自己的“游記”分類(lèi)下,但是有了Tag之后,您可以給這篇日志同時(shí)加上“旅游”,“北京”,“天安門(mén)”,“長(zhǎng)城”等幾個(gè)Tag,當(dāng)瀏覽者點(diǎn)擊任意一個(gè)Tag時(shí),都會(huì)看到您的日志。2023/2/515RSS(RichSiteSummary):豐富的站點(diǎn)摘要2023/2/516

常用的RSS閱讀器Googlereader新浪點(diǎn)點(diǎn)通閱讀器AbotNewsReader2023/2/5173.3、關(guān)鍵績(jī)效指標(biāo)信息2023/2/518網(wǎng)站類(lèi)型

網(wǎng)站經(jīng)營(yíng)內(nèi)容關(guān)鍵績(jī)效指標(biāo)

電子交易網(wǎng)站網(wǎng)絡(luò)購(gòu)物成交數(shù)量平均單筆成交額平均單筆成交品種注冊(cè)登錄分布業(yè)務(wù)統(tǒng)計(jì)離線(xiàn)交易頻率新老訪(fǎng)客比

品牌推介網(wǎng)站吸引客戶(hù)認(rèn)識(shí)、接納特定品牌的商品平均逗留時(shí)間訪(fǎng)問(wèn)深度訪(fǎng)問(wèn)間隔訪(fǎng)問(wèn)頻率訪(fǎng)客與非訪(fǎng)客平均單筆交易額之比客戶(hù)滿(mǎn)意度調(diào)查品牌形象變化調(diào)查2023/2/519網(wǎng)站類(lèi)型

網(wǎng)站經(jīng)營(yíng)內(nèi)容關(guān)鍵績(jī)效指標(biāo)

信息產(chǎn)品內(nèi)容服務(wù)網(wǎng)站以游戲、文獻(xiàn)資料、多媒體、證書(shū)認(rèn)證等與客戶(hù)交易每周訪(fǎng)客數(shù)量廣告點(diǎn)擊率新老客戶(hù)比訪(fǎng)問(wèn)間隔訪(fǎng)問(wèn)頻率訪(fǎng)客黏度3.4、電子商務(wù)信息數(shù)據(jù)挖掘數(shù)據(jù)挖掘:從大量的、不完全的、有噪聲的數(shù)據(jù)中提取有用知識(shí)的過(guò)程。數(shù)據(jù)挖掘主要方法有:統(tǒng)計(jì)分析(相關(guān)分析、因子分析、回歸分析)、分類(lèi)(貝葉斯、決策樹(shù)、人工神經(jīng)網(wǎng)絡(luò),支持向量機(jī)等)、聚類(lèi)(k-means聚類(lèi)、密度聚類(lèi))、關(guān)聯(lián)規(guī)則分析(APRIORI)2023/2/5203.4.1Bayes分類(lèi)以概率論為依據(jù),由先驗(yàn)概率推導(dǎo)出后驗(yàn)概率托馬斯·貝葉斯(1701-1761)英國(guó)牧師和數(shù)學(xué)家。為了證明上帝的存在,他提出了概率統(tǒng)計(jì)學(xué)原理。遺憾的是,他的美好愿望至今未能實(shí)現(xiàn)。貝葉斯理論廣泛應(yīng)用于人工智能,統(tǒng)計(jì)決策等領(lǐng)域。2023/2/5211)條件概率定義設(shè)A,B兩個(gè)隨機(jī)事件,且P(A)>0.稱(chēng)

為A事件發(fā)生的條件下B事件發(fā)生的概率2023/2/522例:將一枚硬幣拋擲兩次,觀(guān)察正反面的情況,設(shè)A為“至少有一次為H”,事件B為“兩次擲出同一面”,求已知事件A已經(jīng)發(fā)生的條件下事件B發(fā)生的概率。樣本空間(隨機(jī)試驗(yàn)所有可能結(jié)果組成的集合)為S={HH,HT,TH,TT};事件A={HH,HT,TH},事件B={HH,TT}

2023/2/5232)劃分的定義設(shè)S為隨機(jī)試驗(yàn)E的樣本空間,B1,B2,…,Bn為E的一組事件(樣本空間的子集),若(i)Bi∩Bj=?,i≠j,i,j=1,2,…,n(積事件)(ii)B1,∪B2∪,…,∪Bn

=S(和事件)則稱(chēng)B1,B2,…,Bn為E的一個(gè)劃分。

2023/2/524例:設(shè)隨機(jī)試驗(yàn)E為“擲一顆骰子觀(guān)察其點(diǎn)數(shù)”,其樣本空間為S={1,2,3,4,5,6},則E的一組事件B1={1,2,3},B2={4,5},B3={6}是S的一個(gè)劃分;C1={1,2,3},C2={3,4},C3={5,6}不是S的一個(gè)劃分。2023/2/5253)全概率公式設(shè)S為隨機(jī)試驗(yàn)E的樣本空間,B1,B2,…,Bn為E的一個(gè)劃分,且P(Bi)>0(i=1,2,…,n),則稱(chēng)P(A)=P(AB1)+P(AB2)+…..+P(ABn)=P(A|B1)P(B1)+P(A|B2)P(B2)+…..+P(A|Bn)P(Bn)為全概率公式。2023/2/526在許多實(shí)際問(wèn)題中,P(A)不容易直接求得,但卻容易找到S的一個(gè)劃分B1,B2,…,Bn并且P(Bi)和P(A|Bi)容易得到,此時(shí)就可用全概率。2023/2/527例:某一個(gè)電子設(shè)備制造廠(chǎng)所用的元件由三家元件制造廠(chǎng)提供,以往記錄有以下數(shù)據(jù),設(shè)這三家工廠(chǎng)產(chǎn)品在倉(cāng)庫(kù)均勻混合,且無(wú)區(qū)別標(biāo)志在倉(cāng)庫(kù)中隨機(jī)取一只元件,求它是次品的概率2023/2/528元件制造廠(chǎng)

次品率份額10.020.1520.010.8030.030.05設(shè)A表示“取到的是一只次品”,Bi(i=1,2,3)表示“取到的產(chǎn)品是由第i家工廠(chǎng)提供”,則B1

,

B2

,B3是樣本空間的一個(gè)劃分。P(B1)=0.15,P(B2)=0.80,P(B3)=0.05P(A|B1)=0.02,P(A|B2)=0.01,P(A|B3)=0.03由全概率公式可知P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+P(A|B3)P(B3)=0.0125

2023/2/5294)貝葉斯公式設(shè)S為隨機(jī)試驗(yàn)E的樣本空間,A為E的事件,B1,B2,…,Bn為E的一個(gè)劃分,且P(A)>0P(Bi)>0(i=1,2,…,n),則稱(chēng)為貝葉斯公式2023/2/530依上例,在倉(cāng)庫(kù)中隨機(jī)取一只元件,若它是次品,求此次品有那家工廠(chǎng)生產(chǎn)的概率最大由貝葉斯公式得:2023/2/5313.4.2決策樹(shù)分類(lèi)算法決策樹(shù)的基本思想:(1)在數(shù)據(jù)集的所有非類(lèi)別屬性中找出一個(gè)最具有分辨能力(提供信息量最大)的屬性作為樹(shù)根節(jié)點(diǎn),并用其將數(shù)據(jù)集分成若干子集,對(duì)每一個(gè)子集重復(fù)上述操作,直到所有的子集都只含有同類(lèi)型數(shù)據(jù)。(2)用得到的決策樹(shù)新樣本分類(lèi)2023/2/532廣泛使用的決策樹(shù)算法有:ID3(重點(diǎn)講解)、C4.5等ID3引入信息論中的互信息(信息增益),作為判斷非類(lèi)別屬性分辨能力的度量,即計(jì)算各個(gè)非類(lèi)別屬性與類(lèi)別屬性的互信息,找出最大者作為決策樹(shù)的根節(jié)點(diǎn),直到所有的子集都只含有同類(lèi)型數(shù)據(jù)。2023/2/5332023/2/534NoOutlookTemperatureWindyHumidityPlay1sunnyhotfalsehighno2sunnyhottruehighno3overcasthotfalsehighyes4rainmildfalsehighyes5raincoolfalsenormalyes6raincooltruenormalno7overcastcooltruenormalyes8sunnymildfalsehighno9sunnycoolfalsenormalyes10rainmildfalsenormalyes11sunnymildtruenormalyes12overcastmildtruehighyes13overcasthotfalsenormalyes14rainmildtruehighno2023/2/535特點(diǎn):每一個(gè)非葉子節(jié)點(diǎn)代表一個(gè)屬性;每一個(gè)弧代表一個(gè)屬性的取值;每個(gè)葉子節(jié)代表一個(gè)類(lèi)別;2023/2/536相關(guān)公式:設(shè)類(lèi)別屬性U的屬性取值為{u1,u2,…,un}非類(lèi)別屬性V的屬性取值為{v1,v2,…,vm}則,類(lèi)別屬性U的先驗(yàn)熵(平均信息量)為其中,為屬性值ui出現(xiàn)的概率2023/2/537屬性V的不同取值相對(duì)于U的后驗(yàn)熵為U相對(duì)于V的條件熵U相對(duì)于V的信息增益2023/2/5382023/2/539NoOutlookTemperatureWindyHumidityPlay1sunnyhotFalsehighno2sunnyhottruehighno3overcasthotfalsehighyes4rainmildfalsehighyes5raincoolfalsenormalyes6raincooltruenormalno7overcastcooltruenormalyes8sunnymildfalsehighno9sunnycoolfalsenormalyes10rainmildfalsenormalyes11sunnymildtruenormalyes12overcastmildtruehighyes13overcastHotfalsenormalyes14rainMildtruehighno非類(lèi)別屬性類(lèi)別屬性O(shè)utlookTemperatureWindyHumidityPlaySunny(5)Overcast(4)Rain(5)Hot(4)Mild(6)Cool(4)True(6)False(8)High(7)Normal(7)Yes(9)No(5)2023/2/540構(gòu)造上表數(shù)據(jù)的決策樹(shù)計(jì)算類(lèi)別屬性play的先驗(yàn)熵

2023/2/541outlook屬性信息增益1)計(jì)算outlook屬性取值的后驗(yàn)熵2023/2/542nooutlookplay1sunnyno2sunnyno3overcastyes4rainyes5rainyes6rainno7overcastyes8sunnyno9sunnyyes10rainyes11sunnyyes12overcastyes13overcastyes14rainno2)計(jì)算outlook屬性的條件熵3)計(jì)算outlook屬性的互信息(信息增益)2023/2/543humidity屬性信息增益1)計(jì)算取值的后驗(yàn)熵2023/2/544nohumidityplay1highno2highno3highyes4highyes5normalyes6normalno7normalyes8highno9normalyes10normalyes11normalyes12highyes13normalyes14highno2)計(jì)算條件熵3)計(jì)算信息增益2023/2/545windy屬性信息增益1)計(jì)算取值的后驗(yàn)熵2023/2/546nowindyplay1Falseno2trueno3falseyes4falseyes5falseyes6trueno7trueyes8falseno9falseyes10falseyes11trueyes12trueyes13falseyes14trueno2)計(jì)算條件熵3)計(jì)算信息增益2023/2/547temperature屬性信息增益1)計(jì)算后驗(yàn)熵2023/2/548notemperatureplay1hotno2hotno3hotyes4mildyes5coolyes6coolno7coolyes8mildno9coolyes10mildyes11mildyes12mildyes13Hotyes14Mildno2)計(jì)算條件熵3)計(jì)算temperature屬性劃分后的信息增益2023/2/549比較不同屬性的信息增益,選出信息增益最大的屬性作為樹(shù)根節(jié)點(diǎn)因此,選擇outlook屬性作為樹(shù)根節(jié)點(diǎn)2023/2/550構(gòu)造決策樹(shù)根節(jié)點(diǎn)2023/2/551數(shù)據(jù)子集1數(shù)據(jù)子集22023/2/552NoOutlookTemperatureWindHumidityPlay1sunnyhotFalsehighno2sunnyhottruehighno8sunnymildfalsehighno9sunnycoolfalsenormalyes11sunnymildtruenormalyesNoOutlookTemperatureWindHumidityPlay3overcasthotfalsehighyes7overcastcooltruenormalyes12overcastmildtruehighyes13overcastHotfalsenormalyes數(shù)據(jù)子集32023/2/553NoOutlookTemperatureWindHumidityPlay4rainmildfalsehighyes5raincoolfalsenormalyes6raincooltruenormalno10rainmildfalsenormalyes14rainMildtruehighno確定數(shù)據(jù)子集(1)的根節(jié)點(diǎn)計(jì)算數(shù)據(jù)子集(1)的先驗(yàn)熵2023/2/554數(shù)據(jù)子集(1)下Humidity屬性的信息增益1)計(jì)算數(shù)據(jù)子集(1)下humidity屬性取值的后驗(yàn)熵2023/2/555nohumidityplay1highno2highno8highno9normalyes11normalyes2)計(jì)算數(shù)據(jù)子集(1)下humidity屬性的條件熵3)計(jì)算數(shù)據(jù)子集(1)下humidity屬性的信息增益2023/2/556數(shù)據(jù)子集(1)下windy屬性的信息增益1)計(jì)算數(shù)據(jù)子集(1)下windy屬性的取值后驗(yàn)熵2023/2/557NoWindyPlay1Falseno2trueno8falseno9falseyes11trueyes2)計(jì)算數(shù)據(jù)子集(1)下windy屬性的條件熵3)計(jì)算數(shù)據(jù)子集(1)下windy屬性的信息增益2023/2/558數(shù)據(jù)子集(1)下temperature屬性的信息增益1)計(jì)算數(shù)據(jù)子集(1)下temperature屬性取值的后驗(yàn)熵2023/2/559NoTemperaturePlay1hotno2hotno8mildno9coolyes11mildyes2)計(jì)算數(shù)據(jù)子集(1)下temperature屬性的條件熵3)計(jì)算數(shù)據(jù)子集(1)下temperature屬性的信息增益2023/2/560在數(shù)據(jù)集(1)下,比較不同屬性的信息增益,選出信息增益最大的屬性作為樹(shù)根節(jié)點(diǎn)因此,選擇humidity屬性作為數(shù)據(jù)集(1)的樹(shù)根節(jié)點(diǎn)2023/2/561構(gòu)造子樹(shù)根節(jié)點(diǎn)

2023/2/562構(gòu)造子樹(shù)根節(jié)點(diǎn)

2023/2/563確定數(shù)據(jù)子集(3)的根節(jié)點(diǎn)計(jì)算數(shù)據(jù)子集(3)的先驗(yàn)熵2023/2/564數(shù)據(jù)子集(3)下windy屬性的信息增益1)計(jì)算數(shù)據(jù)子集(3)下windy屬性取值的后驗(yàn)熵2023/2/565NoWindyPlay4falseyes5falseyes6trueno10falseyes14trueno2)計(jì)算數(shù)據(jù)子集(3)下windy屬性的條件熵3)計(jì)算數(shù)據(jù)子集(3)下windy屬性的信息增益2023/2/566數(shù)據(jù)子集(3)下temperature屬性的信息增益1)計(jì)算數(shù)據(jù)子集(3)下temperature屬性取值的后驗(yàn)熵2023/2/567NoTemperaturePlay4mildyes5coolyes6coolno10mildyes14Mildno2)計(jì)算數(shù)據(jù)子集(3)下temperature屬性的條件熵3)計(jì)算數(shù)據(jù)子集(3)下temperature屬性的信息增益2023/2/568在數(shù)據(jù)子集(3)下,比較不同屬性的信息增益,選出信息增益最大的屬性字樹(shù)根節(jié)點(diǎn)因此,選擇windy屬性作為數(shù)據(jù)集(3)的樹(shù)根節(jié)點(diǎn)2023/2/569構(gòu)造子樹(shù)根節(jié)點(diǎn)

rain,cool,normal,falseno/yes?2023/2/5703.4.2K-means聚類(lèi)算法K-means聚類(lèi)思想:根據(jù)“物以類(lèi)聚”的思想,將沒(méi)有類(lèi)別的樣本聚集成不同的組(簇),使得簇內(nèi)緊湊,簇間疏遠(yuǎn)。2023/2/5712023/2/572歐氏距離給定數(shù)據(jù)集合X={xi|i=1,2,3,..,n},其中,xi的維度為d,即樣本xi=(xi1,xi2,….,xid),樣本xj=(xj1,xj2,….,xjd);規(guī)定樣本xi和xj歐氏距離為:

2023/2/573k-means聚類(lèi)算法采用誤差平方和準(zhǔn)則函數(shù)評(píng)價(jià)聚類(lèi)性能。假設(shè)數(shù)據(jù)集X包含k個(gè)聚類(lèi)子集X1,X2,…,Xk;各個(gè)聚類(lèi)子集的聚類(lèi)中心分別為m1.m2…,mk,則誤差平方和準(zhǔn)則函數(shù)為2023/2/574k-means聚類(lèi)算法描述:輸入:N個(gè)d維聚類(lèi)樣本

,聚類(lèi)簇?cái)?shù)k輸出:k個(gè)聚類(lèi)簇,使得誤差平方和準(zhǔn)則足夠小或聚類(lèi)簇不再發(fā)生變化Step1:為每個(gè)聚類(lèi)簇確定一個(gè)聚類(lèi)中心Step2:將樣本集中的樣本按照最小距離原則最鄰近簇中;Step3:計(jì)算每個(gè)簇中樣本的均值,并將其作為該簇的新聚類(lèi)中心Step4:重復(fù)step2,step3,直到誤差平方和準(zhǔn)則足夠小或聚類(lèi)中心不再發(fā)生變化2023/2/575例:利用k-means算法將以下用戶(hù)分成兩類(lèi)2023/2/576U

消費(fèi)金額(萬(wàn)元)未消費(fèi)金額(萬(wàn)元)u102u200u31.50u450u552(1)選擇u1(0,2),u2(0,0)為初始簇中心,對(duì)應(yīng)簇分別為C1,C2

即m1=u1=(0,2),m2=u2=(0,0)(2)對(duì)剩余的用戶(hù)數(shù)據(jù),根據(jù)其到每個(gè)簇中心的距離,劃分到不同簇中對(duì)u3

則把u3劃分到簇C2中

2023/2/577對(duì)u4

則把u4劃分到簇C2中對(duì)u5

則把u5劃分到簇C1中2023/2/578得到新簇C1={u1,u5,},C2={u2,u3,u4,}計(jì)算平方誤差準(zhǔn)則E1=|0-0|2+|2-2|2+|5-0|2+|2-2|2=25E2=|0-0|2+|0-0|2+|1.5-0|2+|0-0|2+|5-0|2+|0-0|2=27.25E

=E1+E2=25+27.25=52.252023/2/579計(jì)算簇的新聚類(lèi)中心m1=((0+5)/2,(2+2)/2)=(2.5,2)m2=((0+5+1.5)/3,(0+0+0)/3)=(2.17,0)80U

消費(fèi)金額(萬(wàn)元)未消費(fèi)金額(萬(wàn)元)u102u552U

消費(fèi)金額(萬(wàn)元)未消費(fèi)金額(萬(wàn)元)u200u31.50u450以新聚類(lèi)中心為基礎(chǔ),重新對(duì)所有樣本劃分簇對(duì)樣本u1

則把u1劃分到簇C1中2023/2/581對(duì)樣本u2

則把u2劃分到簇C2中對(duì)樣本u3

則把u3劃分到簇C2中2023/2/582對(duì)樣本u4

則把u4劃分到簇C2中對(duì)樣本u5

則把u5劃分到簇C1中2023/2/583得到新簇C1={u1,u5,},C2={u2,u3,u4,}重新計(jì)算平方誤差準(zhǔn)則E1=|0-2.5|2+|2-2|2+|5-2.5|2+|2-2|2=12.5E2=|0-2.17|2+|0-0|2+|1.5-2.17|2+|0-0|2+|5-2.17|2+|0-0|2=13.17E

=E1+E2=12.5+13.17=25.672023/2/5843.4.3Apriori關(guān)聯(lián)規(guī)則分析算法美國(guó)沃爾瑪超市中有趣的現(xiàn)象:啤酒和尿布擺放在同一貨架2023/2/5852023/2/586Apriori算法描述CkCandidateitemsetofsizekLkFrequentitemsetofsizekC1={allCandidatesitemsetofsize1fromDB}L1={CandidatesitemsetinC1withmin_support}For(k=1;Lk!=?;k++)dobeginCk=CandidatesgeneratedfromLk-1

foreachtransactiontinDBdoincrementthecountofallcandidatesinCkthatarecontainedint

Lk={CandidatesitemsetinCkwithmin_supportendreturnUkLk

87兩步驟:1)產(chǎn)生頻繁項(xiàng)集:發(fā)現(xiàn)滿(mǎn)足支持度大于閾值的所有項(xiàng);

2)產(chǎn)生關(guān)聯(lián)強(qiáng)規(guī)則:從上述頻繁項(xiàng)目集中提取大于置信度閾值的規(guī)則。相關(guān)概念項(xiàng)集:包含0個(gè)或多個(gè)項(xiàng)的集合k-后選項(xiàng)集:包含k個(gè)項(xiàng)的項(xiàng)集支持度:k-后選項(xiàng)集中k項(xiàng)在事務(wù)集中出現(xiàn)的次數(shù)k-頻繁項(xiàng)集:k-后選項(xiàng)集中支持度大于閾值的項(xiàng)的集合置信度confidence(AB)=support_count(AUB)/support_count(A)2023/2/588

2023/2/589交易序號(hào)

銷(xiāo)售商品1咖啡,果醬,冰激凌2面包,果醬,牛奶3牛奶,果醬,面包,咖啡4面包,牛奶Isetsup{牛奶}3{冰激凌}1{果醬}3{咖啡}2{面包}32候選項(xiàng)目集C21頻繁項(xiàng)目集L1Isetsup{牛奶}3{果醬}3{咖啡}2{面包}3Isetsup{牛奶

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論