《Python 數(shù)據(jù)挖掘?qū)嵺`》課件-第5章 挖掘建模算法_第1頁
《Python 數(shù)據(jù)挖掘?qū)嵺`》課件-第5章 挖掘建模算法_第2頁
《Python 數(shù)據(jù)挖掘?qū)嵺`》課件-第5章 挖掘建模算法_第3頁
《Python 數(shù)據(jù)挖掘?qū)嵺`》課件-第5章 挖掘建模算法_第4頁
《Python 數(shù)據(jù)挖掘?qū)嵺`》課件-第5章 挖掘建模算法_第5頁
已閱讀5頁,還剩84頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

經(jīng)過數(shù)據(jù)探索與數(shù)據(jù)預處理部分,得到了可以直接建模的數(shù)據(jù)。根據(jù)挖掘目標和數(shù)據(jù)形式可以建立分類與預測、聚類分析、關聯(lián)規(guī)則、時序模式、偏差檢測、智能推薦等模型,幫助企業(yè)提取數(shù)據(jù)中蘊含的商業(yè)價值,提高企業(yè)的競爭力。挖掘建模

關聯(lián)規(guī)則31分類與預測4聚類分析2時序模式目錄5離群點檢測6小結(jié)就餐飲企業(yè)而言,經(jīng)常會碰到這樣的問題:1)如何基于菜品歷史銷售情況,以及節(jié)假日、氣候和競爭對手等影響因素,對菜品銷量進行趨勢預測?2)如何預測在未來一段時間哪些顧客會流失,哪些顧客最有可能會成為VIP客戶?3)如何預測一種新產(chǎn)品的銷售量,以及在哪種類型的客戶中會較受歡迎?除此之外,餐廳經(jīng)理需要通過數(shù)據(jù)分析來幫助他了解具有某些特征的顧客的消費習慣;餐飲企業(yè)老板希望知道下個月的銷售收入,原材料采購需要投入多少,這些都是分類與預測的例子。分類與預測分類和預測是預測問題的兩種主要類型。分類主要是預測分類標號(離散、無序的),而預測主要是建立連續(xù)值函數(shù)模型,預測給定自變量的條件下因變量的值分類與預測——實現(xiàn)過程分類:指將數(shù)據(jù)映射到預先定義好的群組或類。因為在分析測試數(shù)據(jù)之前,類別就已經(jīng)確定了,所以分類通常被稱為有監(jiān)督的學習。分類算法要求基于數(shù)據(jù)屬性值來定義類別。分類就是構(gòu)造一個分類模型,把具有某些特征的數(shù)據(jù)項映射到某個給定的類別上。下圖是一個三分類問題:預測:確定兩種或兩種以上變量間相互依賴的函數(shù)模型,然后進行預測或控制。分類與預測——實現(xiàn)過程分類和預測的實現(xiàn)過程類似,以分類模型為例,實現(xiàn)過程如圖:分類與預測——實現(xiàn)過程分類算法有兩步過程:第一步是學習步,通過歸納分析訓練樣本集來建立分類模型得到分類規(guī)則;第二步是分類步,先用已知的檢驗樣本集評估分類規(guī)則的準確率,如果準確率是可以接受的,則使用該模型對未知類標號的待測樣本集進行預測。預測模型的實現(xiàn)也有兩步,類似于分類模型,第一步是通過訓練集建立預測屬性(數(shù)值型的)的函數(shù)模型,第二步是預測,模型通過檢驗后再進行預測或控制。分類與預測——實現(xiàn)過程分類與預測——實現(xiàn)過程主要分類與預測算法簡介:分類與預測——常用的分類與預測算法算法名稱算法描述回歸分析回歸分析是確定預測屬性(數(shù)值型)與其他變量間相互依賴的定量。關系的最常用的統(tǒng)計學方法。包括線性回歸、非線性回歸、Logistic回歸、嶺回歸、主成分回歸、偏最小二乘回歸等模型。決策樹它采用自頂向下的遞歸方式,在決策樹的內(nèi)部結(jié)點進行屬性值的比較,并根據(jù)不同的屬性值從該結(jié)點向下分支,葉結(jié)點是要學習劃分的類。人工神經(jīng)網(wǎng)絡一種模仿大腦神經(jīng)網(wǎng)絡結(jié)構(gòu)和功能而建立的信息處理系統(tǒng),表示神經(jīng)網(wǎng)絡的輸入與輸出變量之間關系的模型。貝葉斯網(wǎng)絡貝葉斯網(wǎng)絡又稱信度網(wǎng)絡,是Bayes方法的擴展,是目前不確定知識表達和推理領域最有效的理論模型之一。支持向量機SVM支持向量機根據(jù)有限的樣本信息在模型的復雜性和學習能力之間尋求最佳折衷,以獲得最好的推廣能力?;貧w分析是通過建立模型來研究變量之間相互關系的密切程度、結(jié)構(gòu)狀態(tài)及進行模型預測的一種有效工具,在工商管理、經(jīng)濟、社會、醫(yī)學和生物學等領域應用十分廣泛。從19世紀初高斯提出最小二乘估計算起,回歸分析的歷史已有200多年。從經(jīng)典的回歸分析方法到近代的回歸分析方法,按照研究方法劃分,回歸分析研究的范圍大致如下:分類與預測——回歸分析回歸分析研究的范圍大致如下:分類與預測——回歸分析在數(shù)據(jù)挖掘環(huán)境下,自變量與因變量具有相關關系,自變量的值是已知的,因變量是要預測的。常用的回歸模型如下:分類與預測——回歸分析常用的回歸模型如下:分類與預測——回歸分析回歸模型適用條件算法描述線性回歸因變量與自變量是線性關系對一個或多個自變量和因變量之間的線性關系進行建模,可用最小二乘法求解模型系數(shù)。非線性回歸因變量與自變量之間不都是線性關系對一個或多個自變量和因變量之間的非線性關系進行建模。如果非線性關系可以通過簡單的函數(shù)變換轉(zhuǎn)化成線性關系,用線性回歸的思想求解;如果不能轉(zhuǎn)化,用非線性最小二乘方法求解。Logistic回歸因變量的一般有1-0(是否)兩種取值是廣義線性回歸模型的特例,利用Logistic函數(shù)將因變量的取值范圍控制在0和1之間,表示取值為1的概率。嶺回歸參與建模的自變量之間具有多重共線性是一種改進最小二乘估計的方法。主成分回歸參與建模的自變量之間具有多重共線性主成分回歸是根據(jù)主成分分析的思想提出來的,是對最小二乘法的一種改進,它是參數(shù)估計的一種有偏估計??梢韵宰兞恐g的多重共線性。線性回歸模型是相對簡單的回歸模型,但是通常因變量和自變量之間呈現(xiàn)某種曲線關系,就要建立非線性回歸模型。Logistic回歸屬于概率型非線性回歸,分為二分類和多分類的回歸模型。對于二分類的Logistic回歸,因變量y只有“是、否”兩個取值,記為1和0。假設在自變量作用下,y取“是”的概率是p,則取“否”的概率是1-p,研究的是當y取“是”發(fā)生的概率p與自變量的關系。當自變量之間出現(xiàn)多重共線性時,用最小二乘估計估計的回歸系數(shù)將會不準確,消除多重共線性的參數(shù)改進的估計方法主要有嶺回歸和主成分回歸。下面就較常用的二分類的Logistic回歸模型的原理展開介紹。分類與預測——回歸分析Logistic函數(shù)。二分類的Logistic回歸模型中的因變量的只有1-0(如是和否、發(fā)生和不發(fā)生)兩種取值。假設在個獨立自變量作用下,記取1的概率是,取0概率是,取1和取0的概率之比為,稱為事件的優(yōu)勢比(odds),對odds取自然對數(shù)即得Logistic變換:令,則,即為Logistic函數(shù),如下圖:分類與預測——回歸分析Logistic函數(shù)如下圖:當p在(0,1)之間變化時,odds的取值范圍是,的取值范圍是。分類與預測——回歸分析Logistic回歸模型Logistic回歸模型是建立與自變量的線性回歸模型。Logistic回歸模型為:因為的取值范圍是,這樣,自變量可在任意范圍內(nèi)取值。記,得到:分類與預測——回歸分析決策樹方法在分類、預測、規(guī)則提取等領域有著廣泛應用。在20世紀70年代后期和80年代初期,機器學習研究者J.RossQuinilan提出了ID3算法以后,決策樹在機器學習、數(shù)據(jù)挖掘鄰域得到極大的發(fā)展。Quinilan后來又提出了C4.5,成為新的監(jiān)督學習算法的性能比較基準。1984年幾位統(tǒng)計學家提出了CART分類算法。ID3和ART算法大約同時被提出,但都是采用類似的方法從訓練元組中學習決策樹。決策樹是一樹狀結(jié)構(gòu),它的每一個樹結(jié)點可以是葉節(jié)點,對應著某一類,也可以對應著一個劃分,將該節(jié)點對應的樣本集劃分成若干個子集,每個子集對應一個節(jié)點。對一個分類問題,從已知類標記的訓練元組學習并構(gòu)造出決策樹是一個從上至下,分而治之的過程。分類與預測——決策樹常用的決策樹算法如下表所示,本節(jié)將詳細介紹ID3算法,也是最經(jīng)典的決策樹分類算法。分類與預測——決策樹決策樹算法算法描述ID3算法其核心是在決策樹的各級節(jié)點上,使用信息增益方法作為屬性的選擇標準,來幫助確定生成每個節(jié)點時所應采用的合適屬性。C4.5算法C4.5決策樹生成算法相對于ID3算法的重要改進是使用信息增益率來選擇節(jié)點屬性。C4.5算法可以克服ID3算法存在的不足:ID3算法只適用于離散的描述屬性,而C4.5算法既能夠處理離散的描述屬性,也可以處理連續(xù)的描述屬性。CART算法CART決策樹是一種十分有效的非參數(shù)分類和回歸方法,通過構(gòu)建樹、修剪樹、評估樹來構(gòu)建一個二叉樹。當終結(jié)點是連續(xù)變量時,該樹為回歸樹;當終結(jié)點是分類變量,該樹為分類樹。ID3算法是一種基于信息熵的決策樹分類算法,它選擇當前樣本集中具有最大信息增益值的屬性作為測試屬性;樣本集的劃分則依據(jù)測試屬性的取值進行,測試屬性有多少不同取值就將樣本集劃分為多少子樣本集,同時,決策樹上相應于該樣本集的節(jié)點長出新的葉子節(jié)點。ID3算法根據(jù)信息理論,采用劃分后樣本集的不確定性作為衡量劃分好壞的標準,用信息增益值度量:信息增益值越大,不確定性越小。因此,ID3算法在每個非葉節(jié)點選擇信息增益最大的屬性作為測試屬性。該屬性使得對結(jié)果劃分中的樣本分類所需的信息最小,并反映劃分的最小隨機性。分類與預測——決策樹人工神經(jīng)網(wǎng)絡(ArtificialNeuralNetworks,ANNs),是模擬生物神經(jīng)網(wǎng)絡進行信息處理的一種數(shù)學模型。它以對大腦的生理研究成果為基礎,其目的在于模擬大腦的某些機理與機制,實現(xiàn)一些特定的功能。分類與預測——人工神經(jīng)網(wǎng)絡分類與預測——人工神經(jīng)網(wǎng)絡激活函數(shù)表達形式圖形解釋說明域值函數(shù)(階梯函數(shù))當函數(shù)的自變量小于0時,函數(shù)的輸出為0;當函數(shù)的自變量大于或等于0時,函數(shù)的輸出為1,用該函數(shù)可以把輸入分成兩類。分段線性函數(shù)該函數(shù)在(-1,+1)線性區(qū)內(nèi)的放大系數(shù)是一致的,這種形式的激活函數(shù)可以看作是非線性放大器的近似。非線性轉(zhuǎn)移函數(shù)單極性S型函數(shù)為實數(shù)域R到[0,1]閉集的連續(xù)函數(shù),代表了連續(xù)狀態(tài)型神經(jīng)元模型。其特點是函數(shù)本身及其導數(shù)都是連續(xù)的,能夠體現(xiàn)數(shù)學計算上的優(yōu)越性。Relu函數(shù)這是近年來提出的激活函數(shù),它具有計算簡單、效果更佳的特點,目前已經(jīng)有取代其他激活函數(shù)的趨勢。本書的神經(jīng)網(wǎng)絡模型大量使用了該激活函數(shù)。分類與預測——人工神經(jīng)網(wǎng)絡人工神經(jīng)網(wǎng)絡的學習也稱為訓練,指的是神經(jīng)網(wǎng)絡在受到外部環(huán)境的刺激下調(diào)整神經(jīng)網(wǎng)絡的參數(shù),使神經(jīng)網(wǎng)絡以一種新的方式對外部環(huán)境作出反應的一個過程。在分類與預測中,人工神將網(wǎng)絡主要使用有指導的學習方式,即根據(jù)給定的訓練樣本,調(diào)整人工神網(wǎng)絡的參數(shù)以使網(wǎng)絡輸出接近于已知的樣本類標記或其他形式的因變量。分類與預測——人工神經(jīng)網(wǎng)絡

分類與預測——人工神經(jīng)網(wǎng)絡算法名稱算法描述BP神經(jīng)網(wǎng)絡是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W(wǎng)絡,學習算法是δ學習規(guī)則,是目前應用最廣泛的神經(jīng)網(wǎng)絡模型之一。LM神經(jīng)網(wǎng)絡是基于梯度下降法和牛頓法結(jié)合的多層前饋網(wǎng)絡,特點:迭代次數(shù)少,收斂速度快,精確度高。RBF徑向基神經(jīng)網(wǎng)絡RBF網(wǎng)絡能夠以任意精度逼近任意連續(xù)函數(shù),從輸人層到隱含層的變換是非線性的,而從隱含層到輸出層的變換是線性的,特別適合于解決分類問題。FNN模糊神經(jīng)網(wǎng)絡FNN模糊神經(jīng)網(wǎng)絡是具有模糊權(quán)系數(shù)或者輸入信號是模糊量的神經(jīng)網(wǎng)絡,是模糊系統(tǒng)與神經(jīng)網(wǎng)絡相結(jié)合的產(chǎn)物,它匯聚了神經(jīng)網(wǎng)絡與模糊系統(tǒng)的優(yōu)點,集聯(lián)想、識別、自適應及模糊信息處理于一體。GMDH神經(jīng)網(wǎng)絡GMDH網(wǎng)絡也稱為多項式網(wǎng)絡,它是前饋神經(jīng)網(wǎng)絡中常用的一種用于預測的神經(jīng)網(wǎng)絡。它的特點是網(wǎng)絡結(jié)構(gòu)不固定,而且在訓練過程中不斷改變。ANFIS自適應神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡鑲嵌在一個全部模糊的結(jié)構(gòu)之中,在不知不覺中向訓練數(shù)據(jù)學習,自動產(chǎn)生、修正并高度概括出最佳的輸入與輸出變量的隸屬函數(shù)以及模糊規(guī)則;另外神經(jīng)網(wǎng)絡的各層結(jié)構(gòu)與參數(shù)也都具有了明確的、易于理解的物理意義。分類與預測算法評價分類與預測模型對訓練集進行預測而得出的準確率并不能很好地反映預測模型未來的性能,為了有效判斷一個預測模型的性能表現(xiàn),需要一組沒有參與預測模型建立的數(shù)據(jù)集,并在該數(shù)據(jù)集上評價預測模型的準確率,這組獨立的數(shù)據(jù)集叫測試集。模型預測效果評價,通常用相對絕對誤差、平均絕對誤差、根均方差、相對平方根誤差等指標來衡量。分類與預測模型對訓練集進行預測而得出的準確率并不能很好地反映預測模型未來的性能,為了有效判斷一個預測模型的性能表現(xiàn),需要一組沒有參與預測模型建立的數(shù)據(jù)集,并在該數(shù)據(jù)集上評價預測模型的準確率,這組獨立的數(shù)據(jù)集叫測試集。模型預測效果評價,通常用相對絕對誤差、平均絕對誤差、根均方差、相對平方根誤差等指標來衡量。分類與預測算法評價分類與預測算法評價

分類與預測算法評價

分類與預測算法評價

分類與預測算法評價

分類與預測算法評價Kappa統(tǒng)計是比較兩個或多個觀測者對同一事物,或觀測者對同一事物的兩次或多次觀測結(jié)果是否一致,以由于機遇造成的一致性和實際觀測的一致性之間的差別大小作為評價基礎的統(tǒng)計指標。Kappa統(tǒng)計量和加權(quán)Kappa統(tǒng)計量不僅可以用于無序和有序分類變量資料的一致性、重現(xiàn)性檢驗,而且能給出一個反映一致性大小的“量”值。分類與預測算法評價Kappa取值在[-1,+1]之間,其值的大小均有不同意義:Kappa=+1說明兩次判斷的結(jié)果完全一致Kappa=-1說明兩次判斷的結(jié)果完全不一致Kappa=0說明兩次判斷的結(jié)果是機遇造成Kappa<0說明一致程度比機遇造成的還差,兩次檢查結(jié)果很不一致,在實際應用中無意義Kappa>0此時說明有意義,Kappa愈大,說明一致性愈好Kappa≥0.75說明已經(jīng)取得相當滿意的一致程度Kappa<0.4說明一致程度不夠分類與預測算法評價

分類與預測算法評價

分類與預測算法評價ROC曲線受試者工作特性(ReceiverOperatingCharacteristic,ROC)曲線是一種非常有效的模型評價方法,可為選定臨界值給出定量提示。將靈敏度(Sensitivity)設在縱軸,1-特異性(1-Specificity)設在橫軸,就可得出ROC曲線圖。該曲線下的積分面積(Area)大小與每種方法優(yōu)劣密切相關,反映分類器正確分類的統(tǒng)計概率,其值越接近1說明該算法效果越好。分類與預測算法評價混淆矩陣混淆矩陣(ConfusionMatrix)是模式識別領域中一種常用的表達形式。它描繪樣本數(shù)據(jù)的真實屬性與識別結(jié)果類型之間的關系,是評價分類器性能的一種常用方法。預測的類實際的類Class=YesClass=NoClass=YesTPFPClass=NoFNTNPython分類預測模型模型模型特點位于邏輯回歸比較基礎的線性分類模型,很多時候是簡單有效的選擇。sklearn.linear_modelSVM強大的模型,可以用來回歸、預測、分類等,而根據(jù)選取不同的核函數(shù)。模型可以是線性的/非線性的。sklearn.svm決策樹基于“分類討論、逐步細化”思想的分類模型,模型直觀,易解釋,如前面5.1.4節(jié)中可以直接給出決策圖。sklearn.tree隨機森林思想跟決策樹類似,精度通常比決策樹要高,缺點是由于其隨機性,喪失了決策樹的可解釋性。sklearn.ensemble樸素貝葉斯基于概率思想的簡單有效的分類模型,能夠給出容易理解的概率解釋。sklearn.naive_bayes神經(jīng)網(wǎng)絡具有強大的擬合能力,可以用于擬合、分類等,它有很多個增強版本,如遞歸神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡、自編碼器等,這些是深度學習的模型基礎Keras

關聯(lián)規(guī)則34分類與預測1時序模式目錄5離群點檢測6小結(jié)2聚類分析就餐飲企業(yè)而言,經(jīng)常會碰到這樣的問題:1)如何通過餐飲客戶消費行為的測量,進一步評判餐飲客戶的價值和對餐飲客戶進行細分,找到有價值的客戶群和需關注的客戶群?2)如何合理對菜品進行分析,以便區(qū)分哪些菜品暢銷毛利又高,哪些菜品滯銷毛利又低?餐飲企業(yè)遇到的這些問題,可以通過聚類分析解決。聚類分析與分類不同,聚類分析是在沒有給定劃分類別的情況下,根據(jù)數(shù)據(jù)相似度進行樣本分組的一種方法。與分類模型需要使用有類標記樣本構(gòu)成的訓練數(shù)據(jù)不同,聚類模型可以建立在無類標記的數(shù)據(jù)上,是一種非監(jiān)督的學習算法。聚類的輸入是一組未被標記的樣本,聚類根據(jù)數(shù)據(jù)自身的距離或相似度將他們劃分為若干組,劃分的原則是組內(nèi)樣本最小化而組間(外部)距離最大化:聚類分析——常用聚類分析算法常用聚類方法如下表:聚類分析——常用聚類分析算法類別包括的主要算法劃分(分裂)方法K-Means算法(K-平均)、K-MEDOIDS算法(K-中心點)、CLARANS算法(基于選擇的算法)層次分析方法BIRCH算法(平衡迭代規(guī)約和聚類)、CURE算法(代表點聚類)、CHAMELEON算法(動態(tài)模型)基于密度的方法DBSCAN算法(基于高密度連接區(qū)域)、DENCLUE算法(密度分布函數(shù))、OPTICS算法(對象排序識別)基于網(wǎng)格的方法STING算法(統(tǒng)計信息網(wǎng)絡)、CLIOUE算法(聚類高維空間)、WAVE-CLUSTER算法(小波變換)基于模型的方法統(tǒng)計學方法、神經(jīng)網(wǎng)絡方法常用聚類算法如下表:聚類分析——常用聚類分析算法算法名稱算法描述K-MeansK-均值聚類也叫快速聚類法,在最小化誤差函數(shù)的基礎上將數(shù)據(jù)劃分為預定的類數(shù)K。該算法原理簡單并便于處理大量數(shù)據(jù)。K-中心點K-均值算法對孤立點的敏感性,K-中心點算法不采用簇中對象的平均值作為簇中心,而選用簇中離平均值最近的對象作為簇中心。系統(tǒng)聚類系統(tǒng)聚類也叫多層次聚類,分類的單位由高到低呈樹形結(jié)構(gòu),且所處的位置越低,其所包含的對象就越少,但這些對象間的共同特征越多。該聚類方法只適合在小數(shù)據(jù)量的時候使用,數(shù)據(jù)量大的時候速度會非常慢。K-Means算法是典型的基于距離的非層次聚類算法,在最小化誤差函數(shù)的基礎上將數(shù)據(jù)劃分為預定的類數(shù)K,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。K-Means聚類算法中,一般需要度量樣本之間的距離、樣本與簇之間的距離以及簇與簇之間的距離。度量樣本之間的相似性最常用的是歐幾里得距離、曼哈頓距離和閔可夫斯距離;樣本與簇之間的距離可以用樣本到簇中心的距離;簇與簇之間的距離可以用簇中心的距離。聚類分析——K-Means聚類算法本節(jié)主要從四個方面介紹K-Means聚類算法1、算法過程2、數(shù)據(jù)類型與相似性的度量3、目標函數(shù)4、案例實現(xiàn)聚類分析——K-Means聚類算法算法過程:1)從N個樣本數(shù)據(jù)中隨機選取K個對象作為初始的聚類中心;2)分別計算每個樣本到各個聚類中心的距離,將對象分配到距離最近的聚類中;3)所有對象分配完成后,重新計算K個聚類的中心;4)與前一次計算得到的K個聚類中心比較,如果聚類中心發(fā)生變化,轉(zhuǎn)2),否則轉(zhuǎn)5);5)當質(zhì)心不發(fā)生變化時停止并輸出聚類結(jié)果。聚類分析——K-Means聚類算法數(shù)據(jù)類型與相似性的度量:1)連續(xù)屬性對于連續(xù)屬性,要先對各屬性值進行零-均值規(guī)范,再進行距離的計算。用個屬性來表示n個樣本的數(shù)據(jù)矩陣如下:歐幾里得距離:聚類分析——K-Means聚類算法數(shù)據(jù)類型與相似性的度量:1)連續(xù)屬性曼哈頓距離:閔可夫斯基距離:為正整數(shù),時即為曼哈頓距離;時即為歐幾里得距離。

聚類分析——K-Means聚類算法數(shù)據(jù)類型與相似性的度量:2)文檔數(shù)據(jù)對于文檔數(shù)據(jù)使用余弦相似性度量,先將文檔數(shù)據(jù)整理成文檔—詞矩陣格式:兩個文檔之間的相似度的計算公式為:聚類分析——K-Means聚類算法lostwinteamscoremusichappysad…coach文檔一142808710…6文檔二113341164…7文檔三96773148…5目標函數(shù):使用誤差平方和SSE作為度量聚類質(zhì)量的目標函數(shù),對于兩種不同的聚類結(jié)果,選擇誤差平方和較小的分類結(jié)果。1)連續(xù)屬性的SSE計算公式為:2)文檔數(shù)據(jù)的SSE計算公式為:聚類分析——K-Means聚類算法目標函數(shù):其中,簇的聚類中心計算公式為:聚類分析——K-Means聚類算法符號含義

K聚類簇的個數(shù)第個簇對象(樣本)簇的聚類中心數(shù)據(jù)集中樣本的個數(shù)第個簇中樣本的個數(shù)案例實現(xiàn):部分餐飲客戶的消費行為特征數(shù)據(jù)如下表,根據(jù)這些數(shù)據(jù)將客戶分類成不同客戶群,并評價這些客戶群的價值。聚類分析——K-Means聚類算法IDRFM1374579235361632510394452211153675216415225756311883757939542111105181086案例實現(xiàn):采用K-Means聚類算法,設定聚類個數(shù)K為3,最大迭代次數(shù)為500次,距離函數(shù)取歐氏距離。輸出結(jié)果如下表:聚類分析——K-Means聚類算法分群類別分群1分群2分群3樣本個數(shù)34056040樣本個數(shù)占比12.77%65.53%21.70%R-0.16295092-0.147855153.45505486聚類中心F1.11672177-0.65689153-0.29565357M0.39557542-0.272251030.44912342案例實現(xiàn):以下是用Pandas和Matplotlib繪制的不同客戶分群的概率密度函數(shù)圖,通過這些圖能直觀地比較不同客戶群的價值。分群1的概率密度函數(shù)圖:聚類分析——K-Means聚類算法案例實現(xiàn):分群2的概率密度函數(shù)圖:聚類分析——K-Means聚類算法案例實現(xiàn):分群3的概率密度函數(shù)圖:聚類分析——K-Means聚類算法案例實現(xiàn):客戶價值分析:分群1特點:R間隔相對較小,主要集中在0~30天之間;消費次數(shù)集中在10~25次;消費金額在500~2000。分群2特點:R間隔分布在0~30天之間;消費次數(shù)集中在0~12次;消費金額在0~1800。分群3特點:R間隔相對較大,間隔分布在30~80天之間;消費次數(shù)集中在0~15次;消費金額在0~2000。對比分析:分群1時間間隔較短,消費次數(shù)多,而且消費金額較大,是高消費高價值人群。分群2的時間間隔、消費次數(shù)和消費金額處于中等水平,代表著一般客戶。分群3的時間間隔較長,消費次數(shù)較少,消費金額也不是特別高,是價值較低的客戶群體。聚類分析——K-Means聚類算法聚類分析——聚類算法評價

聚類分析——聚類算法評價

聚類分析——聚類算法評價

聚類分析——Python主要聚類分析算法對象名函數(shù)功能所屬工具箱KMeansK均值聚類sklearn.clusterAffinityPropagation吸引力傳播聚類,2007年提出,幾乎優(yōu)于所有其他方法,不需要指定聚類數(shù),但運行效率較低。sklearn.clusterMeanShift均值漂移聚類算法sklearn.clusterSpectralClustering譜聚類,具有效果比K均值好,速度比K均值快等特點sklearn.clusterAgglomerativeClustering層次聚類,給出一棵聚類層次樹sklearn.clusterDBSCAN具有噪聲的基于密度的聚類方法sklearn.clusterBIRCH綜合的層次聚類算法,可以處理大規(guī)模數(shù)據(jù)的聚類sklearn.clusterPython里面實現(xiàn)的聚類算法見下表:聚類分析——聚類結(jié)果可視化的工具TSNE是LaurensvanderMaaten和GeoffreyHintton在2008年提出的,它的定位是高維數(shù)據(jù)的可視化。我們總喜歡能夠直觀地展示研究結(jié)果,聚類也不例外。然而通常來說輸入的特征數(shù)是高維的(大于3維),一般難以直接以原特征對聚類結(jié)果進行展示。而TSNE提供了一種有效的數(shù)據(jù)降維方式,讓我們可以在2維或者3維的空間中展示聚類結(jié)果。第5章挖掘建模之關聯(lián)分析2025/2/17

聚類分析24分類與預測1時序模式目錄5離群點檢測6小結(jié)3關聯(lián)規(guī)則就餐飲企業(yè)而言,經(jīng)常會碰到這樣的問題:客戶在餐廳點餐時,面對菜單中大量的菜品信息,往往無法迅速找到滿意的菜品,既增加了點菜的時間,也降低了客戶的就餐體驗。實際上,菜品的合理搭配是有規(guī)律可循的:顧客的飲食習慣、菜品的葷素和口味,有些菜品之間是相互關聯(lián)的,而有些菜品之間是對立或競爭關系(負關聯(lián))。這些規(guī)律都隱藏在大量的歷史菜單數(shù)據(jù)中,如果能夠通過數(shù)據(jù)挖掘發(fā)現(xiàn)客戶點餐的規(guī)則,就可以快速識別客戶的口味,當他下了某個菜品的訂單時推薦相關聯(lián)的菜品,引導客戶消費,提高顧客的就餐體驗和餐飲企業(yè)的業(yè)績水平。關聯(lián)規(guī)則關聯(lián)規(guī)則分析也成為購物籃分析,最早是為了發(fā)現(xiàn)超市銷售數(shù)據(jù)庫中不同的商品之間的關聯(lián)關系。例如一個超市的經(jīng)理想要更多地了解顧客的購物習慣,比如“哪組商品可能會在一次購物中同時購買?”或者“某顧客購買了個人電腦,那該顧客三個月后購買數(shù)碼相機的概率有多大?”他可能會發(fā)現(xiàn)如果購買了面包的顧客同時非常有可能會購買牛奶,這就導出了一條關聯(lián)規(guī)則“面包=>牛奶”,其中面包稱為規(guī)則的前項,而牛奶稱為后項。通過對面包降低售價進行促銷,而適當提高牛奶的售價,關聯(lián)銷售出的牛奶就有可能增加超市整體的利潤。關聯(lián)規(guī)則分析是數(shù)據(jù)挖掘中最活躍的研究方法之一,目的是在一個數(shù)據(jù)集中找出各項之間的關聯(lián)關系,而這種關系并沒有在數(shù)據(jù)中直接表示出來。關聯(lián)規(guī)則常用關聯(lián)算法如下表:關聯(lián)規(guī)則——常用關聯(lián)規(guī)則算法算法名稱算法描述Apriori關聯(lián)規(guī)則最常用也是最經(jīng)典的挖掘頻繁項集的算法,其核心思想是通過連接產(chǎn)生候選項及其支持度然后通過剪枝生成頻繁項集。FP-Tree針對Apriori算法的固有的多次掃面事務數(shù)據(jù)集的缺陷,提出的不產(chǎn)生候選頻繁項集的方法。Apriori和FP-Tree都是尋找頻繁項集的算法。Eclat算法Eclat算法是一種深度優(yōu)先算法,采用垂直數(shù)據(jù)表示形式,在概念格理論的基礎上利用基于前綴的等價關系將搜索空間劃分為較小的子空間。灰色關聯(lián)法分析和確定各因素之間的影響程度或是若干個子因素(子序列)對主因素(母序列)的貢獻度而進行的一種分析方法。本節(jié)重點詳細介紹Apriori算法。以超市銷售數(shù)據(jù)為例,提取關聯(lián)規(guī)則的最大困難在于當存在很多商品時,可能的商品的組合(規(guī)則的前項與后項)的數(shù)目會達到一種令人望而卻步的程度。因而各種關聯(lián)規(guī)則分析的算法從不同方面入手減小可能的搜索空間的大小以及減小掃描數(shù)據(jù)的次數(shù)。Apriori算法是最經(jīng)典的挖掘頻繁項集的算法,第一次實現(xiàn)了在大數(shù)據(jù)集上可行的關聯(lián)規(guī)則提取,其核心思想是通過連接產(chǎn)生候選項與其支持度然后通過剪枝生成頻繁項集。關聯(lián)規(guī)則——Apriori算法介紹以超市銷售數(shù)據(jù)為例,提取關聯(lián)規(guī)則的最大困難在于當存在很多商品時,可能的商品的組合(規(guī)則的前項與后項)的數(shù)目會達到一種令人望而卻步的程度。因而各種關聯(lián)規(guī)則分析的算法從不同方面入手減小可能的搜索空間的大小以及減小掃描數(shù)據(jù)的次數(shù)。Apriori算法是最經(jīng)典的挖掘頻繁項集的算法,第一次實現(xiàn)了在大數(shù)據(jù)集上可行的關聯(lián)規(guī)則提取,其核心思想是通過連接產(chǎn)生候選項與其支持度然后通過剪枝生成頻繁項集。關聯(lián)規(guī)則——Apriori算法介紹(1)關聯(lián)規(guī)則的一般形式項集A、B同時發(fā)生的概率稱為關聯(lián)規(guī)則的支持度:項集A發(fā)生,則項集B也同時發(fā)生的概率為關聯(lián)規(guī)則的置信度:關聯(lián)規(guī)則——Apriori算法介紹1、關聯(lián)規(guī)則和頻繁項集,(2)最小支持度和最小置信度最小支持度是用戶或?qū)<叶x的衡量支持度的一個閾值,表示項目集在統(tǒng)計意義上的最低重要性;最小置信度是用戶或?qū)<叶x的衡量置信度的一個閾值,表示關聯(lián)規(guī)則的最低可靠性。同時滿足最小支持度閾值和最小置信度閾值的規(guī)則稱作強規(guī)則。關聯(lián)規(guī)則——Apriori算法介紹1、關聯(lián)規(guī)則和頻繁項集,(3)項集項集是項的集合。包含k個項的項集稱為k項集,如集合{牛奶,麥片,糖}是一個3項集。項集的出現(xiàn)頻率是所有包含項集的事務計數(shù),又稱作絕對支持度或支持度計數(shù)。如果項集I的相對支持度滿足預定義的最小支持度閾值,則I是頻繁項集。頻繁k項集通常記作。關聯(lián)規(guī)則——Apriori算法介紹1、關聯(lián)規(guī)則和頻繁項集,(4)支持度計數(shù)項集A的支持度計數(shù)是事務數(shù)據(jù)集中包含項集A的事務個數(shù)。已知項集的支持度計數(shù),則規(guī)則的支持度和置信度很容易從所有事務計數(shù)、項集A和項集的支持度計數(shù)推出:關聯(lián)規(guī)則——Apriori算法介紹1、關聯(lián)規(guī)則和頻繁項集,Apriori算法的思想Apriori算法的主要思想是找出存在于事務數(shù)據(jù)集中的最大的頻繁項集,在利用得到的最大頻繁項集與預先設定的最小置信度閾值生成強關聯(lián)規(guī)則。Apriori算法的性質(zhì)頻繁項集的所有非空子集也必須是頻繁項集。根據(jù)該性質(zhì)可以得出:向不是頻繁項集I的項集中添加事務A,新的項集一定也不是頻繁項集。關聯(lián)規(guī)則——Apriori算法實現(xiàn)Apriori算法的實現(xiàn)的兩個過程過程一:找出所有的頻繁項集。在這個過程中連接步和剪枝步互相融合,最終得到最大頻繁項集。連接步連接步的目的是找到K項集。剪枝步剪枝步緊接著連接步,在產(chǎn)生候選項的過程中起到減小搜索空間的目的。關聯(lián)規(guī)則——Apriori算法實現(xiàn)連接步:(1)對給定的最小支持度閾值,分別對1項候選集,剔除小于該閾值的的項集得到1項頻繁集;(2)下一步由自身連接產(chǎn)生2項候選集,保留中滿足約束條件的項集得到2項頻繁集,記為;(3)再下一步由與連接產(chǎn)生3項候選集,保留中滿足約束條件的項集得到3項頻繁集,記為。這樣循環(huán)下去,得到最大頻繁項集。關聯(lián)規(guī)則——Apriori算法實現(xiàn)剪枝步:剪枝步緊接著連接步,在產(chǎn)生候選項的過程中起到減小搜索空間的目的。由于是與連接產(chǎn)生的,根據(jù)Apriori的性質(zhì)頻繁項集的所有非空子集也必須是頻繁項集,所以不滿足該性質(zhì)的項集將不會存在于,該過程就是剪枝。關聯(lián)規(guī)則——Apriori算法實現(xiàn)Apriori算法的實現(xiàn)的兩個過程過程一:找出所有的頻繁項集。過程二:由頻繁項集產(chǎn)生強關聯(lián)規(guī)則由過程一可知未超過預定的最小支持度閾值的項集已被剔除,如果剩下這些規(guī)則又滿足了預定的最小置信度閾值,那么就挖掘出了強關聯(lián)規(guī)則。關聯(lián)規(guī)則——Apriori算法實現(xiàn)下面將結(jié)合餐飲行業(yè)的實例來講解Apriori關聯(lián)規(guī)則算法挖掘的實現(xiàn)過程。數(shù)據(jù)庫中部分點餐數(shù)據(jù)下表:關聯(lián)規(guī)則——Apriori算法案例序列時間訂單號菜品id菜品名稱12014/8/2110118491健康麥香包22014/8/211018693香煎蔥油餅32014/8/211018705翡翠蒸香茜餃42014/8/211028842菜心粒咸骨粥52014/8/211027794養(yǎng)顏紅棗糕62014/8/211038842金絲燕麥包72014/8/211038693三絲炒河粉……………首先將上表中的事務數(shù)據(jù)(一種特殊類型的記錄數(shù)據(jù))整理成關聯(lián)規(guī)則模型所需的數(shù)據(jù)結(jié)構(gòu)。從中抽取10個點餐訂單作為事務數(shù)據(jù)集為方便起見將菜品{18491,8842,8693,7794,8705}分別簡記為{a,b,c,d,e}),如:關聯(lián)規(guī)則——Apriori算法案例訂單號菜品id菜品id118491,8693,8705a,c,e28842,7794b,d38842,8693b,c418491,8842,8693,7794a,b,c,d518491,8842a,b68842,8693b,c718491,8842a,b818491,8842,8693,8705a,b,c,e918491,8842,8693a,b,c1018491,8693a,c,e設支持度為0.2,即支持度計數(shù)為2,算法過程如下圖:關聯(lián)規(guī)則——Apriori算法案例過程一:找最大k項頻繁集關聯(lián)規(guī)則——Apriori算法案

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論