數(shù)據(jù)分析和挖掘課件_第1頁
數(shù)據(jù)分析和挖掘課件_第2頁
數(shù)據(jù)分析和挖掘課件_第3頁
數(shù)據(jù)分析和挖掘課件_第4頁
數(shù)據(jù)分析和挖掘課件_第5頁
已閱讀5頁,還剩77頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第18章 數(shù)據(jù)分析與挖掘1、決策支持系統(tǒng)2、數(shù)據(jù)分析和聯(lián)機(jī)分析處理(OLAP)3、數(shù)據(jù)倉庫工程4、數(shù)據(jù)挖掘11/13/20231數(shù)據(jù)分析與挖掘的社會需求數(shù)據(jù)庫越來越大數(shù)據(jù)挖掘11/13/20232有價值的知識可怕的數(shù)據(jù)數(shù)據(jù)分析與挖掘的社會需求苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!數(shù)據(jù)知識決策模式趨勢事實關(guān)系模型關(guān)聯(lián)規(guī)則序列11/13/20233目標(biāo)市場資金分配貿(mào)易選擇在哪兒做廣告銷售的地理位置金融經(jīng)濟(jì)政府POS.人口統(tǒng)計生命周期1、決策支持系統(tǒng)數(shù)據(jù)庫應(yīng)用系統(tǒng)可廣義地劃分為 事務(wù)處理系統(tǒng)和決策支持系統(tǒng)事務(wù)處理系統(tǒng)用來記錄有關(guān)事務(wù)的信息的系統(tǒng)決策支持系統(tǒng)是從事務(wù)處理系統(tǒng)存儲的細(xì)節(jié)信息中提取出高層次的信息11/13/202342.數(shù)據(jù)分析和聯(lián)機(jī)分析處理隨著數(shù)據(jù)庫技術(shù)的發(fā)展和應(yīng)用,數(shù)據(jù)庫存儲的數(shù)據(jù)量從20世紀(jì)80年代的兆(M)字節(jié)及千兆(G)字節(jié)過渡到現(xiàn)在的兆兆(T)字節(jié)和千兆兆(P)字節(jié),同時,用戶的查詢需求也越來越復(fù)雜,涉及的已不僅是查詢或操縱一張關(guān)系表中的一條或幾條記錄,而且要對多張表中千萬條記錄的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和信息綜合,關(guān)系數(shù)據(jù)庫系統(tǒng)已不能全部滿足這一要求。11/13/20235什么是OLAP聯(lián)機(jī)分析處理(Online

Analytical

Processing)是共享多維信息的、針對特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析的快速軟件技術(shù)。它通過對信息的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進(jìn)行深入觀察。OLAP=多維數(shù)據(jù)庫??11/13/20236OLTP聯(lián)機(jī)事務(wù)處理傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用側(cè)重于日常的商務(wù)操作專門為了實時的數(shù)據(jù)操作而設(shè)計支持?jǐn)?shù)據(jù)的快速插入和修改提供單個紀(jì)錄的查詢支持?jǐn)?shù)千個并發(fā)用戶11/13/20237OLAP是數(shù)據(jù)倉庫的核心部心,數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。

提供數(shù)據(jù)挖掘,發(fā)現(xiàn)數(shù)據(jù)間潛在的聯(lián)系從各個不同的視覺察看數(shù)據(jù)11/13/20238OLTP

vs

OLAP11/13/20239OLAP是多維的(多維數(shù)據(jù)庫有層次概念“嘿…4月份我在北京賣掉了價值十萬美元的可樂”維度的層次概念:產(chǎn)品類別產(chǎn)品名稱地域國家省市時間年季度月日11/13/202310維度和量度11/13/2023113、數(shù)據(jù)倉庫數(shù)據(jù)倉庫簡介數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別如何建設(shè)數(shù)據(jù)倉庫11/13/202312數(shù)據(jù)倉庫簡介數(shù)據(jù)倉庫(data

warehouse)是從多個源中收集一個信息倉儲(或歸檔),在同一個位置用唯一的模式存儲。①長時間存儲②單獨的統(tǒng)一的數(shù)據(jù)接口11/13/202313數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別數(shù)據(jù)倉庫是對于大量已經(jīng)由OLTP形成的數(shù)據(jù)的一種分析型的數(shù)據(jù)庫,用于處理商業(yè)智能、決策支持等重要的決策信息;數(shù)據(jù)倉庫是在數(shù)據(jù)庫應(yīng)用到一定程度之后而對歷史數(shù)據(jù)的加工與分析;是處理兩種不同用途的工具而已。11/13/202314數(shù)據(jù)倉庫的建設(shè)(1)11/13/202315設(shè)計數(shù)據(jù)倉庫一個數(shù)據(jù)倉庫包括了一個中央事實表Fact

table多個維表11/13/202316數(shù)據(jù)倉庫的星型結(jié)構(gòu)11/13/202317數(shù)據(jù)倉庫的建設(shè)(2)11/13/202318ETL:數(shù)據(jù)的提取與轉(zhuǎn)換11/13/202319數(shù)據(jù)倉庫的建設(shè)(3)11/13/202320數(shù)據(jù)倉庫的建設(shè)(4)11/13/202321四、數(shù)據(jù)挖掘11/13/2023221、數(shù)據(jù)挖掘簡介2、數(shù)據(jù)挖掘系統(tǒng)的特征3、數(shù)據(jù)挖掘技術(shù)1、數(shù)據(jù)挖掘簡介基本知識數(shù)據(jù)挖掘與OLAP比較數(shù)據(jù)挖掘與KDD比較數(shù)據(jù)挖掘的流程11/13/202323數(shù)據(jù)挖掘簡介1、數(shù)據(jù)挖掘是怎樣的一個過程呢?從海量數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又可能有用的信息和知識的過程。2、數(shù)據(jù)挖掘特性?數(shù)據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu);數(shù)據(jù)挖掘大部分的價值在于利用數(shù)據(jù)挖掘技術(shù)改善預(yù)測模型。11/13/202324數(shù)據(jù)挖掘系統(tǒng)11/13/202325代特征數(shù)據(jù)挖掘算法集成分布計算模型數(shù)據(jù)模型第一代數(shù)據(jù)挖掘作為一個獨立的應(yīng)用支持一個或者多個算法獨立的系統(tǒng)單個機(jī)器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質(zhì)/局部區(qū)域的計算機(jī)群集有些系統(tǒng)支持對象、文本、和連續(xù)的媒體數(shù)據(jù)第三代和預(yù)言模型系統(tǒng)集成多個算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計算支持半結(jié)構(gòu)化數(shù)據(jù)和

web數(shù)據(jù)第四代和移動數(shù)據(jù)/各種計算數(shù)據(jù)聯(lián)合多個算法數(shù)據(jù)管理、預(yù)言模型、移動系統(tǒng)移動和各種計算設(shè)備普遍存在的計算模型數(shù)據(jù)挖掘與OLAP比較(1)功能不同數(shù)據(jù)挖掘DM的功能在于知識發(fā)現(xiàn)。如:數(shù)據(jù)挖掘DM中

的“分類”包括:貝葉斯分類、粗糙集分類、決策樹分類等,是從數(shù)據(jù)中發(fā)現(xiàn)知識規(guī)則而聯(lián)機(jī)分析OLAP是一種自上而下、不斷深入的分析工具:用戶提出問題或假設(shè),OLAP負(fù)責(zé)從上至下深入地提取出關(guān)于該問題的詳細(xì)信息,并以可視化的方式呈現(xiàn)給用戶。用戶先入為主的局限性可能會限制問題和假設(shè)的范圍,從而影響最終的結(jié)論。11/13/202326數(shù)據(jù)組成不同數(shù)據(jù)挖是從混沌的、具有巨大噪聲的數(shù)據(jù)中提煉知識規(guī)則;而聯(lián)機(jī)分析OLAP只是從已經(jīng)規(guī)范化的、純凈的關(guān)系數(shù)據(jù)庫中組織數(shù)據(jù)。知識與數(shù)據(jù)的關(guān)系不同數(shù)據(jù)挖掘DM是從數(shù)據(jù)中發(fā)現(xiàn)知識KDD;而聯(lián)機(jī)分析OLAP是利用人已知的知識來有意識地組織和使用數(shù)據(jù)。11/13/202327數(shù)據(jù)挖掘與KDD知識發(fā)現(xiàn)(KD)–輸出的是規(guī)則數(shù)據(jù)挖掘(DM)–輸出的是模型共同點–兩種方法輸入的都是學(xué)習(xí)集(learning

sets)–目的都是盡可能多的自動化數(shù)據(jù)挖掘過程–數(shù)據(jù)挖掘過程并不能完全自動化,只能半自動化11/13/202328SQL

Server

2005數(shù)據(jù)挖掘處理流程11/13/2023292、數(shù)據(jù)挖掘系統(tǒng)的特征礦山(數(shù)據(jù)) 挖掘工具(算法) 金子(知識)數(shù)據(jù)的特征知識的特征算法的特征11/13/202330數(shù)據(jù)的特征11/13/202331大容量POS數(shù)據(jù)(某個超市每天要處理高達(dá)2000萬筆交易)衛(wèi)星圖象(NASA的地球觀測衛(wèi)星以每小時50GB的速度發(fā)回數(shù)據(jù))互聯(lián)網(wǎng)數(shù)據(jù)含噪音(不完全、不正確)異質(zhì)數(shù)據(jù)(多種數(shù)據(jù)類型混合的數(shù)據(jù)源,來自互聯(lián)網(wǎng)的數(shù)據(jù)是典型的例子)系統(tǒng)的特征11/13/202332知識發(fā)現(xiàn)系統(tǒng)需要一個前處理過程數(shù)據(jù)抽取數(shù)據(jù)清洗數(shù)據(jù)選擇數(shù)據(jù)轉(zhuǎn)換知識發(fā)現(xiàn)系統(tǒng)是一個自動/半自動過程知識發(fā)現(xiàn)系統(tǒng)要有很好的性能知識的特征11/13/202333知識發(fā)現(xiàn)系統(tǒng)能夠發(fā)現(xiàn)什么知識?計算學(xué)習(xí)理論COLT(Computational

Learning

Theory)以FOL為基礎(chǔ)的以發(fā)現(xiàn)關(guān)系為目的的歸納邏輯程序設(shè)計現(xiàn)行的知識發(fā)現(xiàn)系統(tǒng)只能發(fā)現(xiàn)特定模式的知識規(guī)則分類關(guān)聯(lián)算法的特征11/13/202334構(gòu)成數(shù)據(jù)挖掘算法的三要素模式記述語言:反映了算法可以發(fā)現(xiàn)什么樣的知識模式評價:反映了什么樣的模式可以稱為知識模式探索:包括針對某一特定模式對參數(shù)空間的探索和對模式空間的探索3、數(shù)據(jù)挖掘技術(shù)技術(shù)分類預(yù)言(Predication):用歷史預(yù)測未來描述(Description):了解數(shù)據(jù)中潛在的規(guī)律數(shù)據(jù)挖掘技術(shù)分類關(guān)聯(lián)規(guī)則聚集時間序列11/13/202335決策樹算法基本介紹根據(jù)數(shù)據(jù)源,找到?jīng)Q定預(yù)測目標(biāo)的因素的重要關(guān)系登記以及程度。把已知條件自動分解為多個離散的類別初始狀態(tài)是一個大的空間,挖掘的過程是遞歸分區(qū)—不斷分割。11/13/202336案例我們有大量的客戶 年齡在20-60歲

月薪在0—8000元55%的被我們認(rèn)可為好客戶里邊潛在的規(guī)律是什么?11/13/202337誰是我們的有價值客戶呢?11/13/202338誰是我們的有價值客戶呢?11/13/202339誰是我們的有價值客戶呢?11/13/202340決策樹算法典型應(yīng)用一個或多個變量預(yù)測目標(biāo),變量對目標(biāo)的重要程序。預(yù)測客戶是否會購買某種產(chǎn)品,預(yù)測潛在客戶。評估客戶風(fēng)險找到?jīng)Q策規(guī)則11/13/202341關(guān)聯(lián)規(guī)則算法基本介紹分析發(fā)現(xiàn)數(shù)據(jù)庫中不同變量或個體間之間的關(guān)系程度,用這些規(guī)則找出顧客購買行為模式。關(guān)聯(lián)規(guī)則算法可以處理異常大的目錄,經(jīng)過了包含超過五千萬種商品的目錄的測試。11/13/202342關(guān)聯(lián)規(guī)則算法典型應(yīng)用購物籃物品關(guān)聯(lián)度貨品擺放捆綁銷售網(wǎng)站內(nèi)容關(guān)聯(lián)個性化促銷網(wǎng)上書店關(guān)聯(lián)銷售……11/13/202343聚類算法基本介紹將相似的事物歸類最大期望方法K-Means11/13/202344聚類算法典型應(yīng)用分類和預(yù)測、客戶價值度分析典型問題尋找有價值客戶群體尋找欺詐群體11/13/202345數(shù)據(jù)挖掘算法-分類11/13/202346分類

VS

預(yù)測分類:預(yù)測項目所屬類根據(jù)已有訓(xùn)練數(shù)據(jù)集和所屬類,構(gòu)建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)預(yù)測:是構(gòu)造和使用模型評估無樣本類,或評估給定樣本可能具有的屬性或值空間。建立連續(xù)函數(shù)值模型,比如預(yù)測空缺值11/13/202347預(yù)測和分類的異同11/13/202348相同點兩者都需要構(gòu)建模型都用模型來估計未知值預(yù)測當(dāng)中主要的估計方法是回歸分析線性回歸和多元回歸非線性回歸不同點分類法主要是用來預(yù)測類標(biāo)號(分類屬性值)預(yù)測法主要是用來估計連續(xù)值(量化屬性值)第一步:建立模型訓(xùn)練數(shù)據(jù)集分類算法IF

rank=

‘professor’OR

years

>

6THEN

tenured

=

‘yes’分類規(guī)則11/13/202349第二步:用模型進(jìn)行分類分類規(guī)則測試集未知數(shù)據(jù)(Jeff,

Professor,4)Tenured?11/13/202350注:測試集要獨立于訓(xùn)練樣本集,否則會出現(xiàn)“過分適應(yīng)數(shù)據(jù)”的情況分類前期工作:準(zhǔn)備數(shù)據(jù)通過對數(shù)據(jù)進(jìn)行預(yù)處理,可以提高分類和預(yù)測過程的準(zhǔn)確性、有效性和可伸縮性數(shù)據(jù)清理消除或減少噪聲,處理空缺值。相關(guān)性分析數(shù)據(jù)中的有些屬性可能與當(dāng)前任務(wù)不相關(guān);也有些屬性可能是冗余的;數(shù)據(jù)變換可以將數(shù)據(jù)概化到較高層概念,或?qū)?shù)據(jù)進(jìn)行規(guī)范化11/13/202351比較分類方法使用下列標(biāo)準(zhǔn)比較分類和預(yù)測方法預(yù)測的準(zhǔn)確率:模型正確預(yù)測新數(shù)據(jù)的類編號的能力速度:產(chǎn)生和使用模型的計算花銷魯棒性:給定噪聲數(shù)據(jù)或有空缺值的數(shù)據(jù),模型正確預(yù)測的能力可伸縮性:對大量數(shù)據(jù),有效的構(gòu)建模型的能力可解釋性:學(xué)習(xí)模型提供的理解和洞察的層次11/13/202352用判定樹歸納分類什么是判定樹?類似于流程圖的樹結(jié)構(gòu)每個內(nèi)部節(jié)點表示在一個屬性上的測試每個分枝代表一個測試輸出每個樹葉節(jié)點代表類或類分布判定樹的生成由兩個階段組成判定樹構(gòu)建開始時,所有的訓(xùn)練樣本都在根節(jié)點遞歸的通過選定的屬性,來劃分樣本(必須是離散值)樹剪枝許多分枝反映的是訓(xùn)練數(shù)據(jù)中的噪聲和孤立點,樹剪枝試圖檢測和剪去這種分枝判定樹的使用:對未知樣本進(jìn)行分類通過將樣本的屬性值與判定樹相比較11/13/202353判定歸納樹算法判定歸納樹算法(一個貪心算法)自頂向下的分治方式構(gòu)造判定樹樹以代表訓(xùn)練樣本的單個根節(jié)點開始使用分類屬性(如果是量化屬性,則需先進(jìn)行離散化)遞歸的通過選擇相應(yīng)的測試屬性,來劃分樣本,一旦一個屬性出現(xiàn)在一個節(jié)點上,就不在該節(jié)點的任何后代上出現(xiàn)測試屬性是根據(jù)某種啟發(fā)信息或者是統(tǒng)計信息來進(jìn)行選擇(如:信息增益)注:屬性的選擇遞歸劃分步驟停止的條件給定節(jié)點的所有樣本屬于同一類沒有剩余屬性可以用來進(jìn)一步劃分樣本——使用多數(shù)表決沒有剩余的樣本11/13/202354貝葉斯分類貝葉斯分類利用統(tǒng)計學(xué)中的貝葉斯定理,來預(yù)測類成員的概率,即給定一個樣本,計算該樣本屬于一個特定的類的概率。樸素貝葉斯分類:假設(shè)每個屬性之間都是相互獨立的,并且每個屬性對非類問題產(chǎn)生的影響都是一樣的。11/13/202355提高分類法的準(zhǔn)確性Bagging技術(shù)和boosting技術(shù)都通過將T個學(xué)習(xí)得到的分類法C1,C2…CT組合起來,從而創(chuàng)造一個改進(jìn)的分類法C*Bagging技術(shù)對訓(xùn)練集S進(jìn)行T次迭代,每次通過放回取樣選取樣本集St,通過學(xué)習(xí)St得到分類法Ct對于未知樣本X,每個分類法返回其類預(yù)測,作為一票C*統(tǒng)計得票,并將得票最高的預(yù)測賦予XBoosting技術(shù)每個訓(xùn)練樣本賦予一個權(quán)值Ct的權(quán)值取決于其錯誤率11/13/202356數(shù)據(jù)挖掘算法11/13/202357-關(guān)聯(lián)什么是關(guān)聯(lián)挖掘?關(guān)聯(lián)規(guī)則挖掘:在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性、或因果結(jié)構(gòu)。應(yīng)用:購物籃分析、交叉銷售、產(chǎn)品目錄設(shè)計等。舉例:規(guī)則形式:“Body

ead[support,confidence]”.buys(x,

“diapers”)

buys(x,

“beers”)

[0.5%,60%]11/13/202358規(guī)則度量:支持度與可信度注:可信度–

A?

C

(50%,

66.6%)–

C?

A

(50%,

100%)二者都買的客戶

買尿布的客戶買啤酒的客戶?查找所有的規(guī)則

X

&

Y

?

Z

具有最小支持度和可信度支持度,s,一次交易中包含{X、Y、Z}的可能性可信度,c,包含{X、Y}的交易中也包含Z的條件概率11/13/202359關(guān)聯(lián)規(guī)則挖掘:不同類型的關(guān)聯(lián)布爾vs.定量

關(guān)聯(lián)

(基于處理數(shù)據(jù)的類型)buys(x,

“SQLServer”)

^

buys(x,

“DMBook”)

buys(x,

“DBMiner”)[0.2%,

60%]age(x,

“30..39”)

^

income(x,

“42..48K”)

buys(x,

“PC”)

[1%,75%]單維vs.多維

關(guān)聯(lián)

(例子同上)單層vs.多層

分析那個品種牌子的啤酒與那個牌子的尿布有關(guān)系?各種擴(kuò)展相關(guān)性、因果分析關(guān)聯(lián)并不一定意味著相關(guān)或因果添加約束如,哪些“小東西”的銷售促發(fā)了“大家伙”的買賣?11/13/202360關(guān)聯(lián)規(guī)則挖掘—一個例子對于A

C:support=support({A、C})=50%confidence=support({A

、C})/support({A})=66.6%最小值尺度50%最小可信度50%11/13/202361關(guān)鍵步驟:挖掘頻繁集11/13/202362Apriori的基本思想:頻繁項集的任何子集也一定是頻繁的頻繁集:是指滿足最小支持度的項目集合頻繁集的子集也一定是頻繁的如,如果{AB}是頻繁集,則{A}{B}也一定是頻繁集從1到k(k-頻繁集)遞歸查找頻繁集用得到的頻繁集生成關(guān)聯(lián)規(guī)則多層關(guān)聯(lián)規(guī)則項通常具有層次底層的項通常支持度也低某些特定層的規(guī)則可能更有意義交易數(shù)據(jù)庫可以按照維或?qū)泳幋a可以進(jìn)行共享的多維挖掘食品面包牛奶脫脂奶光明統(tǒng)一酸奶白黃11/13/202363挖掘多層關(guān)聯(lián)規(guī)則11/13/202364自上而下,深度優(yōu)先的方法:先找高層的“強(qiáng)”規(guī)則:牛奶

面包

[20%,60%].再找他們底層的“弱”規(guī)則:酸奶

黃面包

[6%,

50%].多層關(guān)聯(lián)規(guī)則支持度不變:在各層之間使用統(tǒng)一的支持度–

+一個最小支持度閾值.

如果一個項集的父項集不具有最小支持度,那他本身也不可能滿足最小支持度。–底層項不會成為頻繁集,如果支持度太高

丟失底層關(guān)聯(lián)規(guī)則太低

生成太多的高層關(guān)聯(lián)規(guī)則支持度遞減:隨著層次的降低支持度遞減11/13/202365支持度不變支持度不變多層挖掘牛奶[support

=

10%]酸奶[support

=

6%]脫脂奶[support

=

4%]層1min_sup

=

5%11/13/202366層2min_sup

=

5%支持度遞減支持度遞減多層挖掘酸奶[support

=

6%]脫脂奶[support

=

4%]層1min_sup

=

5%11/13/202367層2min_sup

=

3%牛奶[support

=

10%]多層關(guān)聯(lián):冗余過濾由于“祖先”關(guān)系的原因,有些規(guī)則可能是多余的。例子牛奶

白面包

[support

=

8%,

confidence

=

70%]酸奶

白面包[support=2%,confidence=72%]我們稱第一個規(guī)則是第二個規(guī)則的祖先參考規(guī)則的祖先,如果他的支持度與我們“預(yù)期”的支持度近似的話,我們就說這條規(guī)則是冗余的。11/13/202368多層挖掘:深度優(yōu)先11/13/202369自頂向下,深度優(yōu)先的方法:先挖掘高層頻繁項:牛奶(15%),面包(10%)再挖掘他們底層的相對較弱的頻繁項:酸奶(5%),白面包(4%)跨層時對支持度的不同處理方法,對應(yīng)了不同的算法:層之間支持度不變:如果t的祖先是非頻繁的,則不用考慮t支持度隨層遞減:則只考慮那些其祖先是頻繁的/不可忽略的項多維關(guān)聯(lián)規(guī)則:概念單維規(guī)則:buys(X,

“milk”)

buys(X,

“bread”)多維規(guī)則:2個以上維/謂詞維間關(guān)聯(lián)規(guī)則(維詞不重復(fù))age(X,”19-25”)

occupation(X,“student”)

buys(X,“coke”)混合維關(guān)聯(lián)規(guī)則(維詞重復(fù))age(X,”19-25”)

buys(X,“popcorn”)

buys(X,“coke”)類別屬性有限個值,值之間無順序關(guān)系數(shù)量屬性數(shù)字的,值之間隱含了順序關(guān)系11/13/202370挖掘多維關(guān)聯(lián)的技術(shù)搜索頻繁k-維詞集合:如:{age,occupation,buys}是一個3-維詞集合。按照對age

處理方式的不同,分為:用靜態(tài)方法把數(shù)值屬性離散化數(shù)值屬性可用預(yù)定義的概念層次加以離散化。帶數(shù)量的關(guān)聯(lián)規(guī)則根據(jù)數(shù)據(jù)的分布動態(tài)的把數(shù)值屬性離散化到不同的“箱”?;诰嚯x的關(guān)聯(lián)規(guī)則用數(shù)據(jù)點之間的距離動態(tài)的離散化11/13/202371大趨勢11/13/202372—BIG

DATA2023/11/1373美國的大數(shù)據(jù)戰(zhàn)略2012年3月,美國奧巴馬政府宣布投資2億美元啟動“大數(shù)據(jù)研發(fā)計劃”,旨在提高和改進(jìn)從海量和復(fù)雜數(shù)據(jù)中獲取知識的能力,加速美國在科學(xué)和工程領(lǐng)域發(fā)明的步伐,增強(qiáng)國家安全。這是繼1993年美國宣布“信息高速公路”計劃后的又一次重大科技發(fā)展部署,由美國國家科學(xué)基金會、能源部等6個聯(lián)邦部門共同投資。2023/11/1374谷歌的盈利在于所有的軟件應(yīng)用都是在線的。用戶在免費使用這些產(chǎn)品的同時,把個人的行為、喜好等信息也免費的送給了Google。因此Google的產(chǎn)品線越豐富,他對用戶的理解就越深入,他的廣告就越精準(zhǔn)。廣告的價值就越高。這是正向的循環(huán),谷歌好用

的、免費得軟件產(chǎn)品,換取對

用戶的理解;通過精準(zhǔn)的廣告,找到生財之道。顛覆了微軟賣

軟件拷貝賺錢的模式。成為互聯(lián)網(wǎng)的巨頭。互聯(lián)網(wǎng)越來越智能2023/11/1375馬云的判斷來自于數(shù)據(jù)分析“2008年初,阿里巴巴平臺上整個買家詢盤數(shù)急劇下滑,歐美對中國采購在下滑。海關(guān)是賣了貨,出去以后再獲得數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論