7(2)-數(shù)據(jù)挖掘與決策支持_第1頁
7(2)-數(shù)據(jù)挖掘與決策支持_第2頁
7(2)-數(shù)據(jù)挖掘與決策支持_第3頁
7(2)-數(shù)據(jù)挖掘與決策支持_第4頁
7(2)-數(shù)據(jù)挖掘與決策支持_第5頁
已閱讀5頁,還剩53頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘與智能決策技術(shù)簡介

背景

二十世紀(jì)末以來,全球信息量以驚人的速度急劇增長—據(jù)估計(jì),每二十個(gè)月將增加一倍。許多組織機(jī)構(gòu)的IT系統(tǒng)中都收集了大量的數(shù)據(jù)(信息)。目前的數(shù)據(jù)庫系統(tǒng)雖然可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢(shì)。為了充分利用現(xiàn)有信息資源,從海量數(shù)據(jù)中找出隱藏的知識(shí),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生并顯示出強(qiáng)大的生命力。

背景

數(shù)據(jù)挖掘是八十年代投資AI研究項(xiàng)目失敗后,AI轉(zhuǎn)入實(shí)際應(yīng)用時(shí)提出的。它是一個(gè)新興的,面向商業(yè)應(yīng)用的AI研究。(AI(ArtificialIntelligence,人工智能))1989年8月,在美國底特律召開的第11屆國際人工智能聯(lián)合會(huì)議的專題討論會(huì)上首次出現(xiàn)數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD)這一術(shù)語。隨后,在1991年、1993年和1994年都舉行KDD專題討論會(huì),匯集來自各個(gè)領(lǐng)域的研究人員和應(yīng)用開發(fā)者,集中討論數(shù)據(jù)統(tǒng)計(jì)、海量數(shù)據(jù)分析算法、知識(shí)表示、知識(shí)運(yùn)用等問題。最初,數(shù)據(jù)挖掘是作為KDD中利用算法處理數(shù)據(jù)的一個(gè)步驟,其后逐漸演變成KDD的同義詞。

數(shù)據(jù)挖掘定義技術(shù)角度的定義數(shù)據(jù)挖掘(DataMining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。與數(shù)據(jù)挖掘相近的同義詞包括:數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。這一定義包括好幾層含義:數(shù)據(jù)源必須是真實(shí)的、海量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問題。

數(shù)據(jù)挖掘定義商業(yè)角度的定義數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性信息。簡言之,數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法。因此,數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證己知的規(guī)律性,并進(jìn)一步將其模型化的有效方法。

數(shù)據(jù)倉庫的定義

數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時(shí)間相關(guān)的、不可修改的數(shù)據(jù)集合。此定義由最為權(quán)威的、被稱為“數(shù)據(jù)倉庫之父”的WilliamH.Inmon先生給出。

數(shù)據(jù)內(nèi)容

數(shù)據(jù)庫名(數(shù)據(jù)庫內(nèi)容描述)

注意:信息的完整性;相關(guān)業(yè)務(wù)人員達(dá)成共識(shí)。

業(yè)務(wù)人員確定

IT人員確定數(shù)據(jù)結(jié)構(gòu)……...計(jì)算機(jī)內(nèi)主題數(shù)據(jù)庫數(shù)據(jù)標(biāo)準(zhǔn)化決策支持:從數(shù)據(jù)庫到數(shù)據(jù)倉庫到數(shù)據(jù)集市到……數(shù)據(jù)倉庫的定義

數(shù)據(jù)倉庫是決策支持系統(tǒng)(DecisionSupportSystem,DSS,DSS)的基礎(chǔ)。在數(shù)據(jù)倉庫中只有單一集成的數(shù)據(jù)源,并且數(shù)據(jù)是可訪問的。所以與傳統(tǒng)數(shù)據(jù)庫相比,在數(shù)據(jù)倉庫環(huán)境中DSS分析員的工作將較為容易。

數(shù)據(jù)倉庫的組成一個(gè)數(shù)據(jù)倉庫的大小一般都是在100GB以上通常,數(shù)據(jù)倉庫系統(tǒng)應(yīng)該包含下列程序:(1)抽取數(shù)據(jù)與加載數(shù)據(jù)(2)整理并轉(zhuǎn)換數(shù)據(jù)(采用一種數(shù)據(jù)倉庫適用的數(shù)據(jù)格式)(3)備份與備存數(shù)據(jù)(4)管理所有查詢(即將查詢導(dǎo)向適當(dāng)?shù)臄?shù)據(jù)源)數(shù)據(jù)倉庫的組成OLAP的定義、特點(diǎn)60年代,關(guān)系數(shù)據(jù)庫之父E.F.Codd提出了關(guān)系模型,促進(jìn)了聯(lián)機(jī)事務(wù)處理(OLTP)的發(fā)展(數(shù)據(jù)以表格的形式而非文件方式存儲(chǔ))。1993年,E.F.Codd提出了OLAP概念,認(rèn)為OLTP已不能滿足終端客戶對(duì)數(shù)據(jù)庫查詢分析的需要,SQL對(duì)大型數(shù)據(jù)庫的簡單查詢也不能滿足終端客戶分析的要求??蛻舻臎Q策分析需要對(duì)關(guān)系數(shù)據(jù)庫進(jìn)行大量計(jì)算才能獲得結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。OLAP的定義、特點(diǎn)OLAP(On-LineAnalysisProcessing)定義是數(shù)據(jù)倉庫上的分析展示工具,它建立在數(shù)據(jù)多維視圖的基礎(chǔ)上。

OLAP的主要特點(diǎn)一是在線性(OnLine),體現(xiàn)為對(duì)用戶請(qǐng)求的快速響應(yīng)和交互式操作;二是多維分析(Multi_Analysis),這是OLAP技術(shù)的核心所在。

OLAP的定義和特點(diǎn)OLAP與OLTP的區(qū)別

(1)OLTP主要面向公司職員;OLAP則主要面向公司領(lǐng)導(dǎo)者。(2)OLTP應(yīng)用主要是用來完成客戶的事務(wù)處理,其數(shù)據(jù)基礎(chǔ)是操作型數(shù)據(jù)庫,如民航訂票系統(tǒng)、銀行儲(chǔ)蓄系統(tǒng)等等,通常需要進(jìn)行大量的更新操作,同時(shí)對(duì)響應(yīng)時(shí)間要求較高;而OLAP是以數(shù)據(jù)倉庫或數(shù)據(jù)多維視圖為基礎(chǔ)的數(shù)據(jù)分析處理,是針對(duì)特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析,它一般不對(duì)倉庫數(shù)據(jù)作修改處理,而只是查詢,其應(yīng)用主要是對(duì)客戶當(dāng)前及歷史數(shù)據(jù)進(jìn)行分析,輔助領(lǐng)導(dǎo)決策,其典型的應(yīng)用有對(duì)銀行信用卡風(fēng)險(xiǎn)的分析與預(yù)測、公司市場營銷策略的制定等,主要是進(jìn)行大量的查詢操作,對(duì)時(shí)間的要求不太嚴(yán)格。多維數(shù)據(jù)Salesvolumeasafunctionofproduct,month,andregionProductRegionMonthDimensions:Product,Location,TimeHierarchicalsummarizationpathsIndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay立方體實(shí)例TotalannualsalesofTVinU.S.A.DateProductCountryAll,All,Allsumsum

TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum數(shù)據(jù)立方體的瀏覽VisualizationOLAPcapabilitiesInteractivemanipulation客戶保留目標(biāo)營銷欺詐檢測購物籃分析客戶細(xì)分客戶忠誠度信用打分信用風(fēng)險(xiǎn)評(píng)估營銷組合管理和評(píng)估盈利能力分析價(jià)格優(yōu)化客戶服務(wù)自動(dòng)化銷售收入和需求預(yù)測利潤分析交叉銷售和增量銷售活動(dòng)管理客戶流失分析客戶服務(wù)和問題解決業(yè)績和能力管理分銷渠道業(yè)績分析營業(yè)廳和服務(wù)商業(yè)績分析流程和質(zhì)量控制稅收監(jiān)控可能受益的商業(yè)活動(dòng)數(shù)據(jù)挖掘解決方案歷史數(shù)據(jù)預(yù)測模型新申請(qǐng)者信用等級(jí)評(píng)價(jià)預(yù)測模型:用過去的客戶數(shù)據(jù)預(yù)測未來理解商業(yè)問題

性別父親的教育程度被訪者教育程度工作類型城市當(dāng)前收入水平性別父親的教育程度被訪者教育程度工作類型城市當(dāng)前收入水平當(dāng)前財(cái)政狀況未來信用風(fēng)險(xiǎn)Time1Time2家庭收入銷售數(shù)量喜歡流行音樂數(shù)據(jù)挖掘解決方案PreprocessedDataDataTranslatedDataPatterns/ModelsResultsPreprocessingAnalysisInputOutput數(shù)據(jù)挖掘解決方案主要數(shù)據(jù)挖掘技術(shù)分類Classification預(yù)測Prediction細(xì)分Segmentation關(guān)聯(lián)Association序列Sequence將您的顧客和客戶分類預(yù)測未來的銷量和欺詐,流失將市場、顧客細(xì)分發(fā)現(xiàn)那些商品會(huì)在一起銷售或購買找出時(shí)間進(jìn)程中的模式或趨勢(shì)決策樹規(guī)則偵測回歸分析聚類分析神經(jīng)網(wǎng)絡(luò)序列模式DecisionTreesNeuralNetworks

RuleInductionNearestNeighbor

GeneticAlgorithms數(shù)據(jù)挖掘主要新技術(shù)決策樹神經(jīng)網(wǎng)絡(luò)規(guī)則偵測序列規(guī)則基因算法

基于層次的聚類方法這類方法不需要預(yù)先給定參數(shù)(聚類數(shù)),但需要終止條件。Step0Step1Step2Step3Step4bdceaabdecdeabcdeStep4Step3Step2Step1Step0agglomerative(AGNES)divisive(DIANA)CURE算法-DataPartitioningandClusterings=50p=2s/p=25xxxyyyyxyxs/pq=5CHAMELEON算法ConstructSparseGraphPartitiontheGraphMergePartitionFinalClustersDataSet客戶總列表30%VIP0-1孩子2-3孩子20%VIP4+孩子$50-75kincome15%VIP$75k+income70%VIP$50-75kincome$20-50kincome85%VIPAge:40-6080%VIPAge:20-4045%VIP分類決策樹Attributes={Outlook,Temperature,Humidity,Wind}OutlookHumidityWindsunnyrainovercastyesnoyeshighnormalnostrongweakyesPlayTennis={yes,no}打高爾夫球的決策樹實(shí)例(自頂向下)

根據(jù)加薪百分比、工作時(shí)長、法定節(jié)假日、及醫(yī)療保險(xiǎn)三個(gè)屬性來判斷一個(gè)企業(yè)的福利狀況(good或bad)。對(duì)象關(guān)系網(wǎng)絡(luò)網(wǎng)絡(luò)分析強(qiáng)弱路徑自我小群體缺失角色網(wǎng)絡(luò)分析神經(jīng)網(wǎng)絡(luò)線性回歸Logistics回歸多層神經(jīng)網(wǎng)絡(luò)細(xì)胞繁殖3.2.2.6神經(jīng)網(wǎng)絡(luò)算法

人工神經(jīng)網(wǎng)(ArtificialNeuralNetwork,ANN)是20世紀(jì)80年代后期迅速發(fā)展起來的人工智能技術(shù),它對(duì)噪聲數(shù)據(jù)具有很高的承受能力,對(duì)未經(jīng)訓(xùn)練的數(shù)據(jù)具有分類模擬的能力,因此在網(wǎng)站信息、生物信息和基因以及文本的數(shù)據(jù)挖掘等領(lǐng)域得到了越來越廣泛的應(yīng)用。在多種ANN模型中,反向傳播(BackPropagation,BP)網(wǎng)絡(luò)是應(yīng)用最廣的一種。

神經(jīng)元

通過非線性函數(shù)n維的輸入向量

x

被映射為變量ymk-fweightedsumInputvectorxoutputyActivationfunctionweightvectorw?w0w1wnx0x1xn神經(jīng)網(wǎng)絡(luò)的組成輸出節(jié)點(diǎn)輸入節(jié)點(diǎn)隱層節(jié)點(diǎn)輸入矢量輸入矢量:xiwij基本的BP網(wǎng)絡(luò)由輸入層、輸出層和隱層組成。神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)

神經(jīng)網(wǎng)絡(luò)訓(xùn)練之前,需要設(shè)計(jì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。設(shè)計(jì)網(wǎng)絡(luò)拓?fù)涞年P(guān)鍵是,確定隱層的神經(jīng)元個(gè)數(shù)及各神經(jīng)元初始權(quán)值和閾值(偏差)。理論上講,隱層的神經(jīng)元數(shù)越多,逼近越精確。但實(shí)際上,隱層神經(jīng)元數(shù)不宜過多;否則會(huì)極大加長訓(xùn)練時(shí)間,并造成網(wǎng)絡(luò)容錯(cuò)能力下降。經(jīng)訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)若其準(zhǔn)確性不能被接受,則必須重新進(jìn)行拓?fù)湓O(shè)計(jì)或改用不同的初始權(quán)值和閾值(偏差)。

神經(jīng)網(wǎng)絡(luò)的訓(xùn)練訓(xùn)練的終止條件獲得一組權(quán)重值,使得訓(xùn)練集中幾乎所有樣本都分類正確訓(xùn)練步驟利用隨機(jī)值對(duì)權(quán)值進(jìn)行初始化將訓(xùn)練樣本逐一地輸入給神經(jīng)網(wǎng)絡(luò),進(jìn)行訓(xùn)練對(duì)于每個(gè)神經(jīng)元將其所有的輸入值進(jìn)行線性求和計(jì)算得到總的輸入利用激勵(lì)函數(shù)計(jì)算其輸出值計(jì)算誤差修正網(wǎng)絡(luò)權(quán)值和閾值(偏差)BP神經(jīng)網(wǎng)絡(luò)

BP神經(jīng)網(wǎng)絡(luò)通過迭代處理一組訓(xùn)練樣本,將各樣本的網(wǎng)絡(luò)預(yù)測與實(shí)際已知類標(biāo)號(hào)進(jìn)行比較實(shí)現(xiàn)學(xué)習(xí)訓(xùn)練,反向修改網(wǎng)絡(luò)的權(quán)值,使得網(wǎng)絡(luò)預(yù)測與實(shí)際類之間的誤差平方最小。BP神經(jīng)網(wǎng)絡(luò)按照最優(yōu)訓(xùn)練準(zhǔn)則反復(fù)迭代,確定并不斷調(diào)整神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過迭代修改,當(dāng)誤差收斂時(shí)學(xué)習(xí)過程終止。因此,具有分類準(zhǔn)確、收斂性好、動(dòng)態(tài)性好和魯棒性強(qiáng)等優(yōu)點(diǎn)。BP神經(jīng)網(wǎng)絡(luò)存在的問題收斂速度問題

BP分類器最大的弱點(diǎn)是其訓(xùn)練速度非常緩慢,難以收斂。尤其是當(dāng)網(wǎng)絡(luò)的訓(xùn)練達(dá)到一定程度后,收斂更為緩慢。局部極小點(diǎn)問題

BP算法采用的是梯度下降法,對(duì)一個(gè)復(fù)雜的網(wǎng)絡(luò)而言,其誤差曲面是一個(gè)高維空間中的曲面,其中分布著許多局部極小點(diǎn),一旦陷入了局部極小點(diǎn)則算法很難逃離出來。

BP神經(jīng)網(wǎng)絡(luò)存在的問題網(wǎng)絡(luò)癱瘓問題

在訓(xùn)練過程中,權(quán)值可能變得很大,這會(huì)使神經(jīng)元的網(wǎng)絡(luò)輸入變得更大,從而使得其激勵(lì)函數(shù)的一階導(dǎo)函數(shù)在此點(diǎn)上的取值很小。此時(shí)的訓(xùn)練步長會(huì)變得非常小,最終導(dǎo)致網(wǎng)絡(luò)停止收斂,這種現(xiàn)象即是所謂的網(wǎng)絡(luò)癱瘓現(xiàn)象。

關(guān)聯(lián)規(guī)則挖掘?qū)嵗?/p>

通過發(fā)現(xiàn)顧客放入其購物籃中不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣。通過了解哪些商品頻繁地被顧客同時(shí)購買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。例如,在同一次購物中,如果顧客購買牛奶的同時(shí),也購買面包(和什么類型的面包)的可能性有多大?這種信息可以引導(dǎo)銷售,可以幫助零售商有選擇地經(jīng)銷和安排貨架。例如,將牛奶和面包盡可能放近一些,可以進(jìn)一步刺激一次去商店同時(shí)購買這些商品。關(guān)聯(lián)規(guī)則挖掘?qū)嵗徫锘@關(guān)聯(lián)分析實(shí)例圖3.3.1基本概念CustomerbuysdiaperCustomerbuysbothCustomerbuysbeer“啤酒與尿布”的關(guān)聯(lián)規(guī)則ForruleA

Csupport=support({A

C})=50%confidence=support({A

C})/support({A})=66.6%ForCA(50%,100%)TheAprioriprinciple:AnysubsetofafrequentitemsetmustbefrequentMin.support50%Min.confidence50%關(guān)聯(lián)挖掘?qū)嵗?.5數(shù)據(jù)挖掘的可視化

以可視化的方式展示數(shù)據(jù)挖掘獲取的相關(guān)知識(shí)。例如:-散點(diǎn)圖和盒圖(obtainedfromdescriptivedatamining)-決策樹-關(guān)聯(lián)規(guī)則-聚類-異常點(diǎn)-規(guī)則SASEnterpriseMiner的散點(diǎn)圖關(guān)聯(lián)規(guī)則的可視化(MineSet3.0)決策樹的可視化(MineSet3.0)聚類的可視化(IntelligentMiner)問題描述:如何決定超市中商品的擺放來增加銷售額結(jié)果描述:(Web圖)數(shù)據(jù)挖掘的典型結(jié)果——交叉銷售數(shù)據(jù)挖掘不能作的事情

如何定義要數(shù)據(jù)挖掘的商業(yè)問題隱含解決企業(yè)問題的有用數(shù)據(jù)識(shí)別數(shù)據(jù)質(zhì)量,搜集初始數(shù)據(jù)精加工并整合數(shù)據(jù),使其滿足挖掘建模要求數(shù)據(jù)變換,使得數(shù)據(jù)庫僅包含建模輸入變量根據(jù)模型制訂行動(dòng)計(jì)劃,并付諸實(shí)施評(píng)價(jià)行動(dòng)結(jié)構(gòu),反饋信息輸入數(shù)據(jù)庫,進(jìn)一步挖掘計(jì)算機(jī)及數(shù)據(jù)處理軟件、統(tǒng)計(jì)軟件的發(fā)展使得我們做數(shù)據(jù)挖掘和統(tǒng)計(jì)分析成為簡單而可能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論