




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第一課數(shù)據(jù)挖掘技術(shù)的由來1.1網(wǎng)絡(luò)之后的下一個技術(shù)熱點(diǎn)1.2數(shù)據(jù)爆炸但知識貧乏1.3支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)1.4從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化1.5數(shù)據(jù)挖掘逐漸演變的過程1.1網(wǎng)絡(luò)之后的下一個技術(shù)熱點(diǎn)我們現(xiàn)在已經(jīng)生活在一個網(wǎng)絡(luò)化的時代,通信、計算機(jī)和網(wǎng)絡(luò)技術(shù)正改變著整個人類和社會。如果用精品文檔放心下載芯片集成度來衡量微電子技術(shù),用CPU處理速度來衡量計算機(jī)技術(shù),用信道傳輸速率來衡量通信技術(shù),那感謝閱讀么摩爾定律告訴我們,它們都是以每18個月翻一番的速度在增長,這一勢頭已經(jīng)維持了十多年。在美國,精品文檔放心下載廣播達(dá)到5000萬戶用了38年;電視用了13年;Internet撥號上網(wǎng)達(dá)到5000萬戶僅用了4年。全球IP感謝閱讀網(wǎng)發(fā)展速度達(dá)到每6個月翻一番,國內(nèi)情況亦然。1999年初,中國上網(wǎng)用戶為210萬,現(xiàn)在已經(jīng)達(dá)到600感謝閱讀1998年全球產(chǎn)值排序前100名中,跨國企業(yè)占了5149感謝閱讀個。有人提出,對待一個跨國企業(yè)也許比對待一個國家還要重要。在新世紀(jì)鐘聲剛剛敲響的時候,回顧往謝謝閱讀精品文檔放心下載要把網(wǎng)絡(luò)技術(shù)與火的發(fā)明相比擬?;鸬陌l(fā)明區(qū)別了動物和人,種種科學(xué)技術(shù)的重大發(fā)現(xiàn)擴(kuò)展了自然人的體感謝閱讀能、技能和智能,而網(wǎng)絡(luò)技術(shù)則大大提高了人的生存質(zhì)量和人的素質(zhì),使人成為社會人、全球人。精品文檔放心下載現(xiàn)在的問題是:網(wǎng)絡(luò)之后的下一個技術(shù)熱點(diǎn)是什么?讓我們來看一些身邊俯拾即是的現(xiàn)象:《紐約時謝謝閱讀60年代的10~20版擴(kuò)張至現(xiàn)在的100~200157216~40精品文檔放心下載版;市場營銷報已達(dá)100版。然而在現(xiàn)實(shí)社會中,人均日閱讀時間通常為30~45分鐘,只能瀏覽一份24精品文檔放心下載版的報紙。大量信息在給人們帶來方便的同時也帶來了一大堆問題:第一是信息過量,難以消化;第二是感謝閱讀信息真假難以辨識;第三是信息安全難以保證;第四是信息形式不一致,難以統(tǒng)一處理。人們開始提出一精品文檔放心下載個新的口號:“要學(xué)會拋棄信息”。人們開始考慮:“如何才能不被信息淹沒,而是從中及時發(fā)現(xiàn)有用的感謝閱讀知識、提高信息利用率?”面對這一挑戰(zhàn),數(shù)據(jù)開采和知識發(fā)現(xiàn)(DMKD)技術(shù)應(yīng)運(yùn)而生,并顯示出強(qiáng)大的生命力。感謝閱讀1.2數(shù)據(jù)爆炸但知識貧乏另一方面,隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多。精品文檔放心下載激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)謝謝閱讀據(jù)。目前的數(shù)據(jù)庫系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和精品文檔放心下載規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,導(dǎo)致了“數(shù)據(jù)爆感謝閱讀炸但知識貧乏”的現(xiàn)象。1.3支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)數(shù)據(jù)挖掘技術(shù)是人們長期對數(shù)據(jù)庫技術(shù)進(jìn)行研究和開發(fā)的結(jié)果。起初各種商業(yè)數(shù)據(jù)是存儲在計算機(jī)的謝謝閱讀數(shù)據(jù)庫中的,然后發(fā)展到可對數(shù)據(jù)庫進(jìn)行查詢和訪問,進(jìn)而發(fā)展到對數(shù)據(jù)庫的即時遍歷。數(shù)據(jù)挖掘使數(shù)據(jù)謝謝閱讀庫技術(shù)進(jìn)入了一個更高級的階段,它不僅能對過去的數(shù)據(jù)進(jìn)行查詢和遍歷,并且能夠找出過去數(shù)據(jù)之間的精品文檔放心下載潛在聯(lián)系,從而促進(jìn)信息的傳遞。現(xiàn)在數(shù)據(jù)挖掘技術(shù)在商業(yè)應(yīng)用中已經(jīng)可以馬上投入使用,因為對這種技感謝閱讀術(shù)進(jìn)行支持的三種基礎(chǔ)技術(shù)已經(jīng)發(fā)展成熟,他們是:--海量數(shù)據(jù)搜集--強(qiáng)大的多處理器計算機(jī)--數(shù)據(jù)挖掘算法1Friedman[1997]列舉了四個主要的技術(shù)理由激發(fā)了數(shù)據(jù)挖掘的開發(fā)、應(yīng)用和研究的興趣:謝謝閱讀--超大規(guī)模數(shù)據(jù)庫的出現(xiàn),例如商業(yè)數(shù)據(jù)倉庫和計算機(jī)自動收集的數(shù)據(jù)記錄;精品文檔放心下載--先進(jìn)的計算機(jī)技術(shù),例如更快和更大的計算能力和并行體系結(jié)構(gòu);感謝閱讀--對巨大量數(shù)據(jù)的快速訪問;--對這些數(shù)據(jù)應(yīng)用精深的統(tǒng)計方法計算的能力。商業(yè)數(shù)據(jù)庫現(xiàn)在正在以一個空前的速度增長,并且數(shù)據(jù)倉庫正在廣泛地應(yīng)用于各種行業(yè);對計算機(jī)硬謝謝閱讀件性能越來越高的要求,也可以用現(xiàn)在已經(jīng)成熟的并行多處理機(jī)的技術(shù)來滿足;另外數(shù)據(jù)挖掘算法經(jīng)過了感謝閱讀這10多年的發(fā)展也已經(jīng)成為一種成熟,穩(wěn)定,且易于理解和操作的技術(shù)。謝謝閱讀1.4從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化過程中,每一步前進(jìn)都是建立在上一步的基礎(chǔ)上的。見下表。表中我們感謝閱讀可以看到,第四步進(jìn)化是革命性的,因為從用戶的角度來看,這一階段的數(shù)據(jù)庫技術(shù)已經(jīng)可以快速地回答感謝閱讀商業(yè)上的很多問題了。進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集(60年代)“過去五年中我的總收入是多少?”計算機(jī)、磁帶和磁盤IBM,CDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(80年代)關(guān)系數(shù)據(jù)庫(RDBMS“在新英格蘭的分部去Oracle、Sybase、在記錄級提供歷結(jié)構(gòu)化查詢語言(SQL年三月的銷售額是多Informix、、史性的、動態(tài)數(shù)ODBCOracle、Sybase、少?”Microsoft據(jù)信息InformixIBMMicrosoft數(shù)據(jù)倉庫;決策支持(90年代)“在新英格蘭的分部去Pilot、Comshare、在各種層次上提Arbor、Cognos、供回溯的、動態(tài)年三月的銷售額是多聯(lián)機(jī)分析處理(OLAP少?波士頓據(jù)此可得出多維數(shù)據(jù)庫、數(shù)據(jù)倉庫Microstrategy的數(shù)據(jù)信息什么結(jié)論?”數(shù)據(jù)挖掘“下個月波士頓的銷售高級算法、多處理器計算PilotLockheedIBM精品文檔放心下載(正在流行)會怎么樣?為什么?”機(jī)、海量數(shù)據(jù)庫SGI、其他初創(chuàng)公司息感謝閱讀表一、數(shù)據(jù)挖掘的進(jìn)化歷程。數(shù)據(jù)挖掘的核心模塊技術(shù)歷經(jīng)了數(shù)十年的發(fā)展,其中包括數(shù)理統(tǒng)計、人工智能、機(jī)器學(xué)習(xí)。今天,這謝謝閱讀些成熟的技術(shù),加上高性能的關(guān)系數(shù)據(jù)庫引擎以及廣泛的數(shù)據(jù)集成,讓數(shù)據(jù)挖掘技術(shù)在當(dāng)前的數(shù)據(jù)倉庫環(huán)感謝閱讀境中進(jìn)入了實(shí)用的階段。1.5數(shù)據(jù)挖掘逐漸演變的過程數(shù)據(jù)挖掘其實(shí)是一個逐漸演變的過程,電子數(shù)據(jù)處理的初期,人們就試圖通過某些方法來實(shí)現(xiàn)自動決策精品文檔放心下載支持,當(dāng)時機(jī)器學(xué)習(xí)成為人們關(guān)心的焦點(diǎn).機(jī)器學(xué)習(xí)的過程就是將一些已知的并已被成功解決的問題作為范精品文檔放心下載例輸入計算機(jī),機(jī)器通過學(xué)習(xí)這些范例總結(jié)并生成相應(yīng)的規(guī)則,這些規(guī)則具有通用性,使用它們可以解決某感謝閱讀一類的問題.隨后,隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的形成和發(fā)展,人們的注意力轉(zhuǎn)向知識工程,知識工程不同于機(jī)器學(xué)習(xí)謝謝閱讀那樣給計算機(jī)輸入范例,讓它生成出規(guī)則,而是直接給計算機(jī)輸入已被代碼化的規(guī)則,而計算機(jī)是通過使精品文檔放心下載精品文檔放心下載80年代人們又在新的神經(jīng)網(wǎng)絡(luò)理論的指導(dǎo)下,重新回到機(jī)器學(xué)習(xí)的方法上,并將其成果應(yīng)用于處理大型商精品文檔放心下載業(yè)數(shù)據(jù)庫。隨著在80年代末一個新的術(shù)語,它就是數(shù)據(jù)庫中的知識發(fā)現(xiàn),簡稱KDD(Knowledgediscovery感謝閱讀2indatabase).它泛指所有從源數(shù)據(jù)中發(fā)掘模式或聯(lián)系的方法,人們接受了這個術(shù)語,并用KDD來描述整個感謝閱讀數(shù)據(jù)發(fā)掘的過程,包括最開始的制定業(yè)務(wù)目標(biāo)到最終的結(jié)果分析,而用數(shù)據(jù)挖掘(datamining)來描述使感謝閱讀用挖掘算法進(jìn)行數(shù)據(jù)挖掘的子過程。但最近人們卻逐漸開始使用數(shù)據(jù)挖掘中有許多工作可以由統(tǒng)計方法來感謝閱讀完成,并認(rèn)為最好的策略是將統(tǒng)計方法與數(shù)據(jù)挖掘有機(jī)的結(jié)合起來。精品文檔放心下載數(shù)據(jù)倉庫技術(shù)的發(fā)展與數(shù)據(jù)挖掘有著密切的關(guān)系。數(shù)據(jù)倉庫的發(fā)展是促進(jìn)數(shù)據(jù)挖掘越來越熱的原因之謝謝閱讀一。但是,數(shù)據(jù)倉庫并不是數(shù)據(jù)挖掘的先決條件,因為有很多數(shù)據(jù)挖掘可直接從操作數(shù)據(jù)源中挖掘信息。感謝閱讀第二課數(shù)據(jù)挖掘的定義2.1技術(shù)上的定義及含義2.2商業(yè)角度的定義2.3數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別2.4數(shù)據(jù)挖掘和數(shù)據(jù)倉庫2.5數(shù)據(jù)挖掘和在線分析處理(OLAP)2.6數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)和統(tǒng)計2.7軟硬件發(fā)展對數(shù)據(jù)挖掘的影響2.1技術(shù)上的定義及含義數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提精品文檔放心下載取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。精品文檔放心下載與數(shù)據(jù)挖掘相近的同義詞有數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。這個定義包括好幾層含義:數(shù)據(jù)源必謝謝閱讀須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運(yùn)用;謝謝閱讀并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識,僅支持特定的發(fā)現(xiàn)問題。感謝閱讀謝謝閱讀律和約束等看作知識。人們把數(shù)據(jù)看作是形成知識的源泉,好像從礦石中采礦或淘金一樣。原始數(shù)據(jù)可以謝謝閱讀是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù);也可以是半結(jié)構(gòu)化的,如文本、圖形和圖像數(shù)據(jù);甚至是分布在網(wǎng)感謝閱讀精品文檔放心下載精品文檔放心下載數(shù)據(jù)挖掘是一門交叉學(xué)科,它把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,提供謝謝閱讀精品文檔放心下載可視化技術(shù)、并行計算等方面的學(xué)者和工程技術(shù)人員,投身到數(shù)據(jù)挖掘這一新興的研究領(lǐng)域,形成新的技精品文檔放心下載術(shù)熱點(diǎn)。這里所說的知識發(fā)現(xiàn),不是要求發(fā)現(xiàn)放之四海而皆準(zhǔn)的真理,也不是要去發(fā)現(xiàn)嶄新的自然科學(xué)定理和精品文檔放心下載感謝閱讀面向特定領(lǐng)域的,同時還要能夠易于被用戶理解。最好能用自然語言表達(dá)所發(fā)現(xiàn)的結(jié)果。精品文檔放心下載2.2商業(yè)角度的定義數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)精品文檔放心下載換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。精品文檔放心下載簡而言之,數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)分析本身已經(jīng)有很多年的歷史,只不過謝謝閱讀在過去數(shù)據(jù)收集和分析的目的是用于科學(xué)研究,另外,由于當(dāng)時計算能力的限制,對大數(shù)據(jù)量進(jìn)行分析的精品文檔放心下載感謝閱讀3感謝閱讀些數(shù)據(jù)也不再是單純?yōu)榱搜芯康男枰?,更主要是為商業(yè)決策提供真正有價值的信息,進(jìn)而獲得利潤。但所感謝閱讀有企業(yè)面臨的一個共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價值的信息卻很少,因此從大量的數(shù)據(jù)感謝閱讀中經(jīng)過深層分析,獲得有利于商業(yè)運(yùn)作、提高競爭力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也因此而精品文檔放心下載得名。精品文檔放心下載未知的或驗證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。精品文檔放心下載2.3數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報表、聯(lián)機(jī)應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)精品文檔放心下載的前提下去挖掘信息、發(fā)現(xiàn)知識.數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實(shí)用三個特征.謝謝閱讀先前未知的信息是指該信息是預(yù)先未曾預(yù)料到的,既數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或感謝閱讀知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值.在商業(yè)應(yīng)用中最典型的精品文檔放心下載例子就是一家連鎖店通過數(shù)據(jù)挖掘發(fā)現(xiàn)了小孩尿布和啤酒之間有著驚人的聯(lián)系.感謝閱讀2.4數(shù)據(jù)挖掘和數(shù)據(jù)倉庫大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉庫中拿到數(shù)據(jù)挖掘庫或數(shù)據(jù)集市中(見圖1)。從數(shù)謝謝閱讀據(jù)倉庫中直接得到進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)有許多好處。就如我們后面會講到的,數(shù)據(jù)倉庫的數(shù)據(jù)清理和數(shù)據(jù)感謝閱讀挖掘的數(shù)據(jù)清理差不多,如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉庫時已經(jīng)清理過,那很可能在做數(shù)據(jù)挖掘時就沒必要在清謝謝閱讀理一次了,而且所有的數(shù)據(jù)不一致的問題都已經(jīng)被你解決了。謝謝閱讀數(shù)據(jù)挖掘庫可能是你的數(shù)據(jù)倉庫的一個邏輯上的子集,而不一定非得是物理上單獨(dú)的數(shù)據(jù)庫。但如果精品文檔放心下載你的數(shù)據(jù)倉庫的計算資源已經(jīng)很緊張,那你最好還是建立一個單獨(dú)的數(shù)據(jù)挖掘庫。謝謝閱讀感謝閱讀把各個不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問題,然后把所有的數(shù)據(jù)導(dǎo)到一個數(shù)據(jù)倉庫內(nèi),是精品文檔放心下載一項巨大的工程,可能要用幾年的時間花上百萬的錢才能完成。只是為了數(shù)據(jù)挖掘,你可以把一個或幾個精品文檔放心下載事務(wù)數(shù)據(jù)庫導(dǎo)到一個只讀的數(shù)據(jù)庫中,就把它當(dāng)作數(shù)據(jù)集市,然后在他上面進(jìn)行數(shù)據(jù)挖掘。謝謝閱讀2.5數(shù)據(jù)挖掘和在線分析處理(OLAP)OLAP謝謝閱讀4的技術(shù)也大相徑庭。OLAP謝謝閱讀OLAP則更進(jìn)一步告訴你下一步會怎么樣(Whatnext)、和如果我采取這樣的措施又會怎么樣(What感謝閱讀OLAP感謝閱讀OLAP來驗證他這謝謝閱讀個假設(shè)。如果這個假設(shè)沒有被證實(shí),他可能去察看那些高負(fù)債的賬戶,如果還不行,他也許要把收入和負(fù)謝謝閱讀債一起考慮,一直進(jìn)行下去,直到找到他想要的結(jié)果或放棄。精品文檔放心下載也就是說,OLAP分析師是建立一系列的假設(shè),然后通過OLAP來證實(shí)或推翻這些假設(shè)來最終得到自己精品文檔放心下載的結(jié)論。OLAP分析過程在本質(zhì)上是一個演繹推理的過程。但是如果分析的變量達(dá)到幾十或上百個,那么再感謝閱讀用OLAP手動分析驗證這些假設(shè)將是一件非常困難和痛苦的事情。精品文檔放心下載數(shù)據(jù)挖掘與OLAP精品文檔放心下載中自己尋找模型。他在本質(zhì)上是一個歸納的過程。比如,一個用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖謝謝閱讀欠的風(fēng)險因素。數(shù)據(jù)挖掘工具可能幫他找到高負(fù)債和低收入是引起這個問題的因素,甚至還可能發(fā)現(xiàn)一些精品文檔放心下載分析師從來沒有想過或試過的其他因素,比如年齡。數(shù)據(jù)挖掘和OLAP謝謝閱讀果采取這樣的行動會給公司帶來什么樣的影響,那么OLAP工具能回答你的這些問題。精品文檔放心下載而且在知識發(fā)現(xiàn)的早期階段,OLAP工具還有其他一些用途??梢詭湍闾剿鲾?shù)據(jù),找到哪些是對一個問謝謝閱讀題比較重要的變量,發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。這都能幫你更好的理解你的數(shù)據(jù),加快知識發(fā)現(xiàn)的謝謝閱讀過程。2.6數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)和統(tǒng)計數(shù)據(jù)挖掘利用了人工智能(AI)和統(tǒng)計分析的進(jìn)步所帶來的好處。這兩門學(xué)科都致力于模式發(fā)現(xiàn)和預(yù)精品文檔放心下載測。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計分析技術(shù)。相反,他是統(tǒng)計分析方法學(xué)的延伸和擴(kuò)展。大多數(shù)的統(tǒng)而隨著計算機(jī)計算能力的不斷增強(qiáng),我們有可能利用計算機(jī)強(qiáng)大的計算能力只通過相對簡單和固定的方法
完成同樣的功能。精品文檔放心下載一些新興的技術(shù)同樣在知識發(fā)現(xiàn)領(lǐng)域取得了很好的效果,如神經(jīng)元網(wǎng)絡(luò)和決策樹,在足夠多的數(shù)據(jù)和
計算能力下,他們幾乎不用人的關(guān)照自動就能完成許多有價值的功能。謝謝閱讀數(shù)據(jù)挖掘就是利用了統(tǒng)計和人工智能技術(shù)的應(yīng)用程序,他把這些高深復(fù)雜的技術(shù)封裝起來,使人們不
用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問題。精品文檔放心下載2.7軟硬件發(fā)展對數(shù)據(jù)挖掘的影響使數(shù)據(jù)挖掘這件事情成為可能的關(guān)鍵一點(diǎn)是計算機(jī)性能價格比的巨大進(jìn)步。在過去的幾年里磁盤存儲
器的價格幾乎降低了那存放1TB的價格是¥10,000,000,但當(dāng)每兆的價格降為1毛錢時,存儲同樣的數(shù)據(jù)只有¥100,000!
計算機(jī)計算能力價格的降低同樣非常顯著。每一代芯片的誕生都會把CPU的計算能力提高一大步。內(nèi)
存RAMPC都有64M內(nèi)存,
工作站達(dá)到了256M,擁有上G內(nèi)存的服務(wù)器已經(jīng)不是什么新鮮事了。謝謝閱讀在單個CPU計算能力大幅提升的同時,基于多個CPU的并行系統(tǒng)也取得了很大的進(jìn)步。目前幾乎所有
的服務(wù)器都支持多個CPU,這些SMP服務(wù)器簇甚至能讓成百上千個CPU同時工作。精品文檔放心下載基于并行系統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)也給數(shù)據(jù)挖掘技術(shù)的應(yīng)用帶來了便利。如果你有一個龐大而復(fù)雜的數(shù)
據(jù)挖掘問題要求通過訪問數(shù)據(jù)庫取得數(shù)據(jù),那么效率最高的辦法就是利用一個本地的并行數(shù)據(jù)庫。
所有這些都為數(shù)據(jù)挖掘的實(shí)施掃清了道路,隨著時間的延續(xù),我們相信這條道路會越來越平坦。感謝閱讀5第三課數(shù)據(jù)挖掘的研究歷史和現(xiàn)狀3.1歷史現(xiàn)狀3.2出版物及工具3.3國內(nèi)現(xiàn)狀3.4業(yè)界觀點(diǎn)3.1研究歷史從數(shù)據(jù)庫中發(fā)現(xiàn)知識(KDD)一詞首次出現(xiàn)在1989年舉行的第十一屆國際聯(lián)合人工智能學(xué)術(shù)會議上。感謝閱讀到目前為止,由美國人工智能協(xié)會主辦的KDD國際研討會已經(jīng)召開了8次,規(guī)模由原來的專題討論會發(fā)展精品文檔放心下載到國際學(xué)術(shù)大會(見表1),研究重點(diǎn)也逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,注重多種發(fā)現(xiàn)策略和技術(shù)的集成,感謝閱讀以及多種學(xué)科之間的相互滲透。1999年,亞太地區(qū)在北京召開的第三屆PAKDD會議收到158感謝閱讀熱烈。IEEE的KnowledgeandDataEngineering會刊率先在1993年出版了KDD技術(shù)???。并行計算、計精品文檔放心下載算機(jī)網(wǎng)絡(luò)和信息工程等其他領(lǐng)域的國際學(xué)會、學(xué)刊也把數(shù)據(jù)挖掘和知識發(fā)現(xiàn)列為專題和??懻?,甚至到謝謝閱讀了膾炙人口的程度。3.2出版物及工具此外,在Internet上還有不少KDD電子出版物,其中以半月刊KnowledgeDiscoveryNuggets最為權(quán)謝謝閱讀威(/subscribe.html)。在網(wǎng)上還有許多自由論壇,如DMEmailClub等。至謝謝閱讀于DMKD書籍,可以在任意一家計算機(jī)書店找到十多本。目前,世界上比較有影響的典型數(shù)據(jù)挖掘系統(tǒng)有:謝謝閱讀SAS公司的EnterpriseMiner、IBM公司的IntelligentMiner、SGI公司的SetMiner、SPSS公司的感謝閱讀公司的WarehouseResearch公司的謝謝閱讀KnowledgeDiscoveryWorkbench、DBMiner、Quest等。讀者可以訪問.謝謝閱讀網(wǎng)站,該網(wǎng)站提供了許多數(shù)據(jù)挖掘系統(tǒng)和工具的性能測試報告。精品文檔放心下載3.3國內(nèi)現(xiàn)狀與國外相比,國內(nèi)對DMKD的研究稍晚,沒有形成整體力量。1993年國家自然科學(xué)基金首次支持我們感謝閱讀精品文檔放心下載這些單位包括清華大學(xué)、中科院計算技術(shù)研究所、空軍第三研究所、海軍裝備論證中心等。其中,北京系精品文檔放心下載6統(tǒng)工程研究所對模糊方法在知識發(fā)現(xiàn)中的應(yīng)用進(jìn)行了較深入的研究,北京大學(xué)也在開展對數(shù)據(jù)立方體代數(shù)謝謝閱讀的研究,華中理工大學(xué)、復(fù)旦大學(xué)、浙江大學(xué)、中國科技大學(xué)、中科院數(shù)學(xué)研究所、吉林大學(xué)等單位開展感謝閱讀了對關(guān)聯(lián)規(guī)則開采算法的優(yōu)化和改造;南京大學(xué)、四川聯(lián)合大學(xué)和上海交通大學(xué)等單位探討、研究了非結(jié)謝謝閱讀構(gòu)化數(shù)據(jù)的知識發(fā)現(xiàn)以及Web數(shù)據(jù)挖掘。3.4國內(nèi)現(xiàn)狀最近,GartnerGroup的一次高級技術(shù)調(diào)查將數(shù)據(jù)挖掘和人工智能列為“未來三到五年內(nèi)將對工業(yè)產(chǎn)感謝閱讀生深遠(yuǎn)影響的五大關(guān)鍵技術(shù)”之首,并且還將并行處理體系和數(shù)據(jù)挖掘列為未來五年內(nèi)投資焦點(diǎn)的十大新精品文檔放心下載興技術(shù)前兩位。根據(jù)最近Gartner的HPC研究表明,“隨著數(shù)據(jù)捕獲、傳輸和存儲技術(shù)的快速發(fā)展,大型精品文檔放心下載系統(tǒng)用戶將更多地需要采用新技術(shù)來挖掘市場以外的價值,采用更為廣闊的并行處理系統(tǒng)來創(chuàng)建新的商業(yè)感謝閱讀增長點(diǎn)?!钡谒恼n數(shù)據(jù)挖掘研究內(nèi)容和本質(zhì)4.1廣義知識(Generalization)4.2關(guān)聯(lián)知識(Association)4.3分類知識(Classification&Clustering)精品文檔放心下載4.4預(yù)測型知識(Prediction)4.5偏差型知識(Deviation)----隨著DMKD謝謝閱讀庫、人工智能和數(shù)理統(tǒng)計。因此,KDD大會程序委員會曾經(jīng)由這三個學(xué)科的權(quán)威人物同時來任主席。目前謝謝閱讀DMKD的主要研究內(nèi)容包括基礎(chǔ)理論、發(fā)現(xiàn)算法、數(shù)據(jù)倉庫、可視化技術(shù)、定性定量互換模型、知識表示方精品文檔放心下載法、發(fā)現(xiàn)知識的維護(hù)和再利用、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中的知識發(fā)現(xiàn)以及網(wǎng)上數(shù)據(jù)挖掘等。感謝閱讀----數(shù)據(jù)挖掘所發(fā)現(xiàn)的知識最常見的有以下四類:4.1廣義知識(Generalization)----廣義知識指類別特征的概括性描述知識。根據(jù)數(shù)據(jù)的微觀特性發(fā)現(xiàn)其表征的、帶有普遍性的、較精品文檔放心下載高層次概念的、中觀和宏觀的知識,反映同類事物共同性質(zhì),是對數(shù)據(jù)的概括、精煉和抽象。感謝閱讀----廣義知識的發(fā)現(xiàn)方法和實(shí)現(xiàn)技術(shù)有很多,如數(shù)據(jù)立方體、面向?qū)傩缘臍w約等。數(shù)據(jù)立方體還有其精品文檔放心下載精品文檔放心下載高的聚集函數(shù)的計算,諸如計數(shù)、求和、平均、最大值等,并將這些實(shí)現(xiàn)視圖儲存在多維數(shù)據(jù)庫中。既然精品文檔放心下載很多聚集函數(shù)需經(jīng)常重復(fù)計算,那么在多維數(shù)據(jù)立方體中存放預(yù)先計算好的結(jié)果將能保證快速響應(yīng),并可謝謝閱讀靈活地提供不同角度和不同抽象層次上的數(shù)據(jù)視圖。另一種廣義知識發(fā)現(xiàn)方法是加拿大SimonFraser大學(xué)謝謝閱讀提出的面向?qū)傩缘臍w約方法。這種方法以類SQL語言表示數(shù)據(jù)挖掘查詢,收集數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)集,然謝謝閱讀后在相關(guān)數(shù)據(jù)集上應(yīng)用一系列數(shù)據(jù)推廣技術(shù)進(jìn)行數(shù)據(jù)推廣,包括屬性刪除、概念樹提升、屬性閾值控制、感謝閱讀計數(shù)及其他聚集函數(shù)傳播等。4.2關(guān)聯(lián)知識(Association)----它反映一個事件和其他事件之間依賴或關(guān)聯(lián)的知識。如果兩項或多項屬性之間存在關(guān)聯(lián),那么其感謝閱讀中一項的屬性值就可以依據(jù)其他屬性值進(jìn)行預(yù)測。最為著名的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法是R.Agrawal提出的精品文檔放心下載Apriori算法。關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)可分為兩步。第一步是迭代識別所有的頻繁項目集,要求頻繁項目集的支謝謝閱讀持率不低于用戶設(shè)定的最低值;第二步是從頻繁項目集中構(gòu)造可信度不低于用戶設(shè)定的最低值的規(guī)則。識精品文檔放心下載別或發(fā)現(xiàn)所有頻繁項目集是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法的核心,也是計算量最大的部分。感謝閱讀74.3分類知識(Classification&Clustering)謝謝閱讀----它反映同類事物共同性質(zhì)的特征型知識和不同事物之間的差異型特征知識。最為典型的分類方法感謝閱讀是基于決策樹的分類方法。它是從實(shí)例集中構(gòu)造決策樹,是一種有指導(dǎo)的學(xué)習(xí)方法。該方法先根據(jù)訓(xùn)練子謝謝閱讀集(又稱為窗口)形成決策樹。如果該樹不能對所有對象給出正確的分類,那么選擇一些例外加入到窗口精品文檔放心下載中,重復(fù)該過程一直到形成正確的決策集。最終結(jié)果是一棵樹,其葉結(jié)點(diǎn)是類名,中間結(jié)點(diǎn)是帶有分枝的謝謝閱讀屬性,該分枝對應(yīng)該屬性的某一可能值。最為典型的決策樹學(xué)習(xí)系統(tǒng)是ID3,它采用自頂向下不回溯策略,謝謝閱讀能保證找到一個簡單的樹。算法C4.5和C5.0都是ID3的擴(kuò)展,它們將分類領(lǐng)域從類別屬性擴(kuò)展到數(shù)值型謝謝閱讀屬性。----數(shù)據(jù)分類還有統(tǒng)計、粗糙集(RoughSet)等方法。線性回歸和線性辨別分析是典型的統(tǒng)計模型。感謝閱讀為降低決策樹生成代價,人們還提出了一種區(qū)間分類器。最近也有人研究使用神經(jīng)網(wǎng)絡(luò)方法在數(shù)據(jù)庫中進(jìn)精品文檔放心下載行分類和規(guī)則提取。4.4預(yù)測型知識(Prediction)----它根據(jù)時間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測未來的數(shù)據(jù),也可以認(rèn)為是以時間為關(guān)鍵謝謝閱讀屬性的關(guān)聯(lián)知識。----目前,時間序列預(yù)測方法有經(jīng)典的統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等。1968年Box和Jenkins提精品文檔放心下載出了一套比較完善的時間序列建模理論和分析方法,這些經(jīng)典的數(shù)學(xué)方法通過建立隨機(jī)模型,如自回歸模謝謝閱讀型、自回歸滑動平均模型、求和自回歸滑動平均模型和季節(jié)調(diào)整模型等,進(jìn)行時間序列的預(yù)測。由于大量感謝閱讀的時間序列是非平穩(wěn)的,其特征參數(shù)和數(shù)據(jù)分布隨著時間的推移而發(fā)生變化。因此,僅僅通過對某段歷史感謝閱讀數(shù)據(jù)的訓(xùn)練,建立單一的神經(jīng)網(wǎng)絡(luò)預(yù)測模型,還無法完成準(zhǔn)確的預(yù)測任務(wù)。為此,人們提出了基于統(tǒng)計學(xué)謝謝閱讀和基于精確性的再訓(xùn)練方法,當(dāng)發(fā)現(xiàn)現(xiàn)存預(yù)測模型不再適用于當(dāng)前數(shù)據(jù)時,對模型重新訓(xùn)練,獲得新的權(quán)感謝閱讀重參數(shù),建立新的模型。也有許多系統(tǒng)借助并行算法的計算優(yōu)勢進(jìn)行時間序列預(yù)測。感謝閱讀4.5偏差型知識(Deviation)----此外,還可以發(fā)現(xiàn)其他類型的知識,如偏差型知識(Deviation),它是對差異和極端特例的描述,
揭示事物偏離常規(guī)的異常現(xiàn)象,如標(biāo)準(zhǔn)類外的特例,數(shù)據(jù)聚類外的離群值等。所有這些知識都可以在不同
的概念層次上被發(fā)現(xiàn),并隨著概念層次的提升,從微觀到中觀、到宏觀,以滿足不同用戶不同層次決策的
需要。謝謝閱讀第五課數(shù)據(jù)挖掘的功能5.1自動預(yù)測趨勢和行為5.2關(guān)聯(lián)分析5.3聚類5.4概念描述5.5偏差檢測數(shù)據(jù)挖掘通過預(yù)測未來趨勢及行為,做出前攝的、基于知識的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫中發(fā)精品文檔放心下載現(xiàn)隱含的、有意義的知識,主要有以下五類功能。5.1自動預(yù)測趨勢和行為數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預(yù)測性信息,以往需要進(jìn)行大量手工分析的問題如今可以迅速直接感謝閱讀由數(shù)據(jù)本身得出結(jié)論。一個典型的例子是市場預(yù)測問題,數(shù)據(jù)挖掘使用過去有關(guān)促銷b的數(shù)據(jù)來尋找未來謝謝閱讀投資中回報最大的用戶,其它可預(yù)測的問題包括預(yù)報破產(chǎn)以及認(rèn)定對指定事件最可能作出反應(yīng)的群體。感謝閱讀5.2關(guān)聯(lián)分析8數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律謝謝閱讀性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)精品文檔放心下載聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可精品文檔放心下載信度。5.3聚類數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強(qiáng)了人們對客觀現(xiàn)實(shí)的認(rèn)識,是概精品文檔放心下載感謝閱讀提出了概念聚類技術(shù)牞其要點(diǎn)是,在劃分對象時不僅考慮對象之間的距離,還要求劃分出的類具有某種內(nèi)感謝閱讀涵描述,從而避免了傳統(tǒng)技術(shù)的某些片面性。5.4概念描述概念描述就是對某類對象的內(nèi)涵進(jìn)行描述,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和謝謝閱讀區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性描述感謝閱讀只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。精品文檔放心下載5.5偏差檢測數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,感謝閱讀如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時間的變化等。偏差檢感謝閱讀測的基本方法是,尋找觀測結(jié)果與參照值之間有意義的差別。感謝閱讀第六課數(shù)據(jù)挖掘常用技術(shù)6.1人工神經(jīng)網(wǎng)絡(luò)6.2決策樹6.3遺傳算法6.4近鄰算法6.5規(guī)則推導(dǎo)6.1人工神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)近來越來越受到人們的關(guān)注,因為它為解決大復(fù)雜度問題提供了一種相對來說比較有效的簡精品文檔放心下載單方法。神經(jīng)網(wǎng)絡(luò)可以很容易的解決具有上百個參數(shù)的問題(當(dāng)然實(shí)際生物體中存在的神經(jīng)網(wǎng)絡(luò)要比我們謝謝閱讀這里所說的程序模擬的神經(jīng)網(wǎng)絡(luò)要復(fù)雜的多)。神經(jīng)網(wǎng)絡(luò)常用于兩類問題:分類和回歸。感謝閱讀在結(jié)構(gòu)上,可以把一個神經(jīng)網(wǎng)絡(luò)劃分為輸入層、輸出層和隱含層(見圖4)。輸入層的每個節(jié)點(diǎn)對應(yīng)精品文檔放心下載一個個的預(yù)測變量。輸出層的節(jié)點(diǎn)對應(yīng)目標(biāo)變量,可有多個。在輸入層和輸出層之間是隱含層(對神經(jīng)網(wǎng)謝謝閱讀絡(luò)使用者來說不可見),隱含層的層數(shù)和每層節(jié)點(diǎn)的個數(shù)決定了神經(jīng)網(wǎng)絡(luò)的復(fù)雜度。感謝閱讀9除了輸入層的節(jié)點(diǎn),神經(jīng)網(wǎng)絡(luò)的每個節(jié)點(diǎn)都與很多它前面的節(jié)點(diǎn)(稱為此節(jié)點(diǎn)的輸入節(jié)點(diǎn))連接在一謝謝閱讀起,每個連接對應(yīng)一個權(quán)重Wxy,此節(jié)點(diǎn)的值就是通過它所有輸入節(jié)點(diǎn)的值與對應(yīng)連接權(quán)重乘積的和作為精品文檔放心下載一個函數(shù)的輸入而得到,我們把這個函數(shù)稱為活動函數(shù)或擠壓函數(shù)。如圖5中節(jié)點(diǎn)4輸出到節(jié)點(diǎn)6的值可精品文檔放心下載通過如下計算得到:W14*節(jié)點(diǎn)1的值+W24*節(jié)點(diǎn)2的值神經(jīng)網(wǎng)絡(luò)的每個節(jié)點(diǎn)都可表示成預(yù)測變量(節(jié)點(diǎn)1,2)的值或值的組合(節(jié)點(diǎn)3-6)。注意節(jié)點(diǎn)6的精品文檔放心下載值已經(jīng)不再是節(jié)點(diǎn)精品文檔放心下載數(shù)的話,神經(jīng)元網(wǎng)絡(luò)就等價于一個線性回歸函數(shù),如果此活動函數(shù)是某種特定的非線性函數(shù),那神經(jīng)網(wǎng)絡(luò)精品文檔放心下載又等價于邏輯回歸。調(diào)整節(jié)點(diǎn)間連接的權(quán)重就是在建立(也稱訓(xùn)練)神經(jīng)網(wǎng)絡(luò)時要做的工作。最早的也是最基本的權(quán)重調(diào)精品文檔放心下載整方法是錯誤回饋法,現(xiàn)在較新的有變化坡度法、類牛頓法、Levenberg-Marquardt法、和遺傳算法等。謝謝閱讀無論采用那種訓(xùn)練方法,都需要有一些參數(shù)來控制訓(xùn)練的過程,如防止訓(xùn)練過度和控制訓(xùn)練的速度。精品文檔放心下載決定神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)(或體系結(jié)構(gòu))的是隱含層及其所含節(jié)點(diǎn)的個數(shù),以及節(jié)點(diǎn)之間的連接方式。感謝閱讀要從頭開始設(shè)計一個神經(jīng)網(wǎng)絡(luò),必須要決定隱含層和節(jié)點(diǎn)的數(shù)目,活動函數(shù)的形式,以及對權(quán)重做那些限謝謝閱讀制等,當(dāng)然如果采用成熟軟件工具的話,他會幫你決定這些事情。謝謝閱讀在諸多類型的神經(jīng)網(wǎng)絡(luò)中,最常用的是前向傳播式神經(jīng)網(wǎng)絡(luò),也就是我們前面圖示中所描繪的那種。我們精品文檔放心下載下面詳細(xì)討論一下,為討論方便假定只含有一層隱含節(jié)點(diǎn)。精品文檔放心下載可以認(rèn)為錯誤回饋式訓(xùn)練法是變化坡度法的簡化,其過程如下:謝謝閱讀前向傳播:數(shù)據(jù)從輸入到輸出的過程是一個從前向后的傳播過程,后一節(jié)點(diǎn)的值通過它前面相連的節(jié)謝謝閱讀謝謝閱讀精品文檔放心下載精品文檔放心下載出更容易受他前面哪個節(jié)點(diǎn)輸入的影響)。學(xué)習(xí)的方法是采用懲罰的方法,過程如下:如果一節(jié)點(diǎn)輸出發(fā)感謝閱讀生錯誤,那么他看他的錯誤是受哪個(些)輸入節(jié)點(diǎn)的影響而造成的,是不是他最信任的節(jié)點(diǎn)(權(quán)重最高謝謝閱讀的節(jié)點(diǎn))陷害了他(使他出錯),如果是則要降低對他的信任值(降低權(quán)重),懲罰他們,同時升高那些謝謝閱讀做出正確建議節(jié)點(diǎn)的信任值。對那些收到懲罰的節(jié)點(diǎn)來說,他也需要用同樣的方法來進(jìn)一步懲罰它前面的謝謝閱讀節(jié)點(diǎn)。就這樣把懲罰一步步向前傳播直到輸入節(jié)點(diǎn)為止。對訓(xùn)練集中的每一條記錄都要重復(fù)這個步驟,用前向傳播得到輸出值,如果發(fā)生錯誤,則用回饋法進(jìn)感謝閱讀行學(xué)習(xí)。當(dāng)把訓(xùn)練集中的每一條記錄都運(yùn)行過一遍之后,我們稱完成一個訓(xùn)練周期。要完成神經(jīng)網(wǎng)絡(luò)的訓(xùn)謝謝閱讀精品文檔放心下載描述了訓(xùn)練集中響應(yīng)變量受預(yù)測變量影響的變化規(guī)律。由于神經(jīng)網(wǎng)絡(luò)隱含層中的可變參數(shù)太多,如果訓(xùn)練時間足夠長的話,神經(jīng)網(wǎng)絡(luò)很可能把訓(xùn)練集的所有感謝閱讀細(xì)節(jié)信息都“記”下來,而不是建立一個忽略細(xì)節(jié)只具有規(guī)律性的模型,我們稱這種情況為訓(xùn)練過度。顯精品文檔放心下載10精品文檔放心下載為了防止這種訓(xùn)練過度的情況,我們必須知道在什么時候要停止訓(xùn)練。在有些軟件實(shí)現(xiàn)中會在訓(xùn)練的同時精品文檔放心下載用一個測試集來計算神經(jīng)網(wǎng)絡(luò)在此測試集上的正確率,一旦這個正確率不再升高甚至開始下降時,那么就感謝閱讀認(rèn)為現(xiàn)在神經(jīng)網(wǎng)絡(luò)已經(jīng)達(dá)到做好的狀態(tài)了可以停止訓(xùn)練。圖6中的曲線可以幫我們理解為什么利用測試集能防止訓(xùn)練過度的出現(xiàn)。在圖中可以看到訓(xùn)練集和測感謝閱讀試集的錯誤率在一開始都隨著訓(xùn)練周期的增加不斷降低,而測試集的錯誤率在達(dá)到一個谷底后反而開始上精品文檔放心下載升,我們認(rèn)為這個開始上升的時刻就是應(yīng)該停止訓(xùn)練的時刻。感謝閱讀神經(jīng)元網(wǎng)絡(luò)和統(tǒng)計方法在本質(zhì)上有很多差別。神經(jīng)網(wǎng)絡(luò)的參數(shù)可以比統(tǒng)計方法多很多。如圖4中就有精品文檔放心下載13個參數(shù)(9個權(quán)重和4個限制條件)。由于參數(shù)如此之多,參數(shù)通過各種各樣的組合方式來影響輸出結(jié)精品文檔放心下載感謝閱讀不用去管“盒子”里面是什么,只管用就行了。在大部分情況下,這種限制條件是可以接受的。比如銀行感謝閱讀可能需要一個筆跡識別軟件,但他沒必要知道為什么這些線條組合在一起就是一個人的簽名,而另外一個感謝閱讀相似的則不是。在很多復(fù)雜度很高的問題如化學(xué)試驗、機(jī)器人、金融市場的模擬、和語言圖像的識別,等謝謝閱讀領(lǐng)域神經(jīng)網(wǎng)絡(luò)都取得了很好的效果。CPU上并行計算。謝謝閱讀在使用神經(jīng)網(wǎng)絡(luò)時有幾點(diǎn)需要注意:第一,神經(jīng)網(wǎng)絡(luò)很難解釋,目前還沒有能對神經(jīng)網(wǎng)絡(luò)做出顯而易感謝閱讀見解釋的方法學(xué)。第二,神經(jīng)網(wǎng)絡(luò)會學(xué)習(xí)過度,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時一定要恰當(dāng)?shù)氖褂靡恍┠車?yán)格衡量神經(jīng)網(wǎng)絡(luò)的方法,感謝閱讀如前面提到的測試集方法和交叉驗證法等。這主要是由于神經(jīng)網(wǎng)絡(luò)太靈活、可變參數(shù)太多,如果給足夠的謝謝閱讀時間,他幾乎可以“記住”任何事情。第三,除非問題非常簡單,訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)可能需要相當(dāng)可觀的時間才能完成。當(dāng)然,一旦神經(jīng)網(wǎng)精品文檔放心下載絡(luò)建立好了,在用它做預(yù)測時運(yùn)行時還是很快得。第四,建立神經(jīng)網(wǎng)絡(luò)需要做的數(shù)據(jù)準(zhǔn)備工作量很大。一個很有誤導(dǎo)性的神話就是不管用什么數(shù)據(jù)神經(jīng)謝謝閱讀網(wǎng)絡(luò)都能很好的工作并做出準(zhǔn)確的預(yù)測。這是不確切的,要想得到準(zhǔn)確度高的模型必須認(rèn)真的進(jìn)行數(shù)據(jù)清感謝閱讀洗、整理、轉(zhuǎn)換、選擇等工作,對任何數(shù)據(jù)挖掘技術(shù)都是這樣,神經(jīng)網(wǎng)絡(luò)尤其注重這一點(diǎn)。比如神經(jīng)網(wǎng)絡(luò)感謝閱讀要求所有的輸入變量都必須是0-1(或-1--+1)之間的實(shí)數(shù),因此像“地區(qū)”之類文本數(shù)據(jù)必須先做必謝謝閱讀要的處理之后才能用作神經(jīng)網(wǎng)絡(luò)的輸入。6.2決策樹決策樹提供了一種展示類似在什么條件下會得到什么值這類規(guī)則的方法。比如,在貸款申請中,要對精品文檔放心下載申請的風(fēng)險大小做出判斷,圖7是為了解決這個問題而建立的一棵決策樹,從中我們可以看到?jīng)Q策樹的基謝謝閱讀本組成部分:決策節(jié)點(diǎn)、分支和葉子。感謝閱讀問題的不同回答產(chǎn)生了“是”和“否”兩個分支。CART算法得到的決策樹每個節(jié)點(diǎn)有兩個感謝閱讀分支,這種樹稱為二叉樹。允許節(jié)點(diǎn)含有多于兩個子節(jié)點(diǎn)的樹稱為多叉樹。感謝閱讀每個分支要么是一個新的決策節(jié)點(diǎn),要么是樹的結(jié)尾,稱為葉子。在沿著決策樹從上到下遍歷的過程感謝閱讀中,在每個節(jié)點(diǎn)都會遇到一個問題,對每個節(jié)點(diǎn)上問題的不同回答導(dǎo)致不同的分支,最后會到達(dá)一個葉子謝謝閱讀節(jié)點(diǎn)。這個過程就是利用決策樹進(jìn)行分類的過程,利用幾個變量(每個變量對應(yīng)一個問題)來判斷所屬的感謝閱讀類別(最后每個葉子會對應(yīng)一個類別)。假如負(fù)責(zé)借貸的銀行官員利用上面這棵決策樹來決定支持哪些貸款和拒絕哪些貸款,那么他就可以用精品文檔放心下載貸款申請表來運(yùn)行這棵決策樹,用決策樹來判斷風(fēng)險的大小。“年收入>¥40,00”和“高負(fù)債”的用戶被感謝閱讀認(rèn)為是“高風(fēng)險”,同時“收入<¥40,000”但“工作時間>5年”的申請,則被認(rèn)為“低風(fēng)險”而建議貸精品文檔放心下載款給他/她。數(shù)據(jù)挖掘中決策樹是一種經(jīng)常要用到的技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來作預(yù)測(就像上面感謝閱讀的銀行官員用他來預(yù)測貸款風(fēng)險)。常用的算法有CHAID、CART、Quest和C5.0。感謝閱讀建立決策樹的過程,即樹的生長過程是不斷的把數(shù)據(jù)進(jìn)行切分的過程,每次切分對應(yīng)一個問題,也對感謝閱讀應(yīng)著一個節(jié)點(diǎn)。對每個切分都要求分成的組之間的“差異”最大。精品文檔放心下載各種決策樹算法之間的主要區(qū)別就是對這個“差異”衡量方式的區(qū)別。對具體衡量方式算法的討論超精品文檔放心下載出了本文的范圍,在此我們只需要把切分看成是把一組數(shù)據(jù)分成幾份,份與份之間盡量不同,而同一份內(nèi)精品文檔放心下載的數(shù)據(jù)盡量相同。這個切分的過程也可稱為數(shù)據(jù)的“純化”??次覀兊睦?,包含兩個類別--低風(fēng)險和高精品文檔放心下載風(fēng)險。如果經(jīng)過一次切分后得到的分組,每個分組中的數(shù)據(jù)都屬于同一個類別,顯然達(dá)到這樣效果的切分感謝閱讀方法就是我們所追求的。到現(xiàn)在為止我們所討論的例子都是非常簡單的,樹也容易理解,當(dāng)然實(shí)際中應(yīng)用的決策樹可能非常復(fù)
雜。假定我們利用歷史數(shù)據(jù)建立了一個包含幾百個屬性、輸出的類有十幾種的決策樹,這樣的一棵樹對人
來說可能太復(fù)雜了,但每一條從根結(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑所描述的含義仍然是可以理解的。決策樹的這種精品文檔放心下載12易理解性對數(shù)據(jù)挖掘的使用者來說是一個顯著的優(yōu)點(diǎn)。然而決策樹的這種明確性可能帶來誤導(dǎo)。比如,決策樹每個節(jié)點(diǎn)對應(yīng)分割的定義都是非常明確毫不含精品文檔放心下載糊的,但在實(shí)際生活中這種明確可能帶來麻煩(憑什么說年收入¥40,001的人具有較小的信用風(fēng)險而精品文檔放心下載¥40,000的人就沒有)。建立一顆決策樹可能只要對數(shù)據(jù)庫進(jìn)行幾遍掃描之后就能完成,這也意味著需要的計算資源較少,而感謝閱讀且可以很容易的處理包含很多預(yù)測變量的情況,因此決策樹模型可以建立得很快,并適合應(yīng)用到大量的數(shù)謝謝閱讀據(jù)上。對最終要拿給人看的決策樹來說,在建立過程中讓其生長的太“枝繁葉茂”是沒有必要的,這樣既降精品文檔放心下載低了樹的可理解性和可用性,同時也使決策樹本身對歷史數(shù)據(jù)的依賴性增大,也就是說這是這棵決策樹對謝謝閱讀此歷史數(shù)據(jù)可能非常準(zhǔn)確,一旦應(yīng)用到新的數(shù)據(jù)時準(zhǔn)確性卻急劇下降,我們稱這種情況為訓(xùn)練過度。為了感謝閱讀使得到的決策樹所蘊(yùn)含的規(guī)則具有普遍意義,必須防止訓(xùn)練過度,同時也減少了訓(xùn)練的時間。因此我們需謝謝閱讀要有一種方法能讓我們在適當(dāng)?shù)臅r候停止樹的生長。常用的方法是設(shè)定決策樹的最大高度(層數(shù))來限制精品文檔放心下載樹的生長。還有一種方法是設(shè)定每個節(jié)點(diǎn)必須包含的最少記錄數(shù),當(dāng)節(jié)點(diǎn)中記錄的個數(shù)小于這個數(shù)值時就精品文檔放心下載停止分割。與設(shè)置停止增長條件相對應(yīng)的是在樹建立好之后對其進(jìn)行修剪。先允許樹盡量生長,然后再把樹修剪謝謝閱讀到較小的尺寸,當(dāng)然在修剪的同時要求盡量保持決策樹的準(zhǔn)確度盡量不要下降太多。感謝閱讀對決策樹常見的批評是說其在為一個節(jié)點(diǎn)選擇怎樣進(jìn)行分割時使用“貪心”算法。此種算法在決定當(dāng)感謝閱讀前這個分割時根本不考慮此次選擇會對將來的分割造成什么樣的影響。換句話說,所有的分割都是順序完謝謝閱讀成的,一個節(jié)點(diǎn)完成分割之后不可能以后再有機(jī)會回過頭來再考察此次分割的合理性,每次分割都是依賴謝謝閱讀于他前面的分割方法,也就是說決策樹中所有的分割都受根結(jié)點(diǎn)的第一次分割的影響,只要第一次分割有感謝閱讀一點(diǎn)點(diǎn)不同,那么由此得到的整個決策樹就會完全不同。那么是否在選擇一個節(jié)點(diǎn)的分割的同時向后考慮感謝閱讀兩層甚至更多的方法,會具有更好的結(jié)果呢?目前我們知道的還不是很清楚,但至少這種方法使建立決策謝謝閱讀樹的計算量成倍的增長,因此現(xiàn)在還沒有哪個產(chǎn)品使用這種方法。謝謝閱讀而且,通常的分割算法在決定怎么在一個節(jié)點(diǎn)進(jìn)行分割時,都只考察一個預(yù)測變量,即節(jié)點(diǎn)用于分割
的問題只與一個變量有關(guān)。這樣生成的決策樹在有些本應(yīng)很明確的情況下可能變得復(fù)雜而且意義含混,為
此目前新提出的一些算法開始在一個節(jié)點(diǎn)同時用多個變量來決定分割的方法。比如以前的決策樹中可能只
能出現(xiàn)類似“收入<¥35,000”的判斷,現(xiàn)在則可以用“收入<(0.35*抵押)”或“收入>¥35,000或抵押
<150,000”這樣的問題。謝謝閱讀決策樹很擅長處理非數(shù)值型數(shù)據(jù),這與神經(jīng)網(wǎng)絡(luò)只能處理數(shù)值型數(shù)據(jù)比起來,就免去了很多數(shù)據(jù)預(yù)處
理工作。甚至有些決策樹算法專為處理非數(shù)值型數(shù)據(jù)而設(shè)計,因此當(dāng)采用此種方法建立決策樹同時又要處理數(shù)值型
數(shù)據(jù)時,反而要做把數(shù)值型數(shù)據(jù)映射到非數(shù)值型數(shù)據(jù)的預(yù)處理。
6.3遺傳算法基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設(shè)計方法的優(yōu)化技術(shù)。精品文檔放心下載6.4近鄰算法將數(shù)據(jù)集合中每一個記錄進(jìn)行分類的方法。6.5規(guī)則推導(dǎo)從統(tǒng)計意義上對數(shù)據(jù)中的“如果-那么”規(guī)則進(jìn)行尋找和推導(dǎo)。謝謝閱讀采用上述技術(shù)的某些專門的分析工具已經(jīng)發(fā)展了大約十年的歷史,不過這些工具所面對的數(shù)據(jù)量通常
較小。而現(xiàn)在這些技術(shù)已經(jīng)被直接集成到許多大型的工業(yè)標(biāo)準(zhǔn)的數(shù)據(jù)倉庫和聯(lián)機(jī)分析系統(tǒng)中去了。精品文檔放心下載13第七課數(shù)據(jù)挖掘的流程7.1數(shù)據(jù)挖掘環(huán)境7.2數(shù)據(jù)挖掘過程圖7.3數(shù)據(jù)挖掘過程工作量7.4數(shù)據(jù)挖掘過程簡介7.5數(shù)據(jù)挖掘需要的人員7.1數(shù)據(jù)挖掘環(huán)境數(shù)據(jù)挖掘是指一個完整的過程,該過程從大型數(shù)據(jù)庫中挖掘先前未知的,有效的,可實(shí)用的信息,并使用精品文檔放心下載這些信息做出決策或豐富知識.數(shù)據(jù)挖掘環(huán)境可示意如下圖:7.2數(shù)據(jù)挖掘過程圖下圖描述了數(shù)據(jù)挖掘的基本過程和主要步驟數(shù)據(jù)挖掘的基本過程和主要步驟7.3數(shù)據(jù)挖掘過程工作量在數(shù)據(jù)挖掘中被研究的業(yè)務(wù)對象是整個過程的基礎(chǔ),它驅(qū)動了整個數(shù)據(jù)挖掘過程,也是檢驗最后結(jié)果和謝謝閱讀指引分析人員完成數(shù)據(jù)挖掘的依據(jù)和顧問.圖2各步驟是按一定順序完成的,當(dāng)然整個過程中還會存在步驟感謝閱讀間的反饋.數(shù)據(jù)挖掘的過程并不是自動的,絕大多數(shù)的工作需要人工完成.圖3給出了各步驟在整個過程中感謝閱讀的工作量之比.可以看到,60%的時間用在數(shù)據(jù)準(zhǔn)備上,這說明了數(shù)據(jù)挖掘?qū)?shù)據(jù)的嚴(yán)格要求,而后挖掘工作精品文檔放心下載僅占總工作量的10%.14圖3數(shù)據(jù)挖掘過程工作量比例7.4數(shù)據(jù)挖掘過程簡介過程中各步驟的大體內(nèi)容如下:1.1.確定業(yè)務(wù)對象清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步.挖掘的最后結(jié)構(gòu)是不可預(yù)測的,感謝閱讀但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會成功的.感謝閱讀2.2.數(shù)據(jù)準(zhǔn)備1)1)數(shù)據(jù)的選擇搜索所有與業(yè)務(wù)對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù).精品文檔放心下載2)2)數(shù)據(jù)的預(yù)處理研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析作準(zhǔn)備.并確定將要進(jìn)行的挖掘操作的類型.謝謝閱讀3)3)數(shù)據(jù)的轉(zhuǎn)換將數(shù)據(jù)轉(zhuǎn)換成一個分析模型.這個分析模型是針對挖掘算法建立的.建立一個真正適合挖掘算法的分析謝謝閱讀模型是數(shù)據(jù)挖掘成功的關(guān)鍵.3.3.數(shù)據(jù)挖掘?qū)λ玫降慕?jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動地完精品文檔放心下載成.4.4.結(jié)果分析解釋并評估結(jié)果.其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會用到可視化技術(shù).謝謝閱讀5.5.知識的同化將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去.感謝閱讀7.5數(shù)據(jù)挖掘需要的人員數(shù)據(jù)挖掘過程的分步實(shí)現(xiàn),不同的步會需要是有不同專長的人員,他們大體可以分為三類.謝謝閱讀業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對象,并根據(jù)各業(yè)務(wù)對象確定出用于數(shù)據(jù)定義和挖掘算法感謝閱讀的業(yè)務(wù)需求.數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對統(tǒng)計學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的精品文檔放心下載各步操作,并為每步操作選擇合適的技術(shù).15數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù).精品文檔放心下載從上可見,數(shù)據(jù)挖掘是一個多種專家合作的過程,也是一個在資金上和技術(shù)上高投入的過程.這一過程謝謝閱讀要反復(fù)進(jìn)行牞在反復(fù)過程中,不斷地趨近事物的本質(zhì),不斷地優(yōu)先問題的解決方案。數(shù)據(jù)重組和細(xì)分添加感謝閱讀和拆分記錄選取數(shù)據(jù)樣本可視化數(shù)據(jù)探索聚類分析神經(jīng)網(wǎng)絡(luò)、決策樹數(shù)理統(tǒng)計、時間序列結(jié)論綜合解釋評感謝閱讀價數(shù)據(jù)知識數(shù)據(jù)取樣數(shù)據(jù)探索數(shù)據(jù)調(diào)整模型化評價。第八課數(shù)據(jù)挖掘未來研究方向及熱點(diǎn)8.1數(shù)據(jù)挖掘未來研究方向8.2數(shù)據(jù)挖掘熱點(diǎn)8.2.1網(wǎng)站的數(shù)據(jù)挖掘(Websitedatamining)感謝閱讀8.2.2生物信息或基因的數(shù)據(jù)挖掘8.2.3文本的數(shù)據(jù)挖掘(Textualmining)謝謝閱讀8.1數(shù)據(jù)挖掘未來研究方向----當(dāng)前,DMKD研究方興未艾,其研究與開發(fā)的總體水平相當(dāng)于數(shù)據(jù)庫技術(shù)在70年代所處的地位,精品文檔放心下載迫切需要類似于關(guān)系模式、DBMS系統(tǒng)和SQL查詢語言等理論和方法的指導(dǎo),才能使DMKD的應(yīng)用得以普遍精品文檔放心下載推廣。預(yù)計在本世紀(jì),DMKD的研究還會形成更大的高潮,研究焦點(diǎn)可能會集中到以下幾個方面:謝謝閱讀發(fā)現(xiàn)語言的形式化描述,即研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,也許會像SQL語言一樣走向形精品文檔放心下載式化和標(biāo)準(zhǔn)化;尋求數(shù)據(jù)挖掘過程中的可視化方法,使知識發(fā)現(xiàn)的過程能夠被用戶理解,也便于在知識發(fā)現(xiàn)的過程精品文檔放心下載中進(jìn)行人機(jī)交互;研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù)(WebMining),特別是在因特網(wǎng)上建立DMKD服務(wù)器,并且與數(shù)謝謝閱讀據(jù)庫服務(wù)器配合,實(shí)現(xiàn)WebMining;精品文檔放心下載圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開采;處理的數(shù)據(jù)將會涉及到更多的數(shù)據(jù)類型,這些數(shù)據(jù)類型或者比較復(fù)雜,或者是結(jié)構(gòu)比較獨(dú)特。為了處精品文檔放心下載理這些復(fù)雜的數(shù)據(jù),就需要一些新的和更好的分析和建立模型的方法,同時還會涉及到為處理這些復(fù)雜或精品文檔放心下載獨(dú)特數(shù)據(jù)所做的費(fèi)時和復(fù)雜數(shù)據(jù)準(zhǔn)備的一些工具和軟件。交互式發(fā)現(xiàn);知識的維護(hù)更新。但是,不管怎樣,需求牽引與市場推動是永恒的,DMKD將首先滿足信息時代用戶的急需,大量的基于謝謝閱讀DMKD的決策支持軟件產(chǎn)品將會問世。只有從數(shù)據(jù)中有效地提取信息,從信息中及時地發(fā)現(xiàn)知識,才能為人類的思維決策和戰(zhàn)略發(fā)展服務(wù)。謝謝閱讀也只有到那時,數(shù)據(jù)才能夠真正成為與物質(zhì)、能源相媲美的資源,信息時代才會真正到來。感謝閱讀8.2數(shù)據(jù)挖掘熱點(diǎn)就目前來看,將來的幾個熱點(diǎn)包括網(wǎng)站的數(shù)據(jù)挖掘(Websitedatamining)、生物信息或基因精品文檔放心下載(Bioinformatics/genomics)的數(shù)據(jù)挖掘及其文本的數(shù)據(jù)挖掘(Textualmining)。下面就這幾個方面加精品文檔放心下載以簡單介紹。8.2.1網(wǎng)站的數(shù)據(jù)挖掘(Websitedatamining)感謝閱讀需求隨著Web技術(shù)的發(fā)展,各類電子商務(wù)網(wǎng)站風(fēng)起云涌,建立起一個電子商務(wù)網(wǎng)站并不困難,困難的是如精品文檔放心下載16何讓您的電子商務(wù)網(wǎng)站有效益。要想有效益就必須吸引客戶,增加能帶來效益的客戶忠誠度。電子商務(wù)業(yè)精品文檔放心下載務(wù)的競爭比傳統(tǒng)的業(yè)務(wù)競爭更加激烈,原因有很多方面,其中一個因素是客戶從一個電子商務(wù)網(wǎng)站轉(zhuǎn)換到精品文檔放心下載競爭對手那邊,只需點(diǎn)擊幾下鼠標(biāo)即可。網(wǎng)站的內(nèi)容和層次、用詞、標(biāo)題、獎勵方案、服務(wù)等任何一個地精品文檔放心下載方都有可能成為吸引客戶、同時也可能成為失去客戶的因素。而同時電子商務(wù)網(wǎng)站每天都可能有上百萬次精品文檔放心下載的在線交易,生成大量的記錄文件(Logfiles)和登記表,如何對這些數(shù)據(jù)進(jìn)行分析和挖掘,充分了解客感謝閱讀戶的喜好、購買模式,甚至是客戶一時的沖動,設(shè)計出滿足于不同客戶群體需要的個性化網(wǎng)站,進(jìn)而增加謝謝閱讀其競爭力,幾乎變得勢在必行。若想在競爭中生存進(jìn)而獲勝,就要比您的競爭對手更了解客戶。謝謝閱讀電子商務(wù)網(wǎng)站數(shù)據(jù)挖掘在對網(wǎng)站進(jìn)行數(shù)據(jù)挖掘時,所需要的數(shù)據(jù)主要來自于兩個方面:一方面是客戶的背景信息,此部分信
息主要來自于客戶的登記表;而另外一部分?jǐn)?shù)據(jù)主要來自瀏覽者的點(diǎn)擊流(Click-stream),此部分?jǐn)?shù)據(jù)
主要用于考察客戶的行為表現(xiàn)。但有的時候,客戶對自己的背景信息十分珍重,不肯把這部分信息填寫在
登記表上,這就會給數(shù)據(jù)分析和挖掘帶來不便。在這種情況之下,就不得不從瀏覽者的表現(xiàn)數(shù)據(jù)中來推測
客戶的背景信息,進(jìn)而再加以利用。感謝閱讀就分析和建立模型的技術(shù)和算法而言,網(wǎng)站的數(shù)據(jù)挖掘和原來的數(shù)據(jù)挖掘差別并不是特別大,很多方
法和分析思想都可以運(yùn)用。所不同的是網(wǎng)站的數(shù)據(jù)格式有很大一部分來自于點(diǎn)擊流,和傳統(tǒng)的數(shù)據(jù)庫格式
有區(qū)別。因而對電子商務(wù)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘所做的主要工作是數(shù)據(jù)準(zhǔn)備。目前,有很多廠商正在致力于開
發(fā)專門用于網(wǎng)站挖掘的軟件。精品文檔放心下載8.2.2生物信息或基因的數(shù)據(jù)挖掘生物信息或基因數(shù)據(jù)挖掘則完全屬于另外一個領(lǐng)域,在商業(yè)上很難講有多大的價值,但對于人類卻受
益非淺。例如,基因的組合千變?nèi)f化,得某種病的人的基因和正常人的基因到底差別多大?能否找出其中
不同的地方,進(jìn)而對其不同之處加以改變,使之成為正?;??這都需要數(shù)據(jù)挖掘技術(shù)的支持。
對于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無論在數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和
建立模型的算法而言,都要復(fù)雜得多。從分析算法上講,更需要一些新的和好的算法?,F(xiàn)在很多廠商正在
致力于這方面的研究。但就技術(shù)和軟件而言,還遠(yuǎn)沒有達(dá)到成熟的地步。謝謝閱讀8.2.3文本的數(shù)據(jù)挖掘(Textualmining)精品文檔放心下載人們很關(guān)心的另外一個話題是文本數(shù)據(jù)挖掘。舉個例子,在客戶服務(wù)中心,把同客戶的談話轉(zhuǎn)化為文
本數(shù)據(jù),再對這些數(shù)據(jù)進(jìn)行挖掘,進(jìn)而了解客戶對服務(wù)的滿意程度和客戶的需求以及客戶之間的相互關(guān)系
等信息。從這個例子可以看出,無論是在數(shù)據(jù)結(jié)構(gòu)還是在分析處理方法方面,文本數(shù)據(jù)挖掘和前面談到的
數(shù)據(jù)挖掘相差很大。文本數(shù)據(jù)挖掘并不是一件容易的事情,尤其是在分析方法方面,還有很多需要研究的
專題。目前市場上有一些類似的軟件,但大部分方法只是把文本移來移去,或簡單地計算一下某些詞匯的
出現(xiàn)頻率,并沒有真正的分析功能。感謝閱讀隨著計算機(jī)計算能力的發(fā)展和業(yè)務(wù)復(fù)雜性的提高,數(shù)據(jù)的類型會越來越多、越來越復(fù)雜,數(shù)據(jù)挖掘?qū)?/p>
發(fā)揮出越來越大的作用。感謝閱讀第九課數(shù)據(jù)挖掘應(yīng)用9.1數(shù)據(jù)挖掘解決的典型商業(yè)問題9.2數(shù)據(jù)挖掘在市場營銷的應(yīng)用9.3成功案例9.3.1電話收費(fèi)和管理辦法9.3.2競技運(yùn)動中的數(shù)據(jù)挖掘179.3.3數(shù)據(jù)挖掘技術(shù)在商業(yè)銀行中的應(yīng)用9.3.4因特網(wǎng)篩選9.1數(shù)據(jù)挖掘解決的典型商業(yè)問題需要強(qiáng)調(diào)的是,數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。目前,在很多領(lǐng)域,數(shù)據(jù)挖掘(datamining)感謝閱讀都是一個很時髦的詞,尤其是在如銀行、電信、保險、交通、零售(如超級市場)等商業(yè)領(lǐng)域。數(shù)據(jù)挖掘謝謝閱讀Segmentation謝謝閱讀&Classification)、背景分析(ProfileAnalysis)、交叉銷售(Cross-selling)等市場分析行為,以謝謝閱讀及客戶流失性分析(ChurnAnalysis)、客戶信用記分(CreditScoring)、欺詐發(fā)現(xiàn)(FraudDetection)等等。謝謝閱讀9.2數(shù)據(jù)挖掘在市場營銷的應(yīng)用數(shù)據(jù)挖掘技術(shù)在企業(yè)市場營銷中得到了比較普遍的應(yīng)用,它是以市場營銷學(xué)的市場細(xì)分原理為基礎(chǔ),
其基本假定是“消費(fèi)者過去的行為是其今后消費(fèi)傾向的最好說明”。精品文檔放心下載消費(fèi)傾向和消費(fèi)需求,進(jìn)而推斷出相應(yīng)消費(fèi)群體或個體下一步的消費(fèi)行為,然后以此為基礎(chǔ),對所識別出
來的消費(fèi)群體進(jìn)行特定內(nèi)容的定向營銷,這與傳統(tǒng)的不區(qū)分消費(fèi)者對象特征的大規(guī)模營銷手段相比,大大
節(jié)省了營銷成本,提高了營銷效果,從而為企業(yè)帶來更多的利潤。謝謝閱讀商業(yè)消費(fèi)信息來自市場中的各種渠道。例如,每當(dāng)我們用信用卡消費(fèi)時,商業(yè)企業(yè)就可以在信用卡結(jié)
算過程收集商業(yè)消費(fèi)信息,記錄下我們進(jìn)行消費(fèi)的時間、地點(diǎn)、感興趣的商品或服務(wù)、愿意接收的價格水
平和支付能力等數(shù)據(jù);當(dāng)我們在申辦信用卡、辦理汽車駕駛執(zhí)照、填寫商品保修單等其他需要填寫表格的
場合時,我們的個人信息就存入了相應(yīng)的業(yè)務(wù)數(shù)據(jù)庫;企業(yè)除了自行收集相關(guān)業(yè)務(wù)信息之外,甚至可以從
其他公司或機(jī)構(gòu)購買此類信息為自己所用。精品文檔放心下載這些來自各種渠道的數(shù)據(jù)信息被組合,應(yīng)用超級計算機(jī)、并行處理、神經(jīng)元網(wǎng)絡(luò)、模型化算法和其他
信息處理技術(shù)手段進(jìn)行處理,從中得到商家用于向特定消費(fèi)群體或個體進(jìn)行定向營銷的決策信息。這種數(shù)
據(jù)信息是如何應(yīng)用的呢?舉一個簡單的例子,當(dāng)銀行通過對業(yè)務(wù)數(shù)據(jù)進(jìn)行挖掘后,發(fā)現(xiàn)一個銀行帳戶持有
者突然要求申請雙人聯(lián)合帳戶時,并且確認(rèn)該消費(fèi)者是第一次申請聯(lián)合帳戶,銀行會推斷該用戶可能要結(jié)
婚了,它就會向該用戶定向推銷用于購買房屋、支付子女學(xué)費(fèi)等長期投資業(yè)務(wù),銀行甚至可能將該信息賣
給專營婚慶商品和服務(wù)的公司。數(shù)據(jù)挖掘構(gòu)筑競爭優(yōu)勢。精品文檔放心下載在市場經(jīng)濟(jì)比較發(fā)達(dá)的國家和地區(qū),許多公司都開始在原有信息系統(tǒng)的基礎(chǔ)上通過數(shù)據(jù)挖掘?qū)I(yè)務(wù)信
息進(jìn)行深加工,以構(gòu)筑自己的競爭優(yōu)勢,擴(kuò)大自己的營業(yè)額。美國運(yùn)通公司(AmericanExpress)有一個用
54數(shù)據(jù)進(jìn)行挖掘,制定了“關(guān)聯(lián)結(jié)算(RelationshipBilling)優(yōu)惠”的促銷策略,即如果一個顧客在一個商
店用運(yùn)通卡購買一套時裝,那么在同一個商店再買一雙鞋,就可以得到比較大的折扣,這樣既可以增加商
店的銷售量,也可以增加運(yùn)通卡在該商店的使用率。再如,居住在倫敦的持卡消費(fèi)者如果最近剛剛乘英國
航空公司的航班去過巴黎,那么他可能會得到一個周末前往紐約的機(jī)票打折優(yōu)惠卡。謝謝閱讀公司建立了一個擁有3000出積極反應(yīng)的客戶和銷售記錄而建立起來的,卡夫公司通過數(shù)據(jù)挖掘了解特定客戶的興趣和口味,并以此
為基礎(chǔ)向他們發(fā)送特定產(chǎn)品的優(yōu)惠券,并為他們推薦符合客戶口味和健康狀況的卡夫產(chǎn)品食譜。美國的讀
者文摘(Reader'sDigest)出版公司運(yùn)行著一個積累了40年的業(yè)務(wù)數(shù)據(jù)庫,其中容納有遍布全球的一億多
24進(jìn)行數(shù)據(jù)挖掘的優(yōu)勢,使讀者文摘出版公司能夠從通俗雜志擴(kuò)展到專業(yè)雜志、書刊和聲像制品的出版和發(fā)
行業(yè)務(wù),極大地擴(kuò)展了自己的業(yè)務(wù)。精品文檔放心下載18基于數(shù)據(jù)挖掘的營銷對我國當(dāng)前的市場競爭中也很具有啟發(fā)意義,我們經(jīng)??梢钥吹椒比A商業(yè)街上一謝謝閱讀些廠商對來往行人不分對象地散發(fā)大量商品宣傳廣告,其結(jié)果是不需要的人隨手丟棄資料,而需要的人并謝謝閱讀不一定能夠得到。如果搞家電維修服務(wù)的公司向在商店中剛剛購買家電的消費(fèi)者郵寄維修服務(wù)廣告,賣特精品文檔放心下載效藥品的廠商向醫(yī)院特定門診就醫(yī)的病人郵寄廣告,肯定會比漫無目的的營銷效果要好得多。謝謝閱讀9.3成功案例9.3.1電話收費(fèi)和管理辦法加拿大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 修建性設(shè)計合同范本
- 10萬噸煤礦合同范本
- 單位只交社保合同范本
- 公司銷售代理合同范本
- 出售機(jī)械板車合同范本
- 醫(yī)藥培訓(xùn)銷售合同范本
- 個人精裝房租賃合同范例
- 保潔大掃除合同范本
- 買汽車有沒有三包合同范本
- 加工基地 合同范本
- 論文寫作與學(xué)術(shù)規(guī)范 課程教學(xué)大綱
- DB32/T 4443-2023 罐區(qū)內(nèi)在役危險化學(xué)品(常低壓)儲罐管理規(guī)范
- 醫(yī)療機(jī)構(gòu)注銷登記申請書
- GB/T 678-2023化學(xué)試劑乙醇(無水乙醇)
- 船舶塢修廠修工程單審批稿
- 新能源汽車電池石墨類負(fù)極材料一體化項目環(huán)境影響評價報告書
- 高中英語-what's in a name教學(xué)課件設(shè)計
- 小學(xué)家長接送學(xué)生協(xié)議書
- 小兒腹瀉病診療規(guī)范
- IT服務(wù)連續(xù)性實(shí)現(xiàn)指南
- 公路工程施工安全管理及其實(shí)例
評論
0/150
提交評論