![數(shù)據(jù)挖掘技術(shù)三_第1頁(yè)](http://file1.renrendoc.com/fileroot_temp2/2020-11/22/703139c4-898d-414f-9ba7-517fd0b1f674/703139c4-898d-414f-9ba7-517fd0b1f6741.gif)
![數(shù)據(jù)挖掘技術(shù)三_第2頁(yè)](http://file1.renrendoc.com/fileroot_temp2/2020-11/22/703139c4-898d-414f-9ba7-517fd0b1f674/703139c4-898d-414f-9ba7-517fd0b1f6742.gif)
![數(shù)據(jù)挖掘技術(shù)三_第3頁(yè)](http://file1.renrendoc.com/fileroot_temp2/2020-11/22/703139c4-898d-414f-9ba7-517fd0b1f674/703139c4-898d-414f-9ba7-517fd0b1f6743.gif)
![數(shù)據(jù)挖掘技術(shù)三_第4頁(yè)](http://file1.renrendoc.com/fileroot_temp2/2020-11/22/703139c4-898d-414f-9ba7-517fd0b1f674/703139c4-898d-414f-9ba7-517fd0b1f6744.gif)
![數(shù)據(jù)挖掘技術(shù)三_第5頁(yè)](http://file1.renrendoc.com/fileroot_temp2/2020-11/22/703139c4-898d-414f-9ba7-517fd0b1f674/703139c4-898d-414f-9ba7-517fd0b1f6745.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘技術(shù) 三數(shù)據(jù)挖掘技術(shù)(三)2010年11月13日下午07:25數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)在技術(shù)上可以根據(jù)它的工作過(guò)程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲(chǔ)和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。數(shù)據(jù)的抽取數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的入口。由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過(guò)抽取過(guò)程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個(gè)方面的處理。在數(shù)據(jù)抽取方面,未來(lái)的技術(shù)發(fā)展將集中在系統(tǒng)功能集成化方面,以適應(yīng)數(shù)據(jù)倉(cāng)庫(kù)本身或數(shù)據(jù)源的變化,使系統(tǒng)更便于管理和維護(hù)。數(shù)據(jù)的存儲(chǔ)和管理數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù)的特性,
2、也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉(cāng)庫(kù)管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時(shí)間的推移而快速累積。在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。目前,許多數(shù)據(jù)庫(kù)廠家提供的技術(shù)解決方案是擴(kuò)展關(guān)系型數(shù)據(jù)庫(kù)的功能,將普通關(guān)系數(shù)據(jù)庫(kù)改造成適合擔(dān)當(dāng)數(shù)據(jù)倉(cāng)庫(kù)的服務(wù)器。數(shù)據(jù)的展現(xiàn)在數(shù)據(jù)展現(xiàn)方面主要的方式有:查詢:實(shí)現(xiàn)預(yù)定義查詢、動(dòng)態(tài)查詢、OLAP查詢與決策支持智能查詢;報(bào)表:產(chǎn)生關(guān)系數(shù)據(jù)表格、復(fù)雜表格、OLAP表格、報(bào)告以及各種綜合報(bào)表;可視化:用易于理解的點(diǎn)線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動(dòng)態(tài)模擬、計(jì)算機(jī)動(dòng)畫技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)
3、系;統(tǒng)計(jì):進(jìn)行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計(jì)分析;挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的識(shí)。數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)融合發(fā)展數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)的協(xié)同工作,一方面,可以迎合和簡(jiǎn)化數(shù)據(jù)挖掘過(guò)程中的重要步驟,提高數(shù)據(jù)挖掘的效率和能力,確保數(shù)據(jù)挖掘中數(shù)據(jù)來(lái)源的廣泛性和完整性。另一方面,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中極為重要和相對(duì)獨(dú)立的方面和工具。數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)是融合與互動(dòng)發(fā)展的,其學(xué)術(shù)研究?jī)r(jià)值和應(yīng)用研究前景將是令人振奮的。它是數(shù)據(jù)挖掘?qū)<?、?shù)據(jù)倉(cāng)庫(kù)技術(shù)人員和行業(yè)專家共同努力的成果,更是廣大渴望從數(shù)據(jù)庫(kù)奴隸到數(shù)據(jù)庫(kù)主人轉(zhuǎn)變的企業(yè)最終用戶的通途。統(tǒng)計(jì)學(xué)與數(shù)據(jù)
4、挖掘統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘有著共同的目標(biāo):發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)。事實(shí)上,由于它們的目標(biāo)相似,一些人(尤其是統(tǒng)計(jì)學(xué)家)認(rèn)為數(shù)據(jù)挖掘是統(tǒng)計(jì)學(xué)的分支。這是一個(gè)不切合實(shí)際的看法。因?yàn)閿?shù)據(jù)挖掘還應(yīng)用了其它領(lǐng)域的思想、工具和方法,尤其是計(jì)算機(jī)學(xué)科,例如數(shù)據(jù)庫(kù)技術(shù)和機(jī)器學(xué)習(xí),而且它所關(guān)注的某些領(lǐng)域和統(tǒng)計(jì)學(xué)家所關(guān)注的有很大不同。1.統(tǒng)計(jì)學(xué)的性質(zhì)試圖為統(tǒng)計(jì)學(xué)下一個(gè)太寬泛的定義是沒有意義的。盡管可能做到,但會(huì)引來(lái)很多異議。相反,我要關(guān)注統(tǒng)計(jì)學(xué)不同于數(shù)據(jù)挖掘的特性。差異之一同上節(jié)中最后一段提到的相關(guān),即統(tǒng)計(jì)學(xué)是一門比較保守的學(xué)科,目前有一種趨勢(shì)是越來(lái)越精確。當(dāng)然,這本身并不是壞事,只有越精確才能避免錯(cuò)誤,發(fā)現(xiàn)真理。但是如果過(guò)
5、度的話則是有害的。這個(gè)保守的觀點(diǎn)源于統(tǒng)計(jì)學(xué)是數(shù)學(xué)的分支這樣一個(gè)看法,我是不同意這個(gè)觀點(diǎn)的,盡管統(tǒng)計(jì)學(xué)確實(shí)以數(shù)學(xué)為基礎(chǔ)(正如物理和工程也以數(shù)學(xué)為基礎(chǔ),但沒有被認(rèn)為是數(shù)學(xué)的分支),但它同其它學(xué)科還有緊密的聯(lián)系。數(shù)學(xué)背景和追求精確加強(qiáng)了這樣一個(gè)趨勢(shì):在采用一個(gè)方法之前先要證明,而不是象計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)那樣注重經(jīng)驗(yàn)。這就意味著有時(shí)候和統(tǒng)計(jì)學(xué)家關(guān)注同一問題的其它領(lǐng)域的研究者提出一個(gè)很明顯有用的方法,但它卻不能被證明(或還不能被證明)。統(tǒng)計(jì)雜志傾向于發(fā)表經(jīng)過(guò)數(shù)學(xué)證明的方法而不是一些特殊方法。數(shù)據(jù)挖掘作為幾門學(xué)科的綜合,已經(jīng)從機(jī)器學(xué)習(xí)那里繼承了實(shí)驗(yàn)的態(tài)度。這并不意味著數(shù)據(jù)挖掘工作者不注重精確,而只是說(shuō)明
6、如果方法不能產(chǎn)生結(jié)果的話就會(huì)被放棄。正是統(tǒng)計(jì)文獻(xiàn)顯示了(或夸大了)統(tǒng)計(jì)的數(shù)學(xué)精確性。同時(shí)還顯示了其對(duì)推理的側(cè)重。盡管統(tǒng)計(jì)學(xué)的一些分支也側(cè)重于描述,但是瀏覽一下統(tǒng)計(jì)論文的話就會(huì)發(fā)現(xiàn)這些文獻(xiàn)的核心問題就是在觀察了樣本的情況下如何去推斷總體。當(dāng)然這也常常是數(shù)據(jù)挖掘所關(guān)注的。下面我們會(huì)提到數(shù)據(jù)挖掘的一個(gè)特定屬性就是要處理的是一個(gè)大數(shù)據(jù)集。這就意味著,由于可行性的原因,我們常常得到的只是一個(gè)樣本,但是需要描述樣本取自的那個(gè)大數(shù)據(jù)集。然而,數(shù)據(jù)挖掘問題常??梢缘玫綌?shù)據(jù)總體,例如關(guān)于一個(gè)公司的所有職工數(shù)據(jù),數(shù)據(jù)庫(kù)中的所有客戶資料,去年的所有業(yè)務(wù)。在這種情形下,推斷就沒有價(jià)值了(例如,年度業(yè)務(wù)的平均值),因?yàn)?/p>
7、觀測(cè)到的值也就是估計(jì)參數(shù)。這就意味著,建立的統(tǒng)計(jì)模型可能會(huì)利用一系列概率表述(例如,一些參數(shù)接近于0,則會(huì)從模型中剔除掉),但當(dāng)總體數(shù)據(jù)可以獲得的話,在數(shù)據(jù)挖掘中則變得毫無(wú)意義。在這里,我們可以很方便的應(yīng)用評(píng)估函數(shù):針對(duì)數(shù)據(jù)的足夠的表述。事實(shí)是,常常所關(guān)注的是模型是否合適而不是它的可行性,在很多情形下,使得模型的發(fā)現(xiàn)很容易。例如,在尋找規(guī)則時(shí)常常會(huì)利用吻合度的單純特性(例如,應(yīng)用分支定理)。但當(dāng)我們應(yīng)用概率陳述時(shí)則不會(huì)得到這些特性。統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘部分交迭的第三個(gè)特性是在現(xiàn)代統(tǒng)計(jì)學(xué)中起核心作用的模型?;蛟S模型這個(gè)術(shù)語(yǔ)更多的含義是變化。一方面,統(tǒng)計(jì)學(xué)模型是基于分析變量間的聯(lián)系,但另一方面這些模型
8、關(guān)于數(shù)據(jù)的總體描述確實(shí)沒有道理的。關(guān)于信用卡業(yè)務(wù)的回歸模型可能會(huì)把收入作為一個(gè)獨(dú)立的變量,因?yàn)橐话阏J(rèn)為高收入會(huì)導(dǎo)致大的業(yè)務(wù)。這可能是一個(gè)理論模型(盡管基于一個(gè)不牢靠的理論)。與此相反,只需在一些可能具有解釋意義的變量基礎(chǔ)上進(jìn)行逐步的搜索,從而獲得一個(gè)有很大預(yù)測(cè)價(jià)值的模型,盡管不能作出合理的解釋。(通過(guò)數(shù)據(jù)挖掘去發(fā)現(xiàn)一個(gè)模型的時(shí)候,常常關(guān)注的就是后者)。還有其它方法可以區(qū)分統(tǒng)計(jì)模型,但在這里我將不作探討。這里我想關(guān)注的是,現(xiàn)代統(tǒng)計(jì)學(xué)是以模型為主的。而計(jì)算,模型選擇條件是次要的,只是如何建立一個(gè)好的模型。但在數(shù)據(jù)挖掘中,卻不完全是如此。在數(shù)據(jù)挖掘中,準(zhǔn)則起了核心的作用。(當(dāng)然在統(tǒng)計(jì)學(xué)中有一些以準(zhǔn)則
9、為中心的獨(dú)立的特例。Gifi的關(guān)于學(xué)校的非線性多變量分析就是其中之一。例如,Gifi說(shuō),在本書中我們持這樣的觀點(diǎn),給定一些最常用的MVA(多變量分析)問題,既可以從模型出發(fā)也可以技術(shù)出發(fā)。正如我們已經(jīng)在1.1節(jié)所看到的基于模型的經(jīng)典的多變量統(tǒng)計(jì)分析,然而,在很多情形下,模型的選擇并不都是顯而易見的,選擇一個(gè)合適的模型是不可能的,最合適的計(jì)算方法也是不可行的。在這種情形下,我們從另外一個(gè)角度出發(fā),應(yīng)用設(shè)計(jì)的一系列技術(shù)來(lái)回答MVA問題,暫不考慮模型和最優(yōu)判別的選擇。相對(duì)于統(tǒng)計(jì)學(xué)而言,準(zhǔn)則在數(shù)據(jù)挖掘中起著更為核心的作用并不奇怪,數(shù)據(jù)挖掘所繼承的學(xué)科如計(jì)算機(jī)科學(xué)及相關(guān)學(xué)科也是如此。數(shù)據(jù)集的規(guī)模常常意味
10、著傳統(tǒng)的統(tǒng)計(jì)學(xué)準(zhǔn)則不適合數(shù)據(jù)挖掘問題,不得不重新設(shè)計(jì)。部分地,當(dāng)數(shù)據(jù)點(diǎn)被逐一應(yīng)用以更新估計(jì)量,適應(yīng)性和連續(xù)性的準(zhǔn)則常常是必須的。盡管一些統(tǒng)計(jì)學(xué)的準(zhǔn)則已經(jīng)得到發(fā)展,但更多的應(yīng)用是機(jī)器學(xué)習(xí)。(正如學(xué)習(xí)所示的那樣)2.數(shù)據(jù)挖掘的性質(zhì)由于統(tǒng)計(jì)學(xué)基礎(chǔ)的建立在計(jì)算機(jī)的發(fā)明和發(fā)展之前,所以常用的統(tǒng)計(jì)學(xué)工具包含很多可以手工實(shí)現(xiàn)的方法。因此,對(duì)于很多統(tǒng)計(jì)學(xué)家來(lái)說(shuō),1000個(gè)數(shù)據(jù)就已經(jīng)是很大的了。但這個(gè)大對(duì)于英國(guó)大的信用卡公司每年350,000,000筆業(yè)務(wù)或AT&T每天200,000,000個(gè)長(zhǎng)途呼叫來(lái)說(shuō)相差太遠(yuǎn)了。很明顯,面對(duì)這么多的數(shù)據(jù),則需要設(shè)計(jì)不同于那些原則上可以用手工實(shí)現(xiàn)的方法。這意味這計(jì)算機(jī)(正是計(jì)
11、算機(jī)使得大數(shù)據(jù)可能實(shí)現(xiàn))對(duì)于數(shù)據(jù)的分析和處理是關(guān)鍵的。分析者直接處理數(shù)據(jù)將變得不可行。相反,計(jì)算機(jī)在分析者和數(shù)據(jù)之間起到了必要的過(guò)濾的作用。這也是數(shù)據(jù)挖掘特別注重準(zhǔn)則的另一原因。盡管有必要,把分析者和數(shù)據(jù)分離開很明顯導(dǎo)致了一些關(guān)聯(lián)任務(wù)。這里就有一個(gè)真正的危險(xiǎn):非預(yù)期的模式可能會(huì)誤導(dǎo)分析者,這一點(diǎn)我下面會(huì)討論。我不認(rèn)為在現(xiàn)代統(tǒng)計(jì)中計(jì)算機(jī)不是一個(gè)重要的工具。它們確實(shí)是,并不是因?yàn)閿?shù)據(jù)的規(guī)模。對(duì)數(shù)據(jù)的精確分析方法如bootstrap方法、隨機(jī)測(cè)試,迭代估計(jì)方法以及比較適合的復(fù)雜的模型正是有了計(jì)算機(jī)才是可能的。計(jì)算機(jī)已經(jīng)使得傳統(tǒng)統(tǒng)計(jì)模型的視野大大的擴(kuò)展了,還促進(jìn)了新工具的飛速發(fā)展。下面來(lái)關(guān)注一下歪曲數(shù)
12、據(jù)的非預(yù)期的模式出現(xiàn)的可能性。這和數(shù)據(jù)質(zhì)量相關(guān)。所有數(shù)據(jù)分析的結(jié)論依賴于數(shù)據(jù)質(zhì)量。GIGO的意思是垃圾進(jìn),垃圾出,它的引用到處可見。一個(gè)數(shù)據(jù)分析者,無(wú)論他多聰明,也不可能從垃圾中發(fā)現(xiàn)寶石。對(duì)于大的數(shù)據(jù)集,尤其是要發(fā)現(xiàn)精細(xì)的小型或偏離常規(guī)的模型的時(shí)候,這個(gè)問題尤其突出。當(dāng)一個(gè)人在尋找百萬(wàn)分之一的模型的時(shí)候,第二個(gè)小數(shù)位的偏離就會(huì)起作用。一個(gè)經(jīng)驗(yàn)豐富的人對(duì)于此類最常見的問題會(huì)比較警覺,但出錯(cuò)的可能性太多了。此類問題可能在兩個(gè)層次上產(chǎn)生。第一個(gè)是微觀層次,即個(gè)人記錄。例如,特殊的屬性可能丟失或輸錯(cuò)了。我知道一個(gè)案例,由于挖掘者不知道,丟失的數(shù)據(jù)被記錄為99而作為真實(shí)的數(shù)據(jù)處理。第二個(gè)是宏觀層次,整個(gè)
13、數(shù)據(jù)集被一些選擇機(jī)制所歪曲。交通事故為此提供了一個(gè)好的示例。越嚴(yán)重的、致命的事故,其記錄越精確,但小的或沒有傷害的事故的記錄卻沒有那么精確。事實(shí)上,很高比例的數(shù)據(jù)根本沒有記錄。這就造成了一個(gè)歪曲的映象-可能會(huì)導(dǎo)致錯(cuò)誤的結(jié)論。統(tǒng)計(jì)學(xué)很少會(huì)關(guān)注實(shí)時(shí)分析,然而數(shù)據(jù)挖掘問題常常需要這些。例如,銀行事務(wù)每天都會(huì)發(fā)生,沒有人能等三個(gè)月得到一個(gè)可能的欺詐的分析。類似的問題發(fā)生在總體隨時(shí)間變化的情形。我的研究組有明確的例子顯示銀行債務(wù)的申請(qǐng)隨時(shí)間、競(jìng)爭(zhēng)環(huán)境、經(jīng)濟(jì)波動(dòng)而變化。3.討論數(shù)據(jù)挖掘有時(shí)候是一次性的實(shí)驗(yàn)。這是一個(gè)誤解。它更應(yīng)該被看作是一個(gè)不斷的過(guò)程(盡管數(shù)據(jù)集時(shí)確定的)。從一個(gè)角度檢查數(shù)據(jù)可以解釋結(jié)果,
14、以相關(guān)的觀點(diǎn)檢查可能會(huì)更接近等等。關(guān)鍵是,除了極少的情形下,很少知道哪一類模式是有意義的。數(shù)據(jù)挖掘的本質(zhì)是發(fā)現(xiàn)非預(yù)期的模式-同樣非預(yù)期的模式要以非預(yù)期的方法來(lái)發(fā)現(xiàn)。與把數(shù)據(jù)挖掘作為一個(gè)過(guò)程的觀點(diǎn)相關(guān)聯(lián)的是認(rèn)識(shí)到結(jié)果的新穎性。許多數(shù)據(jù)挖掘的結(jié)果是我們所期望的-可以回顧。然而,可以解釋這個(gè)事實(shí)并不能否定挖掘出它們的價(jià)值。沒有這些實(shí)驗(yàn),可能根本不會(huì)想到這些。實(shí)際上,只有那些可以依據(jù)過(guò)去經(jīng)驗(yàn)形成的合理的解釋的結(jié)構(gòu)才會(huì)是有價(jià)值的。顯然在數(shù)據(jù)挖掘存在著一個(gè)潛在的機(jī)會(huì)。在大數(shù)據(jù)集中發(fā)現(xiàn)模式的可能性當(dāng)然存在,大數(shù)據(jù)集的數(shù)量與日俱增。然而,也不應(yīng)就此掩蓋危險(xiǎn)。所有真正的數(shù)據(jù)集(即使那些是以完全自動(dòng)方式搜集的數(shù)據(jù)
15、)都有產(chǎn)生錯(cuò)誤的可能。關(guān)于人的數(shù)據(jù)集(例如事務(wù)和行為數(shù)據(jù))尤其有這種可能。這很好的解釋了絕大部分在數(shù)據(jù)中發(fā)現(xiàn)的非預(yù)期的結(jié)構(gòu)本質(zhì)上是無(wú)意義的,而是因?yàn)槠x了理想的過(guò)程。(當(dāng)然,這樣的結(jié)構(gòu)可能會(huì)是有意義的:如果數(shù)據(jù)有問題,可能會(huì)干擾搜集數(shù)據(jù)的目的,最好還是了解它們)。與此相關(guān)聯(lián)的是如何確保(和至少為事實(shí)提供支持)任何所觀察到的模式是真實(shí)的,它們反應(yīng)了一些潛在的結(jié)構(gòu)和關(guān)聯(lián)而不僅僅是一個(gè)特殊的數(shù)據(jù)集,由于一個(gè)隨機(jī)的樣本碰巧發(fā)生。在這里,記分方法可能是相關(guān)的,但需要更多的統(tǒng)計(jì)學(xué)家和數(shù)據(jù)挖掘工作者的研究。數(shù)據(jù)挖掘相關(guān)的10個(gè)問題NO.1 Data Mining和統(tǒng)計(jì)分析有什么不同?硬要去區(qū)分Data Mi
16、ning和Statistics的差異其實(shí)是沒有太大意義的。一般將之定義為Data Mining技術(shù)的CART、CHAID或模糊計(jì)算等等理論方法,也都是由統(tǒng)計(jì)學(xué)者根據(jù)統(tǒng)計(jì)理論所發(fā)展衍生,換另一個(gè)角度看,Data Mining有相當(dāng)大的比重是由高等統(tǒng)計(jì)學(xué)中的多變量分析所支撐。但是為什么Data Mining的出現(xiàn)會(huì)引發(fā)各領(lǐng)域的廣泛注意呢?主要原因在相較于傳統(tǒng)統(tǒng)計(jì)分析而言,Data Mining有下列幾項(xiàng)特性:1.處理大量實(shí)際數(shù)據(jù)更強(qiáng)勢(shì),且無(wú)須太專業(yè)的統(tǒng)計(jì)背景去使用Data Mining的工具;2.數(shù)據(jù)分析趨勢(shì)為從大型數(shù)據(jù)庫(kù)抓取所需數(shù)據(jù)并使用專屬計(jì)算機(jī)分析軟件,Data Mining的工具更符合企業(yè)
17、需求;3.純就理論的基礎(chǔ)點(diǎn)來(lái)看,Data Mining和統(tǒng)計(jì)分析有應(yīng)用上的差別,畢竟Data Mining目的是方便企業(yè)終端用戶使用而非給統(tǒng)計(jì)學(xué)家檢測(cè)用的。NO.2數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的關(guān)系為何?若將Data Warehousing(數(shù)據(jù)倉(cāng)庫(kù))比喻作礦坑,Data Mining就是深入礦坑采礦的工作。畢竟Data Mining不是一種無(wú)中生有的魔術(shù),也不是點(diǎn)石成金的煉金術(shù),若沒有夠豐富完整的數(shù)據(jù),是很難期待Data Mining能挖掘出什么有意義的信息的。要將龐大的數(shù)據(jù)轉(zhuǎn)換成為有用的信息,必須先有效率地收集信息。隨著科技的進(jìn)步,功能完善的數(shù)據(jù)庫(kù)系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。數(shù)據(jù)倉(cāng)庫(kù),簡(jiǎn)單地說(shuō),
18、就是搜集來(lái)自其它系統(tǒng)的有用數(shù)據(jù),存放在一整合的儲(chǔ)存區(qū)內(nèi)。所以其實(shí)就是一個(gè)經(jīng)過(guò)處理整合,且容量特別大的關(guān)系型數(shù)據(jù)庫(kù),用以儲(chǔ)存決策支持系統(tǒng)(Decision Support System)所需的數(shù)據(jù),供決策支持或數(shù)據(jù)分析使用。從信息技術(shù)的角度來(lái)看,數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)是在組織中,在正確的時(shí)間,將正確的數(shù)據(jù)交給正確的人。許多人對(duì)于Data Warehousing和Data Mining時(shí)常混淆,不知如何分辨。其實(shí),數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)庫(kù)技術(shù)的一個(gè)新主題,利用計(jì)算機(jī)系統(tǒng)幫助我們操作、計(jì)算和思考,讓作業(yè)方式改變,決策方式也跟著改變。數(shù)據(jù)倉(cāng)庫(kù)本身是一個(gè)非常大的數(shù)據(jù)庫(kù),它儲(chǔ)存著由組織作業(yè)數(shù)據(jù)庫(kù)中整合而來(lái)的數(shù)據(jù),特別是指
19、事務(wù)處理系統(tǒng)OLTP(On-Line Transactional Processing)所得來(lái)的數(shù)據(jù)。將這些整合過(guò)的數(shù)據(jù)置放于數(shù)據(jù)倉(cāng)庫(kù)中,而公司的決策者則利用這些數(shù)據(jù)作決策;但是,這個(gè)轉(zhuǎn)換及整合數(shù)據(jù)的過(guò)程,是建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù)最大的挑戰(zhàn)。因?yàn)閷⒆鳂I(yè)中的數(shù)據(jù)轉(zhuǎn)換成有用的的策略性信息是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的重點(diǎn)。綜上所述,數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該具有這些數(shù)據(jù):整合性數(shù)據(jù)(integrated data)、詳細(xì)和匯總性的數(shù)據(jù)(detailed and summarized data)、歷史數(shù)據(jù)、解釋數(shù)據(jù)的數(shù)據(jù)。從數(shù)據(jù)倉(cāng)庫(kù)挖掘出對(duì)決策有用的信息與知識(shí),是建立數(shù)據(jù)倉(cāng)庫(kù)與使用Data Mining的最大目的,兩者的本質(zhì)與過(guò)程是
20、兩回事。換句話說(shuō),數(shù)據(jù)倉(cāng)庫(kù)應(yīng)先行建立完成,Data mining才能有效率的進(jìn)行,因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)本身所含數(shù)據(jù)是干凈(不會(huì)有錯(cuò)誤的數(shù)據(jù)參雜其中)、完備,且經(jīng)過(guò)整合的。因此兩者關(guān)系或許可解讀為Data Mining是從巨大數(shù)據(jù)倉(cāng)庫(kù)中找出有用信息的一種過(guò)程與技術(shù)。NO.3 OLAP能不能代替Data Mining?所謂OLAP(Online Analytical Process)意指由數(shù)據(jù)庫(kù)所連結(jié)出來(lái)的在線分析處理程序。有些人會(huì)說(shuō):我已經(jīng)有OLAP的工具了,所以我不需要Data Mining。事實(shí)上兩者間是截然不同的,主要差異在于Data Mining用在產(chǎn)生假設(shè),OLAP則用于查證假設(shè)。簡(jiǎn)單來(lái)說(shuō),O
21、LAP是由使用者所主導(dǎo),使用者先有一些假設(shè),然后利用OLAP來(lái)查證假設(shè)是否成立;而Data Mining則是用來(lái)幫助使用者產(chǎn)生假設(shè)。所以在使用OLAP或其它Query的工具時(shí),使用者是自己在做探索(Exploration),但Data Mining是用工具在幫助做探索。舉個(gè)例子來(lái)看,一市場(chǎng)分析師在為超市規(guī)劃貨品架柜擺設(shè)時(shí),可能會(huì)先假設(shè)嬰兒尿布和嬰兒奶粉會(huì)是常被一起購(gòu)買的產(chǎn)品,接著便可利用OLAP的工具去驗(yàn)證此假設(shè)是否為真,又成立的證據(jù)有多明顯;但Data Mining則不然,執(zhí)行Data Mining的人將龐大的結(jié)帳數(shù)據(jù)整理后,并不需要假設(shè)或期待可能的結(jié)果,透過(guò)Mining技術(shù)可找出存在于數(shù)據(jù)
22、中的潛在規(guī)則,于是我們可能得到例如尿布和啤酒常被同時(shí)購(gòu)買的意料外之發(fā)現(xiàn),這是OLAP所做不到的。Data Mining常能挖掘出超越歸納范圍的關(guān)系,但OLAP僅能利用人工查詢及可視化的報(bào)表來(lái)確認(rèn)某些關(guān)系,是以Data Mining此種自動(dòng)找出甚至不會(huì)被懷疑過(guò)的數(shù)據(jù)模型與關(guān)系的特性,事實(shí)上已超越了我們經(jīng)驗(yàn)、教育、想象力的限制,OLAP可以和Data Mining互補(bǔ),但這項(xiàng)特性是Data Mining無(wú)法被OLAP取代的。NO.4完整的Data Mining包含哪些步驟?以下提供一個(gè)Data Mining的進(jìn)行步驟以為參考:1.理解業(yè)務(wù)與理解數(shù)據(jù);2.獲取相關(guān)技術(shù)與知識(shí);3.整合與查詢數(shù)據(jù);4.
23、去除錯(cuò)誤或不一致及不完整的數(shù)據(jù);5.由數(shù)據(jù)選取樣本先行試驗(yàn);6.建立數(shù)據(jù)模型7.實(shí)際Data Mining的分析工作;8.測(cè)試與檢驗(yàn);9.找出假設(shè)并提出解釋;10.持續(xù)應(yīng)用于企業(yè)流程中。由上述步驟可看出,Data Mining牽涉了大量的準(zhǔn)備工作與規(guī)劃過(guò)程,事實(shí)上許多專家皆認(rèn)為整套Data Mining的進(jìn)行有80的時(shí)間精力是花費(fèi)在數(shù)據(jù)前置作業(yè)階段,其中包含數(shù)據(jù)的凈化與格式轉(zhuǎn)換甚或表格的連結(jié)。由此可知Data Mining只是信息挖掘過(guò)程中的一個(gè)步驟而已,在進(jìn)行此步驟前還有許多的工作要先完成。NO.5 Data Mining運(yùn)用了哪些理論與技術(shù)?Data Mining是近年來(lái)數(shù)據(jù)庫(kù)應(yīng)用技術(shù)中相
24、當(dāng)熱門的議題,看似神奇、聽來(lái)時(shí)髦,實(shí)際上卻也不是什么新東西,因其所用之諸如預(yù)測(cè)模型、數(shù)據(jù)分割,連結(jié)分析(Link Analysis)、偏差偵測(cè)(Deviation Detection)等,美國(guó)早在二次世界大戰(zhàn)前就已應(yīng)用運(yùn)用在人口普查及軍事等方面。隨著信息科技超乎想象的進(jìn)展,許多新的計(jì)算機(jī)分析工具問世,例如關(guān)系型數(shù)據(jù)庫(kù)、模糊計(jì)算理論、基因算法則以及類神經(jīng)網(wǎng)絡(luò)等,使得從數(shù)據(jù)中發(fā)掘?qū)毑爻蔀橐环N系統(tǒng)性且可實(shí)行的程序。一般而言,Data Mining的理論技術(shù)可分為傳統(tǒng)技術(shù)與改良技術(shù)兩支。傳統(tǒng)技術(shù)以統(tǒng)計(jì)分析為代表,統(tǒng)計(jì)學(xué)內(nèi)所含序列統(tǒng)計(jì)、概率論、回歸分析、類別數(shù)據(jù)分析等都屬于傳統(tǒng)數(shù)據(jù)挖掘技術(shù),尤其Data
25、 Mining對(duì)象多為變量繁多且樣本數(shù)龐大的數(shù)據(jù),是以高等統(tǒng)計(jì)學(xué)里所含括之多變量分析中用來(lái)精簡(jiǎn)變量的因素分析(Factor Analysis)、用來(lái)分類的判別分析(Discriminant Analysis),以及用來(lái)區(qū)隔群體的分群分析(Cluster Analysis)等,在Data Mining過(guò)程中特別常用。在改良技術(shù)方面,應(yīng)用較普遍的有決策樹理論(Decision Trees)、類神經(jīng)網(wǎng)絡(luò)(Neural Network)以及規(guī)則歸納法(Rules Induction)等。決策樹是一種用樹枝狀展現(xiàn)數(shù)據(jù)受各變量的影響情形之預(yù)測(cè)模型,根據(jù)對(duì)目標(biāo)變量產(chǎn)生之效應(yīng)的不同而建構(gòu)分類的規(guī)則,一般多運(yùn)用
26、在對(duì)客戶數(shù)據(jù)的分析上,例如針對(duì)有回函與未回含的郵寄對(duì)象找出影響其分類結(jié)果的變量組合,常用分類方法為CART(Classification and Regression Trees)及CHAID(Chi-Square Automatic Interaction Detector)兩種。類神經(jīng)網(wǎng)絡(luò)是一種仿真人腦思考結(jié)構(gòu)的數(shù)據(jù)分析模式,由輸入之變量與數(shù)值中自我學(xué)習(xí)并根據(jù)學(xué)習(xí)經(jīng)驗(yàn)所得之知識(shí)不斷調(diào)整參數(shù)以期建構(gòu)數(shù)據(jù)的型樣(patterns)。類神經(jīng)網(wǎng)絡(luò)為非線性的設(shè)計(jì),與傳統(tǒng)回歸分析相比,好處是在進(jìn)行分析時(shí)無(wú)須限定模式,特別當(dāng)數(shù)據(jù)變量間存有交互效應(yīng)時(shí)可自動(dòng)偵測(cè)出;缺點(diǎn)則在于其分析過(guò)程為一黑盒子,故常無(wú)法以
27、可讀之模型格式展現(xiàn),每階段的加權(quán)與轉(zhuǎn)換亦不明確,是故類神經(jīng)網(wǎng)絡(luò)多利用于數(shù)據(jù)屬于高度非線性且?guī)в邢喈?dāng)程度的變量交感效應(yīng)時(shí)。規(guī)則歸納法是知識(shí)發(fā)掘的領(lǐng)域中最常用的格式,這是一種由一連串的如果/則(If/Then)之邏輯規(guī)則對(duì)數(shù)據(jù)進(jìn)行細(xì)分的技術(shù),在實(shí)際運(yùn)用時(shí)如何界定規(guī)則為有效是最大的問題,通常需先將數(shù)據(jù)中發(fā)生數(shù)太少的項(xiàng)目先剔除,以避免產(chǎn)生無(wú)意義的邏輯規(guī)則。NO.6 Data Mining包含哪些主要功能?Data Mining實(shí)際應(yīng)用功能可分為三大類六分項(xiàng)來(lái)說(shuō)明:Classification和Clustering屬于分類區(qū)隔類;Regression和Time-series屬于推算預(yù)測(cè)類;Association和Sequence則屬于序列規(guī)則類。Classification是根據(jù)一些變量的數(shù)值做計(jì)算,再依照結(jié)果作分類。(計(jì)算的結(jié)果最后會(huì)被分類為幾個(gè)少數(shù)的離散數(shù)值,例如將一組數(shù)據(jù)分為可能會(huì)響應(yīng)或是可能不會(huì)響應(yīng)兩類)。Classification常被用來(lái)處理如前所述之郵寄對(duì)象篩選的問題。我們會(huì)用一些根據(jù)歷史經(jīng)驗(yàn)已
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年二手房交易保障資金協(xié)議
- 2025年雙方自愿解除勞動(dòng)合同書范例
- 2025年信用卡還款授權(quán)服務(wù)合同
- 2025年中國(guó)物流服務(wù)提供商戰(zhàn)略合作協(xié)議
- 海運(yùn)客運(yùn)合同法律體系2025年分析
- 2025年企業(yè)債評(píng)級(jí)擔(dān)保合同標(biāo)準(zhǔn)格式
- 2025年創(chuàng)新知識(shí)產(chǎn)權(quán)合資企業(yè)協(xié)議
- 2025年房產(chǎn)遺產(chǎn)繼承人與遺囑執(zhí)行人策劃協(xié)議
- 2025年伙伴間的房產(chǎn)共有合同規(guī)范
- 2025年企業(yè)股權(quán)交易合同樣本(官方版)
- (完整版)施工組織設(shè)計(jì)范本
- 二年級(jí)口算題大全1000道(打印版)
- 年終總結(jié)總經(jīng)理講話
- 2024年事業(yè)單位考試(綜合管理類A類)綜合應(yīng)用能力試題及解答參考
- 2024-2025學(xué)年北師大版數(shù)學(xué)八年級(jí)上冊(cè)期末綜合測(cè)試卷
- 培訓(xùn)機(jī)構(gòu)校區(qū)管理規(guī)劃
- DBJ41-T 246-2021 河南省超低能耗公共建筑節(jié)能設(shè)計(jì)標(biāo)準(zhǔn) 河南省工程建設(shè)標(biāo)準(zhǔn)(住建廳版)
- 新能源發(fā)電技術(shù) 電子課件 2.5 可控核聚變及其未來(lái)利用方式
- 2024年浙江省中考英語(yǔ)試題卷(含答案)
- 三年級(jí)下冊(cè) 道德與法治 全冊(cè)教案
- 檢驗(yàn)科降低檢測(cè)報(bào)告超時(shí)率PDCA持續(xù)改進(jìn)案例
評(píng)論
0/150
提交評(píng)論