版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、一、選擇題(本題共5道小題,每小題2分,共10分)1 .數(shù)據(jù)倉庫是隨著時間變化的,下面的描述不正確的是(C)。A.數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容B.捕捉到的新數(shù)據(jù)會覆蓋原來的快照C.數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容D.數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進行重新綜合2 .有關(guān)數(shù)據(jù)倉庫的開發(fā)特點,不正確的描述是(B)。A.數(shù)據(jù)倉庫使用的需求在開發(fā)初期就要明確B.數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā)C.數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā)D.在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式
2、3 .在有關(guān)數(shù)據(jù)倉庫測試,下列說法不正確的是(D)。A.在完成數(shù)據(jù)倉庫的實施過程中,需要對數(shù)據(jù)倉庫進行各種測試。測試工作中要包括單元測試和系統(tǒng)測試。B.當(dāng)數(shù)據(jù)倉庫的每個單獨組件完成后,就需要對他們進行單元測試。C.系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進行大量的功能測試和回歸測試。D.在測試之前沒必要制定詳細的測試計劃。4.關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指(D)。A.基本元數(shù)據(jù)與數(shù)據(jù)源、數(shù)據(jù)倉庫、數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息B.基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息C.基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息D.基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息6.下
3、面關(guān)于數(shù)據(jù)粒度的描述不正確的是(C)。A.粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別B.數(shù)據(jù)越詳細,粒度就越小,級別也就越高C.數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高D.粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量6 .關(guān)于OLAP的特性,下面正確的是:(D)快速性(2)可分析性(3)多維性(4)信息性(5)共享性A. (1)(2)(3)B. (2)(3)(4)C. (1)(2)(3)(4)D. (1)(2)(3)(4)(5)7 .關(guān)于OLAP和OLTP的區(qū)別描述,不正確的是:(C)A.OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù),它與OTAP應(yīng)用程序不同。8 .與OLAP應(yīng)用
4、程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù).C. OLAP的特點在于事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高D. OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,(!其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的。8 .關(guān)于OLAP和OLTP的說法,下列不正確的是:(A)A. OLAP事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高B. OLAP的最終數(shù)據(jù)來源與OLTP不一樣C. OLTP面對的是決策人員和高層管理人員D. OLTP以應(yīng)用為核心,是應(yīng)用驅(qū)動的9 .OLAP技術(shù)的核心是(D)。A.在線性B.對用戶的快速響應(yīng)C.互操作性D.多維分析10 .某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的
5、人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?(A)A.關(guān)聯(lián)規(guī)則B.聚類C.分類D.自然語言處理11 .分析型CRM的(C)功能可以讓CRM對所進行的銷售活動相關(guān)信息進行存儲和管理,將客戶所發(fā)生的交易與互動事件轉(zhuǎn)化為有意義、高獲利的銷售商機。A.促銷管理B.個性化和標(biāo)準(zhǔn)化C.客戶分析和建模D.客戶溝通12 .運用關(guān)鍵績效指標(biāo)法設(shè)計組織關(guān)鍵績效指標(biāo)依次經(jīng)過以下幾個步驟(A)。A.確定關(guān)鍵成功領(lǐng)域、確定關(guān)鍵績效要素、確定關(guān)鍵績效指標(biāo)B.計劃目標(biāo)、實施目標(biāo)、評價結(jié)果、反饋C.確定目標(biāo)、比較目標(biāo)、收集分析數(shù)據(jù)、系統(tǒng)學(xué)習(xí)與改進、評價和提高D.確定長期整體目標(biāo)、確定短期目標(biāo)13 .什么是KDD?(A
6、)A.知識發(fā)現(xiàn)B.領(lǐng)域知識發(fā)現(xiàn)C.文檔知識發(fā)現(xiàn)D.動態(tài)知識發(fā)現(xiàn)14 .呼叫中心是一種基于(D)的一種新的綜合信息服務(wù)系統(tǒng)。AIT技術(shù)BCTI技術(shù)CWEB技術(shù)DCRM技術(shù)15 .將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)?(C)A.頻繁模式挖掘B.分類和預(yù)測C.數(shù)據(jù)預(yù)處理D.數(shù)據(jù)流挖掘16 .當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?(B)A.分類B.聚類C.關(guān)聯(lián)分析D.隱馬爾可夫鏈17 .使用交互式的和可視化的技術(shù),對數(shù)據(jù)進行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(A)A.探索性數(shù)據(jù)分析B.建模描述C.預(yù)測建模D.尋找模式和規(guī)則18
7、.為數(shù)據(jù)的總體分布建模,把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(B)A.探索性數(shù)據(jù)分析B.建模描述C.預(yù)測建模D.尋找模式和規(guī)則19 .建立一個模型,通過這個模型根據(jù)已知的變量值來預(yù)測其他某個變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(C)A.根據(jù)內(nèi)容檢索B.建模描述C.預(yù)測建模D.尋找模式和規(guī)則20 .用戶有一種感興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式,屬于數(shù)據(jù)挖掘哪一類任務(wù)?(A)A.根據(jù)內(nèi)容檢索B.建模描述C.預(yù)測建模D.尋找模式和規(guī)則21 .下面哪種不屬于數(shù)據(jù)預(yù)處理的方法?(D)A.變量代換B.離散化C.聚集D.估計遺漏值22 .下面哪個不屬于數(shù)據(jù)的屬性類型(D)。A.標(biāo)稱B.序
8、數(shù)C.區(qū)間D.相異23 .在上題中,屬于定量的屬性類型是(C)。A.標(biāo)稱B.序數(shù)C.區(qū)間D.相異24 .只有非零值才重要的二元屬性被稱作(C)。A.計數(shù)屬性B.離散屬性C.非對稱的二元屬性D.對稱屬性25 .以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法(D)。A.嵌入B.過濾C.包裝D.抽樣26 .下面不屬于創(chuàng)建新屬T的相關(guān)方法的是(C)。A.特征提取B.特征修改C.映射數(shù)據(jù)到新的空間D.特征構(gòu)造27 .下面哪個屬于映射數(shù)據(jù)到新的空間的方法?(A)A.傅立葉變換B.特征加權(quán)C.漸進抽樣D.維歸約28 .企業(yè)所建立的預(yù)測模型的好壞取決于模型在(A)上的表現(xiàn)效果。A.得分集B.訓(xùn)練集C.測試集D.評價集2
9、9 .客戶在經(jīng)濟活動中具有多重身份,下面哪一種不是其身份之一(C)。A.行為身份B.所有權(quán)身份C.學(xué)習(xí)身份D.決策身份30 .下列四條描述中,正確的一條是(B)。A.企業(yè)實施數(shù)據(jù)挖掘,必須要有數(shù)據(jù)倉庫。B.企業(yè)要實施數(shù)據(jù)挖掘最好的方式是請編外專家。C.企業(yè)購買現(xiàn)成數(shù)據(jù)挖掘模型的一個先決條件是:該企業(yè)的產(chǎn)品、客戶、市場定位和所買來的現(xiàn)成模型設(shè)計之初的假設(shè)相吻合。D.在建模的時侯,增益最高的模型就是最好的模型。31 .數(shù)據(jù)挖掘算法以(D)形式來組織數(shù)據(jù)。A.行B.列C.記錄D.表格32 .企業(yè)要建立預(yù)測模型,需準(zhǔn)備建模數(shù)據(jù)集,以下四條描述建模數(shù)據(jù)集正確的是(B)。A.數(shù)據(jù)越多越好。B.盡可能多的適
10、合的數(shù)據(jù)。C.得分集數(shù)據(jù)是建模集數(shù)據(jù)的一部分。D.以上三條都正確。33 .K均值類別偵測要求輸入的數(shù)據(jù)類型必須是(B)。A.整型B.數(shù)值型C.字符型D.邏輯型34 .在決策樹和累計增益圖的關(guān)系轉(zhuǎn)化過程圖中,決策樹上某一頁節(jié)點的增益與累計增益圖上的(D)相對應(yīng)。A.線段長度B.線段斜率C.相對應(yīng)的線段長度D.相對應(yīng)的線段斜率35 .企業(yè)為提升每個客戶的價值,應(yīng)實現(xiàn)(C)最優(yōu)化。A.促銷活動B.預(yù)算最優(yōu)化C.客戶最優(yōu)化D.三者都不是36 .數(shù)據(jù)挖掘的經(jīng)典案例“啤酒與尿布試驗”最主要是應(yīng)用了(C)數(shù)據(jù)挖掘方法。A.分類B.預(yù)測C.組合或關(guān)聯(lián)法則D.聚類37 .企業(yè)成功實施數(shù)據(jù)挖掘,需要以下(B)知識
11、或技術(shù)。A.預(yù)先的規(guī)劃B.對商業(yè)文體白理解C.綜合商業(yè)知識和技能D.都需要38 .下列哪個不是專門用于可視化時間空間數(shù)據(jù)的技術(shù)(B)。A.等高線圖B.餅圖C.曲面圖D.矢量場圖(D)。39 .在抽樣方法中,當(dāng)合適的樣本容量很難確定時,可以使用的抽樣方法是C.分層抽樣D.漸進抽樣A.有放回的簡單隨機抽樣B.無放回的簡單隨機抽樣40 .設(shè)X=1,2,3是頻繁項集,則可由X產(chǎn)生(C)個關(guān)聯(lián)規(guī)則。A.4B.5C.641 .概念分層圖是(B)圖。A.無向無環(huán)B.有向無環(huán)42 .以下哪些算法是分類算法(D.7C.有向有環(huán)D.無向有環(huán)B)。A.DBSCANB.C4.5C.K-MeanD.EM43 .以下哪些
12、分類方法可以較好地避免樣本的不平衡問題(A)。A.KNNB.SVMC.BayesD.神經(jīng)網(wǎng)絡(luò)44 .以下關(guān)于人工神經(jīng)網(wǎng)絡(luò)(ANN)的描述錯誤的有(A)。A.神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒B.可以處理冗余特征C.訓(xùn)練ANN是一個很耗時的過程D.至少含有一個隱藏層的多層神經(jīng)網(wǎng)絡(luò)45 .通過聚集多個分類器的預(yù)測來提高分類準(zhǔn)確率的技術(shù)稱為(A)。A.組合(ensemble)B.聚集(aggregate)C.合并(combination)D.投票(voting)46 .簡單地將數(shù)據(jù)對象集劃分成不重疊的子集,使得每個數(shù)據(jù)對象恰在一個子集中,這種聚類類型稱作(BA.層次聚類B.劃分聚類C.非互斥聚類D.
13、模糊聚類47 .在基本K均值算法里,當(dāng)鄰近度函數(shù)采用(A)的時候,合適的質(zhì)心是簇中各點的中位數(shù)。A.曼哈頓距離B.平方歐幾里德距離C.余弦距離D.Bregman散度48 .(C)是一個觀測值,它與其他觀測值的差別如此之大,以至于懷疑它是由不同的機制產(chǎn)生的。A.邊界點B.質(zhì)心C.離群點D.核心點49 .檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于(A)的離群點檢測。A.統(tǒng)計方法B.鄰近度C.密度D.聚類技術(shù)50 .DBSCAN在最壞情況下的時間復(fù)雜度是(B)。A.O(m)B.O(m2)C.O(logm)D.O(m*logm)51 .關(guān)于K均值和DBSCAN的比較,以下說法不正確的是(A)。A
14、. K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象。B. K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。C. K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇。D. K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會合并有重疊的簇。52 .使用交互式的和可視化的技術(shù),對數(shù)據(jù)進行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(A)A.探索性數(shù)據(jù)分析B.建模描述C.預(yù)測建模D.尋找模式和規(guī)則53 .下面哪種不屬于數(shù)據(jù)預(yù)處理的方法?(D)A變量代換B離散化C聚集D估計遺漏值二、判斷題(本題共10道小題,每小題1分,共10分)
15、(T)1.商務(wù)智能指收集、轉(zhuǎn)換、分析和發(fā)布數(shù)據(jù)的過程,目的是為了更好的決策。(F)2.數(shù)據(jù)分析是整合企業(yè)原始數(shù)據(jù)的第一步,包括數(shù)據(jù)抽取、轉(zhuǎn)換和裝載三個過程。(T)3.維是人們觀察數(shù)據(jù)的特定角度,是考慮問題時的一類屬性。(F)4.獨立的數(shù)據(jù)集市架構(gòu)的優(yōu)點是企業(yè)內(nèi)數(shù)據(jù)一致,不會產(chǎn)生信息孤島。(T)5.星型模型的核心是事實表,事實表把各種不同的維表連接起來。(F)6.企業(yè)風(fēng)險分析是通過對企業(yè)的經(jīng)營成本進行綜合評價,擬定一個企業(yè)成本的臨界值。(T)7.衡量客戶忠誠的唯一尺度就是客戶是否重復(fù)或持久地購買企業(yè)的產(chǎn)品或者服務(wù)。(T)8.在BI中,DW是前提和基礎(chǔ),負責(zé)統(tǒng)一數(shù)據(jù)規(guī)則的處理和存儲。(F)9.客戶
16、服務(wù)管理是對客戶意見或投訴以及售前、售中、售后服務(wù)進行管理。(F)10.平衡計分卡共包括三個層面,分別是財務(wù)層面、客戶層面、內(nèi)部業(yè)務(wù)流程層面。(T)11.數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成描述數(shù)據(jù)、預(yù)測數(shù)據(jù)等任務(wù)。(F)12.在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差。(F)13.OLAP是用來協(xié)助企業(yè)對響應(yīng)事件或事務(wù)的日常商務(wù)活動進行處理。(T)14.數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時間變化的數(shù)據(jù)集合,用以支持管理決策的過程。(T)15.數(shù)據(jù)預(yù)處理是整合企業(yè)原始數(shù)據(jù)的第一步,包括數(shù)據(jù)抽取、轉(zhuǎn)換和裝載三個過程。(F)16.C4.5決策樹
17、算法是國際上最早、最有影響力的決策樹算法,(T)17.平衡計分卡是從財務(wù)、客戶、內(nèi)部運營、學(xué)習(xí)與成長四個角度,將組織的戰(zhàn)略落實為可操作的衡量指標(biāo)和目標(biāo)值的一種新型績效管理體系。(F)18.客戶服務(wù)管理是對客戶意見或投訴以及售前、售中、售后服務(wù)進行管理。(F)19.企業(yè)績效管理的目的在于進一步加強成本的事前控制,同時有助于通過盈虧分析,輔助產(chǎn)品科學(xué)的報價。20 .數(shù)據(jù)倉庫的數(shù)據(jù)量越大,其應(yīng)用價值也越大。F21 .啤酒與尿布的故事是聚類分析的典型實例。F22 .等深分箱法使每個箱子的記錄個數(shù)相同。T23 .數(shù)據(jù)倉庫“粒度”越細,記錄數(shù)越少。F24 .數(shù)據(jù)立方體由3維構(gòu)成,Z軸表示事實數(shù)據(jù)。F25
18、.決策樹方法通常用于關(guān)聯(lián)規(guī)則挖掘。F26 .ID3算法是決策樹方法的早期代表。T27 .C4.5是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。F28 .回歸分析通常用于挖掘關(guān)聯(lián)規(guī)則。F29 .人工神經(jīng)網(wǎng)絡(luò)特別適合解決多參數(shù)大復(fù)雜度問題。T30 .概念關(guān)系分析是文本挖掘所獨有的。F31 .可信度是對關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。F32 .孤立點在數(shù)據(jù)挖掘時總是被視為異常、無用數(shù)據(jù)而丟棄。T33 .SQLServer2005不提供關(guān)聯(lián)規(guī)則挖掘算法。F34 .決策樹方法特別適合于處理數(shù)值型數(shù)據(jù)。F35 .數(shù)據(jù)倉庫的數(shù)據(jù)為歷史數(shù)據(jù),從來不需要更新。T36 .數(shù)據(jù)立方體是廣義知識發(fā)現(xiàn)的方法和技術(shù)之一。F37 .數(shù)據(jù)立方體的其
19、中一維用于記錄事實數(shù)據(jù)。T38 .數(shù)據(jù)挖掘的目標(biāo)不在于數(shù)據(jù)采集策略,而在于對于已經(jīng)存在的數(shù)據(jù)進行模式的發(fā)掘。(T)39 .圖挖掘技術(shù)在社會網(wǎng)絡(luò)分析中扮演了重要的角色。(T)40 .模式為對數(shù)據(jù)集的全局性總結(jié),它對整個測量空間的每一點做出描述;模型則對變量變化空間的一個有限區(qū)域做出描述。(F)41 .尋找模式和規(guī)則主要是對數(shù)據(jù)進行干擾,使其符合某種規(guī)則以及模式。(F)42 .離群點可以是合法的數(shù)據(jù)對象或者值。(T)43 .離散屬性總是具有有限個值。(F)44 .噪聲和偽像是數(shù)據(jù)錯誤這一相同表述的兩種叫法。(F)45 .用于分類的離散化方法之間的根本區(qū)別在于是否使用類信息。(T)46 .特征提取技
20、術(shù)并不依賴于特定的領(lǐng)域。(F)47 .可信度是對關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。F48 .定量屬性可以是整數(shù)值或者是連續(xù)值。(T)49 .可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。(T)50 .DSS主要是基于數(shù)據(jù)倉庫、聯(lián)機數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)的應(yīng)用。(F)51 .OLAP技術(shù)側(cè)重于把數(shù)據(jù)庫中的數(shù)據(jù)進行分析、轉(zhuǎn)換成輔助決策信息,是繼數(shù)據(jù)庫技術(shù)發(fā)展之后迅猛發(fā)展起來的一種新技術(shù)。(T)52 .商業(yè)智能系統(tǒng)與一般交易系統(tǒng)之間在系統(tǒng)設(shè)計上的主要區(qū)別在于:后者把結(jié)構(gòu)強加于商務(wù)之上,一旦系統(tǒng)設(shè)計完畢,其程序和規(guī)則不會輕易改變;而前者則是一個學(xué)習(xí)型系統(tǒng),能自動適應(yīng)商務(wù)不斷變化的要求。(T)53 .數(shù)據(jù)倉庫中間
21、層OLAP服務(wù)器只能采用關(guān)系型OLAP。(F)54 .數(shù)據(jù)倉庫系統(tǒng)的組成部分包括數(shù)據(jù)倉庫、倉庫管理、數(shù)據(jù)抽取、分析工具等四個部分。(F)55 .Web數(shù)據(jù)挖掘是通過數(shù)據(jù)庫仲的一些屬性來預(yù)測另一個屬性,它在驗證用戶提出的假設(shè)過程中提取信息。(F)56 .關(guān)聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項集代表的規(guī)則。(F)57 .聚類(clustering)是這樣的過程:它找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測類標(biāo)記未知的對象類。(F)58 .分類和回歸都可用于預(yù)測,分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。(T)59 .對于SVM分類算法,待分樣本集中的大部分樣本不
22、是支持向量,移去或者減少這些樣本對分類結(jié)果沒有影響。(T)60 .Bayes法是一種在已知后驗概率與類條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。(F)三、名詞解釋(本題共4道小題,每小題5分,共20分)1 .商務(wù)智能商務(wù)智能是融合了先進信息技術(shù)與創(chuàng)新管理理念的結(jié)合體,集成企業(yè)內(nèi)外數(shù)據(jù),進行加工并從中提取能夠創(chuàng)造商業(yè)價值的知識,面向企業(yè)戰(zhàn)略并服務(wù)于管理層、業(yè)務(wù)層,指導(dǎo)企業(yè)經(jīng)營決策,提升企業(yè)競爭力。2 .數(shù)據(jù)倉庫數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時間變化的數(shù)據(jù)集合,用以支持管理決策的過程。3 .數(shù)據(jù)集成數(shù)據(jù)集成是在邏輯上或物理上把不相同來源、格式、特點的數(shù)據(jù)
23、有機地整合,從而為企業(yè)提供全面的數(shù)據(jù)共享。4 .OLAP(聯(lián)機分析處理)OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實反映企業(yè)維特性的信息進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。5 .數(shù)據(jù)挖掘數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取正確的、有用的、未知的、綜合的以及人們感興趣的知識并用于決策支持的過程。6 .孤立點:指數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為或模型不一致的異常數(shù)據(jù)。7 .數(shù)據(jù)規(guī)范化:指將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個特定的區(qū)域(如0-1)以提高數(shù)據(jù)挖掘效
24、率的方法。規(guī)范化的常用方法有:最大-最小規(guī)范化、零-均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化。8 .聚類:是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。9 .ROLAP:是基于關(guān)系數(shù)據(jù)庫存儲方式的,在這種結(jié)構(gòu)中,多維數(shù)據(jù)被映像成二維關(guān)系表,通常采用星型或雪花型架構(gòu),由一個事實表和多個維度表構(gòu)成。10 .數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。11 .預(yù)測型知識:是根據(jù)時間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測未來的數(shù)據(jù),也可以認(rèn)為是以時間為關(guān)鍵屬性的關(guān)聯(lián)知識
25、。12 .決策樹:是用樣本的屬性作為結(jié)點,用屬性的取值作為分支的樹結(jié)構(gòu)。它是分類規(guī)則挖掘的典型方法,可用于對新樣本進行分類。13 .遺傳算法:是一種優(yōu)化搜索算法,它首先產(chǎn)生一個初始可行解群體,然后對這個群體通過模擬生物進化的選擇、交叉、變異等遺傳操作遺傳到下一代群體,并最終達到全局最優(yōu)。14 .知識管理:知識管理就是對一個企業(yè)集體的知識與技能的捕獲,是為增強組織的績效而創(chuàng)造、獲取和使用知識的過程(知識的創(chuàng)造、儲存、分享、應(yīng)用和更新)。15 .Web挖掘:Web挖掘是從大量Web文檔的集合C中發(fā)現(xiàn)隱含的、有用的模式P的過程:CfP。四、簡答題(本題共5道小題,每小題6分,共30分)1 .實現(xiàn)商務(wù)
26、智能的四個階段是什么?答:實現(xiàn)商務(wù)智能的四個階段是數(shù)據(jù)預(yù)處理、建立數(shù)據(jù)倉庫、數(shù)據(jù)分析及數(shù)據(jù)展現(xiàn)。(2分)數(shù)據(jù)預(yù)處理是整合企業(yè)原始數(shù)據(jù)的第一步,包括數(shù)據(jù)抽取、轉(zhuǎn)換和裝載三個過程;(1分)數(shù)據(jù)倉庫則是處理海量數(shù)據(jù)的基礎(chǔ);(1分)數(shù)據(jù)分析是體現(xiàn)系統(tǒng)智能的關(guān)鍵,一般采用OLAP和DM兩大技術(shù)。(1分)數(shù)據(jù)展現(xiàn)則主要保障系統(tǒng)分析結(jié)果的可視化。(1分)2 .數(shù)據(jù)庫系統(tǒng)的局限性數(shù)據(jù)庫適于存儲高度結(jié)構(gòu)化的日常事務(wù)細節(jié)數(shù)據(jù)。決策分析型數(shù)據(jù)是多維性,分析內(nèi)容應(yīng)雜。在決策分析環(huán)境中,如果事務(wù)處理的細節(jié)數(shù)據(jù)量太大一方面會嚴(yán)重影響分析效率,另一方面這些細節(jié)數(shù)據(jù)會分散決策者的注意力。當(dāng)事務(wù)型處理環(huán)境和分析型處理環(huán)境在同一
27、個數(shù)據(jù)庫系統(tǒng)中,事務(wù)型處理對數(shù)據(jù)的存取操作頻率高,操作處理的時間短,而分析型處理可能需要連續(xù)運行幾個小時,從而消耗大量的系統(tǒng)資源。決策型分析數(shù)據(jù)的數(shù)據(jù)量大,這些數(shù)據(jù)有來自企業(yè)內(nèi)部的,也有來自企業(yè)外部的。來自企業(yè)外部的數(shù)據(jù)又可能來自不同的數(shù)據(jù)庫系統(tǒng),在分析時如果直接對這些數(shù)據(jù)操作會造成分析的混亂。對于外部數(shù)據(jù)中的一些非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)庫系統(tǒng)常常是無能為力。3 .數(shù)據(jù)倉庫與數(shù)據(jù)集市的區(qū)別是什么?數(shù)據(jù)倉庫收集了關(guān)于整個組織的主題信息,因此是企業(yè)范圍的。對于數(shù)據(jù)倉庫,通常使用星座模式,因為它能對多個相關(guān)的主題建模;(3分)數(shù)據(jù)集市是數(shù)據(jù)倉庫的一個部門子集,它針對選定的主題,因此是部門范圍的。對于數(shù)據(jù)集
28、市,流行星型或雪花模式,因為它們都適合對單個主題建模。(3分)4 .OLAP的特點快速性Fast:用戶對OLAP的快速反應(yīng)能力有很高的要求??煞治鲂訟nalysis:OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計分析。多維性Multidimensional:多維性是OLAP的關(guān)鍵屬性。系統(tǒng)必須提供對數(shù)據(jù)的多維視圖和分析,包括對層次維和多重層次維的完全支持。信息性Information:OLAP系統(tǒng)應(yīng)能及時獲得信息,并且管理大容量信息。5 .簡述OLAP的基本操作有哪些?答:OLAP的基本操作有:1 .切片和切塊(SliceandDice):在多維數(shù)據(jù)結(jié)構(gòu)中,按二維進行切片,按三維進行切塊,
29、可得到所需要的數(shù)據(jù)。(2分)2 .鉆?。―rill):鉆取包含向下鉆?。―rill-down)和向上鉆?。―rill-up)/上卷(Roll-up)操作,鉆取的深度與維所劃分的層次相對應(yīng)。(2分)3 .旋轉(zhuǎn)(Rotate)/旋轉(zhuǎn)(Pivot):通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。(2分)6 .簡述OLAP與數(shù)據(jù)挖掘的區(qū)別和聯(lián)系。答:OLAP側(cè)重于與用戶的交互、快速的響應(yīng)速度及提供數(shù)據(jù)的多維視圖,而數(shù)據(jù)挖掘則注重自動發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式和有用信息,盡管允許用戶指導(dǎo)這一過程。(3分)OLAP的分析結(jié)果可以給數(shù)據(jù)挖掘提供分析信息作為挖掘的依據(jù),數(shù)據(jù)挖掘可以拓展OLAP分析的深度,可以發(fā)現(xiàn)OLAP所不能
30、發(fā)現(xiàn)的更為復(fù)雜、細致的信息。(3分)7.何謂數(shù)據(jù)挖掘?它有哪些方面的功能?從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱為數(shù)據(jù)挖掘。相關(guān)的名稱有知識發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。數(shù)據(jù)挖掘的功能包括:概念描述、關(guān)聯(lián)分析、分類與預(yù)測、聚類分析、趨勢分析、孤立點分析以及偏差分析等。(3分)8 .在數(shù)據(jù)挖掘之前為什么要對原始數(shù)據(jù)進行預(yù)處理?原始業(yè)務(wù)數(shù)據(jù)來自多個數(shù)據(jù)庫或數(shù)據(jù)倉庫,它們的結(jié)構(gòu)和規(guī)則可能是不同的,這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個數(shù)據(jù)庫中,也可能存在重復(fù)的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符
31、合數(shù)據(jù)挖掘的要求,提高效率和得到清晰的結(jié)果,必須進行數(shù)據(jù)的預(yù)處理。為數(shù)據(jù)挖掘算法提供完整、干凈、準(zhǔn)確、有針對性的數(shù)據(jù),減少算法的計算量,提高挖掘效率和準(zhǔn)確程度。9 .簡述數(shù)據(jù)預(yù)處理方法和內(nèi)容。數(shù)據(jù)清洗:包括填充空缺值,識別孤立點,去掉噪聲和無關(guān)數(shù)據(jù)。數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲中。需要注意不同數(shù)據(jù)源的數(shù)據(jù)匹配問題、數(shù)值沖突問題和冗余問題等。數(shù)據(jù)變換:將原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式。包括對數(shù)據(jù)的匯總、聚集、概化、規(guī)范化,還可能需要進行屬性的重構(gòu)。數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。10 .數(shù)據(jù)
32、挖掘的六種常用算法和技術(shù)分別是什么?聚類分析;分類分析;關(guān)聯(lián)分析;序列模式挖掘;回歸分析;時間序列分析。11 .數(shù)據(jù)挖掘中的數(shù)據(jù)需要采用哪些格式?數(shù)據(jù)挖掘中的數(shù)據(jù)需要采用以下格式:所有數(shù)據(jù)應(yīng)該在一個表格/數(shù)據(jù)庫視圖中每一行對應(yīng)于與業(yè)務(wù)問題相關(guān)的一個案例 忽略具有單一值/幾乎單一值的列 忽略所有行的值都不同的列刪除所有同義列對于預(yù)測模型,目標(biāo)列必須是可識別的12 .簡述K-近鄰分類法的基本思想。答:基本思想:K-近鄰分類是基于類比學(xué)習(xí)的,每個樣本代表d維空間的一個點。(3分)當(dāng)給定一個未知樣本時,K-近鄰分類法將搜索樣本空間,找出最接近未知樣本的K個訓(xùn)練樣本,這K個訓(xùn)練樣本是未知樣本的K個近鄰”
33、。(3分)13 .關(guān)聯(lián)規(guī)則挖掘能發(fā)現(xiàn)什么知識?簡述其挖掘的基本步驟。答:關(guān)聯(lián)規(guī)則挖掘有助于發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品之間的聯(lián)系,找出顧客購買行為模式。(2分)關(guān)聯(lián)規(guī)則挖掘可以分解為兩個步驟:首先找出交易項目中滿足最小支持度(minSupp)的項集(稱其為頻繁項集);(2分)然后由頻繁項集生成關(guān)聯(lián)規(guī)則,對于頻繁項集A,若BuA,且置信度con巾dence(BnA-B)不小于最小置信度minConf,則B=A-B構(gòu)成關(guān)聯(lián)規(guī)則。(2分)14.遺傳算法與傳統(tǒng)尋優(yōu)算法相比有什么特點?遺傳算法為群體搜索,有利于尋找到全局最優(yōu)解;遺傳算法采用高效有方向的隨機搜索,搜索效率高;遺傳算法處理的對象是個體而不是參變
34、量,具有廣泛的應(yīng)用領(lǐng)域;遺傳算法使用適應(yīng)值信息評估個體,不需要導(dǎo)數(shù)或其他輔助信息,運算速度快,適應(yīng)性好;遺傳算法具有隱含并行性,具有更高的運行效率。15 .什么是決策樹?如何用決策樹進行分類?決策樹是用樣本的屬性作為結(jié)點,用屬性的取值作為分支的樹結(jié)構(gòu)。它是利用信息論原理對大量樣本的屬性進行分析和歸納而產(chǎn)生的。決策樹的根結(jié)點是所有樣本中信息量最大的屬性。樹的中間結(jié)點是以該結(jié)點為根的子樹所包含的樣本子集中信息量最大的屬性。決策樹的葉結(jié)點是樣本的類別值。決策樹用于對新樣本的分類,即通過決策樹對新樣本屬性值的測試,從樹的根結(jié)點開始,按照樣本屬性的取值,逐漸沿著決策樹向下,直到樹的葉結(jié)點,該葉結(jié)點表示的
35、類別就是新樣本的類別。決策樹方法是數(shù)據(jù)挖掘中非常有效的分類方法。16 .簡述K-平均算法的輸入、輸出及聚類過程(流程)。輸入:簇的數(shù)目k和包含n個對象的數(shù)據(jù)集。輸出:k個簇,使平方誤差準(zhǔn)則最小。步驟:任意選擇k個對象作為初始的簇中心;計算其它對象與這k個中心的距離,然后把每個對象歸入離它“最近”的簇;計算各簇中對象的平均值,然后重新選擇簇中心(離平均值“最近”的對象值);重復(fù)第2第3步直到簇中心不再變化為止。17 .簡述構(gòu)造智能CRM系統(tǒng)的完整步驟。答:構(gòu)建一個完整的智能CRM系統(tǒng)的幾個步驟:1 .整合客戶信息資源:對于那些以前沒有應(yīng)用過任何CRM系統(tǒng)的企業(yè)來說,首先需要把信息孤島”。而對于己
36、有CRM系統(tǒng)的孤立的業(yè)務(wù)系統(tǒng)整合到一個統(tǒng)一的平臺之下,解決企業(yè),則需要建立一個企業(yè)信息門戶,使客戶和企業(yè)能在一個統(tǒng)一的界面下進行數(shù)據(jù)和信息交換,從而保證客戶數(shù)據(jù)的一致性。(2分)2 .建立客戶數(shù)據(jù)倉庫:規(guī)劃數(shù)據(jù)倉庫,以企業(yè)的業(yè)務(wù)模型為基礎(chǔ),確定需要建立能夠描述主要業(yè)務(wù)主題的數(shù)據(jù)模型;設(shè)計數(shù)據(jù)倉庫,根據(jù)邏輯模型和性能要求進行物理模型的設(shè)計,制定數(shù)據(jù)存儲策略以及各種商業(yè)規(guī)則等;(2分)3 .構(gòu)造數(shù)據(jù)分析模型:根據(jù)企業(yè)需要分析的對象和目標(biāo),構(gòu)造有針對性的分析模型。(1分)4 .建立客戶知識管理系統(tǒng):建立一個動態(tài)的客戶知識庫以及制定客戶知識的分發(fā)規(guī)則和保存機制。(1分)18.何謂數(shù)據(jù)倉庫?為什么要建立
37、數(shù)據(jù)倉庫?數(shù)據(jù)倉庫是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),是面向主題的、集成的、不可更新的(穩(wěn)定性卜隨時間不斷變化(不同時間)的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)提供所需的集成信息。(3分)建立數(shù)據(jù)倉庫的目的有3個:一是為了解決企業(yè)決策分析中的系統(tǒng)響應(yīng)問題,數(shù)據(jù)倉庫能提供比傳統(tǒng)事務(wù)數(shù)據(jù)庫更快的大規(guī)模決策分析的響應(yīng)速度。二是解決決策分析對數(shù)據(jù)的特殊需求問題。決策分析需要全面的、正確的集成數(shù)據(jù),這是傳統(tǒng)事務(wù)數(shù)據(jù)庫不能直接提供的。三是解決決策分析對數(shù)據(jù)的特殊操作要求。決策分析是面向?qū)I(yè)用戶而非一般業(yè)務(wù)員,需要使用專業(yè)的分析工具,對分析結(jié)果還要以商業(yè)智能的方式進行表現(xiàn),這是事務(wù)數(shù)據(jù)庫不能提供的。(3分)20 .簡述數(shù)據(jù)
38、倉庫設(shè)計的三級模型及其基本內(nèi)容。概念模型設(shè)計是在較高的抽象層次上的設(shè)計,其主要內(nèi)容包括:界定系統(tǒng)邊界和確定主要的主題域。(2分)邏輯模型設(shè)計的主要內(nèi)容包括:分析主題域、確定粒度層次劃分、確定數(shù)據(jù)分割策略、定義關(guān)系模式、定義記錄系統(tǒng)。(2分)物理數(shù)據(jù)模型設(shè)計的主要內(nèi)容包括:確定數(shù)據(jù)存儲結(jié)構(gòu)、確定數(shù)據(jù)存放位置、確定存儲分配以及確定索引策略等。在物理數(shù)據(jù)模型設(shè)計時主要考慮的因素有:I/O存取時間、空間利用率和維護代價等。提高性能的主要措施有劃分粒度、數(shù)據(jù)分割、合并表、建立數(shù)據(jù)序列、引入冗余、生成導(dǎo)出數(shù)據(jù)、建立廣義索引等。(2分)21 .何謂聚類?它與分類有什么異同?聚類是將物理或抽象對象的集合分組成
39、為多個類或簇(cluster)的過程,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。(3分)聚類與分類不同,聚類要劃分的類是未知的,分類則可按已知規(guī)則進行;聚類是一種無指導(dǎo)學(xué)習(xí),它不依賴預(yù)先定義的類和帶類標(biāo)號的訓(xùn)練實例,屬于觀察式學(xué)習(xí),分類則屬于有指導(dǎo)的學(xué)習(xí),是示例式學(xué)習(xí)。(3分)22 .何謂文本挖掘?它與信息檢索有什么關(guān)系(異同)。文本挖掘是從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識的過程。它與信息檢索之間有以下幾方面的區(qū)別:(1分)1方法論不同:信息檢索是目標(biāo)驅(qū)動的,用戶需要明確提出查詢要求;而文本挖掘結(jié)果獨立于用戶的信息需求,是用戶無法預(yù)知的。
40、2著眼點不同:信息檢索著重于文檔中字、詞和鏈接;而文本挖掘在于理解文本的內(nèi)容和結(jié)構(gòu)。3目的不同:信息檢索的目的在于幫助用戶發(fā)現(xiàn)資源,即從大量的文本中找到滿足其查詢請求的文本子集;而文本挖掘是為了揭示文本中隱含的知識。4評價方法不同:信息檢索用查準(zhǔn)率和查全率來評價其性能。而文本挖掘采用收益、置信度、簡潔性等來衡量所發(fā)現(xiàn)知識的有效性、可用性和可理解性。5使用場合不同:文本挖掘是比信息檢索更高層次的技術(shù),可用于信息檢索技術(shù)不能解決的許多場合。一方面,這兩種技術(shù)各有所長,有各自適用的場合;另一方面,可以利用文本挖掘的研究成果來提高信息檢索的精度和效率,改善檢索結(jié)果的組織,使信息檢索系統(tǒng)發(fā)展到一個新的水
41、平。(5分)23 .遺傳算法與傳統(tǒng)尋優(yōu)算法相比有什么特點?遺傳算法為群體搜索,有利于尋找到全局最優(yōu)解;遺傳算法采用高效有方向的隨機搜索,搜索效率高;遺傳算法處理的對象是個體而不是參變量,具有廣泛的應(yīng)用領(lǐng)域;遺傳算法使用適應(yīng)值信息評估個體,不需要導(dǎo)數(shù)或其他輔助信息,運算速度快,適應(yīng)性好;遺傳算法具有隱含并行性,具有更高的運行效率。(6分)24 .商務(wù)智能應(yīng)用趨勢更成熟的數(shù)據(jù)分析和展現(xiàn)技術(shù);從戰(zhàn)略型的BI到操作型或者實時型的BI;關(guān)注績效、關(guān)注價值、關(guān)注數(shù)據(jù)質(zhì)量。25 .商務(wù)智能發(fā)展的特點實時;標(biāo)準(zhǔn)化;嵌入式商務(wù)智能;移動商務(wù)智能;大眾化趨勢;供應(yīng)商的動向;易用性。26 .商務(wù)智能與知識管理的區(qū)別
42、:內(nèi)涵不同;知識的管理過程和技術(shù)不同;關(guān)注的只是類型不同;面向的用戶不同。27 .Web日志挖掘的應(yīng)用獲取用戶訪問模式信息,理解用戶的意圖和行為分析用戶的存取模式,為用戶提供個性化的服務(wù)確定網(wǎng)站的潛在客戶群,合理制訂網(wǎng)絡(luò)廣告策略等改進Web站點的結(jié)構(gòu),使網(wǎng)站點隨時間、用戶需求的變化而不斷調(diào)整對日志數(shù)據(jù)進行多種統(tǒng)計,包括頻繁訪問頁、單位時間訪問頻度、訪問量的時間分布等利用關(guān)聯(lián)規(guī)則確定相關(guān)Web查詢(查詢修正)六、論述題(共10分)1、試舉例一個商務(wù)智能的應(yīng)用案例,并論述商務(wù)智能能為企業(yè)做什么?2、下列每項活動是否是數(shù)據(jù)挖掘任務(wù)?簡單陳述你的理由。根據(jù)性別劃分公司的顧客。根據(jù)可贏利性劃分公司的顧客
43、。預(yù)測投一對骰子的結(jié)果。使用歷史記錄預(yù)測某公司未來的股票價格。(a)根據(jù)性別劃分公司的顧客。不是。數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲庫中,自動地發(fā)現(xiàn)有用信息的過程。數(shù)據(jù)挖掘技術(shù)服務(wù)用來探查大型數(shù)據(jù)庫,發(fā)現(xiàn)先前未知的有用模式。還可以預(yù)測未來觀測結(jié)果,例如,預(yù)測一位新的顧客是否會在一家百貨公司消費100美元以上。但并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘,數(shù)據(jù)挖掘與信息檢索不同,使用數(shù)據(jù)庫管理系統(tǒng)查找個別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁面,則是信息檢索領(lǐng)域的任務(wù),它們主要依賴傳統(tǒng)的計算機科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。數(shù)據(jù)挖掘的任務(wù)可分為兩大類:預(yù)測任務(wù)和描述
44、任務(wù)。主要任務(wù)有四種:聚類分析,關(guān)聯(lián)分析,異常檢測,和預(yù)測建模。其目的是根據(jù)其它屬性的值,預(yù)測特定屬性的值,或?qū)С龈爬〝?shù)據(jù)中潛在聯(lián)系的模式,主要是預(yù)測某些信息。而根據(jù)性別劃分公司的顧客,只是一種簡單的數(shù)據(jù)庫查詢操作,并沒有涉及預(yù)測分析。根據(jù)可贏利性劃分公司的顧客。不是。根據(jù)可贏利性劃分公司的顧客是使用閾值進行的一種統(tǒng)計計算。它僅僅是根據(jù)消費結(jié)果統(tǒng)計將原有顧客進行劃分,只是一種統(tǒng)計的結(jié)果,而沒有根據(jù)這些結(jié)果的特點預(yù)測一個新的顧客的贏利性,這種預(yù)測才是數(shù)據(jù)挖掘。預(yù)測投一對骰子的結(jié)果。不是。因為骰子的六個數(shù)值出現(xiàn)的可能性是相同的,這是一種概率計算,如果結(jié)果出現(xiàn)的可能性是不確定的,不相同的,則更像是數(shù)
45、據(jù)挖掘的任務(wù),但在很早以前利用數(shù)學(xué)已經(jīng)能夠很好的解決這個問題了。所以預(yù)測投一對骰子的結(jié)果不屬于數(shù)據(jù)挖掘的任務(wù),不帶有發(fā)現(xiàn)新信息的預(yù)測特點。使用歷史記錄預(yù)測某公司未來的股票價格。這是數(shù)據(jù)挖掘的任務(wù)??梢酝ㄟ^對歷史記錄特點的分析來創(chuàng)建一種模型預(yù)測未來的公司的股票價格,這是數(shù)據(jù)挖掘任務(wù)中預(yù)測建模的一個例子,預(yù)測建模涉及以說明變量函數(shù)的方式為目標(biāo)變量建立模型,有兩類預(yù)測建模任務(wù):分類,用于預(yù)測離散的目標(biāo)變量;回歸,用于預(yù)測連續(xù)的目標(biāo)變量dmj預(yù)測某公司未來的股票價格則是回歸任務(wù),因為價格具有連續(xù)值屬性。3、比較急切分類(如,判定樹、貝葉斯、神經(jīng)網(wǎng)絡(luò))相對于懶散分類(如,k-最臨近、基于案例的推理)的優(yōu)缺點。答:決策樹歸納的特點:(1)決策樹歸納是一種構(gòu)建分類模型的非參數(shù)方法,它不要求任何先驗假設(shè),不假定類和其他屬性服從一定的概念分布。(2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 科技企業(yè)德育與社會責(zé)任方案
- 學(xué)校疫情防控演練方案
- 健身器材質(zhì)量問題投訴處理流程
- 商鋪獨立基礎(chǔ)施工方案
- 2022年小學(xué)科技創(chuàng)新活動總結(jié)
- 2024-2030年中國菠蘿濃縮汁行業(yè)銷售策略與營銷前景預(yù)測報告
- 2024-2030年中國花果茶電商行業(yè)市場競爭格局及發(fā)展模式分析報告
- 2024-2030年中國航空客運行業(yè)運營模式發(fā)展規(guī)劃研究報告版
- 2024-2030年中國自助服務(wù)終端行業(yè)發(fā)展規(guī)劃及投資模式分析報告
- 浙江省溫州市地圖矢量PPT模板(圖文)
- 上海市建設(shè)工程項目管理機構(gòu)管理人員情況表
- 北師大版二年級數(shù)學(xué)上冊第九單元《除法》知識點梳理復(fù)習(xí)ppt
- 空氣能室外機保養(yǎng)維護記錄表
- DB37∕T 5162-2020 裝配式混凝土結(jié)構(gòu)鋼筋套筒灌漿連接應(yīng)用技術(shù)規(guī)程
- 9-2 《第三方過程評估淋蓄水檢查內(nèi)容》(指引)
- 部編版七年級初一語文上冊《狼》公開課課件(定稿)
- 2015路面工程講義(墊層+底基層+基層+面層+聯(lián)合層+封層、透層與黏層)
- 《現(xiàn)代漢語修辭》PPT課件(完整版)
- TTJCA 0007-2022 住宅室內(nèi)裝飾裝修工程施工驗收規(guī)范
- 構(gòu)造柱工程施工技術(shù)交底
評論
0/150
提交評論