商務(wù)智能復(fù)習(xí)題_第1頁
商務(wù)智能復(fù)習(xí)題_第2頁
商務(wù)智能復(fù)習(xí)題_第3頁
商務(wù)智能復(fù)習(xí)題_第4頁
商務(wù)智能復(fù)習(xí)題_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、一、選擇題(本題共5道小題,每小題2分,共10分)1. 數(shù)據(jù)倉庫是隨著時間變化的,下面的描述不正確的是 ( C )。A. 數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容B. 捕捉到的新數(shù)據(jù)會覆蓋原來的快照C. 數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容D. 數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進(jìn)行重新綜合2. 有關(guān)數(shù)據(jù)倉庫的開發(fā)特點,不正確的描述是( B )。A. 數(shù)據(jù)倉庫使用的需求在開發(fā)初期就要明確 B. 數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā)C. 數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā)D. 在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和

2、處理更靈活,且沒有固定的模式3. 在有關(guān)數(shù)據(jù)倉庫測試,下列說法不正確的是 ( D )。A. 在完成數(shù)據(jù)倉庫的實施過程中,需要對數(shù)據(jù)倉庫進(jìn)行各種測試。測試工作中要包括單元測試和系統(tǒng)測試。B. 當(dāng)數(shù)據(jù)倉庫的每個單獨組件完成后,就需要對他們進(jìn)行單元測試。C. 系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進(jìn)行大量的功能測試和回歸測試。D. 在測試之前沒必要制定詳細(xì)的測試計劃。4. 關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指 ( D )。A. 基本元數(shù)據(jù)與數(shù)據(jù)源、數(shù)據(jù)倉庫、數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息B. 基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息C. 基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息D. 基本元數(shù)

3、據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息6. 下面關(guān)于數(shù)據(jù)粒度的描述不正確的是 ( C )。A. 粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細(xì)程度和級別B. 數(shù)據(jù)越詳細(xì),粒度就越小,級別也就越高C. 數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高D. 粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量6. 關(guān)于OLAP的特性,下面正確的是:( D )(1)快速性 (2)可分析性 (3)多維性 (4)信息性 (5)共享性A. (1) (2) (3)B. (2) (3) (4)C. (1) (2) (3) (4)D. (1) (2) (3) (4) (5)7. 關(guān)于OLAP和OLTP的區(qū)別描述,不

4、正確的是: ( C )A. OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù),它與OTAP應(yīng)用程序不同。B. 與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù).C. OLAP的特點在于事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高.D. OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的。8. 關(guān)于OLAP和OLTP的說法,下列不正確的是: ( A )A. OLAP事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高B. OLAP的最終數(shù)據(jù)來源與OLTP不一樣C. OLTP面對的是決策人員和高層管理人員D. OLTP以應(yīng)用為核心,是應(yīng)用驅(qū)動的9.

5、OLAP技術(shù)的核心是( D )。A. 在線性B. 對用戶的快速響應(yīng)C. 互操作性D. 多維分析10某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?( A )A. 關(guān)聯(lián)規(guī)則 B. 聚類C. 分類 D. 自然語言處理11. 分析型CRM的( C )功能可以讓CRM對所進(jìn)行的銷售活動相關(guān)信息進(jìn)行存儲和管理,將客戶所發(fā)生的交易與互動事件轉(zhuǎn)化為有意義、高獲利的銷售商機。A. 促銷管理 B. 個性化和標(biāo)準(zhǔn)化 C. 客戶分析和建模 D. 客戶溝通12. 運用關(guān)鍵績效指標(biāo)法設(shè)計組織關(guān)鍵績效指標(biāo)依次經(jīng)過以下幾個步驟( A )。A. 確定關(guān)鍵成功領(lǐng)域、確定關(guān)鍵績效要素、確

6、定關(guān)鍵績效指標(biāo)B. 計劃目標(biāo)、實施目標(biāo)、評價結(jié)果、反饋C. 確定目標(biāo)、比較目標(biāo)、收集分析數(shù)據(jù)、系統(tǒng)學(xué)習(xí)與改進(jìn)、評價和提高D. 確定長期整體目標(biāo)、確定短期目標(biāo)13什么是KDD? ( A )A. 知識發(fā)現(xiàn) B. 領(lǐng)域知識發(fā)現(xiàn)C. 文檔知識發(fā)現(xiàn) D. 動態(tài)知識發(fā)現(xiàn)14. 呼叫中心是一種基于( D )的一種新的綜合信息服務(wù)系統(tǒng)。A IT技術(shù) B CTI技術(shù) C WEB技術(shù) D CRM技術(shù)15. 將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)?(C)A. 頻繁模式挖掘 B. 分類和預(yù)測 C. 數(shù)據(jù)預(yù)處理 D. 數(shù)據(jù)流挖掘16. 當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以使用哪種技術(shù)促使帶同類標(biāo)簽的

7、數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?(B )A. 分類 B. 聚類 C. 關(guān)聯(lián)分析 D. 隱馬爾可夫鏈17. 使用交互式的和可視化的技術(shù),對數(shù)據(jù)進(jìn)行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(A)A. 探索性數(shù)據(jù)分析 B. 建模描述C. 預(yù)測建模 D. 尋找模式和規(guī)則18. 為數(shù)據(jù)的總體分布建模,把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(B)A. 探索性數(shù)據(jù)分析 B. 建模描述C. 預(yù)測建模 D. 尋找模式和規(guī)則19. 建立一個模型,通過這個模型根據(jù)已知的變量值來預(yù)測其他某個變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(C)A. 根據(jù)內(nèi)容檢索 B. 建模描述C. 預(yù)測建模 D. 尋找模式和規(guī)則20. 用戶有一種感

8、興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式,屬于數(shù)據(jù)挖掘哪一類任務(wù)?( A )A. 根據(jù)內(nèi)容檢索 B. 建模描述C. 預(yù)測建模 D. 尋找模式和規(guī)則 21.下面哪種不屬于數(shù)據(jù)預(yù)處理的方法? (D)A. 變量代換 B. 離散化 C. 聚集 D. 估計遺漏值 22.下面哪個不屬于數(shù)據(jù)的屬性類型(D)。A. 標(biāo)稱 B. 序數(shù) C. 區(qū)間 D. 相異 23. 在上題中,屬于定量的屬性類型是(C)。A. 標(biāo)稱 B. 序數(shù) C. 區(qū)間 D. 相異 24. 只有非零值才重要的二元屬性被稱作( C )。A. 計數(shù)屬性 B. 離散屬性 C. 非對稱的二元屬性 D. 對稱屬性 25. 以下哪種方法不屬于特征選擇的

9、標(biāo)準(zhǔn)方法 ( D )。A. 嵌入 B. 過濾 C. 包裝 D. 抽樣 26.下面不屬于創(chuàng)建新屬性的相關(guān)方法的是( C )。A. 特征提取 B. 特征修改 C. 映射數(shù)據(jù)到新的空間 D. 特征構(gòu)造 27. 下面哪個屬于映射數(shù)據(jù)到新的空間的方法? (A)A. 傅立葉變換 B. 特征加權(quán) C. 漸進(jìn)抽樣 D. 維歸約 28. 企業(yè)所建立的預(yù)測模型的好壞取決于模型在( A )上的表現(xiàn)效果。A. 得分集 B. 訓(xùn)練集 C. 測試集 D. 評價集29. 客戶在經(jīng)濟(jì)活動中具有多重身份,下面哪一種不是其身份之一( C )。A. 行為身份 B. 所有權(quán)身份 C. 學(xué)習(xí)身份 D. 決策身份 30. 下列四條描述中

10、,正確的一條是( B )。A. 企業(yè)實施數(shù)據(jù)挖掘,必須要有數(shù)據(jù)倉庫。B. 企業(yè)要實施數(shù)據(jù)挖掘最好的方式是請編外專家。C. 企業(yè)購買現(xiàn)成數(shù)據(jù)挖掘模型的一個先決條件是:該企業(yè)的產(chǎn)品、客戶、市場定位和所買來的現(xiàn)成模型設(shè)計之初的假設(shè)相吻合。D. 在建模的時侯,增益最高的模型就是最好的模型。31. 數(shù)據(jù)挖掘算法以( D )形式來組織數(shù)據(jù)。A. 行 B. 列 C. 記錄 D. 表格32. 企業(yè)要建立預(yù)測模型,需準(zhǔn)備建模數(shù)據(jù)集,以下四條描述建模數(shù)據(jù)集正確的是( B )。A. 數(shù)據(jù)越多越好。 B. 盡可能多的適合的數(shù)據(jù)。 C. 得分集數(shù)據(jù)是建模集數(shù)據(jù)的一部分。D. 以上三條都正確。33. K均值類別偵測要求輸

11、入的數(shù)據(jù)類型必須是( B )。A. 整型 B. 數(shù)值型 C. 字符型 D. 邏輯型34. 在決策樹和累計增益圖的關(guān)系轉(zhuǎn)化過程圖中,決策樹上某一頁節(jié)點的增益與累計增益圖上的( D )相對應(yīng)。A. 線段長度 B. 線段斜率 C. 相對應(yīng)的線段長度 D. 相對應(yīng)的線段斜率35. 企業(yè)為提升每個客戶的價值,應(yīng)實現(xiàn)( C )最優(yōu)化。A. 促銷活動 B. 預(yù)算最優(yōu)化 C. 客戶最優(yōu)化 D. 三者都不是36. 數(shù)據(jù)挖掘的經(jīng)典案例“啤酒與尿布試驗”最主要是應(yīng)用了( C )數(shù)據(jù)挖掘方法。A. 分類 B. 預(yù)測 C. 組合或關(guān)聯(lián)法則 D. 聚類37. 企業(yè)成功實施數(shù)據(jù)挖掘, 需要以下( B )知識或技術(shù)。A. 預(yù)

12、先的規(guī)劃 B. 對商業(yè)文體的理解 C. 綜合商業(yè)知識和技能 D. 都需要38. 下列哪個不是專門用于可視化時間空間數(shù)據(jù)的技術(shù)( B )。A. 等高線圖 B. 餅圖 C. 曲面圖 D. 矢量場圖 39. 在抽樣方法中,當(dāng)合適的樣本容量很難確定時,可以使用的抽樣方法是 ( D )。A. 有放回的簡單隨機抽樣 B. 無放回的簡單隨機抽樣 C. 分層抽樣 D. 漸進(jìn)抽樣40. 設(shè)X=1,2,3是頻繁項集,則可由X產(chǎn)生( C )個關(guān)聯(lián)規(guī)則。A. 4 B. 5 C. 6 D. 7 41. 概念分層圖是( B )圖。A. 無向無環(huán) B. 有向無環(huán) C. 有向有環(huán) D. 無向有環(huán)42. 以下哪些算法是分類算法

13、( B )。A. DBSCAN B. C4.5 C. K-Mean D. EM 43. 以下哪些分類方法可以較好地避免樣本的不平衡問題( A )。 A. KNN B. SVM C. Bayes D. 神經(jīng)網(wǎng)絡(luò) 44. 以下關(guān)于人工神經(jīng)網(wǎng)絡(luò)(ANN)的描述錯誤的有 ( A )。A. 神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒 B. 可以處理冗余特征 C. 訓(xùn)練ANN是一個很耗時的過程 D. 至少含有一個隱藏層的多層神經(jīng)網(wǎng)絡(luò)45. 通過聚集多個分類器的預(yù)測來提高分類準(zhǔn)確率的技術(shù)稱為 ( A ) 。A. 組合(ensemble) B. 聚集(aggregate) C. 合并(combination) D.

14、投票(voting)46. 簡單地將數(shù)據(jù)對象集劃分成不重疊的子集,使得每個數(shù)據(jù)對象恰在一個子集中,這種聚類類型稱作( B )。A. 層次聚類 B. 劃分聚類 C. 非互斥聚類 D. 模糊聚類47. 在基本K均值算法里,當(dāng)鄰近度函數(shù)采用( A )的時候,合適的質(zhì)心是簇中各點的中位數(shù)。A. 曼哈頓距離 B. 平方歐幾里德距離 C. 余弦距離 D. Bregman散度 48.( C )是一個觀測值,它與其他觀測值的差別如此之大,以至于懷疑它是由不同的機制產(chǎn)生的。A. 邊界點 B. 質(zhì)心 C. 離群點 D. 核心點48. 檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于( A )的離群點檢測。A. 統(tǒng)

15、計方法 B. 鄰近度 C. 密度 D. 聚類技術(shù)49. DBSCAN在最壞情況下的時間復(fù)雜度是( B )。A. O(m) B. O(m2) C. O(log m) D. O(m*log m)50. 關(guān)于K均值和DBSCAN的比較,以下說法不正確的是( A )。A. K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象。B. K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。C. K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇。D. K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會合并有重疊的簇。51. 使用交

16、互式的和可視化的技術(shù),對數(shù)據(jù)進(jìn)行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?( A )A. 探索性數(shù)據(jù)分析 B. 建模描述C. 預(yù)測建模 D. 尋找模式和規(guī)則52.下面哪種不屬于數(shù)據(jù)預(yù)處理的方法? ( D )A變量代換 B離散化 C 聚集 D 估計遺漏值 二、判斷題(本題共10道小題,每小題1分,共10分)( T )1商務(wù)智能指收集、轉(zhuǎn)換、分析和發(fā)布數(shù)據(jù)的過程,目的是為了更好的決策。( F )2數(shù)據(jù)分析是整合企業(yè)原始數(shù)據(jù)的第一步,包括數(shù)據(jù)抽取、轉(zhuǎn)換和裝載三個過程。( T )3維是人們觀察數(shù)據(jù)的特定角度,是考慮問題時的一類屬性。( F )4獨立的數(shù)據(jù)集市架構(gòu)的優(yōu)點是企業(yè)內(nèi)數(shù)據(jù)一致,不會產(chǎn)生信息孤島。( T )

17、5. 星型模型的核心是事實表,事實表把各種不同的維表連接起來。( F )6企業(yè)風(fēng)險分析是通過對企業(yè)的經(jīng)營成本進(jìn)行綜合評價,擬定一個企業(yè)成本的臨界值。( T )7衡量客戶忠誠的唯一尺度就是客戶是否重復(fù)或持久地購買企業(yè)的產(chǎn)品或者服務(wù)。( T )8在BI中,DW是前提和基礎(chǔ),負(fù)責(zé)統(tǒng)一數(shù)據(jù)規(guī)則的處理和存儲。( F )9客戶服務(wù)管理是對客戶意見或投訴以及售前、售中、售后服務(wù)進(jìn)行管理。( F )10. 平衡計分卡共包括三個層面,分別是財務(wù)層面、客戶層面、內(nèi)部業(yè)務(wù)流程層面。( T )11數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成描述數(shù)據(jù)、預(yù)測數(shù)據(jù)等任務(wù)。( F )12在聚類分析當(dāng)中,簇內(nèi)的

18、相似性越大,簇間的差別越大,聚類的效果就越差。( F )13OLAP是用來協(xié)助企業(yè)對響應(yīng)事件或事務(wù)的日常商務(wù)活動進(jìn)行處理。( T )14數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時間變化的數(shù)據(jù)集合,用以支持管理決策的過程。( T )15. 數(shù)據(jù)預(yù)處理是整合企業(yè)原始數(shù)據(jù)的第一步,包括數(shù)據(jù)抽取、轉(zhuǎn)換和裝載三個過程。( F )16C4.5決策樹算法是國際上最早、最有影響力的決策樹算法,( T )17平衡計分卡是從財務(wù)、客戶、內(nèi)部運營、學(xué)習(xí)與成長四個角度,將組織的戰(zhàn)略落實為可操作的衡量指標(biāo)和目標(biāo)值的一種新型績效管理體系。( F )18客戶服務(wù)管理是對客戶意見或投訴以及售前、售中、售后服務(wù)進(jìn)行管理。( F

19、 )19. 企業(yè)績效管理的目的在于進(jìn)一步加強成本的事前控制,同時有助于通過盈虧分析,輔助產(chǎn)品科學(xué)的報價。20. 數(shù)據(jù)倉庫的數(shù)據(jù)量越大,其應(yīng)用價值也越大。F21. 啤酒與尿布的故事是聚類分析的典型實例。F22. 等深分箱法使每個箱子的記錄個數(shù)相同。T23. 數(shù)據(jù)倉庫“粒度”越細(xì),記錄數(shù)越少。F24. 數(shù)據(jù)立方體由3維構(gòu)成,Z軸表示事實數(shù)據(jù)。F25. 決策樹方法通常用于關(guān)聯(lián)規(guī)則挖掘。F26. ID3算法是決策樹方法的早期代表。T27. C4.5是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。F28. 回歸分析通常用于挖掘關(guān)聯(lián)規(guī)則。F29. 人工神經(jīng)網(wǎng)絡(luò)特別適合解決多參數(shù)大復(fù)雜度問題。T30. 概念關(guān)系分析是文本挖掘

20、所獨有的。F31. 可信度是對關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。F32. 孤立點在數(shù)據(jù)挖掘時總是被視為異常、無用數(shù)據(jù)而丟棄。T33. SQL Server 2005不提供關(guān)聯(lián)規(guī)則挖掘算法。F34. 決策樹方法特別適合于處理數(shù)值型數(shù)據(jù)。F35. 數(shù)據(jù)倉庫的數(shù)據(jù)為歷史數(shù)據(jù),從來不需要更新。T36. 數(shù)據(jù)立方體是廣義知識發(fā)現(xiàn)的方法和技術(shù)之一。F37. 數(shù)據(jù)立方體的其中一維用于記錄事實數(shù)據(jù)。T38. 數(shù)據(jù)挖掘的目標(biāo)不在于數(shù)據(jù)采集策略,而在于對于已經(jīng)存在的數(shù)據(jù)進(jìn)行模式的發(fā)掘。( T )39. 圖挖掘技術(shù)在社會網(wǎng)絡(luò)分析中扮演了重要的角色。( T )40. 模式為對數(shù)據(jù)集的全局性總結(jié),它對整個測量空間的每一點做出描述

21、;模型則對變量變化空間的一個有限區(qū)域做出描述。( F )41. 尋找模式和規(guī)則主要是對數(shù)據(jù)進(jìn)行干擾,使其符合某種規(guī)則以及模式。( F )42. 離群點可以是合法的數(shù)據(jù)對象或者值。( T )43. 離散屬性總是具有有限個值。( F )44. 噪聲和偽像是數(shù)據(jù)錯誤這一相同表述的兩種叫法。( F )45. 用于分類的離散化方法之間的根本區(qū)別在于是否使用類信息。( T )46. 特征提取技術(shù)并不依賴于特定的領(lǐng)域。( F )47. 可信度是對關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。F48. 定量屬性可以是整數(shù)值或者是連續(xù)值。( T )49. 可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。( T )50. DSS主要是基

22、于數(shù)據(jù)倉庫、聯(lián)機數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)的應(yīng)用。( F )51. OLAP技術(shù)側(cè)重于把數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換成輔助決策信息,是繼數(shù)據(jù)庫技術(shù)發(fā)展之后迅猛發(fā)展起來的一種新技術(shù)。 ( T )52. 商業(yè)智能系統(tǒng)與一般交易系統(tǒng)之間在系統(tǒng)設(shè)計上的主要區(qū)別在于:后者把結(jié)構(gòu)強加于商務(wù)之上,一旦系統(tǒng)設(shè)計完畢,其程序和規(guī)則不會輕易改變;而前者則是一個學(xué)習(xí)型系統(tǒng),能自動適應(yīng)商務(wù)不斷變化的要求。 ( T )53. 數(shù)據(jù)倉庫中間層OLAP服務(wù)器只能采用關(guān)系型OLAP。 ( F )54數(shù)據(jù)倉庫系統(tǒng)的組成部分包括數(shù)據(jù)倉庫、倉庫管理、數(shù)據(jù)抽取、分析工具等四個部分。 ( F )55.Web數(shù)據(jù)挖掘是通過數(shù)據(jù)庫仲的一些屬性

23、來預(yù)測另一個屬性,它在驗證用戶提出的假設(shè)過程中提取信息。( F )56. 關(guān)聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項集代表的規(guī)則。( F )57. 聚類(clustering)是這樣的過程:它找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測類標(biāo)記未知的對象類。 ( F )58. 分類和回歸都可用于預(yù)測,分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。( T )59. 對于SVM分類算法,待分樣本集中的大部分樣本不是支持向量,移去或者減少這些樣本對分類結(jié)果沒有影響。 ( T )60. Bayes法是一種在已知后驗概率與類條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于

24、各類域中樣本的全體。 ( F )三、名詞解釋(本題共4道小題,每小題5分,共20分)1.商務(wù)智能商務(wù)智能是融合了先進(jìn)信息技術(shù)與創(chuàng)新管理理念的結(jié)合體,集成企業(yè)內(nèi)外數(shù)據(jù),進(jìn)行加工并從中提取能夠創(chuàng)造商業(yè)價值的知識,面向企業(yè)戰(zhàn)略并服務(wù)于管理層、業(yè)務(wù)層,指導(dǎo)企業(yè)經(jīng)營決策,提升企業(yè)競爭力。2.數(shù)據(jù)倉庫數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時間變化的數(shù)據(jù)集合,用以支持管理決策的過程。3. 數(shù)據(jù)集成數(shù)據(jù)集成是在邏輯上或物理上把不相同來源、格式、特點的數(shù)據(jù)有機地整合,從而為企業(yè)提供全面的數(shù)據(jù)共享。4. OLAP(聯(lián)機分析處理)OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠

25、真正為用戶所理解的、并真實反映企業(yè)維特性的信息進(jìn)行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。5. 數(shù)據(jù)挖掘數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取正確的、有用的、未知的、綜合的以及人們感興趣的知識并用于決策支持的過程。6. 孤立點:指數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為或模型不一致的異常數(shù)據(jù)。7. 數(shù)據(jù)規(guī)范化:指將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個特定的區(qū)域(如01)以提高數(shù)據(jù)挖掘效率的方法。規(guī)范化的常用方法有:最大最小規(guī)范化、零均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化。 8. 聚類:是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程,

26、使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。9. ROLAP:是基于關(guān)系數(shù)據(jù)庫存儲方式的,在這種結(jié)構(gòu)中,多維數(shù)據(jù)被映像成二維關(guān)系表,通常采用星型或雪花型架構(gòu),由一個事實表和多個維度表構(gòu)成。10. 數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。11. 預(yù)測型知識:是根據(jù)時間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測未來的數(shù)據(jù),也可以認(rèn)為是以時間為關(guān)鍵屬性的關(guān)聯(lián)知識。12. 決策樹:是用樣本的屬性作為結(jié)點,用屬性的取值作為分支的樹結(jié)構(gòu)。它是分類規(guī)則挖掘的典型方法,可用于對新樣本進(jìn)行分類。13. 遺傳算法:是一種優(yōu)化搜索算法

27、,它首先產(chǎn)生一個初始可行解群體,然后對這個群體通過模擬生物進(jìn)化的選擇、交叉、變異等遺傳操作遺傳到下一代群體,并最終達(dá)到全局最優(yōu)。14. 知識管理:知識管理就是對一個企業(yè)集體的知識與技能的捕獲,是為增強組織的績效而創(chuàng)造、獲取和使用知識的過程(知識的創(chuàng)造、儲存、分享、應(yīng)用和更新)。 15. Web挖掘:Web挖掘是從大量Web文檔的集合C中發(fā)現(xiàn)隱含的、有用的模式P的過程:CP 。四、簡答題(本題共5道小題,每小題6分,共30分)1實現(xiàn)商務(wù)智能的四個階段是什么? 答:實現(xiàn)商務(wù)智能的四個階段是數(shù)據(jù)預(yù)處理、建立數(shù)據(jù)倉庫、數(shù)據(jù)分析及數(shù)據(jù)展現(xiàn)。(2分)數(shù)據(jù)預(yù)處理是整合企業(yè)原始數(shù)據(jù)的第一步,包括數(shù)據(jù)抽取、轉(zhuǎn)換

28、和裝載三個過程; (1分)數(shù)據(jù)倉庫則是處理海量數(shù)據(jù)的基礎(chǔ); (1分)數(shù)據(jù)分析是體現(xiàn)系統(tǒng)智能的關(guān)鍵,一般采用OLAP和DM兩大技術(shù)。(1分)數(shù)據(jù)展現(xiàn)則主要保障系統(tǒng)分析結(jié)果的可視化。(1分)2. 數(shù)據(jù)庫系統(tǒng)的局限性數(shù)據(jù)庫適于存儲高度結(jié)構(gòu)化的日常事務(wù)細(xì)節(jié)數(shù)據(jù)。決策分析型數(shù)據(jù)是多維性,分析內(nèi)容復(fù)雜。在決策分析環(huán)境中,如果事務(wù)處理的細(xì)節(jié)數(shù)據(jù)量太大一方面會嚴(yán)重影響分析效率,另一方面這些細(xì)節(jié)數(shù)據(jù)會分散決策者的注意力。當(dāng)事務(wù)型處理環(huán)境和分析型處理環(huán)境在同一個數(shù)據(jù)庫系統(tǒng)中,事務(wù)型處理對數(shù)據(jù)的存取操作頻率高,操作處理的時間短,而分析型處理可能需要連續(xù)運行幾個小時,從而消耗大量的系統(tǒng)資源。決策型分析數(shù)據(jù)的數(shù)據(jù)量大,

29、這些數(shù)據(jù)有來自企業(yè)內(nèi)部的,也有來自企業(yè)外部的。來自企業(yè)外部的數(shù)據(jù)又可能來自不同的數(shù)據(jù)庫系統(tǒng),在分析時如果直接對這些數(shù)據(jù)操作會造成分析的混亂。對于外部數(shù)據(jù)中的一些非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)庫系統(tǒng)常常是無能為力。3數(shù)據(jù)倉庫與數(shù)據(jù)集市的區(qū)別是什么?數(shù)據(jù)倉庫收集了關(guān)于整個組織的主題信息,因此是企業(yè)范圍的。對于數(shù)據(jù)倉庫,通常使用星座模式,因為它能對多個相關(guān)的主題建模;(3分)數(shù)據(jù)集市是數(shù)據(jù)倉庫的一個部門子集,它針對選定的主題,因此是部門范圍的。對于數(shù)據(jù)集市,流行星型或雪花模式,因為它們都適合對單個主題建模。(3分)4. OLAP的特點快速性Fast:用戶對OLAP的快速反應(yīng)能力有很高的要求??煞治鲂訟nalys

30、is:OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計分析。多維性Multidimensional:多維性是OLAP的關(guān)鍵屬性。系統(tǒng)必須提供對數(shù)據(jù)的多維視圖和分析,包括對層次維和多重層次維的完全支持。信息性Information:OLAP系統(tǒng)應(yīng)能及時獲得信息,并且管理大容量信息。5簡述OLAP的基本操作有哪些?答:OLAP的基本操作有:1. 切片和切塊(Slice and Dice):在多維數(shù)據(jù)結(jié)構(gòu)中,按二維進(jìn)行切片,按三維進(jìn)行切塊,可得到所需要的數(shù)據(jù)。(2分)2. 鉆取(Drill) :鉆取包含向下鉆取(Drill-down)和向上鉆取(Drill-up)/上卷(Roll-up)操作,鉆取

31、的深度與維所劃分的層次相對應(yīng)。(2分)3. 旋轉(zhuǎn)(Rotate)/旋轉(zhuǎn)(Pivot):通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。(2分)6簡述OLAP 與數(shù)據(jù)挖掘的區(qū)別和聯(lián)系。答:OLAP 側(cè)重于與用戶的交互、快速的響應(yīng)速度及提供數(shù)據(jù)的多維視圖,而數(shù)據(jù)挖掘則注重自動發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式和有用信息,盡管允許用戶指導(dǎo)這一過程。(3分)OLAP 的分析結(jié)果可以給數(shù)據(jù)挖掘提供分析信息作為挖掘的依據(jù),數(shù)據(jù)挖掘可以拓展OLAP 分析的深度,可以發(fā)現(xiàn)OLAP 所不能發(fā)現(xiàn)的更為復(fù)雜、細(xì)致的信息。(3分)7何謂數(shù)據(jù)挖掘?它有哪些方面的功能?從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不

32、知道的、但又是潛在有用的信息和知識的過程稱為數(shù)據(jù)挖掘。相關(guān)的名稱有知識發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。數(shù)據(jù)挖掘的功能包括:概念描述、關(guān)聯(lián)分析、分類與預(yù)測、聚類分析、趨勢分析、孤立點分析以及偏差分析等。(3分)8在數(shù)據(jù)挖掘之前為什么要對原始數(shù)據(jù)進(jìn)行預(yù)處理?原始業(yè)務(wù)數(shù)據(jù)來自多個數(shù)據(jù)庫或數(shù)據(jù)倉庫,它們的結(jié)構(gòu)和規(guī)則可能是不同的,這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個數(shù)據(jù)庫中,也可能存在重復(fù)的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求,提高效率和得到清晰的結(jié)果,必須進(jìn)行數(shù)據(jù)的預(yù)處理。為數(shù)據(jù)挖掘算法提供完整、干凈、準(zhǔn)確、有針對性的數(shù)據(jù),減少算法的計算量,提高挖掘效率和準(zhǔn)確程度

33、。9簡述數(shù)據(jù)預(yù)處理方法和內(nèi)容。數(shù)據(jù)清洗:包括填充空缺值,識別孤立點,去掉噪聲和無關(guān)數(shù)據(jù)。數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲中。需要注意不同數(shù)據(jù)源的數(shù)據(jù)匹配問題、數(shù)值沖突問題和冗余問題等。數(shù)據(jù)變換:將原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式。包括對數(shù)據(jù)的匯總、聚集、概化、規(guī)范化,還可能需要進(jìn)行屬性的重構(gòu)。數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。10. 數(shù)據(jù)挖掘的六種常用算法和技術(shù)分別是什么?聚類分析;分類分析;關(guān)聯(lián)分析;序列模式挖掘;回歸分析;時間序列分析。11. 數(shù)據(jù)挖掘中的數(shù)據(jù)需要采用哪些格式?數(shù)據(jù)挖掘中的數(shù)據(jù)

34、需要采用以下格式: 所有數(shù)據(jù)應(yīng)該在一個表格/數(shù)據(jù)庫視圖中 每一行對應(yīng)于與業(yè)務(wù)問題相關(guān)的一個案例 忽略具有單一值/幾乎單一值的列 忽略所有行的值都不同的列 刪除所有同義列 對于預(yù)測模型,目標(biāo)列必須是可識別的12簡述K-近鄰分類法的基本思想。答:基本思想:K近鄰分類是基于類比學(xué)習(xí)的,每個樣本代表d維空間的一個點。(3分)當(dāng)給定一個未知樣本時,K-近鄰分類法將搜索樣本空間,找出最接近未知樣本的K個訓(xùn)練樣本,這K個訓(xùn)練樣本是未知樣本的K個“近鄰”。 (3分)13關(guān)聯(lián)規(guī)則挖掘能發(fā)現(xiàn)什么知識?簡述其挖掘的基本步驟。答:關(guān)聯(lián)規(guī)則挖掘有助于發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品之間的聯(lián)系,找出顧客購買行為模式。(2分)關(guān)聯(lián)

35、規(guī)則挖掘可以分解為兩個步驟:首先找出交易項目中滿足最小支持度(minSupp)的項集(稱其為頻繁項集);(2分)然后由頻繁項集生成關(guān)聯(lián)規(guī)則,對于頻繁項集A,若BÌA,且置信度confidence(BÞA-B)不小于最小置信度minConf,則BÞA-B構(gòu)成關(guān)聯(lián)規(guī)則。(2分)14遺傳算法與傳統(tǒng)尋優(yōu)算法相比有什么特點?遺傳算法為群體搜索,有利于尋找到全局最優(yōu)解;遺傳算法采用高效有方向的隨機搜索,搜索效率高;遺傳算法處理的對象是個體而不是參變量,具有廣泛的應(yīng)用領(lǐng)域;遺傳算法使用適應(yīng)值信息評估個體,不需要導(dǎo)數(shù)或其他輔助信息,運算速度快,適應(yīng)性好;遺傳算法具有隱含并行性,具

36、有更高的運行效率。15什么是決策樹?如何用決策樹進(jìn)行分類?決策樹是用樣本的屬性作為結(jié)點,用屬性的取值作為分支的樹結(jié)構(gòu)。它是利用信息論原理對大量樣本的屬性進(jìn)行分析和歸納而產(chǎn)生的。決策樹的根結(jié)點是所有樣本中信息量最大的屬性。樹的中間結(jié)點是以該結(jié)點為根的子樹所包含的樣本子集中信息量最大的屬性。決策樹的葉結(jié)點是樣本的類別值。決策樹用于對新樣本的分類,即通過決策樹對新樣本屬性值的測試,從樹的根結(jié)點開始,按照樣本屬性的取值,逐漸沿著決策樹向下,直到樹的葉結(jié)點,該葉結(jié)點表示的類別就是新樣本的類別。決策樹方法是數(shù)據(jù)挖掘中非常有效的分類方法。16簡述K-平均算法的輸入、輸出及聚類過程(流程)。輸入:簇的數(shù)目k和

37、包含n個對象的數(shù)據(jù)集。輸出:k個簇,使平方誤差準(zhǔn)則最小。步驟:任意選擇k個對象作為初始的簇中心;計算其它對象與這k個中心的距離,然后把每個對象歸入離它“最近”的簇;計算各簇中對象的平均值,然后重新選擇簇中心(離平均值“最近”的對象值);重復(fù)第2第3步直到簇中心不再變化為止。17簡述構(gòu)造智能CRM系統(tǒng)的完整步驟。答:構(gòu)建一個完整的智能CRM系統(tǒng)的幾個步驟:1整合客戶信息資源:對于那些以前沒有應(yīng)用過任何CRM系統(tǒng)的企業(yè)來說,首先需要把孤立的業(yè)務(wù)系統(tǒng)整合到一個統(tǒng)一的平臺之下,解決“信息孤島”。 而對于己有CRM系統(tǒng)的企業(yè),則需要建立一個企業(yè)信息門戶,使客戶和企業(yè)能在一個統(tǒng)一的界面下進(jìn)行數(shù)據(jù)和信息交換

38、,從而保證客戶數(shù)據(jù)的一致性。(2分)2. 建立客戶數(shù)據(jù)倉庫:規(guī)劃數(shù)據(jù)倉庫,以企業(yè)的業(yè)務(wù)模型為基礎(chǔ),確定需要建立能夠描述主要業(yè)務(wù)主題的數(shù)據(jù)模型;設(shè)計數(shù)據(jù)倉庫,根據(jù)邏輯模型和性能要求進(jìn)行物理模型的設(shè)計,制定數(shù)據(jù)存儲策略以及各種商業(yè)規(guī)則等;(2分)3構(gòu)造數(shù)據(jù)分析模型:根據(jù)企業(yè)需要分析的對象和目標(biāo),構(gòu)造有針對性的分析模型。(1分)4建立客戶知識管理系統(tǒng):建立一個動態(tài)的客戶知識庫以及制定客戶知識的分發(fā)規(guī)則和保存機制。(1分)18何謂數(shù)據(jù)倉庫?為什么要建立數(shù)據(jù)倉庫?數(shù)據(jù)倉庫是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)提供所

39、需的集成信息。(3分)建立數(shù)據(jù)倉庫的目的有3個:一是為了解決企業(yè)決策分析中的系統(tǒng)響應(yīng)問題,數(shù)據(jù)倉庫能提供比傳統(tǒng)事務(wù)數(shù)據(jù)庫更快的大規(guī)模決策分析的響應(yīng)速度。二是解決決策分析對數(shù)據(jù)的特殊需求問題。決策分析需要全面的、正確的集成數(shù)據(jù),這是傳統(tǒng)事務(wù)數(shù)據(jù)庫不能直接提供的。三是解決決策分析對數(shù)據(jù)的特殊操作要求。決策分析是面向?qū)I(yè)用戶而非一般業(yè)務(wù)員,需要使用專業(yè)的分析工具,對分析結(jié)果還要以商業(yè)智能的方式進(jìn)行表現(xiàn),這是事務(wù)數(shù)據(jù)庫不能提供的。(3分)20簡述數(shù)據(jù)倉庫設(shè)計的三級模型及其基本內(nèi)容。概念模型設(shè)計是在較高的抽象層次上的設(shè)計,其主要內(nèi)容包括:界定系統(tǒng)邊界和確定主要的主題域。(2分)邏輯模型設(shè)計的主要內(nèi)容包括

40、:分析主題域、確定粒度層次劃分、確定數(shù)據(jù)分割策略、定義關(guān)系模式、定義記錄系統(tǒng)。(2分)物理數(shù)據(jù)模型設(shè)計的主要內(nèi)容包括:確定數(shù)據(jù)存儲結(jié)構(gòu)、確定數(shù)據(jù)存放位置、確定存儲分配以及確定索引策略等。在物理數(shù)據(jù)模型設(shè)計時主要考慮的因素有: I/O存取時間、空間利用率和維護(hù)代價等。提高性能的主要措施有劃分粒度、數(shù)據(jù)分割、合并表、建立數(shù)據(jù)序列、引入冗余、生成導(dǎo)出數(shù)據(jù)、建立廣義索引等。(2分)21何謂聚類?它與分類有什么異同?聚類是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。(3分)聚類與分類不同,聚類要劃分的類是未知的,

41、分類則可按已知規(guī)則進(jìn)行;聚類是一種無指導(dǎo)學(xué)習(xí),它不依賴預(yù)先定義的類和帶類標(biāo)號的訓(xùn)練實例,屬于觀察式學(xué)習(xí),分類則屬于有指導(dǎo)的學(xué)習(xí),是示例式學(xué)習(xí)。(3分)22何謂文本挖掘?它與信息檢索有什么關(guān)系(異同)。文本挖掘是從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識的過程。它與信息檢索之間有以下幾方面的區(qū)別:(1分)1方法論不同:信息檢索是目標(biāo)驅(qū)動的,用戶需要明確提出查詢要求;而文本挖掘結(jié)果獨立于用戶的信息需求,是用戶無法預(yù)知的。2著眼點不同:信息檢索著重于文檔中字、詞和鏈接;而文本挖掘在于理解文本的內(nèi)容和結(jié)構(gòu)。3目的不同:信息檢索的目的在于幫助用戶發(fā)現(xiàn)資源,即從大量的文本中找到滿足其查

42、詢請求的文本子集;而文本挖掘是為了揭示文本中隱含的知識。4評價方法不同:信息檢索用查準(zhǔn)率和查全率來評價其性能。而文本挖掘采用收益、置信度、簡潔性等來衡量所發(fā)現(xiàn)知識的有效性、可用性和可理解性。5使用場合不同:文本挖掘是比信息檢索更高層次的技術(shù),可用于信息檢索技術(shù)不能解決的許多場合。一方面,這兩種技術(shù)各有所長,有各自適用的場合;另一方面,可以利用文本挖掘的研究成果來提高信息檢索的精度和效率,改善檢索結(jié)果的組織,使信息檢索系統(tǒng)發(fā)展到一個新的水平。(5分)23遺傳算法與傳統(tǒng)尋優(yōu)算法相比有什么特點?遺傳算法為群體搜索,有利于尋找到全局最優(yōu)解;遺傳算法采用高效有方向的隨機搜索,搜索效率高;遺傳算法處理的對

43、象是個體而不是參變量,具有廣泛的應(yīng)用領(lǐng)域;遺傳算法使用適應(yīng)值信息評估個體,不需要導(dǎo)數(shù)或其他輔助信息,運算速度快,適應(yīng)性好;遺傳算法具有隱含并行性,具有更高的運行效率。(6分)24. 商務(wù)智能應(yīng)用趨勢更成熟的數(shù)據(jù)分析和展現(xiàn)技術(shù);從戰(zhàn)略型的BI到操作型或者實時型的BI;關(guān)注績效、關(guān)注價值、關(guān)注數(shù)據(jù)質(zhì)量。25. 商務(wù)智能發(fā)展的特點實時;標(biāo)準(zhǔn)化;嵌入式商務(wù)智能;移動商務(wù)智能;大眾化趨勢;供應(yīng)商的動向;易用性。26商務(wù)智能與知識管理的區(qū)別:內(nèi)涵不同;知識的管理過程和技術(shù)不同;關(guān)注的只是類型不同;面向的用戶不同。27. Web日志挖掘的應(yīng)用獲取用戶訪問模式信息,理解用戶的意圖和行為分析用戶的存取模式,為用

44、戶提供個性化的服務(wù)確定網(wǎng)站的潛在客戶群,合理制訂網(wǎng)絡(luò)廣告策略等改進(jìn)Web站點的結(jié)構(gòu),使網(wǎng)站點隨時間、用戶需求的變化而不斷調(diào)整對日志數(shù)據(jù)進(jìn)行多種統(tǒng)計,包括頻繁訪問頁、單位時間訪問頻度、訪問量的時間分布等利用關(guān)聯(lián)規(guī)則確定相關(guān)Web查詢(查詢修正)六、論述題(共10分)1、試舉例一個商務(wù)智能的應(yīng)用案例,并論述商務(wù)智能能為企業(yè)做什么?2、下列每項活動是否是數(shù)據(jù)挖掘任務(wù)?簡單陳述你的理由。根據(jù)性別劃分公司的顧客。根據(jù)可贏利性劃分公司的顧客。預(yù)測投一對骰子的結(jié)果。使用歷史記錄預(yù)測某公司未來的股票價格。(a)根據(jù)性別劃分公司的顧客。不是。數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲庫中,自動地發(fā)現(xiàn)有用信息的過程。數(shù)據(jù)挖掘技術(shù)服

45、務(wù)用來探查大型數(shù)據(jù)庫,發(fā)現(xiàn)先前未知的有用模式。還可以預(yù)測未來觀測結(jié)果,例如,預(yù)測一位新的顧客是否會在一家百貨公司消費100美元以上。但并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘,數(shù)據(jù)挖掘與信息檢索不同,使用數(shù)據(jù)庫管理系統(tǒng)查找個別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁面,則是信息檢索領(lǐng)域的任務(wù),它們主要依賴傳統(tǒng)的計算機科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。數(shù)據(jù)挖掘的任務(wù)可分為兩大類:預(yù)測任務(wù)和描述任務(wù)。主要任務(wù)有四種:聚類分析,關(guān)聯(lián)分析,異常檢測,和預(yù)測建模。其目的是根據(jù)其它屬性的值,預(yù)測特定屬性的值,或?qū)С龈爬〝?shù)據(jù)中潛在聯(lián)系的模式,主要是預(yù)測某些信息。而根據(jù)性

46、別劃分公司的顧客,只是一種簡單的數(shù)據(jù)庫查詢操作,并沒有涉及預(yù)測分析。根據(jù)可贏利性劃分公司的顧客。不是。根據(jù)可贏利性劃分公司的顧客是使用閾值進(jìn)行的一種統(tǒng)計計算。它僅僅是根據(jù)消費結(jié)果統(tǒng)計將原有顧客進(jìn)行劃分,只是一種統(tǒng)計的結(jié)果,而沒有根據(jù)這些結(jié)果的特點預(yù)測一個新的顧客的贏利性,這種預(yù)測才是數(shù)據(jù)挖掘。預(yù)測投一對骰子的結(jié)果。不是。因為骰子的六個數(shù)值出現(xiàn)的可能性是相同的,這是一種概率計算,如果結(jié)果出現(xiàn)的可能性是不確定的,不相同的,則更像是數(shù)據(jù)挖掘的任務(wù),但在很早以前利用數(shù)學(xué)已經(jīng)能夠很好的解決這個問題了。所以預(yù)測投一對骰子的結(jié)果不屬于數(shù)據(jù)挖掘的任務(wù),不帶有發(fā)現(xiàn)新信息的預(yù)測特點。使用歷史記錄預(yù)測某公司未來的股票價格。這是數(shù)據(jù)挖掘的任務(wù)??梢酝ㄟ^對歷史記錄特點的分析來創(chuàng)建一種模型預(yù)測未來的公司的股票價格,這是數(shù)據(jù)挖掘任務(wù)中預(yù)測建模的一個例子,預(yù)測建模涉及以說明變量函數(shù)的方式為目標(biāo)變量建立模型,有兩類預(yù)測建模任務(wù):分類,用于預(yù)測離散的目標(biāo)變量;回歸,用于預(yù)測連續(xù)的目標(biāo)變量dmj預(yù)測某公司未來的股票價格則是回歸任務(wù),因為價格具有連續(xù)值屬性。3、比較急切分類(如,判定樹、貝葉斯、神經(jīng)網(wǎng)絡(luò))相對于懶散分類(如,k -最臨近、基于案例的推理)的優(yōu)缺點。答:決策樹歸納的特點:(1)決策樹歸

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論