數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末試題_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末試題_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末試題_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末試題_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

PAGE2005級(jí)《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》卷第2頁共4頁廣西財(cái)經(jīng)學(xué)院2007——2008學(xué)年第一學(xué)期姓名:學(xué)號(hào):班級(jí)《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》課程期末考試試卷(A)卷姓名:學(xué)號(hào):班級(jí)適用班級(jí):電商本0541、0542考試時(shí)間:120分鐘(開卷機(jī)試)考查課程命題老師簽名:鄭華教研室主任簽名:課程開課系:計(jì)信系注意:本次考試是開卷上機(jī)考,請(qǐng)大家獨(dú)立分析完成。如果發(fā)現(xiàn)有相同的答卷,則二人都為0分,請(qǐng)大家自覺!請(qǐng)大家在2007年12月25日之前把做好的答卷發(fā)送到老師的郵箱:gxhuazheng@,過期不候.題號(hào)一二三四五六七八九十總分應(yīng)得分20303020100實(shí)得分評(píng)卷人名詞解釋(每題4分,共20分)1、數(shù)據(jù)倉庫數(shù)據(jù)倉庫(DataWarehouse)是一個(gè)面向主題的(SubjectOriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策。2、數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining),又稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。3、雪花模型雪花模式中某些維表是規(guī)范化的,因而把數(shù)據(jù)進(jìn)一步分解到附加的表中,模式圖形成了類似雪花的形狀。通過最大限度地減少數(shù)據(jù)存儲(chǔ)量以及聯(lián)合較小的維表來改善查詢性能。雪花模型增加了用戶必須處理的表數(shù)量,增加了某些查詢的復(fù)雜性,但同時(shí)提高了處理的靈活性,可以回答更多的商業(yè)問題,特別適合系統(tǒng)的逐步建設(shè)要求。4、OLAPOLAP是聯(lián)機(jī)分析處理,是使分析人員、管理人員或執(zhí)行人員能夠從多角度對(duì)信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。它支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。5、決策樹決策樹是將訓(xùn)練集函數(shù)表示成樹結(jié)構(gòu),通過它來近似離散值的目標(biāo)函數(shù)。這種樹結(jié)構(gòu)是一種有向樹,它以訓(xùn)練集的一個(gè)屬性作節(jié)點(diǎn),這個(gè)屬性所對(duì)應(yīng)的一個(gè)值作邊。決策樹一般都是自上而下的來生成的。簡答題(每題6分,共30分)1、企業(yè)面對(duì)海量數(shù)據(jù),應(yīng)如何具體實(shí)施數(shù)據(jù)挖掘,使之轉(zhuǎn)換成可行的結(jié)果/模型?首先進(jìn)行數(shù)據(jù)的預(yù)處理,主要進(jìn)行數(shù)據(jù)的清洗,數(shù)據(jù)清洗,處理空缺值,數(shù)據(jù)的集成,數(shù)據(jù)的變換和數(shù)據(jù)規(guī)約。2、請(qǐng)列舉您使用過的各種數(shù)據(jù)倉庫工具軟件(包括建模工具,ETL工具,前端展現(xiàn)工具,OLAPServer、數(shù)據(jù)庫、數(shù)據(jù)挖掘工具)和熟悉程度。ETL工具:AscentialDataStage,IBMwarehouseMANAGER、Informatica公司的PowerCenter、Cognos公司的DecisionStream市場上的主流數(shù)據(jù)倉庫存儲(chǔ)層軟件有:SQLSERVER、SYBASE、ORACLE、DB2、TERADATA但是使用過的只有SQLSERVER和數(shù)據(jù)挖掘工具AnalysisServices,而且不大熟悉。3、請(qǐng)談一下你對(duì)元數(shù)據(jù)管理在數(shù)據(jù)倉庫中的運(yùn)用的理解。元數(shù)據(jù)能支持系統(tǒng)對(duì)數(shù)據(jù)的管理和維護(hù),如關(guān)于數(shù)據(jù)項(xiàng)存儲(chǔ)方法的元數(shù)據(jù)能支持系統(tǒng)以最有效的方式訪問數(shù)據(jù)。具體來說,在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)機(jī)制主要支持以下五類系統(tǒng)管理功能:(1)描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中;(2)定義要進(jìn)入數(shù)據(jù)倉庫中的數(shù)據(jù)和從數(shù)據(jù)倉庫中產(chǎn)生的數(shù)據(jù);(3)記錄根據(jù)業(yè)務(wù)事件發(fā)生而隨之進(jìn)行的數(shù)據(jù)抽取工作時(shí)間安排;(4)記錄并檢測(cè)系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況;(5)衡量數(shù)據(jù)質(zhì)量。4、數(shù)據(jù)挖掘?qū)垲惖臄?shù)據(jù)要求是什么?(1)可伸縮性(2)處理不同類型屬性的能力(3)發(fā)現(xiàn)任意形狀的聚類(4)使輸入?yún)?shù)的領(lǐng)域知識(shí)最小化(5)處理噪聲數(shù)據(jù)的能力(6)對(duì)于輸入順序不敏感(7)高維性(8)基于約束的聚類(9)看解釋性和可利用性5、簡述Apriori算法的思想,談?wù)勗撍惴ǖ膽?yīng)用領(lǐng)域并舉例。思想:其發(fā)現(xiàn)關(guān)聯(lián)規(guī)則分兩步,第一是通過迭代,檢索出數(shù)據(jù)源中所有煩瑣項(xiàng)集,即支持度不低于用戶設(shè)定的閥值的項(xiàng)即集,第二是利用第一步中檢索出的煩瑣項(xiàng)集構(gòu)造出滿足用戶最小信任度的規(guī)則,其中,第一步即挖掘出所有頻繁項(xiàng)集是該算法的核心,也占整個(gè)算法工作量的大部分。在商務(wù)、金融、保險(xiǎn)等領(lǐng)域皆有應(yīng)用。在建筑陶瓷行業(yè)中的交叉銷售應(yīng)用,主要采用了Apriori算法翻譯分析題(30分)1、附件有一名為“DataMininginElectronicCommerce”的電子文檔,請(qǐng)同學(xué)們翻譯其中的一段。每位同學(xué)翻譯的段號(hào)以大家學(xué)號(hào)的最后兩位為準(zhǔn),如10號(hào)同學(xué)只需翻譯正文的第10段,以此類推。分類則是一個(gè)標(biāo)準(zhǔn)的問題,在數(shù)據(jù)挖掘和在電子商貿(mào)的應(yīng)用-原則下,適當(dāng)?shù)姆椒╗隨機(jī)森林,支持向量機(jī)(支持向量機(jī)),后勤拉索等]有賴于敏銳地在該網(wǎng)站上,該類型的廣告都是可以收集到的資料。在亞馬遜商務(wù)網(wǎng)站中,該推薦系統(tǒng)已進(jìn)入先前購買和書籍進(jìn)行視察。這是一個(gè)更豐富的信息來源,通過可以接入(他們只

知道這個(gè)詞,有人期待在這次會(huì)議上,除非他們有庫克-網(wǎng)頁)。一些企業(yè)獲得更多的信息,從數(shù)據(jù)倉庫中,如作為choicepoint公司,這使得他們的專家來建立高度個(gè)性化的分類規(guī)則。2、通過閱讀該文擋,請(qǐng)同學(xué)們分析一下數(shù)據(jù)挖掘在電子商務(wù)領(lǐng)域的應(yīng)用情況(請(qǐng)深入分析并給出實(shí)例,切忌泛泛而談)。隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)的成熟,全球傳統(tǒng)商務(wù)正經(jīng)歷一次重大變革,向電子商務(wù)全速挺進(jìn)。這種商業(yè)電子化的趨勢(shì)不僅為客戶提供了便利的交易方式和廣泛的選擇,同時(shí)也為商家提供了更加深入地了解客戶需求信息和購物行為特征的可能性。數(shù)據(jù)挖掘技術(shù)作為電子商務(wù)的重要應(yīng)用技術(shù)之一,將為正確的商業(yè)決策提供強(qiáng)有力的支持和可靠的保證,是電子商務(wù)不可缺少的重要工具。電子商務(wù)的發(fā)展促使公司內(nèi)部收集了大量的數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí),為公司創(chuàng)造更多潛在的利潤,數(shù)據(jù)挖掘概念就是從這樣的商業(yè)角度開發(fā)出來的。由于數(shù)據(jù)挖掘能帶來顯著的效益,它在電子商務(wù)中(特別是業(yè)、零售業(yè)和電信業(yè))應(yīng)用也越來越廣泛。在金融領(lǐng)域,管理者可以通過對(duì)客戶償還能力以及信用的分析,進(jìn)行分類,評(píng)出等級(jí)。從而可減少放貸的麻木性,提高資金的使用效率。同時(shí)還可發(fā)現(xiàn)在償還中起決定作用的主導(dǎo)因素,從而制定相應(yīng)的金融政策。更值得一提的是通過對(duì)數(shù)據(jù)的分析還可發(fā)現(xiàn)洗黑錢以及其它的犯罪活動(dòng)。在零售業(yè),數(shù)據(jù)挖掘可有助于識(shí)別顧客購買行為,發(fā)現(xiàn)顧客購買模式和趨勢(shì),改進(jìn)服務(wù)質(zhì)量,取得更好的顧客保持力和滿意程度,提高貨品銷量比率,設(shè)計(jì)更好的貨品運(yùn)輸與分銷策略,減少商業(yè)成本。電信業(yè)已經(jīng)迅速地從單純的提供市話和長話服務(wù)演變?yōu)榫C合電信服務(wù),如語音、傳真、尋呼、移動(dòng)電話、圖像、電子郵件、機(jī)和WEB數(shù)據(jù)傳輸以及其它的數(shù)據(jù)通信服務(wù)。電信、計(jì)算機(jī)網(wǎng)絡(luò)、因特網(wǎng)和各種其它方式的通信和計(jì)算的融合是的大勢(shì)所趨。而且隨著許多國家對(duì)電信業(yè)的開放和新型計(jì)算與通信技術(shù)的發(fā)展,電信市場正在迅速擴(kuò)張并越發(fā)競爭激烈。因此,利用數(shù)據(jù)挖掘技術(shù)來幫助理解

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論