數(shù)據(jù)倉庫技術(shù)在學(xué)生成績管理中的應(yīng)用畢業(yè)論文_第1頁
數(shù)據(jù)倉庫技術(shù)在學(xué)生成績管理中的應(yīng)用畢業(yè)論文_第2頁
數(shù)據(jù)倉庫技術(shù)在學(xué)生成績管理中的應(yīng)用畢業(yè)論文_第3頁
數(shù)據(jù)倉庫技術(shù)在學(xué)生成績管理中的應(yīng)用畢業(yè)論文_第4頁
數(shù)據(jù)倉庫技術(shù)在學(xué)生成績管理中的應(yīng)用畢業(yè)論文_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)倉庫技術(shù)在學(xué)生成績管理中的應(yīng)用 摘要:本文主要介紹了數(shù)據(jù)倉庫、數(shù)據(jù)挖掘等基本概念性知識。在設(shè)計中通過將搜集來的學(xué)生成績原始數(shù)據(jù)進行清理、集成、變換等方法進行數(shù)據(jù)預(yù)處理后,建立學(xué)生成績管理數(shù)據(jù)倉庫,應(yīng)用SQL Server 2008中的聯(lián)機分析處理技術(shù)從不同的維度觀察是否對成績有影響因素,建立決策樹挖掘模型對學(xué)生成績進行定性分析,并對實驗結(jié)果進行了分析和解釋,用于指導(dǎo)學(xué)校決策者制定修改人才培養(yǎng)方案和指導(dǎo)學(xué)生更加有效地學(xué)習(xí)。關(guān)鍵詞:數(shù)據(jù)倉庫,數(shù)據(jù)挖掘,維度,決策樹The Application of Data Warehouse Technology in the Management of

2、StudentsAbstract: This paper mainly introduce the data warehouse and data mining, and other basic conceptual knowledge. In the design of collected by the student achievement original data cleaning, integration, transform method for data pretreatment, set up students' performance management data

3、warehouse application SQL Server 2008 of on-line analytical processing technology from different dimensions to observe whether grades have influence factors, establish decision-making tree mining model student achievement of qualitative analysis, and the experimental results are analyzed and explain

4、ed, used to guide the school the decision makers to make change the talent training scheme and guide students to learn more effectively.Key words: data warehouse,data mining, dimension, decision-tree目 錄1 緒論11.1 數(shù)據(jù)倉庫的研究現(xiàn)狀及發(fā)展趨勢11.2 數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域中的研究現(xiàn)狀及意義21.3 研究內(nèi)容31.4 論文結(jié)構(gòu)32 數(shù)據(jù)倉庫及數(shù)據(jù)挖掘相關(guān)知識42.1 數(shù)據(jù)倉庫42.1.1

5、數(shù)據(jù)倉庫概念42.1.2 數(shù)據(jù)倉庫的特點42.1.3 數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)52.2 數(shù)據(jù)挖掘62.2.1 數(shù)據(jù)挖掘的概念62.2.2 數(shù)據(jù)挖掘的對象62.2.3 數(shù)據(jù)挖掘的任務(wù)62.2.4 數(shù)據(jù)挖掘的過程72.2.5 數(shù)據(jù)挖掘的基本算法82.3 聯(lián)機分析處理(OLAP)102.3.1 OLAP的概念102.3.2 OLAP的特性102.3.3 OLAP的基本活動112.3.4 OLAP的實現(xiàn)方式112.4 SQL Server 2008軟件簡介123 學(xué)生成績數(shù)據(jù)倉庫的建立133.1 學(xué)生成績數(shù)據(jù)倉庫的概念模型設(shè)計133.2 學(xué)生成績數(shù)據(jù)倉庫的邏輯模型設(shè)計133.3 學(xué)生成績數(shù)據(jù)倉庫的物理模

6、型設(shè)計164 學(xué)生成績數(shù)據(jù)庫的實施194.1 建立“學(xué)生成績”數(shù)據(jù)庫194.2 數(shù)據(jù)預(yù)處理194.3 創(chuàng)建多維數(shù)據(jù)集204.4 進行多維分析20學(xué)生成績的多維分析204.4.2 決策樹算法在學(xué)生成績分析中的應(yīng)用245總結(jié)與展望295.1總結(jié)295.2 展望29致謝30參考文獻311 緒論如今人們利用信息技術(shù)生產(chǎn)和收集大量的數(shù)據(jù),給我的生活提供了很大的方便。然而要想高效地管理、組織這些數(shù)據(jù)并對其進行分析并不是一件易事。數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在這方面得到了廣泛的應(yīng)用,數(shù)據(jù)挖掘能從存放在數(shù)據(jù)倉庫中的大量數(shù)據(jù)中挖掘出隱藏的有用知識。高校中存在著學(xué)籍管理、成績管理、人事管理等各種數(shù)據(jù)系統(tǒng)。在這些數(shù)據(jù)庫中

7、存儲了大量的數(shù)據(jù),然而隱藏在這些數(shù)據(jù)背后的信息一直未得到開發(fā)應(yīng)用。學(xué)生是學(xué)校的核心,他們的學(xué)習(xí)成績作為一種總結(jié)性評價,能反映出他們的知識掌握情況和相應(yīng)知識技能的獲得情況。學(xué)生成績不僅對學(xué)生的學(xué)習(xí)效果和教師的教學(xué)效果具有檢測作用,而且還能反饋教學(xué)活動,反作用于教師的教和學(xué)生的學(xué)。在諸多高校的教務(wù)數(shù)據(jù)倉庫中的學(xué)生成績記錄非常龐大, 他們對學(xué)生成績的評定分兩種:一種是定量評價,一種是定性評價。定量評價也就是我們平時所說的某門課程考了多少分,而定性評價一般分優(yōu)、良、中、差等四個級別。他們僅僅從單獨一門課進行分析,很少關(guān)注到學(xué)生取得這些成績背后的影響因素和原因。數(shù)據(jù)庫是從定性的角度分析學(xué)生成績,缺點就是

8、得到的結(jié)果不是很精確;而數(shù)據(jù)倉庫是從定量的角度對學(xué)生成績進行分析,能精確的得到各個方面的數(shù)據(jù)。因此使用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)對學(xué)生成績進行深層的分析,挖掘出隱藏在數(shù)據(jù)背后的規(guī)律或模式,根據(jù)挖掘結(jié)構(gòu)提出一些指導(dǎo)性建議從而更好的指導(dǎo)教師教學(xué),提高教學(xué)效率,提高學(xué)生的成績。本文利用聯(lián)機分析處理和數(shù)據(jù)挖掘技術(shù),以我校教務(wù)管理系統(tǒng)為研究背景,從教務(wù)處網(wǎng)站導(dǎo)出近幾年的學(xué)生成績和教師、課程等各方面的信息數(shù)據(jù),然后建立學(xué)生成績數(shù)據(jù)倉庫,并創(chuàng)建多維數(shù)據(jù)集和維度結(jié)構(gòu),從不同的維度觀察學(xué)生的成績,得出一些對比性數(shù)據(jù)。最后應(yīng)用數(shù)據(jù)挖掘技術(shù)對學(xué)生成績進行挖掘,得出定性評價,根據(jù)這些挖掘結(jié)果有針對性的提出一些改進教學(xué)質(zhì)量

9、和提高學(xué)生成績的措施。1.1 數(shù)據(jù)倉庫的研究現(xiàn)狀及發(fā)展趨勢 數(shù)據(jù)倉庫技術(shù)是 20世紀90 年代的一門新興技術(shù),它能有效地管理好數(shù)據(jù),并對其進行存儲和組織。目前,數(shù)據(jù)倉庫還沒有一個統(tǒng)一的定義,著名的數(shù)據(jù)倉庫專家對數(shù)據(jù)倉庫概念有比較系統(tǒng)和全面的解釋,他在其著作Building the Data Warehouse一書中指出:數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,它廣泛應(yīng)用于支持管理決策。顯而易見數(shù)據(jù)倉庫不僅僅是一個數(shù)據(jù)集合

10、,還是一個決策支持系統(tǒng)。目前,國外企業(yè)所建立的數(shù)據(jù)倉庫應(yīng)用系統(tǒng)給他們都帶來了明顯的經(jīng)濟效益,但是金融業(yè)使用數(shù)據(jù)倉庫只是完成簡單的報表生成和日常業(yè)務(wù)分析,并沒有對數(shù)據(jù)進行深入的挖掘分析,顯然這樣沒有發(fā)揮出數(shù)據(jù)倉庫的應(yīng)用價值,所以并不能給銀行等金融業(yè)帶來真正的經(jīng)濟效益。現(xiàn)階段我國的數(shù)據(jù)倉庫分析技術(shù)還沒有多少經(jīng)驗。使用數(shù)據(jù)倉庫的關(guān)鍵是建立倉庫模型 ,這就對設(shè)計者提出了要求,他們必須對相關(guān)的業(yè)務(wù)非常熟悉而且還應(yīng)具備相應(yīng)的管理分析能力 。數(shù)據(jù)倉庫是一個很有發(fā)展前景的技術(shù)。數(shù)據(jù)倉庫技術(shù)包括對數(shù)據(jù)的抽取、存儲與管理、數(shù)據(jù)表現(xiàn)和方法論等方面。首先,要采用統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)即要統(tǒng)一信息系統(tǒng)的平臺。數(shù)據(jù)倉庫技術(shù)未來的

11、發(fā)展趨勢:在數(shù)據(jù)抽取方面,將會在系統(tǒng)集成化方面得到飛速的發(fā)展;在數(shù)據(jù)管理方面,數(shù)據(jù)庫廠商將產(chǎn)生出數(shù)據(jù)倉庫引擎,與數(shù)據(jù)庫服務(wù)器同步發(fā)展;在數(shù)據(jù)表現(xiàn)方面,數(shù)理統(tǒng)計的算法和功能將應(yīng)用到聯(lián)機分析產(chǎn)品中。當數(shù)據(jù)模型建好以后,就要在其上建立應(yīng)用系統(tǒng),進而在數(shù)據(jù)倉庫上進行數(shù)據(jù)挖掘,構(gòu)建決策支持系統(tǒng) ,讓所建的數(shù)據(jù)倉庫發(fā)揮其有用的作用。1.2 數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域中的研究現(xiàn)狀及意義隨著國家對教育的重視,學(xué)校也開始尋找各種可以提高學(xué)生成績的途徑。根據(jù)不同考試的要求,找出學(xué)生的考試成績中潛在的聯(lián)系已成為各級高校和教育部門的需求。把數(shù)據(jù)挖掘技術(shù)應(yīng)用到教育領(lǐng)域,通過對數(shù)據(jù)庫中的大量數(shù)據(jù)(特別是學(xué)生的成績數(shù)據(jù))進行抽

12、取、轉(zhuǎn)換,從中提取出對教學(xué)質(zhì)量的改進有作用的數(shù)據(jù)。當前,數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域中的應(yīng)用主要有以下幾個方面:(1)教學(xué)管理系統(tǒng)方面。把數(shù)據(jù)挖掘技術(shù)應(yīng)用到教學(xué)管理中,建立教學(xué)管理挖掘系統(tǒng),對其中的數(shù)據(jù)進行分析能得到傳統(tǒng)的分析方法無法得到的潛在信息,因此學(xué)??梢岳眠@些信息知道教學(xué)的進程從而提高教學(xué)質(zhì)量。(2)高校教學(xué)質(zhì)量評估方面。通過對某一個院系學(xué)生的評價數(shù)據(jù)和授課教師的信息進行數(shù)據(jù)挖掘,采用分類、聚類、決策樹、關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘方法對學(xué)生成績進行挖掘,對挖掘結(jié)果進行分析,得出定性評價,找出影響教學(xué)質(zhì)量的關(guān)鍵因素,為教學(xué)提供決策支持。(3)網(wǎng)絡(luò)教學(xué)方面。把數(shù)據(jù)挖掘技術(shù)應(yīng)用到網(wǎng)絡(luò)教學(xué)方面,對教學(xué)信息

13、數(shù)據(jù)進行挖掘,產(chǎn)生有利于提高網(wǎng)絡(luò)教學(xué)質(zhì)量的信息點,使得網(wǎng)絡(luò)教學(xué)工作得到順利開展。數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則可以發(fā)現(xiàn)兩門或多門課程中存在的先行后續(xù)的關(guān)系,學(xué)生成績與課程設(shè)置順序之間存在的聯(lián)系,從中可以找到影響學(xué)生成績的原因。1.3 研究內(nèi)容在明確了我校教學(xué)管理系統(tǒng)的不足之后,試圖將數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)應(yīng)用到教學(xué)管理中,首先對教學(xué)系統(tǒng)中大量的學(xué)生成績數(shù)據(jù)進行分析和處理,利用SQL Server 2008軟件中的挖掘算法以學(xué)生成績?yōu)楹诵耐诰驖撛诘囊?guī)律及模式,得到影響學(xué)生成績可能原因,有針對性地提出教學(xué)建議和課程安排次序,以幫助教育者制定教學(xué)計劃,提高教學(xué)質(zhì)量。本文主要介紹了數(shù)據(jù)倉庫、數(shù)據(jù)挖掘等基本理

14、論知識和關(guān)聯(lián)規(guī)則、聚類分析等基本算法;運用聯(lián)機分析處理技術(shù)和決策樹算法應(yīng)用于所建立的學(xué)生成績數(shù)據(jù)倉庫中,對學(xué)生成績進行深入挖掘,從教師、學(xué)生、課程等三個維度分析出學(xué)生成績的規(guī)律性變化。1.4 論文結(jié)構(gòu)第一章 緒論。介紹選題背景及選題意義,數(shù)據(jù)倉庫技術(shù)在國內(nèi)外的研究現(xiàn)狀和發(fā)展趨勢以及本論文的研究內(nèi)容和結(jié)構(gòu)安排。第二章 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的相關(guān)知識。主要介紹數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的基本知識,包括數(shù)據(jù)挖掘的過程、任務(wù)、分類以及常用技術(shù)和方法。另外還重點介紹了聯(lián)機分析處理技術(shù)。第三章 學(xué)生成績數(shù)據(jù)倉庫的建立。主要通過概念模型、邏輯模型、結(jié)構(gòu)模型設(shè)計建立學(xué)生成績數(shù)據(jù)倉庫和數(shù)據(jù)倉庫實施的前期準備。第四章 學(xué)生

15、成績數(shù)據(jù)挖掘。利用聯(lián)機分析處理技術(shù)和決策樹算法對學(xué)生成績數(shù)據(jù)倉庫進行分析和數(shù)據(jù)挖掘。第五章 總結(jié)與展望。 闡述了本人在論文研究階段的工作、論文的創(chuàng)新點、并對數(shù)據(jù)挖掘技術(shù)在高校教學(xué)管理中的進一步研究進行分析和展望。2 數(shù)據(jù)倉庫及數(shù)據(jù)挖掘相關(guān)知識2.1 數(shù)據(jù)倉庫 如今數(shù)據(jù)庫中存有大量的數(shù)據(jù)信息,必須對其進行存儲、管理和維護,由于數(shù)據(jù)庫管理系統(tǒng)(database management system,DBMS)的局限性使得它很難滿足人們的需求。DBMS的缺陷主要表現(xiàn)為:數(shù)據(jù)量成幾何級數(shù)增長;數(shù)據(jù)來源不同的數(shù)據(jù)難以集成;訪問這些數(shù)據(jù)時的響應(yīng)性能不斷降低。而應(yīng)用決策支持系統(tǒng)(decision suppor

16、t system,DSS),它所需的數(shù)據(jù)必須經(jīng)過提取、轉(zhuǎn)換、過濾等預(yù)處理操作并與其他數(shù)據(jù)源整合,按主題存放在數(shù)據(jù)庫中??蛻舨樵儠r訪問的是中央數(shù)據(jù)庫(database,DB),因此要想使數(shù)據(jù)能更好地為用戶服務(wù),必須經(jīng)過清洗、轉(zhuǎn)換和加載。這些工作通常都在數(shù)據(jù)倉庫(data warehouse,DW)中完成。 數(shù)據(jù)倉庫概念 20世紀50年代中期,“數(shù)據(jù)倉庫之父”WiiliamHhimon出版的建立數(shù)據(jù)倉庫中對數(shù)據(jù)倉庫進行了定義,他指出:數(shù)據(jù)倉庫是一個面向主題的、集成的、不可更新的、隨時間變化的數(shù)據(jù)集合,用于支持管理決策。數(shù)據(jù)倉庫與其他數(shù)據(jù)庫不同,它更像是一種過程,它是對各種業(yè)務(wù)數(shù)據(jù)的整合、加工和分析

17、。數(shù)據(jù)倉庫用于支持決策,面向的是分析型數(shù)據(jù)處理,所以它并不等同于操作型數(shù)據(jù)庫;數(shù)據(jù)倉庫是通過數(shù)據(jù)清理、變換、集成和定期刷新來構(gòu)造的,這些數(shù)據(jù)一般是歷史的積累數(shù)據(jù),一般不做修改。 數(shù)據(jù)倉庫的特點 數(shù)據(jù)倉庫主要有四個特征:面向主題性、集成性、不可更新性、隨時間變化性。(1) 數(shù)據(jù)倉庫是面向主題的以前的操作型數(shù)據(jù)庫中側(cè)重的是聯(lián)機事務(wù),各項數(shù)據(jù)的應(yīng)用邏輯是相互組合的,分離度不高。數(shù)據(jù)倉庫中的數(shù)據(jù)由于是面向主題進行組織的,所以能完整地刻畫各項數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)系。(2) 數(shù)據(jù)倉庫中的數(shù)據(jù)是集成的 數(shù)據(jù)倉庫中的數(shù)據(jù)大多數(shù)都是來自不同的外部應(yīng)用系統(tǒng)或者是本系統(tǒng)中不同的使用部門。我們一般把數(shù)據(jù)倉庫中的數(shù)據(jù)分

18、為外部數(shù)據(jù)和內(nèi)部數(shù)據(jù),外部應(yīng)用系統(tǒng)的信息就叫外部數(shù)據(jù),本系統(tǒng)中的信息就叫內(nèi)部數(shù)據(jù)。這些內(nèi)外數(shù)據(jù)的組織結(jié)構(gòu)會有所不同,這就需要對不同的數(shù)據(jù)源數(shù)據(jù)進行集成,目的是為了保持數(shù)據(jù)的一致性。我們所說的數(shù)據(jù)集成并不是對數(shù)據(jù)的簡單歸類于合并,而是要經(jīng)過數(shù)據(jù)組織結(jié)構(gòu)的統(tǒng)一與綜合。 (3))數(shù)據(jù)倉庫中的數(shù)據(jù)是不可更新的 數(shù)據(jù)倉庫中的數(shù)據(jù)記錄的是日積月累的歷史數(shù)據(jù)的內(nèi)容,反映的是不同時間點的數(shù)據(jù)庫快照集合通過數(shù)據(jù)的統(tǒng)計、整合和重組而得出的數(shù)據(jù)。數(shù)據(jù)倉庫數(shù)據(jù)的不可更新性并不意味著不可以對數(shù)據(jù)進行更新操作。當我們要進行新的分析決策時,這時候就需要對數(shù)據(jù)進行更新操作,把數(shù)據(jù)倉庫中那些過時的數(shù)據(jù)刪掉,并將近期的數(shù)據(jù)進行集

19、成整合然后添加到數(shù)據(jù)庫中進而生成新的記錄。這些修改和重組的任務(wù)是由數(shù)據(jù)倉庫管理員定期后臺實現(xiàn)的,最終用戶不允許參與。 數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)是在數(shù)據(jù)倉庫的基礎(chǔ)上建立的,它通過查詢工具和分析工具提取出滿足用戶的各種需求的數(shù)據(jù)信息。數(shù)據(jù)倉庫的基本體系結(jié)構(gòu),如圖2.1所示。圖2.1 數(shù)據(jù)倉庫體系結(jié)構(gòu)(1)數(shù)據(jù)源數(shù)據(jù)源是數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)源泉,為整個系統(tǒng)的分析和使用提供可能。(2)數(shù)據(jù)的抽取、轉(zhuǎn)換、裝載、預(yù)處理數(shù)據(jù)的抽取是將數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)倉庫統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)和內(nèi)部格式,數(shù)據(jù)的凈化是確保數(shù)據(jù)的有效性并能為決策服務(wù)。數(shù)據(jù)的裝載是將凈化的數(shù)據(jù)加載到數(shù)據(jù)倉庫數(shù)據(jù)庫。數(shù)據(jù)的提取、凈化、轉(zhuǎn)化到加載這四個

20、過程被稱為數(shù)據(jù)分級。(3)元數(shù)據(jù)元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),是用于描述數(shù)的要素、數(shù)據(jù)集的內(nèi)容、數(shù)據(jù)的覆蓋范圍、數(shù)據(jù)的所有者、數(shù)據(jù)的提供方式、數(shù)據(jù)的質(zhì)量和管理方式等有關(guān)的信息。2.2 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的概念 數(shù)據(jù)挖掘(Data Mining,DM)是從大量的、隨機的、 不完全的、 模糊的、有噪聲的數(shù)據(jù)中,提取出隱含在數(shù)據(jù)中的、隱藏的、但又有潛在使用價值的信息和知識的過程。因此它是一種深層次的信息分析方法。數(shù)據(jù)挖掘出來的內(nèi)容必須是需求者感興趣的信息,因此數(shù)據(jù)挖掘過程就是使用各種挖掘技術(shù)從大型數(shù)據(jù)庫中提取出人們感興趣的信息的過程,提取出來的這些信息和知識用概念、規(guī)則、規(guī)律、模式等形式來表示。在高校中,

21、我們可以使用數(shù)據(jù)挖掘技術(shù)對學(xué)生的成績進行全面地分析,找出學(xué)生成績與其它各種因素之間隱藏的內(nèi)在聯(lián)系,定性的從不同的角度精確地展現(xiàn)學(xué)生成績,從而找出影響學(xué)生成績變化的可能因素,進而提出一些教學(xué)建議和改進措施,提高學(xué)生學(xué)習(xí)的積極性,讓學(xué)習(xí)效果更好。 數(shù)據(jù)挖掘的對象數(shù)據(jù)挖掘的對象主要包括關(guān)系數(shù)據(jù)庫、事務(wù)數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、數(shù)據(jù)倉庫、文本數(shù)據(jù)源、遺產(chǎn)數(shù)據(jù)庫以及 Web 頁等八個方面。 數(shù)據(jù)挖掘的任務(wù) 數(shù)據(jù)挖掘的主要任務(wù)是發(fā)掘數(shù)據(jù)倉庫還沒有被發(fā)現(xiàn)的知識。決策者明確需要了解的信息,我們可以直接使用查詢、OLAP 技術(shù)或其它工具來得到;而有些隱藏的信息我們就不能直接得到,因而就需要用到數(shù)據(jù)挖

22、掘技術(shù)。在數(shù)據(jù)倉庫中應(yīng)用數(shù)據(jù)挖掘技術(shù)可從中找出有價值的信息和知識,然后再利用這些信息和知識指導(dǎo)實際操作。數(shù)據(jù)挖掘的任務(wù)包括關(guān)聯(lián)模式、聚類模式、分類和預(yù)測、偏差檢測與時序模式。(1)關(guān)聯(lián)模式。關(guān)聯(lián)模式是指數(shù)據(jù)項之間存在的關(guān)聯(lián)規(guī)則,如果兩個或兩個以上數(shù)據(jù)項重復(fù)出現(xiàn)的概率比較高,它們之間就可能存在某種關(guān)系,我們把這種可能的關(guān)系稱之為關(guān)聯(lián)規(guī)則。(2)聚類模式。按照相似度把數(shù)據(jù)歸并成若干類,要求同一類別中的數(shù)據(jù)相似、數(shù)據(jù)間的距離較小,不同類別中的數(shù)據(jù)相異、數(shù)據(jù)間的距離較大,我們把它稱之為聚類。(3)分類和預(yù)測。描述和區(qū)分數(shù)據(jù)的類或概念的技術(shù)成為分類技術(shù),分好的類或概念模型能夠預(yù)測未知的對象類。(4)偏差

23、檢測。分類中的反常實例和不滿足規(guī)則的特例不能直接用于數(shù)據(jù)分析,需要經(jīng)過檢查偏差,預(yù)測數(shù)據(jù)庫中數(shù)據(jù)的某些異常問題,為后一步的改正做好鋪墊。(5)時序模式。時間序列模式是根據(jù)數(shù)據(jù)的發(fā)展趨勢來預(yù)測將來可能出現(xiàn)的值,它是根據(jù)時間序列查詢出事件較高的發(fā)生概率來實現(xiàn)的。 數(shù)據(jù)挖掘的過程 數(shù)據(jù)挖掘的過程主要包括三個部分:數(shù)據(jù)預(yù)處理(Data preproeessing)、數(shù)據(jù)挖掘 (Data Mining)、結(jié)果的解釋和評估(Interpretation and Evaluation)。下面來介紹一下數(shù)據(jù)挖掘的基本流程:(1)定義問題:首先要明確要研究的問題以此來確定數(shù)據(jù)挖掘的目的。 (2)數(shù)據(jù)預(yù)處理:包括

24、數(shù)據(jù)的收集和準備;數(shù)據(jù)清理(消去冗余的、過時的、失效的數(shù)據(jù));數(shù)據(jù)集成(將數(shù)據(jù)由多個數(shù)據(jù)源合并成一致的數(shù)據(jù)存儲,如數(shù)據(jù)倉庫、數(shù)據(jù)集市);數(shù)據(jù)變換(將數(shù)據(jù)進行規(guī)范化和聚集);數(shù)據(jù)歸約(采用聚集、刪除冗余特性或聚類等方法來壓縮數(shù)據(jù))。(3)數(shù)據(jù)挖掘:從數(shù)據(jù)的特點和功能類型方面考慮選擇相應(yīng)的算法,對上一步預(yù)處理過的數(shù)據(jù)進行數(shù)據(jù)挖掘。 (4)結(jié)果分析:對數(shù)據(jù)挖掘出來的結(jié)果進行解釋和深入的分析評價,然后轉(zhuǎn)換成能夠被用戶理解的知識。 (5)知識的運用:將分析出來的能被用戶理解的知識運用到實際問題上來,有針對性的提出建議和意見。 數(shù)據(jù)挖掘的基本算法(1) 分類算法數(shù)據(jù)分類是指把數(shù)據(jù)庫結(jié)構(gòu)中多個對象的相同屬性

25、找出來,并為每個屬性組做出比較準確的描述,在這個基礎(chǔ)上建立相應(yīng)的分類模型,并據(jù)此把它們分為不同的類別。分類技術(shù)里最典型且應(yīng)用最廣泛的是決策樹策略。決策樹是一種樹結(jié)構(gòu),它類似于流程圖,它的每個樹節(jié)點代表一個類或一種類分布。決策樹策略中最典型的算法是ID3算法有時也被稱為貪心算法。貪心算法是采用自頂向下的遞歸方式,經(jīng)過決策樹的每一個內(nèi)部節(jié)點屬性值的比較,如果得出了不同的屬性值就從該節(jié)點向下分支,直到這個類結(jié)束,所得的最后一個節(jié)點稱為葉節(jié)點。也就是說從根節(jié)點到葉節(jié)點的某一條路徑就是一條分類規(guī)則,整個決策樹就被表示成一組析取表達式規(guī)則。構(gòu)造決策樹一般分成兩個階段:生成樹和修剪樹枝。樹的生成階段也就是構(gòu)

26、造決策樹的初始階段,初始把所有數(shù)據(jù)都放在根節(jié)點,再遞歸地把數(shù)據(jù)進行劃分,直至葉節(jié)點的生成。對數(shù)進行修剪是為了防止決策樹太過龐大,不利于數(shù)據(jù)分析,修剪樹枝就是去掉那些可能是噪音或者異常的數(shù)據(jù)。剪樹枝的方法大概有以下五種:先剪枝提前停止樹的構(gòu)造,即先對樹剪枝,一旦決策樹停止構(gòu)造,末端結(jié)點就成為樹葉,它擁有子集樣本中最頻繁的類。如果這些樣本概率分布在構(gòu)造樹上時,可用信息增益等度量來評估決策樹分裂的優(yōu)良性??梢娨脒x取一個適當?shù)闹凳欠浅@щy的。后剪枝后剪枝是先讓決策樹充分地生長,然后再刪除沒多大研究價值的分支的枝葉。一個分支是否保留是通過衡量這個分支的存在對分類性能有沒有提高價值和它對整棵樹復(fù)雜程度增

27、加的多少。代價復(fù)雜性剪枝算法決策樹中的每一個非葉子結(jié)點,通過算法計算出該結(jié)點的分支子樹被剪枝后有可能發(fā)生的期望錯誤率,再根據(jù)預(yù)測的每個分支的錯誤率,計算出該結(jié)點剪枝后的期望錯誤率。如果得到的期望錯誤率較高,就保留該子樹分支,否則就剪去這個分支。對于被剪枝剪下來的樹枝,我們使用一組獨立的測試集用來評估每一棵決策樹的準確率,這樣得到的決策樹就具有最小期望錯誤率。編碼長度最小剪枝算法這一種剪樹枝的方法是根據(jù)編碼的二進位位數(shù)對決策樹進行剪枝。最佳的剪枝樹必然使得編碼所需的二進位最少,編碼的二進制位數(shù)是通過最小掃描數(shù)來確定的。組合式方法組合式方法是同時使用先剪枝和后剪枝技術(shù),后剪枝方法需要進行的計算比先

28、剪枝的多,后剪枝得到的決策樹當然比先剪枝得到的樹更可靠。當決策樹節(jié)點上每一個的數(shù)據(jù)都屬于同一個歸類或沒有其它屬性來分割數(shù)據(jù)時,決策樹就停止生長。(2)聚類算法 聚類分析算法是根據(jù)不同的屬性值把一組對象劃分成若干個有意義的子集,也就是把某些物理對象或者未分類的記錄按照它們之間的相似性歸為若干個類別。聚類劃分必須保證組內(nèi)同質(zhì)和組間異質(zhì),換句話說就是使得同一聚類中的數(shù)據(jù)盡可能地相似,不同聚類中的數(shù)據(jù)盡可能地不同。需要分析的數(shù)據(jù)如果缺乏描述信息或者沒辦法進行分類時就適合選用聚類分析方法。(3) 關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則挖掘算法是從大量有噪聲且模糊的數(shù)據(jù)中,抽取出隱含在其中但又存在潛在使用價值的關(guān)聯(lián)信息和知識

29、的過程。數(shù)據(jù)關(guān)聯(lián)指的是某一事件的發(fā)生可能導(dǎo)致其它事件發(fā)生的一種關(guān)聯(lián)規(guī)則。進行關(guān)聯(lián)分析是為了發(fā)現(xiàn)隱藏在研究數(shù)據(jù)背后的關(guān)系網(wǎng)。2.3 聯(lián)機分析處理(OLAP) OLAP的概念聯(lián)機分析處理是從信息數(shù)據(jù)的多種可能的角度進行觀察分析以得到這些角度對度量值的影響情況,我們把這些角度稱之為“維”。聯(lián)機分析處理技術(shù)支持動態(tài)多維分析,所謂動態(tài)多維分析是指跨維,在不同的層次選取成員進行計算和建模,在不同的時間段進行趨勢分析和預(yù)測分析;對數(shù)據(jù)進行切片和切塊等多個方面對數(shù)據(jù)進行深入地分析;它還可以用于查詢底層的細節(jié)數(shù)據(jù),通過旋轉(zhuǎn)對不同維進行比較。OLAP中的變量是指從現(xiàn)實系統(tǒng)中抽取出來的用來描述數(shù)據(jù)的實際含義;人們從

30、不同的角度來觀察數(shù)據(jù),這些角度就是維度;數(shù)據(jù)的某一個維度有可能存在更細節(jié)化的描述,我們把它稱作維的層次;維成員是維度中的一個取值。 OLAP的特性(1) 快速性O(shè)LAP能快速的對數(shù)據(jù)進行分析,基本上在5秒鐘之內(nèi)就能分析出用戶的需求信息。之所以反應(yīng)這么敏捷是因為數(shù)據(jù)存儲格式、高效的硬件設(shè)計等給它的快速運行提供了可能。(2) 可分析性O(shè)LAP系統(tǒng)可處理與應(yīng)用有關(guān)的邏輯分析和統(tǒng)計分析。用戶分析數(shù)據(jù)可以直接在OLAP平臺進行,也可以與其他外部分析工具連接后進行,這里的外部分析工具包括時間序列分析工具、成本分配工具、意外報警、數(shù)據(jù)開采等。(3) 多維性進行多維分析的基礎(chǔ)必須要多個維度,用戶應(yīng)在SQL S

31、erver里創(chuàng)建多維數(shù)據(jù)集和多維視圖,然后才能進行多維分析。在OLAP系統(tǒng)中,信息被描述成多維立方體 (Cube),用戶根據(jù)所得的立方體進行切片、上鉆、下鉆、旋轉(zhuǎn)等操作就能得到期望的分析結(jié)果。(4) 信息性O(shè)LAP能管理好大容量的信息,并且能夠從這些龐大的數(shù)據(jù)里迅速及時的提取出用戶需求的信息。它是一個大的數(shù)據(jù)集市,因此管理和存儲這么多的數(shù)據(jù)需要考慮數(shù)據(jù)的復(fù)制性、可利用的磁盤空間和數(shù)據(jù)倉庫的結(jié)合度等方面。(5) 可視性O(shè)LAP系統(tǒng)支持可視化的用戶界面,可以把數(shù)據(jù)以多種方式顯示出來,比如電子表格、圖表等。這樣用戶就可以直觀簡潔明了看到分析數(shù)據(jù)。 OLAP的基本活動(1) 鉆取和卷起 鉆取是指對應(yīng)于

32、某一維逐步向更細節(jié)層方向觀察數(shù)據(jù);卷起與鉆取相反。這兩個基本操作給用戶提供了足夠靈活、多角度的數(shù)據(jù)觀察。(2) 切片和切塊有時只用顯示出用戶感興趣的數(shù)據(jù),這時候就需要用到切片和切塊,幫助用戶從眾多混雜的數(shù)據(jù)中進行選擇。(3) 旋轉(zhuǎn)有時候想要改變一個報告或頁面顯示的維方向以從不同的視角來觀察數(shù)據(jù),這時候就需要用到旋轉(zhuǎn)的方法。 OLAP的實現(xiàn)方式按照數(shù)據(jù)的存儲方式,通常把OLAP分為基于多維數(shù)據(jù)庫的OLAP(MOLAP)、基于關(guān)系數(shù)據(jù)庫的OLAP(ROLAP)和混合型的OLAP(HOLAP)三類。(1) MOLAPMOLAP是基于多維數(shù)據(jù)庫的聯(lián)機分析處理,這種聯(lián)機分析處理的核心是多維數(shù)據(jù)庫技術(shù),它

33、里面的數(shù)據(jù)以多維的方式來存儲,使用多維數(shù)據(jù)庫來組織數(shù)據(jù)。MOALP工具以多維數(shù)據(jù)庫的形式將源數(shù)據(jù)、基礎(chǔ)事實數(shù)據(jù)和導(dǎo)出數(shù)據(jù)存儲在以多維數(shù)組為基本存儲結(jié)構(gòu)的多維數(shù)據(jù)庫中。多維數(shù)據(jù)庫以多維的方式存儲數(shù)據(jù)和顯示數(shù)據(jù)。多維數(shù)據(jù)在多維數(shù)據(jù)庫中是以“超立方體”的結(jié)構(gòu)顯示,再對“超立方體”進行切片、切塊、旋轉(zhuǎn)等操作產(chǎn)生多維數(shù)據(jù)報表。多維數(shù)據(jù)庫相比關(guān)系數(shù)據(jù)庫而言,多維數(shù)據(jù)庫占用的存儲空間小而且數(shù)據(jù)的綜合運算速度高。但它也存在一些不可忽視的缺點:一是多維數(shù)據(jù)庫系統(tǒng)缺乏標準;二是多維數(shù)據(jù)庫需要管理大規(guī)模數(shù)據(jù),但它這方面的能力不夠強大,因此它不適合用來處理大量的細節(jié)數(shù)據(jù)。MOLAP的優(yōu)點是能夠非??焖俚胤磻?yīng)用戶的查詢

34、需求,MOLAP獨特的多維數(shù)據(jù)庫結(jié)構(gòu)為它的敏捷性提供了基礎(chǔ)前提。(2) ROLAPROLAP是基于關(guān)系數(shù)據(jù)庫的聯(lián)機分析處理。用戶從客戶端提交分析請求給OLAP服務(wù)器,這些請求經(jīng)過OLAP服務(wù)器被轉(zhuǎn)換成SQL語句進行執(zhí)行,OLAP服務(wù)器再把執(zhí)行結(jié)果以多維視圖的形式展現(xiàn)給用戶。ROLAP將多維數(shù)據(jù)庫中的結(jié)構(gòu)設(shè)計表分為:一種是事實表,主要是用來存儲數(shù)據(jù)和外碼維關(guān)鍵字的;另一種是維表,每一個維度至少要使用一個表來存放層次、成員類別等信息。維表和事實表通過主鍵和外鍵聯(lián)系起來,形成星型結(jié)構(gòu)或雪花型結(jié)構(gòu)。ROLAP與MOLAP相比,ROLAP更加靈活,技術(shù)成熟,而且有現(xiàn)成的產(chǎn)品可以借鑒,開發(fā)過程快,風(fēng)險也小

35、。缺點在于處理用戶的分析請求時所需的時間比較長,這是由于ROLAP要進行表連接和索引,這樣就降低了系統(tǒng)的性能。(3) HOLAPHOLAP是以上兩者的有機結(jié)合,被稱為混合型的聯(lián)機分析處理。這在聯(lián)機分析技術(shù)能夠滿足用戶的各種請求,還附帶MDDB和RDBMS供開發(fā)人員使用,在運行時把數(shù)據(jù)的查詢結(jié)果存入多維數(shù)據(jù)庫中。操作型細節(jié)數(shù)據(jù)只能使用關(guān)系型數(shù)據(jù)庫進行管理,而綜合性的數(shù)據(jù)則使用多維數(shù)據(jù)庫來管理操作。HOLAP結(jié)合了MOALP和ROLAP的優(yōu)點,可以看成是對MOLAP的一種改進,但是它的結(jié)構(gòu)是相當復(fù)雜的。2.4 SQL Server 2008軟件簡介(1) SQL Server Management

36、 Studio可用來實現(xiàn)數(shù)據(jù)庫的建立并設(shè)計各種表結(jié)構(gòu),導(dǎo)入源數(shù)據(jù)。(2) SQL Server Business Intelligence Development Studio由Analysis Service(SSAS) 、Integration Service(SSIS)和報表服務(wù)器組成。其中SSAS不僅能建立數(shù)據(jù)源、數(shù)據(jù)視圖、多維數(shù)據(jù)集并對多維數(shù)據(jù)集進行分析,還能運用挖掘結(jié)構(gòu)中的挖掘技術(shù)進行數(shù)據(jù)挖掘。SQL Server 2008 Integration Service(SSIS)包括控制流、數(shù)據(jù)流、事務(wù)處理程序和包資源管理器。SSIS通過包來管理數(shù)據(jù)整合任務(wù),由控制流、數(shù)據(jù)流和事務(wù)處理

37、程序等組件來處理這些任務(wù)。 3 學(xué)生成績數(shù)據(jù)倉庫的建立3.1 學(xué)生成績數(shù)據(jù)倉庫的概念模型設(shè)計概念模型設(shè)計階段首先要界定系統(tǒng)邊界和主要的研究內(nèi)容。經(jīng)過了解現(xiàn)今許多高校在學(xué)生成績數(shù)據(jù)庫中對學(xué)生成績僅僅是存儲、查詢等簡單的操作,因此教師要想了解某一門課程的信息并不是一件簡單的事。教師希望從學(xué)生的考試成績中知道用哪種教學(xué)方法或手段會對學(xué)生的學(xué)習(xí)積極性得到提高,收到比較好的教學(xué)效果。還有學(xué)生學(xué)習(xí)這門課程會不會影響對另一門課程的學(xué)習(xí),應(yīng)該怎樣安排課程的先后順序才能讓學(xué)生學(xué)的更好。在學(xué)生成績管理中有各種類型的的數(shù)據(jù),先要對這些數(shù)據(jù)進行預(yù)處理,使它們符合教學(xué)決策所需的數(shù)據(jù)。然后把學(xué)生成績分析作為本論文研究的主

38、題創(chuàng)建學(xué)生成績數(shù)據(jù)倉庫。并從同一個班的不同門課程和同門課程在不同的專業(yè)與不同的教師教授下的效果比較進行分析研究。3.2 學(xué)生成績數(shù)據(jù)倉庫的邏輯模型設(shè)計數(shù)據(jù)倉庫的邏輯模型設(shè)計階段包括實體關(guān)系建模和維度建模。實體關(guān)系建模是用E-R 圖來表示用戶需求。E-R 圖是用來描述實體和實體之間的聯(lián)系。實體關(guān)系建模常常是用來為單位創(chuàng)建一個復(fù)雜的模型,它在創(chuàng)建高效的聯(lián)機事務(wù)處理的系統(tǒng)方面很有作用。維度建模是指建立星型模型或雪花模型。(1)星型結(jié)構(gòu)星型結(jié)構(gòu)模式由一個事實表和一組維表組成。每一個維表都有一個維度作為主碼,所有這些維度與事實表里的某一個維度相對應(yīng),成為事實表的外碼。星型模型中的事實表里的每一個屬性都是

39、維度表的外鍵。在這種模型中事實表是數(shù)據(jù)倉庫的中央表,它包含有聯(lián)系事實表與維度表的數(shù)字度量值和鍵,還包含描述業(yè)務(wù)內(nèi)部某一特定事件的數(shù)據(jù)。維表是用來描述事實表中的數(shù)據(jù),它包含創(chuàng)建維度所基于的數(shù)據(jù)。星型模型如圖 3.1 所示:事實表維度表維度表維度表維度表維度表圖3.1 星型模型(2) 雪花型結(jié)構(gòu)雪花型結(jié)構(gòu)是星型結(jié)構(gòu)的擴展,它用多個表定義一個或一組維度。在雪花型架構(gòu)中,事實表只與主維度表連接,其它維度表全都相應(yīng)的連接到主維度表上。雪花型結(jié)構(gòu)可以節(jié)省不少的存儲空間,還能把復(fù)雜維度的層次結(jié)構(gòu)變清晰。因為有些維度表不是與事實表直接相連的,有時在查詢的時候就很有可能涉及更多的連接操作。 雪花型模型如圖3.2

40、所示:事實表維度表維度表維度表維度表維度表維度表圖3.2 雪花型模型使用星型結(jié)構(gòu)和雪花型結(jié)構(gòu)建模有很多好處:這些模型能直觀的反映出用戶的需求信息,這樣就使得數(shù)據(jù)庫的設(shè)計面向主題,能滿足用戶的查詢。以圖的形式展現(xiàn)出這些信息,既直觀又形象,因此很容易被用戶理解。根據(jù)設(shè)計出來的這些模型,用戶可以明確的知道對多維數(shù)據(jù)的訪問路徑。本課題選用了雪花型結(jié)構(gòu)圖,以學(xué)生成績分析為主的數(shù)據(jù)倉庫主要包括學(xué)生信息、任課教師信息、課程信息、院系信息、專業(yè)信息和班級信息等。我所設(shè)計的學(xué)生成績數(shù)據(jù)倉庫的雪花型結(jié)構(gòu)如圖3.3所示:圖3.3 學(xué)生成績數(shù)據(jù)倉庫的雪花型模型設(shè)計3.3 學(xué)生成績數(shù)據(jù)倉庫的物理模型設(shè)計物理模型設(shè)計指的

41、是數(shù)據(jù)在數(shù)據(jù)倉庫中的存放形式和組織方式。這個部分主要是考慮構(gòu)建物理數(shù)據(jù)庫,包括存儲結(jié)構(gòu)、索引策略、存放位置和存儲分配。在本課題中我所設(shè)計的表結(jié)構(gòu)如下:表3.1 學(xué)生成績事實表(XsCj)列名數(shù)據(jù)類型列名說明xnxqhvarchar(11)學(xué)年學(xué)期號zcjmoney總成績xfmoney學(xué)分xsmoney學(xué)時kcbmvarchar(10)課程編碼xhvarchar(20)學(xué)號kcxzcodeint課程性質(zhì)編碼kcflcodevarchar(2)課程分類編碼khfscodeint考核方式編碼jsbhvarchar(10)教師編號表3.2 學(xué)生維表(Student)列名數(shù)據(jù)類型列名說明xhvarcha

42、r(20)學(xué)號xmvarchar(24)姓名xbvarchar(2)性別bjbhvarchar(10)班級編號表3.3 教師維表(JiaoShi)列名數(shù)據(jù)類型列名說明jsbhvarchar(10)教師編號jsxmvarchar(20)教師姓名jsxbvarchar(2)教師性別zccodevarchar(10)職稱編號表3.4 教師職稱維表(Tea_Zc)列名數(shù)據(jù)類型列名說明zccodevarchar(10)職稱編號zcmcvarchar(50)職稱名稱表3.5 院系維表(YuanXi)列名數(shù)據(jù)類型列名說明yxbhvarchar(10)院系編號yxmcvarchar(30)院系名稱表3.6 專

43、業(yè)維表(ZhuanYe)列名數(shù)據(jù)類型列名說明zybhvarchar(10)專業(yè)編號zymcvarchar(50)專業(yè)名稱yxbhvarchar(10)院系編號表3.7 班級維表(BanJi)列名數(shù)據(jù)類型列名說明bjbhvarchar(30)班級編號bjmcvarchar(30)班級名稱zybhvarchar(10)專業(yè)編號表3.8 課程維表(KeCheng)列名數(shù)據(jù)類型列名說明kcbmvarchar(10)課程編號kcmcvarchar(50)課程名稱表3.9 課程分類維表(KcFl)列名數(shù)據(jù)類型列名說明kcflcodevarchar(2)課程分類編號kcflmcvarchar(20)課程分類

44、名稱表3.10課程性質(zhì)維表(KcXz)列名數(shù)據(jù)類型列名說明kcxzcodeint課程性質(zhì)編號kcxzmcvarchar(20)課程性質(zhì)名稱表3.11考核方式維表(KhFs)列名數(shù)據(jù)類型列名說明khfscodeint考核方式編號khfsmcvarchar(20)考核方式名稱4 學(xué)生成績數(shù)據(jù)庫的實施4.1 建立“學(xué)生成績”數(shù)據(jù)庫新建一個數(shù)據(jù)庫,命名為“學(xué)生成績”,然后根據(jù)前面的數(shù)據(jù)結(jié)構(gòu)設(shè)計部分所設(shè)計的11個表結(jié)構(gòu)建立各表,如圖4.1所示:圖4.1 數(shù)據(jù)庫模型4.2 數(shù)據(jù)預(yù)處理 把教務(wù)處的數(shù)據(jù)抽取出來后,通過還原數(shù)據(jù)庫還原到SQL Server 2008中,從里面挑選出有關(guān)學(xué)生、教師、課程信息等關(guān)聯(lián)

45、的表(共計11個),把這些表導(dǎo)入到學(xué)生成績數(shù)據(jù)庫中。本次研究課題必須保證所有的學(xué)生有課程平均學(xué)分績,如該生辦理了退學(xué)或者休學(xué)手續(xù),則刪除該生的所有信息。如該教師沒有擔(dān)任教學(xué)任務(wù),則刪除該教師的相關(guān)信息。例如我使用了如下SQL語句來刪除無成績的學(xué)生記錄:Delete from Cj_BjxsCJB where zcj is null對數(shù)據(jù)進行篩選和連接,例如:(1)在學(xué)生成績(XsCj) 事實表里我使用如下SQL語句:Insert into XsCj Select xnxqh, zcj ,kcbm,xf,xs,kcbm,xh,kcxzcode,kcflcode,khfscode,jsbh fro

46、m Cj_XsCj where kcbm in (select kcbm from Curriculum)and xh in (select xh from Xj_YxjJbxx )(3) 在專業(yè)(ZhuanYe)維表里我使用的SQL語句如下: Insert into ZhuanYeSelect zybh,zymc,yxbh from Major(3)在學(xué)生(Student)維表里的SQL語句是:Update Student set bjbh=BanJi.bjbhfrom BanJi where zybh in ( select zybh from BanJi, Xj_YxjJbxx wher

47、e BanJi.bjmc= Xj_YxjJbxx.bjmc ) 4.3 創(chuàng)建多維數(shù)據(jù)集在SQL Server Business Intelligence Development Studio開發(fā)環(huán)境中新建一個名為“學(xué)生成績”的SSAS項目。以數(shù)據(jù)倉庫“學(xué)生成績”為數(shù)據(jù)源新建數(shù)據(jù)源學(xué)生成績.ds、數(shù)據(jù)源視圖學(xué)生成績.dsv和多維數(shù)據(jù)集學(xué)生成績.cube。4.4 進行多維分析學(xué)生成績的多維分析(1)從學(xué)期維度對不同專業(yè)的學(xué)生成績進行分析,從圖4.2可以看出漢語言文學(xué)和漢語言文學(xué)(師范類)專業(yè)在2006-2008學(xué)年各學(xué)期的成績比計算機科學(xué)與技術(shù)與建筑學(xué)專業(yè)的平均分成績都高,這或許說明漢語言文學(xué)和漢

48、語言文學(xué)(師范類)的學(xué)生學(xué)習(xí)積極性比計算機科學(xué)與技術(shù)和建筑學(xué)的學(xué)生積極性高,可以對這兩個理工類專業(yè)的學(xué)生開展一些主題班會,提高他們對學(xué)習(xí)的重視和積極性。圖4.2 從學(xué)期維度看不同專業(yè)的學(xué)生成績(2)從專業(yè)維度看不同學(xué)期的學(xué)生成績,從圖4.3可以看出漢語言文學(xué)和漢語言文學(xué)(師范類)專業(yè)的學(xué)生在前三個學(xué)期的成績都沒后兩個學(xué)期的高,這與他們剛進入大學(xué),沒有高中階段教師的嚴格要求,一時不太適應(yīng),學(xué)習(xí)自覺性不高有很大一部分關(guān)系。圖4.3從專業(yè)維度看不同學(xué)期的學(xué)生成績(3)從教師維度看學(xué)生的成績,從圖4.4可以看到職稱為“副教授”的教師所帶課程的學(xué)生成績平均分為76.6,“講師” 的為75.6,“教授”的

49、為77.9,“助教”的為77.4,這些分數(shù)都差不多,由此可見教師的職稱對學(xué)生的成績影響不大。圖4.4 從教師職稱維度看學(xué)生成績(4)從課程考核方式、課程性質(zhì)、課程分類等維度來看,從圖4.5可以看到當khfsmc=“考試”、Kcxzmc=“必修”、kcflmc=“專業(yè)課”時,學(xué)生的Pjf的平均值為71.47,當khfsmc=“考查”、Kcxzmc=“必修”、kcflmc=“通識課”時,學(xué)生的Pjf的平均值為79.05,由此可見學(xué)生在考查通識課上的考試成績最好,而專業(yè)課成績最低,學(xué)??梢赃m當增加專業(yè)課的授課課時,來提高學(xué)生的成績。圖4.5 從課程維度看學(xué)生成績(5)從不同維度進行瀏覽,從圖4.6的

50、維度圖表可以清晰的看到學(xué)生的Pjf(平均分)成績集中在72.6,學(xué)分(Xf)通常為2個學(xué)分,每門課的(Xs)學(xué)時基本上為48學(xué)時,學(xué)校的課程大多數(shù)為專業(yè)基礎(chǔ)必修課,考試和考查課占差不多的比例。這對校本課程的開設(shè)具有一定的指導(dǎo)意義。圖4.6 維度圖表4.4.2 決策樹算法在學(xué)生成績分析中的應(yīng)用新建挖掘模型,選用里面的“決策樹算法”,對學(xué)生的平均成績進行預(yù)測。研究課程分類、考核方式和教師職稱對學(xué)生成績是否有影響。為了使決策樹分支不至于過大,也為了便于分析,對多維數(shù)據(jù)集進行切片,如圖4.7所示:圖4.7 對多維數(shù)據(jù)集進行切片(1)從課程分類(Kcflmc)和考核方式(Khfsmc)的角度分析學(xué)生的平

51、均分,如圖4.8所示:圖4.8 從Kcflmc、Khfsmc角度得到的決策樹為了更精確的顯示數(shù)據(jù),從以下四個圖例中可以看到(圖4.9):當Kcflmc=通識課時,Khfsmc不等于考試的Pjf=80.060, Khfsmc=考試的Pjf=79.005,考試課與非考試課對學(xué)生成績的影響不大。當Kcflmc=專業(yè)基礎(chǔ)時,Pjf=78.605;當Kcflmc=專業(yè)課時, Pjf=77.829,專業(yè)課的成績比專業(yè)基礎(chǔ)課的稍微偏低,因此學(xué)生要加強對專業(yè)課的學(xué)習(xí)。 圖4.9從Kcflmc、Khfsmc角度得到的決策樹對應(yīng)圖例我們可以從如下圖4.10 所示的依賴網(wǎng)絡(luò)來看各種依賴關(guān)系:圖4.10 從Kcflmc、Khfsmc角度得到的決策樹依賴網(wǎng)絡(luò)(2)從教師職稱的角度來分析學(xué)生的平均分,如圖4.11所示:圖4.11 從教師職稱角度得到的決策樹為了更精確的顯示數(shù)據(jù),從以下三個圖例中可以看到(圖4.12):在2007-2008-1學(xué)期,當Zcmc=講師時Pjf=77.281, 當Zcmc=

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論