版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書畢業(yè)生就業(yè)數(shù)據(jù)分析系統(tǒng)開發(fā)摘摘要要高校畢業(yè)生的就業(yè)問題已經(jīng)成為全社會都關(guān)注的熱點(diǎn)問題。這些年來高校招生規(guī)模逐年擴(kuò)大,不斷增加的畢業(yè)生數(shù)目給高校的就業(yè)管理工作造成了很大的壓力。在這種形勢下,如果仍然采用傳統(tǒng)的畢業(yè)生管理辦法,不僅僅工作效率低下,而且工作質(zhì)量不高,很容易發(fā)生錯誤。 目前對高校畢業(yè)生的就業(yè)狀況分析是較為簡單的,大多僅僅按學(xué)校的就業(yè)率和專業(yè)就業(yè)率來進(jìn)行評價,顯得片面缺乏科學(xué)性。根據(jù)這一情況,借助計(jì)算機(jī)對畢業(yè)生就業(yè)信息進(jìn)行挖掘,對如今的教學(xué)質(zhì)量和學(xué)生工作質(zhì)量進(jìn)行科學(xué)的綜合分析,尋找影響畢業(yè)生就業(yè)困難的原因,以便對我們今后的教學(xué)和學(xué)生工作提出指導(dǎo)性的建議。本
2、課題針對學(xué)生的性別、素質(zhì)培養(yǎng)、綜合成績、社會實(shí)踐等方面在學(xué)生就業(yè)所反應(yīng)的情況建立一個數(shù)據(jù)挖掘分析模型,由此得到對教學(xué)質(zhì)量和學(xué)生工作質(zhì)量評價的科學(xué)的新方法。針對畢業(yè)生就業(yè)情況建立數(shù)據(jù)挖掘分析模型是數(shù)據(jù)挖掘分析方法的一個新嘗試,這將進(jìn)一步促進(jìn)數(shù)據(jù)挖掘理論的發(fā)展,并且拓寬了數(shù)據(jù)挖掘分析方法的應(yīng)用領(lǐng)域,同時對教學(xué)質(zhì)量分析和學(xué)生工作質(zhì)量分析提供科學(xué)評價的新方法。關(guān)關(guān)鍵鍵字字: 數(shù)據(jù)挖掘;貝葉斯定理;數(shù)據(jù)庫AbstractDevelopment Of Analysis System for Graduate Employment DataAbstractThe employment of universi
3、ty graduates has already became the hot topic which draws much attention around the entire society. As the university recruitment of students scale is expanding year by year gradually, the increasing number of graduate students has created huge pressure for universitys supervisory work. Under this s
4、ituation, if we still use the traditional policing method of the graduate, both the working efficiency and the work quality will not be satisfying and it will be very easy to make mistake. Currently, the analysis to university graduates work status is quite simple. Most of the evaluation is based on
5、 the school employment rate and the specialized employment rate, which is considered to be improper. According to this situation, we find the information of the graduate with the aid of the computer and carry on the scientific and comprehensive analysis of the quality of teaching and the students wo
6、rk. We focus on seeking to the causes of difficulty in employment in order to propose some suggestions to guide the next teaching and the work of student.The topic is to establish a data mining anatomic model in terms of sex, quality training, integrated results, social practice and so on to obtain
7、a new scientific method to evaluate the quality of teaching and the student work quality. This data analysis method is a new attempt, this will promote the further development of data mining theory, and it has expanded the application domain of data mining analysis method. Simultaneously, it provide
8、s a new scientific method to evaluate the quality of teaching and the student work quality .Key words :Data mining Baye theorem Database計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書I目目 錄錄第第 1 1 章章 選選題題背背景景概概述述.11.1 課題背景.11.2 課題的目的和意義.11.3 國內(nèi)外發(fā)展概況.11.3.1 國外研究和發(fā)展現(xiàn)狀.21.3.2 國內(nèi)研究和發(fā)展現(xiàn)狀.21.4 指導(dǎo)思想.21.5 數(shù)據(jù)挖掘技術(shù).21.5.1 數(shù)據(jù)挖掘技術(shù)的產(chǎn)生背景.21.5.2
9、數(shù)據(jù)挖掘技術(shù)的定義及含義.31.6 貝葉斯分類算法.31.6.1 貝葉斯算法的介紹.31.6.2 貝葉斯定理.31.6.3 樸素貝葉斯分類的原理與流程.41.6.4 估計(jì)類別下特征屬性劃分的條件概率及 Laplace 校準(zhǔn).61.6.5 貝葉斯定理應(yīng)用.61.7 小結(jié).7第第 2 2 章章 方方案案論論證證.82.1 設(shè)計(jì)原理、方案選擇.82.2 開發(fā)工具和開發(fā)環(huán)境介紹.92.2.1 開發(fā)工具 MyEclipse .2 MySQL 數(shù)據(jù)庫.92.2.3 Tomcat 服務(wù)器.10計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書II2.2.4 Tomcat 在 MyEclipse 的配置和使用.
10、102.3 小結(jié).13第第 3 3 章章 系系統(tǒng)統(tǒng)分分析析與與設(shè)設(shè)計(jì)計(jì).143.1 需求分析.143.1.1 系統(tǒng)功能需求.143.1.2 系統(tǒng)可行性分析.143.2 總體設(shè)計(jì).153.2.1 畢業(yè)生就業(yè)信息表.153.2.2 模塊劃分.163.2.3 系統(tǒng)數(shù)據(jù)流圖.173.2.4 系統(tǒng)總功能圖.173.3 數(shù)據(jù)庫設(shè)計(jì).183.3.1 概念模型.183.3.2 邏輯模型.183.3.3 物理模型.193.4 分模塊設(shè)計(jì).213.4.1 畢業(yè)生數(shù)據(jù)錄入、修改的模塊設(shè)計(jì).213.4.2 數(shù)據(jù)建模的模塊設(shè)計(jì).223.3.3 預(yù)測畢業(yè)生就業(yè)情況.223.4.4 分析統(tǒng)計(jì)圖.223.5 小結(jié).23第第
11、4 4 章章 系系統(tǒng)統(tǒng)測測試試與與運(yùn)運(yùn)行行.244.1 畢業(yè)生就業(yè)數(shù)據(jù)分析系統(tǒng).244.1.1 數(shù)據(jù)庫的連接和訪問操作正常.24計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書III4.1.2 整個界面菜單正常.254.2 模塊設(shè)計(jì).254.2.1 數(shù)據(jù)錄入、修改模塊.254.2.2 MyEclipse 的運(yùn)行正常.254.2.3 數(shù)據(jù)分析圖輸出正常.26第第 5 5 章章 結(jié)結(jié)束束語語與與展展望望.285.1 結(jié)束語.285.2 展望.28致致 謝謝.30參考文獻(xiàn)參考文獻(xiàn).31計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書IV引引言言近年來隨著人工智能技術(shù)和數(shù)據(jù)庫技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)出現(xiàn)。數(shù)據(jù)挖掘是一個從模糊的、有噪
12、聲的、不完全的、大量的、隨機(jī)的 ,從大量人們事先所不知道的、但又是潛在有用的信息和知識的一個過程。需要我們不斷挖掘。本論文講述的是運(yùn)用數(shù)據(jù)挖掘技術(shù)中的貝葉斯分類算法對應(yīng)屆畢業(yè)生在畢業(yè)后的就業(yè)情況進(jìn)行預(yù)測。 畢業(yè)生就業(yè)數(shù)據(jù)分析系統(tǒng)開發(fā) 是按照數(shù)據(jù)挖掘方法及軟件工程設(shè)計(jì)步驟,詳細(xì)地說明了整個開發(fā)過程以及 每一個技術(shù)細(xì)節(jié)。同時,還闡述了課題的來源、需求分析、設(shè)計(jì)、實(shí)現(xiàn)和實(shí)驗(yàn)結(jié)果等情況。計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書1第第 1 章章 選選題題背背景景概概述述1.11.1 課題背景課題背景隨著數(shù)據(jù)庫技術(shù)的不斷發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的推廣應(yīng)用,人們積累的數(shù)據(jù)越來越多。而九十年代后因特網(wǎng)的出現(xiàn),更是打破了
13、各種限制,人們甚至能夠跨越時空交換數(shù)據(jù)信息。因此,展現(xiàn)在人們面前的數(shù)據(jù)不僅僅局限于某個部門、某個單位和某個行業(yè)等,而是浩瀚無限的信息海洋。大量增加的數(shù)據(jù)背后隱藏著很多的重要信息,人們希望能夠進(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。雖然目前的數(shù)據(jù)庫系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但是無法自動、智能地將等待處理的數(shù)據(jù)背后隱藏的重要信息和知識挖掘出來加以利用,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢,并達(dá)到?jīng)Q策服務(wù)的目的,因此導(dǎo)致“數(shù)據(jù)海量爆炸但是知識貧乏 ”的現(xiàn)象。因此,我們必須找到有關(guān)方法,自動地分析數(shù)據(jù)、自動地對數(shù)據(jù)匯總、自動發(fā)現(xiàn)和描述數(shù)據(jù)中的趨勢、自動地對數(shù)據(jù)進(jìn)行分類、自動地
14、標(biāo)記異常。1.21.2 課題的目的和意義課題的目的和意義隨著我國高等教育的普及,全國大部分高校都根據(jù)自身情況進(jìn)行了擴(kuò)招,于是造成如今高校畢業(yè)生的就業(yè)形勢逐漸嚴(yán)峻的狀態(tài)。很多大學(xué)生都愁于找不到工作。當(dāng)前對于高校畢業(yè)生的就業(yè)狀況的分析相對簡單,大多僅僅按學(xué)校的就業(yè)率和專業(yè)就業(yè)率進(jìn)行評價,顯得片面、缺乏科學(xué)性。在現(xiàn)實(shí)實(shí)際中,所謂名校,熱門專業(yè)等等,并不能保證畢業(yè)生絕對能就業(yè)。從微觀上看,學(xué)生自身的素質(zhì)和某些硬性條件是影響就業(yè)的關(guān)鍵。根據(jù)這一情況,借助計(jì)算機(jī)對畢業(yè)生的就業(yè)信息進(jìn)行挖掘,可以對目前的教學(xué)質(zhì)量進(jìn)行科學(xué)的綜合分析,尋找影響畢業(yè)生就業(yè)的因素,以便對我們今后的教學(xué)和學(xué)生工作提出指導(dǎo)性建議。本課題
15、正是在這一背景下提出,利用數(shù)據(jù)挖掘任務(wù)之一的分類,對過往的畢業(yè)生就業(yè)信息建立預(yù)測模型,同時應(yīng)用該模型對即將的畢業(yè)生的就業(yè)狀況進(jìn)行預(yù)測,以便為學(xué)校招生就業(yè)部門的工作提供參考與建議。畢業(yè)生就業(yè)數(shù)據(jù)分析系統(tǒng)開發(fā) 就是為了解決這個就業(yè)預(yù)測問題而開發(fā)的,它采用數(shù)據(jù)挖掘方法,通過統(tǒng)計(jì)分析,應(yīng)用貝葉斯定理對未來即將就業(yè)的畢業(yè)生的就業(yè)趨勢進(jìn)行了預(yù)測??梢灶A(yù)測到他們的就業(yè)情況和就業(yè)的概率。該系統(tǒng)要求用戶錄入畢業(yè)生的各項(xiàng)相關(guān)數(shù)據(jù),同時在錄入后可以對錄入的數(shù)據(jù)進(jìn)行抽樣分析,得到相應(yīng)的計(jì)算模型,并測試該模型的可靠性及精確度,根據(jù)該計(jì)算模型對畢業(yè)生就業(yè)情況進(jìn)行預(yù)測,得出就業(yè)統(tǒng)計(jì)分析圖和就業(yè)概率統(tǒng)計(jì)圖。1.31.3 國內(nèi)
16、外發(fā)展概況國內(nèi)外發(fā)展概況計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書.1 國外研究和發(fā)展現(xiàn)狀國外研究和發(fā)展現(xiàn)狀與數(shù)據(jù)挖掘(Data Mining)極為相似的術(shù)語一一從數(shù)據(jù)庫中發(fā)現(xiàn)知識 (KDD)一詞,首次出現(xiàn)在 1989 年 8 月在美國底特律召開的第 1l 屆國際人工智能聯(lián)合會議的專題討論會上。1993 年以后,美國計(jì)算機(jī)協(xié)會 (ACM)每年都舉行了專門的會議研究探討數(shù)據(jù)挖掘技術(shù)。會議名稱為 ACM SIGKDD Intemational Conference on Knowledge Discovery and Data Mining,簡稱 KDD 會議。KDD 會議的規(guī)模由原來的專
17、題討論會發(fā)展到國際學(xué)術(shù)大會。研究重點(diǎn)也逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用。并且注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及多種學(xué)科之問的相互滲透。國外的研究重點(diǎn)從發(fā)現(xiàn)方法逐漸向系統(tǒng)應(yīng)用直到專享大規(guī)模的綜合系統(tǒng)開發(fā),并且注重多種發(fā)現(xiàn)策略和技術(shù)的集成。.2 國內(nèi)研究和發(fā)展現(xiàn)狀國內(nèi)研究和發(fā)展現(xiàn)狀與國外相比國內(nèi)對 DMKD 的研究稍晚,沒有形成整體力量。 1993 年國家自然科學(xué)基金首次支持中科院合肥分院對該領(lǐng)域的研究項(xiàng)目。目前從事數(shù)據(jù)挖掘研究的人員主要在大學(xué),也有部分在研究所或公司。研究領(lǐng)域一般集中于學(xué)習(xí)算法的研究、數(shù)據(jù)挖掘的實(shí)際應(yīng)用以及有關(guān)數(shù)據(jù)挖掘理論方面的研究。國內(nèi)的許多科研單位和高等院校也競相開
18、展知識發(fā)現(xiàn)的基礎(chǔ)理論及其應(yīng)用研究。1.41.4 指導(dǎo)思想指導(dǎo)思想本設(shè)計(jì)主要采用數(shù)據(jù)挖掘技術(shù) 對畢業(yè)生就業(yè)情況進(jìn)行預(yù)測。整個設(shè)計(jì)關(guān)鍵在于貝葉斯定理的分類算法實(shí)現(xiàn)。 該設(shè)計(jì)方案主要采用數(shù)據(jù)挖掘技術(shù),通過對往屆畢業(yè)生就業(yè)數(shù)據(jù)的導(dǎo)入,對其進(jìn)行統(tǒng)計(jì)分析,應(yīng)用貝葉斯定理建立預(yù)測模型,并應(yīng)用該模型對未來即將就業(yè)的畢業(yè)生的就業(yè)趨勢進(jìn)行預(yù)測??梢灶A(yù)測到他們的就業(yè)情況和就業(yè)的概率。1.51.5 數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù).1 數(shù)據(jù)挖掘技術(shù)的產(chǎn)生背景數(shù)據(jù)挖掘技術(shù)的產(chǎn)生背景 隨著信息技術(shù)的高速發(fā)展,人們積累的數(shù)據(jù)量急劇增長,如何從海量的數(shù)據(jù)中提取有用的知識成為當(dāng)務(wù)之急 。數(shù)據(jù)挖掘就是為順應(yīng)這種需要應(yīng)運(yùn)而
19、生發(fā)展起來的數(shù)據(jù)處理技術(shù)。其主要任務(wù)是關(guān)聯(lián)分析、 分類、預(yù)測時序模式和偏差分析等。是知識發(fā)現(xiàn)(knowledge discovery in database)的關(guān)鍵步驟。數(shù)據(jù)挖掘技術(shù)是人們長期對數(shù)據(jù)庫技術(shù)進(jìn)行研究和開發(fā)的結(jié)果。起初 各種商業(yè)數(shù)據(jù)是存儲在計(jì)算機(jī)的數(shù)據(jù)庫中的,然后發(fā)展到 可以對數(shù)據(jù)庫進(jìn)行查詢和訪問,進(jìn)而發(fā)展到對數(shù)據(jù)庫的即時遍歷。數(shù)據(jù)挖掘使數(shù)據(jù)庫技術(shù)進(jìn)入了一個更高級的階段,它不僅能對過去的數(shù)據(jù)進(jìn)行查詢和遍歷,并且能夠找出過去數(shù)據(jù)之間的潛在聯(lián)系,從而促進(jìn)信息的傳遞。計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書.2 數(shù)據(jù)挖掘技術(shù)的定義及含義數(shù)據(jù)挖掘技術(shù)的定義及含義數(shù)據(jù)挖掘(Data
20、 Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。從廣義上講,數(shù)據(jù)、信息也是知識的表現(xiàn)形式,但是人們更把概念、規(guī)則、模式、規(guī)律和約束等看作知識。人們把數(shù)據(jù)看作是形成知識的源泉 ,不斷地挖掘。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù);也可以是半結(jié)構(gòu)化的,如文本、圖形 和圖像數(shù)據(jù);甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)的知識可以被用于信息管理,查詢優(yōu)化,決策支持和過程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。因此,數(shù)據(jù)挖掘是一門交
21、叉學(xué)科,它把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,提供決策支持。在這種需求牽引下,匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫技術(shù)、人工智能技術(shù)、數(shù)理統(tǒng)計(jì)、可視化技術(shù)、并行計(jì)算等方面的學(xué)者和 工程技術(shù)人員,投身到數(shù)據(jù)挖掘這一新興的研究領(lǐng)域,形成新的技術(shù)熱點(diǎn)。數(shù)據(jù)挖掘也是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。簡而言之,數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法。商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)不再是為了分析的目的而收集的,而是由于純機(jī)會的(Opportunistic)商業(yè)運(yùn)作而產(chǎn)生
22、。分析這些數(shù)據(jù)也不再是單純?yōu)榱搜芯康男枰饕菫樯虡I(yè)決策提供真正有價值的信息,進(jìn)而獲得利潤。但所有企業(yè)面臨的一個共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價值的信息卻很少,因此從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運(yùn)作、提高競爭力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也因此而得名。1.61.6 貝葉斯分類算法貝葉斯分類算法.1 貝葉斯算法的介紹貝葉斯算法的介紹貝葉斯分類算法是統(tǒng)計(jì)學(xué)的一種分類方法,它是一類利用概率統(tǒng)計(jì)知識進(jìn)行分類的算法。在許多場合,樸素貝葉斯 (Naive Bayes,NB)分類算法可以與決策樹和神經(jīng)網(wǎng)絡(luò)分類算法相媲美,該算法能運(yùn)用到大型數(shù)據(jù)庫中,而且方
23、法簡單、分類準(zhǔn)確率高、速度快。由于貝葉斯定理假設(shè)一個屬性值對給定類的影響?yīng)毩⒂谄渌鼘傩缘闹?,而此假設(shè)在實(shí)際情況中經(jīng)常是不成立的,因此其分類準(zhǔn)確率可能會下降。為此,就衍生出許多降低獨(dú)立性假設(shè)的貝葉斯分類算法,如 TAN(tree augmented Bayes network)算法。.2 貝葉斯定理貝葉斯定理計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書4貝葉斯定理(Bayes theorem)是概率論中的一個結(jié)論,它跟隨機(jī)變量的條件概率以及邊緣概率分布有關(guān)。在有些關(guān)于概率的解說中,貝葉斯定理能夠告知我們?nèi)绾卫眯伦C據(jù)修改已有的看法。通常,事件 A 在事件 B(發(fā)生)的條件下的概率,與事件 B
24、 在事件 A 的條件下的概率是不一樣的;然而,這兩者是有確定的關(guān)系,貝葉斯定理就是這種關(guān)系的陳述。貝葉斯公式的用途在于通過己知三個概率函數(shù)推出第四個。它的內(nèi)容是 :在 B 出現(xiàn)的前提下,A 出現(xiàn)的概率等于 A 出現(xiàn)的前提下 B 出現(xiàn)的概率乘以 A 出現(xiàn)的概率再除以 B 出現(xiàn)的概率。通過聯(lián)系 A 與 B,計(jì)算從一個事件產(chǎn)生另一事件的概率 ,即從結(jié)果上溯原。作為一個普遍的原理,貝葉斯定理對于所有概率的解釋是有效的;然而,頻率主義者和貝葉斯主義者對于在應(yīng)用中,某個隨機(jī)事件的概率該如何被賦值,有著不同的看法: 頻率主義者根據(jù)隨機(jī)事件發(fā)生的頻率,或者總體樣本里面的發(fā)生的個數(shù)來賦值概率;貝葉斯主義者則根據(jù)
25、未知的命題來賦值概率。這樣的理念導(dǎo)致貝葉斯主義者有更多的機(jī)會使用貝葉斯定理。貝葉斯定理是關(guān)于隨機(jī)事件 A 和 B 的條件概率(或邊緣概率)的一則定理。(1.1)其中 P(A|B)是在 B 發(fā)生的情況下 A 發(fā)生的可能性。在貝葉斯定理中,每個名詞都有約定俗成的名稱:(1)P(A)是A的先驗(yàn)概率或邊緣概率。之所以稱為先驗(yàn)是因?yàn)樗豢紤]任何B方面的因素。(2)P(A|B)是已知B發(fā)生后A的條件概率,也由于得自B的取值而被稱作A的后驗(yàn)概率。(3)P(B|A)是已知A發(fā)生后B的條件概率,也由于得自A的取值而被稱作B的后驗(yàn)概率。(4)P(B)是B的先驗(yàn)概率或邊緣概率,也作標(biāo)準(zhǔn)化常量(normalizing
26、 constant)。按這些術(shù)語,Bayes 定理可表述為:后驗(yàn)概率 = (相似度*先驗(yàn)概率)/標(biāo)準(zhǔn)化常量。也就是說,后驗(yàn)概率與先驗(yàn)概率和相似度的乘積成正比。另外,比例 P(B|A)/P(B)也有時被稱作標(biāo)準(zhǔn)相似度( standardised likelihood) ,Bayes 定理可表述為:后驗(yàn)概率 = 標(biāo)準(zhǔn)相似度*先驗(yàn)概率。.3 樸素貝葉斯分類的原理與流程樸素貝葉斯分類的原理與流程)()()|()|(BPAPABPBAP計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書5 樸素貝葉斯分類法是一種十分簡單的分類算法,樸素貝葉斯分類 名字緣由是因?yàn)檫@種方法的思想很樸素,樸素貝葉斯的思想基礎(chǔ)是這
27、樣的:對于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個 概率最大,就認(rèn)為此待分類項(xiàng)屬于哪個類別。通俗說,就好比這么個道理,你在街上看到一個黑人, 我們不能確切說他是從哪里來的,但是你十有八九猜是非洲人。主要原因是黑人中非洲人的比率最高,不能否定黑人也可能是美洲人或其他,但是在沒有其它可用信息下,我們 一定是會選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎(chǔ)。樸素貝葉斯分類法的正式定義如下: 1、設(shè) 為一個待分類項(xiàng),而每個 a 為 x 的一個特征屬性。maaax,.,212、有類別集合。 nyyyC,.,213、計(jì)算。 xyPxyPxyPn|,.,|,|214、如果,則。 x
28、yPxyPxyPxyPnk|,.,|,|max|21kyx現(xiàn)在的關(guān)鍵是計(jì)算第 3 步中各個條件概率,就能得出第 4 步的最大值。接下來我們可以這么做:1、先要找到一個已知分類的待分類項(xiàng)集合,這個集合 稱為訓(xùn)練樣本集。2、然后統(tǒng)計(jì)得到在各類別下各個特征屬性的條件概率估計(jì)。即)|(),|();.;|(),.,|(),|();|(),.,|(),|(212222111211nnmmyaPyaPyaPyaPyaPyaPyaPyaP。3、如果各個特征屬性是條件獨(dú)立的,則根據(jù)貝葉斯定理有如下推導(dǎo): (1.2) xPyPyxPxyPiii|因?yàn)榉帜笇τ谒蓄悇e為常數(shù), 即我們只要將分子最大化。又因各特征屬性
29、 為條件獨(dú)立的,所以有:mjijiiimiiiiyaPyPyPyaPyaPyaPyPyxP121)|()()()|().|()|()()|(1.3)根據(jù)上述分析,樸素貝葉斯分類的流程可以由下圖 1-1 表示:確定屬性特征獲取訓(xùn)練樣本對每個類別計(jì)算p(yi)對每個特征屬性計(jì)算所有劃分的條件概率對每個類別計(jì)算P(x|yi)p(yi)以P(x|yi)p(yi)最大項(xiàng)作為x所屬類別計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書6圖 1-1 樸素貝葉斯分類流程圖可以看到,整個樸素貝葉斯分類分為三個階段:第一階段準(zhǔn)備工作階段,這個階段的任務(wù)是為樸素貝葉斯分類做必要的準(zhǔn)備,主要工作是根據(jù)具體情況確定特征屬性,并對每個特征
30、屬性進(jìn)行適當(dāng)劃分,然后由人工對一部分待分類項(xiàng)進(jìn)行分類,形成訓(xùn)練樣本集合。這一階段的輸入是所有待分類數(shù)據(jù),輸出是特征屬性和訓(xùn)練樣本。這一階段是整個樸素貝葉斯分類中唯一需要人工完成的階段,其質(zhì)量對整個過程將有重要影響,分類器的質(zhì)量很大程度上由特征屬性、特征屬性劃分及訓(xùn)練樣本質(zhì)量決定。第二階段分類器訓(xùn)練階段,這個階段的任務(wù)就是生成分類器,主要工作是計(jì)算每個類別在訓(xùn)練樣本中的出現(xiàn)頻率及每個特征屬性劃分對每個類別的 條件概率,并將結(jié)果記錄。其輸入是特征屬性和訓(xùn)練樣本,輸出是分類器。這一階段是機(jī)械性階段,根據(jù)前面討論的公式可以由程序自動計(jì)算完成。第三階段應(yīng)用階段。這個階段的任務(wù)是使用分類器對待分類項(xiàng)進(jìn)行分
31、類,其輸入是分類器和待分類項(xiàng),輸出是待分類項(xiàng)與類別的映射關(guān)系。這一階段也是機(jī)械性階段,由程序完成。.4 估計(jì)類別下特征屬性劃分的條件概率及估計(jì)類別下特征屬性劃分的條件概率及 LaplaceLaplace 校準(zhǔn)校準(zhǔn)我們可以看出計(jì)算各個劃分的條件概率 P(a|y)是樸素貝葉斯分類的關(guān)鍵性步驟,當(dāng)特征屬性為離散值時,只要很方便的統(tǒng)計(jì)訓(xùn)練樣本中各個劃分在每個類別中出現(xiàn)的頻率即可用來估計(jì) P(a|y),下面重點(diǎn)討論特征屬性是連續(xù)值的情況。當(dāng)特征屬性為連續(xù)值時,通常假定其值服從高斯分布(也稱正態(tài)分布)。即:(1.4)22221,eg而 。iiyykikagyaP,|因此只要計(jì)算出訓(xùn)練樣本中
32、各個類別中此特征項(xiàng)劃分的各均值和標(biāo)準(zhǔn)差,代入上述公式即可得到需要的估計(jì)值。另外出現(xiàn) P(a|y)=0 時應(yīng)該怎么處理。當(dāng)某個類別下某個特征項(xiàng)劃分沒有出現(xiàn)時,就會產(chǎn)生這種現(xiàn)象,這種現(xiàn)象會令分類器質(zhì)量大大降低。為解決這個問題,我們引入Laplace 校準(zhǔn),其思想很簡單,就是對沒類別下所有劃分的計(jì)數(shù)加 1,這樣如果訓(xùn)練樣本集數(shù)量充分大時,并不會對結(jié)果產(chǎn)生影響,并且解決了上述頻率為 0 的尷尬局面,問題得到解決。.5 貝葉斯定理應(yīng)用貝葉斯定理應(yīng)用貝葉斯定理用于投資決策分析是在已知相關(guān)項(xiàng)目 B 的資料,而缺乏論證項(xiàng)目 A 的直接資料時,通過對 B 項(xiàng)目的有關(guān)狀態(tài)及發(fā)生概率分析推導(dǎo) A 項(xiàng)
33、目的狀態(tài)及發(fā)生概率。計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書7如果我們用數(shù)學(xué)語言描繪,即當(dāng)已知事件 Bi 的概率 P(Bi)和事件 Bi 已發(fā)生條件下事件 A 的概率 P(ABi),則可運(yùn)用貝葉斯定理計(jì)算出在事件 A 發(fā)生條件下事件 Bi的概率 P(BiA)。按貝葉斯定理進(jìn)行投資決策的基本步驟是:(1) 列出在已知項(xiàng)目 B 條件下項(xiàng)目 A 的發(fā)生概率,即將 P(AB)轉(zhuǎn)換為 P(BA);(2) 繪制樹型圖;(3)求各狀態(tài)結(jié)點(diǎn)的期望收益值,并將結(jié)果填入樹型圖;(4) 根據(jù)對樹型圖的分析,進(jìn)行投資項(xiàng)目決策;搜索巨人 Google 和 Autonomy,一家出售信息恢復(fù)工具的公司,都使用了貝葉斯定理(Bay
34、esian principles)為數(shù)據(jù)搜索提供近似的(但是技術(shù)上不確切)結(jié)果。研究人員還使用貝葉斯模型來判斷癥狀和疾病之間的相互關(guān)系,創(chuàng)建個人機(jī)器人,開發(fā)能夠根據(jù)數(shù)據(jù)和經(jīng)驗(yàn)來決定行動的人工智能設(shè)備。1.71.7 小結(jié)小結(jié)本章介紹了本課題選題的的背景、目的和意義。闡述了數(shù)據(jù)挖掘技術(shù)的概念和含義。本章主要?dú)w納了數(shù)據(jù)挖掘技術(shù)中的貝葉斯分類法,詳細(xì)描述了樸素貝葉斯分類的原理與流程以及它的應(yīng)用。計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書8第第 2 章章 方方案案論論證證2.12.1 設(shè)計(jì)原理、方案選擇設(shè)計(jì)原理、方案選擇 隨著社會發(fā)展,科學(xué)進(jìn)步,計(jì)算機(jī)技術(shù)日益提高,以及計(jì)算機(jī)用戶的操作水平的不斷提高,用戶對計(jì)算機(jī)
35、應(yīng)用系統(tǒng)的要求也越來越高。如何保證設(shè)計(jì)開發(fā)出來的應(yīng)用系統(tǒng)能夠適應(yīng)用戶的更高要求,是每個程序開發(fā)人員必須先要考慮的問題 。同時,在設(shè)計(jì)過程中也應(yīng)充分考慮系統(tǒng)的靈活性和可擴(kuò)充性,使得系統(tǒng)在操作起來 更容易上手,并且有很好的界面,這些都是開發(fā)人員應(yīng)該要考慮的問題??偟膩碚f,一個好的系統(tǒng)性能應(yīng)該達(dá)到以下幾個標(biāo)準(zhǔn):(1)先進(jìn)性:系統(tǒng)先進(jìn),可靠,設(shè)計(jì)合理;(2)實(shí)用性:操作簡單,功能齊全,各個模塊之間有較好的連接接口;(3)可擴(kuò)充性:易于維護(hù),能夠適應(yīng)新的操作環(huán)境;(4)穩(wěn)定性:成熟,穩(wěn)定,安全性,兼容性好。對于我所設(shè)計(jì)的畢業(yè)生就業(yè)信息管理系統(tǒng):首先應(yīng)該通過錄入往屆畢業(yè)生的各種信息以及他們在畢業(yè)后的就業(yè)情
36、況, 建立數(shù)據(jù)庫,利用所建立的數(shù)據(jù)庫,從中隨機(jī)抽取一部分 的數(shù)據(jù)。接著根據(jù)數(shù)據(jù)的分類分為兩步,第一步:建立一個模型, 用來描述預(yù)定的數(shù)據(jù)類集。通過分析由屬性描述的數(shù)據(jù)庫元組(記錄)來構(gòu)造模型。假定每個元組屬于一個預(yù)定義的類,由一個稱作類標(biāo)號屬性的屬性確定。對于分類,數(shù)據(jù)元組也稱作樣本,為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練數(shù)據(jù)集。第二步:使用模型進(jìn)行分類。首先評估模型(分類法)的預(yù)測準(zhǔn)確率,如果認(rèn)為模型的準(zhǔn)確率可以接受,就可以用它對類標(biāo)號未知的數(shù)據(jù)元組進(jìn)行分類。用貝葉斯分類算法分析數(shù)據(jù)并按要求對其進(jìn)行分類,該分類法的準(zhǔn)確性可用保持方法進(jìn)行評估:將給定的數(shù)據(jù)隨機(jī)的劃分成兩個獨(dú)立的集合:訓(xùn)練集(取隨
37、機(jī)抽樣集的 2/3)和測試集(取隨機(jī)抽樣集的 1/3) 。如圖 2-1 所示。圖 2-1 系統(tǒng)方案圖用戶上屆畢業(yè)生信息隨機(jī)抽樣數(shù)據(jù)訓(xùn)練集測試集導(dǎo)出分類法評估精度計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書9先建立一個數(shù)據(jù)模型,并測試該模型的可靠性。然后根據(jù)這個模型,對畢業(yè)生就業(yè)情況進(jìn)行數(shù)據(jù)預(yù)測,根據(jù)這些有用的信息,用戶就可以對即將畢業(yè)的畢業(yè)生的就業(yè)情況有一個預(yù)測。從而可知畢業(yè)生的就業(yè)趨勢以及畢業(yè)后的就業(yè)率是怎么樣的。這對于學(xué)校和畢業(yè)生個人來講說都是一個很有價值的信息 ,同時也給學(xué)校招生就業(yè)部門的工作提供參考與建議。對于學(xué)校來說,他們可以根據(jù)今年畢業(yè)生就業(yè)情況的預(yù)測,來考慮明年的招生問題,是否可增大招生的名
38、額 ,來滿足社會的各種就業(yè)需求。 當(dāng)然也可以根據(jù)這個來對學(xué)生的素質(zhì)教育進(jìn)行調(diào)整,使學(xué)生能夠更好地為自己的就業(yè)創(chuàng)造更有利條件,對整個社會來說也是有益的 。目前對高校畢業(yè)生的就業(yè)狀況分析是較為簡單的,大多僅僅按學(xué)校的就業(yè)率和專業(yè)就業(yè)率來進(jìn)行評價,顯得片面缺乏科學(xué)性。我們根據(jù)這一情況,借助計(jì)算機(jī)對畢業(yè)生就業(yè)信息進(jìn)行挖掘,對如今的教學(xué)質(zhì)量和學(xué)生工作質(zhì)量進(jìn)行科學(xué)的綜合分析,尋找影響畢業(yè)生就業(yè)困難的原因,以便對我們今后的教學(xué)和學(xué)生工作提出指導(dǎo)性的建議。本課題思路清晰,目的明顯,并且在設(shè)計(jì)、編程、使用還是維護(hù)上都非常合理。所以在此選擇此方案來實(shí)現(xiàn)軟件的設(shè)計(jì)。2.22.2 開發(fā)工具和開發(fā)環(huán)境介紹開發(fā)工具和開發(fā)
39、環(huán)境介紹.1 開發(fā)工具開發(fā)工具 MyEclipseMyEclipse 8.58.5MyEclipse 企業(yè)級工作平臺(MyEclipse Enterprise Workbench ,簡稱MyEclipse)是對 EclipseIDE 的擴(kuò)展,利用它我們可以在數(shù)據(jù)庫和 JavaEE 的開發(fā)、發(fā)布以及應(yīng)用程序服務(wù)器的整合方面極大的提高工作效率。它是功能豐富的 JavaEE集成開發(fā)環(huán)境,包括了完備的編碼、調(diào)試、測試和發(fā)布功能,完整 支持 HTML, Struts, JSP, CSS , Javascript, Spring, SQL, Hibernate。MyEclipse 是一個十
40、分優(yōu)秀的用于開發(fā) Java, J2EE 的 Eclipse 插件集合,MyEclipse 的功能非常強(qiáng)大,支持也十分廣泛,尤其是對各種開源產(chǎn)品的支持十分不錯。MyEclipse 目前支持 Java Servlet, AJAX, JSP, JSF, Struts, Spring, Hibernate, EJB3, JDBC 數(shù)據(jù)庫鏈接工具等多項(xiàng)功能??梢哉f MyEclipse 是幾乎囊括了目前所有主流開源產(chǎn)品的專屬 eclipse 開發(fā)工具。.2 MySQLMySQL 數(shù)據(jù)庫數(shù)據(jù)庫MySQL 是一個關(guān)系型數(shù)據(jù)庫管理系統(tǒng) ,由瑞典 MySQL AB 公司開發(fā),目前屬于Oracle
41、公司。Mysql 是最流行的關(guān)系型數(shù)據(jù)庫管理系統(tǒng),在 WEB 應(yīng)用方面 MySQL 是最好的 RDBMS(Relational Database Management System:關(guān)系數(shù)據(jù)庫管理系統(tǒng))應(yīng)用軟件之一。MySQL 是一種關(guān)聯(lián)數(shù)據(jù)庫管理系統(tǒng),關(guān)聯(lián)數(shù)據(jù)庫將數(shù)據(jù)保存在不同的表中,而不是將所有數(shù)據(jù)放在一個大倉庫內(nèi),這樣就增加了速度并提高了靈活性。 MySQL 所使用的 SQL 語言是用于訪問數(shù)據(jù)庫的最常用標(biāo)準(zhǔn)化語言。 MySQL 軟件采用了雙授權(quán)政策(本詞條“授權(quán)政策” ) ,它分為社區(qū)版和商業(yè)版,由于其體積小、速度快、總體擁有計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書10成本低,尤其是開放源碼這
42、一特點(diǎn),一般中小型網(wǎng)站的開發(fā)都選擇 MySQL 作為網(wǎng)站數(shù)據(jù)庫。由于其社區(qū)版的性能卓越,搭配 PHP 和 Apache 可組成良好的開發(fā)環(huán)境。.3 TomcatTomcat 服務(wù)器服務(wù)器Tomcat 服務(wù)器是一個免費(fèi)的開放源代碼的 Web 應(yīng)用服務(wù)器,屬于輕量級應(yīng)用服務(wù)器,在中小型系統(tǒng)和并發(fā)訪問用戶不是很多的場合下被普遍使用,是開發(fā)和調(diào)試JSP 程序的首選。對于一個初學(xué)者來說,可以這樣認(rèn)為,當(dāng)在一臺機(jī)器上配置好Apache 服務(wù)器,可利用它響應(yīng)對 HTML 頁面的訪問請求。實(shí)際上 Tomcat 部分是Apache 服務(wù)器的擴(kuò)展,但它是獨(dú)立運(yùn)行的,所以當(dāng)你運(yùn)行 tomcat 時,
43、它實(shí)際上作為一個與 Apache 獨(dú)立的進(jìn)程單獨(dú)運(yùn)行的。Tomcat 廣受廣大程序員的喜歡,因?yàn)樗\(yùn)行時占用的系統(tǒng)資源小,擴(kuò)展性好,支持負(fù)載平衡與郵件服務(wù)等開發(fā)應(yīng)用系統(tǒng)常用的功能;而且它還在不斷的改進(jìn)和完善中,任何一個感興趣的程序員都可以更改它或在其中加入新的功能。.4 TomcatTomcat 在在 MyEclipseMyEclipse 的配置和使用的配置和使用下載 Tomcat 并且對 Tomcat 安裝包進(jìn)行解壓,打開 MyEclipse,點(diǎn)擊菜單欄的Window 里面的 Preferences,將 Tomcat 安裝到 MyEclipse 里面,如圖 2-2。圖 2-2
44、 Tomcat 的安裝打開瀏覽器輸入 http:/localhost:8080/ 如果出現(xiàn)如圖 2-3,則表示 Tomcat 安裝成功。圖 2-3 Tomcat 安裝成功計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書11 在 MyEclipse 編譯程序,實(shí)現(xiàn)對數(shù)據(jù)庫的操作,并且可以在服務(wù)器上顯示出來,并且編譯程序?qū)崿F(xiàn)圖表的正確顯示。打開瀏覽器,輸入 http:/localhost:8080/web06/list.do 我們可以得到這樣的界面,如圖 2-4 。圖 2-4 畢業(yè)生就業(yè)信息界面對于該信息,我們還可以對已有的信息刪除、修改操作,對于畢業(yè)生信息的修改,鼠標(biāo)點(diǎn)擊操作欄里面的修改,則出來如圖界面,如圖
45、2-5 所示。計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書12圖 2-5 修改畢業(yè)生信息點(diǎn)擊頁面左下角的添加畢業(yè)生信息按鈕,實(shí)現(xiàn)畢業(yè)生信息的添加,如圖 2-6 。圖 2-6 畢業(yè)生信息添加計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書132.32.3 小結(jié)小結(jié)本章主要闡述了論文的設(shè)計(jì)原理、方案選擇,描述了創(chuàng)建一個好的系統(tǒng)的重要性,系統(tǒng)的功能實(shí)現(xiàn),以及整個系統(tǒng)開發(fā)的重要意義。并且對 該系統(tǒng)的開發(fā)工具以及開發(fā)環(huán)境 等等做了一一介紹。計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書14第第 3 章章 系系統(tǒng)統(tǒng)分分析析與與設(shè)設(shè)計(jì)計(jì)3.13.1 需求分析需求分析.1 系統(tǒng)功能需求系統(tǒng)功能需求(1)總功能經(jīng)過分析,本系統(tǒng)應(yīng)該具備如
46、下的功能: 系統(tǒng)應(yīng)該能夠連接到數(shù)據(jù)庫,從數(shù)據(jù)庫中導(dǎo)入所需要的畢業(yè)生信息數(shù)據(jù)。 系統(tǒng)必須能提供在從數(shù)據(jù)庫中導(dǎo)入數(shù)據(jù)的時候,能有一個體現(xiàn)隨機(jī)取數(shù)據(jù)的功能。 系統(tǒng)能夠?qū)?dǎo)入的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、歸納、分析后建立數(shù)學(xué)模型,當(dāng)最終用戶導(dǎo)入訓(xùn)練集數(shù)據(jù)后,系統(tǒng)能夠統(tǒng)計(jì)出用訓(xùn)練集測試出本系統(tǒng)所建立的數(shù)學(xué)模型在畢業(yè)生預(yù)測時所能達(dá)到的準(zhǔn)確度,并用數(shù)值和圖形的方式顯示出來。 當(dāng)系統(tǒng)建立好數(shù)學(xué)模型后,系統(tǒng)能夠?yàn)橛脩籼峁┮粋€單個畢業(yè)生信息測試的功能,就是能夠預(yù)測改畢業(yè)生是否可以畢業(yè),顯示結(jié)果。 (2)基本功能需求系統(tǒng)可以提供數(shù)據(jù)的錄入和刪除功能,包括對畢業(yè)生的 姓名、學(xué)號、性別、綜合成績、黨員、學(xué)生干部、英語過級、學(xué)位獲得、
47、家庭住址以及就業(yè)情況等數(shù)據(jù)的錄入;系統(tǒng)可以對錄入的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),歸納,分析, 這樣當(dāng)用戶輸入畢業(yè)生信息后,系統(tǒng)能夠自動統(tǒng)計(jì)男女生人數(shù),英語過級情況的人數(shù) ,以及就業(yè)和未就業(yè)人數(shù)等各種統(tǒng)計(jì)信息;可以根據(jù)錄入信息,建立數(shù)學(xué)模型, 對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)預(yù)測,輸出統(tǒng)計(jì)分析表;可以對統(tǒng)計(jì)得到的結(jié)果進(jìn)行打印和保存;(3)用戶界面需求用戶界面是人與計(jì)算機(jī)之間的媒介。用戶通過用戶界面來與計(jì)算機(jī)進(jìn)行信息交換。因此,用戶界面的質(zhì)量,直接關(guān)系到應(yīng)用系統(tǒng)的性能能否充分發(fā)揮,能否使用戶準(zhǔn)確、高效、輕松、愉快地工作。所以軟件的友好性、易用性對于軟件系統(tǒng)至關(guān)重要。 作為一個友好的系統(tǒng)軟件,其操作界面必須做到友好美觀。在設(shè)計(jì)開發(fā)的
48、過程中要合理安排和編輯界面,使各窗體與控件相互協(xié)調(diào),使得整個程序界面更加友好。(4)系統(tǒng)性能需求體現(xiàn)本系統(tǒng)能夠?yàn)樽罱K用戶提供一個簡潔的用戶界面, 可以對用戶輸入的畢業(yè)生信息進(jìn)行統(tǒng)計(jì)、預(yù)測,得到一個畢業(yè)生就業(yè)概率,并以圖表方式顯示出來。.2 系統(tǒng)可行性分析系統(tǒng)可行性分析計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書15(1)市場可行性分析 隨著我國高等教育的普及,全國大部分高校都根據(jù)自身情況進(jìn)行了擴(kuò)招,于是造成如今高校畢業(yè)生的就業(yè)形勢逐漸嚴(yán)峻的狀態(tài)。很多大學(xué)生都愁于找不到工作。當(dāng)前對于高校畢業(yè)生的就業(yè)狀況的分析相對簡單,大多僅按學(xué)校的就業(yè)率和專業(yè)就業(yè)率進(jìn)行評價,顯得片面、缺乏科學(xué)性。根據(jù)這一情
49、況,借助計(jì)算機(jī)對畢業(yè)生的就業(yè)信息進(jìn)行挖掘,可以對目前的教學(xué)質(zhì)量進(jìn)行科學(xué)的綜合分析,尋找影響畢業(yè)生就業(yè)的因素,以便對我們今后的教學(xué)和學(xué)生工作提出指導(dǎo)性建議。本課題正是在這一背景下提出,利用數(shù)據(jù)挖掘任務(wù)之一的分類,對過往的畢業(yè)生就業(yè)信息建立預(yù)測模型,同時應(yīng)用該模型對即將的畢業(yè)生的就業(yè)狀況進(jìn)行預(yù)測,以便為學(xué)校招生就業(yè)部門的工作提供參考與建議。(2)技術(shù)可行性分析該系統(tǒng)采用 MySQL 作為后臺存儲數(shù)據(jù)庫,實(shí)現(xiàn)畢業(yè)生就業(yè)信息的錄入、刪除、保存等等功能,主要是因?yàn)?MySQL 對同時訪問數(shù)據(jù)庫的用戶數(shù)量不受限制, 保存記錄多,是目前市場上現(xiàn)有產(chǎn)品中運(yùn)行速度最快的數(shù)據(jù)庫系統(tǒng),用戶權(quán)限設(shè)置簡單、有效。利用
50、MySQL 窗體,用戶可以直觀地進(jìn)行查詢、修改、插入、刪除等操作。本系統(tǒng)采用Tomcat 服務(wù)器,用來運(yùn)行運(yùn)行 JSP 頁面和 Servlet。Tomcat 運(yùn)行時占用的系統(tǒng)資源小,擴(kuò)展性好,支持負(fù)載平衡與郵件服務(wù)等開發(fā)應(yīng)用系統(tǒng)常用的功能。 至于該系統(tǒng)的統(tǒng)計(jì)預(yù)測方面,則采用數(shù)據(jù)挖掘技術(shù)進(jìn)行統(tǒng)計(jì)分析。數(shù)據(jù)挖掘方法是一種強(qiáng)大的新技術(shù),數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫中找出隱藏在里面的預(yù)測信息,有著巨大的潛力去從數(shù)據(jù)倉庫中發(fā)掘出重要的信息,數(shù)據(jù)挖掘工具能夠預(yù)測未來的發(fā)展趨勢 ??偟膩碚f,該系統(tǒng)在技術(shù)上是可行的。(3)實(shí)用可行性分析本系統(tǒng)主要采用數(shù)據(jù)挖掘方法,通過對以往畢業(yè)生就業(yè)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,應(yīng)用貝葉斯定
51、理建立預(yù)測模型,并對未來即將就業(yè)的畢業(yè)生的就業(yè)趨勢進(jìn)行了預(yù)測。通過這個系統(tǒng)可以預(yù)測到他們的就業(yè)情況和就業(yè)概率 。這對于學(xué)校和畢業(yè)生個人來講都是一個很有價值的信息。對于學(xué)校來說,他們可以根據(jù)今年畢業(yè)生就業(yè)情況的預(yù)測,來考慮明年的招生問題,考慮是否可以增大招生名額,以適應(yīng)社會的各種就業(yè)需求 。同時也可以據(jù)此來對學(xué)生的素質(zhì)教育進(jìn)行調(diào)整,使得畢業(yè)生能夠更好地為自己的就業(yè)創(chuàng)造更有利條件。使得畢業(yè)生的就業(yè)率得以提高 ,對整個社會來說也是有益的 。本軟件的使用,將在很大程度上提高學(xué)校的工作效率,節(jié)省大量的人力、物力資源,造福于社會。因此,具有較高的使用價值。3.23.2 總體設(shè)計(jì)總體設(shè)計(jì).1
52、 畢業(yè)生就業(yè)信息表畢業(yè)生就業(yè)信息表對于本次的設(shè)計(jì)課題畢業(yè)生就業(yè)數(shù)據(jù)分析系統(tǒng)開發(fā) ,先在 MySQL 數(shù)據(jù)庫里面計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書16創(chuàng)建一個需要的數(shù)據(jù)庫 bysj,接著在 MyEclipse 開發(fā)工具里編譯程序,實(shí)現(xiàn)各項(xiàng)功能,利用 Tomcat 服務(wù)器運(yùn)行,最后在網(wǎng)頁上輸入 http:/localhost:8080/web06/list.do 得到畢業(yè)生就業(yè)信息表界面,如圖 3-1 所示。圖 3-1 畢業(yè)生就業(yè)信息表.2 模塊劃分模塊劃分本系統(tǒng)主要劃分為四個模塊,這些模塊分別為:(1)數(shù)據(jù)錄入(2)數(shù)據(jù)建模(3)預(yù)測結(jié)果(4)統(tǒng)計(jì)分析圖模塊間的關(guān)系圖:畢業(yè)生就業(yè)數(shù)
53、據(jù)分析系統(tǒng)開發(fā) 數(shù)據(jù)錄入數(shù)據(jù)建模預(yù)測結(jié)果統(tǒng)計(jì)分析圖往屆畢業(yè)生數(shù)據(jù)錄入應(yīng)屆畢業(yè)生數(shù)據(jù)錄入訓(xùn)練集評估精度概率統(tǒng)計(jì)圖導(dǎo)出分類法測試集圖 3-2 系統(tǒng)模塊關(guān)系圖計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書.3 系統(tǒng)數(shù)據(jù)流圖系統(tǒng)數(shù)據(jù)流圖根據(jù)本系統(tǒng)的開發(fā)設(shè)計(jì),可以得到系統(tǒng)數(shù)據(jù)流圖,如圖 3-3 所示。 往屆畢業(yè)生信息應(yīng)屆畢業(yè)生信息畢業(yè)生就業(yè)信息分析系統(tǒng)預(yù)測結(jié)果訓(xùn)練數(shù)據(jù)輸入分析預(yù)測3-3 系統(tǒng)數(shù)據(jù)流圖.4 系統(tǒng)總功能圖系統(tǒng)總功能圖根據(jù)本系統(tǒng)的開發(fā)設(shè)計(jì),可以得到 系統(tǒng)功能圖,如圖 3-4 所示。畢業(yè)生就業(yè)數(shù)據(jù)分析系統(tǒng)數(shù)據(jù)錄入預(yù)測數(shù)據(jù)建模導(dǎo)入數(shù)據(jù)連接數(shù)據(jù)庫數(shù)據(jù)查詢測試數(shù)據(jù)源建立數(shù)據(jù)模型統(tǒng)
54、計(jì)分析預(yù)測大學(xué)生就業(yè)情況系統(tǒng)幫助圖 3-4 系統(tǒng)功能圖計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書183.33.3 數(shù)據(jù)庫設(shè)計(jì)數(shù)據(jù)庫設(shè)計(jì)一般在建立數(shù)據(jù)庫模型時,會涉及到幾種模型種類:概念模型、邏輯模型、物理模型。這三個過程,就是實(shí)現(xiàn)一個軟件系統(tǒng)的三個關(guān)鍵的步驟,是一個從抽象到具體的一個不斷細(xì)化完善的分析,設(shè)計(jì)和開發(fā)的過程。 本小結(jié)通過對這三種模型對數(shù)據(jù)庫進(jìn)行詳細(xì)描述。.1 概念模型概念模型概念模型是設(shè)計(jì)者對現(xiàn)實(shí)世界的認(rèn)識結(jié)果的體現(xiàn),是對軟件系統(tǒng)的整體概括描述。概念模型就是在了解了用戶的需求,用戶的業(yè)務(wù)領(lǐng)域工作情況以后,經(jīng)過分析和總結(jié),提煉出來的用以描述用戶業(yè)務(wù)需求的一些概念的東西。 表示概
55、念模型最常用的是“實(shí)體-關(guān)系”圖。E-R 圖主要是由實(shí)體屬性和關(guān)系三個要素構(gòu)成。本系統(tǒng)通過研究比較,我們得到 的畢業(yè)生數(shù)據(jù)的各個屬性為:姓名,學(xué)號,性別,綜合成績,黨員,學(xué)生干部,英語過級,畢業(yè)論文,家庭住址,就業(yè)情況。 根據(jù)這些屬性建立實(shí)體 E-R 圖,如圖 3-5 所示。畢業(yè)生信息姓名家庭住址畢業(yè)論文英語過級黨員學(xué)生干部綜合成績性別學(xué)號就業(yè)情況圖 3-5 畢業(yè)生信息實(shí)體 E-R 圖.2 邏輯模型邏輯模型邏輯模型就是要將概念模型具體化。邏輯數(shù)據(jù)模型反映的是系統(tǒng)分析設(shè)計(jì)人員對數(shù)據(jù)存儲的觀點(diǎn),是對概念數(shù)據(jù)模型進(jìn)一步的分解和細(xì)化 。邏輯模型著重用邏輯的過程或主要的業(yè)務(wù)來描述對象系統(tǒng)
56、;邏輯模型描述系統(tǒng)要 “做什么” ,或者說具有哪些功能。本系統(tǒng)主要主要是在 MySQL 數(shù)據(jù)庫中創(chuàng)建一個數(shù)據(jù)庫 bysj,在這個數(shù)據(jù)庫中創(chuàng)建數(shù)據(jù)庫表 count,表示畢業(yè)生就業(yè)信息表,并且在該表格中插入畢業(yè)生的相關(guān)信息,即計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書19各屬性:姓名,學(xué)號,性別,綜合成績,黨員,學(xué)生干部,英語過級,畢業(yè)論文,家庭住址,就業(yè)情況。.3 物理模型物理模型物理模型就是針對上述邏輯模型所說的內(nèi)容,在具體的物理介質(zhì)上實(shí)現(xiàn)出來。 物理模型是對真實(shí)數(shù)據(jù)庫的描述。數(shù)據(jù)庫的物理結(jié)構(gòu)設(shè)計(jì)大概包括:確定數(shù)據(jù)的存儲方法、確定數(shù)據(jù)的存儲結(jié)構(gòu)。物理結(jié)構(gòu)設(shè)計(jì)階段實(shí)現(xiàn)的是數(shù)據(jù)庫系統(tǒng)的內(nèi)模式
57、,它的質(zhì)量直接決定了整個系統(tǒng)的性能。(1)數(shù)據(jù)庫建立過程根據(jù)本系統(tǒng)所涉及到的數(shù)據(jù)量以及這些數(shù)據(jù)對數(shù)據(jù)庫的各種功能需求, 可以在MySQL 數(shù)據(jù)庫上建立表格,插入數(shù)據(jù),顯示各屬性。下載安裝好 MySQL 數(shù)據(jù)庫,配置好該數(shù)據(jù)庫,并且設(shè)置數(shù)據(jù)庫密碼:cinderella。打開 MySQL 運(yùn)行窗體,先要求輸入配置密碼,如圖 3-6。圖 3-6 數(shù)據(jù)庫登錄密碼創(chuàng)建數(shù)據(jù)庫 bysj :create database bysj;顯示數(shù)據(jù)庫:show databases;如圖 3-7。圖 3-7 數(shù)據(jù)庫中所有建立過的數(shù)據(jù)庫名稱使用數(shù)據(jù)庫 bysj:use bysj;顯示表格:show tables;(注意
58、:創(chuàng)建表格前應(yīng)先使用該數(shù)據(jù)庫)創(chuàng)建畢業(yè)生信息表格 count:create table count(計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書20id int primary key auto_increment,name varchar(50) NOT NULL,stu_id int NOT NULL,sex char(2) NOT NULL,grade double NOT NULL,party char(2) NOT NULL,cadre varchar(30) NOT NULL,en_rank varchar(10) NOT NULL,thesis varchar(100) NOT NULL,a
59、ddress text NOT NULL,job varchar(50) NOT NULL); 顯示表格屬性:select * from count; 如圖 3-8。圖 3-8 數(shù)據(jù)庫表格內(nèi)容信息(2)數(shù)據(jù)庫的連接MyEclipse 通過 JDBC 連接 MySQL 數(shù)據(jù)庫。數(shù)據(jù)庫的連接部分代碼如下:public static Connection getConnection() throws Exception Connection conn = null;try Class.forName(com.mysql.jdbc.Driver);計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書21conn = Dr
60、iverManager.getConnection(jdbc:mysql:/localhost:3306/bysj?useUnicode=true&characterEncoding=gbk, root, cinderella); catch (Exception e) e.printStackTrace();throw e;return conn;該段代碼可以正確連接數(shù)據(jù)庫,通過數(shù)據(jù)庫的連接可以對其進(jìn)行操作。并且 從該段代碼中我們可以看出 MySQL 中建立的數(shù)據(jù)名稱為 bysj,數(shù)據(jù)庫的密碼為cinderella。3.43.4 分模塊設(shè)計(jì)分模塊設(shè)計(jì)本系統(tǒng)由畢業(yè)生數(shù)據(jù)錄入 刪除與修改、統(tǒng)計(jì)分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度智能語音助手錄音數(shù)據(jù)采集及隱私保護(hù)合同4篇
- 二零二五年度廣告代理合同:某品牌廣告代理協(xié)議3篇
- 二零二五林地林木種植與林業(yè)碳匯交易合同3篇
- 2025年校園綠化及校園環(huán)境美化合同2篇
- 2025年度煤炭企業(yè)信息化建設(shè)合同范本4篇
- 二零二五年度自駕游汽車租賃合同范本3篇
- 二零二五年度高新技術(shù)股份轉(zhuǎn)讓全面合作協(xié)議3篇
- 二零二五年度電影角色扮演活動聘用合同2篇
- 2025年度鋁合金裝飾線條生產(chǎn)銷售合同4篇
- 2025年投票系統(tǒng)廣告投放與宣傳合同3篇
- 銀行會計(jì)主管年度工作總結(jié)2024(30篇)
- 教師招聘(教育理論基礎(chǔ))考試題庫(含答案)
- 2024年秋季學(xué)期學(xué)校辦公室工作總結(jié)
- 上海市12校2025屆高三第一次模擬考試英語試卷含解析
- 三年級數(shù)學(xué)(上)計(jì)算題專項(xiàng)練習(xí)附答案集錦
- 長亭送別完整版本
- 《鐵路軌道維護(hù)》課件-更換道岔尖軌作業(yè)
- 股份代持協(xié)議書簡版wps
- 職業(yè)學(xué)校視頻監(jiān)控存儲系統(tǒng)解決方案
- 《銷售心理學(xué)培訓(xùn)》課件
- 2024年安徽省公務(wù)員錄用考試《行測》真題及解析
評論
0/150
提交評論