數(shù)據(jù)挖掘課設(shè)要求_第1頁(yè)
數(shù)據(jù)挖掘課設(shè)要求_第2頁(yè)
數(shù)據(jù)挖掘課設(shè)要求_第3頁(yè)
數(shù)據(jù)挖掘課設(shè)要求_第4頁(yè)
數(shù)據(jù)挖掘課設(shè)要求_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘課設(shè)要求目標(biāo)課程設(shè)計(jì)是在數(shù)據(jù)挖掘過(guò)程中加強(qiáng)理論和方法的系統(tǒng)方法和實(shí)踐方法。 在“數(shù)據(jù)挖掘課程設(shè)計(jì)”中,提供了一些模擬的實(shí)際應(yīng)用程序數(shù)據(jù)集,并計(jì)劃了一些課程設(shè)計(jì)項(xiàng)目。 通過(guò)進(jìn)行課程設(shè)計(jì),學(xué)生將掌握以下技術(shù):1.通過(guò)數(shù)據(jù)庫(kù)技術(shù)處理實(shí)際的應(yīng)用程序數(shù)據(jù);2.具有基本監(jiān)督學(xué)習(xí)方法的大數(shù)據(jù)挖掘步驟;3.評(píng)估分類器的策略;4.影響分類器性能的主要方面;5.解決數(shù)據(jù)挖掘中實(shí)際應(yīng)用問(wèn)題的主要工具。項(xiàng)目1:監(jiān)督學(xué)習(xí)算法之間的比較1.數(shù)據(jù)集請(qǐng)參閱附屬文件:adult.train,adult.test和adult.desctiption。adult.train文件用于訓(xùn)練,adult.test用于測(cè)試,adu

2、lt.desctiption用于描述數(shù)據(jù)中的屬性。數(shù)據(jù)缺少標(biāo)為“?”的值2.任務(wù)(1)數(shù)據(jù)預(yù)處理。 將數(shù)據(jù)從文件遷移到oracle等數(shù)據(jù)庫(kù),然后通過(guò)數(shù)據(jù)庫(kù)技術(shù)處理數(shù)據(jù)。 刪除缺少值的元組。(2)利用訓(xùn)練數(shù)據(jù)建立預(yù)測(cè)模型。 基本的監(jiān)督學(xué)習(xí)方法(例如樸素貝葉斯分類,ID3,C4.5,CART,BPANN)分別用于訓(xùn)練分類器。(3)不同分類器之間的準(zhǔn)確性比較項(xiàng)目2:調(diào)查噪聲數(shù)據(jù)的影響1.數(shù)據(jù)集請(qǐng)參考項(xiàng)目1的數(shù)據(jù)。2.任務(wù)(1)數(shù)據(jù)預(yù)處理。 不要?jiǎng)h除缺少值的元組。 而是在同一列中用適當(dāng)?shù)闹堤鎿Q丟失的值,例如平均值,回歸值或通過(guò)數(shù)據(jù)插補(bǔ)技術(shù)得出的其他值。(2)使用C4.5建立預(yù)測(cè)模型。(3)通過(guò)C4.5

3、對(duì)兩組數(shù)據(jù)之間有無(wú)值和有值缺失的分類器之間的精度比較。項(xiàng)目3:模擬應(yīng)用1.字母識(shí)別應(yīng)用簡(jiǎn)介字符圖像基于20種不同的字體,并且這20種字體中的每個(gè)字母都被隨機(jī)扭曲以產(chǎn)生20,000個(gè)唯一刺激的文件。每個(gè)刺激轉(zhuǎn)換為16個(gè)數(shù)字屬性。這些過(guò)程生成的字符圖像的示例在圖中提供。然后逐個(gè)像素掃描每個(gè)字符圖像,以提取16個(gè)數(shù)字屬性。這些屬性表示像素分布的原始統(tǒng)計(jì)特征。為了實(shí)現(xiàn)緊湊性,然后將每個(gè)屬性線性縮放到從0到15的整數(shù)值范圍。最后一組值足以提供26個(gè)類的完美分離。也就是說(shuō),沒(méi)有任何特征向量映射到一個(gè)以上的類。屬性(縮放到0-15范圍之前)是:(1)最小矩形框中心的水平位置(從圖像的左邊緣開(kāi)始計(jì)數(shù)),該矩形

4、框的所有“開(kāi)”像素都可以在框內(nèi)繪制。(2)上方方框的垂直位置,從底部算起像素。(3)框的寬度,以像素為單位。(4)框的高度,以像素為單位。(5)字符圖像中“開(kāi)”像素的總數(shù)。(6)所有“在”像素相對(duì)于框中心的平均水平位置,并除以框的寬度。如果圖像像字母L那樣“左重”,則此功能的值為負(fù)。(7)所有“在”像素相對(duì)于框中心的平均垂直位置,并除以框的高度。(8)以上6中測(cè)得的水平像素距離的均方值。對(duì)于像素在水平方向上較寬分離的圖像,此屬性將具有較高的值,字母W或M就是這種情況。(9)以上7中測(cè)量的垂直像素距離的均方值。(10)每個(gè)“上”像素的水平和垂直距離的平均值,如上面6和7所述。對(duì)于從左下到右上的對(duì)

5、角線,此屬性具有正值;對(duì)于從左上到右下的對(duì)角線,此屬性具有負(fù)值。(11)每個(gè)“ on”像素的水平距離平方乘以垂直距離的平均值。這測(cè)量了水平方差與垂直位置的相關(guān)性。(12)垂直距離的平方的平均值乘以每個(gè)“ on”像素的水平距離。這測(cè)量了垂直方差與水平位置的相關(guān)性。(13)從左側(cè)進(jìn)行系統(tǒng)掃描時(shí)遇到的平均邊緣數(shù)量(“關(guān)閉”像素或圖像邊界右側(cè)的“打開(kāi)”像素)(15)在框內(nèi)所有水平位置上從下到上對(duì)圖像進(jìn)行系統(tǒng)掃描時(shí)遇到的平均邊緣數(shù)(“關(guān)閉”像素或圖像邊界上方的“打開(kāi)”像素)。(16)在上面的15中測(cè)量的邊緣水平位置的總和。2.數(shù)據(jù)集請(qǐng)參閱附屬文件:letter-recognition.data和lett

6、er-recognition.desctiption。letter-recognition.data文件用于訓(xùn)練和測(cè)試,adult.desctiption用于描述數(shù)據(jù)中的屬性。3.任務(wù)(1)數(shù)據(jù)預(yù)處理。將數(shù)據(jù)從文件遷移到oracle等數(shù)據(jù)庫(kù)。(2)通過(guò)Hold-out方法進(jìn)行數(shù)據(jù)分區(qū),即將數(shù)據(jù)隨機(jī)分為兩部分:2/3作為訓(xùn)練集,1/3作為測(cè)試集。(3)在訓(xùn)練集上使用C4.5建立預(yù)測(cè)模型。(4)評(píng)估其在測(cè)試集上的準(zhǔn)確性。項(xiàng)目4:評(píng)估方法之間的比較1.數(shù)據(jù)集請(qǐng)參考項(xiàng)目3的數(shù)據(jù)。2.任務(wù)(1)使用C4.5建立預(yù)測(cè)模型/分類器。(2)分別通過(guò)Hold-out方法(即項(xiàng)目3),隨機(jī)抽樣,10-CV,分層1

7、0-CV和自舉法評(píng)估其準(zhǔn)確性。(3)在不同評(píng)估方法下,C4.5分類器之間的準(zhǔn)確性比較。項(xiàng)目5:對(duì)修剪到過(guò)度擬合的調(diào)查1.數(shù)據(jù)集請(qǐng)參考項(xiàng)目3的數(shù)據(jù)。2.任務(wù)(1)使用CART建立預(yù)測(cè)模型。(2)使用帶有CCP的CART建立預(yù)測(cè)模型。(3)不帶修剪和帶修剪的CART分類器之間的精度比較。要求實(shí)驗(yàn)是在不超過(guò)5名學(xué)生的小組中進(jìn)行的。 每個(gè)小組必須在截止日期之前完成5個(gè)必修項(xiàng)目。2. Python或R可以用于為您的項(xiàng)目編程,但是Python是首選,因?yàn)樗鼘椭诓痪玫膶?lái)找到一份好工作。3.為了完成項(xiàng)目,您可以從在線資源下載軟件包并進(jìn)行修改,但是您應(yīng)該了解項(xiàng)目中涉及的所有代碼。4.為了確保課程設(shè)計(jì)能夠順利實(shí)施,每個(gè)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論