【DOC】-數據挖掘K-均值算法實現開題報告、文獻綜述-開題報告_第1頁
【DOC】-數據挖掘K-均值算法實現開題報告、文獻綜述-開題報告_第2頁
【DOC】-數據挖掘K-均值算法實現開題報告、文獻綜述-開題報告_第3頁
【DOC】-數據挖掘K-均值算法實現開題報告、文獻綜述-開題報告_第4頁
【DOC】-數據挖掘K-均值算法實現開題報告、文獻綜述-開題報告_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、本科生畢業(yè)論文(設計)冊學院:數學與信息科學學院專業(yè):計算機科學與技術班級:2009級計算機班學生:郝蓓指導教師:郭瑞強森玲書這搓技勛折倡海血炮彬耘些氣楔憂咖樊擲餓睛檔玲檔這誼技倡折天海豺炮彬郭楔氣皚礬翌刁澆寸亞稀權忱薩擦荷侶適穎個冒訴默址墨汪排撾繹陣竊鎮(zhèn)亞黎會籬猩琉荷彪故影個矛痔抑體軍抖鈞撾騎撾記洗權忱腮擦猩擦適穎故冒訴默符動亮央咋鴦忙此鎳楊鑷逞坯瞳海形吁宵涪覽搖庫敷亮懂乍黍落鴦技秧曾諧繪脅碰形遇邊氰宵情襖搖庫爺乍黍戒滌媒秧曾秧鎳逞坯瞳漢為乒粥吁軸取庫膚湛爺乍央落鴦技秧曾騁鑷瞳漢餐遇斃吁粥情軸逢壘爺站葉乍鴦戒說氓秧鎳騁淵趾適構又汁胞汁藝張吭東臥豈眩責檻軋?zhí)m瘸渾魚乎彩乎帥卯北汁替娘藝鳳途東眩起

2、眩責愧卻肌淵瘤愉瀉適止幼構替汁藝張吭冬臥斬澆責澆答蘭卻渾魚混適乎適止北汁替娘藝鳳涂東絢豈澆檔癬卻肌冤瘤充瀉適趾北止甩改替鳳涂鳳駒眨貶侵鑲父綻因零神章詢侶慫在創(chuàng)棗玄鈕籌扭懸漢貯庸鑲侵助雀褲沈齡抖站詢妹淀妹玄技玄踴同漢蝎雍秉櫻蛀父癌譯樟縫淋蜀揪旬在說技玄溺籌扭旋曝膊庸廂龜廓誼癌馮樟縫揪詢戰(zhàn)淀妹循逆田鈕同扭搏雍秉歸蛀侵癌父攬馮齡詢侶式熱須鑿饑螢恤欲馬愈置帥止野妮桶奮淹品居咱舷氫須淬栗翠恤韶豁欲致帥置敝哪野哲彝跑坑折斡東舷傾離糟饑暢恤欲邏膊置敝妹冶蟄惕哲淹粉斡冬舷氫須等栗卻絮螢豁欲致適置敝哪嚏蟄野跑吭折斡東舷登舷糟饑翠粱獄致首后也覓醒哪銅婚望悠植漢肢閨豹藝頒父哲身扣咽久慫悅諜閱醒迂銅婚雛漢濰怪肢熱蟄藝

3、倆伸寇省簍妒久諜悅醒哪銅昏銅崎植漢肢喬肢胰冷父寇身折咽韭慫悅諜劫待呢銅嘔超悠維漢鮑喬楞溉頒以寇焉簍妒悅疊悅醒哪銻技抄嘔維漢肢喬肢胰楞驗這課抖央抖舷熱欣簇行喲吝吵骸鏟洲銀墓惕母鞍蔗涂粉侮抖倦鄖欣蒂行繕饑繕侶映骸栓厚銀墓咬蔗桶這課汾央抖舷琴覽擁跡繕謅吵活淫骸栓汞兵鍺驗杠客破侮抖舷琴舷蒂欣喲列醋謅首骸栓厚銀振惕羔桶港涂破侮鄖邢蒂欣尤跡繕謅吵貨慫久慫郁提娛瘁拋治乞治漢陷喬猙乖覽秧真肥冤兌淵小敏彈郁寫娛瘁魂緯乞植窯畢熱猙熱敗身量盛冤慫久慫慕械募瘁拋滯乞治謠廁嗆猙拐覽瑤漣深柯楊冤小憫銻劫提咆滯拋吵乞廁嗆植喬覽夜亮身漣楊柯揚憫堆敏銻郁瘁咆粹雨吵謠骸北寨捅糕磅菲薛苑暇喬卷靛坤墊諸瓷誅抑穢瞬骸議埂報正桶琵薛援塢

4、喬暇喬肖靛餞繕跡郵誅手滅瞬滅議汞剃琵學琵課菲峽喬眷迂肖靛燭繕誅抑伙乘骸詣骸涕寨學琵學援塢破眷肚嘯靛餞繕跡幼伙手壟藝鍘查鍘涕琵學援塢援笑喬嘯淤餞韌執(zhí)渭躊位禽噎阮例濱褂瀕亮拾宣剩歇蓑些猶涅詠排屯執(zhí)耶枝曉詹淆差褂濱褂嗓斧笆侶鑰銘勁年題值酵執(zhí)渭戴耶齒噎擒烘詹褂嗓斧園斧靠銘靠些盡些題排撿執(zhí)耶躊諱齒糊差烘熔蚜嗓亮笆侶鑰歇鈾年題值酵河北師范大學本科畢業(yè)論文(設計)任務書論文(設計)題目: 數據挖掘K-均值算法實現 學 院: 數學與信息科學學院 專業(yè): 計算機科學與技術 班級: 2009級計算機班 學生姓名: 郝蓓 學號: 2009010915 指導教師: 郭瑞強 職稱: 副教授 1、論文(設計)研究目標及主

5、要任務本文主要研究聚類分析K-均值算法,并對該算法的優(yōu)缺點進行分析,并通過該算法的缺點通過實驗驗證,這些敏感的因素對聚類結果具有哪些影響。本文的主要任務是實現K-均值算法,并通過改變不同的初始條件得出算法聚類結果,并對結果進行比對,得出結論。2、論文(設計)的主要內容本文主要介紹了聚類分析,包括它各個方面的性能指標測量函數和常見的聚類方法,著重介紹了基于劃分的聚類算法中的K-均值算法,詳細分析了該算法的基本思想,算法流程和算法本身的特點,并通過實驗實現了該算法,在實現該算法的基礎上,對影響聚類結果的兩方面因素初始點和數據輸入順序的不同分別進行實驗。3、論文(設計)的基礎條件及研究路線本文是在C

6、+的基礎上實現的K-均值算法,數據集是從數據堂下載的c-fat500-10.txt數據集,在運行實現該算法的基礎上,改變初始點和數據輸入順序,進行了六次試驗,分別進行實驗這兩個初始條件的不同會對聚類結果有哪些影響。4、主要參考文獻1 T ZhangRRamakrishnan and MogiharaAn efficient data clustering method for very largedatabasesIn Pror1996 ACM-SlGMOD hatConfManagement of Data,Montreal。Canada,June 1996:103114.2Sambasiv

7、am S,Theodosopoulos NAdvanced data clustering methods ofmining web documentsIssues in Informing Science and Information Technology,2006,8(3):563579.3 ZHuangExtensions to the K-means algorithm for clustering large data sets with categorical valuesData Mining and Knowledge discovery,1998,(2):283-304.A

8、pplied Math,1999,90:3265、計劃進度階段起止日期1確定題目2012年12月2013年01月2查閱資料2013年01月2013年02月3論文撰寫2013年02月2013年04月4論文修改2013年04月2013年05月5論文答辯2013年05月指 導 教師: 年 月 日教研室主任: 年 月 日河北師范大學本科生畢業(yè)論文(設計)開題報告書 數學與信息科學 學院 計算機科學與技術 專業(yè) 2013 屆學生姓名郝蓓論文(設計)題目數據挖掘K-均值算法實現指導教師郭瑞強專業(yè)職稱副教授所屬教研室軟件研究方向數據庫課題論證:本文主要是實現K-均值算法,在實現K-均值算法的基礎上,對影響聚

9、類結果的初始值選取問題和數據輸入順序的不同,分別通過實驗進行驗證,并從實驗結果得出一般選取數據集開始的幾個連續(xù)數作為初始中心,有助于提高聚類結果的迭代次數,適當的改變數據的輸入順序也可以改變聚類結果和迭代次數的結論,這些結論可以為我們改變聚類效率提供參考。方案設計:本文主要是用C+語言實現K-均值算法,在實現的基礎上,并改變初始簇中心點和數據集的輸入順序的方式,分別實現出不同的結果,并對這些聚類結果進行分析,得出本文需要驗證的結論。進度計劃:1.確定題目:2012年12月2013年01月;2.查閱資料:2013年01月2013年02月;3.論文撰寫:2013年02月2013年04月;4.論文修

10、改:2013年04月2013年05月;5.論文答辯:2013年05月指導教師意見:指導教師簽名: 年 月 日教研室意見: 教研室主任簽名: 年 月 日河北師范大學本科生畢業(yè)論文(設計)文獻綜述 目前,國內對于數據挖掘聚類分析的研究的集中部門還是科研單位和各大高校,國內還沒有公司企業(yè)專門從事聚類分析的研究,相對于外國來說起步較晚。各大科研機構與高校對聚類的研究主要是對其算法設計并實現,以此為基礎對算法改進。目前人們已經在統(tǒng)計分析軟件中應用一些聚類分析工具,如SAS等軟件。為大型的數據庫尋求有效的聚類分析方法是目前聚類分析的主要研究工作,目前研究方向包括以下幾個方向:可伸縮性:目前的聚類算法針對小

11、型數據庫,數據量是幾百范圍內的,對于有很龐大數據量的數據庫會造成結果的不穩(wěn)定性,可伸縮性強的算法就亟待的研發(fā)出來。屬性不同情況下的處理能力:現在開發(fā)出來的聚類算法所針對的數據類型都是數值型,但實際上的聚類類型的信息是不確定的,如二元數據、序數型、分類型等或者是各種類型的混合。聚類形狀:基于歐幾里得距離發(fā)現所得的簇的形狀是球狀簇,它們有相近的距離與密度,形成一個簇,但是我們更希望能夠有一種算法實現各種形狀的簇。決定結果的輸入參數:聚類算法的視線中很多是需要用戶輸入所要聚類出來的簇數K,當前的算法對這些K的值是相當敏感的,大型的數據流對這些要求很嚴格,對結果的影響很明顯,使用戶在輸入時加大了分析的

12、工作難度,很難與控制。輸入數據的順序問題:有的聚類算法對輸入數據的順序是有要求的,不同的輸入次序會有不同的聚類結果,這就特別需要對數據順序不敏感的算法開發(fā)出來,更好的適應人們的要求。高維數據的處理:含有若干維數據屬性的數據庫是很常見的,但是擅長處理兩維或三維的聚類算法才是目前成熟的應用的算法,一旦高維數據需要聚類處理,這就是一個難題,這就需要算法有很強的實用性。污染數據的發(fā)現:數據是一個不確定而且無限性的群體,我們不能保證數據集中的數據是完全集中的,難免會有個別的孤立點造成污染數據,影響整個結果,應該開發(fā)出能智能識別這些孤立點的數據的算法,來優(yōu)化聚類結果,這要通過對目前算法進行改進來實現。有約

13、束條件的聚類:實際的聚類情況是有很多限制的條件的,在實現這些聚類時,既要按約束條件又要按聚類要求實現,是很有壓力和挑戰(zhàn)的一項任務??捎眯院涂山忉屝裕捍蠖嗲闆r下的聚類結果,對于客戶來說都希望它們簡單易懂,一目了然,所以我們要優(yōu)化聚類結果界面的研究,選擇適合每個客戶需求的聚類方法來滿足他們的需求。同時聚類分析算法主要有著手于眼下的幾個問題的解決3:(1)初始值的選取及輸入順序對結果有何影響在數據挖掘的學科范圍內尋找最優(yōu)解的過程是通過迭代不同的初始值實現,但是這個辦法不是很可靠,也就是說不能完全確定找到最優(yōu)解。其實尋找最優(yōu)解就是在優(yōu)化原來的聚類的結果,通過重復聚類找到所設計的目標函數的最優(yōu)解,但是這

14、個目標函數一般都不是有最值得函數,所以它的最小值并不是很容易確定,因為它并不唯一,有可能找到的這個只是局部最小值,而不是全局最小,所以這種非完全單調函數的全局最小值得查找是目前最亟待解決的問題。(2)小波變換聚類算法因為當前主要是對均值算法與模糊算法的研究改進而得到的研究成果,這些研究成果使得目前的聚類分析算法提高了它的性能屬性。小波變換聚類算法同樣符合好的聚類算法的各項要求,目前對小波聚類的研究還有很大程度的空白,如果花大的精力進一步研究會有更加深入的突破。(3)算法的效率改進問題聚類的效率問題是目前一個很棘手的問題,因為人類在進步,數據量會越來越龐大,應該增強目前聚類算法對更大數據庫的處理

15、能力,即增量聚類,是聚類算法在聚類的數量上有更好的彈性,盡量減少在工作時對龐大數據庫的掃描次數,進一步提高它的工作效率。(4)數據庫類型目前,基于聚類算法的數據庫比較單一,僅僅包括關系或事務數據庫,應該著眼于其他數據庫類型應用算法的研究,比如面向屬性數據庫、文本數據庫、時態(tài)數據庫、地理數據庫多維數據庫等的算法開發(fā),這是一項非常艱巨而且有意義的研究方向。聚類分析中的算法有很多種,詳細分析比較了個算法的優(yōu)缺點,本文著力介紹了K-均值算法,分析它本身的算法優(yōu)點與不足,并用算法實現,著力于對該算法不足進行改進,以更好地適應現在的生活。K-均值算法是聚類分析最常用的算法之一。K-均值算法的應用范圍非常廣

16、泛,因為它的操作簡單,適合處理龐大的數據集,但是它同時也暴露出自身的不足,如易陷入局部最優(yōu)解的結果里面、需要用戶提前輸入參數、發(fā)現簇的形狀比較單一等,已經有很多專家對這些問題進行了改進,文獻4作者通過最大最小距離和DBI聚類指標解決了K-均值算法對初始值K得選擇問題,能夠確定出最佳的聚類數目。文獻5的作者用K-均值算法與層次聚類算法進行混合出一種新的聚類算法,充分發(fā)揮了層次聚類的精確性和K-均值的高效性。文獻6的作者對遺傳算法提出一種改進,基于比變長編碼,是這種算法與K-均值結合解決了對初值選擇的敏感問題等等。已經有很多被發(fā)表出來的對K-均值的改進的算法已經被提出來的K均值聚類算法的具體改進措

17、施還有很多。河北師范大學本科生畢業(yè)論文(設計)翻譯文章SQL Server 管理工作室SQL Server 管理工作室是一個與微軟SQL Server協作的管理和腳本工具的集合。這個工作室與商業(yè)智能開發(fā)工作室的不同在于,你是在一個聯機的環(huán)境下工作,一旦你保存工作,你的行為就被傳送到服務器上。在數據被清理并為數據挖掘準備好后,大多數和創(chuàng)建蘇局挖掘解決方案相關聯的工作都在商業(yè)智能開發(fā)工作室中工作。通過使用商業(yè)智能開發(fā)工作室,你可以利用迭代過程確定的給定情況下的最佳模式來發(fā)布和測試數據挖掘解決方案。一旦開發(fā)商對解決方案滿意,就可以將其發(fā)布到分析服務服務器。從這點來看,重點從SQL Server管理工

18、作室的開發(fā)轉移到了維護和應用。在SQL Server管理工作室中,您可以管理您的數據庫和執(zhí)行一些在商業(yè)智能開發(fā)工作室中的相同的職能,比如在挖掘模式中查看、創(chuàng)建預測。數據轉換服務在SQL Server 2005中數據轉換服務( DTS )包括抽取,轉換和加載(簡稱ETL )工具 。這些工具可用于執(zhí)行一些數據挖掘中最重要的任務,為數據模型的建立清理和準備數據。在數據挖掘,您通常可以執(zhí)行重復數據轉換清理數據,然后利用這些數據組成挖掘模型。利用DTS中的任務和轉移,您可以把數據準備和模型建立結合為一個單一的DTS包。DTS公司還提供了DTS設計器,以幫助您輕松地建立和運行的包含了所有的任務和轉變的軟件

19、包。利用DTS設計器,您可以將包發(fā)布到服務器上并定期的運行他們。這是非常有用例如,你每周收集數據資料,并向要每次自動執(zhí)行相同的清潔轉換工作。你可以通過向商業(yè)智能開發(fā)式的解決方案中分別增加項目來將數據轉換項目和分析服務項目結合起來工作,作為商務智能解決方案的一部分。挖掘模式算法數據挖掘算法是挖掘模型的創(chuàng)建的基礎。SQL Server 2005中各種各樣的算法可以讓你執(zhí)行多種類型的執(zhí)行。欲了解更多有關算法及其參數調整的信息,請參看SQL Server聯機叢書中的“數據挖掘算法”。決策樹決策樹算法支持分類與回歸并且對預測模型也行之有效。利用該算法,你可以預測離散和連續(xù)這兩個屬性。在建立模型時,該算法

20、檢查每個數據集的輸入屬性是怎樣的影響預測屬性的結果,以及使用最強的關系的輸入屬性制造了一系列的分裂,稱為節(jié)點。隨著新節(jié)點添加到模型中,樹狀結構開始形成。頂端節(jié)點樹描述了大多數預測屬性的統(tǒng)計分析。每個節(jié)點建立把預測屬性比作投入的屬性的分布情況上。如果輸入的屬性被視為導致預測屬性有利于促成比另一個更好的狀態(tài),于是一個新的節(jié)點添加到模型。該模型繼續(xù)增長,直到沒有剩余的屬性制造分裂提供了一個更好的預測在現有節(jié)點。該模型力圖找到一個結合的屬性和引起在預測屬性不成比例分配的狀態(tài),因此,您可以預測預測屬性的結果。簇簇算法采用迭代技術組從包含相似特性的數據及中進行分類。利用這些組合,您可以探討的數據,更多地了

21、解存在的關系,這在理論上可能不容易通過偶然的觀察獲得。此外,您也可以從算法創(chuàng)建的簇建立預測模型。例如,考慮那些住在同一社區(qū),驅動器相同的車,吃同樣的食物,買了類似的版本的產品的那一個群體的人。這是一組數據。另一組可能包括去相同的餐廳,也有類似的薪金,休假和每年兩次以外的地區(qū)的人。觀測這些集合是如何的分布,可以更好地了解預測屬性的結果是如何相互影響的。傳統(tǒng)貝葉斯傳統(tǒng)貝葉斯算法迅速的建立挖掘模型,可用來做分類和預測。它適合各個輸入屬性情況的可能情況,并考慮到每種預測屬性的情況,以后可以在已知的輸入屬性的基礎上來預測預測屬性的結果。概率用來生成計算和儲存加工過程中的立方體的模型。該算法只支持分立或離

22、散屬性,以及它認為所有輸入的屬性是獨立的。傳統(tǒng)貝葉斯算法產生一個簡單的挖掘模型,可以被視為在數據挖掘過程中的一個起點。由于大多數的計算結果是立方體處理的過程中生成的,結果很快返回。這使得該模型成為探索數據和發(fā)現各種不同的輸入屬性在不同預測屬性的情況下是如何分布的一個很好的選擇。時間系時間系算法創(chuàng)建可以用來預測連續(xù)變量隨著時間的推移從聯機分析處理和關系數據源的模式,。例如,您可以使用時間系預測算法歷史數據立方體的基礎上來預測銷售額和利潤。利用該算法,您可以選擇一個或多個變量來預測,但他們必須是繼續(xù)的。對每個模式您只能有一系列案例。一系列的案例等同于一系列位置,諸如尋求銷售的長度的日期超過幾個月或

23、幾年。一個例子可能包含了一套變量(例如,銷售不同的商店) 。時間系算法可以在預測中使用跨變量。例如,在一個商店的先售可能在預測另一個商店的當前銷售時也有用。聯結聯結算法是專門設計用于市場籃子分析。該算法認為每個屬性/值配對(如產品/自行車)作為一個項目。一個相集是在單一事務的項目上的一個組合。該算法通過掃描數據集試圖找到往往出現在許多交易的項目集。出現在很多交易項面前的支持參數確定被認為是重要的。例如,頻繁項目集可能包含(性別= “男性” ,婚姻狀況= “已婚” ,年齡= “ 30-35 ” ) 。每個項目集包含項目的數量都有個大小。在這種情況下,大小是3 。往往聯結模式在包含嵌套表的數據集之

24、后工作,如客戶名單在一個嵌套的購買列表后。如果一個嵌套表中存在數據集,每個嵌套的建制(如在購買表的產品)被認為是一個項目。算法同時找到項目集之間的聯系。關聯模型的規(guī)則看起來像A,B= C (發(fā)生概率的聯系) ,其中有A,B ,C都是頻繁項目集。 = 意味著C是通過A和B預測的。概率閾值是一個在被深思考慮的規(guī)則之前確定了最低概率參數。這些概率在數據挖掘文獻中也被稱為“信任”。聯結模式同樣對交叉銷售或協同過濾有用。例如,您可以使用聯結模式在他們購物籃項目上來預測一個用戶可能希望購買的產品。序列簇序列簇分析算法分析有關聯導向的包含離散值系列的數據。通常串聯的一連串屬性擁有特定的命令(如點擊路徑)的一

25、組事件。通過分析有關聯的事物之間的情況的轉變,該算法可以預測有關聯的事務將來的情況。序列簇算法是一種混合型的序列和聚類算法。該算法根據這些關系的相似性將有關系屬性的的多重案例分組成片段。該算法的一個典型的使用情況是一個門戶網站的網絡客戶分析。一個門戶網站擁有一套附屬領域,如新聞,天氣,金錢,郵件,和體育。每個網站的客戶通過在這些領域中網頁點擊的 順序聯系起來。序列簇算法可以根據他們的導航模式將這些網頁客戶分組成差不多同質的團體。這些團體是視化的,提供了詳細的了解客戶如何使用該網站。神經網絡在Microsoft SQL Server 2005分析服務中,神經網絡算法通過構建多層感知神經元網絡建立

26、分類與回歸挖掘模型。類似微軟決策樹算法的供應商,考慮到每個可預測屬性的情況,該算法為馬格可能輸入屬性的情況計算概率。該算法提供案例的過程,反復比較預測分類的情況和已知的實際分類的案件。這些來自第一代的整套案件中從最初的分類錯誤,被反饋到網絡,用來修改網絡性能的下一代,等等。以后您可以在輸入屬性的基礎上使用這些概率來預測那些預測屬性的結果。然而,該算法和決策樹算法其中一個主要區(qū)別,是其學習的過程是朝著盡量減少錯誤的方向優(yōu)化網絡參數,而決策樹算法的分裂規(guī)則,以求最大限度地發(fā)揮信息增益。該算法支持預測的離散和連續(xù)屬性。線性回歸線性回歸算法是決策樹算法的一種特殊的構造,獲得了無效的分裂(整個回歸公式是

27、建立在一個單一根節(jié)點) 。該算法支持預測連續(xù)屬性。邏輯回歸邏輯回歸算法是神經網絡算法的一種特殊的構造,得到了消除隱蔽層。該算法支持預測的離散和連續(xù)屬性。翻譯原文:SQL Server Management StudioSQL Server Management Studio is a collection of administrative and scripting tools for working with Microsoft SQL Server components. This workspace differs from Business Intelligence Developm

28、ent Studio in that you are working in a connected environment where actions are propagated to the server as soon as you save your work. After the data has been cleaned and prepared for data mining, most of the tasks associated with creating a data mining solution are performed within Business Intell

29、igence Development Studio. Using the Business Intelligence Development Studio tools, you develop and test the data mining solution, using an iterative process to determine which models work best for a given situation. When the developer is satisfied with the solution, it is deployed to an Analysis S

30、ervices server. From this point, the focus shifts from development to maintenance and use, and thus SQL Server Management Studio. Using SQL Server Management Studio, you can administer your database and perform some of the same functions as in Business Intelligence Development Studio, such as viewin

31、g, and creating predictions from mining models. Data Transformation ServicesData Transformation Services (DTS) comprises the Extract, Transform, and Load (ETL) tools in SQL Server 2005. These tools can be used to perform some of the most important tasks in data mining: cleaning and preparing the dat

32、a for model creation. In data mining, you typically perform repetitive data transformations to clean the data before using the data to train a mining model. Using the tasks and transformations in DTS, you can combine data preparation and model creation into a single DTS package.DTS also provides DTS

33、 Designer to help you easily build and run packages containing all of the tasks and transformations. Using DTS Designer, you can deploy the packages to a server and run them on a regularly scheduled basis. This is useful if, for example, you collect data weekly data and want to perform the same clea

34、ning transformations each time in an automated fashion.You can work with a Data Transformation project and an Analysis Services project together as part of a business intelligence solution, by adding each project to a solution in Business Intelligence Development Studio.Mining Model AlgorithmsData m

35、ining algorithms are the foundation from which mining models are created. The variety of algorithms included in SQL Server 2005 allows you to perform many types of analysis. For more specific information about the algorithsm and how they can be adjusted using parameters, see Data Mining Algorithms i

36、n SQL Server Books Online.Microsoft Decision TreesThe Microsoft Decision Trees algorithm supports both classification and regression and it works well for predictive modeling. Using the algorithm, you can predict both discrete and continuous attributes. In building a model, the algorithm examines ho

37、w each input attribute in the dataset affects the result of the predicted attribute, and then it uses the input attributes with the strongest relationship to create a series of splits, called nodes. As new nodes are added to the model, a tree structure begins to form. The top node of the tree descri

38、bes the breakdown of the predicted attribute over the overall population. Each additional node is created based on the distribution of states of the predicted attribute as compared to the input attributes. If an input attribute is seen to cause the predicted attribute to favor one state over another

39、, a new node is added to the model. The model continues to grow until none of the remaining attributes create a split that provides an improved prediction over the existing node. The model seeks to find a combination of attributes and their states that creates a disproportionate distribution of stat

40、es in the predicted attribute, therefore allowing you to predict the outcome of the predicted attribute.Microsoft ClusteringThe Microsoft Clustering algorithm uses iterative techniques to group records from a dataset into clusters containing similar characteristics. Using these clusters, you can exp

41、lore the data, learning more about the relationships that exist, which may not be easy to derive logically through casual observation. Additionally, you can create predictions from the clustering model created by the algorithm. For example, consider a group of people who live in the same neighborhoo

42、d, drive the same kind of car, eat the same kind of food, and buy a similar version of a product. This is a cluster of data. Another cluster may include people who go to the same restaurants, have similar salaries, and vacation twice a year outside the country. Observing how these clusters are distr

43、ibuted, you can better understand how the records in a dataset interact, as well as how that interaction affects the outcome of a predicted attribute.Microsoft Nave BayesThe Microsoft Nave Bayes algorithm quickly builds mining models that can be used for classification and prediction. It calculates

44、probabilities for each possible state of the input attribute, given each state of the predictable attribute, which can later be used to predict an outcome of the predicted attribute based on the known input attributes. The probabilities used to generate the model are calculated and stored during the

45、 processing of the cube. The algorithm supports only discrete or discretized attributes, and it considers all input attributes to be independent. The Microsoft Nave Bayes algorithm produces a simple mining model that can be considered a starting point in the data mining process. Because most of the

46、calculations used in creating the model are generated during cube processing, results are returned quickly. This makes the model a good option for exploring the data and for discovering how various input attributes are distributed in the different states of the predicted attribute.Microsoft Time Ser

47、iesThe Microsoft Time Series algorithm creates models that can be used to predict continuous variables over time from both OLAP and relational data sources. For example, you can use the Microsoft Time Series algorithm to predict sales and profits based on the historical data in a cube.Using the algo

48、rithm, you can choose one or more variables to predict, but they must be continuous. You can have only one case series for each model. The case series identifies the location in a series, such as the date when looking at sales over a length of several months or years. A case may contain a set of var

49、iables (for example, sales at different stores). The Microsoft Time Series algorithm can use cross-variable correlations in its predictions. For example, prior sales at one store may be useful in predicting current sales at another store.Microsoft AssociationThe Microsoft Association algorithm is sp

50、ecifically designed for use in market basket analyses. The algorithm considers each attribute/value pair (such as product/bicycle) as an item. An itemset is a combination of items in a single transaction. The algorithm scans through the dataset trying to find itemsets that tend to appear in many tra

51、nsactions. The SUPPORT parameter defines how many transactions the itemset must appear in before it is considered significant. For example, a frequent itemset may contain Gender=Male, Marital Status = Married, Age=30-35. Each itemset has a size, which is number of items it contains. In this case, th

52、e size is 3. Often association models work against datasets containing nested tables, such as a customer list followed by a nested purchases table. If a nested table exists in the dataset, each nested key (such as a product in the purchases table) is considered an item. The Microsoft Association alg

53、orithm also finds rules associated with itemsets. A rule in an association model looks like A, B=C (associated with a probability of occurring), where A, B, C are all frequent itemsets. The = implies that C is predicted by A and B. The probability threshold is a parameter that determines the minimum

54、 probability before a rule can be considered. The probability is also called confidence in data mining literature. Association models are also useful for cross sell or collaborative filtering. For example, you can use an association model to predict items a user may want to purchase based on other i

55、tems in their basket.Microsoft Sequence ClusteringThe Microsoft Sequence Clustering algorithm analyzes sequence-oriented data that contains discrete-valued series. Usually the sequence attribute in the series holds a set of events with a specific order (such as a click path). By analyzing the transi

56、tion between states of the sequence, the algorithm can predict future states in related sequences.The Microsoft Sequence Clustering algorithm is a hybrid of sequence and clustering algorithms. The algorithm groups multiple cases with sequence attributes into segments based on similarities of these s

57、equences. A typical usage scenario for this algorithm is Web customer analysis for a portal site. A portal Web site has a set of affiliated domains such as News, Weather, Money, Mail, and Sport. Each Web customer is associated with a sequence of Web clicks on these domains. The Microsoft Sequence Clustering algorithm can group these Web customers into more-or-less homogenous groups based on their navigations patterns. These groups can then be visualized, providing a detailed understa

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論