版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、會計學1數(shù)據(jù)挖掘數(shù)據(jù)挖掘5第一頁,共41頁。2022-4-192第1頁/共41頁第二頁,共41頁。2022-4-193approach第2頁/共41頁第三頁,共41頁。2022-4-194第3頁/共41頁第四頁,共41頁。2022-4-195第4頁/共41頁第五頁,共41頁。2022-4-196第5頁/共41頁第六頁,共41頁。2022-4-197第6頁/共41頁第七頁,共41頁。2022-4-198第7頁/共41頁第八頁,共41頁。2022-4-199 Prime generalized relation第8頁/共41頁第九頁,共41頁。2022-4-1910第9頁/共41頁第十頁,共41頁
2、。2022-4-1911第10頁/共41頁第十一頁,共41頁。2022-4-1912第11頁/共41頁第十二頁,共41頁。2022-4-1913sales in 1997第12頁/共41頁第十三頁,共41頁。2022-4-1914sales in 1997第13頁/共41頁第十四頁,共41頁。2022-4-1915sales in 1997第14頁/共41頁第十五頁,共41頁。2022-4-1916sales in 1997第15頁/共41頁第十六頁,共41頁。2022-4-1917第16頁/共41頁第十七頁,共41頁。2022-4-1918 X, item(X)=“computer”(loc
3、ation(X)=“Asia”)t:25.00% location(X)=“Europe”)t:30.00% (location(X)=“North_America”)t:45.00%a logic rule that is associated with quantitative information is called a quantitative rulethe general form of a quantitative characteristic rule is: X, target_class(X)condition1(X)t:w1conditionn(X)t:wnwhere
4、t-weight describes the typicality of each disjunct in the rulecharacteristic rule is necessary condition of the target class Nttnqcountqcountweightt1)()(_第17頁/共41頁第十八頁,共41頁。2022-4-1919第18頁/共41頁第十九頁,共41頁。2022-4-1920第19頁/共41頁第二十頁,共41頁。2022-4-1921第20頁/共41頁第二十一頁,共41頁。2022-4-1922SSSSSSSIimiim2121log),( s
5、uppose attribute A is selected to partition the training set into the subsets S1, S2, , Sv, then the entropy of A, i.e. the information needed to classify all the instances in those subsets is mijijjijvjjSSSSSSAEnt121log)(where Sij is the instances of class Ci that are covered by Sjthen the informat
6、ion gain of selecting A isthe bigger the information gain, the more relevant the attribute A)(),()(21AEntSSSIAGainm 第21頁/共41頁第二十二頁,共41頁。2022-4-1923Contrasting class: Undergraduate students (=130)gendermajorbirth_countryage_rangegpacountMFMFMFScience Science Engineering Science Science Engineering Ca
7、nada Foreign Foreign Foreign Canada Canada 20-25 25-30 25-30 25-30 20-25 20-25 Very_good ExcellentExcellent Excellent Excellent Excellent 16221825 2118gendermajorbirth_countryage_rangegpacountMFMFMFScience Business Business Science Engineering Engineering Foreign Canada Canada Canada Foreign Canada2
8、0 20 2020-2520-2520 Very_goodFairFairFair Very_good Excellent 18202224 2224第22頁/共41頁第二十三頁,共41頁。2022-4-192416221825 2118countGSGSGSGSGSGSVery_good ExcellentExcellent Excellent Excellent Excellent 20-25 25-30 25-30 25-30 20-25 20-25 Canada Foreign Foreign Foreign Canada Canada Science Science Engineer
9、ing Science Science Engineering MFMFMFclassgpaage_rangebirth_countrymajorgender18202224 2224SSSSSSVery_goodFairFairFair Very_good Excellent 20 20 2020-2520-2520 Foreign Canada Canada Canada Foreign CanadaScience Business Business Science Engineering Engineering MFMFMF第23頁/共41頁第二十四頁,共41頁。2022-4-19259
10、988. 0250130log250130250120log250120)130,120(),(2221 ISSI suppose attribute major is selected to partition the training setfor major = “Science”: S11 = 84, S21 = 429183. 012642log1264212684log12684),(222111 SSIfor major = “Engineer”: S12 = 36, S22 = 469892. 08246log82468236log8236),(222212 SSIfor ma
11、jor = “Engineer”: S13 = 0, S23 = 420),(2313 SSI then the entropy of major is7873. 0),(25042),(25082),(250126)(231322122111 SSISSISSImajorEnt第24頁/共41頁第二十五頁,共41頁。2022-4-1926 now suppose we use an attribute relevance threshold of 0.1:gender and birth_country are removed as weakly relevant attributesmaj
12、or, gpa, and age_range are kept as strong relevant attributes2115. 0)(),()(21 majorEntSSImajorGain we can also get the information gain of other attributes:5971. 0)_(4490. 0)(0407. 0)_(0003. 0)( rabgeageGaingpaGaincountrybirthGaingenderGain第25頁/共41頁第二十六頁,共41頁。2022-4-1927第26頁/共41頁第二十七頁,共41頁。2022-4-19
13、28第27頁/共41頁第二十八頁,共41頁。2022-4-1929Prime generalized relation for the contrasting class: Undergraduate studentsbirth_countryage_rangegpacount %CanadaCanadaCanadaOther20-2525-30Over_30 Over_30 Good Good Very_good Excellent 5.532.32 5.86 4.68 birth_countryage_rangegpacount %CanadaCanadaCanadaOther15-201
14、5-20 25-30 Over_30 Fair Good Good Excellent5.53 4.535.02 0.68第28頁/共41頁第二十九頁,共41頁。2022-4-1930 NiiajaCqcountCqcountweightd1)()(_discriminant rule is sufficient condition of the target classexample:statusbirth_countryage_rangegpacountGraduateCanada25-30Good90UndergraduateCanada 25-30 Good210 X,graduate
15、_student(X) birth_country(X)=“Canada” age_range(X)=“25-30” gpa(X)=“good”d:30%第29頁/共41頁第三十頁,共41頁。2022-4-1931第30頁/共41頁第三十一頁,共41頁。2022-4-1932 X, target_class(X) condtion1(X)t:w1, d:w1condtionn(X)t:wn, d:wn X, Europe(X) (item(X)=“TV”)t:25%, d:40%(item(X)=“computer”)t:75%,d:30第31頁/共41頁第三十二頁,共41頁。2022-4-1
16、933measures for central tendency:meanmedianmodemidrangemeasures for dispersion:quartilesvariancestandard deviation第32頁/共41頁第三十三頁,共41頁。2022-4-1934 Mean weighted arithmetic mean (algebraic) niixnx11 niiniiiwxwx11第33頁/共41頁第三十四頁,共41頁。2022-4-1935 (algebraic) standard deviation the square root of s2 (algebraic) nininiiiixnxnxxns1121222111)(11第34頁/共41頁第三十五頁,共41頁。2022-4-1936
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025江蘇省安全員《A證》考試題庫
- 靈芝種植產(chǎn)業(yè)基地項目可行性研究報告-靈芝市場需求持續(xù)擴大
- 廣州中醫(yī)藥大學《試劑生產(chǎn)工藝》2023-2024學年第一學期期末試卷
- 2025青海省建筑安全員-B證考試題庫及答案
- 廣州醫(yī)科大學《哲學通論》2023-2024學年第一學期期末試卷
- 2025遼寧建筑安全員考試題庫
- 2025年江蘇建筑安全員考試題庫及答案
- 2025年-江蘇省安全員《B證》考試題庫及答案
- 《FOOD中國飲食文化》課件
- 【語文課件】冀中的地道戰(zhàn)課件
- 你比我猜成語
- 異質(zhì)結完整分
- 膿毒癥1小時bundle質(zhì)量控制
- 第7講 高斯光束的聚焦和準直課件
- 骨科患者術后疼痛管理的新進展
- 小學生三好學生競選演講稿PPT幻燈片
- 01S201室外消火栓安裝圖集
- 蒸餾酒及配制酒衛(wèi)生檢驗原始記錄
- 高一英語外研版必修一(2019)Unit 1 Period 8 Writing-Writing a journal entry(學案)
- 鉆井HSE作業(yè)風險控制
- S7-200SMARTPLC應用技術PPT完整全套教學課件
評論
0/150
提交評論