![【最新】R語言關(guān)聯(lián)分析模型報(bào)告案例附代碼數(shù)據(jù)_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/13/bee6e447-e68c-4582-a97e-311f0bf51018/bee6e447-e68c-4582-a97e-311f0bf510181.gif)
![【最新】R語言關(guān)聯(lián)分析模型報(bào)告案例附代碼數(shù)據(jù)_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/13/bee6e447-e68c-4582-a97e-311f0bf51018/bee6e447-e68c-4582-a97e-311f0bf510182.gif)
![【最新】R語言關(guān)聯(lián)分析模型報(bào)告案例附代碼數(shù)據(jù)_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/13/bee6e447-e68c-4582-a97e-311f0bf51018/bee6e447-e68c-4582-a97e-311f0bf510183.gif)
![【最新】R語言關(guān)聯(lián)分析模型報(bào)告案例附代碼數(shù)據(jù)_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/13/bee6e447-e68c-4582-a97e-311f0bf51018/bee6e447-e68c-4582-a97e-311f0bf510184.gif)
![【最新】R語言關(guān)聯(lián)分析模型報(bào)告案例附代碼數(shù)據(jù)_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/13/bee6e447-e68c-4582-a97e-311f0bf51018/bee6e447-e68c-4582-a97e-311f0bf510185.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、精選公文范文,管理類,工作總結(jié)類,工作計(jì)劃類文檔,歡迎閱讀下載【最新】R語言關(guān)聯(lián)分析模型報(bào)告案例附代碼數(shù)據(jù)【原創(chuàng)】附代碼數(shù)據(jù)有問題到淘寶找 大數(shù)據(jù)部落”就可以了關(guān)聯(lián)分析目錄一、概括.1 二、 數(shù) 據(jù) 清洗1公 立 學(xué)費(fèi) 1畢 業(yè) 率 1貸 款 率 2償 還 2畢 業(yè) 薪精選公文范文,管理類,工作總結(jié)類,工作計(jì)劃類文檔,感謝閱讀下載 1 =精選公文范文,管理類,工作總結(jié)類,工作計(jì)劃類文檔,歡迎閱讀下載=水。 3私 立 學(xué) 費(fèi)3 入學(xué) 率4三、Apriori 算法4相關(guān)概念5算法流程6優(yōu)缺點(diǎn)7四、 模型建立及結(jié)果8公立模 11I【原創(chuàng)】附代碼數(shù)據(jù) 有問題到淘寶找大數(shù)據(jù)部落”就可以了 一、概括對(duì)77
2、03條樣本數(shù)據(jù),分別根據(jù)公立學(xué)費(fèi)和私立學(xué)費(fèi)差異,建立 公立模型和私立模型,進(jìn)行關(guān)聯(lián)分析。 二、數(shù)據(jù)清洗公立學(xué)費(fèi) 此字 段,存在4個(gè)負(fù)值,與實(shí)際情況不符, 故將此四個(gè)值重新定義為 NULL。重新定義后,NULL值的占比為75%,占比 很大,不能直接將NULL值刪除或者進(jìn) 行插補(bǔ),故將NULL單獨(dú)作為一個(gè)取值 分組。 對(duì)非NULL的值按照等比原則進(jìn)行分組,分組結(jié)果如下:A: 0,5896B: (5896,7754 C: (7754, 9975 D: (9975, 13819 E: (13819, +分組后取值分布 382 NULL 5796 畢業(yè)率為:A 382B 381 C 381 D 381
3、EPrivacySuppressedt1重新定義為 NULL)精選公文范文,管理類,工作總結(jié)類,工作計(jì)劃類文檔,感謝閱讀下載 重新定義后,NULL值的占比為20%, 占比較大,不適合直接刪除或進(jìn)行插補(bǔ),故將NULL單獨(dú)作為一個(gè)取值分 組。 對(duì)非NULL值根據(jù)等比原則進(jìn) 行分組,分組結(jié)果如下:5【原創(chuàng)】附代碼數(shù)據(jù) 有問題到淘寶找大數(shù)據(jù)部落”就可以了 A: 0, B: (, C: (, D : (, E : (, + 分組 后取值分布為: A 1255 B 1237 C 1190 D 1286 E 1219 NULL 1516 貸款率 將 PrivacySuppressed值重新定義為NULL,重
4、新定義后,NULL值的占比為 20%,占比較大,不適合直接刪除或進(jìn)行插補(bǔ),故將NULL單獨(dú)作為一個(gè) 取值分組。對(duì)非NULL的值按照等比原則進(jìn)行分組,分組結(jié)果如下:A: 0,9500 B : (9500,12000 C: (12000,19197D: (19197, 25537 E: (25537, +分組后取值分布為:A 1702 B 847 C 1127 D1225 E 1225 NULL 1577 償還率 將 PrivacySuppressed重新定義為 NULL , 重新定義后,NULL值的占比為20%, 精選公文范文,管理類,工作總結(jié)類,工作計(jì)劃類文檔,感謝閱讀下載 4 占比較大,不適
5、合直接刪除或進(jìn)行插補(bǔ),故將NULL單獨(dú)作為一個(gè)取值分 組。 對(duì)非NULL的值按照等比原則進(jìn)行分組,分組結(jié)果如下:5【原創(chuàng)】附代碼數(shù)據(jù) 有問題到淘寶 找大數(shù)據(jù)部落”就可以了A: 0,9500 B : (9500,12000 C: (12000,19197D: (19197, 25537 E: (25537, +分組后取值分布為:A 1702 B 847 C 1127 D1225 E 1225 NULL 1577 畢業(yè)薪水。將 PrivacySuppressed值重新定義為NULL ,重新定義后,NULL值的占比為 19%,占比較大,不適合直接刪除或進(jìn)行插補(bǔ),故將NULL單獨(dú)作為一個(gè) 取值分組。
6、對(duì)非NULL的值按照等比原則進(jìn)行分組,分組結(jié)果如下:A:0, B: (, C: (, D: (, E: (, + 分組后取值分布為:A 1255 B 1278 C1240 D 1207 E 1248 NULL 1475 私立 學(xué)費(fèi) 此字段,存在1個(gè)負(fù)值,與實(shí) 際情況不符,故將此值重新定義為NULL。重新定義后,NULL值的占比為精選公文范文,管理類,工作總結(jié)類,工作計(jì)劃類文檔,感謝閱讀下載 5 40%,占比很大,不能宜接將 NULL值 刪除或者進(jìn)行插補(bǔ),故將 NULL單獨(dú)作 為一個(gè)取值分組。5【原創(chuàng)】附代碼數(shù)據(jù) 有問題到淘寶找 大數(shù)據(jù)部落”就可以了 對(duì)非NULL的值按照等比原則進(jìn)行分 組,分組
7、結(jié)果如下:A : 0,12111 B: (12111,16409 C: (16409, 19805 D:(19805, 23780 E: (23780, +分組后取值分布為:A 93B 937 C 937 D 937E 93NULL 3016入學(xué)率數(shù)據(jù)中,NULL值的占比為69%,占比很大, 不能宜接將 NULL值刪除或者進(jìn)行插補(bǔ),故將NULL單獨(dú)作為一個(gè)取值分組 對(duì)非NULL的值按照等比原則進(jìn)行分組,分組結(jié)果如下:A: 0, B: (, C:(,D: (, E: (, +為:A 466分組后取值分布B 507 C 484 D 325 E620 NULL 5301 三、 Apriori 算 法
8、 Apriori algorithm是關(guān)聯(lián)規(guī)則里一項(xiàng)基本 算法。其核心思想是通過候選集生5精選公文范文,管理類,工作總結(jié)類,工作計(jì)劃類文檔,感謝閱讀下載 6 精選公文范文,管理類,工作總結(jié)類,工作計(jì)劃類文檔,歡迎閱讀下載【原創(chuàng)】附代碼數(shù)據(jù) 有問題到淘寶 找 大數(shù)據(jù)部落”就可以了 成和情 節(jié)的向下封閉檢測(cè)兩個(gè)階段來挖掘頻繁 項(xiàng)集,是 Rakesh Agrawal和 Ramakrishnan Srikant兩位博士在1994年提出的關(guān)聯(lián)規(guī) 則挖掘算法。關(guān)聯(lián)規(guī)則的目的就是在一 個(gè)數(shù)據(jù)集中找出項(xiàng)與項(xiàng)之間的關(guān)系,也 被稱為購物藍(lán)分析(Market Basket analysis),購物藍(lán)分析”很貼切的表
9、達(dá)了 適用該算法情景中的一個(gè)子集。關(guān)于這 個(gè)算法有一個(gè)非常有名的故事:尿布和啤酒。故事是這樣的:美國(guó)的婦女們經(jīng) 常會(huì)囑咐她們的丈夫下班后為孩子買尿 布,而丈夫在買完尿布后又要順 手買回 自己愛喝的啤酒,因此啤酒和尿布在一 起被購買的機(jī)會(huì)很多。這個(gè)舉措使尿布 和啤酒的銷量雙雙增加,并一直為眾商 家所津津樂道。相關(guān)概念用R語言進(jìn)行關(guān)聯(lián)分析,涉及到的相關(guān)概念 如下: 資料庫:存儲(chǔ)著二維結(jié)構(gòu)的 記錄集。定義為:Do所有項(xiàng)集:所有 項(xiàng)目的集合。定義為:I。 記錄: 精選公文范文,管理類,工作總結(jié)類,工作計(jì)劃類文檔,感謝閱讀下載 7 在資料庫里的一筆記錄。定義為:T,T W Do項(xiàng)集:同時(shí)出現(xiàn)的項(xiàng)的集合。
10、定義 為:k-itemset, k均表示項(xiàng)數(shù)。支持度:定義為 supp(X) = occur(X) / count(D) = P(X)。P(A n 碟示既有 A 又 有B的概率。支持度是指在所有項(xiàng)集中 X, Y出現(xiàn)的可能性,即項(xiàng)集中同時(shí)含 有X和Y的概率。該指標(biāo)作為建立強(qiáng)關(guān) 聯(lián)規(guī)則的第一個(gè)門檻,衡量了所考察關(guān) 聯(lián)規(guī)則在量”上的多少。例如購物籃分 析:牛奶?面包,支持度3%:意味著3% 顧客同時(shí)購買牛奶和面包。置信度:定義為 conf(X-Y) = supp(X U Y) / supp(X) = P(Y|X) o P(B|A),在 A 發(fā)生 的事件中同時(shí)發(fā)生 B 的概率 p(AB)/P(A)。置
11、信度表示在先決條件X發(fā)生的條件下,關(guān)聯(lián)結(jié)果Y發(fā)生的概率。 這是生成強(qiáng)關(guān)聯(lián)規(guī)則的第二個(gè)門檻,衡 量了所考察的關(guān)聯(lián)規(guī)則在質(zhì)”上的可靠 性。例如購物籃分析:牛奶?面包,置信 度40%:意味著購買牛奶的顧客40%也 購買面包。候選集:通過向下合并得出的項(xiàng)集。定義為Cko頻繁k項(xiàng)集: 如果事件A中包含k個(gè)元素,那么稱這 個(gè)事件A為k項(xiàng)集事件 5【原創(chuàng)】附代碼數(shù)據(jù) 有問題到淘寶 找 大數(shù)據(jù)部落”就可以了 A滿足 最小支持度閾值的事件稱為頻繁k項(xiàng)集。 即支持度大于等于特定的最小支持度的 項(xiàng)集,表示為L(zhǎng)k。注意,頻繁集的子 集一定是頻繁集。強(qiáng)規(guī)則:同時(shí)滿足最小支持度閾值和最小置信度閾值的 規(guī)則稱為強(qiáng)規(guī)則。即l
12、ift(X - Y) = lift(Y - X) = conf(X - Y)/supp(Y) = conf(Y - X)/supp(X) = P(X andY)/(P(X)P(Y)。 提升度:提升度表示在含有X的條件下 同時(shí)含有Y的可能性與沒有X這個(gè)條件 下項(xiàng)集中含有Y的可能性之比。該指標(biāo) 與置信度同樣衡量規(guī)則的可靠性,可以 看作是置信度的一種互補(bǔ)指標(biāo)。有用的 規(guī)則的提升度大于 1。 算法流程 為了提高頻繁項(xiàng)目的挖掘效率, Apriori 算法利用了兩個(gè)重要的性質(zhì),用于壓縮 搜索的空間: 1,若X為頻繁項(xiàng)目 精選公文范文,管理類,工作總結(jié)類,工作計(jì)劃類文檔,感謝閱讀下載 9 集,則X的所有子集
13、都是頻繁項(xiàng)目集。 2,若X為非頻繁項(xiàng)目集,則X的所有 超集均為非頻繁項(xiàng)目集。Apriori算法的處理流程為:寬度優(yōu)先搜索整個(gè) 項(xiàng)集空間,從k=0開始,迭代產(chǎn)生長(zhǎng)度 為k+1的候選項(xiàng)集的集合Ck+1。候選項(xiàng) 集是其所有子集都是頻繁項(xiàng)集的項(xiàng)集。C1I0中所有的項(xiàng)構(gòu)成,在第k層產(chǎn)生所 有長(zhǎng)度為k+1的項(xiàng)集。這兩步完成:第 一步,F(xiàn)k自連接。將Fk中具有相同(k-1)- 前綴的項(xiàng)集連接成長(zhǎng)度為k的候選項(xiàng)集。 第二步是剪枝,如果項(xiàng)集的所有長(zhǎng)度為k 的子集都在Fk中,該項(xiàng)集才能作為候選 項(xiàng)集被加入Ck+1中。為了計(jì)算所有長(zhǎng)度 為k的候選項(xiàng)集的支持度,在數(shù)據(jù)庫水 平表示方式下,需要掃描數(shù)據(jù)庫一遍。 在每次掃
14、描中,對(duì)數(shù)據(jù)庫中的每條交易 記錄,為其中所包含的所有候選k-項(xiàng)集的支持度計(jì)數(shù)加1。所有頻繁的k-項(xiàng)集 被加入Fk中。此過程直至Ck+1等于空 集時(shí)結(jié)束。簡(jiǎn)單的講,1過程為:掃描;計(jì)數(shù);比較; 51原精選公文范文,管理類,工作總結(jié)類,工作計(jì)劃類文檔,歡迎閱讀下載創(chuàng)】附代碼數(shù)據(jù)有問題到淘寶找大數(shù)據(jù)部落”就可以了 產(chǎn)生頻繁 項(xiàng)集; 連接、剪枝,產(chǎn)生候選項(xiàng)集; 重復(fù)步驟直到不能發(fā)現(xiàn)更大的頻集。圖為舉例圖示。圖Apriori舉例圖示 優(yōu)缺點(diǎn) Apriori算法的 優(yōu)點(diǎn):Apriori的關(guān)聯(lián)規(guī)則是在頻繁項(xiàng)集 基礎(chǔ)上產(chǎn)生的,進(jìn)而這可以保證這些規(guī) 則的支持度達(dá)到指定的水平,具有普遍 性和令人信服的水平。 Apriori算法 的缺點(diǎn):需要多次掃描數(shù)據(jù)庫;生成大 量備選項(xiàng)集;計(jì)數(shù)工作量太大。5【原創(chuàng)】附代碼數(shù)據(jù)有問題到淘寶找 大數(shù)據(jù)部落”就可以了四、模型建立及結(jié)果公立模型此模型使用字段為:公立學(xué)費(fèi)、畢業(yè)率、貸 款率、償還率、畢業(yè)薪水,入學(xué)率。因?yàn)镹ULL對(duì)實(shí)際情況無意義,因此除 去取值中有NULL的樣本,剩余樣本數(shù) 為589。對(duì)剩余樣本進(jìn)行關(guān)聯(lián)分析,模型性能參數(shù)如下:提升度越高,說明規(guī)則兩邊同時(shí)出現(xiàn)比只
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年廣東公務(wù)員考試行測(cè)試題
- 2024婚禮司儀主持詞開場(chǎng)白模版(33篇)
- 2024西安市房屋租賃合同范本(22篇)
- 2025年個(gè)人資產(chǎn)轉(zhuǎn)讓協(xié)議官方版
- 2025年代理出口合作協(xié)議范例
- 2025年農(nóng)村自用土地轉(zhuǎn)讓合同示例
- 2025年油污清潔劑項(xiàng)目立項(xiàng)申請(qǐng)報(bào)告模板
- 2025年公路清障車項(xiàng)目規(guī)劃申請(qǐng)報(bào)告模稿
- 2025年中國(guó)郵政快遞運(yùn)輸合同標(biāo)準(zhǔn)
- 2025年快遞員職業(yè)技能培訓(xùn)與發(fā)展協(xié)議
- 新教科版一年級(jí)科學(xué)下冊(cè)第一單元《身邊的物體》全部課件(共7課時(shí))
- 2025年中國(guó)水解聚馬來酸酐市場(chǎng)調(diào)查研究報(bào)告
- 高考百日誓師動(dòng)員大會(huì)
- 2025江蘇常州西太湖科技產(chǎn)業(yè)園管委會(huì)事業(yè)單位招聘8人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025年北京控股集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 2024年北京東城社區(qū)工作者招聘筆試真題
- 信息技術(shù)必修一《數(shù)據(jù)與計(jì)算》第三章第三節(jié)《數(shù)據(jù)分析報(bào)告與應(yīng)用》說課稿
- 2024新人教版初中英語單詞表默寫版(七~九年級(jí))
- 體育科學(xué)急救知識(shí)
- 復(fù)工復(fù)產(chǎn)質(zhì)量管理工作
- 2025年東方電氣集團(tuán)東方鍋爐股份限公司校園招聘高頻重點(diǎn)提升(共500題)附帶答案詳解
評(píng)論
0/150
提交評(píng)論