




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、精選公文范文,管理類,工作總結(jié)類,工作計劃類文檔,歡迎閱讀下載【最新】R語言關(guān)聯(lián)分析模型報告案例附代碼數(shù)據(jù)【原創(chuàng)】附代碼數(shù)據(jù)有問題到淘寶找 大數(shù)據(jù)部落”就可以了關(guān)聯(lián)分析目錄一、概括.1 二、 數(shù) 據(jù) 清洗1公 立 學(xué)費 1畢 業(yè) 率 1貸 款 率 2償 還 2畢 業(yè) 薪精選公文范文,管理類,工作總結(jié)類,工作計劃類文檔,感謝閱讀下載 1 =精選公文范文,管理類,工作總結(jié)類,工作計劃類文檔,歡迎閱讀下載=水。 3私 立 學(xué) 費3 入學(xué) 率4三、Apriori 算法4相關(guān)概念5算法流程6優(yōu)缺點7四、 模型建立及結(jié)果8公立模 11I【原創(chuàng)】附代碼數(shù)據(jù) 有問題到淘寶找大數(shù)據(jù)部落”就可以了 一、概括對77
2、03條樣本數(shù)據(jù),分別根據(jù)公立學(xué)費和私立學(xué)費差異,建立 公立模型和私立模型,進行關(guān)聯(lián)分析。 二、數(shù)據(jù)清洗公立學(xué)費 此字 段,存在4個負(fù)值,與實際情況不符, 故將此四個值重新定義為 NULL。重新定義后,NULL值的占比為75%,占比 很大,不能直接將NULL值刪除或者進 行插補,故將NULL單獨作為一個取值 分組。 對非NULL的值按照等比原則進行分組,分組結(jié)果如下:A: 0,5896B: (5896,7754 C: (7754, 9975 D: (9975, 13819 E: (13819, +分組后取值分布 382 NULL 5796 畢業(yè)率為:A 382B 381 C 381 D 381
3、EPrivacySuppressedt1重新定義為 NULL)精選公文范文,管理類,工作總結(jié)類,工作計劃類文檔,感謝閱讀下載 重新定義后,NULL值的占比為20%, 占比較大,不適合直接刪除或進行插補,故將NULL單獨作為一個取值分 組。 對非NULL值根據(jù)等比原則進 行分組,分組結(jié)果如下:5【原創(chuàng)】附代碼數(shù)據(jù) 有問題到淘寶找大數(shù)據(jù)部落”就可以了 A: 0, B: (, C: (, D : (, E : (, + 分組 后取值分布為: A 1255 B 1237 C 1190 D 1286 E 1219 NULL 1516 貸款率 將 PrivacySuppressed值重新定義為NULL,重
4、新定義后,NULL值的占比為 20%,占比較大,不適合直接刪除或進行插補,故將NULL單獨作為一個 取值分組。對非NULL的值按照等比原則進行分組,分組結(jié)果如下:A: 0,9500 B : (9500,12000 C: (12000,19197D: (19197, 25537 E: (25537, +分組后取值分布為:A 1702 B 847 C 1127 D1225 E 1225 NULL 1577 償還率 將 PrivacySuppressed重新定義為 NULL , 重新定義后,NULL值的占比為20%, 精選公文范文,管理類,工作總結(jié)類,工作計劃類文檔,感謝閱讀下載 4 占比較大,不適
5、合直接刪除或進行插補,故將NULL單獨作為一個取值分 組。 對非NULL的值按照等比原則進行分組,分組結(jié)果如下:5【原創(chuàng)】附代碼數(shù)據(jù) 有問題到淘寶 找大數(shù)據(jù)部落”就可以了A: 0,9500 B : (9500,12000 C: (12000,19197D: (19197, 25537 E: (25537, +分組后取值分布為:A 1702 B 847 C 1127 D1225 E 1225 NULL 1577 畢業(yè)薪水。將 PrivacySuppressed值重新定義為NULL ,重新定義后,NULL值的占比為 19%,占比較大,不適合直接刪除或進行插補,故將NULL單獨作為一個 取值分組。
6、對非NULL的值按照等比原則進行分組,分組結(jié)果如下:A:0, B: (, C: (, D: (, E: (, + 分組后取值分布為:A 1255 B 1278 C1240 D 1207 E 1248 NULL 1475 私立 學(xué)費 此字段,存在1個負(fù)值,與實 際情況不符,故將此值重新定義為NULL。重新定義后,NULL值的占比為精選公文范文,管理類,工作總結(jié)類,工作計劃類文檔,感謝閱讀下載 5 40%,占比很大,不能宜接將 NULL值 刪除或者進行插補,故將 NULL單獨作 為一個取值分組。5【原創(chuàng)】附代碼數(shù)據(jù) 有問題到淘寶找 大數(shù)據(jù)部落”就可以了 對非NULL的值按照等比原則進行分 組,分組
7、結(jié)果如下:A : 0,12111 B: (12111,16409 C: (16409, 19805 D:(19805, 23780 E: (23780, +分組后取值分布為:A 93B 937 C 937 D 937E 93NULL 3016入學(xué)率數(shù)據(jù)中,NULL值的占比為69%,占比很大, 不能宜接將 NULL值刪除或者進行插補,故將NULL單獨作為一個取值分組 對非NULL的值按照等比原則進行分組,分組結(jié)果如下:A: 0, B: (, C:(,D: (, E: (, +為:A 466分組后取值分布B 507 C 484 D 325 E620 NULL 5301 三、 Apriori 算 法
8、 Apriori algorithm是關(guān)聯(lián)規(guī)則里一項基本 算法。其核心思想是通過候選集生5精選公文范文,管理類,工作總結(jié)類,工作計劃類文檔,感謝閱讀下載 6 精選公文范文,管理類,工作總結(jié)類,工作計劃類文檔,歡迎閱讀下載【原創(chuàng)】附代碼數(shù)據(jù) 有問題到淘寶 找 大數(shù)據(jù)部落”就可以了 成和情 節(jié)的向下封閉檢測兩個階段來挖掘頻繁 項集,是 Rakesh Agrawal和 Ramakrishnan Srikant兩位博士在1994年提出的關(guān)聯(lián)規(guī) 則挖掘算法。關(guān)聯(lián)規(guī)則的目的就是在一 個數(shù)據(jù)集中找出項與項之間的關(guān)系,也 被稱為購物藍分析(Market Basket analysis),購物藍分析”很貼切的表
9、達了 適用該算法情景中的一個子集。關(guān)于這 個算法有一個非常有名的故事:尿布和啤酒。故事是這樣的:美國的婦女們經(jīng) 常會囑咐她們的丈夫下班后為孩子買尿 布,而丈夫在買完尿布后又要順 手買回 自己愛喝的啤酒,因此啤酒和尿布在一 起被購買的機會很多。這個舉措使尿布 和啤酒的銷量雙雙增加,并一直為眾商 家所津津樂道。相關(guān)概念用R語言進行關(guān)聯(lián)分析,涉及到的相關(guān)概念 如下: 資料庫:存儲著二維結(jié)構(gòu)的 記錄集。定義為:Do所有項集:所有 項目的集合。定義為:I。 記錄: 精選公文范文,管理類,工作總結(jié)類,工作計劃類文檔,感謝閱讀下載 7 在資料庫里的一筆記錄。定義為:T,T W Do項集:同時出現(xiàn)的項的集合。
10、定義 為:k-itemset, k均表示項數(shù)。支持度:定義為 supp(X) = occur(X) / count(D) = P(X)。P(A n 碟示既有 A 又 有B的概率。支持度是指在所有項集中 X, Y出現(xiàn)的可能性,即項集中同時含 有X和Y的概率。該指標(biāo)作為建立強關(guān) 聯(lián)規(guī)則的第一個門檻,衡量了所考察關(guān) 聯(lián)規(guī)則在量”上的多少。例如購物籃分 析:牛奶?面包,支持度3%:意味著3% 顧客同時購買牛奶和面包。置信度:定義為 conf(X-Y) = supp(X U Y) / supp(X) = P(Y|X) o P(B|A),在 A 發(fā)生 的事件中同時發(fā)生 B 的概率 p(AB)/P(A)。置
11、信度表示在先決條件X發(fā)生的條件下,關(guān)聯(lián)結(jié)果Y發(fā)生的概率。 這是生成強關(guān)聯(lián)規(guī)則的第二個門檻,衡 量了所考察的關(guān)聯(lián)規(guī)則在質(zhì)”上的可靠 性。例如購物籃分析:牛奶?面包,置信 度40%:意味著購買牛奶的顧客40%也 購買面包。候選集:通過向下合并得出的項集。定義為Cko頻繁k項集: 如果事件A中包含k個元素,那么稱這 個事件A為k項集事件 5【原創(chuàng)】附代碼數(shù)據(jù) 有問題到淘寶 找 大數(shù)據(jù)部落”就可以了 A滿足 最小支持度閾值的事件稱為頻繁k項集。 即支持度大于等于特定的最小支持度的 項集,表示為Lk。注意,頻繁集的子 集一定是頻繁集。強規(guī)則:同時滿足最小支持度閾值和最小置信度閾值的 規(guī)則稱為強規(guī)則。即l
12、ift(X - Y) = lift(Y - X) = conf(X - Y)/supp(Y) = conf(Y - X)/supp(X) = P(X andY)/(P(X)P(Y)。 提升度:提升度表示在含有X的條件下 同時含有Y的可能性與沒有X這個條件 下項集中含有Y的可能性之比。該指標(biāo) 與置信度同樣衡量規(guī)則的可靠性,可以 看作是置信度的一種互補指標(biāo)。有用的 規(guī)則的提升度大于 1。 算法流程 為了提高頻繁項目的挖掘效率, Apriori 算法利用了兩個重要的性質(zhì),用于壓縮 搜索的空間: 1,若X為頻繁項目 精選公文范文,管理類,工作總結(jié)類,工作計劃類文檔,感謝閱讀下載 9 集,則X的所有子集
13、都是頻繁項目集。 2,若X為非頻繁項目集,則X的所有 超集均為非頻繁項目集。Apriori算法的處理流程為:寬度優(yōu)先搜索整個 項集空間,從k=0開始,迭代產(chǎn)生長度 為k+1的候選項集的集合Ck+1。候選項 集是其所有子集都是頻繁項集的項集。C1I0中所有的項構(gòu)成,在第k層產(chǎn)生所 有長度為k+1的項集。這兩步完成:第 一步,F(xiàn)k自連接。將Fk中具有相同(k-1)- 前綴的項集連接成長度為k的候選項集。 第二步是剪枝,如果項集的所有長度為k 的子集都在Fk中,該項集才能作為候選 項集被加入Ck+1中。為了計算所有長度 為k的候選項集的支持度,在數(shù)據(jù)庫水 平表示方式下,需要掃描數(shù)據(jù)庫一遍。 在每次掃
14、描中,對數(shù)據(jù)庫中的每條交易 記錄,為其中所包含的所有候選k-項集的支持度計數(shù)加1。所有頻繁的k-項集 被加入Fk中。此過程直至Ck+1等于空 集時結(jié)束。簡單的講,1過程為:掃描;計數(shù);比較; 51原精選公文范文,管理類,工作總結(jié)類,工作計劃類文檔,歡迎閱讀下載創(chuàng)】附代碼數(shù)據(jù)有問題到淘寶找大數(shù)據(jù)部落”就可以了 產(chǎn)生頻繁 項集; 連接、剪枝,產(chǎn)生候選項集; 重復(fù)步驟直到不能發(fā)現(xiàn)更大的頻集。圖為舉例圖示。圖Apriori舉例圖示 優(yōu)缺點 Apriori算法的 優(yōu)點:Apriori的關(guān)聯(lián)規(guī)則是在頻繁項集 基礎(chǔ)上產(chǎn)生的,進而這可以保證這些規(guī) 則的支持度達到指定的水平,具有普遍 性和令人信服的水平。 Apriori算法 的缺點:需要多次掃描數(shù)據(jù)庫;生成大 量備選項集;計數(shù)工作量太大。5【原創(chuàng)】附代碼數(shù)據(jù)有問題到淘寶找 大數(shù)據(jù)部落”就可以了四、模型建立及結(jié)果公立模型此模型使用字段為:公立學(xué)費、畢業(yè)率、貸 款率、償還率、畢業(yè)薪水,入學(xué)率。因為NULL對實際情況無意義,因此除 去取值中有NULL的樣本,剩余樣本數(shù) 為589。對剩余樣本進行關(guān)聯(lián)分析,模型性能參數(shù)如下:提升度越高,說明規(guī)則兩邊同時出現(xiàn)比只
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 建設(shè)工程委托書授權(quán)代表3篇
- 戶口轉(zhuǎn)移證明書3篇
- 加油合同范本3篇
- 工資代發(fā)代表示例格式3篇
- 事故責(zé)任協(xié)議書3篇
- 律師見證委托書撰寫3篇
- 估價委托合同模板3篇
- 搬運設(shè)備虛擬現(xiàn)實培訓(xùn)系統(tǒng)考核試卷
- 社區(qū)老年人生活質(zhì)量評估考核試卷
- 毛皮服裝設(shè)計與時尚配飾搭配技巧考核試卷
- 租電動車電子合同協(xié)議
- 福建省漳州地區(qū)校聯(lián)考2024-2025學(xué)年七年級下學(xué)期期中考試語文試卷(含答案)
- 2025年便利店店員勞動合同
- 2025-2030中國公路瀝青行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2025年人教版五年級(下)期中數(shù)學(xué)試卷
- GB/T 196-2025普通螺紋基本尺寸
- 2025年陜西省漢中市寧強縣中考一模道德與法治試題(含答案)
- 工地分紅合同協(xié)議
- 變配電工多選試題及答案
- 零售業(yè)智能轉(zhuǎn)型:DeepSeek驅(qū)動的消費行為分析與推選系統(tǒng)
- 招商引資知識培訓(xùn)課件
評論
0/150
提交評論