數(shù)據(jù)挖掘?qū)W習(xí)匯報(bào)_第1頁(yè)
數(shù)據(jù)挖掘?qū)W習(xí)匯報(bào)_第2頁(yè)
數(shù)據(jù)挖掘?qū)W習(xí)匯報(bào)_第3頁(yè)
數(shù)據(jù)挖掘?qū)W習(xí)匯報(bào)_第4頁(yè)
數(shù)據(jù)挖掘?qū)W習(xí)匯報(bào)_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2016/11/15秦華妮五邑大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院關(guān)于數(shù)據(jù)挖掘的學(xué)習(xí)匯報(bào)目前一頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)一暑期學(xué)習(xí)介紹二數(shù)據(jù)科學(xué)三案例目前二頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)1.1課程名稱和主講教師(北京大數(shù)據(jù)研究院暑期學(xué)校)一、暑期學(xué)習(xí)介紹目前三頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)1.2專題:fundamentaltechniquesinBigData(李平)目前四頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)目前五頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)目前六頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)目前七頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)用數(shù)據(jù)的方法研究科學(xué)的最典型的例子:開普勒的關(guān)于行星運(yùn)動(dòng)的三大定律二、數(shù)據(jù)科學(xué)開普勒模式與牛頓模式目前八頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)2.2從數(shù)學(xué)的角度研究數(shù)據(jù)?數(shù)據(jù)數(shù)據(jù)建模整個(gè)數(shù)學(xué)模型相關(guān)性、排序、分類、聚類度量結(jié)構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)代數(shù)結(jié)構(gòu)拓?fù)浣Y(jié)構(gòu)函數(shù)結(jié)構(gòu)表格、點(diǎn)集、時(shí)間序列、圖像、視頻、文本等概率分布、隨機(jī)過程、隨機(jī)場(chǎng)、圖模型等算法及實(shí)現(xiàn)(數(shù)據(jù)分析的困難)降低算法的復(fù)雜度分布式計(jì)算目前九頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)數(shù)據(jù)科學(xué)數(shù)學(xué)統(tǒng)計(jì)學(xué)行業(yè)知識(shí)機(jī)器學(xué)習(xí)物聯(lián)網(wǎng)云計(jì)算數(shù)據(jù)挖掘2.3數(shù)據(jù)挖掘的綜合技能目前十頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)數(shù)學(xué)的基礎(chǔ)知識(shí)計(jì)算機(jī)科學(xué)的基礎(chǔ)知識(shí)算法方面的基本知識(shí)數(shù)據(jù)的模型專業(yè)課程其它專業(yè)課程微積分計(jì)算機(jī)語(yǔ)言數(shù)值代數(shù)回歸圖像處理生物信息學(xué)線性代數(shù)數(shù)據(jù)庫(kù)函數(shù)逼近分類時(shí)間序列分析天體信息學(xué)概率論數(shù)據(jù)結(jié)構(gòu)優(yōu)化理論聚類視頻處理金融數(shù)據(jù)分析可視化技術(shù)蒙特卡洛方法參數(shù)估計(jì)自然語(yǔ)言處理網(wǎng)絡(luò)算法文本處理計(jì)算幾何語(yǔ)音識(shí)別推薦系統(tǒng)另外,隨機(jī)過程、函數(shù)逼近論、圖論、拓?fù)鋵W(xué)、幾何、變分法、群論的基礎(chǔ)知識(shí)。

數(shù)學(xué)系不需要一門一門的開設(shè),而是可以開設(shè)一些新的“高等數(shù)學(xué)”課程來覆蓋這些方面的內(nèi)容2.4北大數(shù)據(jù)科學(xué)專業(yè)的探索目前十一頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)2.5數(shù)據(jù)挖掘的10個(gè)重要算法(1)K均值(K-means)方法(2)支持向量機(jī)(SVM)方法(3)期望最大化(EM)算法

(4)網(wǎng)頁(yè)排序算法(PageRank)(5)貝葉斯方法(6)K近鄰方法(7)AdaBoost(8)決策樹算法(9)關(guān)聯(lián)規(guī)則Apriori算法(10)協(xié)同過濾方法(CollaborativeFiltering)其他數(shù)據(jù)分析過程中常用的方法還有:降維(主成分分析、線性判別分析)、隨機(jī)森林、Bagging方法、序列標(biāo)注模型(隱馬模型、條件隨機(jī)場(chǎng))、EM和高斯混合模型(2006年IEEE國(guó)際挖掘會(huì)議選出)目前十二頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)2.6數(shù)據(jù)挖掘的一般過程:數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)規(guī)約分類與預(yù)測(cè)聚類分析關(guān)聯(lián)規(guī)則時(shí)序模型預(yù)測(cè)正確率模型解釋性數(shù)據(jù)預(yù)處理數(shù)據(jù)模型訓(xùn)練模型性能評(píng)估目前十三頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)三、案例案例1、

智慧餐飲案例2

、中醫(yī)輔助決策案例3、商圈分析目前十四頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)餐飲企業(yè)的信息化管理(傳統(tǒng)部分):(1)客戶關(guān)系管理(2)前廳管理系統(tǒng)(3)后廚管理系統(tǒng)(4)財(cái)務(wù)管理系統(tǒng)(5)物資管理系統(tǒng)

餐飲企業(yè)的數(shù)據(jù)挖掘(創(chuàng)新部分):菜品智能推薦、客戶價(jià)值分析、新店選點(diǎn)優(yōu)化、熱銷/滯銷菜品分析銷量趨勢(shì)預(yù)測(cè)案例1、智慧餐飲目前十五頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)餐飲企業(yè)某一個(gè)月菜品的銷售數(shù)據(jù)如下:目前十六頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)(1)銷售數(shù)據(jù)的帕累托柱狀圖:分析可知:暢銷菜:A1,A2,A3;滯銷菜:A8,A9,A10;并且,A1~A7占菜品份額的70%,但是總盈利占月盈利額的85.0033%,可以增加投入。目前十七頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)結(jié)果第一行解釋為:客戶同時(shí)點(diǎn)e與a的概率時(shí)30%,而點(diǎn)了e必點(diǎn)a的概率是100%.

餐飲企業(yè)某段時(shí)間的點(diǎn)餐清單:(2)根據(jù)Apriori算法,可得如下規(guī)則:目前十八頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)消費(fèi)行為特征數(shù)據(jù)如下:(3)消費(fèi)客戶群的價(jià)值分析:目前十九頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)客戶群體1的R、F、M的概率密度函數(shù)圖:客戶群體1特點(diǎn):R間隔相對(duì)較小,主要集中在0~30天;消費(fèi)次數(shù)集中在10~25次,消費(fèi)金額在500~2000元目前二十頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)客戶群體2的R、F、M的概率密度函數(shù)圖:客戶群體2特點(diǎn):R間隔相對(duì)較小,主要集中在0~30天;消費(fèi)次數(shù)集中在0~12次,消費(fèi)金額在0~1800元目前二十一頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)客戶群體3的R、F、M的概率密度函數(shù)圖:客戶群體3特點(diǎn):R間隔相對(duì)較大,主要集中在30~80天;消費(fèi)次數(shù)集中在0~15次,消費(fèi)金額在0~2000元目前二十二頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)客戶價(jià)值分析如下:智慧營(yíng)銷策略:客戶群體1:資源優(yōu)先保持,差異化管理,提高這類客戶的忠誠(chéng)度與滿意度,盡可能延長(zhǎng)這類客戶的高水平消費(fèi);

客戶群體2:加強(qiáng)促銷手段,加強(qiáng)滿意度,提高他們轉(zhuǎn)向競(jìng)爭(zhēng)對(duì)手的轉(zhuǎn)移成本,逐漸使其成為忠誠(chéng)客戶;

客戶群體3:采取一定的營(yíng)銷手段,重點(diǎn)聯(lián)系,爭(zhēng)取延長(zhǎng)客戶的生命周期??蛻羧后w1:高消費(fèi)、高價(jià)值人群;客戶群體2:一般客戶人群;客戶群體3:價(jià)值較低的客戶群體。目前二十三頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)采用TSNE數(shù)據(jù)降維將數(shù)據(jù)進(jìn)行可視化其中紅色代表客戶群體1,綠色代表客戶群體2,藍(lán)色代表客戶群體3目前二十四頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)案例2、中醫(yī)輔助決策肝氣郁結(jié)證型系數(shù)熱毒蘊(yùn)結(jié)證型系數(shù)沖任失調(diào)證型系數(shù)氣血兩虛證型系數(shù)脾胃虛弱證型系數(shù)肝腎陰虛證型系數(shù)0.1750.6820.1710.5350.4190.4470.30.7730.2930.3720.4420.132………………………………0.10.0910.2930.2790.1630.395證型系數(shù)=各證型得分/各證型總分患者編號(hào)肝氣郁結(jié)熱毒蘊(yùn)結(jié)沖任失調(diào)氣血兩虛脾胃虛弱肝腎陰虛TMT分期0017307231817H400212341216195H4…………………………………………930441212715H4目前二十五頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)模型構(gòu)建:1.中醫(yī)證型關(guān)聯(lián)規(guī)則模型(1)設(shè)置參數(shù):最小支持度、最小置信度,讀入數(shù)據(jù)(2)以關(guān)聯(lián)規(guī)則算法對(duì)建模數(shù)據(jù)進(jìn)行分析,調(diào)參運(yùn)行結(jié)果:目前二十六頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)2.模型分析XX=>Y規(guī)則編號(hào)范圍標(biāo)識(shí)1范圍表示2支持度(%)置信度(%)1A3F47.8587.962C3F47.5387.53B2F46.2479.45結(jié)果分析:(1)說明肝氣郁結(jié)證型系數(shù)處于(0.258,0.35],肝腎陰虛證型系數(shù)處于(0.353,0.607]范圍內(nèi),TMT診斷為H4的可能性為87.96%,這種情況發(fā)生的可能性為7.85%(2)C3、F4=>H4支持度為7.53%,置信度為87.5%,分析類似(3)B2、F4=>H4支持度為6.24%,置信度為79.45%,分析類似目前二十七頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)案例3、基于移動(dòng)通信基站定位數(shù)據(jù)的商圈分析基站小區(qū)為六邊形歷史定位數(shù)據(jù)整理得到樣本數(shù)據(jù):目前二十八頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)譜系聚類圖:可將數(shù)據(jù)分成3類,即三個(gè)商圈目前二十九頁(yè)\總數(shù)三十二頁(yè)\編于十四點(diǎn)商圈類別1分析:工作日人

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論