




已閱讀5頁(yè),還剩25頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)分析與挖掘 大數(shù)據(jù)與數(shù)據(jù)挖掘 課程的背景 2 中國(guó)大數(shù)據(jù)發(fā)展調(diào)查報(bào)告 2018年 2017年中國(guó)大數(shù)據(jù)產(chǎn)業(yè)總體規(guī)模為4700億元人民幣 同比增長(zhǎng)30 預(yù)計(jì)2018 2020年增速將保持在30 以上 大部分企業(yè)均已意識(shí)到數(shù)據(jù)分析對(duì)企業(yè)發(fā)展的重要性 近四成的企業(yè)已經(jīng)應(yīng)用了大數(shù)據(jù) 與2016年相比上升4 5 金融等領(lǐng)域大數(shù)據(jù)應(yīng)用增加趨勢(shì)較為明顯 企業(yè)應(yīng)用大數(shù)據(jù)所帶來(lái)的主要效果包括實(shí)現(xiàn)智能決策 提升運(yùn)營(yíng)效率和改善風(fēng)險(xiǎn)管理 3 我們身邊的大數(shù)據(jù) 4 百度地圖的定位數(shù)據(jù) 對(duì)大數(shù)據(jù)的初步認(rèn)識(shí) 1 除夕夜哈爾濱遷徙地圖 三十多年來(lái) 我國(guó)春運(yùn)大軍從1億多人次到36億人次春運(yùn)的最熱現(xiàn)象是逆向過(guò)年 即老人們到孩子工作的地方過(guò)年 6 對(duì)大數(shù)據(jù)的初步認(rèn)識(shí) 2 大數(shù)據(jù)與交通擁堵 7 一卡通大量使用 乘客出行的海量數(shù)據(jù)預(yù)埋傳感器 收集車流量 客流量信息衛(wèi)星地圖數(shù)據(jù)對(duì)道路交通情況進(jìn)行分析出租車提供實(shí)時(shí)數(shù)據(jù) 了解主要道路的路況智能手機(jī)使用地圖應(yīng)用 分析出實(shí)時(shí)的道路交通擁堵狀況 出行流動(dòng)趨勢(shì)或特定區(qū)域的人員聚集程度 對(duì)大數(shù)據(jù)的初步認(rèn)識(shí) 3 大數(shù)據(jù)分析電信詐騙 根據(jù)2015年的統(tǒng)計(jì)數(shù)據(jù) 我國(guó)公民個(gè)人信息泄露數(shù)量已經(jīng)達(dá)到40億條左右 剛?cè)×送ㄖ獣陀兄鷮W(xué)金詐騙電話剛買了房就有無(wú)數(shù)裝修公司的電話 8 大數(shù)據(jù)的基本特征 9 用4個(gè)V來(lái)總結(jié) Volume Variety Value和Velocity數(shù)據(jù)體量大 從TB級(jí)別 躍升到PB數(shù)據(jù)多樣性 多為非結(jié)構(gòu)型數(shù)據(jù) 如網(wǎng)絡(luò)日志 視頻 圖片 地理位置信息價(jià)值密度低 以視頻為例 連續(xù)不間斷監(jiān)控過(guò)程中 可能有用的數(shù)據(jù)僅僅有一兩秒速度快 產(chǎn)生了大量的高速動(dòng)態(tài)數(shù)據(jù)流 對(duì)數(shù)據(jù)流的實(shí)時(shí)分析與處理要求不斷增加 數(shù)據(jù)處理的越及時(shí) 產(chǎn)生的價(jià)值越大 10 大數(shù)據(jù)基本特征的第五個(gè)V Veracity數(shù)據(jù)的不確定性 數(shù)據(jù)挖掘 DataMining 11 概念從大量數(shù)據(jù)中抽取出 隱含的 有潛在用途的 未知的 人們可以理解的 有價(jià)值的信息和模式的過(guò)程 這些新發(fā)現(xiàn)的規(guī)律 模式 信息和概念具有潛在使用價(jià)值 數(shù)據(jù)挖掘背后的大數(shù)據(jù)思維 尋找特效藥 科學(xué)家們通常需要分析疾病產(chǎn)生的原因 尋找能夠消除這些原因的物質(zhì) 然后合成新藥 是一個(gè)非常漫長(zhǎng)的過(guò)程 而且費(fèi)用非常高 有了大數(shù)據(jù) 尋找特效藥的方法就和過(guò)去有所不同了 斯坦福大學(xué)醫(yī)學(xué)院發(fā)現(xiàn) 原來(lái)用于治療心臟病的某種藥物對(duì)治療某種胃病特別有效 這種方法 實(shí)際上依靠的并非因果關(guān)系 而是一種強(qiáng)關(guān)聯(lián)關(guān)系 即A藥對(duì)B病有效 至于為什么有效 接下來(lái)3年的研究工作實(shí)際上就是在反過(guò)來(lái)尋找原因 這種先有結(jié)果再反推原因的做法 和過(guò)去通過(guò)因果關(guān)系推導(dǎo)出結(jié)果的做法截然相反 無(wú)疑 這樣的做法會(huì)比較快 當(dāng)然 前提是有足夠多的數(shù)據(jù)支持 12 在大數(shù)據(jù)時(shí)代 我們能夠得益于一種新的思維方法 從大量的數(shù)據(jù)中直接找到答案 即使不知道原因 數(shù)據(jù)挖掘背后的大數(shù)據(jù)思維 在數(shù)據(jù)挖掘的思想中 知識(shí)的學(xué)習(xí)是不需要通過(guò)具體問(wèn)題的專業(yè)知識(shí)建模 這其實(shí)是模擬了人的原始學(xué)習(xí)過(guò)程 比如你要預(yù)測(cè)一個(gè)人跑100米要多久時(shí)間 可以根據(jù)之前了解的他這樣體型的人跑100米用的多少時(shí)間做一個(gè)估計(jì) 而不會(huì)使用牛頓定律來(lái)算 13 數(shù)據(jù)挖掘 DataMining一般流程 14 數(shù)據(jù)挖掘 DataMining功能 關(guān)聯(lián)規(guī)則分類與預(yù)測(cè)聚類分析 15 數(shù)據(jù)挖掘 DataMining關(guān)聯(lián)規(guī)則 16 關(guān)聯(lián)規(guī)則 零售業(yè)應(yīng)用 幾十年來(lái) 大型零售商塔吉特收集了海量的數(shù)據(jù) 記錄了每一位經(jīng)常光顧其各分店的顧客數(shù)據(jù) 發(fā)現(xiàn)女客戶會(huì)在懷孕四個(gè)月左右 大量購(gòu)買無(wú)香味乳液 由此挖掘出25項(xiàng)與懷孕高度相關(guān)的商品 制作 懷孕預(yù)測(cè) 指數(shù) 推算出預(yù)產(chǎn)期后 就能搶先一步 將孕婦裝 嬰兒床等折扣券寄給客戶 在接下來(lái)的幾年中會(huì)根據(jù)嬰兒的生長(zhǎng)周期定期給這些顧客推送相關(guān)產(chǎn)品 使這些客戶形成長(zhǎng)期的忠誠(chéng)度 17 數(shù)據(jù)挖掘 DataMining分類與預(yù)測(cè) 18 數(shù)據(jù)挖掘分類與預(yù)測(cè)金融創(chuàng)新產(chǎn)品設(shè)計(jì) 19 數(shù)據(jù)挖掘 DataMining時(shí)間序列分析 20 數(shù)據(jù)挖掘 DataMining時(shí)間序列分析 時(shí)間序列預(yù)測(cè)即以時(shí)間序列所能反映的社會(huì)經(jīng)濟(jì)現(xiàn)象的發(fā)展過(guò)程和規(guī)律性 進(jìn)行引伸外推 預(yù)測(cè)其發(fā)展趨勢(shì)的方法 簡(jiǎn)單來(lái)說(shuō)就是從已知事件測(cè)定未知事件 時(shí)間序列數(shù)據(jù)的趨勢(shì)變動(dòng)可分為以下四點(diǎn) 趨勢(shì)性 周期性 隨機(jī)性 綜合性預(yù)測(cè)時(shí)一般設(shè)法過(guò)濾除去不規(guī)則變動(dòng) 突出反映趨勢(shì)性和周期性變動(dòng) 21 數(shù)據(jù)挖掘 DataMining聚類分析 22 數(shù)據(jù)挖掘 DataMining社交網(wǎng)絡(luò) 輿情分析 23 社交網(wǎng)絡(luò)的分析 社交網(wǎng)絡(luò)中社區(qū)圈子的識(shí)別社交網(wǎng)絡(luò)中人物影響力的計(jì)算信息在社交網(wǎng)絡(luò)上的傳播模型虛假信息和機(jī)器人賬號(hào)的識(shí)別基于社交網(wǎng)絡(luò)信息對(duì)股市 大選以及傳染病的預(yù)測(cè)社交網(wǎng)絡(luò)的分析和研究是一個(gè)交叉領(lǐng)域的學(xué)科通常會(huì)利用社會(huì)學(xué) 心理學(xué)甚至是醫(yī)學(xué)上的基本結(jié)論和原理作為指導(dǎo)通過(guò)人工智能領(lǐng)域中使用的機(jī)器學(xué)習(xí) 圖論等算法對(duì)社交網(wǎng)絡(luò)中的群體行為和未來(lái)的趨勢(shì)進(jìn)行模擬和預(yù)測(cè) 24 大數(shù)據(jù)帶給數(shù)據(jù)挖掘的 25 神經(jīng)網(wǎng)絡(luò)在幾十年前就有了因?yàn)樗麄冃枰罅康?訓(xùn)練 對(duì)早期研究者來(lái)說(shuō) 想要獲得不錯(cuò)效果的最小量訓(xùn)練都遠(yuǎn)遠(yuǎn)超過(guò)計(jì)算能力和能提供的數(shù)據(jù)的大小團(tuán)隊(duì)通過(guò)在網(wǎng)絡(luò)圍棋對(duì)戰(zhàn)平臺(tái)上最強(qiáng)人類對(duì)手 百萬(wàn)級(jí)的對(duì)弈落子去訓(xùn)練 數(shù)據(jù)挖掘 DataMining大數(shù)據(jù)管理與挖掘案例 隨著我們通過(guò)電話 信用卡 電子商務(wù) 互聯(lián)網(wǎng)和電子郵件留下更多的生活痕跡 大數(shù)據(jù)不斷增長(zhǎng)的商業(yè)影響也在如下時(shí)刻表現(xiàn)出來(lái) 你搜索飛往哈爾濱的航班 然后便看到網(wǎng)站上出現(xiàn)了當(dāng)?shù)刭e館的打折信息你光顧的商店在對(duì)顧客行為進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ)上獲取最大化的利潤(rùn)用算法預(yù)測(cè)人們購(gòu)票需求 航空公司以不可預(yù)知的方式調(diào)整價(jià)格智能手機(jī)的應(yīng)用識(shí)別到你的位置 因此你收到附近餐廳的服務(wù)信息 26 數(shù)據(jù)挖掘 DataMining大數(shù)據(jù)管理與挖掘案例 27 麻省理工學(xué)院創(chuàng)建了一個(gè)計(jì)算機(jī)模型來(lái)分析心臟病病患丟棄的心電圖數(shù)據(jù)他們利用數(shù)據(jù)挖掘在海量的數(shù)據(jù)中篩選 發(fā)現(xiàn)心電圖中出現(xiàn)三類異常者一年內(nèi)死于第二次心臟病發(fā)作的機(jī)率比未出現(xiàn)者高一至二倍這種新方法能夠識(shí)別出更多的 無(wú)法通過(guò)現(xiàn)有的風(fēng)險(xiǎn)篩查被探查出的高危病人 數(shù)據(jù)挖掘 DataMining大數(shù)據(jù)管理與挖掘案例 大約20個(gè)NBA球隊(duì)使用了IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件AdvancedScout系統(tǒng)來(lái)優(yōu)化他們的戰(zhàn)術(shù)組合系統(tǒng)分析顯示兩個(gè)后衛(wèi)哈德衛(wèi)和伯蘭 紹在前兩場(chǎng)中被評(píng)為 17分但當(dāng)哈德衛(wèi)與替補(bǔ)后衛(wèi)阿姆斯創(chuàng)組合時(shí) 魔術(shù)隊(duì)得分為正14分魔術(shù)隊(duì)增加了阿姆斯創(chuàng)的上場(chǎng)時(shí)間 此著果然見效 AdvancedScout是一個(gè)數(shù)據(jù)分析工具 每一場(chǎng)比賽的事件都被統(tǒng)計(jì)分類 按得分 助攻 失誤等等 時(shí)間標(biāo)記讓教練非常容易地通過(guò)搜索NBA比賽的錄像來(lái)理解統(tǒng)計(jì)發(fā)現(xiàn)的含義 28 數(shù)據(jù)挖掘 DataMining大數(shù)據(jù)管理與挖掘案例 頭腦里的大數(shù)據(jù) 人類連接組項(xiàng)目是一項(xiàng)雄心勃勃地試圖繪制出不同腦區(qū)之間相互作用的計(jì)劃 項(xiàng)目使用三種磁共振造影觀察腦的結(jié)構(gòu) 功能和連接 數(shù)據(jù)收集工作完成之時(shí) 連接組獲得大約100萬(wàn)G數(shù)據(jù) 如果區(qū)域A和區(qū)域B自發(fā)地以每秒18個(gè)周期的頻率產(chǎn)生腦波 說(shuō)明它們處于同一網(wǎng)絡(luò)中 將利用整個(gè)大腦中的這些關(guān)聯(lián)數(shù)據(jù)創(chuàng)建一個(gè)表現(xiàn)出腦中的每一個(gè)點(diǎn)如何與其他每一個(gè)點(diǎn)關(guān)聯(lián)的矩陣 29 大數(shù)據(jù)挖掘風(fēng)險(xiǎn)個(gè)人隱私泄露 通
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 頸椎手術(shù)術(shù)前護(hù)理
- 商業(yè)街環(huán)境管理
- 銀行輔導(dǎo)保密協(xié)議書
- 六年級(jí)遵守紀(jì)律協(xié)議書
- 銀行上門收款協(xié)議書
- 配套設(shè)施移交協(xié)議書
- 輕微工傷和解協(xié)議書
- 車輛租用解除協(xié)議書
- 護(hù)理用藥安全培訓(xùn)
- 酒莊設(shè)備轉(zhuǎn)讓協(xié)議書
- 榆次區(qū)王湖村城中村改造安置區(qū)項(xiàng)目(榆次城建?王湖村)環(huán)評(píng)報(bào)告
- 巴西地理課件
- GB/T 37988-2019信息安全技術(shù)數(shù)據(jù)安全能力成熟度模型
- GB/T 17737.5-2013同軸通信電纜第5部分:CATV用干線和配線電纜分規(guī)范
- 網(wǎng)口變壓器簡(jiǎn)介課件
- 財(cái)產(chǎn)份額轉(zhuǎn)讓協(xié)議書2
- 工藝安全信息管理培訓(xùn)課件
- 產(chǎn)前篩查-課件
- 裝配式建筑疊合板安裝技術(shù)交底
- 安全管理人員安全生產(chǎn)責(zé)任制考核表
- 六年級(jí)說(shuō)明文閱讀復(fù)習(xí)公開課課件
評(píng)論
0/150
提交評(píng)論