R語(yǔ)言大數(shù)據(jù)分析與挖掘 課件 第一章 大數(shù)據(jù)分析與挖掘概論_第1頁(yè)
R語(yǔ)言大數(shù)據(jù)分析與挖掘 課件 第一章 大數(shù)據(jù)分析與挖掘概論_第2頁(yè)
R語(yǔ)言大數(shù)據(jù)分析與挖掘 課件 第一章 大數(shù)據(jù)分析與挖掘概論_第3頁(yè)
R語(yǔ)言大數(shù)據(jù)分析與挖掘 課件 第一章 大數(shù)據(jù)分析與挖掘概論_第4頁(yè)
R語(yǔ)言大數(shù)據(jù)分析與挖掘 課件 第一章 大數(shù)據(jù)分析與挖掘概論_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章大數(shù)據(jù)分析與挖掘概論知識(shí)要點(diǎn)●了解大數(shù)據(jù)分析與挖掘的概念●了解大數(shù)據(jù)挖掘與大數(shù)據(jù)分析的區(qū)別●了解大數(shù)據(jù)分析與挖掘的應(yīng)用目錄

CONTENT大數(shù)據(jù)分析與挖掘大數(shù)據(jù)分析與挖掘流程大數(shù)據(jù)分析與挖掘應(yīng)用123大數(shù)據(jù)分析與挖掘大數(shù)據(jù)起源與發(fā)展約翰·馬西美國(guó)SGI的首席科學(xué)家“大數(shù)據(jù)”這一概念最早公開(kāi)出現(xiàn)于1998年,約翰·馬西指出:隨著數(shù)據(jù)量的快速增長(zhǎng),必將出現(xiàn)數(shù)據(jù)難理解、難獲取、難處理和難組織等4個(gè)難題,并用“BigData(大數(shù)據(jù))”來(lái)描述這一挑戰(zhàn),在計(jì)算領(lǐng)域引發(fā)思考。吉姆·格雷數(shù)據(jù)庫(kù)領(lǐng)域的先驅(qū)人物2007年,吉姆·格雷指出大數(shù)據(jù)將成為人類觸摸、理解和逼近現(xiàn)實(shí)復(fù)雜系統(tǒng)的有效途徑,并認(rèn)為在實(shí)驗(yàn)觀測(cè)、理論推導(dǎo)和計(jì)算仿真等三種科學(xué)研究范式后,將迎來(lái)第四范式—“數(shù)據(jù)探索”,開(kāi)啟了從科研視角審視大數(shù)據(jù)的熱潮。發(fā)展形成基本共識(shí)大數(shù)據(jù)于2012年、2013年達(dá)到宣傳高潮,2014年后概念體系逐漸成形,對(duì)其認(rèn)知亦趨于理性。經(jīng)過(guò)多年的發(fā)展和沉淀,人們對(duì)大數(shù)據(jù)已經(jīng)形成基本共識(shí):大數(shù)據(jù)現(xiàn)象源于互聯(lián)網(wǎng)及其延伸所帶來(lái)的無(wú)處不在的信息技術(shù)應(yīng)用及信息技術(shù)的不斷低成本化。大數(shù)據(jù)分析與挖掘大數(shù)據(jù)定義大數(shù)據(jù)定義大數(shù)據(jù)(BigData)是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)5V特點(diǎn)大數(shù)據(jù)的5V特點(diǎn)為大量(Volume)、高速(Velocity)、多元(Variety)、價(jià)值(Value)、真實(shí)(Veracity)。●大量(Volume):數(shù)據(jù)量大。數(shù)據(jù)量的大小決定所考慮數(shù)據(jù)的價(jià)值和潛在的信息?!窀咚伲╒elocity):獲得數(shù)據(jù)的速度快?!穸嘣╒ariety):數(shù)據(jù)類型多樣?!駜r(jià)值(Value):合理運(yùn)用大數(shù)據(jù),以低成本創(chuàng)造高價(jià)值。●真實(shí)(Veracity):數(shù)據(jù)準(zhǔn)確可依賴。大數(shù)據(jù)分析與挖掘大數(shù)據(jù)分析與挖掘的概念大數(shù)據(jù)分析數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過(guò)程。這一過(guò)程也是質(zhì)量管理體系的支持過(guò)程。在實(shí)際應(yīng)用中,數(shù)據(jù)分析可幫助人們做出判斷,以便采取適當(dāng)行動(dòng)。大數(shù)據(jù)挖掘大數(shù)據(jù)挖掘又稱為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)中的一個(gè)步驟。大數(shù)據(jù)挖掘一般指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中的信息的過(guò)程。大數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)搜索隱藏于數(shù)據(jù)中的信息。大數(shù)據(jù)分析與挖掘大數(shù)據(jù)分析與挖掘的聯(lián)系與區(qū)別在協(xié)作上的聯(lián)系(1)需要對(duì)大數(shù)據(jù)分析得到的信息進(jìn)一步挖掘,將其轉(zhuǎn)化為有效的預(yù)測(cè)和決策,這時(shí)就需要大數(shù)據(jù)挖掘。(2)大數(shù)據(jù)挖掘進(jìn)行價(jià)值評(píng)估的過(guò)程也需要調(diào)整先驗(yàn)約束而再次進(jìn)行大數(shù)據(jù)分析。在算法、數(shù)據(jù)和運(yùn)行環(huán)境三個(gè)方面的區(qū)別(1)算法:大數(shù)據(jù)分析對(duì)算法的要求隨著數(shù)據(jù)量的增加而降低,大數(shù)據(jù)挖掘則對(duì)算法要求更高,復(fù)雜度更大。(2)數(shù)據(jù):大數(shù)據(jù)分析的對(duì)象多為動(dòng)態(tài)增量數(shù)據(jù)和存量數(shù)據(jù),大數(shù)據(jù)挖掘則大多使用存量數(shù)據(jù)。(3)運(yùn)行環(huán)境:大數(shù)據(jù)分析對(duì)運(yùn)行環(huán)境要求較高,多為云計(jì)算和云存儲(chǔ)環(huán)境,而大數(shù)據(jù)挖掘則沒(méi)有特定的要求,單機(jī)環(huán)境也是允許的。大數(shù)據(jù)分析與挖掘流程大數(shù)據(jù)分析與挖掘流程從大數(shù)據(jù)的特征和產(chǎn)生領(lǐng)域來(lái)看,大數(shù)據(jù)的來(lái)源相當(dāng)廣泛,由此產(chǎn)生的數(shù)據(jù)類型和應(yīng)用處理方法千差萬(wàn)別。但是總的來(lái)說(shuō),大數(shù)據(jù)分析流程可劃分為數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析和數(shù)據(jù)解釋4個(gè)步驟。數(shù)據(jù)獲取數(shù)據(jù)預(yù)處理數(shù)據(jù)分析數(shù)據(jù)解釋大數(shù)據(jù)分析與挖掘流程數(shù)據(jù)獲取數(shù)據(jù)獲取通過(guò)各種方法獲取數(shù)據(jù)信息便顯得格外重要。數(shù)據(jù)獲取是大數(shù)據(jù)分析流程中最基礎(chǔ)的一步,目前常用的數(shù)據(jù)獲取手段有傳感器、射頻識(shí)別、數(shù)據(jù)檢索分類工具(如百度和谷歌等搜索引擎)、行業(yè)論壇或平臺(tái)等商業(yè)網(wǎng)站及條形碼技術(shù)等。數(shù)據(jù)的類別主要分為線下數(shù)據(jù)和線上數(shù)據(jù),線下數(shù)據(jù)主要依托硬件,如紅外傳感器、高清攝像頭等設(shè)備來(lái)獲取,線上數(shù)據(jù)主要依托互聯(lián)網(wǎng)獲取,如互聯(lián)網(wǎng)輿情信息、商務(wù)平臺(tái)商品信息等。數(shù)據(jù)獲取無(wú)時(shí)無(wú)刻不在進(jìn)行中。大數(shù)據(jù)分析與挖掘流程數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理概念數(shù)據(jù)預(yù)處理是非常重要的環(huán)節(jié),對(duì)數(shù)據(jù)使用的一致性、準(zhǔn)確性、完整性、時(shí)效性、可信性、可解釋性提供了基本保障?,F(xiàn)實(shí)中的數(shù)據(jù)避免不了“臟”數(shù)據(jù),“臟”數(shù)據(jù)主要是指具備以下特征的數(shù)據(jù):(1)不完整:缺少屬性值或僅包含處理后結(jié)果(沒(méi)有源數(shù)據(jù))的數(shù)據(jù)。(2)包含噪聲:存在錯(cuò)誤或偏離期望值的數(shù)據(jù)。(3)不一致:前后存在矛盾、差異的數(shù)據(jù)。數(shù)據(jù)預(yù)處理(續(xù))由于存在大量的“臟”數(shù)據(jù),因此在一個(gè)完整的大數(shù)據(jù)挖掘過(guò)程中,數(shù)據(jù)預(yù)處理是必不可少的環(huán)節(jié),大約要花費(fèi)60%~70%的時(shí)間。數(shù)據(jù)預(yù)處理有4種方法:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。數(shù)據(jù)清洗空缺值處理、格式標(biāo)準(zhǔn)化、錯(cuò)誤糾正、異常數(shù)據(jù)和重復(fù)數(shù)據(jù)的清除。數(shù)據(jù)集成將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)并統(tǒng)一存儲(chǔ),建立數(shù)據(jù)倉(cāng)庫(kù),并消除數(shù)據(jù)冗余。數(shù)據(jù)變換平滑、聚集、數(shù)據(jù)概化、規(guī)范化、屬性構(gòu)造等。數(shù)據(jù)規(guī)約數(shù)據(jù)立方體聚集、維度規(guī)約(刪除不相關(guān)的屬性)、數(shù)據(jù)壓縮(用PCA、LDA、SVD、小波變換等方法進(jìn)行數(shù)據(jù)降維)、數(shù)值規(guī)約(線性回歸、對(duì)數(shù)線性模型、直方圖、聚類、抽樣)。大數(shù)據(jù)分析與挖掘流程數(shù)據(jù)分析數(shù)據(jù)分析是整個(gè)大數(shù)據(jù)分析流程里最核心的部分,在數(shù)據(jù)分析的過(guò)程中,會(huì)發(fā)現(xiàn)數(shù)據(jù)的價(jià)值所在。數(shù)據(jù)分析有如下6個(gè)基本方面:可視化技術(shù)數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求,可以直觀地展示數(shù)據(jù),讓數(shù)據(jù)自己說(shuō)話,讓觀眾看到結(jié)果。數(shù)據(jù)挖掘算法數(shù)據(jù)挖掘包含集群、分割、孤立點(diǎn)分析,深入數(shù)據(jù)內(nèi)部,挖掘價(jià)值。數(shù)據(jù)挖掘可以讓分析員更好地理解數(shù)據(jù)。預(yù)測(cè)性分析能力預(yù)測(cè)性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測(cè)性的判斷。大數(shù)據(jù)分析與挖掘流程數(shù)據(jù)分析(續(xù))語(yǔ)義引擎非結(jié)構(gòu)化數(shù)據(jù)的多樣性給數(shù)據(jù)分析帶來(lái)了新的挑戰(zhàn),因此語(yǔ)義引擎需要被設(shè)計(jì)成能夠從“文檔”中智能提取信息的工具。數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理數(shù)據(jù)質(zhì)量(數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、完整性、時(shí)效性)和數(shù)據(jù)管理(如何有效保障數(shù)據(jù)質(zhì)量)是管理方面的最佳實(shí)踐。數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)是為了便于多維分析和多角度展示數(shù)據(jù),按特定模式存儲(chǔ)數(shù)據(jù)所建立起來(lái)的關(guān)系型數(shù)據(jù)庫(kù)。大數(shù)據(jù)分析與挖掘流程數(shù)據(jù)解釋概念在一個(gè)完善的大數(shù)據(jù)分析流程中,數(shù)據(jù)解釋至關(guān)重要。但隨著數(shù)據(jù)量的加大,數(shù)據(jù)分析結(jié)果往往也越復(fù)雜,用傳統(tǒng)的數(shù)據(jù)解釋方法已經(jīng)不足以滿足數(shù)據(jù)分析結(jié)果輸出的需求。因此,為了提升數(shù)據(jù)解釋、展示能力,必須對(duì)數(shù)據(jù)進(jìn)行可視化操作。通過(guò)可視化分析,可以形象地向用戶展示數(shù)據(jù)分析結(jié)果,更方便用戶理解和接受結(jié)果。常見(jiàn)的可視化技術(shù)有基于集合的可視化技術(shù)、基于圖標(biāo)的可視化技術(shù)、基于圖像的可視化技術(shù)、面向像素的可視化技術(shù)和分布式可視化技術(shù)等。大數(shù)據(jù)分析與挖掘應(yīng)用在大數(shù)據(jù)時(shí)代的背景下,數(shù)據(jù)資產(chǎn)如何被有效地利用起來(lái)成為了一個(gè)熱門話題。數(shù)據(jù)最終是要為商業(yè)、民生、國(guó)防等方面的運(yùn)作與優(yōu)化提供支撐的。近年來(lái),由于大數(shù)據(jù)技術(shù)的發(fā)展,大數(shù)據(jù)分析與挖掘的應(yīng)用場(chǎng)景分為優(yōu)化、預(yù)測(cè)、分類和識(shí)別4個(gè)方面,同時(shí)也是大數(shù)據(jù)分析的主要任務(wù)。優(yōu)化任務(wù)優(yōu)化是大數(shù)據(jù)分析的主要任務(wù)預(yù)測(cè)任務(wù)預(yù)測(cè)是大數(shù)據(jù)分析和挖掘的最終目的分類任務(wù)對(duì)事物進(jìn)行分類或聚類后,可以了解每個(gè)現(xiàn)有事物的特征識(shí)別任務(wù)識(shí)別是人工智能的范疇,可以提升社會(huì)各個(gè)生產(chǎn)環(huán)節(jié)的效率大數(shù)據(jù)分析與挖掘應(yīng)用優(yōu)化任務(wù)優(yōu)化是大數(shù)據(jù)分析的主要任務(wù),通過(guò)數(shù)據(jù)反饋了解哪些方面需要改進(jìn)從而制定相關(guān)的決策。優(yōu)化任務(wù)還需要更多的技術(shù)手段。在人們的生活中,大數(shù)據(jù)分析產(chǎn)生了許多便利的應(yīng)用場(chǎng)景,具體如下:出行方面通過(guò)交通數(shù)據(jù),交通實(shí)時(shí)預(yù)測(cè)算法可以改善人們的出行。購(gòu)物方面通過(guò)用戶行為和基礎(chǔ)數(shù)據(jù),個(gè)性化推薦算法可以改善人們的網(wǎng)上購(gòu)物體驗(yàn)。疫情防控方面通過(guò)出行大數(shù)據(jù)創(chuàng)造的五色管理方法可以有效地對(duì)高風(fēng)險(xiǎn)人群進(jìn)行預(yù)警,在降低疫情傳播速度的同時(shí),也方便了低風(fēng)險(xiǎn)人群的出行。大數(shù)據(jù)分析與挖掘應(yīng)用預(yù)測(cè)任務(wù)、分類任務(wù)和識(shí)別任務(wù)預(yù)測(cè)任務(wù)預(yù)測(cè)是大數(shù)據(jù)分析和挖掘的最終目的,這是由于預(yù)測(cè)可以提前洞察到事物未來(lái)的趨勢(shì),掌握信息差,而信息差是制勝的關(guān)鍵,無(wú)論是商業(yè)上、政治上還是軍事上,比競(jìng)爭(zhēng)對(duì)手提前預(yù)知事物的發(fā)展態(tài)勢(shì)是十分重要的。分類任務(wù)分類任務(wù)包含分類算法和聚類算法,分類和聚類有明顯區(qū)別,分類是把現(xiàn)有事物打上已知標(biāo)簽,聚類是把相似的事物放在一起。對(duì)事物進(jìn)行分類或聚類后,可以了解每個(gè)現(xiàn)有事物的特征,或者預(yù)估新興事物的特征。例如,醫(yī)學(xué)上的自動(dòng)診斷,通過(guò)對(duì)大量的檢驗(yàn)報(bào)告及病癥的分類訓(xùn)練,實(shí)現(xiàn)對(duì)新的檢驗(yàn)報(bào)告的分類預(yù)測(cè)。網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)也是如此,通過(guò)分類任務(wù)來(lái)感知敏感信息,從而實(shí)現(xiàn)自動(dòng)監(jiān)控。大

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論