云計(jì)算課程課件14大數(shù)據(jù)與人工智能_第1頁
云計(jì)算課程課件14大數(shù)據(jù)與人工智能_第2頁
云計(jì)算課程課件14大數(shù)據(jù)與人工智能_第3頁
云計(jì)算課程課件14大數(shù)據(jù)與人工智能_第4頁
云計(jì)算課程課件14大數(shù)據(jù)與人工智能_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、云計(jì)算原理與實(shí)踐Principles and Practice of Cloud ComputingOutline14.1初識大數(shù)據(jù)14.2初識人工智能14.3 云計(jì)算、大數(shù)據(jù)與人工智能的D關(guān)ata 系Scie14.1初識大數(shù)據(jù)大數(shù)據(jù)的發(fā)展背景大數(shù)據(jù)的定義大數(shù)據(jù)的技術(shù)14.1.1大數(shù)據(jù)的發(fā)展背景Data Never Sleeps項(xiàng)目半個世紀(jì)以來,隨著計(jì)算機(jī)技術(shù) 全面融入社會生活,信息爆炸已 經(jīng)積累到了一個開始引發(fā)變革的 程度。它不僅使世界充斥著比以 往更多的信息,而且其增長速度 也在加快。互聯(lián)網(wǎng)(社交、搜索、 電商)、移動互聯(lián)網(wǎng)(微博)、 物聯(lián)網(wǎng)(傳感器,智慧地球)、 車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像

2、、安全 監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話、短信)都在 不斷產(chǎn)生著新數(shù)據(jù)14.1.2大數(shù)據(jù)的定義大數(shù)據(jù)的一種4V定義大數(shù)據(jù)到底有哪些關(guān)鍵與本質(zhì) 的特征,我們總結(jié)了如下四個 特征:多維度:特征維度多完備性:全面性,全局?jǐn)?shù)據(jù)關(guān)聯(lián)性:數(shù)據(jù)間的關(guān)聯(lián)性不確定性:數(shù)據(jù)的真實(shí)性難 以確定,噪音干擾嚴(yán)重多維度數(shù)據(jù)的多維度往往代表了一個事物的多種屬性,很多時候也代表 了人們看待一個事物的不同角度,這是大數(shù)據(jù)的一個本質(zhì)特征之一百度曾經(jīng)發(fā)布過一個有趣的統(tǒng)計(jì)結(jié)果:中國十大“吃貨”省市 排行榜。百度在沒有做任何問卷調(diào)查和深入研究的情況下,只是 從“百度知道”的7700萬條與吃有關(guān)的問題中,挖掘出一些結(jié)論, 反而

3、比很多的學(xué)術(shù)研究更能反映問題。百度了解的數(shù)據(jù)維度很多,不僅涉及食物的做法、吃法、成分、營養(yǎng)價(jià)值、價(jià)格、問題來源地、 時間等顯性維度,而且還蘊(yùn)藏著很多別人不太注意的隱含信息,例 如,提問或回答者的終端設(shè)備、瀏覽器類型等。雖然這些信息看上 去“雜亂無章”,但實(shí)際上正是這些雜亂無章的數(shù)據(jù)將原來看似無 關(guān)的維度聯(lián)系起來了完備性大數(shù)據(jù)的完備性,或者說全面性,代表了大數(shù)據(jù)的另外一個本質(zhì) 特征,而且在很多問題場景下是非常有效的Google的機(jī)器翻譯系統(tǒng)就是利用了大數(shù)據(jù)的完備性。它通過數(shù)據(jù) 學(xué)到了不同語言之間長句子成分的對應(yīng),然后直接把一種語言翻譯 成另一類。它的前提條件就是使用的數(shù)據(jù)必須是比較全面地覆蓋中

4、文、英文,以及其他的各種語言的所有句子,然后通過機(jī)器學(xué)習(xí), 獲得兩種語言之間各種說法的翻譯方法,也就是說具備兩種語言之 間翻譯的完備性。目前,Google是互聯(lián)網(wǎng)數(shù)據(jù)的最大擁有者,隨著 人類活動與互聯(lián)網(wǎng)的密不可分,Google所能積累的大數(shù)據(jù)將會越來 越完備,它的機(jī)器翻譯系統(tǒng)也就越來越準(zhǔn)確關(guān)聯(lián)性大數(shù)據(jù)研究不同于傳統(tǒng)的邏輯推理研究,它是對數(shù)量巨大的數(shù)據(jù) 做統(tǒng)計(jì)性的搜索、比較、聚類、分類等分析歸納,因此繼承了統(tǒng)計(jì) 科學(xué)的一些特點(diǎn)統(tǒng)計(jì)學(xué)關(guān)注數(shù)據(jù)的關(guān)聯(lián)性或相關(guān)性,“關(guān)聯(lián)性”是指兩個或兩個 以上變量的取值之間存在某種規(guī)律性?!跋嚓P(guān)分析”的目的是找出 數(shù)據(jù)集里隱藏的相互關(guān)系網(wǎng),一般用支持度、可信度、興趣度

5、等參 數(shù)反映相關(guān)性兩個數(shù)據(jù)A和B有相關(guān)性,只能反映A和B在取值時相互有影響,并 不是一定存在有A就一定有B,或者反過來有B就一定有A的情況。 嚴(yán)格地講,統(tǒng)計(jì)學(xué)無法檢驗(yàn)邏輯上的因果關(guān)系不確定性大數(shù)據(jù)的不確定性最根本的原因是我們的這個世界是不確定的, 當(dāng)然也有技術(shù)的不成熟、人為的失誤等因素總之,大數(shù)據(jù)往往不準(zhǔn)確并充滿噪音。即便如此,由于大數(shù)據(jù)的 體量大、維度多、關(guān)聯(lián)性強(qiáng)等特征,使得大數(shù)據(jù)相對于傳統(tǒng)數(shù)據(jù)有 著很大的優(yōu)勢,使得我們能夠用不確定的眼光看待世界,再用信息 來消除這種不確定性。當(dāng)然,提高大數(shù)據(jù)的質(zhì)量,消除大數(shù)據(jù)的噪 音是開發(fā)和利用大數(shù)據(jù)的一個永恒話題大數(shù)據(jù)的其他一些特征體量大:4V中的Vol

6、ume;類型多:結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化;來源廣:數(shù)據(jù)來源廣泛;及時性:4V中的Velocity;積累久:長期積累與存儲;在線性:隨時能調(diào)用和計(jì)算;價(jià)值密度低:大量數(shù)據(jù)中真正有價(jià)值的少;最終價(jià)值大:最終帶來的價(jià)值大14.1.3大數(shù)據(jù)的技術(shù)Hadoop的發(fā)展歷程總而言之,大數(shù)據(jù)技術(shù)有如下幾點(diǎn)趨勢:Hadoop、Spark這類分布式處理系統(tǒng)已經(jīng)成為大數(shù)據(jù)處理各環(huán)節(jié)的通用處理方 法,并進(jìn)一步構(gòu)成生態(tài)圈結(jié)構(gòu)化大數(shù)據(jù)與非結(jié)構(gòu)化大數(shù)據(jù)處理平臺將逐漸融合與統(tǒng)一,用戶不必為每 類數(shù)據(jù)單獨(dú)構(gòu)建大數(shù)據(jù)平臺MapReduce將逐漸被淘汰,被Spark這類高性能內(nèi)存計(jì)算模式取代,同時 Hadoop的HDFS將繼續(xù)向

7、前發(fā)展,并將成為大數(shù)據(jù)存儲的標(biāo)準(zhǔn)傳統(tǒng)的SQL技術(shù)將在大數(shù)據(jù)時代繼續(xù)發(fā)揚(yáng)光大,在SQLonHadoop/Spark的技 術(shù)支持下,SQL將成為大數(shù)據(jù)時代的“霸主”,同時,NoSQL會起到輔助和補(bǔ) 充作用以SQL、Hadoop/Spark為核心的大數(shù)據(jù)系統(tǒng)成為新一代數(shù)據(jù)倉庫的關(guān)鍵技術(shù), 將挑戰(zhàn)傳統(tǒng)數(shù)據(jù)庫市場,并將逐步代替?zhèn)鹘y(tǒng)的數(shù)據(jù)倉庫大數(shù)據(jù)軟件棧大數(shù)據(jù)軟件棧存儲引擎層:主要包括分布式文件系統(tǒng)、分布式大表、搜索引擎、分 布式緩存和消息隊(duì)列、分布式協(xié)作服務(wù)資源框架層:YARN、Mesos和Kubernetes三者之間存在類似于演變的關(guān) 系,YARN和Mesos都借鑒了Google的Borg和Omega

8、;未來基于容器技術(shù) 的資源管理框架Kubernetes將有可能取代前兩者通用計(jì)算引擎層:其中MapReduce和Tez技術(shù)將逐漸退出舞臺,Spark將 成為主流的通用計(jì)算引擎,如星環(huán)的引擎已經(jīng)全面采用Spark技術(shù)領(lǐng)域級引擎層:SQL批處理、交互式分析、實(shí)時數(shù)據(jù)庫、數(shù)據(jù)挖掘和機(jī) 器學(xué)習(xí)、深度學(xué)習(xí)、圖分析引擎、流處理引擎分析管理工具層:主要包括ETL數(shù)據(jù)裝載工具、Workfolow工作流開發(fā) 工具、數(shù)據(jù)質(zhì)量管理工具、可視化報(bào)表工具、機(jī)器學(xué)習(xí)建模工具、統(tǒng) 計(jì)挖掘開發(fā)工具和資源管理工具大數(shù)據(jù)生態(tài)圈大數(shù)據(jù)已經(jīng)圍繞Hadoop和Spark技術(shù)形成了一個巨大的生態(tài)圈14.2初識人工智能人工智能的歷史及概念

9、人工智能的特征與參考框架人工智能的發(fā)展趨勢14.2.1人工智能的歷史及概念人工智能發(fā)展歷史早在1950 年,Alan Turing 在計(jì)算機(jī)器與智能中就闡述了對人工智能的思考1959年,Arthur Samuel首次提出了機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)將傳統(tǒng)的制造智能演化為通過學(xué)習(xí) 能力來獲取智能,推動人工智能進(jìn)入了第一次繁榮期20世紀(jì)80年代中期,隨著美國、日本立項(xiàng)支持人工智能研究,以及以知識工程為主導(dǎo)的機(jī) 器學(xué)習(xí)方法的發(fā)展,具有更強(qiáng)可視化效果的決策樹模型和突破早期感知機(jī)局限的多層人工 神經(jīng)網(wǎng)絡(luò)出現(xiàn),人工智能又一次進(jìn)入繁榮期1997年,IBM開發(fā)的深藍(lán)(Deep Blue)戰(zhàn)勝國際象棋世界冠軍卡斯帕羅夫

10、。這是一次具有 里程碑意義的成功,它代表了基于規(guī)則的人工智能的勝利2006年,在Hinton 和他的學(xué)生的推動下,深度學(xué)習(xí)開始備受關(guān)注,為后來人工智能的發(fā)展 產(chǎn)生了重大影響2011年,BM Waston在綜藝節(jié)目危險(xiǎn)邊緣中戰(zhàn)勝了最高獎金得主和連勝紀(jì)錄保持者2012年,谷歌大腦通過模仿人類大腦在沒有人類指導(dǎo)的情況下,利用非監(jiān)督深度學(xué)習(xí)方法 從大量視頻中成功學(xué)習(xí)到識別出一只貓2014年,微軟公司推出了一款實(shí)時口譯系統(tǒng),可以模仿說話者的聲音并保留其口音2016 年,谷歌AlphaGo 機(jī)器人在圍棋比賽中擊敗了世界冠軍李世石2017 年,蘋果公司在原來個人助理Siri的基礎(chǔ)上推出了智能私人助理Siri

11、和智能音響 HomePod14.2.2人工智能的特征與參考框架(1)人工智能的特征由人類設(shè)計(jì),為人類服務(wù),本質(zhì)為計(jì)算,基礎(chǔ)為數(shù)據(jù)能感知環(huán)境,能產(chǎn)生反應(yīng),能與人交互,能與人互補(bǔ)有適應(yīng)特性,有學(xué)習(xí)能力,有演化迭代,有連接擴(kuò)展(2)人工智能參考框架人工智能參考框架圖人工智能系統(tǒng)主要由基礎(chǔ)設(shè)施提供者、信息提供者、信息處理者和系統(tǒng)協(xié)調(diào)者四個角色組成。此外,人工智能系統(tǒng)還有其他非常重要的框架構(gòu)件:安全、 隱私、倫理和管理基礎(chǔ)設(shè)施提供者:基礎(chǔ)設(shè)施提供者為人工智能系統(tǒng)提供計(jì)算能力支持,實(shí)現(xiàn) 與外部世界的溝通,并通過基礎(chǔ)平臺實(shí)現(xiàn)支撐信息提供者:在人工智能領(lǐng)域,信息提供者是智能信息的來源。通過知識信 息感知過程由

12、數(shù)據(jù)提供商提供智能感知信息,包括原始數(shù)據(jù)資源和數(shù)據(jù)集信息處理者:人工智能領(lǐng)域中,信息處理者是指技術(shù)和服務(wù)提供商。信息處 理者的主要活動包括智能信息表示與形成、智能推理、智能決策及智能執(zhí)行 與輸出系統(tǒng)協(xié)調(diào)者:系統(tǒng)協(xié)調(diào)者提供人工智能系統(tǒng)必須滿足的整體要求,包括政策、 法律、資源和業(yè)務(wù)需求,以及為確保系統(tǒng)符合這些需求而進(jìn)行的監(jiān)控和審計(jì) 活動安全、隱私和倫理:安全、隱私和倫理覆蓋了人工智能領(lǐng)域的其 他四 個主要角色,對每個角色都有重要的影響。同時,安全、 隱私和倫理處于管理角色的覆蓋范圍之內(nèi),與全部角色和活動都 建立了相關(guān)聯(lián)系管理:管理角色承擔(dān)系統(tǒng)管理活動,包括軟件調(diào)配、資源管理等 工作,管理的功能是

13、監(jiān)視各種資源的運(yùn)行狀況,應(yīng)對出現(xiàn)的性能 或故障事件,使得各系統(tǒng)組件透明且可觀智能產(chǎn)品及行業(yè)應(yīng)用:智能產(chǎn)品及行業(yè)應(yīng)用指人工智能系統(tǒng)的產(chǎn) 品和應(yīng)用,是對人工智能整體解決方案的封裝,將智能信息決策 產(chǎn)品化,進(jìn)而實(shí)現(xiàn)落地應(yīng)用14.2.3人工智能的發(fā)展趨勢人工智能技術(shù)的發(fā)展歷程人工智能技術(shù)的應(yīng)用領(lǐng)域技術(shù)類別場景描述應(yīng)用領(lǐng)域視頻圖像識別人臉識別、車牌識別、動作識別等主要用于安防和安保;發(fā)票識別、財(cái)財(cái)務(wù)報(bào)表識別等主要用于影像數(shù)據(jù)結(jié)構(gòu)化醫(yī)療影像分析輔助診斷自然語言理解與情分析、智能投研預(yù)則性分析、風(fēng)險(xiǎn)分析聊天機(jī)器人、智能客服自動化部分簡單的客服應(yīng)答文本數(shù)據(jù)結(jié)構(gòu)化自動化校對,減少人工審核人工智能技術(shù)的應(yīng)用領(lǐng)域技

14、術(shù)類別場景描述應(yīng)用領(lǐng)域語音處理機(jī)器翻譯.語文-文本轉(zhuǎn)換呼叫中心客戶問題分析機(jī)器學(xué)習(xí)和深度學(xué)習(xí)精準(zhǔn)營銷精準(zhǔn)廣告,交叉銷售ACRM客戶全生命周期管理提升客戶體驗(yàn),留住高凈值客戶,獲取新客戶市場/需求預(yù)測預(yù)測銷量、庫存等反欺詐/實(shí)時風(fēng)險(xiǎn)分析交易風(fēng)險(xiǎn)、經(jīng)營風(fēng)險(xiǎn)分析智能投顧根據(jù)宏觀經(jīng)濟(jì)指標(biāo)、各類事件信息做出預(yù)測智能運(yùn)維、故障預(yù)測根據(jù)設(shè)備/軟件狀態(tài),預(yù)測故障發(fā)生監(jiān)管審計(jì)經(jīng)營風(fēng)險(xiǎn)分析機(jī)器人自動駕駛、無人機(jī).AI發(fā)展趨勢AI in ProductionAI從一門科學(xué)開始轉(zhuǎn)變成一個系統(tǒng)或產(chǎn)品,一句話,AI需要 產(chǎn)品化,也必將產(chǎn)品化。隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法的不斷成熟, 需要將AI打造成產(chǎn)品和系統(tǒng),并在各個領(lǐng)域

15、尋找Killer Applications。但是深度學(xué)習(xí)仍然面臨著很大挑戰(zhàn),需要強(qiáng)大的計(jì) 算能力(需要大量CPU、 GPU、FPGA/ASIC的混合計(jì)算能力,以及分 布式計(jì)算能力),需要大量樣本和數(shù)據(jù),甚至需要大量人工來制作 樣本(以傳遞知識給機(jī)器)AI發(fā)展趨勢AI for everyone機(jī)器學(xué)習(xí)工具需要更加易用化,更普及,讓更多普通人能夠 使用。目前的一個重要趨勢,是使用深度學(xué)習(xí)技術(shù),來提升AI工具 的智能化程度,包括自動建模,自動尋找最優(yōu)參數(shù),特征工程半自 動化等,使整個機(jī)器學(xué)習(xí)過程更加智能化/自動化。現(xiàn)在所有的機(jī) 器學(xué)習(xí)工具廠商都開始往這個方向努力,例如,DataRobot一直在 宣傳

16、自動建模(Auto-Modeling)的優(yōu)勢,Google的Li Feifei團(tuán)隊(duì) 發(fā)布的AutoML,可以讓普通人也可以用這個工具來創(chuàng)建計(jì)算機(jī)視覺 相關(guān)的應(yīng)用AI發(fā)展趨勢AI in everywhereAI算法雖然是核心,但也只是整個系統(tǒng)的一部分,它本身不 能形成獨(dú)立的產(chǎn)品,更多地是需要將算法應(yīng)用到各個應(yīng)用領(lǐng)域中, 賦能各個行業(yè),以發(fā)揮算法的價(jià)值。目前各個行業(yè)、領(lǐng)域,都在積 極地嘗試?yán)肁I來賦能已有的產(chǎn)品或應(yīng)用,以提高現(xiàn)有產(chǎn)品或服務(wù) 的智能化水平14.3云計(jì)算、大數(shù)據(jù)與人工智能的關(guān)系云計(jì)算、大數(shù)據(jù)與人工智能大數(shù)據(jù),事實(shí)上從屬于云計(jì)算,是云 計(jì)算的應(yīng)用。沒有云計(jì)算,大數(shù)據(jù)就 是空中樓閣大數(shù)據(jù)

17、也成就了云計(jì)算,沒有了大數(shù) 據(jù)的云計(jì)算將會變得無的放矢云計(jì)算、大數(shù)據(jù)和人工智能之間并不 是“誰取代誰”的競爭關(guān)系,而是 “誰成就誰”的輔佐關(guān)系14.3.1云計(jì)算與大數(shù)據(jù)的融合DCOS的層次結(jié)構(gòu)為數(shù)據(jù)中心開發(fā)出高效可靠的操作系統(tǒng)Data Center Operation System(DCOS)必定是未來趨勢平臺服務(wù)層負(fù)責(zé)按照需求動態(tài)地創(chuàng)建 分布式服務(wù)(如HDFS、HBase等),部 署傳統(tǒng)應(yīng)用操作系統(tǒng)內(nèi)置服務(wù)提供DCOS的必備功 能,例如,集群擴(kuò)容減配、服務(wù)發(fā)現(xiàn)、 流量計(jì)費(fèi)等操作系統(tǒng)內(nèi)核負(fù)責(zé)管理存儲器、文件、 外設(shè)和資源,便于創(chuàng)建和部署容器、 虛擬機(jī)或集群等物理資源14.3.2云計(jì)算與人工智能的融合A

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論