《大數(shù)據(jù)通識(shí)教程》 課件 第11、12章 大數(shù)據(jù)與人工智能、大數(shù)據(jù)安全與法律_第1頁
《大數(shù)據(jù)通識(shí)教程》 課件 第11、12章 大數(shù)據(jù)與人工智能、大數(shù)據(jù)安全與法律_第2頁
《大數(shù)據(jù)通識(shí)教程》 課件 第11、12章 大數(shù)據(jù)與人工智能、大數(shù)據(jù)安全與法律_第3頁
《大數(shù)據(jù)通識(shí)教程》 課件 第11、12章 大數(shù)據(jù)與人工智能、大數(shù)據(jù)安全與法律_第4頁
《大數(shù)據(jù)通識(shí)教程》 課件 第11、12章 大數(shù)據(jù)與人工智能、大數(shù)據(jù)安全與法律_第5頁
已閱讀5頁,還剩138頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)字文明與數(shù)字治理大數(shù)據(jù)通識(shí)教程第11章楊武劍周蘇主編大數(shù)據(jù)與人工智能01人工智能概述02機(jī)器學(xué)習(xí)基礎(chǔ)03機(jī)器學(xué)習(xí)分類04神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)目錄/CONTENTS05機(jī)器學(xué)習(xí)與深度學(xué)習(xí)PART01人工智能概述人工智能(AI)是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。是計(jì)算機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器學(xué)習(xí)(深度學(xué)習(xí))、智能機(jī)器人、視覺與圖像識(shí)別、自然語言處理、語言識(shí)別、經(jīng)濟(jì)政治決策、控制系統(tǒng)和仿真系統(tǒng)等。11.1人工智能概述人工智能的定義可以分為兩部分,即“人工”和“智能”。其中的“智能”涉及到其他諸如意識(shí)、自我、思維(包括無意識(shí)的思維)等問題。11.1人工智能概述斯坦福大學(xué)人工智能研究中心的尼爾遜教授對(duì)人工智能下了這樣一個(gè)定義:“人工智能是關(guān)于知識(shí)的學(xué)科——怎樣表示知識(shí)以及怎樣獲得知識(shí)并使用知識(shí)的科學(xué)?!倍槭±砉W(xué)院的溫斯頓教授認(rèn)為:“人工智能就是研究如何使計(jì)算機(jī)去做過去只有人才能做的智能工作?!边@些說法反映了人工智能學(xué)科的基本思想和基本內(nèi)容。即人工智能是研究人類智能活動(dòng)的規(guī)律,構(gòu)造具有一定智能的人工系統(tǒng),研究如何讓計(jì)算機(jī)去完成以往需要人的智力才能勝任的工作,也就是研究如何應(yīng)用計(jì)算機(jī)的軟硬件來模擬人類某些智能行為的基本理論、方法和技術(shù)。11.1人工智能概述PART02機(jī)器學(xué)習(xí)基礎(chǔ)如果孤零零地給你一個(gè)數(shù)據(jù),例如39,你能從中發(fā)現(xiàn)什么呢?一般不會(huì)有太多發(fā)現(xiàn)。這只是一個(gè)介于38和40之間的數(shù),除此以外,其他所有的“發(fā)現(xiàn)”都只能是推測與猜想。接著,再給你多一點(diǎn)兒的信息:39度。這個(gè)數(shù)據(jù)表示的可能是角度或者是溫度。然后,再添加一個(gè)具體信息:39攝氏度。這顯然是溫度,而且是比較高的溫度。最后,再告訴你這是某個(gè)人的口腔溫度讀數(shù)。于是,你知道這個(gè)人的體溫超過了39攝氏度,說明他生病了。11.2機(jī)器學(xué)習(xí)基礎(chǔ)在結(jié)束這個(gè)簡短的思維演練之后,IBM的研究員薩姆·亞當(dāng)斯說:“每增加一點(diǎn)兒信息,你對(duì)數(shù)據(jù)的理解就會(huì)發(fā)生顯著的變化?!眮啴?dāng)斯說這些話的目的是向我們介紹數(shù)據(jù)在具體語境中的作用。數(shù)據(jù)越多,傳遞的信息就越具體,最終形成知識(shí)。各種各樣的新數(shù)據(jù)大量涌現(xiàn),有利于我們理解數(shù)據(jù)。但是,亞當(dāng)斯認(rèn)為,只有“把所有點(diǎn)連起來”,形成有價(jià)值的靈感或發(fā)現(xiàn),才是真正的成果。11.2機(jī)器學(xué)習(xí)基礎(chǔ)學(xué)習(xí)能力是智能行為的一個(gè)非常重要的特征。H.A.西蒙認(rèn)為,學(xué)習(xí)是系統(tǒng)所作的適應(yīng)性變化,使得系統(tǒng)在下一次完成同樣或類似的任務(wù)時(shí)更為有效。R.S.米哈爾斯基認(rèn)為,學(xué)習(xí)是構(gòu)造或修改對(duì)于所經(jīng)歷事物的表示。這些觀點(diǎn)各有側(cè)重,第一種觀點(diǎn)強(qiáng)調(diào)學(xué)習(xí)的外部行為效果,第二種則強(qiáng)調(diào)學(xué)習(xí)的內(nèi)部過程,而第三種主要是從知識(shí)工程的實(shí)用性角度出發(fā)的。11.2.1機(jī)器學(xué)習(xí)的定義機(jī)器學(xué)習(xí)在人工智能的研究中具有十分重要的地位,是人工智能研究的核心之一。它的應(yīng)用已遍及人工智能的各個(gè)分支,如專家系統(tǒng)、自動(dòng)推理、自然語言理解、模式識(shí)別、計(jì)算機(jī)視覺、智能機(jī)器人等領(lǐng)域。其中尤其典型的是專家系統(tǒng)中的知識(shí)獲取瓶頸問題,人們一直在努力試圖采用機(jī)器學(xué)習(xí)的方法加以克服。11.2.1機(jī)器學(xué)習(xí)的定義一個(gè)不具有學(xué)習(xí)能力的智能系統(tǒng)難以稱得上是一個(gè)真正的智能系統(tǒng),但是以往的智能系統(tǒng)都普遍缺少學(xué)習(xí)的能力。例如,它們遇到錯(cuò)誤時(shí)不能自我校正;不會(huì)通過經(jīng)驗(yàn)改善自身的性能;不會(huì)自動(dòng)獲取和發(fā)現(xiàn)所需要的知識(shí)。它們的推理僅限于演繹而缺少歸納,因此,至多只能夠證明已存在事實(shí)、定理,而不能發(fā)現(xiàn)新的定理、定律和規(guī)則等。隨著人工智能的深入發(fā)展,這些局限性表現(xiàn)得愈加突出。11.2.1機(jī)器學(xué)習(xí)的定義機(jī)器學(xué)習(xí)的研究是根據(jù)生理學(xué)、認(rèn)知科學(xué)等對(duì)人類學(xué)習(xí)機(jī)理的了解,建立人類學(xué)習(xí)過程的計(jì)算模型或認(rèn)識(shí)模型,發(fā)展各種學(xué)習(xí)理論和學(xué)習(xí)方法,研究通用的學(xué)習(xí)算法并進(jìn)行理論上的分析,建立面向任務(wù)的具有特定應(yīng)用的學(xué)習(xí)系統(tǒng)。這些研究目標(biāo)相互影響相互促進(jìn)。學(xué)習(xí)是人類具有的一種重要智能行為,但究竟什么是學(xué)習(xí),長期以來卻眾說紛紜。社會(huì)學(xué)家、邏輯學(xué)家和心理學(xué)家都各有其不同的看法。11.2.1機(jī)器學(xué)習(xí)的定義比如,蘭利的定義:“機(jī)器學(xué)習(xí)是一門人工智能的科學(xué),該領(lǐng)域的主要研究對(duì)象是人工智能,特別是如何在經(jīng)驗(yàn)學(xué)習(xí)中改善具體算法的性能”。湯姆·米切爾的機(jī)器學(xué)習(xí)定義中對(duì)信息論的一些概念有詳細(xì)解釋,其中提到:“機(jī)器學(xué)習(xí)是對(duì)能通過經(jīng)驗(yàn)自動(dòng)改進(jìn)的計(jì)算機(jī)算法的研究”。阿爾派丁提出自己的定義:“機(jī)器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗(yàn),以此優(yōu)化計(jì)算機(jī)程序的性能標(biāo)準(zhǔn)?!?1.2.1機(jī)器學(xué)習(xí)的定義顧名思義,機(jī)器學(xué)習(xí)是研究如何使用機(jī)器來模擬人類學(xué)習(xí)活動(dòng)的一門學(xué)科。稍為嚴(yán)格的提法是:機(jī)器學(xué)習(xí)是一門研究機(jī)器獲取新知識(shí)和新技能,并識(shí)別現(xiàn)有知識(shí)的學(xué)問。這里所說的“機(jī)器”,指的就是計(jì)算機(jī),電子計(jì)算機(jī),中子計(jì)算機(jī)、光子計(jì)算機(jī)或神經(jīng)計(jì)算機(jī)等等。11.2.1機(jī)器學(xué)習(xí)的定義機(jī)器能否像人類一樣能具有學(xué)習(xí)能力呢?1959年,美國的塞繆爾設(shè)計(jì)了一個(gè)下棋程序,這個(gè)程序具有學(xué)習(xí)能力,它可以在不斷的對(duì)弈中改善自己的棋藝。4年后,這個(gè)程序戰(zhàn)勝了設(shè)計(jì)者本人。又過了3年,這個(gè)程序戰(zhàn)勝了美國一個(gè)保持8年之久的常勝不敗的冠軍。這個(gè)程序向人們展示了機(jī)器學(xué)習(xí)的能力,提出了許多令人深思的社會(huì)問題與哲學(xué)問題。11.2.1機(jī)器學(xué)習(xí)的定義機(jī)器的能力是否能超過人,很多持否定意見的人的一個(gè)主要論據(jù)是:機(jī)器是人造的,其性能和動(dòng)作完全是由設(shè)計(jì)者規(guī)定的,因此,無論如何其能力也不會(huì)超過設(shè)計(jì)者本人。這種意見對(duì)不具備學(xué)習(xí)能力的機(jī)器來說的確是對(duì)的,可是對(duì)具備學(xué)習(xí)能力的機(jī)器就值得考慮了,因?yàn)檫@種機(jī)器的能力在應(yīng)用中不斷地提高,過一段時(shí)間之后,設(shè)計(jì)者本人也不知它的能力到了何種水平。11.2.1機(jī)器學(xué)習(xí)的定義在具體應(yīng)用中,環(huán)境,知識(shí)庫和執(zhí)行部分決定了機(jī)器學(xué)習(xí)的工作內(nèi)容,學(xué)習(xí)部分所需要解決的問題完全由這3部分確定。其中,環(huán)境向系統(tǒng)的學(xué)習(xí)部分提供某些信息,學(xué)習(xí)部分利用這些信息修改知識(shí)庫,以增進(jìn)系統(tǒng)執(zhí)行部分完成任務(wù)的效能,執(zhí)行部分根據(jù)知識(shí)庫完成任務(wù),同時(shí)把獲得的信息反饋給學(xué)習(xí)部分。11.2.2基本結(jié)構(gòu)(1)影響學(xué)習(xí)系統(tǒng)設(shè)計(jì)的最重要的因素是環(huán)境向系統(tǒng)提供的信息,或者更具體地說是信息的質(zhì)量。知識(shí)庫里存放的是指導(dǎo)執(zhí)行部分動(dòng)作的一般原則,但環(huán)境向?qū)W習(xí)系統(tǒng)提供的信息卻是各種各樣的。如果信息的質(zhì)量比較高,與一般原則的差別比較小,則學(xué)習(xí)部分比較容易處理。如果向?qū)W習(xí)系統(tǒng)提供的是雜亂無章的指導(dǎo)執(zhí)行具體動(dòng)作的具體信息,則學(xué)習(xí)系統(tǒng)需要在獲得足夠數(shù)據(jù)之后,刪除不必要的細(xì)節(jié),進(jìn)行總結(jié)推廣,形成指導(dǎo)動(dòng)作的一般原則,放入知識(shí)庫。這樣,學(xué)習(xí)部分的任務(wù)就比較繁重,設(shè)計(jì)起來也較為困難。11.2.2基本結(jié)構(gòu)因?yàn)閷W(xué)習(xí)系統(tǒng)獲得的信息往往是不完全的,所以其所進(jìn)行的推理并不完全是可靠的,它總結(jié)出來的規(guī)則可能正確,也可能不正確。這要通過執(zhí)行效果加以檢驗(yàn)。正確的規(guī)則能使系統(tǒng)的效能提高,應(yīng)予保留;不正確的規(guī)則應(yīng)予修改或從數(shù)據(jù)庫中刪除。11.2.2基本結(jié)構(gòu)(2)知識(shí)庫是影響學(xué)習(xí)系統(tǒng)設(shè)計(jì)的第二個(gè)因素。知識(shí)的表示有多種形式,比如特征向量、一階邏輯語句、產(chǎn)生式規(guī)則、語義網(wǎng)絡(luò)和框架等等。這些表示方式各有其特點(diǎn),在選擇表示方式時(shí)要兼顧以下4個(gè)方面:①表達(dá)能力強(qiáng)。②易于推理。③容易修改知識(shí)庫。④知識(shí)表示易于擴(kuò)展。11.2.2基本結(jié)構(gòu)學(xué)習(xí)系統(tǒng)不能在全然沒有任何知識(shí)的情況下憑空獲取知識(shí),每一個(gè)學(xué)習(xí)系統(tǒng)都要求具有某些知識(shí)理解環(huán)境提供的信息,分析比較,做出假設(shè),檢驗(yàn)并修改這些假設(shè)。因此,更確切地說,學(xué)習(xí)系統(tǒng)是對(duì)現(xiàn)有知識(shí)的擴(kuò)展和改進(jìn)。(3)執(zhí)行部分是整個(gè)學(xué)習(xí)系統(tǒng)的核心,因?yàn)閳?zhí)行部分的動(dòng)作就是學(xué)習(xí)部分力求改進(jìn)的動(dòng)作。同執(zhí)行部分有關(guān)的問題有3個(gè):復(fù)雜性、反饋和透明性。11.2.2基本結(jié)構(gòu)學(xué)習(xí)是一項(xiàng)復(fù)雜的智能活動(dòng),學(xué)習(xí)過程與推理過程是緊密相連的,按照學(xué)習(xí)中使用推理的多少,機(jī)器學(xué)習(xí)所采用的策略大體上可分為機(jī)械學(xué)習(xí)、示教學(xué)習(xí)、類比學(xué)習(xí)和通過事例學(xué)習(xí)等。學(xué)習(xí)中所用的推理越多,系統(tǒng)的能力越強(qiáng)。機(jī)器學(xué)習(xí)領(lǐng)域的研究工作主要圍繞以下三個(gè)方面進(jìn)行:(1)面向任務(wù)的研究:研究和分析改進(jìn)一組預(yù)定任務(wù)的執(zhí)行性能的學(xué)習(xí)系統(tǒng)。(2)認(rèn)知模型:研究人類學(xué)習(xí)過程并進(jìn)行計(jì)算機(jī)模擬。(3)理論分析:從理論上探索各種可能的學(xué)習(xí)方法和獨(dú)立于應(yīng)用領(lǐng)域的算法。11.2.3研究領(lǐng)域PART03機(jī)器學(xué)習(xí)分類機(jī)器學(xué)習(xí)是一門涉及到概率論、統(tǒng)計(jì)學(xué)、逼近論、算法復(fù)雜度理論等多領(lǐng)域的交叉學(xué)科,專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能,它主要使用歸納、綜合而不是演繹。人類善于發(fā)現(xiàn)數(shù)據(jù)中的模式與關(guān)系,但不能快速地處理大量的數(shù)據(jù)。另一方面,機(jī)器非常善于迅速處理大量數(shù)據(jù),但它們得知道怎么做。如果人類知識(shí)可以和機(jī)器的處理速度相結(jié)合,機(jī)器可以處理大量數(shù)據(jù)而不需要人類干涉。這就是機(jī)器學(xué)習(xí)的基本概念。11.3機(jī)器學(xué)習(xí)分類綜合考慮各種學(xué)習(xí)方法出現(xiàn)的歷史淵源、知識(shí)表示、推理策略、結(jié)果評(píng)估的相似性、研究人員交流的相對(duì)集中性以及應(yīng)用領(lǐng)域等諸因素,機(jī)器學(xué)習(xí)有不同的分類方法。11.3機(jī)器學(xué)習(xí)分類學(xué)習(xí)策略是指學(xué)習(xí)過程中系統(tǒng)所采用的推理策略。一個(gè)學(xué)習(xí)系統(tǒng)總是由學(xué)習(xí)和環(huán)境兩部分組成。由環(huán)境(如書本或教師)提供信息,學(xué)習(xí)部分則實(shí)現(xiàn)信息轉(zhuǎn)換,用能夠理解的形式記憶下來,并從中獲取有用的信息。在學(xué)習(xí)過程中,學(xué)生(學(xué)習(xí)部分)使用的推理越少,他對(duì)教師(環(huán)境)的依賴就越大,教師的負(fù)擔(dān)也就越重。學(xué)習(xí)策略的分類標(biāo)準(zhǔn)就是根據(jù)學(xué)生實(shí)現(xiàn)信息轉(zhuǎn)換所需的推理多少和難易程度來分類的,依從簡單到復(fù)雜,從少到多的次序分為以下六種基本類型:11.3.1基于學(xué)習(xí)策略分類(1)機(jī)械學(xué)習(xí)。學(xué)習(xí)者無需任何推理或其他的知識(shí)轉(zhuǎn)換,直接吸取環(huán)境所提供的信息。如塞繆爾的跳棋程序,紐厄爾和西蒙的LT系統(tǒng)。這類學(xué)習(xí)系統(tǒng)主要考慮的是如何索引存貯的知識(shí)并加以利用。系統(tǒng)的學(xué)習(xí)方法是直接通過事先編好、構(gòu)造好的程序來學(xué)習(xí),學(xué)習(xí)者不作任何工作,或者是通過直接接收既定的事實(shí)和數(shù)據(jù)進(jìn)行學(xué)習(xí),對(duì)輸入信息不作任何的推理。11.3.1基于學(xué)習(xí)策略分類(2)示教學(xué)習(xí)。學(xué)生從環(huán)境(教師或其他信息源如教科書等)獲取信息,把知識(shí)轉(zhuǎn)換成內(nèi)部可使用的表示形式,并將新的知識(shí)和原有知識(shí)有機(jī)地結(jié)合為一體。所以要求學(xué)生有一定程度的推理能力,但環(huán)境仍要做大量的工作。教師以某種形式提出和組織知識(shí),以使學(xué)生擁有的知識(shí)可以不斷地增加。這種學(xué)習(xí)方法和人類社會(huì)的學(xué)校教學(xué)方式相似,學(xué)習(xí)的任務(wù)就是建立一個(gè)系統(tǒng),使它能接受教導(dǎo)和建議,并有效地存貯和應(yīng)用學(xué)到的知識(shí)。不少專家系統(tǒng)在建立知識(shí)庫時(shí)使用這種方法去實(shí)現(xiàn)知識(shí)獲取。11.3.1基于學(xué)習(xí)策略分類(3)演繹學(xué)習(xí)。學(xué)生所用的推理形式為演繹推理。推理從公理出發(fā),經(jīng)過邏輯變換推導(dǎo)出結(jié)論。這種推理是“保真”變換和特化的過程,使學(xué)生在推理過程中可以獲取有用的知識(shí)。這種學(xué)習(xí)方法包含宏操作學(xué)習(xí)、知識(shí)編輯和組塊技術(shù)。演繹推理的逆過程是歸納推理。11.3.1基于學(xué)習(xí)策略分類(4)類比學(xué)習(xí)。利用二個(gè)不同領(lǐng)域(源域、目標(biāo)域)中的知識(shí)相似性,可以通過類比,從源域的知識(shí)(包括相似的特征和其他性質(zhì))推導(dǎo)出目標(biāo)域的相應(yīng)知識(shí),從而實(shí)現(xiàn)學(xué)習(xí)。類比學(xué)習(xí)系統(tǒng)可以使一個(gè)已有的計(jì)算機(jī)應(yīng)用系統(tǒng)轉(zhuǎn)變?yōu)檫m應(yīng)于新的領(lǐng)域,來完成原先沒有設(shè)計(jì)的相類似的功能。類比學(xué)習(xí)需要更多的推理。它一般要求先從知識(shí)源(源域)中檢索出可用的知識(shí),再將其轉(zhuǎn)換成新的形式,用到新的狀況(目標(biāo)域)中去。類比學(xué)習(xí)在人類科學(xué)技術(shù)發(fā)展史上起著重要作用,許多科學(xué)發(fā)現(xiàn)就是通過類比得到的。11.3.1基于學(xué)習(xí)策略分類(5)基于解釋的學(xué)習(xí)。學(xué)生根據(jù)教師提供的目標(biāo)概念、該概念的一個(gè)例子、領(lǐng)域理論及可操作準(zhǔn)則,首先構(gòu)造一個(gè)解釋來說明為什么該例子滿足目標(biāo)概念,然后將解釋推廣為目標(biāo)概念的一個(gè)滿足可操作準(zhǔn)則的充分條件。基于解釋的學(xué)習(xí)已被廣泛應(yīng)用于知識(shí)庫求精和改善系統(tǒng)的性能。11.3.1基于學(xué)習(xí)策略分類(6)歸納學(xué)習(xí)。是由教師或環(huán)境提供某概念的一些實(shí)例或反例,讓學(xué)生通過歸納推理得出該概念的一般描述。這種學(xué)習(xí)的推理工作量遠(yuǎn)多于示教學(xué)習(xí)和演繹學(xué)習(xí),因?yàn)榄h(huán)境并不提供一般性概念描述(如公理)。從某種程度上說,歸納學(xué)習(xí)的推理量也比類比學(xué)習(xí)大,因?yàn)闆]有一個(gè)類似的概念可以作為“源概念”加以取用。歸納學(xué)習(xí)是最基本的,發(fā)展也較為成熟的學(xué)習(xí)方法。11.3.1基于學(xué)習(xí)策略分類學(xué)習(xí)系統(tǒng)獲取的知識(shí)可能有:行為規(guī)則、物理對(duì)象的描述、問題求解策略、各種分類及其他用于任務(wù)實(shí)現(xiàn)的知識(shí)類型。對(duì)于學(xué)習(xí)中獲取的知識(shí),主要有以下一些表示形式:(1)代數(shù)表達(dá)式參數(shù):學(xué)習(xí)的目標(biāo)是調(diào)節(jié)一個(gè)固定函數(shù)形式的代數(shù)表達(dá)式參數(shù)或系數(shù)來達(dá)到一個(gè)理想的性能。(2)決策樹:用決策樹來劃分物體的類屬,樹中每一內(nèi)部節(jié)點(diǎn)對(duì)應(yīng)一個(gè)物體屬性,而每一邊對(duì)應(yīng)于這些屬性的可選值,樹的葉節(jié)點(diǎn)則對(duì)應(yīng)于物體的每個(gè)基本分類。11.3.2基于知識(shí)表示形式分類(3)形式文法:在識(shí)別一個(gè)特定語言的學(xué)習(xí)中,通過對(duì)該語言的一系列表達(dá)式進(jìn)行歸納,形成該語言的形式文法。(4)產(chǎn)生式規(guī)則:產(chǎn)生式規(guī)則表示為條件-動(dòng)作對(duì),已被廣泛地使用。學(xué)習(xí)系統(tǒng)中的學(xué)習(xí)行為主要是:生成、泛化、特化或合成產(chǎn)生式規(guī)則。(5)形式邏輯表達(dá)式:形式邏輯表達(dá)式的基本成分是命題、謂詞、變量、約束變量范圍的語句,及嵌入的邏輯表達(dá)式。(6)圖和網(wǎng)絡(luò):有的系統(tǒng)采用圖匹配和圖轉(zhuǎn)換方案來有效地比較和索引知識(shí)。11.3.2基于知識(shí)表示形式分類(7)框架和模式:每個(gè)框架包含一組槽,用于描述事物(概念和個(gè)體)的各個(gè)方面。(8)計(jì)算機(jī)程序和其他的過程編碼:獲取這種形式的知識(shí),目的在于取得一種能實(shí)現(xiàn)特定過程的能力,而不是為了推斷該過程的內(nèi)部結(jié)構(gòu)。(9)神經(jīng)網(wǎng)絡(luò):這主要用在聯(lián)接學(xué)習(xí)中。學(xué)習(xí)所獲取的知識(shí),最后歸納為一個(gè)神經(jīng)網(wǎng)絡(luò)。(10)多種表示形式的組合:有時(shí)一個(gè)學(xué)習(xí)系統(tǒng)中獲取的知識(shí)需要綜合應(yīng)用上述幾種知識(shí)表示形式。11.3.2基于知識(shí)表示形式分類機(jī)器學(xué)習(xí)已經(jīng)有了十分廣泛的應(yīng)用,例如:數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語言處理、生物特征識(shí)別、搜索引擎、醫(yī)學(xué)診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識(shí)別、戰(zhàn)略游戲和機(jī)器人運(yùn)用,其中很多都屬于大數(shù)據(jù)分析技術(shù)的應(yīng)用范疇。最主要的應(yīng)用領(lǐng)域有:專家系統(tǒng)、認(rèn)知模擬、規(guī)劃和問題求解、數(shù)據(jù)挖掘、網(wǎng)絡(luò)信息服務(wù)、圖像識(shí)別、故障診斷、自然語言理解、機(jī)器人和博弈等領(lǐng)域。11.3.3按應(yīng)用領(lǐng)域分類從機(jī)器學(xué)習(xí)的執(zhí)行部分所反映的任務(wù)類型上看,大部分的應(yīng)用研究領(lǐng)域基本上集中于以下兩個(gè)范疇:分類和問題求解。(1)分類任務(wù)要求系統(tǒng)依據(jù)已知的分類知識(shí)對(duì)輸入的未知模式(該模式的描述)作分析,以確定輸入模式的類屬。相應(yīng)的學(xué)習(xí)目標(biāo)就是學(xué)習(xí)用于分類的準(zhǔn)則(如分類規(guī)則)。(2)問題求解任務(wù)要求對(duì)于給定的目標(biāo)狀態(tài),尋找一個(gè)將當(dāng)前狀態(tài)轉(zhuǎn)換為目標(biāo)狀態(tài)的動(dòng)作序列;機(jī)器學(xué)習(xí)在這一領(lǐng)域的研究工作大部分集中于通過學(xué)習(xí)來獲取能提高問題求解效率的知識(shí)(如搜索控制知識(shí),啟發(fā)式知識(shí)等)。11.3.3按應(yīng)用領(lǐng)域分類按學(xué)習(xí)形式分類,包括:1.監(jiān)督學(xué)習(xí)(分類)即在機(jī)械學(xué)習(xí)過程中提供對(duì)錯(cuò)指示。一般實(shí)在是數(shù)據(jù)組中包含最終結(jié)果(0,1)。通過算法讓機(jī)器自我減少誤差。這一類學(xué)習(xí)主要應(yīng)用于分類和預(yù)測。分類是一種有監(jiān)督學(xué)習(xí),它將數(shù)據(jù)分為相關(guān)的、以前學(xué)習(xí)過的類別。它包括兩個(gè)步驟:11.3.4按學(xué)習(xí)形式分類(1)將已經(jīng)被分類或者有標(biāo)號(hào)的訓(xùn)練數(shù)據(jù)給系統(tǒng),這樣就可以形成一個(gè)對(duì)不同類別的理解。(2)將未知或者相似數(shù)據(jù)給系統(tǒng)來分類,基于訓(xùn)練數(shù)據(jù)形成的理解,算法會(huì)分類無標(biāo)號(hào)數(shù)據(jù)。如圖11-3所示,在一個(gè)簡化的分類過程中,在訓(xùn)練時(shí)將有標(biāo)號(hào)的數(shù)據(jù)給機(jī)器使其建立對(duì)分類的理解,然后將未標(biāo)號(hào)的數(shù)據(jù)給機(jī)器,使它進(jìn)行自我分類。圖11-3機(jī)器學(xué)習(xí)可以用來自動(dòng)分類數(shù)據(jù)集11.3.4按學(xué)習(xí)形式分類例如,銀行想找出哪些客戶可能會(huì)拖欠貸款。基于歷史數(shù)據(jù)編制一個(gè)訓(xùn)練數(shù)據(jù)集,其中包含標(biāo)記的曾經(jīng)拖欠貸款的顧客樣例和不曾拖欠貸款的顧客樣例。將這樣的訓(xùn)練數(shù)據(jù)給分類算法,使之形成對(duì)“好”或“壞”顧客的認(rèn)識(shí)。最終,將這種認(rèn)識(shí)作用于新的未加標(biāo)簽的客戶數(shù)據(jù),來發(fā)現(xiàn)一個(gè)給定的客戶屬于哪個(gè)類。11.3.4按學(xué)習(xí)形式分類2.無監(jiān)督學(xué)習(xí)(聚類)無監(jiān)督學(xué)習(xí)又稱歸納性學(xué)習(xí)。通過循環(huán)和遞減運(yùn)算來減小誤差,達(dá)到分類的目的。通過這項(xiàng)技術(shù),數(shù)據(jù)被分割成不同的組,這樣在每組中數(shù)據(jù)有相似的性質(zhì)。聚類不需要先學(xué)習(xí)類別。相反,類別是基于分組數(shù)據(jù)產(chǎn)生的。數(shù)據(jù)如何成組取決于用什么類型的算法,每個(gè)算法都有不同的技術(shù)來確定聚類。11.3.4按學(xué)習(xí)形式分類聚類常用在數(shù)據(jù)挖掘上來理解一個(gè)給定數(shù)據(jù)集的性質(zhì)。在形成理解之后,分類可以被用來更好地預(yù)測相似但卻是全新或未見過的數(shù)據(jù)。聚類可以被用在未知文件的分類以及通過將具有相似行為的顧客分組的個(gè)性化市場營銷策略上。圖11-4所示的散點(diǎn)圖描述了可視化表示的聚類。例如,基于已有的顧客記錄檔案,一個(gè)銀行想要給現(xiàn)有顧客介紹很多新的金融產(chǎn)品。分析師用聚類將顧客分類至多組中。然后給每組介紹最適合這個(gè)組整體特征的一個(gè)或多個(gè)金融產(chǎn)品。圖11-4散點(diǎn)圖總結(jié)了聚類的結(jié)果11.3.4按學(xué)習(xí)形式分類3.異常檢測異常檢測是指在給定數(shù)據(jù)集中,發(fā)現(xiàn)明顯不同于其他數(shù)據(jù)或與其他數(shù)據(jù)不一致的數(shù)據(jù)的過程。這種機(jī)器學(xué)習(xí)技術(shù)被用來識(shí)別反常、異常和偏差,它們可以是有利的,例如機(jī)會(huì),也可能是不利的,例如風(fēng)險(xiǎn)。異常檢測與分類和聚類的概念緊密相關(guān),雖然它的算法專注于尋找不同值。它可以基于有監(jiān)督或無監(jiān)督的學(xué)習(xí)。異常檢測的應(yīng)用包括欺詐檢測、醫(yī)療診斷、網(wǎng)絡(luò)數(shù)據(jù)分析和傳感器數(shù)據(jù)分析。圖11-5散點(diǎn)圖突出異常點(diǎn)11.3.4按學(xué)習(xí)形式分類例如,為了查明一筆交易是否涉嫌欺詐,銀行的IT團(tuán)隊(duì)構(gòu)建了一個(gè)基于有監(jiān)督的學(xué)習(xí)使用異常檢測技術(shù)的系統(tǒng)。首先將一系列已知的欺詐交易送給異常檢測算法。在系統(tǒng)訓(xùn)練后,將未知交易送給異常檢測算法來預(yù)測他們是否欺詐。11.3.4按學(xué)習(xí)形式分類4.過濾過濾是自動(dòng)從項(xiàng)目池中尋找有關(guān)項(xiàng)目的過程。項(xiàng)目可以基于用戶行為或通過匹配多個(gè)用戶的行為被過濾。過濾常用的媒介是推薦系統(tǒng)。通常過濾的主要方法是協(xié)同過濾和內(nèi)容過濾。協(xié)同過濾是一項(xiàng)基于聯(lián)合或合并用戶過去行為與他人行為的過濾技術(shù)。目標(biāo)用戶過去的行為,包括他們的喜好、評(píng)級(jí)和購買歷史等,會(huì)被和相似用戶的行為所聯(lián)合。基于用戶行為的相似性,項(xiàng)目被過濾給目標(biāo)用戶。協(xié)同過濾僅依靠用戶行為的相似性。它需要大量用戶行為數(shù)據(jù)來準(zhǔn)確地過濾項(xiàng)目。11.3.4按學(xué)習(xí)形式分類內(nèi)容過濾是一項(xiàng)專注于用戶和項(xiàng)目之間相似性的過濾技術(shù)?;谟脩粢郧暗男袨閯?chuàng)造用戶文件,例如,他們的喜好、評(píng)級(jí)和購買歷史。用戶文件與不同項(xiàng)目性質(zhì)之間所確定的相似性可以使項(xiàng)目被過濾并呈現(xiàn)給用戶。內(nèi)容過濾僅致力于用戶個(gè)體偏好,而并不需要其他用戶數(shù)據(jù)。11.3.4按學(xué)習(xí)形式分類推薦系統(tǒng)預(yù)測用戶偏好并且為用戶產(chǎn)生相應(yīng)建議。建議一般推薦的項(xiàng)目包括電影、書本、網(wǎng)頁和人。推薦系統(tǒng)通常使用協(xié)同過濾或內(nèi)容過濾來產(chǎn)生建議。它也可能基于協(xié)同過濾和內(nèi)容過濾的混合來調(diào)整生成建議的準(zhǔn)確性和有效性。例如,為了實(shí)現(xiàn)交叉銷售,一家銀行構(gòu)建了使用內(nèi)容過濾的推薦系統(tǒng)?;陬櫩唾徺I的金融產(chǎn)品和相似金融產(chǎn)品性質(zhì)所找到的匹配,推薦系統(tǒng)自動(dòng)推薦客戶可能感興趣的潛在金融產(chǎn)品。11.3.4按學(xué)習(xí)形式分類PART04神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)人工神經(jīng)網(wǎng)絡(luò)是由大量處理單元(或稱神經(jīng)元)互聯(lián)組成的非線性、自適應(yīng)信息處理系統(tǒng)。它是在神經(jīng)科學(xué)研究成果的基礎(chǔ)上提出的,試圖通過模擬大腦神經(jīng)網(wǎng)絡(luò)處理、記憶信息的方式進(jìn)行信息處理。文字識(shí)別、語音識(shí)別等模式識(shí)別領(lǐng)域適合應(yīng)用神經(jīng)網(wǎng)絡(luò),此外,在信用、貸款的風(fēng)險(xiǎn)管理、信用欺詐監(jiān)測等領(lǐng)域也得到了廣泛的應(yīng)用。11.4神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)圖11-6人工神經(jīng)網(wǎng)絡(luò)11.4神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)人工神經(jīng)網(wǎng)絡(luò)具有四個(gè)基本特征:(1)非線性:非線性關(guān)系是自然界的普遍特性。大腦的智慧就是一種非線性現(xiàn)象。人工神經(jīng)元處于激活或抑制二種不同的狀態(tài),這種行為在數(shù)學(xué)上表現(xiàn)為一種非線性關(guān)系。具有閾值的神經(jīng)元構(gòu)成的網(wǎng)絡(luò)具有更好的性能,可以提高容錯(cuò)性和存儲(chǔ)容量。11.4.1人工神經(jīng)網(wǎng)絡(luò)的特征(2)非局限性:一個(gè)神經(jīng)網(wǎng)絡(luò)通常由多個(gè)神經(jīng)元廣泛連接而成。一個(gè)系統(tǒng)的整體行為不僅取決于單個(gè)神經(jīng)元的特征,而且可能主要由單元之間的相互作用、相互連接所決定。通過單元之間的大量連接模擬大腦的非局限性。聯(lián)想記憶是非局限性的典型例子。(3)非常定性:人工神經(jīng)網(wǎng)絡(luò)具有自適應(yīng)、自組織、自學(xué)習(xí)能力。神經(jīng)網(wǎng)絡(luò)不但處理的信息可以有各種變化,而且在處理信息的同時(shí),非線性動(dòng)力系統(tǒng)本身也在不斷變化。經(jīng)常采用迭代過程描寫動(dòng)力系統(tǒng)的演化過程。11.4.1人工神經(jīng)網(wǎng)絡(luò)的特征(4)非凸性:一個(gè)系統(tǒng)的演化方向,在一定條件下將取決于某個(gè)特定的狀態(tài)函數(shù)。例如能量函數(shù),它的極值相應(yīng)于系統(tǒng)比較穩(wěn)定的狀態(tài)。非凸性是指這種函數(shù)有多個(gè)極值,故系統(tǒng)具有多個(gè)較穩(wěn)定的平衡態(tài),這將導(dǎo)致系統(tǒng)演化的多樣性。人工神經(jīng)網(wǎng)絡(luò)是并行分布式系統(tǒng),采用了與傳統(tǒng)人工智能和信息處理技術(shù)完全不同的機(jī)理,克服了傳統(tǒng)的基于邏輯符號(hào)的人工智能在處理直覺、非結(jié)構(gòu)化信息方面的缺陷,具有自適應(yīng)、自組織和實(shí)時(shí)學(xué)習(xí)的特點(diǎn)。11.4.1人工神經(jīng)網(wǎng)絡(luò)的特征人工神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元處理單元可表示不同的對(duì)象,例如特征、字母、概念,或者一些有意義的抽象模式。網(wǎng)絡(luò)中處理單元的類型分為三類:輸入單元、輸出單元和隱單元。輸入單元接受外部世界的信號(hào)與數(shù)據(jù);輸出單元實(shí)現(xiàn)系統(tǒng)處理結(jié)果的輸出;隱單元是處在輸入和輸出單元之間,不能由系統(tǒng)外部觀察的單元。神經(jīng)元間的連接權(quán)值反映了單元間的連接強(qiáng)度,信息的表示和處理體現(xiàn)在網(wǎng)絡(luò)處理單元的連接關(guān)系中。11.4.1人工神經(jīng)網(wǎng)絡(luò)的特征人工智能技術(shù)的發(fā)展尤其以深度學(xué)習(xí)所取得的進(jìn)步最為顯著,深度學(xué)習(xí)帶來的重大技術(shù)革命,甚至有可能顛覆過去長期以來人們對(duì)互聯(lián)網(wǎng)技術(shù)的認(rèn)知,實(shí)現(xiàn)技術(shù)體驗(yàn)的跨越式發(fā)展。11.4.1人工神經(jīng)網(wǎng)絡(luò)的特征從研究角度看,深度學(xué)習(xí)是基于多層人工神經(jīng)網(wǎng)絡(luò),海量數(shù)據(jù)為輸入,發(fā)現(xiàn)規(guī)則自學(xué)習(xí)的方法。深度學(xué)習(xí)所基于的多層神經(jīng)網(wǎng)絡(luò)并非新鮮事物,甚至在80年代還被認(rèn)為沒有前途。但近年來,科學(xué)家們對(duì)多層神經(jīng)網(wǎng)絡(luò)的算法不斷優(yōu)化,使它出現(xiàn)了突破性的進(jìn)展。以往很多算法是線性的,而現(xiàn)實(shí)世界大多數(shù)事情的特征是復(fù)雜非線性的。比如貓的圖像中,就包含了顏色、形態(tài)、五官、光線等各種信息。深度學(xué)習(xí)的關(guān)鍵就是通過多層非線性映射將這些因素成功分開。11.4.2深度學(xué)習(xí)的意義采用多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的好處是可以減少參數(shù)。因?yàn)樗貜?fù)利用中間層的計(jì)算單元。還是以認(rèn)貓作為例子。它可以學(xué)習(xí)貓的分層特征:最底層從原始像素開始,刻畫局部的邊緣和紋;中層把各種邊緣進(jìn)行組合,描述不同類型的貓的器官;最高層描述的是整個(gè)貓的全局特征。11.4.2深度學(xué)習(xí)的意義深度學(xué)習(xí)需要具備超強(qiáng)的計(jì)算能力,同時(shí)還不斷有海量數(shù)據(jù)的輸入。特別是在信息表示和特征設(shè)計(jì)方面,過去大量依賴人工,嚴(yán)重影響有效性和通用性。深度學(xué)習(xí)則徹底顛覆了“人造特征”的范式,開啟了數(shù)據(jù)驅(qū)動(dòng)的“表示學(xué)習(xí)”范式——由數(shù)據(jù)自提取特征,計(jì)算機(jī)自己發(fā)現(xiàn)規(guī)則,進(jìn)行自學(xué)習(xí)。過去,人們對(duì)經(jīng)驗(yàn)的利用靠人類自己完成。而深度學(xué)習(xí)中,經(jīng)驗(yàn)以數(shù)據(jù)形式存在。因此,深度學(xué)習(xí),就是關(guān)于在計(jì)算機(jī)上從數(shù)據(jù)中產(chǎn)生模型的算法,即深度學(xué)習(xí)算法。11.4.2深度學(xué)習(xí)的意義我們通過幾個(gè)例子,來了解深度學(xué)習(xí)的方法。示例1:識(shí)別正方形先從一個(gè)簡單例子開始,從概念層面上解釋究竟發(fā)生了什么事情。我們來試試看如何從多個(gè)形狀中識(shí)別正方形。11.4.3深度學(xué)習(xí)的方法第一件事是檢查圖中是否有四條線(簡單的概念)。如果找到這樣的四條線,進(jìn)一步檢查它們是相連的、閉合的和相互垂直的,并且它們是否相等(嵌套的概念層次結(jié)構(gòu))。這樣就完成了一個(gè)復(fù)雜的任務(wù)(識(shí)別一個(gè)正方形),并以簡單、不太抽象的任務(wù)來完成它。深度學(xué)習(xí)本質(zhì)上在大規(guī)模執(zhí)行類似的邏輯。11.4.3深度學(xué)習(xí)的方法示例2:識(shí)別貓我們通常能用很多屬性描述一個(gè)事物。其中有些屬性可能很關(guān)鍵,很有用,另一些屬性可能沒什么用。我們就將屬性被稱為特征。特征辨識(shí)是一個(gè)數(shù)據(jù)處理的過程。傳統(tǒng)算法認(rèn)貓,是標(biāo)注各種特征去認(rèn):大眼睛,有胡子,有花紋。但這種特征寫著寫著,可能分不出是貓還是老虎了,狗和貓也分不出來。這種方法叫——人制定規(guī)則,機(jī)器學(xué)習(xí)這種規(guī)則。11.4.3深度學(xué)習(xí)的方法深度學(xué)習(xí)的方法是,直接給你百萬張圖片,說這里有貓,再給你百萬張圖,說這里沒貓,然后來訓(xùn)練深度網(wǎng)絡(luò),通過深度學(xué)習(xí)自己去學(xué)貓的特征,計(jì)算機(jī)就知道了,誰是貓。

從視頻里面尋找貓的圖片是深度學(xué)習(xí)接觸性能的首次展現(xiàn)圖11-9放貓11.4.3深度學(xué)習(xí)的方法示例3:訓(xùn)練機(jī)械手學(xué)習(xí)抓取動(dòng)作傳統(tǒng)方法肯定是看到那里有個(gè)機(jī)械手,就寫好函數(shù),移動(dòng)到xyz標(biāo)注的空間點(diǎn),利用程序?qū)崿F(xiàn)一次抓取。而谷歌現(xiàn)在用機(jī)器人訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò),幫助機(jī)器人根據(jù)攝像頭輸入和電機(jī)命令,預(yù)測抓取的結(jié)果。簡單地說,就是訓(xùn)練機(jī)器人的手眼協(xié)調(diào)。機(jī)器人會(huì)觀測自己的機(jī)械臂,實(shí)時(shí)糾正抓取運(yùn)動(dòng)。所有行為都從學(xué)習(xí)中自然浮現(xiàn),而不是依靠傳統(tǒng)的系統(tǒng)程序。11.4.3深度學(xué)習(xí)的方法為了加快學(xué)習(xí)進(jìn)程,谷歌公司用了14個(gè)機(jī)械手同時(shí)工作,在將近3000小時(shí)的訓(xùn)練,相當(dāng)于80萬次抓取嘗試后,開始看到智能反應(yīng)行為的出現(xiàn)。資料顯示,沒有訓(xùn)練的機(jī)械手,前30次抓取失敗率為34%,而訓(xùn)練后,失敗率降低到18%。這就是一個(gè)自我學(xué)習(xí)的過程。11.4.3深度學(xué)習(xí)的方法示例4:訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)寫文章斯坦福大學(xué)的計(jì)算機(jī)博士安德烈·卡帕蒂曾用托爾斯泰的小說《戰(zhàn)爭與和平》來訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)。每訓(xùn)練100個(gè)回合,就叫它寫文章。在100次訓(xùn)練后,它就知道要加空格,但仍然有時(shí)是在“胡言亂語”(亂碼)。500個(gè)回合后,能正確拼寫一些短單詞。1200個(gè)回合后,有標(biāo)點(diǎn)符號(hào)和長單詞。2000個(gè)回合后,已經(jīng)可以正確拼寫更復(fù)雜的語句。11.4.3深度學(xué)習(xí)的方法整個(gè)演化過程是個(gè)什么情況呢?以前我們寫文章,只要告訴主謂賓,就是規(guī)則。而這個(gè)過程,完全沒人告訴機(jī)器語法規(guī)則。甚至,連標(biāo)點(diǎn)和字母區(qū)別都不用告訴它。不告訴機(jī)器任何程序。只是不停地用原始數(shù)據(jù)進(jìn)行訓(xùn)練,一層一層訓(xùn)練,最后輸出結(jié)果——就是一個(gè)個(gè)看得懂的語句。一切看起來都很有趣。人工智能與深度學(xué)習(xí)的美妙之處,也正在于此。11.4.3深度學(xué)習(xí)的方法示例5:做胃鏡檢查胃不舒服做檢查,常常會(huì)需要做胃鏡,甚至要分開做腸、胃鏡檢查,而且通常小腸還看不見。有一家公司出了一種膠囊攝像頭。將攝像頭吃進(jìn)去后,在人體消化道內(nèi)每5秒拍一幅圖,連續(xù)攝像,此后再排出膠囊。這樣,所有關(guān)于腸道和胃部的問題,全部完整記錄。但光是等醫(yī)生把這些圖看完就需要五個(gè)小時(shí)。原本的機(jī)器主動(dòng)檢測漏檢率高,還需要醫(yī)生復(fù)查。11.4.3深度學(xué)習(xí)的方法后來采用深度學(xué)習(xí)。采集8000多例圖片數(shù)據(jù)灌進(jìn)去,用機(jī)器不斷學(xué),不僅提高診斷精確率,減少了醫(yī)生的漏診以及對(duì)好醫(yī)生的經(jīng)驗(yàn)依賴,只需要靠機(jī)器自己去學(xué)習(xí)規(guī)則。深度學(xué)習(xí)算法,可以幫助醫(yī)生作出決策。11.4.3深度學(xué)習(xí)的方法深度學(xué)習(xí)本來并不是一種獨(dú)立的學(xué)習(xí)方法,它會(huì)用到有監(jiān)督和無監(jiān)督學(xué)習(xí)方法來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。但由于近幾年該領(lǐng)域發(fā)展迅猛,一些特有的學(xué)習(xí)手段相繼被提出(如殘差網(wǎng)絡(luò)),因此越來越多的人將其單獨(dú)看作一種學(xué)習(xí)的方法。11.4.4深度學(xué)習(xí)的實(shí)現(xiàn)最初的深度學(xué)習(xí)是利用神經(jīng)網(wǎng)絡(luò)來解決特征表達(dá)的一種學(xué)習(xí)過程。深度神經(jīng)網(wǎng)絡(luò)可大致理解為包含多個(gè)隱含層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。為了提高深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效果,人們對(duì)神經(jīng)元的連接方法和激活函數(shù)等方面做出相應(yīng)的調(diào)整。如今,深度學(xué)習(xí)迅速發(fā)展,奇跡般地實(shí)現(xiàn)了各種任務(wù),使得似乎所有的機(jī)器輔助功能都變?yōu)榭赡?,無人駕駛汽車,預(yù)防性醫(yī)療保健,更好的電影推薦等等,都近在眼前或者即將實(shí)現(xiàn)。11.4.4深度學(xué)習(xí)的實(shí)現(xiàn)與大腦中一個(gè)神經(jīng)元可以連接一定距離內(nèi)的任意神經(jīng)元不同,ANN具有離散的層、連接和數(shù)據(jù)傳播的方向。例如,我們可以把一幅圖像切分成圖像塊,輸入到神經(jīng)網(wǎng)絡(luò)的第一層。在第一層的每一個(gè)神經(jīng)元都把數(shù)據(jù)傳遞到第二層。第二層的神經(jīng)元也是完成類似的工作,把數(shù)據(jù)傳遞到第三層,以此類推,直到最后一層,然后生成結(jié)果。11.4.4深度學(xué)習(xí)的實(shí)現(xiàn)以道路上的停止(Stop)標(biāo)志牌為例。將一個(gè)停止標(biāo)志牌圖像的所有元素都打碎,然后用神經(jīng)元進(jìn)行“檢查”:八邊形的外形、救火車般的紅顏色、鮮明突出的字母、交通標(biāo)志的典型尺寸和靜止不動(dòng)運(yùn)動(dòng)特性等等。神經(jīng)網(wǎng)絡(luò)的任務(wù)就是給出結(jié)論,它到底是不是一個(gè)停止標(biāo)志牌。神經(jīng)網(wǎng)絡(luò)會(huì)根據(jù)所有權(quán)重,給出一個(gè)經(jīng)過深思熟慮的猜測——“概率向量”。11.4.4深度學(xué)習(xí)的實(shí)現(xiàn)在這個(gè)例子里,系統(tǒng)可能會(huì)給出這樣的結(jié)果:86%可能是一個(gè)停止標(biāo)志牌,7%可能是一個(gè)限速標(biāo)志牌,5%可能是一個(gè)風(fēng)箏掛在樹上,然后網(wǎng)絡(luò)結(jié)構(gòu)告訴神經(jīng)網(wǎng)絡(luò),它的結(jié)論是否正確。神經(jīng)網(wǎng)絡(luò)是調(diào)制、訓(xùn)練出來的,時(shí)不時(shí)還是很容易出錯(cuò)的。它最需要的就是訓(xùn)練。需要成百上千甚至幾百萬張圖像來訓(xùn)練,直到神經(jīng)元的輸入的權(quán)值都被調(diào)制得十分精確,無論是否有霧,晴天還是雨天,每次都能得到正確的結(jié)果。只有在這個(gè)時(shí)候,我們才可以說神經(jīng)網(wǎng)絡(luò)成功地自學(xué)習(xí)到一個(gè)停止標(biāo)志的樣子。11.4.4深度學(xué)習(xí)的實(shí)現(xiàn)關(guān)鍵的突破在于,把這些神經(jīng)網(wǎng)絡(luò)從基礎(chǔ)上顯著地增大,層數(shù)非常多,神經(jīng)元也非常多,然后給系統(tǒng)輸入海量的數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò)。這樣就為深度學(xué)習(xí)加入了“深度”,這就是說神經(jīng)網(wǎng)絡(luò)中眾多的層。資深學(xué)者本吉奧有一段話講得特別好,引用如下:“科學(xué)不是一場戰(zhàn)斗,而是一場建立在彼此想法上的合作。科學(xué)是一種愛,而不是戰(zhàn)爭,熱愛周圍世界的美麗,熱愛分享和共同創(chuàng)造美好的事物。從情感上說,這使得科學(xué)成為一項(xiàng)令人非常賞心悅目的活動(dòng)!”11.4.4深度學(xué)習(xí)的實(shí)現(xiàn)結(jié)合機(jī)器學(xué)習(xí)近年來的迅速發(fā)展來看本吉奧的這段話,可以感受到其中的深刻含義。未來哪種機(jī)器學(xué)習(xí)算法會(huì)成為熱點(diǎn)呢?資深專家吳恩達(dá)曾表示,“在繼深度學(xué)習(xí)之后,遷移學(xué)習(xí)將引領(lǐng)下一波機(jī)器學(xué)習(xí)技術(shù)”。11.4.4深度學(xué)習(xí)的實(shí)現(xiàn)PART05機(jī)器學(xué)習(xí)與深度學(xué)習(xí)在有所了解的基礎(chǔ)上,我們來對(duì)比機(jī)器學(xué)習(xí)和深度學(xué)習(xí)這兩種技術(shù)。深度學(xué)習(xí)與傳統(tǒng)的機(jī)器學(xué)習(xí)最主要的區(qū)別在于隨著數(shù)據(jù)規(guī)模的增加其性能的變化。當(dāng)數(shù)據(jù)很少時(shí),深度學(xué)習(xí)算法的性能并不好。這是因?yàn)樯疃葘W(xué)習(xí)算法需要大量的數(shù)據(jù)來完美地理解它。另一方面,在這種情況下,傳統(tǒng)的機(jī)器學(xué)習(xí)算法使用制定的規(guī)則,性能會(huì)比較好。11.5機(jī)器學(xué)習(xí)與深度學(xué)習(xí)在特征處理方面,機(jī)器學(xué)習(xí)中大多數(shù)應(yīng)用的特征都需要專家確定然后編碼為一種數(shù)據(jù)類型。特征可以使像素值、形狀、紋理、位置和方向。大多數(shù)機(jī)器學(xué)習(xí)算法的性能依賴于所提取的特征的準(zhǔn)確度。深度學(xué)習(xí)嘗試從數(shù)據(jù)中直接獲取高等級(jí)的特征,這是深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)算法的主要的不同。基于此,深度學(xué)習(xí)削減了對(duì)每一個(gè)問題設(shè)計(jì)特征提取器的工作。例如,卷積神經(jīng)網(wǎng)絡(luò)嘗試在前邊的層學(xué)習(xí)低等級(jí)的特征(邊界,線條),然后學(xué)習(xí)部分人臉,然后是高級(jí)的人臉的描述。

圖11-13從數(shù)據(jù)中獲取特征11.5機(jī)器學(xué)習(xí)與深度學(xué)習(xí)在問題的解決方式上,當(dāng)應(yīng)用傳統(tǒng)機(jī)器學(xué)習(xí)算法解決問題的時(shí)候,傳統(tǒng)機(jī)器學(xué)習(xí)通常會(huì)將問題分解為多個(gè)子問題并逐個(gè)解決子問題,最后結(jié)合所有子問題的結(jié)果獲得最終結(jié)果。相反,深度學(xué)習(xí)提倡直接的端到端的解決問題。例如:一個(gè)檢測多物體的任務(wù)需要圖像中物體的類型和各物體在圖像中的位置。

圖11-14需要圖像中物體的類型和位置11.5機(jī)器學(xué)習(xí)與深度學(xué)習(xí)傳統(tǒng)機(jī)器學(xué)會(huì)將問題分解為兩步:物體檢測和物體識(shí)別。首先,使用邊界框檢測算法掃描整張圖片找到物體可能的區(qū)域;然后使用物體識(shí)別算法對(duì)上一步檢測出來的物體進(jìn)行識(shí)別。相反,深度學(xué)習(xí)會(huì)直接將輸入數(shù)據(jù)進(jìn)行運(yùn)算得到輸出結(jié)果。例如可以直接將圖片傳給YOLO網(wǎng)絡(luò)(一種深度學(xué)習(xí)算法),YOLO網(wǎng)絡(luò)會(huì)給出圖片中的物體和名稱。11.5機(jī)器學(xué)習(xí)與深度學(xué)習(xí)那么大數(shù)據(jù)以及各種算法與深度學(xué)習(xí)有什么區(qū)別呢?過去的算法模式,數(shù)學(xué)上叫線性,x和y的關(guān)系是對(duì)應(yīng)的,它是一種函數(shù)體現(xiàn)的映射。但這種算法在海量數(shù)據(jù)面前遇到了瓶頸。國際上著名的ImageNet圖像分類大賽,用傳統(tǒng)算法,識(shí)別錯(cuò)誤率一直降不下去,采用深度學(xué)習(xí)后,錯(cuò)誤率大幅降低。在2010年,獲勝的系統(tǒng)只能正確標(biāo)記72%的圖片;到了2012年,多倫多大學(xué)的杰夫·辛頓利用深度學(xué)習(xí)的新技術(shù),帶領(lǐng)團(tuán)隊(duì)實(shí)現(xiàn)了85%的準(zhǔn)確率;2015年的ImageNet競賽上,一個(gè)深度學(xué)習(xí)系統(tǒng)以96%的準(zhǔn)確率第一次超過了人類(人類平均有95%的準(zhǔn)確率)。11.5機(jī)器學(xué)習(xí)與深度學(xué)習(xí)計(jì)算機(jī)認(rèn)圖的能力,已經(jīng)超過了人,尤其在圖像和語音等復(fù)雜應(yīng)用方面,深度學(xué)習(xí)技術(shù)取得了優(yōu)越的性能。為什么呢?其實(shí)就是思路的革新。11.5機(jī)器學(xué)習(xí)與深度學(xué)習(xí)數(shù)字文明與數(shù)字治理大數(shù)據(jù)通識(shí)教程第12章楊武劍周蘇主編大數(shù)據(jù)安全與法律01大數(shù)據(jù)的安全問題02大數(shù)據(jù)的管理維度03大數(shù)據(jù)的安全體系04大數(shù)據(jù)倫理與法規(guī)目錄/CONTENTSPART01大數(shù)據(jù)的安全問題傳統(tǒng)的信息安全側(cè)重于信息內(nèi)容(信息資產(chǎn))的管理,更多地將信息作為企業(yè)/機(jī)構(gòu)的自有資產(chǎn)進(jìn)行相對(duì)靜態(tài)的管理,不能適應(yīng)實(shí)時(shí)動(dòng)態(tài)的大規(guī)模數(shù)據(jù)流轉(zhuǎn)和大量用戶數(shù)據(jù)處理的特點(diǎn)。大數(shù)據(jù)的特性和新的技術(shù)架構(gòu)顛覆了傳統(tǒng)的數(shù)據(jù)管理方式,在數(shù)據(jù)來源、數(shù)據(jù)處理、數(shù)據(jù)使用和數(shù)據(jù)思維等方面帶來革命性的變化,這給大數(shù)據(jù)的安全防護(hù)帶來了嚴(yán)峻的挑戰(zhàn)。大數(shù)據(jù)的安全不僅是大數(shù)據(jù)平臺(tái)的安全,而是以數(shù)據(jù)為核心,在全生命周期各階段流轉(zhuǎn)過程中,在數(shù)據(jù)采集匯聚、數(shù)據(jù)存儲(chǔ)處理、數(shù)據(jù)共享使用等方面都面臨新的安全挑戰(zhàn)。12.1大數(shù)據(jù)的安全問題云計(jì)算、社交網(wǎng)絡(luò)和移動(dòng)互聯(lián)網(wǎng)的興起,對(duì)數(shù)據(jù)存儲(chǔ)的安全性要求隨之增加。各種在線應(yīng)用大量數(shù)據(jù)共享的一個(gè)潛在問題就是信息安全。雖然信息安全技術(shù)發(fā)展迅速,然而企圖破壞和規(guī)避信息保護(hù)的各種網(wǎng)絡(luò)犯罪的手段有也在發(fā)展中,更加不易追蹤和防范。數(shù)據(jù)安全的另一方面是管理。在加強(qiáng)技術(shù)保護(hù)的同時(shí),加強(qiáng)全民的信息安全意識(shí),完善信息安全的政策和流程至關(guān)重要。12.1大數(shù)據(jù)的安全問題根據(jù)工業(yè)和信息化部(網(wǎng)安局)的相關(guān)定義,所謂數(shù)據(jù)安全風(fēng)險(xiǎn)信息,主要是通過檢測、評(píng)估、信息搜集、授權(quán)監(jiān)測等手段獲取的,包括但不限于以下這些。(1)數(shù)據(jù)泄露,數(shù)據(jù)被惡意獲取,或者轉(zhuǎn)移、發(fā)布至不安全環(huán)境等相關(guān)風(fēng)險(xiǎn);(2)數(shù)據(jù)篡改,造成數(shù)據(jù)破壞的修改、增加、刪除等相關(guān)風(fēng)險(xiǎn);(3)數(shù)據(jù)濫用,數(shù)據(jù)超范圍、超用途、超時(shí)間使用等相關(guān)風(fēng)險(xiǎn);(4)違規(guī)傳輸,數(shù)據(jù)未按照有關(guān)規(guī)定擅自進(jìn)行傳輸?shù)认嚓P(guān)風(fēng)險(xiǎn);12.1大數(shù)據(jù)的安全問題(5)非法訪問,數(shù)據(jù)遭未授權(quán)訪問等相關(guān)風(fēng)險(xiǎn);(6)流量異常,數(shù)據(jù)流量規(guī)模異常、流量內(nèi)容異常等相關(guān)風(fēng)險(xiǎn);此外,數(shù)據(jù)安全風(fēng)險(xiǎn)還包括由相關(guān)政府部門組織授權(quán)監(jiān)測的暴露在互聯(lián)網(wǎng)上的數(shù)據(jù)庫、大數(shù)據(jù)平臺(tái)等數(shù)據(jù)資產(chǎn)信息等。12.1大數(shù)據(jù)的安全問題大數(shù)據(jù)環(huán)境下,隨著物聯(lián)網(wǎng)特別是5G技術(shù)的發(fā)展,出現(xiàn)了各種不同的終端接入方式和各種各樣的數(shù)據(jù)應(yīng)用。來自大量終端設(shè)備和應(yīng)用的超大規(guī)模數(shù)據(jù)源輸入,對(duì)鑒別大數(shù)據(jù)源頭的真實(shí)性提出了挑戰(zhàn),數(shù)據(jù)來源是否可信,源數(shù)據(jù)是否被篡改都是需要防范的風(fēng)險(xiǎn)。數(shù)據(jù)傳輸需要各種協(xié)議相互配合,有些協(xié)議缺乏專業(yè)的數(shù)據(jù)安全保護(hù)機(jī)制,從數(shù)據(jù)源到大數(shù)據(jù)平臺(tái)的數(shù)據(jù)傳輸可能帶來安全風(fēng)險(xiǎn)。數(shù)據(jù)采集過程中存在的誤差會(huì)造成數(shù)據(jù)本身的失真和偏差,數(shù)據(jù)傳輸過程中的泄漏、破壞或攔截會(huì)帶來隱私泄露、謠言傳播等安全管理失控的問題。因此,大數(shù)據(jù)傳輸中信道安全、數(shù)據(jù)防破壞、防篡改和設(shè)備物理安全等幾個(gè)方面都需要考慮。12.1.1采集匯聚安全大數(shù)據(jù)平臺(tái)處理數(shù)據(jù)的模式與傳統(tǒng)信息系統(tǒng)不同(圖12-2)。傳統(tǒng)數(shù)據(jù)的產(chǎn)生、存儲(chǔ)、計(jì)算、傳輸都對(duì)應(yīng)明確界限的實(shí)體,可以清晰地通過拓?fù)浣Y(jié)構(gòu)表示,這種處理信息方式用邊界防護(hù)相對(duì)有效。但在大數(shù)據(jù)平臺(tái)上,采用新的處理范式和數(shù)據(jù)處理方式(MapReduce、列存儲(chǔ)等),存儲(chǔ)平臺(tái)同時(shí)也是計(jì)算平臺(tái),應(yīng)用分布式存儲(chǔ)、分布式數(shù)據(jù)庫、NewSQL、NoSQL、分布式并行計(jì)算、流式計(jì)算等技術(shù),一個(gè)平臺(tái)內(nèi)可以同時(shí)具有多種數(shù)據(jù)處理模式,完成多種業(yè)務(wù)處理,導(dǎo)致邊界模糊,傳統(tǒng)的安全防護(hù)方式難以奏效。12.1.2存儲(chǔ)處理安全

圖12-2大數(shù)據(jù)安全事故分析12.1.2存儲(chǔ)處理安全(1)大數(shù)據(jù)平臺(tái)的分布式計(jì)算涉及多臺(tái)計(jì)算機(jī)和多條通信鏈路,一旦出現(xiàn)多點(diǎn)故障,容易導(dǎo)致分布式系統(tǒng)出現(xiàn)問題。此外,分布式計(jì)算涉及的組織較多,在安全攻擊和非授權(quán)訪問防護(hù)方面比較脆弱。12.1.2存儲(chǔ)處理安全(2)分布式存儲(chǔ)由于數(shù)據(jù)被分塊存儲(chǔ)在各個(gè)數(shù)據(jù)節(jié)點(diǎn),傳統(tǒng)的安全防護(hù)在分布式存儲(chǔ)方式下很難奏效,其面臨的主要安全挑戰(zhàn)是數(shù)據(jù)丟失和數(shù)據(jù)泄露。①數(shù)據(jù)的安全域劃分無效;②細(xì)粒度的訪問存儲(chǔ)訪問控制不健全,用作服務(wù)器軟件的NoSQL未有足夠的安全內(nèi)置訪問控制措施,以致客戶端應(yīng)用程序需要內(nèi)建安全措施,因此產(chǎn)生授權(quán)過程身份驗(yàn)證和輸入驗(yàn)證等安全問題;12.1.2存儲(chǔ)處理安全③分布式節(jié)點(diǎn)之間的傳輸網(wǎng)絡(luò)易受到攻擊、劫持和破壞使得存儲(chǔ)數(shù)據(jù)的完整性、機(jī)密性難以保證;④數(shù)據(jù)分布式存儲(chǔ)增大了各個(gè)存儲(chǔ)節(jié)點(diǎn)暴露的風(fēng)險(xiǎn),在開放的網(wǎng)絡(luò)化社會(huì),攻擊者更容易找到侵入點(diǎn),以相對(duì)較低的成本就可以獲得“滾雪球”的收益,一旦遭受攻擊,失竊的數(shù)據(jù)量和損失是十分巨大的;⑤傳統(tǒng)的數(shù)據(jù)存儲(chǔ)加密技術(shù)在性能效率上面很難滿足高速、大容量數(shù)據(jù)的加密要求。12.1.2存儲(chǔ)處理安全(3)大數(shù)據(jù)平臺(tái)訪問控制的安全隱患主要體現(xiàn)在:用戶多樣性和業(yè)務(wù)場景多樣性帶來的權(quán)限控制多樣性和精細(xì)化要求,超過了平臺(tái)自身訪問控制能夠?qū)崿F(xiàn)的安全級(jí)別,策略控制無法滿足權(quán)限的動(dòng)態(tài)性需求,傳統(tǒng)的角色訪問控制不能將角色、活動(dòng)和權(quán)限有效地對(duì)應(yīng)起來。因此,在大數(shù)據(jù)架構(gòu)下的訪問控制機(jī)制需要對(duì)這些新問題進(jìn)行分析和探索。12.1.2存儲(chǔ)處理安全(4)針對(duì)大數(shù)據(jù)的新型安全攻擊中最具代表性的是高級(jí)持續(xù)性攻擊,由于其潛伏性和低頻活躍性,使持續(xù)性成為一個(gè)不確定的實(shí)時(shí)過程,產(chǎn)生的異常行為不易被捕獲。傳統(tǒng)的基于內(nèi)置攻擊事件庫的特征實(shí)時(shí)匹配檢測技術(shù)對(duì)檢測這種攻擊無效。大數(shù)據(jù)應(yīng)用為入侵者實(shí)施可持續(xù)的數(shù)據(jù)分析和攻擊提供了極好的隱藏環(huán)境,一旦攻擊得手,失竊的信息量甚至是難以估量的。12.1.2存儲(chǔ)處理安全(5)基礎(chǔ)設(shè)施安全的核心是數(shù)據(jù)中心的設(shè)備安全問題。傳統(tǒng)的安全防范手段如網(wǎng)絡(luò)防DDoS分布式拒絕服務(wù)攻擊(指處于不同位置的多個(gè)攻擊者同時(shí)向一個(gè)或數(shù)個(gè)目標(biāo)發(fā)動(dòng)攻擊,或者一個(gè)攻擊者控制了位于不同位置的多臺(tái)機(jī)器并利用這些機(jī)器對(duì)受害者同時(shí)實(shí)施攻擊)、存儲(chǔ)加密、容災(zāi)備份、服務(wù)器安全加固、防病毒、接入控制、自然環(huán)境安全等。而主要來自大數(shù)據(jù)服務(wù)所依賴的云計(jì)算技術(shù)引起的風(fēng)險(xiǎn),包括如虛擬化軟件安全、虛擬服務(wù)器安全、容器安全,以及由于云服務(wù)引起的商業(yè)風(fēng)險(xiǎn)等。12.1.2存儲(chǔ)處理安全(6)服務(wù)接口安全。由于大數(shù)據(jù)業(yè)務(wù)應(yīng)用的多樣性,使得對(duì)外提供的服務(wù)接口千差萬別,給攻擊者帶來機(jī)會(huì)。因此,如何保證不同的服務(wù)接口安全是大數(shù)據(jù)平臺(tái)的又一巨大挑戰(zhàn)。(7)數(shù)據(jù)挖掘分析使用安全。大數(shù)據(jù)的應(yīng)用核心是數(shù)據(jù)挖掘,從數(shù)據(jù)中挖掘出高價(jià)值信息為企業(yè)所用,是大數(shù)據(jù)價(jià)值的體現(xiàn)。然而使用數(shù)據(jù)挖掘技術(shù),為企業(yè)創(chuàng)造價(jià)值的同時(shí),容易產(chǎn)生隱私泄露的問題。如何防止數(shù)據(jù)濫用和數(shù)據(jù)挖掘?qū)е碌臄?shù)據(jù)泄密和隱私泄露問題,是大數(shù)據(jù)安全一個(gè)最主要的挑戰(zhàn)性問題。12.1.2存儲(chǔ)處理安全互聯(lián)網(wǎng)給人們生活帶來方便,同時(shí)也使得個(gè)人信息的保護(hù)變得更加困難。(1)數(shù)據(jù)的保密問題。頻繁的數(shù)據(jù)流轉(zhuǎn)和交換使得數(shù)據(jù)泄露不再是一次性的事件,眾多非敏感的數(shù)據(jù)可以通過二次組合形成敏感的數(shù)據(jù)。通過大數(shù)據(jù)的聚合分析能形成更有價(jià)值的衍生數(shù)據(jù),如何更好地在數(shù)據(jù)使用過程中對(duì)敏感數(shù)據(jù)進(jìn)行加密、脫敏、管控、審查等,阻止外部攻擊者采取數(shù)據(jù)竊密、數(shù)據(jù)挖掘、根據(jù)算法模型參數(shù)梯度分析對(duì)訓(xùn)練數(shù)據(jù)的特征進(jìn)行逆向工程推導(dǎo)等攻擊行為,避免隱私泄露,仍然是大數(shù)據(jù)環(huán)境下的巨大挑戰(zhàn)。12.1.3共享使用安全(2)數(shù)據(jù)保護(hù)策略問題。大數(shù)據(jù)環(huán)境下,匯聚不同渠道、不同用途和不同重要級(jí)別的數(shù)據(jù),通過大數(shù)據(jù)融合技術(shù)形成不同的數(shù)據(jù)產(chǎn)品,使大數(shù)據(jù)成為有價(jià)值的知識(shí),發(fā)揮巨大作用。如何對(duì)這些數(shù)據(jù)進(jìn)行保護(hù),以支撐不同用途、不同重要級(jí)別、不同使用范圍的數(shù)據(jù)充分共享、安全合規(guī)的使用,確保大數(shù)據(jù)環(huán)境下高并發(fā)多用戶使用場景中數(shù)據(jù)不被泄露、不被非法使用,是大數(shù)據(jù)安全的又一個(gè)關(guān)鍵性問題。12.1.3共享使用安全(3)數(shù)據(jù)的權(quán)屬問題。大數(shù)據(jù)場景下,數(shù)據(jù)的擁有者、管理者和使用者與傳統(tǒng)的數(shù)據(jù)資產(chǎn)不同,傳統(tǒng)的數(shù)據(jù)是屬于組織和個(gè)人的,而大數(shù)據(jù)具有不同程度的社會(huì)性。一些敏感數(shù)據(jù)的所有權(quán)和使用權(quán)并沒有被明確界定,很多基于大數(shù)據(jù)的分析都未考慮到其中涉及的隱私問題。在防止數(shù)據(jù)丟失、被盜取、被濫用和被破壞上存在一定的技術(shù)難度,傳統(tǒng)的安全工具不再像以前那么有用。如何管控大數(shù)據(jù)環(huán)境下數(shù)據(jù)流轉(zhuǎn)、權(quán)屬關(guān)系、使用行為和追溯敏感數(shù)據(jù)資源流向,解決數(shù)據(jù)權(quán)屬關(guān)系不清、數(shù)據(jù)越權(quán)使用等問題是一個(gè)巨大的挑戰(zhàn)。12.1.3共享使用安全PART02大數(shù)據(jù)的管理維度數(shù)據(jù)已成為國家基礎(chǔ)性戰(zhàn)略資源,建立健全大數(shù)據(jù)安全保障體系,對(duì)大數(shù)據(jù)的平臺(tái)及服務(wù)進(jìn)行安全評(píng)估,是推進(jìn)大數(shù)據(jù)產(chǎn)業(yè)化工作的重要基礎(chǔ)任務(wù)。中國《網(wǎng)絡(luò)安全法》《網(wǎng)絡(luò)產(chǎn)品和服務(wù)安全審查辦法》《數(shù)據(jù)安全管理辦法》等法律法規(guī)的陸續(xù)實(shí)施,對(duì)大數(shù)據(jù)運(yùn)營商提出了諸多合規(guī)要求。如何應(yīng)對(duì)大數(shù)據(jù)安全風(fēng)險(xiǎn),確保其符合網(wǎng)絡(luò)安全法律法規(guī)政策,成為亟需解決的問題。12.2大數(shù)據(jù)的管理維度大數(shù)據(jù)管理具有分布式、無中心、多組織協(xié)調(diào)等特點(diǎn)。因此有必要從數(shù)據(jù)語義、生命周期和信息技術(shù)(IT)三個(gè)維度去認(rèn)識(shí)數(shù)據(jù)管理技術(shù)涉及的數(shù)據(jù)內(nèi)涵,分析和理解數(shù)據(jù)管理過程中需要采用的IT安全技術(shù)及其管控措施和機(jī)制。圖12-3大數(shù)據(jù)管理的三個(gè)維度12.2大數(shù)據(jù)的管理維度從大數(shù)據(jù)運(yùn)營者的角度看,大數(shù)據(jù)生態(tài)系統(tǒng)應(yīng)提供包括大數(shù)據(jù)應(yīng)用安全管理、身份鑒別和訪問控制、數(shù)據(jù)業(yè)務(wù)安全管理、大數(shù)據(jù)基礎(chǔ)設(shè)施安全管理和大數(shù)據(jù)系統(tǒng)應(yīng)急響應(yīng)管理等業(yè)務(wù)安全功能,因此大數(shù)據(jù)業(yè)務(wù)目標(biāo)應(yīng)包括這5個(gè)方面。12.2大數(shù)據(jù)的管理維度全國大數(shù)據(jù)標(biāo)準(zhǔn)化工作會(huì)議暨全國信標(biāo)委大數(shù)據(jù)標(biāo)準(zhǔn)工作組第七次全會(huì)上發(fā)布了《大數(shù)據(jù)標(biāo)準(zhǔn)化白皮書(2020版)》。白皮書指出了目前大數(shù)據(jù)產(chǎn)業(yè)化發(fā)展面臨的安全挑戰(zhàn),包括法律法規(guī)與相關(guān)標(biāo)準(zhǔn)的挑戰(zhàn)、數(shù)據(jù)安全和個(gè)人信息保護(hù)的挑戰(zhàn)、大數(shù)據(jù)技術(shù)和平臺(tái)安全的挑戰(zhàn)。針對(duì)這些挑戰(zhàn),我國已經(jīng)在大數(shù)據(jù)安全指引、國家標(biāo)準(zhǔn)及法律法規(guī)建設(shè)方面取得階段性成果,但大數(shù)據(jù)運(yùn)營過程中的大數(shù)據(jù)平臺(tái)安全機(jī)制不足、傳統(tǒng)安全措施難以適應(yīng)大數(shù)據(jù)平臺(tái)和大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)應(yīng)用訪問控制困難、基礎(chǔ)密碼技術(shù)及密鑰操作性等信息技術(shù)安全問題亟待解決。12.2大數(shù)據(jù)的管理維度PART03大數(shù)據(jù)的安全體系在大數(shù)據(jù)時(shí)代,如何確保網(wǎng)絡(luò)數(shù)據(jù)的完整性、可用性和保密性,不受信息泄漏和非法篡改的安全威脅影響,已成為政府機(jī)構(gòu)、事業(yè)單位信息化健康發(fā)展所要考慮的核心問題。根據(jù)對(duì)大數(shù)據(jù)環(huán)境下面臨的安全問題和挑戰(zhàn)進(jìn)行分析,提出基于大數(shù)據(jù)分析和威脅情報(bào)共享為基礎(chǔ)的大數(shù)據(jù)協(xié)同安全防護(hù)體系,將大數(shù)據(jù)安全技術(shù)框架、數(shù)據(jù)安全治理、安全測評(píng)和運(yùn)維管理相結(jié)合,在數(shù)據(jù)分類分級(jí)和全生命周期安全的基礎(chǔ)上,體系性的解決大數(shù)據(jù)不同層次的安全問題。圖12-4安全保障框架12.3大數(shù)據(jù)的安全體系大數(shù)據(jù)的安全技術(shù)體系是以大數(shù)據(jù)安全管理、安全運(yùn)行的技術(shù)保障。以密碼基礎(chǔ)設(shè)施、認(rèn)證基礎(chǔ)設(shè)施、可信服務(wù)管理、密鑰管理設(shè)施、安全監(jiān)測預(yù)警等五大安全基礎(chǔ)設(shè)施為支撐服務(wù),結(jié)合大數(shù)據(jù)、人工智能和分布式計(jì)算存儲(chǔ)能力,解決傳統(tǒng)安全解決方案中數(shù)據(jù)離散、單點(diǎn)計(jì)算能力不足、信息孤島和無法聯(lián)動(dòng)的問題。

圖12-5大數(shù)據(jù)安全技術(shù)框架12.3.1安全技術(shù)體系大數(shù)據(jù)安全治理的目標(biāo)是確保大數(shù)據(jù)“合法合規(guī)”安全流轉(zhuǎn),在保障大數(shù)據(jù)安全的前提下,實(shí)現(xiàn)其價(jià)值最大化,以支撐企業(yè)的業(yè)務(wù)目標(biāo)。大數(shù)據(jù)安全治理體系建設(shè)過程中行使數(shù)據(jù)的安全管理、運(yùn)行監(jiān)管和效能評(píng)估的職能。主要內(nèi)容包括:(1)構(gòu)架大數(shù)據(jù)安全治理的治理流程、治理組織結(jié)構(gòu)、治理策略和確保數(shù)據(jù)在流轉(zhuǎn)過程中的訪問控制、安全保密和安全監(jiān)管等安全保障機(jī)制。(2)制定數(shù)據(jù)治理過程中的安全管理架構(gòu),包括人員組成,角色分配、管理流程和對(duì)大數(shù)據(jù)的安全管理策略等。12.3.2大數(shù)據(jù)安全治理(3)明確大數(shù)據(jù)安全治理中元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)血緣、主數(shù)據(jù)管理和數(shù)據(jù)全生命周期安全治理方式,包括安全治理標(biāo)準(zhǔn)、治理方式、評(píng)估標(biāo)準(zhǔn)、異常和應(yīng)急處置措施以及元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)準(zhǔn)等。(4)對(duì)大數(shù)據(jù)環(huán)境下數(shù)據(jù)主要參與者,包括數(shù)據(jù)提供者(數(shù)據(jù)源)、大數(shù)據(jù)平臺(tái)、數(shù)據(jù)管理者和數(shù)據(jù)使用者制定明確的安全治理目標(biāo),規(guī)劃安全治理策略。12.3.2大數(shù)據(jù)安全治理大數(shù)據(jù)安全測評(píng)是安全地提供大數(shù)據(jù)服務(wù)的支撐保障,目標(biāo)是驗(yàn)證評(píng)估所有保護(hù)大數(shù)據(jù)的安全策略、安全產(chǎn)品和安全技術(shù)的有效性和性能等。確保所使用的安全防護(hù)手段都能滿足主要參與者安全防護(hù)的需求。主要內(nèi)容包括:(1)構(gòu)建大數(shù)據(jù)安全測評(píng)的組織結(jié)構(gòu)、人員組成、責(zé)任分工和安全測評(píng)需要達(dá)到的目標(biāo)等。(2)明確大數(shù)據(jù)場景下安全測評(píng)的標(biāo)準(zhǔn)、范圍、計(jì)劃、流程、策略和方式等,大數(shù)據(jù)環(huán)境下的安全分析按評(píng)估方法包括基于場景的數(shù)據(jù)流安全評(píng)估、基于利益攸關(guān)者的需求安全評(píng)估等。12.3.3大數(shù)據(jù)安全測評(píng)(3)制定評(píng)估標(biāo)準(zhǔn),明確各個(gè)安全防護(hù)手段需要達(dá)到的安全防護(hù)效能,包括功能、性能、可靠性、可用性、保密性、完整性等。(4)按照《大數(shù)據(jù)安全能力成熟度模型》評(píng)估安全態(tài)勢并形成相關(guān)的大數(shù)據(jù)安全評(píng)估報(bào)告等,作為大數(shù)據(jù)安全建設(shè)能夠投入應(yīng)用的依據(jù)。12.3.3大數(shù)據(jù)安全測評(píng)大數(shù)據(jù)的安全運(yùn)維主要確保大數(shù)據(jù)系統(tǒng)平臺(tái)能安全持續(xù)穩(wěn)定可靠運(yùn)行,在大數(shù)據(jù)系統(tǒng)運(yùn)行過程中行使資源調(diào)配、系統(tǒng)升級(jí)、服務(wù)啟停、容災(zāi)備份、性能優(yōu)化、應(yīng)急處置、應(yīng)用部署和安全管控等職能。具體的職責(zé)包括:(1)構(gòu)建大數(shù)據(jù)安全運(yùn)維體系的組織形式、運(yùn)維架構(gòu)、安全運(yùn)維策略、權(quán)限劃分等。(2)制定不同安全運(yùn)維流程和運(yùn)維的重點(diǎn)方向等,包括基礎(chǔ)設(shè)施安全管控、病毒防護(hù)、平臺(tái)調(diào)優(yōu)、資源分配和系統(tǒng)部署、應(yīng)用和數(shù)據(jù)的容災(zāi)備份等業(yè)務(wù)流程。12.3.4大數(shù)據(jù)安全運(yùn)維(3)明確安全運(yùn)維的標(biāo)準(zhǔn)規(guī)范和規(guī)章制度,由于運(yùn)維人員具有較大的操作權(quán)限,為防范內(nèi)部人員風(fēng)險(xiǎn),要對(duì)大數(shù)據(jù)環(huán)境的核心關(guān)鍵部分、對(duì)危險(xiǎn)行為做到事前、事中和事后有記錄、可跟蹤和能審計(jì)。12.3.4大數(shù)據(jù)安全運(yùn)維基于威脅情報(bào)共享和采用大數(shù)據(jù)分析技術(shù)的大數(shù)據(jù)安全防護(hù)技術(shù)體系,可以實(shí)現(xiàn)大數(shù)據(jù)安全威脅的快速響應(yīng),集安全態(tài)勢感知、監(jiān)測預(yù)警、快速響應(yīng)和主動(dòng)防御為一體,基于數(shù)據(jù)分級(jí)分類實(shí)施不同的安全防護(hù)策略,形成協(xié)同安全防護(hù)體系。圍繞以數(shù)據(jù)為核心,以安全機(jī)制為手段,以涉及數(shù)據(jù)的承載主體為目標(biāo),以數(shù)據(jù)參與者為關(guān)注點(diǎn),構(gòu)建大數(shù)據(jù)安全協(xié)同主動(dòng)防護(hù)體系。

圖12-6以數(shù)據(jù)為中心的安全防護(hù)要素12.3.5以數(shù)據(jù)為中心的安全要素(1)數(shù)據(jù)是指需要防護(hù)的大數(shù)據(jù)對(duì)象,包括大數(shù)據(jù)流轉(zhuǎn)的各個(gè)階段,即采集、傳輸、存儲(chǔ)、處理、共享、使用和銷毀。(2)安全策略是指對(duì)大數(shù)據(jù)對(duì)象進(jìn)行安全防護(hù)的流程、策略、配置和方法等,如根據(jù)數(shù)據(jù)的不同安全等級(jí)和防護(hù)需求,實(shí)施主動(dòng)防御、訪問控制、授權(quán)、隔離、過濾、加密、脫敏等。(3)安全產(chǎn)品指在對(duì)大數(shù)據(jù)進(jìn)行安全防護(hù)時(shí)使用的具體產(chǎn)品,如數(shù)據(jù)庫防火墻、審計(jì)、主動(dòng)防御系統(tǒng)、APT檢測、高速密碼機(jī)、數(shù)據(jù)脫敏系統(tǒng)、云密碼資源池、數(shù)據(jù)分級(jí)分類系統(tǒng)等。12.3.5以數(shù)據(jù)為中心的安全要素(4)防護(hù)主體是指需要防護(hù)的承載大數(shù)據(jù)流轉(zhuǎn)過程的軟硬件載體,包括服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備,大數(shù)據(jù)平臺(tái)、應(yīng)用系統(tǒng)等。(5)參與者是指參與大數(shù)據(jù)流轉(zhuǎn)過程中的改變大數(shù)據(jù)狀態(tài)和流轉(zhuǎn)過程的主體,主要包括大數(shù)據(jù)提供者、管理者、使用者和大數(shù)據(jù)平臺(tái)等。12.3.5以數(shù)據(jù)為中心的安全要素PART04大數(shù)據(jù)倫理與法規(guī)人們逐漸認(rèn)識(shí)到,為了讓網(wǎng)絡(luò)與信息技術(shù)長遠(yuǎn)地造福于社會(huì),就必須規(guī)范對(duì)網(wǎng)絡(luò)的訪問和使用,這就對(duì)政府、學(xué)術(shù)界和法律界提出了挑戰(zhàn)。人們面臨的一個(gè)難題就是如何制訂和完善網(wǎng)絡(luò)法規(guī),具體地說,就是如何在計(jì)算機(jī)空間里保護(hù)公民的隱私,規(guī)范網(wǎng)絡(luò)言論,保護(hù)電子知識(shí)產(chǎn)權(quán)以及保障網(wǎng)絡(luò)安全等。12.4大數(shù)據(jù)倫理與法規(guī)大數(shù)據(jù)產(chǎn)業(yè)面臨的倫理問題正日益成為阻礙其發(fā)展的瓶頸。這些問題主要包括數(shù)據(jù)主權(quán)和數(shù)據(jù)權(quán)問題、隱私權(quán)和自主權(quán)的侵犯問題、數(shù)據(jù)利用失衡問題。這三個(gè)問題影響了大數(shù)據(jù)的生產(chǎn)、采集、存儲(chǔ)、交易流轉(zhuǎn)和開發(fā)使用全過程。12.4.1大數(shù)據(jù)的倫理問題1.數(shù)據(jù)主權(quán)和數(shù)據(jù)權(quán)問題由于跨境數(shù)據(jù)流動(dòng)劇增、數(shù)據(jù)經(jīng)濟(jì)價(jià)值凸顯、個(gè)人隱私危機(jī)爆發(fā)等多方面因素,數(shù)據(jù)主權(quán)和數(shù)據(jù)權(quán)已成為大數(shù)據(jù)產(chǎn)業(yè)發(fā)展遭遇的關(guān)鍵問題。數(shù)據(jù)的跨境流動(dòng)是不可避免的,但這也給國家安全帶來了威脅,數(shù)據(jù)的主權(quán)問題由此產(chǎn)生。數(shù)據(jù)主權(quán)是指國家對(duì)其政權(quán)管轄地域內(nèi)的數(shù)據(jù)享有生成、傳播、管理、控制和利用的權(quán)力。數(shù)據(jù)主權(quán)是國家主權(quán)在信息化、數(shù)字化和全球化發(fā)展趨勢下新的表現(xiàn)形式,是各國在大數(shù)據(jù)時(shí)代維護(hù)國家主權(quán)和獨(dú)立,反對(duì)數(shù)據(jù)壟斷和霸權(quán)主義的必然要求。數(shù)據(jù)主權(quán)是國家安全的保障。12.4.1大數(shù)據(jù)的倫理問題數(shù)據(jù)權(quán)包括機(jī)構(gòu)數(shù)據(jù)權(quán)和個(gè)人數(shù)據(jù)權(quán)。機(jī)構(gòu)數(shù)據(jù)權(quán)是企業(yè)和其他機(jī)構(gòu)對(duì)個(gè)人數(shù)據(jù)的采集權(quán)和使用權(quán)。個(gè)人數(shù)據(jù)權(quán)是指個(gè)人擁有對(duì)自身數(shù)據(jù)的控制權(quán),以保護(hù)自身隱私信息不受侵犯的權(quán)利。數(shù)據(jù)權(quán)是企業(yè)的核心競爭力,數(shù)據(jù)權(quán)也是個(gè)人的基本權(quán)利,個(gè)人在互聯(lián)網(wǎng)上產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)與個(gè)人的隱私密切相關(guān),個(gè)人也擁有對(duì)這些數(shù)據(jù)的財(cái)產(chǎn)權(quán)。12.4.1大數(shù)據(jù)的倫理問題數(shù)據(jù)財(cái)產(chǎn)權(quán)是數(shù)據(jù)主權(quán)和數(shù)據(jù)權(quán)的核心內(nèi)容。以大數(shù)據(jù)為主的信息技術(shù)賦予了數(shù)據(jù)以財(cái)產(chǎn)屬性,數(shù)據(jù)財(cái)產(chǎn)是指將數(shù)據(jù)符號(hào)固定于介質(zhì)之上,具有一定的價(jià)值,能夠?yàn)槿藗兯兄屠玫囊环N新型財(cái)產(chǎn)。數(shù)據(jù)財(cái)產(chǎn)包含形式要素和實(shí)質(zhì)要素兩個(gè)部分,數(shù)據(jù)符號(hào)所依附的介質(zhì)為其形式要素,數(shù)據(jù)財(cái)產(chǎn)所承載的有價(jià)值的信息為其實(shí)質(zhì)要素。數(shù)據(jù)權(quán)屬問題目前還沒有得到徹底解決,數(shù)據(jù)主權(quán)的爭奪也日益白熱化。數(shù)據(jù)權(quán)屬不明的直接后果就是國家安全受到威脅,數(shù)據(jù)交易活動(dòng)存在法律風(fēng)險(xiǎn)和利益沖突,個(gè)人的隱私和利益受到侵犯。12.4.1大數(shù)據(jù)的倫理問題2.隱私權(quán)和自主權(quán)的侵犯問題數(shù)據(jù)的使用和個(gè)人的隱私保護(hù)是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展面臨的一大沖突。在大數(shù)據(jù)環(huán)境下,個(gè)人在互聯(lián)網(wǎng)上的任何行為都會(huì)變成數(shù)據(jù)被沉淀下來,而這些數(shù)據(jù)的匯集都可能最終導(dǎo)致個(gè)人隱私的泄露。絕大多數(shù)互聯(lián)網(wǎng)企業(yè)通過記錄用戶不斷產(chǎn)生的數(shù)據(jù),監(jiān)控用戶在互聯(lián)網(wǎng)上所有的行為,互聯(lián)網(wǎng)公司據(jù)此對(duì)用戶進(jìn)行畫像,分析其興趣愛好、行為習(xí)慣,對(duì)用戶做各種分類,然后以精準(zhǔn)廣告的形式給用戶提供符合其偏好的產(chǎn)品或服務(wù)。12.4.1大數(shù)據(jù)的倫理問題另外,互聯(lián)網(wǎng)公司還可以通過消費(fèi)數(shù)據(jù)等分析評(píng)估消費(fèi)者的信用,從而提供精準(zhǔn)的金融服務(wù)進(jìn)行盈利。在這兩種商業(yè)模式中,用戶成為被觀察、分析和監(jiān)測的對(duì)象,這是用個(gè)人生活和隱私來成全的商業(yè)模式。12.4.1大數(shù)據(jù)的倫理問題3.數(shù)據(jù)利用的失衡問題數(shù)據(jù)利用的失衡主要體現(xiàn)在兩個(gè)方面。第一,數(shù)據(jù)的利用率較低。隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,每天都有海量的數(shù)據(jù)產(chǎn)生,全球數(shù)據(jù)規(guī)模實(shí)現(xiàn)指數(shù)級(jí)增長,但是福瑞斯特研究對(duì)大型企業(yè)的調(diào)研結(jié)果顯示,企業(yè)大數(shù)據(jù)的利用率僅在12%左右。就掌握大量數(shù)據(jù)的政府而言,數(shù)據(jù)的利用率更低。第二,數(shù)字鴻溝現(xiàn)象日益顯著。數(shù)字鴻溝束縛數(shù)據(jù)流通,導(dǎo)致數(shù)據(jù)利用水平較低。大數(shù)據(jù)的“政用”、“民用”和“工用”,相對(duì)于大數(shù)據(jù)在商用領(lǐng)域的發(fā)展,無論技術(shù)、人才還是數(shù)據(jù)規(guī)模都有巨大的差距。12.4.1大數(shù)據(jù)的倫理問題現(xiàn)階段,我國大數(shù)據(jù)應(yīng)用較為成熟的行業(yè)是電商、電信和金融領(lǐng)域,醫(yī)療、能源、教育等領(lǐng)域則處于起步階段。由于大數(shù)據(jù)在電商、電信、金融等商用領(lǐng)域產(chǎn)生巨大利益,數(shù)據(jù)資源、社會(huì)資源、人才資源均往這些領(lǐng)域傾斜,涉及政務(wù)、民生、工業(yè)等經(jīng)濟(jì)利益較弱的領(lǐng)域,市場占比很少。在“商用”領(lǐng)域內(nèi),優(yōu)勢的行業(yè)或優(yōu)勢的企業(yè)也往往占據(jù)了大量的大數(shù)據(jù)資源。例如,大型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論