《計算機導論》課件-計算機導論第九章_第1頁
《計算機導論》課件-計算機導論第九章_第2頁
《計算機導論》課件-計算機導論第九章_第3頁
《計算機導論》課件-計算機導論第九章_第4頁
《計算機導論》課件-計算機導論第九章_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第九章大數(shù)據(jù)與人工智能9.1大數(shù)據(jù)9.2人工智能9.3大數(shù)據(jù)與人工智能的關系9.4大數(shù)據(jù)與人工智能的應用及社會問題

9.1大數(shù)據(jù)9.1.1大數(shù)據(jù)概述9.1.2數(shù)據(jù)科學和數(shù)據(jù)思維9.1.3大數(shù)據(jù)處理與可視化9.1大數(shù)據(jù)9.1.1大數(shù)據(jù)概述關于大數(shù)據(jù),到目前為止還沒有一個統(tǒng)一的概念,常見的概念有三個。第一是維基百科給出的定義:無法在可承受的時間范圍內(nèi)用常規(guī)軟件進行捕捉、管理和處理的數(shù)據(jù)集合;

第二是研究機構Gartner給出的定義:需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應海量、高增長率和多樣化的信息資產(chǎn);第三是麥肯錫全球研究所給出的定義:一種規(guī)模大到在獲取、存儲、管理、分析方面都大大超出傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合。大數(shù)據(jù)不僅體現(xiàn)在我們字面上理解的數(shù)據(jù)量巨大上,而是有四個方面的主要特點:第一,數(shù)據(jù)體量巨大。第二,數(shù)據(jù)類型繁多。第三,商業(yè)價值高,而價值密度卻較低。第四,數(shù)據(jù)產(chǎn)生速度快。9.1大數(shù)據(jù)9.1.2數(shù)據(jù)科學和數(shù)據(jù)思維數(shù)據(jù)科學。數(shù)據(jù)科學是以數(shù)據(jù)為中心的科學,是指導數(shù)據(jù)分析與處理的科學以及相關的系統(tǒng)理論與方法。數(shù)據(jù)科學通過系統(tǒng)性地研究數(shù)據(jù)的組織和使用,可以促進發(fā)現(xiàn)及改進關鍵決策過程。數(shù)據(jù)科學研究內(nèi)容包括以下幾個方面:(1)基礎理論。(2)實驗方法與邏輯推理方法。(3)領域數(shù)據(jù)學。(4)數(shù)據(jù)資源的開發(fā)方法和技術。2.數(shù)據(jù)思維

數(shù)據(jù)思維是大數(shù)據(jù)時代的產(chǎn)物,是計算思維的最新的重要發(fā)展。數(shù)據(jù)思維首先要重視數(shù)據(jù)的全面性,而非數(shù)據(jù)的隨機抽樣性。其次是關注數(shù)據(jù)的復雜性,弱化精確性,要求對一個大的框架進行模糊的準確度趨勢的判斷。9.1大數(shù)據(jù)9.1.3大數(shù)據(jù)處理與可視化大數(shù)據(jù)處理數(shù)據(jù)清洗。數(shù)據(jù)清洗是在用戶確認的前提下,運用每個過濾規(guī)則認真進行驗證、過濾和修正,而不僅僅是要將無用的數(shù)據(jù)濾除。不同的狀況和不同性質的數(shù)據(jù)問題,所采用的清洗方法也有所不同,如:(1)缺失值處理如果數(shù)據(jù)中的某個或某些特征的值是不完整的,則這些值稱為缺失值。對缺失值處理有以下幾種方法:刪除法刪除法是指將含有缺失值的特征或者記錄刪除。替換法替換法是指用一個特定的值替換缺失值。插值法常用的插值法有熱平臺、冷平臺、回歸插補、多重插補等。數(shù)據(jù)預處理的主要內(nèi)容包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。9.1大數(shù)據(jù)9.1.3大數(shù)據(jù)處理與可視化(2)冗余屬性處理冗余屬性是指同一屬性重復出現(xiàn),同一屬性命名不同,其他屬性中包含另一屬性或者很大程度上可以代表該屬性。對冗余屬性處理前,需要分析冗余屬性產(chǎn)生的原因以及去除這部分屬性后可能造成的不良影響(3)異常值處理常見的異常值是人為輸入錯誤,常見的異常值處理方法有:刪除含有異常值的記錄:直接將含有異常值的記錄刪除。視為缺失值:將異常值視為缺失值,利用缺失值的處理方法進行處理。平均值修正:可用前后兩個觀測值的平均值修正異常值。不做處理:直接在含有異常值的數(shù)據(jù)及上進行數(shù)據(jù)分析、建模等操作。9.1大數(shù)據(jù)9.1.3大數(shù)據(jù)處理與可視化數(shù)據(jù)集成。數(shù)據(jù)集成是指將多個數(shù)據(jù)源中的數(shù)據(jù)合并,并存放到一個一致的數(shù)據(jù)存儲(如數(shù)據(jù)倉庫)中的過程。數(shù)據(jù)變換。在數(shù)據(jù)變換中,數(shù)據(jù)被變換成適用于算法需求的形式,數(shù)據(jù)變換策略主要包含以下幾種。(1)簡單函數(shù)變換簡單函數(shù)變換是對原始數(shù)據(jù)進行某些數(shù)字函數(shù)變換,常用的變換函數(shù)包括平方、開方、取對數(shù)和差分運算等。簡單函數(shù)變換常用來將不具有正態(tài)分布的數(shù)據(jù)變換成具有正態(tài)分布的數(shù)據(jù)。(2)規(guī)范化規(guī)范化也稱為數(shù)據(jù)標準化或歸一化處理,是數(shù)據(jù)挖掘的一項基礎工作。主要有幾下幾種規(guī)范化方法:min-max標準化、小數(shù)定標標準化、z-score標準化

數(shù)據(jù)規(guī)約。在大數(shù)據(jù)集上進行復雜的數(shù)據(jù)分析和挖掘需要很長的時間,數(shù)據(jù)規(guī)約主要是為了在盡可能保持數(shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量,得到原數(shù)據(jù)集的規(guī)約表示。常用的數(shù)據(jù)規(guī)約方法主要包括以下幾種:(1)維規(guī)約。維規(guī)約指的是減少所考慮的隨機變量或屬性的個數(shù)。(2)數(shù)值規(guī)約:通過選擇替代的、較小的數(shù)據(jù)形式替換原數(shù)據(jù)來減少數(shù)據(jù)量。(3)數(shù)據(jù)壓縮:通過變換以便得到原數(shù)據(jù)的規(guī)約或“壓縮”表示。9.1大數(shù)據(jù)9.1.3大數(shù)據(jù)處理與可視化2.數(shù)據(jù)可視化數(shù)據(jù)可視化是將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。數(shù)據(jù)可視化技術的基本思想是將數(shù)據(jù)集中的每一個數(shù)據(jù)項作為單個圖元素表示,大量的數(shù)據(jù)集構成數(shù)據(jù)圖像,同時將數(shù)據(jù)的各個屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對數(shù)據(jù)進行更深入的觀察和分析。一個典型的可視化分析過程如圖9.2所示常用的可視化技術有直方圖、盒狀圖、莖葉圖、餅圖、累積分布圖、散點圖、等高線圖、曲面圖、低維切片圖、矩陣圖、平行坐標系圖等。9.2人工智能9.2.1人工智能概述9.2.2人工神經(jīng)網(wǎng)絡和深度學習9.2.3機器人9.2人工智能9.2.1人工智能概述人工智能是研究如何制造智能機器或智能系統(tǒng)來模擬人類智能活動的能力,以延伸人類智能的科學。人工智能的發(fā)展并非一帆風順,它主要經(jīng)歷了以下幾個重要的階段。1.人工智能的誕生2.第一個快速發(fā)展期3.人工智能的第一寒冬4.人工智能研究的沉默探索與復蘇5.人工智能的第二個冬天6.再一次騰飛9.2人工智能9.2.2人工神經(jīng)網(wǎng)絡和深度學習1.人工神經(jīng)網(wǎng)絡人工神經(jīng)網(wǎng)絡(ANN)是人工智能的重要研究領域之一,是從生物神經(jīng)網(wǎng)絡的研究成果中獲得啟發(fā),試圖通過模擬生物神經(jīng)系統(tǒng)的結構及其網(wǎng)絡化的處理方法以及信息記憶方式,由大量處理單元互連組成一個非線性的、自適應的動態(tài)信息處理系統(tǒng),實現(xiàn)對信息的處理。人工神經(jīng)網(wǎng)絡在信息處理方面與傳統(tǒng)的計算機技術相比有自身獨特的優(yōu)勢。主要體現(xiàn)在以下幾點。1)并行性2)自學習能力3)記憶功能4)高度的魯棒性和容錯性9.2人工智能9.2.2人工神經(jīng)網(wǎng)絡和深度學習人工神經(jīng)網(wǎng)絡的基本結構人工神經(jīng)網(wǎng)絡的基本組成如下:1)多層結構人工神經(jīng)網(wǎng)絡模仿人體神經(jīng)網(wǎng)絡系統(tǒng)進行抽象建模,設計成由相互連接(信號通路)的處理單元(ProcessingElement)組成的處理系統(tǒng),如圖9.15所示。人工神經(jīng)網(wǎng)絡的復雜程度與網(wǎng)絡的層數(shù)和每層的處理單元有關。按照層級關系,整個網(wǎng)絡拓撲結構可以分為輸入層、輸出層和隱藏層(有時也可以沒有隱藏層)。9.2人工智能9.2.2人工神經(jīng)網(wǎng)絡和深度學習

9.2人工智能9.2.2人工神經(jīng)網(wǎng)絡和深度學習

9.2人工智能9.2.2人工神經(jīng)網(wǎng)絡和深度學習人工神經(jīng)網(wǎng)絡的分類??梢园凑詹煌姆诸悩藴?,對人工神經(jīng)網(wǎng)絡進行分類。按照拓撲結構劃分,人工神經(jīng)網(wǎng)絡可以分為兩層神經(jīng)網(wǎng)絡、三層神經(jīng)網(wǎng)絡和多層神經(jīng)網(wǎng)絡。按照結點間的連接方式劃分,人工神經(jīng)網(wǎng)絡可分為層間連接和層內(nèi)連接,連接強度用權值表示。層內(nèi)連接方式指神經(jīng)網(wǎng)絡同層內(nèi)部同層結點之間相互連接,如Kohonen網(wǎng)絡按照結點間的連接方向劃分,人工神經(jīng)網(wǎng)絡可分為前饋式神經(jīng)網(wǎng)絡和反饋式神經(jīng)網(wǎng)絡兩種。前饋式神經(jīng)網(wǎng)絡的連接是單向的,上層結點的輸出是下層結點的輸入。目前數(shù)據(jù)挖掘軟件中的神經(jīng)網(wǎng)絡大多為前饋式神經(jīng)網(wǎng)絡,如1986年由Rumelhart和McCelland領導的科學家小組提出的BP(BackPropagation)網(wǎng)絡,就是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W(wǎng)絡。而反饋式神經(jīng)網(wǎng)絡除單向連接外,輸出結點的輸出又可作為輸入結點的輸入,即它是有反饋的連接9.2人工智能9.2.2人工神經(jīng)網(wǎng)絡和深度學習人工神經(jīng)網(wǎng)絡的基本特性。人工神經(jīng)網(wǎng)絡具有的四個基本特征1)非線性:非線性關系是自然界的普遍特性。人工神經(jīng)元中的激活函數(shù)由非線性函數(shù)(例如sigmoid函數(shù))構成,可以模擬處于激活或抑制的兩種不同狀態(tài),在數(shù)學上則表現(xiàn)為一種非線性關系。2)非局限性:神經(jīng)網(wǎng)絡由多個神經(jīng)元廣泛連接而成,系統(tǒng)的整體行為不僅取決于單個神經(jīng)元的特征,也由神經(jīng)元之間的相互作用、相互連接所決定。通過神經(jīng)元之間的大量連接來模擬大腦的非局限性。聯(lián)想記憶就是非局限性的典型例子。3)非常定性:人工神經(jīng)網(wǎng)絡具有自適應、自組織、自學習能力。神經(jīng)網(wǎng)絡處理的信息可以有各種變化,而且在處理信息的同時,非線性動力系統(tǒng)本身也在不斷變化。經(jīng)常采用迭代過程來描寫動力系統(tǒng)的演化過程。4)非凸性:一個系統(tǒng)的演化方向,在一定條件下將取決于某個特定的狀態(tài)函數(shù)。非凸性是指這種函數(shù)有多個極值,故系統(tǒng)具有多個較穩(wěn)定的平衡態(tài),這將導致系統(tǒng)演化的多樣性。9.2人工智能9.2.2人工神經(jīng)網(wǎng)絡和深度學習2.深度學習深度學習的概念源于人工神經(jīng)網(wǎng)絡的研究,它是一種利用復雜結構的多個處理層來實現(xiàn)對數(shù)據(jù)進行高層次抽象,以發(fā)現(xiàn)數(shù)據(jù)的分布式表示的算法,是機器學習的一個重要分支。下面介紹幾種常用的深度學習方法。1)卷積神經(jīng)網(wǎng)絡卷積神經(jīng)網(wǎng)絡是一種深度的監(jiān)督式學習的神經(jīng)網(wǎng)絡。由于它是稀疏的網(wǎng)絡結構,在層的數(shù)量分布、每一層卷積核的數(shù)量都會有差異。這一結構決定了模型運算的效率和預測的精確度,理解不同結構的作用和原理有助于設計符合實際的深層網(wǎng)絡結構。與其他前饋式神經(jīng)網(wǎng)絡類似,卷積神經(jīng)網(wǎng)絡采用梯度下降的方法,應用最小化損失函數(shù)對網(wǎng)絡中各節(jié)點的權重參數(shù)逐層調(diào)節(jié),通過反向遞推,不斷地調(diào)整參數(shù)使得損失函數(shù)的結果逐漸變小,從而提升整個網(wǎng)絡的特征描繪能力,使卷積神經(jīng)網(wǎng)絡分類的精確度和準確率不斷提高。卷積神經(jīng)網(wǎng)絡的低層是由卷積層和子采樣層交替組成,這是特征提取功能的核心模塊。通過卷積層和子采樣層,可以在保持特征不變的情況下減少維度空間和計算時間。卷積神經(jīng)網(wǎng)絡的更高層次是全連接層,其輸入是由卷積層和子采樣層提取到的特征。卷積神經(jīng)網(wǎng)絡的最后一層是輸出層,它可以是一個分類器,采用邏輯回歸、Softmax回歸、支持向量機等進行模式分類,也可以直接輸出某一結果。9.2人工智能9.2.2人工神經(jīng)網(wǎng)絡和深度學習分別介紹各個組成模塊及其功能:卷積層通過卷積層(Convolutionallayer)的運算,可以將輸入信號在某一特征上加強,從而實現(xiàn)特征的提取,也可以排除干擾因素,從而降低特征的噪聲。權重初始化用小的隨機數(shù)據(jù)來初始化各神經(jīng)元的權重,以打破對稱性。而當使用Sigmoid激勵函數(shù)時,如果權重初始化的較大或較小時,訓練過程容易出現(xiàn)梯度飽和以及梯度消失的問題??梢圆捎肵avier初始化來解決,它的初始化值是在線性函數(shù)上推導得出的,能夠保持輸出結果在很多層之后依然有良好的分布,在tanh激活函數(shù)上表現(xiàn)較好。如果要在ReLU激活函數(shù)上使用,最好使用He初始化?;蛘邞肂atchNormalizationLayer來初始化,其思想是在線性變化和非線性激活函數(shù)之間,對數(shù)值做一次高斯歸一化和線性變化。此外,由于內(nèi)存管理是在字節(jié)級別上進行的,所以把參數(shù)值設為2的冪比較合適(如32、64等)。9.2人工智能9.2.2人工神經(jīng)網(wǎng)絡和深度學習子采樣層子采樣層(Sub-samplingLayer)是一種向下采樣(Downsampling)的形式,

在神經(jīng)網(wǎng)絡中也稱之為池化層(PoolingLayer)。一般使用最大池化(Maxpooling)將特征區(qū)域中的最大值作為新的抽象區(qū)域的值,減少數(shù)據(jù)的空間大小。參數(shù)數(shù)量和運算量也會減少,減少全連接的數(shù)量和復雜度,一定程度上可以避免過擬合。池化的結果是特征減少,參數(shù)減少,但其目的并不僅在于此。為了保持某種不變性(旋轉、平移、伸縮等),常用的池化方法有平均池化(mean-pooling)、最大化池化(max-pooling)和隨機池化(Stochastic-pooling)三種。平均池化和最大化池化的過程分別如圖9.24和9.25所示9.2人工智能9.2.2人工神經(jīng)網(wǎng)絡和深度學習全連接層卷積層得到的每張?zhí)卣鲌D表示輸入信號的一種特征,而它的層數(shù)越高表示這一特征越抽象,為了綜合低層的各個卷積層特征,用全連接層(FullConnectLayer)將這些特征結合到一起,然后用Softmax進行分類或邏輯回歸分析。輸出層輸出層(OutputLayer)的一項任務是進行反向傳播,依次向后進行梯度傳遞,計算相應的損失函數(shù),并重新更新權重值。在訓練過程中可以采用Dropout來避免訓練過程產(chǎn)生過擬合。輸出層的結構與傳統(tǒng)神經(jīng)網(wǎng)絡結構相似,是基于上一全連接層的結果進行類別判定。9.2人工智能9.2.2人工神經(jīng)網(wǎng)絡和深度學習2)循環(huán)神經(jīng)網(wǎng)絡循環(huán)神經(jīng)網(wǎng)絡(RecurrentNeuronNetwork,RNN)是一種對序列數(shù)據(jù)建模的神經(jīng)網(wǎng)絡。RNN不同于前向神經(jīng)網(wǎng)絡,它的層內(nèi)、層與層之間的信息可以雙向傳遞,以更高效地存儲信息,利用更復雜的方法來更新規(guī)則,通常用于處理信息序列的任務。RNN主要用來處理序列數(shù)據(jù)。傳統(tǒng)的神經(jīng)網(wǎng)絡模型每層內(nèi)的節(jié)點之間是無連接的。RNN中一個當前神經(jīng)元的輸出與前面的輸出也有關,網(wǎng)絡會對前面的信息進行記憶并應用于當前神經(jīng)元的計算中,即隱層之間的節(jié)點也是有連接的,并且隱層的輸入不僅包括輸入層的輸出還包括上一時刻隱層的輸出。理論上,RNN能夠對任何長度的序列數(shù)據(jù)進行處理。但是在實踐中,為了降低復雜性,往往假設當前的狀態(tài)只與前面的幾個狀態(tài)相關,圖9.27所示是一個典型的RNN結構。9.2人工智能9.2.2人工神經(jīng)網(wǎng)絡和深度學習

9.2人工智能9.2.2人工神經(jīng)網(wǎng)絡和深度學習

9.2人工智能9.2.2人工神經(jīng)網(wǎng)絡和深度學習

9.2人工智能9.2.2人工神經(jīng)網(wǎng)絡和深度學習長短期記憶網(wǎng)絡:

長短期記憶網(wǎng)絡(LongShortTermMemory,LSTM)能夠學習長期依賴關系,并可保留誤差,在沿時間和層進行反向傳遞時,可以將誤差保持在更加恒定的水平,讓RNN能夠進行多個時間步的學習,從而建立遠距離因果聯(lián)系。LSTM通過門控單元來實現(xiàn)RNN中的信息處理,用門的開關程度來決定對哪些信息進行讀寫或清除。

圖9.29所示為數(shù)據(jù)在記憶單元中如何流動,以及單元中的門如何控制數(shù)據(jù)流動。9.2人工智能9.2.2人工神經(jīng)網(wǎng)絡和深度學習(a)LSTM首先判斷對上一狀態(tài)輸出的哪些信息進行過濾即遺忘那些不重要的信息。它通過一個遺忘門(ForgetGate)的Sigmoid激活函數(shù)實現(xiàn)。(b)通過輸入門將有用的新信息加入到元胞狀態(tài)。

(d)最后,從當前狀態(tài)中選擇重要的信息作為元胞狀態(tài)的輸出。9.2人工智能9.2.2人工神經(jīng)網(wǎng)絡和深度學習門限循環(huán)單元:門限循環(huán)單元(GatedRecurrentUnit,GRU)是LSTM的變種,本質上就是一個沒有輸出門的LSTM,因此它在每個時間步都會將記憶單元中的所有內(nèi)容寫入整體網(wǎng)絡,該模型比標準的LSTM模型更加簡化,其結構如圖9.34所示。9.2人工智能9.2.2人工神經(jīng)網(wǎng)絡和深度學習3.深度學習流行框架目前深度學習領域中主要的實現(xiàn)框架有TensorFlow、Caffe、Torch/PyTorch、Keras、MxNet、Deepleaming4j等。9.2人工智能9.2.3機器人機器人是從事與人類相似動作的自動機械,代替人類行使某些智能動作,因此,它也是人工智能的研究對象。1.感知、推理和決策無論是哪一種機器人,必定需要感應系統(tǒng)以獲得感知能力。在可移動機器人中,其感知能力

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論