算力是人工智能的基礎設施_第1頁
算力是人工智能的基礎設施_第2頁
算力是人工智能的基礎設施_第3頁
算力是人工智能的基礎設施_第4頁
算力是人工智能的基礎設施_第5頁
已閱讀5頁,還剩26頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

算力是人工智能的基礎設施,算法是人工智能的靈魂人工智能研究框架培訓算力是AI產業(yè)發(fā)展的根基01算力是承載人工智能應用發(fā)展的基礎,是人工智能最核心的要素數(shù)據(jù)的快速增長對算力發(fā)展提出更高要求。隨著信息化、數(shù)字化的持續(xù)推進,全球新產生的數(shù)據(jù)量正在快速增長,根據(jù)IDC數(shù)據(jù)顯示,

2021年全球新增數(shù)據(jù)總量達到84.5

ZB,預計到2026年全球新增數(shù)據(jù)總量將達到221.2

ZB,2021年至2026年間的年復合增速達到21.22%新應用場景的出現(xiàn)對數(shù)據(jù)實時性要求更高,從而使得邊緣計算能力變得愈發(fā)重要,人工智能應用也越來越依賴邊緣算力支撐。數(shù)據(jù)

28算法算力、算法和數(shù)據(jù)是人工智能產業(yè)發(fā)展的三個核心要素,在三大要素中,算力才是最核心的要素數(shù)據(jù)的生產不再是問題,如何處理、分析和使用數(shù)據(jù)才是問題。算法經歷了數(shù)十年的發(fā)展,在深度學習和加速計算出現(xiàn)之后,得到了迅速的發(fā)展和優(yōu)化算力是承載和推動人工智能走向實際應用的決定性力量算力圖20:算力是AI產業(yè)發(fā)展的根基算法模型的復雜化和巨量化需要更強算 力的支撐。近些年,算法模型的參數(shù)量 和復雜程度都在呈現(xiàn)指數(shù)級增長態(tài)勢, 尤其是自然語言處理等新興認知智能領 域對算力的要求遠超圖像識別和語音識 別等傳統(tǒng)AI領域數(shù)據(jù)來源:證券研究人工智能研究框架培訓算力提升有極強的經濟效益01數(shù)據(jù)來源:《2021-2022全球計算力指數(shù)評估報告》,證券研究

29算力的經濟效益使其成為各國政策支持的重點根據(jù)清華大學全球產業(yè)院與浪潮信息聯(lián)合發(fā)布的《2021-2022全球計算力指數(shù)評估報告》,通過對全球15個重點國家的計算力指數(shù)與數(shù)字經濟及GDP的回歸分析,得到15個重點國家的計算力指數(shù)平均每提高1點,國家的數(shù)字經濟和GDP將分別增長3.5‰和1.8‰進一步研究發(fā)現(xiàn),當一個國家計算力指數(shù)分別達到40分及60分以上時,計算力指數(shù)每提升1點,其對GDP增長的推動力將分別增加到1.5倍及3倍。智能算力提升具備重大經濟效益,對算力基礎設施發(fā)展的支持性政策成為各國政策的重點。圖21:算力提升具有極強的經濟效益人工智能研究框架培訓AI

數(shù)據(jù)中心需求激增,AI

服務器快速放量01網絡寬帶計算能力用于大規(guī)模并行計算,處理復雜機器學習和深度學習算法的高性能計算設備(如GPU和特定的AI芯片)用于快速數(shù)據(jù)傳輸和通信的高網絡帶寬、低延遲網絡,以滿足對數(shù)據(jù)傳輸速度的敏感需求儲存需求用于存儲大規(guī)模數(shù)據(jù)集的大容量、高速存儲軟件支持針對機器學習和深度學習任務的軟件支持,包括專門的AI框架、庫和工具,以及優(yōu)化的軟件棧和分布式計算平臺,以提高計算效率和性能

30數(shù)據(jù)來源:證券研究AI

數(shù)據(jù)中心是專門用于支持人工智能計算和數(shù)據(jù)處理任務的設施或物理空間AI

數(shù)據(jù)中心通常擁有大量高性能的服務器、GPU

加速器和專門的存儲系統(tǒng),以提供強大的計算能力并加速深度學習AI

數(shù)據(jù)中心配備了高速的網絡設備和優(yōu)化的軟件框架,以支持高效的數(shù)據(jù)傳輸和算法訓練通過這些專門的配置和優(yōu)化,AI

數(shù)據(jù)中心能夠為各種規(guī)模和復雜度的AI

工作負載提供可靠穩(wěn)定的計算環(huán)境,并滿足大規(guī)模數(shù)據(jù)存儲、備份和分析的需求AI

數(shù)據(jù)中心在推動人工智能技術的發(fā)展和應用方面起到關鍵作用,為各行各業(yè)的AI

應用和服務提供了強大的支持圖22:AI數(shù)據(jù)中心比普通數(shù)據(jù)中心需要更好的計算能力、存儲需求、網絡帶寬和軟件支持人工智能研究框架培訓AI

數(shù)據(jù)中心需求激增,AI

服務器快速放量01大模型的出現(xiàn)和技術創(chuàng)新對AI數(shù)據(jù)中心的發(fā)展起到推動作用大模型的出現(xiàn)帶來了算力的增量需求根據(jù)OpenAI

發(fā)布的有關GPT-3模型的文檔,它包含1750

億個參數(shù),需要進行數(shù)千萬次的計算操作來完成一次推理任務ChatGPT

的總算力消耗約為3640PF-days,需要7~8

個投資規(guī)模30

億、單體算力500P

的數(shù)據(jù)中心才能支撐運行,這樣的規(guī)模和復雜性需要高

性能的計算設備和大規(guī)模的并行計算能力,帶動了AI

數(shù)據(jù)中心需求的增長新的處理器架構、高速網絡、存儲技術以及更高效的冷卻和能源管理系統(tǒng)的出現(xiàn),提升了數(shù)據(jù)中心的性能和效率,為AI

數(shù)據(jù)中心的發(fā)展提供了技術支持圖23:大模型時代使算力需求翻倍提升

31數(shù)據(jù)來源:IJCNN人工智能研究框架培訓AI

服務器中,GPU

價值量最大01可以將數(shù)據(jù)存儲在本地,利用本地的計算資源進行

AI模型的訓練和推理保證數(shù)據(jù)的安全性和隱私性可能受限于本地的存儲和計算能力混合架構基于云平臺的架構使用遠程存儲技術和混合云存儲(一種聯(lián)合本地存儲和云存儲的技術)進行數(shù)據(jù)存儲,利用云端的計算資源進行AI模型的訓練和推理提供彈性的存儲和計算能力可能存在數(shù)據(jù)的安全性和隱私性問題描述優(yōu)點缺點AI

服務器是AI

數(shù)據(jù)中心重要的組成部分AI

服務器是專門為人工智能應用而設計和配置的服務器,具備強大的計算能力和高效的數(shù)據(jù)處理能力,是執(zhí)行AI

任務和處理大規(guī)模數(shù)據(jù)的關鍵組件,為數(shù)據(jù)中心提供計算資源和算力,用于執(zhí)行復雜的AI

算法和模型。AI

服務器有兩種主要架構:混合架構和基于云平臺的架構。圖24:AI服務器主要使用混合架構和云平臺架構

32數(shù)據(jù)來源:證券研究人工智能研究框架培訓AI

服務器中,GPU

價值量最大01主板是AI服務器的核心電路板,連接各個部件并提供電源和數(shù)據(jù)傳輸?shù)慕涌?,承載著CPU、內存插槽、擴展插槽和其他重要組件

33電源提供服務器所需的電能,確保各個組件正常運行機箱是AI服務器的外部框架,提供支撐和保護內部組件的結構背板提供連接各個部件的接口,而布線則用于傳輸電力和數(shù)據(jù)信號散熱系統(tǒng)用于控制服務器的溫度并保持其在安全范圍內運行。散熱片吸收和分散熱量,而風扇則提供氣流來冷卻服務器內部。內存(RAM)用于臨時存儲數(shù)據(jù)和程序代碼,提供快速的數(shù)據(jù)訪問和處理能力。AI服務器通常配備大容量的內存,以支持大規(guī)模的數(shù)據(jù)集和模型CPU負責執(zhí)行計算任務和處理數(shù)據(jù),是服務器的主要計算引擎,可以進行復雜的算法和模型運算加速卡(如GPU、TPU)提供高性能的并行計算能力,用于加速機器學習和深度學習任務,可以加快模型訓練和推理的速度AI

服務器中的主要元器件包括CPU、GPU

板組、內存、存儲、網絡接口卡、機箱、主板、散熱系統(tǒng)和電源圖25:AI服務器拆箱圖如下所示數(shù)據(jù)來源:英偉達官網,證券研究人工智能研究框架培訓AI

服務器中,GPU

價值量最大01GPU

是AI

服務器中價值量最高的部件,承擔了大部分的計算任務和深度學習模型的訓練與推理圖26:整個AI硬件產業(yè)鏈中的各個環(huán)節(jié)緊密合作,共同構建了支持AI應用和服務的完整生態(tài)系統(tǒng)AI服務器GPU電源網絡設備存儲CPU冷卻系統(tǒng)在整個AI服務器的投入比例中,

GPU通常占據(jù)較大的比例,大約在整體投入的30%至60%之間。

GPU提供了強大的并行計算能力和高效的深度學習加速,是實現(xiàn)高性能AI計算的關鍵。CPU作為服務器的核心計算單元發(fā)揮著重要作用,而存儲、網絡設備、冷卻系統(tǒng)和電源等則在支持和維護服務器功能上起到關鍵作用。數(shù)據(jù)來源:證券研究

34其他部件在整體投入中比例相對較小,但它們同樣是確保服務器正常運行和數(shù)據(jù)中心高效運作的必要組成部分人工智能研究框架培訓AIGC拉動AI算力需求,AI芯片將成為未來科技石油01基于APU架構的MI300預計于年底開始應用于超級計算機隨著AI進入“大模型”時代,訓練數(shù)據(jù)不斷增長、算法復雜度不斷提高,國內人工智能廠商對算力的需求陡升。AI芯片作為大模型及AI應用落地的算力基礎,重要性日益凸顯。廣義的AI芯片指專門用于處理人工智能應用中大量計算任務的模塊,即面向人工智能領域的芯片均被稱為AI芯片。狹義的AI芯片即針對人工智能算法做了特殊加速設計的芯片。狹義的AI芯片與傳統(tǒng)芯片(如CPU)相比,性能優(yōu)勢主要體現(xiàn)在專用性的側重上。圖27:AI芯片產業(yè)鏈較為復雜IP授權設計晶圓代工AI芯片云端/邊緣端終端訓練推理智能汽車智能手機AIoT機器人數(shù)據(jù)來源:證券研究

35人工智能研究框架培訓AIGC拉動AI算力需求,AI芯片將成為未來科技石油01數(shù)據(jù)來源:證券研究

36AI

芯片主要分為三種類型:通用型(GPU)、半定制型(FPGA)、定制型(ASIC)三類芯片代表分別有英偉達(NVIDIA)的GPU、賽靈思的FPGA和Google的TPU。GPU的計算能力最強,但是成本高、功耗高;FPGA可編程,最靈活,但是計算能力不強;ASIC體積小、功耗低,適合量產,但是研發(fā)時間長,且不可編輯,前期投入成本高,帶來一定的技術風險。表1:AI芯片分為GPU、FPGA、ASIC三種類型GPUFPGAASIC定制化程度通用型半定制化定制化靈活性好好不好成本高較高低編程語言/架構CUDA,OpenCL等Verilog/VHDL等硬件描述語言,OpenCL、HLS/功耗大較大小主要優(yōu)點峰值計算能力強,產品成熟平均性能較高,功耗較低,靈活性強平均性能很強,功耗很低,體積小主要缺點效率不高,不可編輯,功耗高量產單價高,峰值計算能力較低,編程語言難度大前期投入成本高,不可編輯,研發(fā)時間長,技術風險大主要應用場景云端訓練,云端推理云端推理,終端推理云端訓練,云端推理,終端推理人工智能研究框架培訓

37AIGC拉動AI算力需求,AI芯片將成為未來科技石油01數(shù)據(jù)來源:證券研究針對不同技術路徑,國內廠商均已有所布局GPU:國內GPU廠商已有部分產品落地,國產GPU迎來黃金發(fā)展期圖28:國內GPU企業(yè)迎來較快發(fā)展景嘉微自主研發(fā)了一系列GPU芯片,包括JM54系列、JM72系列、JM92系列三代GPU產品場的局面,并不斷研發(fā)更為先進的JM7200和JM9系列公司于

2014

年成功研發(fā)出國內首顆國

2022

年5月,公司M9系列第二款產高性能、低功耗

GPU

芯片JM5400,

圖形處理芯片成功研發(fā),可以滿足地打破了國外產品長期壟斷我國GPU

理信息系統(tǒng)、媒體處理、CAD

輔助設計、游戲、虛擬化等高性能顯示需求和人工智能計算需求,可廣泛應用于各種設備海光DCU系列產品以基于通用的

GPGPU架構,采用7nm工藝,兼容“類

CUDA”環(huán)境以及國際主流商業(yè)計算軟件和人工智能軟件,軟硬件生態(tài)豐富海光DCU系列產品深算一號已經實現(xiàn)商業(yè)化應用,于2021年實現(xiàn)規(guī)模化出貨,未來將廣泛應用于大數(shù)據(jù)處理、人工智能、商業(yè)計算等領域其產品性能達到了國際上同類型主流高端處理器的水平,具有較強的并行計算能力和較高的能效比,在國內處于領先地位數(shù)據(jù)來源:證券研究人工智能研究框架培訓

38AIGC拉動AI算力需求,AI芯片將成為未來科技石油01針對不同技術路徑,國內廠商均已有所布局數(shù)據(jù)來源:證券研究表2:ASIC:國內ASIC廠商實力雄厚,積極追趕國外芯片巨頭圖29:CPU+FPGA:國內巨頭紛紛布局CPU+FPGA的混合異構加速AI計算此前被全球最大

FPGA廠商賽靈思收購的深鑒科技也基于FPGA來設計深度學習的加速器架構數(shù)據(jù)來源:證券研究全球科技巨頭紛紛布局云端FPGA生態(tài),國內包括騰訊云、阿里云均在2017年推出了基于FPGA的服務,百度大腦也使用了FPGA芯片人工智能研究框架培訓

39AIGC拉動AI算力需求,AI芯片將成為未來科技石油01數(shù)據(jù)來源:頭豹研究院,證券研究FPGA方案及ASIC方案成本曲線存在差異ASIC無法重新編程前期投入成本較高ASIC具備性能更強、體積更小、功耗更低、成本更低、可靠性更髙等優(yōu)點,將更具備一定競爭優(yōu)勢實現(xiàn)專用算法“硬件優(yōu)化”,ASIC路線在AI領域的長期成長性值得期待圖30:ASIC路線在AI領域的長期成長性值得期待人工智能研究框架培訓要解決人類指定的各類任務,先要讓計算機模擬人類的學習機制01人類跟計算機的能力維度各有優(yōu)勢,讓計算機學習和模擬人類的解決問題的方法是各類算法的起點人類會非常容易的辨別出垃圾郵件與貓狗,但是讓計算機做卻非常困難,因為這與發(fā)明計算機的最初任務有本質區(qū)別。比如對1億數(shù)據(jù)進行混合四則運算或大小排序,這些任務讓人類執(zhí)行會非常低效,但計算機卻可以快速完成。而人工智能要處理的任務與計算機最初的任務恰好相反。這就促使了讓人們思考人類到底是怎么進行學習的。人類的學習機制:嬰兒根本不知道貓狗到現(xiàn)在我們可以一眼分辨出貓狗,是一個經驗學習過程:首先需要一定的樣本資料,從小可能在電視中、現(xiàn)實中或圖書中或家長教育中獲得大量信息,然后大腦將接受的信息進行學習、歸納、整理、總結,最后形成我們的知識與經驗。對于計算機,它的優(yōu)勢是計算能力非常強,可以處理海量數(shù)據(jù)。我們需要給它提供成千上萬的資料數(shù)據(jù)(貓狗照片)讓它進行學習,然后計算

40數(shù)據(jù)來源:AI有溫度微信公眾號,證券研究圖32:讓計算機模仿人類來解決問題具備理論上的可行性機再面對新樣本時才能以較高的準確率進行分辨。圖31:理解人類的學習機制,有助于讓人工智能來有效復刻這種能力機制數(shù)據(jù)來源:AI有溫度微信公眾號人工智能研究框架培訓例如預測一封郵件是否是垃圾郵件、預測照片中的人是男性還是女性還是偏中性?這種結果只有兩個值或者多個值的問題,我們可以把每個值都當做一類,預測對象到底屬于哪一類。對于結果只有兩個值的問題,一般稱為二分類問題,結果有多個值的問題稱為多分類問題?;贏I習得的能力,AI

就能處理兩大類任務01數(shù)據(jù)來源:證券研究分類人工智能要處理的任務多種多樣。比如人臉識別、垃圾郵件檢測、電源票房預測、降雨量預測等等。但是這些任務背后的根本任務只有兩類,就是分類與回歸。回歸例如要通過一個人的飲食預測一個人的體重,體重的值可以有無限多個,有的人60kg,有的人61kg,而且在60和61之間也有無限多個數(shù)。這種預測結果是某一個確定數(shù),而具體是哪個數(shù)有無限多種可能,預測的這個變量(體重)因為有無限多種可能,在數(shù)軸上是連續(xù)的,所以稱這種變量為連續(xù)變量。AI

所能處理的這些任務背后的根本任務只有兩類,就是分類與回歸人類大腦每日處理的其實也是分類與回歸問題。比如我們會思考晚上吃燒烤還是火鍋,會選擇出門穿哪件衣服,這些都可看做是分類問題;在稱重上秤前我們會先估計自己多重,約會時會預計對方幾點到達,這些都可看做是回歸問題。圖33:分類和回歸是人工智能所處理任務的主要類別分類任務:模型輸出是:對象的所屬類別;數(shù)據(jù)類型是:離散數(shù)據(jù)回歸任務:模型輸出的結果是:一個值;數(shù)據(jù)類型是:連續(xù)型數(shù)據(jù)

41人工智能研究框架培訓分類任務:模型輸出是對象的所屬類別,數(shù)據(jù)類型是離散數(shù)據(jù)01數(shù)據(jù)來源:百度數(shù)據(jù)來源:廣汽

42分類任務:有二分類和多分類二分類任務包括前面提到的垃圾郵件檢測與貓狗圖像識別的例子。多分類任務場景包括下棋與自動駕駛等場景。在棋盤上可以落子的個數(shù)是有限的,所以每一步阿爾法Go要做的就是根據(jù)當前已落子信息,預測出落子在每個可落子位置的勝率,然后選取勝 率最高的位置進行落子即可;自動駕駛車輛上裝有多個攝像頭和傳感器來時刻監(jiān)視車輛四周的環(huán)境信息,可根據(jù)這些環(huán)境的圖像信息讓它選擇在每種情況下方向盤轉動多少角度、油門或剎車踩多深來實現(xiàn)車輛的自動行駛。圖34:棋牌類是多分類任務的場景案例之一

圖35:自動駕駛也是一種多分類任務可給方向盤設置900個選擇方案(普通車的方向盤一般是

900度,也就是兩圈半),給油門剎車分別設置10個檔位。那么整個自動行駛的過程,其實就是在每個時刻根據(jù)環(huán)境信息來對這三個關鍵部件進行操作選擇,所以可以將它看作為分類任務。人工智能研究框架培訓回歸任務:模型輸出的結果是一個值,數(shù)據(jù)類型是連續(xù)型01以網約車出行預測以及股價預測來說明回歸任務?;貧w任務和分類任務并非嚴格區(qū)分。案例一:可根據(jù)上下車地點、時間、天氣情況、人流密度以及歷史記錄等因素,預測此刻某區(qū)域的網約車訂單數(shù),并以此為依據(jù)進行車輛調度,保證供需平衡。案例二:股價預測也可看做為一個回歸問題。因為可根據(jù)歷史走勢、利弊政策、公司財報等因素對股價進行預測。其實分類問題在某種程度上可以看做為一個回歸問題:比如可以定義若一支股票漲幅會大于5%,就把它歸為買入類;在-5%至5%之間,就將它歸為持有類;跌幅大于5%的話就將它歸為賣出類。圖36:網約車出行流量預測是一種回歸任務數(shù)據(jù)來源:百度地圖圖37:股價預測也是典型的回歸任務數(shù)據(jù)來源:微軟根據(jù)相應程序可以預測股價趨勢,可看做回歸問題

43人工智能研究框架培訓最終計算機解決這些任務的方案,我們稱之為算法01傳統(tǒng)機器學習通過訓練集,不斷識別特征,不斷建模,最后形成有效的模型,這個過程就叫“機器學習”!無論使用什么算法,使用什么樣的數(shù)據(jù),最根本的思路都逃不出上面的3步。深度學習模擬人腦神經元進行學習與預測,通常不具有可解釋性

44從人工智能大的子領域來看,常用的算法類型有專家系統(tǒng)、傳統(tǒng)機器學習與深度學習。專家系統(tǒng)通俗來說就是制定規(guī)則;傳統(tǒng)的機器學習主要運用可解釋的數(shù)學公式進行推導預測;而目前大火的深度學習則是模擬人腦神經元進行學習與預測,通常不具有可解釋性,但卻能很好的解決問題(之后會詳細解釋)。圖38:AI核心算法主要分為三大類專家系統(tǒng)利用以往知識與經驗制定規(guī)則數(shù)據(jù)來源:證券研究人工智能研究框架培訓專家系統(tǒng)算法:基于以往知識與經驗來制定規(guī)則01早期AI

根據(jù)設定的規(guī)則,讓電腦去執(zhí)行預測。這種早期算法也叫做“專家系統(tǒng)”。專家系統(tǒng)是模擬人類專家解決某一類具體問題的人工智能系統(tǒng),如疾病診療、機械設計等。那么, 如何讓計算機模擬人類專家?思路很簡單:想辦法將專家掌握的知識抽取出來,利用這些知識,

計算機就可以像專家一樣工作了。例如,AI在互聯(lián)網中的早期應用有識別垃圾郵件。郵箱每天會收到眾多郵件,而把垃圾郵件剔除就可以大大節(jié)約人們在垃圾郵件中浪費的時間。傳統(tǒng)的方法是制定規(guī)則,比如一篇文章中大量出現(xiàn)“免費”“特價”“發(fā)財”“代理”“穩(wěn)贏”等等關鍵詞,我們就把它定義為垃圾郵件,根據(jù)設定的規(guī)則,然后讓電腦去執(zhí)行預測。實現(xiàn)專家系統(tǒng)要解決兩個問題:一是如何表示知識,二是如何利用知識解決問題首先是知識表示的問題,即如何將專家的知識梳理出來,并表示成計算機能讀懂的結構。知識表示有很多種方法,最簡單的是寫成“如果...就...”這樣的判斷句,稱為“產生式規(guī)則”。第二個問題涉及到推理方法,即如何利用既有知識解決問題。以診療系統(tǒng)為例,如果病人的表現(xiàn)是打噴嚏和發(fā)燒,人類的醫(yī)生會基于打噴嚏和發(fā)燒這些表現(xiàn),判斷病人可能是感冒了,而治療感冒的常用藥物是阿司匹林,因此醫(yī)生會告訴病人:吃幾片阿斯匹林。這個過程就是人類的推理過程。計算機醫(yī)生會模仿這個過程,首先會將病人發(fā)燒和打噴嚏作為前提在知識庫中查找。圖39:用IF語句來舉例理解專家系統(tǒng)IF發(fā)燒AND打噴嚏Then感冒數(shù)據(jù)來源:證券研究

45IF感冒THEN開阿司匹林知識表示基于該知識推論病人是否感冒。得出結論后,通過“感冒”,在知識庫中繼續(xù)查找,發(fā)現(xiàn)下面的知識解決問題基于該知識,計算機就知道要給病人開阿司匹林人工智能研究框架培訓單一的專家系統(tǒng)算法會遇到諸多瓶頸01但在實踐過程中,有些任務本身的規(guī)則很難定義。一個典型的例子就是圖像識別。在圖像識別領域中,一個最基礎的問題就是分辨這個圖像是什么。舉例來說,告訴你一張圖像不是貓就是狗,現(xiàn)在給你一張圖片,讓你分辨一張圖片到底是貓還是狗。人類可以輕松地分辨出左側是貓右側是狗,但是讓你具體說出你是究竟根據(jù)什么來分辨出貓與狗的,突然發(fā)現(xiàn)這個問題很難回答。例如,貓跟狗都有五官與體毛,并有基本相同的姿勢等等,計算機量化描述這些規(guī)則的話,難度和復雜度極大。數(shù)據(jù)來源:AI有溫度微信公眾號圖41:因為圖像的細節(jié)特征太多,編寫規(guī)則來進行判斷的難度極大

46圖40:識別圖像的工作極大提升了傳統(tǒng)算法的難度數(shù)據(jù)來源:AI有溫度微信公眾號人工智能研究框架培訓

47傳統(tǒng)的機器學習主要運用可解釋的數(shù)學公式進行推導運算01案例任務:收集鳶尾花花萼的長度與寬度,來判斷它具體屬于哪一品種(由于可視化與易推導的需求,此處將數(shù)據(jù)維度降到2維或3維來說明傳統(tǒng)機器學習的原理。而現(xiàn)實中的數(shù)據(jù)通常是具有多種特征的,比如鳶尾花的數(shù)據(jù)集原本有4個特征,其實我們應該在一個4維空間對數(shù)據(jù)進行切分)。機器學習背后的數(shù)學保證了低維空間的算法推導到高維空間也同樣適用。圖42:傳統(tǒng)的機器學習主要運用可解釋的數(shù)學公式進行推導預測數(shù)據(jù)來源:AI有溫度微信公眾號,,證券研究首先將花萼的長度與寬度繪制在一張二維圖中,紅色代表一類,藍色代表一類根據(jù)兩組數(shù)據(jù)計算出一條

f(x)=k1x1+k2x2+b(可理解為

y=kx+b)的直線將兩類數(shù)據(jù)分離:如果再來一組數(shù)據(jù)落入直線上方,就歸屬于紅色類;若落入直線下方,則屬于藍色類人工智能研究框架培訓

48傳統(tǒng)的機器學習對圖像識別有天然優(yōu)勢01傳統(tǒng)機器學習同樣可以運用到圖像領域可以看到在鳶尾花分類任務中的特征都有明確的含義,每個數(shù)字代表什么意思。而其實在機器學習中,特征可以是很抽象的,在圖像識別領域中,通常將每一個像素點看做一個特征。在數(shù)字識別任務中,將圖像放大,每一個像素由一個方塊表示,方塊顏色的深淺不同就對應著不同的值,所以可以用28*28=784個特征來代表這張圖像,然后將數(shù)字按順序排開喂給機器機進行學習,并歸納整理每個位置的值與最終結果的關系。在算法領域中特征可能是不具有含義的,而是抽象的,甚至這個特征與最終結果毫無關系。圖44:傳統(tǒng)機器學習的工作流程如下所示數(shù)據(jù)來源:華為云官網圖43:利用機器學習來處理像素點可以實現(xiàn)圖像識別數(shù)據(jù)來源:雷鋒網

49人工智能研究框架培訓根據(jù)機器學習訓練方式,又分監(jiān)督學習、無監(jiān)督學習和強化學習01監(jiān)督學習需要有明確的目標,很清楚自己想要什么結果。比如:按照“既定規(guī)則”來分類、預測某個具體的值…監(jiān)督并不是指人站在機器旁邊看機器做的對不對,而是具有四個步驟的流程。圖45:監(jiān)督學習可以處理回歸和分類兩種任務,下面以芝麻信用評分(回歸任務)來說明監(jiān)督學習選擇一個合適的數(shù)學模型01

合適的模型先把部分已知“問題和答案”(訓練集)給機器去學習02

提供訓練數(shù)據(jù)機器總結出了自己的“方法論”01

訓練出方法論04

在新數(shù)據(jù)上使用方法論人類把”新的問題”(測試集)給機器,讓他去解答步驟2

:收集已知數(shù)據(jù)為了找出公式f,需要先收集大量的已知數(shù)據(jù),這些數(shù)據(jù)必須包含一個人的5種數(shù)據(jù)和他的信用狀態(tài)(把信用狀態(tài)轉化為分數(shù))。把數(shù)據(jù)分成幾個部分,一部分用來訓練,一部分用來測試和驗證。步驟3

:訓練出理想模型有了這些數(shù)據(jù),通過機器學習,就能”猜測”出這5種數(shù)據(jù)和信用分數(shù)的關系。這個關系就是公式f。然后再用驗證數(shù)據(jù)和測試數(shù)據(jù)來驗證一下這個公式是否OK。步驟4

:對新用戶進行預測當我們想知道一個新用戶的信用狀況時,只需要收集到他的這5種數(shù)據(jù),套進公式f

計算一遍就知道結果了!步驟1

:構建問題,選擇模型首先找出個人信用的影響因素,從邏輯上講一個人的體重跟他的

信用應該沒有關系,而財富總額貌似跟信用有關,所以根據(jù)判斷,找出了下面5個影響因素:付款記錄、賬戶總金額、信用記錄跨度(自開戶以來的信用記錄、特定類型賬戶開戶以來的信用記錄…)、新賬戶(近期開戶數(shù)目、特定類型賬戶的開戶比例…)、信用類別(各種賬戶的數(shù)目)數(shù)據(jù)來源:easyai官網,證券研究人工智能研究框架培訓

5001圖:樸素貝葉斯

決策樹

SVM

邏輯回歸

線性回歸

回歸樹K鄰近

Adaboosting 神經網絡貝葉斯分類法是基于貝葉斯定定理的統(tǒng)計學分類方法。它通過預測一個給定的元組屬于一個特定類的概率,來進行分類。樸素貝葉斯分類法假定一個屬性值在給定類的影響獨立于其他屬性的——類條件獨立性。分類任務回歸任務回歸+分類練數(shù)據(jù)構建決策樹,對未知的數(shù)據(jù)進行分類。支持向量機把分類問題轉化為尋找分類平面的問題,并通過最大化分類邊界點距離分類平面的距離來實現(xiàn)分類。決策樹是一種簡單但廣泛使用的分類器,它通過訓邏輯回歸是用于處理因變量為分類變量的回歸問題,常見的是二分類或二項分布問題,也可以處理多分類問題,它實際上是屬于一種分類方法。線性回歸是處理回歸任務最常用的算法之一。該算法的形式十分簡單,它期望使用一個超平面擬合數(shù)據(jù)集(只有兩個變量的時候就是一條直線)?;貧w樹(決策樹的一種)通過將數(shù)據(jù)集重復分割為不同的分支而實現(xiàn)分層學習,分割的標準是最大化每一次分離的信息增益。這種分支結構讓回歸樹很自然地學習到非線性關系。通過搜索K個最相似的實例(鄰居)的整個訓練集并總結那些K個實例的輸出變量,對新數(shù)據(jù)點進行預測。從訓練數(shù)據(jù)中學習一系列的弱分類器或基本分類器,然后將這些弱分類器組合成一個強分類器。它從信息處理角度對人腦神經元網絡進行抽象,建立某種簡單模型,按不同的連接方式組成不同的網絡。主流的監(jiān)督學習算法種類較多圖46:主流的監(jiān)督學習算法包括樸素貝葉斯、決策樹、SVM等多種算法,目前也在逐步豐富中Adaboost目的就是數(shù)據(jù)來源:證券研究誠信·責任·親和·專業(yè)·創(chuàng)新人工智能研究框架培訓

51無監(jiān)督學習跟監(jiān)督學習相比,主要有三個特點01無監(jiān)督學習是一種機器學習的訓練方式,它本質上是一個統(tǒng)計手段,在沒有標簽的數(shù)據(jù)里可以發(fā)現(xiàn)潛在的一些結構的一種訓練方式。下面通過跟監(jiān)督學習的對比來理解無監(jiān)督學習:監(jiān)督學習是一種目的明確的訓練方式,你知道得到的是什么;而無監(jiān)督學習則是沒有明確目的的訓練方式,你無法提前知道結果是什么。監(jiān)督學習需要給數(shù)據(jù)打標簽;而無監(jiān)督學習不需要給數(shù)據(jù)打標簽。監(jiān)督學習由于目標明確,所以可以衡量效果;而無監(jiān)督學習幾?無法量化效果如何。圖47:舉例說明無監(jiān)督學習案例1:發(fā)現(xiàn)異常案例2:用戶細分背景:有很多違法行為都需要”洗錢”,這些洗錢行為跟普通用戶的行為是不一樣的,到底哪里不一樣?如果通過人為去分析是一件成本很高很復雜的事情,我們可以通過這些行為的特征對用戶進行分類,就更容易找到那些行為異常的用戶,然后再深入分析他們的行為到底哪里不一樣,是否屬于違法洗錢的范疇。通過無監(jiān)督學習,可以快速把行為進行分類,雖然不知道這些分類意味著什么,但是通過這種分類,可以快速排出正常的用戶,更有針對性的對異常行為進行深入分析。數(shù)據(jù)來源:easyai官網,證券研究用戶細分對于廣告平臺很有意義,不僅把用戶按照性別、年齡、地理位置等維度進行用戶細分,還可以通過用戶行為對用戶進行分類。案例3:推薦系統(tǒng)比如大家在淘寶、天貓、京東上逛的時候,總會根據(jù)你的瀏覽行為推薦一些相關的商品,有些商品就是無監(jiān)督學習通過聚類來推薦出來的。系統(tǒng)會發(fā)現(xiàn)一些購買行為相似的用戶,推薦這類用戶最”喜歡”的商品。

52人工智能研究框架培訓強化學習不需要大量的“數(shù)據(jù)喂養(yǎng)”,通過自我嘗試學會技能01跟監(jiān)督、無監(jiān)督學習類似,強化學習并不是某一種特定的算法,而是一類算法的統(tǒng)稱。強化學習算法的思路非常簡單,以游戲為例,如果在游戲中采取某種策略可以取得較高的得分,那么就進一步「強化」這種策略,以期繼續(xù)取得較好的結果。這種策略與日常生活中的各種「績效獎勵」非常類似。強化學習和監(jiān)督學習、無監(jiān)督學習最大的不同就是不需要大量的“數(shù)據(jù)喂養(yǎng)”。而是通過自己不停的嘗試來學會某些技能。圖48:強化學習的主流算法包括免模型學習(Model-Free)和有模型學習(Model-Based)數(shù)據(jù)來源:easyai官網,證券研究有模型學習(Model-Based)對環(huán)境有提前的認知,可以提前考慮規(guī)劃,但是缺點是如果模型跟真實世界不一致,那么在實際使用場景下會表現(xiàn)的不好。免模型學習(Model-Free)放棄了模型學習,在效率上不如后者,但是這種方式更加容易實現(xiàn),也容易在真實場景下調整到很好的狀態(tài)。所以免模型學習方法更受歡迎,得到更加廣泛的開發(fā)和測試。人工智能研究框架培訓

53深度學習的靈感來自大腦的結構和功能01求數(shù)據(jù)來源:easyai官網、《人工智能》,證券研究深度學習的概念源于人工神經網絡的研究,但是并不完全等于傳統(tǒng)神經網絡,可以看做神經網絡的升級版本根據(jù)李開復在《人工智能》內容,以識別圖片中的漢字為例來解釋深度學習:假設深度學習要處理的信息是“水流”,而處理數(shù)據(jù)的深度學習網絡是一個由管道和閥門組成的巨大水管網絡。網絡的入口是若干管道開口,網絡的出口也是若干管道開口。這個水管網絡有許多層,每一層由許多個可以控制水流流向與流量的調節(jié)閥。根據(jù)不同任務的需要,水管網絡的層數(shù)、每層的調節(jié)閥數(shù)量可以有不同的變化組合。對復雜任務來說,調節(jié)閥的總數(shù)可以成千上萬甚至更多。水管網絡中,每一層的每個調節(jié)閥都通過水管與下一層的所有調節(jié)閥連接起來,組成一個從前到后,逐層完全連通的水流系統(tǒng)。那么,計算機該如何使用這個龐大的水管網絡來學習識字呢?比如,當計算機看到一張寫有“田”字的圖片,就簡單將組成這張圖片的所有數(shù)字(在計算機里,圖片的每個顏色點都是用“0”和“1”組成的數(shù)字來表示的)全都變成信息的水流,從入口灌進水管網絡。我們預先在水管網絡的每個出口都插一塊字牌,對應于每一個我們想讓計算機認識的漢字。這時,因為輸入的是“田”這個漢字,等水流流過整個水管網絡,計算機就會跑到管道出口位置去看一看,是不是標記由“田”字的管道出口流出來的水流最多。如果是這樣,就說明這個管道網絡符合要求。如果不是這樣,就調節(jié)水管網絡里的每一個流量調節(jié)閥,讓“田”字出口“流出”的水最多。與訓練時做的事情類似,未知的圖片會被計算機轉變成數(shù)據(jù)的水流,灌入訓練好的水管網絡。這時,計算機只要觀察一下,哪個出水口流出來的水流最多,這張圖片寫的就是哪個字。圖49:深度學習就像自來水管系統(tǒng),不斷調節(jié)各個閥門,讓對應出口的流量符合要深度學習大致就是這么一個用

人類的數(shù)學知識與計算機算法

構建起來的整體架構,再結合

盡可能多的訓練數(shù)據(jù)以及計算

機的大規(guī)模運算能力去調節(jié)內

部參數(shù),盡可能逼近問題目標

的半理論、半經驗的建模方式。人工智能研究框架培訓

54機器學習VS

深度學習01機器學習與深度學習有著明顯的異同點在數(shù)據(jù)準備和預處理方面,兩者是很相似的。他們都可能對數(shù)據(jù)進行一些操作:數(shù)據(jù)清洗、數(shù)據(jù)標簽、歸一化、去噪、降維。核心區(qū)別:傳統(tǒng)機器學習的特征提取主要依賴人工,針對特定簡單任務的時候人工提取特征會簡單有效,但是并不能通用;深度學習的特征提取并不依靠人工,而是機器自動提取的。這也是為什么都說深度學習的可解釋性很差,因為有時候深度學習雖然能有好的表現(xiàn),但是我們并不知道他的原理是什么。圖50:深度學習與機器學習在不同階段有不同的異同點數(shù)據(jù)來源:證券研究數(shù)據(jù)預處理特征提取選擇分類器數(shù)據(jù)預處理設計模型訓練傳統(tǒng)機器學習深度學習傳統(tǒng)機器學習與深度學習的相似處傳統(tǒng)機器學習和深度學習的核心區(qū)別圖51:深度學習的優(yōu)缺點如下所示優(yōu)點1:學習能力強從結果來看,深度學習的表現(xiàn)非常好,他的學習能力非常強。優(yōu)點2:覆蓋范圍廣,適應性好深度學習的神經網絡層數(shù)很多,寬度很廣,理論上可以映射到任意函數(shù),所以能解決很復雜的問題。優(yōu)點3:數(shù)據(jù)驅動,上限高深度學習高度依賴數(shù)據(jù),數(shù)據(jù)量越大,他的表現(xiàn)就越好。在圖像識別、面部識別、NLP等部分任務甚至已經超過了人類的表現(xiàn)。同時還可以通過調參進一步提高他的上限。優(yōu)點4:可移植性好由于深度學習的優(yōu)異表現(xiàn),有很多框架可以使用,例如TensorFlow、Pytorch缺點1:計算量大,便攜性差深度學習需要大量的數(shù)據(jù)很大量的算力,所以成本很高。缺點2:硬件需求高深度學習對算力要求很高,普通的CPU已經無法滿足深度學習的要求。主流的算力都是使用GPU和TPU。缺點3:模型設計復雜深度學習的模型設計非常復雜,需要投入大量的人力物力和時間來開發(fā)新的算法和模型。大部分人只能使用現(xiàn)成的模型。缺點4:沒有”人性”,容易存在偏見由于深度學習依賴數(shù)據(jù),并且可解釋性不高。在訓練數(shù)據(jù)不平衡的情況下會出現(xiàn)倫理風險。數(shù)據(jù)來源:easyai官網,證券研究人工智能研究框架培訓

55深度學習包括四種典型的算法014種典型的深度學習算法:卷積神經網絡、循環(huán)神經網絡、生成對抗網絡、深度強化學習圖52:深度學習的幾種主要算法如下數(shù)據(jù)來源:easyai官網,證券研究循環(huán)神經網絡–RNNRNN是一種能有效的處理序列數(shù)據(jù)的算法。比如:文章內容、語音音頻、股票價格走勢…深度強化學習–DL深度強化學習就是用深度學習來對強化學習中的State、Policy進行表示。區(qū)別的話,深度強化學習是深度學習的一個子類卷積神經網絡–CNN能夠將大數(shù)據(jù)量的圖片有效的降維 成小數(shù)據(jù)量(并不影響結果)能夠

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論