人工智能基礎與應用 第2版 課件 項目三 認知人工智能的應用技術_第1頁
人工智能基礎與應用 第2版 課件 項目三 認知人工智能的應用技術_第2頁
人工智能基礎與應用 第2版 課件 項目三 認知人工智能的應用技術_第3頁
人工智能基礎與應用 第2版 課件 項目三 認知人工智能的應用技術_第4頁
人工智能基礎與應用 第2版 課件 項目三 認知人工智能的應用技術_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

AI遇見應用

興趣引領未來項目三認知人工智能的應用技術任務一視覺智能——機器如何識字、看人人工智能基礎與應用

項目三認知人工智能的應用技術目錄教學目標教學要求內容概覽相關知識3.1.1圖像識別技術的原理及應用 3.1.2人臉識別技術及應用 3.1.3OCR文字識別技術及應用練習與思考 人工智能基礎與應用

項目三認知人工智能的應用技術任務一視覺智能——機器如何識字、看人1.掌握圖像識別、人臉識別、文字識別的含義2.理解圖像識別、人臉識別、文字識別的原理、技術流程、應用及發(fā)展趨勢3.進行圖像識別、人臉識別、文字識別的實訓【教學目標】1.知識點圖像識別、視頻識別、人臉識別、行為識別、文字識別的概念和技術流程2.技能點掌握圖像識別、人臉識別、文字識別的實訓操作3.重難點通過本項目的學習,重點理解視覺智能包括哪些應用技術,過去的計算機視覺和現(xiàn)在的視覺智能有什么區(qū)別和聯(lián)系,思考在生活和行業(yè)方面有哪些具體應用?從“看得見”到“看得清楚、看得明白”之間,需要我們怎么去訓練機器?同時,結合每個任務后的實訓項目進一步思考,嘗試拓展更多實訓任務。【教學要求】【內容概覽】任務一視覺智能——機器如何識字、看人3.1.3OCR文字識別技術及應用什么是OCR識別OCR識別的智能化OCR識別的應用3.1.2人臉識別技術及應用是圖像識別的一個應用場景,也叫做人像識別、面部識別,即基于人的臉部特征信息進行身份識別3.1.1圖像識別技術及應用什么是圖像識別?技術流程:人臉圖像采集及檢測、人臉圖像預處理、人臉圖像特征提取以及匹配與識別基于深度學習技術,將圖片上的文字、符號智能識別出來并變?yōu)榭删庉嫷奈谋緝?yōu)點:識別效率和準確率高、識別圖像質量寬容度高通用文字識別、卡證文字識別、票據(jù)文字識別、場景文字識別、其他文字識別(圖片數(shù)字、印章檢測、表格文字、圖片二維碼等)識別流程:圖像輸入、圖像預處理、版面分析、字符切割、字符特征提取、字符識別、后處理校正圖像識別的技術流程圖像識別的應用信息的獲取、預處理、特征抽取和選擇、分類器設計和分類決策應用領域:公共安全、生物、工業(yè)、農業(yè)、交通、醫(yī)療等延展介紹:視頻識別及視頻中的行為識別圖像處理:圖像采集、圖像增強、圖像復原、圖像編碼與壓縮、圖像分割圖像識別:統(tǒng)計法、模板匹配法和神經網(wǎng)絡法等【相關知識】計算機視覺應用場景圖像識別是人工智能行業(yè)應用的一個重要方向,也是機器學習最熱門的領域之一。其目的是為了讓計算機代替人類去處理大量的物理信息,解決人類無法識別或者識別率特別低的信息。圖像識別的發(fā)展經歷三個階段:文字識別、數(shù)字圖像處理與識別、物體識別。圖像識別通過分類并提取重要特征并排除多余的信息來識別圖像。圖像的內容通常是用圖像特征進行描述,包括:顏色特征、紋理特征、形狀特征及局部特征點等。一、圖像識別技術的原理及應用(一)什么是圖像識別?

圖像識別過程圖像識別過程分為圖像處理和圖像識別兩個部分。一、圖像識別技術的原理及應用(一)什么是圖像識別?

圖像識別過程1.圖像處理分為模擬圖像處理和數(shù)字圖像處理。其目的是去除干擾、噪聲,將原始圖像進行特征提取,主要包括圖像采集、圖像增強、圖像復原、圖像編碼與壓縮和圖像分割。一、圖像識別技術的原理及應用(一)什么是圖像識別?環(huán)節(jié)內容圖像采集主要借助于攝像機、掃描儀、數(shù)碼相機等設備經過采樣數(shù)字化得到的圖像,也包括一些動態(tài)圖像,并可以將其轉為數(shù)字圖像,與文字、圖形、聲音一起存儲。圖像提取是將一個圖像變換為適合計算機處理的形式的第一步。圖像增強為突出圖像中想抓取的部分,必須對圖像進行改善,以緩解圖像在成像、采集、傳輸?shù)冗^程中,質量或多或少造成的退化。通過圖像增強,減少圖像中的干擾和噪聲,改變原來圖像的亮度、色彩分布、對比度等參數(shù),為后期的圖像分析和圖像理解奠定基礎。圖像復原為提取比較清晰的圖像,減少在獲取圖像時環(huán)境噪聲的影響、運動造成的圖像模糊、光線的強弱等原因使得圖像模糊,需要對圖像進行恢復。主要采用濾波方法,從降質的圖像恢復原始圖。另一種特殊技術是圖像重建,該技術是從物體橫剖面的一組投影數(shù)據(jù)建立圖像。圖像編碼與壓縮為快速方便地在網(wǎng)絡環(huán)境下傳輸圖像或視頻,必須對圖像進行編碼和壓縮。如靜態(tài)圖像壓縮標準JPEG,針對圖像的分辨率、色彩等進行規(guī)范。由于視頻可被看作是一幅幅不同的但有緊密相關的靜態(tài)圖像的時間序列,因此動態(tài)視頻的單幀圖像壓縮可以應用靜態(tài)圖像的壓縮標準。圖像編碼壓縮技術可以緩解數(shù)據(jù)量和存儲器容量問題、提高圖像傳輸速度、縮短處理時間。圖像分割技術圖像分割是把圖像分成一些互不重疊而又具有各自特征的子區(qū)域,每一區(qū)域是像素的一個連續(xù)集,這里的特性可以是圖像的顏色、形狀、灰度和紋理等。圖像分割對圖像中的目標、背景進行標記、定位,然后把目標從背景中分離出來。目前,圖像分割的方法主要有基于區(qū)域特征的分割方法、基于相關匹配的分割方法和基于邊界特征的分割方法。在實際的圖像中需根據(jù)景物條件的不同選擇適合的圖像分割方法。圖像分割為進一步的圖像識別、分析和理解奠定了基礎。

圖像識別過程2.圖像識別將經過處理的圖像進行特征提取和分類,這就是圖像識別。通常有幾種常用的識別方法:統(tǒng)計法、模板匹配法和神經網(wǎng)絡法。統(tǒng)計法——該方法是對研究的圖像進行大量的統(tǒng)計分析,找出其中的規(guī)律并提取反映圖像本質特點的特征來進行圖像識別。缺點:當特征數(shù)量激增,給特征提取造成困難,分類也難以實現(xiàn)。模板匹配法——即把已知物體的模板與圖像中所有未知物體進行比較,如果某一未知物體與該模板匹配,則該物體被檢測出來,并被認為是與模板相同的物體。缺點:雖然簡單方便,但應用有很大的限制,識別率過多地依賴于已知物體的模板,如果已知物體的模板產生變形,會導致錯誤的識別。一、圖像識別技術的原理及應用(一)什么是圖像識別?

圖像識別過程2.圖像識別神經網(wǎng)絡法——指用神經網(wǎng)絡算法對圖像進行識別的方法。目前深度學習模型已應用于一般圖像的識別和理解,不僅大大提升了圖像識別的準確性,也避免了抽取人工特征時的時間消耗。什么是神經網(wǎng)絡?神經網(wǎng)絡側重于模擬和實現(xiàn)人的認知過程中的感知過程、形象思維、分布式記憶和自學習自組織過程。神經網(wǎng)絡的特征:具有容錯性強、獨特的聯(lián)想記憶及自組織、自適應和自學習能力,特別適合處理信息模糊或不精確問題。一、圖像識別技術的原理及應用(一)什么是圖像識別?舉例:垃圾郵件的判斷圖像識別的技術流程分以下幾步:信息的獲取、預處理、特征抽取和選擇、分類器設計和分類決策。一、圖像識別技術的原理及應用(二)圖像識別的技術流程信息獲取通過傳感器,將光或聲音等信息轉化為電信息。即獲取研究對象的基本信息并通過某種方法將其轉變?yōu)闄C器能夠認識的信息。預處理指圖像處理中的去噪、平滑、變換等的操作,從而加強圖像的重要特征。特征抽取和選擇特征抽?。豪媚撤N方法,研究各式各樣的圖像,獲取圖像所具有的本身特征特征選擇:從抽取的特征中,選擇對本次識別有用的特征分類器設計通過訓練而得到一種識別規(guī)則,通過此識別規(guī)則可以得到一種特征分類,使圖像識別技術能夠得到高識別率。分類決策在特征空間中對被識別對象進行分類,從而更好地識別所研究的對象具體屬于哪一類。視頻監(jiān)控、人臉檢測和識別等都是圖像識別最廣泛的應用。從場境上,公共安全、生物、工業(yè)、農業(yè)、交通、醫(yī)療等均有廣泛應用。存在的局限:圖像識別技術在應用上還只是起著導盲犬性質的指引作用,需要通過人工添加標簽或注釋,幫助機器來理解圖片。未來的技術將朝著能夠具有人一樣的視覺、能夠理解圖像內容的人工智能發(fā)展。一、圖像識別技術的原理及應用(三)圖像識別的應用視頻識別及視頻中的行為識別是圖像識別技術的重要應用。視頻就是由圖像連續(xù)播放形成的(1秒鐘的視頻包含25幀圖像,每1幀都是1張圖像),視頻識別中一個重要內容是視頻理解,主要包括:視頻結構化分析:即是對視頻進行幀、超幀、鏡頭、場景、故事等分割,從而在多個層次上進行處理和表達。目標檢測和跟蹤:如車輛跟蹤,多是應用在交通安防領域。人物識別:識別出視頻中出現(xiàn)的人物。動作識別:識別出視頻中人物的動作。視頻中的行為識別是計算機視覺研究中的重要領域,將人的活動進行拆分并進行識別。一、圖像識別技術的原理及應用(三)圖像識別的應用

什么是人臉識別?人臉識別是圖像識別的一個應用場景,通常也叫做人像識別、面部識別。人臉識別是基于人的臉部特征信息進行身份識別的一種生物識別技術,用攝像機或攝像頭采集含有人臉的圖像或視頻流,并自動在圖像中檢測和跟蹤人臉,進而對檢測到的人臉進行臉部的一系列相關技術。人臉識別技術的主要流程人臉圖像采集及檢測人臉圖像預處理人臉圖像特征提取匹配與識別。二、人臉識別技術及應用人臉識別技術的主要流程(1)人臉圖像采集及檢測人臉圖像采集:通過攝像鏡頭采集,比如靜態(tài)圖像、動態(tài)圖像、不同的位置、不同表情等方面都可以得到很好的采集。人臉檢測:主要用于人臉識別的預處理,即在圖像中準確標定出人臉的位置、大小和特征。其目的就是把其中有用的信息挑出來,并利用這些特征實現(xiàn)檢測。(2)人臉圖像預處理基于人臉檢測結果,對圖像進行處理并最終服務于特征提取的過程。包括人臉對準,人臉圖像的光線補償,灰度變換、直方圖均衡化、歸一化(取得尺寸一致,灰度取值范圍相同的標準化人臉圖像),中值濾波(圖片的平滑操作以消除噪聲)以及銳化等。二、人臉識別技術及應用人臉識別技術的主要流程(3)人臉圖像特征提取也稱人臉表征,是對人臉進行特征建模的過程。可使用的特征通常分為視覺特征、像素統(tǒng)計特征、人臉圖像變換系數(shù)特征、人臉圖像代數(shù)特征等。(4)匹配與識別提取的人臉特征值數(shù)據(jù)與數(shù)據(jù)庫中存貯的特征模板進行搜索匹配,通過設定一個閾值,將相似度與這一閾值進行比較,來對人臉的身份信息進行判斷。二、人臉識別技術及應用人臉識別技術的應用范圍企業(yè)、住宅安全和管理:如人臉識別門禁考勤系統(tǒng),人臉識別防盜門等電子護照及身份證公安、司法和刑偵自助服務信息安全:如計算機登錄、電子政務和電子商務等其他類似常見技術還有指紋識別、手掌幾何學識別、虹膜和視網(wǎng)膜識別等,也廣泛地應用于身份認證等場境,比如簽證應用、身份識別、打卡應用等。二、人臉識別技術及應用OCR,全稱OpticalCharacterRecognition,光學字符識別。利用該識別技術,OCR文字識別可以代替人工錄入,將圖片上的文字、符號識別出來并變?yōu)榭删庉嫷奈谋?。人工智能時代的OCR,又被稱為文字識別技術,它是基于深度學習技術,將紙張、圖片等載體上的文字內容,智能識別成為可編輯的文本。三、OCR文字識別技術及應用(一)什么是OCR識別?1.智能OCR的優(yōu)點為什么會出現(xiàn)智能OCR?——深度學習技術進入視覺識別領域,一種全新的基于深度學習的OCR流程被提出來。優(yōu)點:從單字識別進化到整行識別,文字識別準確率大幅提升;極大提升對識別圖像質量的寬容度,可以有效識別光照不均、圖像模糊、復雜背景等低質量圖像;無需掃描儀或高拍儀、手機、平板等移動設備拍攝的照片,都可以用于識別。甚至,手寫字體的識別不再是“噩夢”。三、OCR文字識別技術及應用(二)AI時代,OCR識別的蛻變

2.OCR技術的識別流程三、OCR文字識別技術及應用(二)AI時代,OCR識別的蛻變序號步驟步驟內容1圖像輸入采集所要識別的圖像,比如名片、身份證、護照、行駛證、駕駛證、公文、文檔等等2圖像預處理包含二值化、去噪、傾斜度矯正等3版面分析對將要識別的文檔分段、分行處理4字符切割定位出字符串的邊界,然后分別對字符串進行單個切割5字符特征提取提取字符特征,為識別提供依據(jù)6字符識別將當前字符提取的特征向量與特征模板庫進行模板粗分類和模板細匹配,識別出字符7版面回復將識別結果按照原來的版面排班,輸出Word或pdf格式的文檔8后處理校正根據(jù)特定的語言上下文的關系,對識別結果進行較正OCR識別:包含通用文字識別、卡證文字識別、票據(jù)文字識別、場景文字識別、以及其他文字(圖片數(shù)字、印章檢測、表格文字、圖片二維碼等)識別等幾大類型場景的識別。三、OCR文字識別技術及應用(三)OCR識別的應用

OCR識別的應用場境智能OCR技術的身影已逐漸覆蓋到智慧城市、智慧金融、智能交通、智慧醫(yī)療等越來越多的領域,如:網(wǎng)絡信息安全企業(yè)根據(jù)網(wǎng)絡爬蟲網(wǎng)絡圖片,對照片上的文字識別剖析,進而判斷其是不是帶有特殊顏色信息內容;圖書館藏書的電子化,提高了效率和準確度;物流行業(yè),通過手寫體文字識別技術,自動識別出運單的收寄件人電話號碼和地址等字段,大幅提升運單信息錄入效率和物流資源的調度匹配能力;身份證的管理和識別、發(fā)票識別、出生證明識別、不動產登記識別等等。三、OCR文字識別技術及應用(三)OCR識別的應用【練習與思考】選擇題:1.以下哪些方法屬于圖像識別的方法?(多選題)A.模板匹配法B.神經網(wǎng)絡法C.統(tǒng)計法D.知識圖譜2.以下哪個流程屬于圖像識別的正確流程?A.特征抽取選擇—分類決策—信息預處理B.信息預處理—分類決策—特征抽取選擇C.信息預處理—特征抽取選擇—分類決策D.分類決策—特征抽取選擇—信息預處理3.人臉識別包含以下哪些流程?(多選題)A.人臉圖像采集及檢測B.人臉圖像特征提取C.人臉圖像預處理D.人臉圖像匹配與識別【練習與思考】選擇題:4.以下哪些均屬于人物身份確認的常見技術?(多選題)A.指紋識別B.人臉識別C.手掌幾何學識別D.虹膜和視網(wǎng)膜識別5.人工智能OCR識別帶來哪些優(yōu)點?(多選題)A.識別效率提升B.識別的圖像質量寬容度低C.識別的準確率高D.手寫字體也很容易識別【練習與思考】選擇題:6.OCR識別可應用于以下哪些場境?(多選題)A.文字識別B.票據(jù)識別C.圖片二維碼識別D.圖片數(shù)字判斷題:1.神經網(wǎng)絡算法的提升對于人工智能技術的應用有著重要推動作用。2.視頻識別是圖像識別技術的重要應用之一。3.OCR識別不能用于印章檢測的識別?!揪毩暸c思考】討論題:1.談一談,列舉你身邊的圖像識別、人臉識別、文字識別應用案例,試想還有哪些改進或創(chuàng)新之處。2.想一想,視覺智能相關技術在哪些方面已超越人類,進而影響到了傳統(tǒng)的就業(yè)崗位,又在哪些方面現(xiàn)階段甚至很長一段時間內還不能代替人類的角色?【練習與思考】客觀題答案選擇題:1.ABC2.C3.ABCD4.ABCD5.ACD6.ABCD判斷題:1.對

2.對3.錯任務二聽覺智能——機器如何“聞聲識人”人工智能基礎與應用

項目三認知人工智能的應用技術目錄教學目標教學要求內容概覽相關知識3.2.1什么是語音識別技術? 3.2.2語音識別技術的應用 3.2.3聲紋識別:讓語音識別更加隱秘練習與思考 人工智能基礎與應用

項目三認知人工智能的應用技術任務二聽覺智能——機器如何“聞聲識人”1.理解并掌握語音識別技術的含義及應用領域2.了解聲紋識別與語音識別的區(qū)別與聯(lián)系3.進行語音識別的項目實訓【教學目標】1.知識點語音識別語音特征提取人機對話系統(tǒng)的角色演進聲紋識別2.技能點掌握語音識別為文本、文本識別為語音的雙向實訓操作3.重難點本任務的重點是理解語音識別、聲紋識別技術的含義、應用領域及相互間的區(qū)別和聯(lián)系,語音如何轉變成文本的技術和流程。難點是通過本任務的學習,深度思考語音識別、語義理解、自然語言生成這樣一個人機對話系統(tǒng)的演進過程?!窘虒W要求】【內容概覽】任務二聽覺智能——機器如何“聞聲識人”3.2.3聲紋識別打造“專屬語音管家”,是未來智能語音識別領域的重點方向不僅會捕捉語音內容,還會根據(jù)音波特點、生理特征等參數(shù),自動識別說話人的身份3.2.2語音識別技術的應用語音輸入3.2.1什么是語音識別技術?目標就是讓機器通過識別和理解把語音信號轉變?yōu)橄鄳奈谋净蛎钫Z音控制語音識別技術:特征提取技術、模式匹配準則及模型訓練技術語音識別任務:孤立詞識別、連續(xù)語音識別、關鍵詞識別語音對話將語音識別成文字,提升用戶的效率,如微信語音轉換文字等通過語音控制設備,進行相關操作,如智能音箱、智能汽車系統(tǒng)等根據(jù)用戶的語音實現(xiàn)交流與對話,對語義理解要求較高。如訂票系統(tǒng)、銀行服務等語音識別流程:輸入——編碼——解碼——輸出【相關知識】

語音識別技術語音識別技術就是讓機器通過識別和理解過程把語音信號轉變?yōu)橄鄳奈谋净蛎畹募夹g。根據(jù)識別的對象不同,語音識別任務大體可分為3類,即孤立詞識別、連續(xù)語音識別和關鍵詞識別。一、什么是語音識別技術?

語音識別流程語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術三方面。其識別流程為:信號處理:聲音信號是連續(xù)的模擬信號,為了保證音頻不失真影響識別,要進行降噪和過濾處理,保證讓計算機識別的是過濾后的語音信息;信號表征:對語音的內容信息根據(jù)聲學特征進行提取,并盡量對數(shù)據(jù)進行壓縮,特征提取完成之后,就進入了特征識別、字符生成環(huán)節(jié);模式識別:從每一幀中找出當前說的音素,由多個音素組成單詞,再由單詞組成文本句子。通過聲學模型識別音素、語言模型和詞匯模型識別單詞和句子。這樣,只要模型中涵蓋足夠的語料,即語音的大數(shù)據(jù)集,就能解決各種語音識別問題。整個流程下來,語音就能識別成文本了。一、什么是語音識別技術?

語音識別技術應用領域概括起來,智能語音識別主要應用于三個領域,這也是語音識別商業(yè)化發(fā)展的主要方向:1.語音輸入系統(tǒng)將語音識別成文字,提升用戶的效率,如微信語音轉換文字、訊飛輸入法等。2.語音控制系統(tǒng)通過語音控制設備,進行相關操作,徹底解放雙手,例如智能音箱、智能汽車系統(tǒng)等。3.語音對話系統(tǒng)語音對話系統(tǒng)更為復雜,它將會根據(jù)用戶的語音實現(xiàn)交流與對話,保證回答的內容準確,對語義理解要求較高。在家庭機器服務員、賓館服務、訂票系統(tǒng)、銀行服務等方面,都將會起到非常重要的作用。二、語音識別技術的應用

語音識別技術應用場景在日常的工作生活中,語音識別已廣泛應用。如醫(yī)療智能語音錄入系統(tǒng)、智能車載、智能穿戴、智能家居等。二、語音識別技術的應用

什么是聲紋識別如果說語音識別的目的是提升效率,那么聲紋識別的目的則是進行身份確認與審查。相比較語音識別,聲紋識別最大的特點在于:智能系統(tǒng)不僅會捕捉語音內容,還會根據(jù)音波特點、說話人的生理特征等參數(shù),自動識別說話人的身份。因為每個人發(fā)出的聲紋圖譜會與其他人不同,聲紋識別正是通過比對說話人在相同音素上的發(fā)聲來判斷是否為同一個人,從而實現(xiàn)“聞聲識人”的功能。三、聲紋識別:讓語音識別更加隱秘

聲紋識別的流程三、聲紋識別:讓語音識別更加隱秘【練習與思考】選擇題:1.根據(jù)識別的對象不同,語音識別任務大體可分為幾類?(多選題)A.孤立詞識別B.關鍵詞識別C.圖像識別D.連續(xù)語音識別2.以下哪個流程為語音識別的正確流程?A.語音輸入—解碼—文字輸出—編碼(特征提取)B.編碼(特征提?。獯a—文字輸出—語音輸入C.文字輸出—語音輸入—編碼(特征提取)—解碼D.語音輸入—編碼(特征提?。淖州敵觥獯a【練習與思考】選擇題:3.智能語音識別主要應用于以下哪些領域?(多選題)A.醫(yī)療智能語音錄入系統(tǒng)B.智能車載C.智能穿戴D.智能家居判斷題:1.聲紋識別屬于智能語音識別系統(tǒng)之一。2.聲紋識別不僅會捕捉語音內容,還能識別說話人的身份。【練習與思考】討論題:1.結合你身邊的語音識別技術應用案例(如智能音箱、服務機器人),討論其工作原理和流程。2.想一想,目前的語音識別技術在哪些方面還有提升空間,未來有哪些應用前景?【練習與思考】客觀題答案選擇題:1.ABD2.D3.ABCD判斷題:1.對

2.對

任務三認知智能——機器如何懂語義、會思考人工智能基礎與應用

項目三認知人工智能的應用技術目錄人工智能基礎與應用

項目三認知人工智能的應用技術任務三認知智能——機器如何懂語義、會思考教學目標教學要求內容概覽相關知識3.3.1

認知自然語言處理及應用 3.3.2

走近知識圖譜3.3.3

數(shù)據(jù)智能推動人機協(xié)同3.3.4大語言模型從量變到質變

練習與思考 【教學目標】1.理解并掌握自然語言處理的含義及常見應用2.初步學習知識圖譜的內涵、體系及應用3.了解數(shù)據(jù)智能的定義、發(fā)展目標及數(shù)據(jù)中臺的意義4.了解大語言模型及其訓練方式【教學要求】1.知識點自然語言處理的含義、應用

知識圖譜的定義

知識圖譜的體系架構及應用數(shù)據(jù)智能的發(fā)展

數(shù)據(jù)中臺和業(yè)務中臺的價值大語言模型的內涵及發(fā)展大語言模型的訓練方式

多模態(tài)AI的創(chuàng)新應用2.重難點本任務的重點是理解自然語言處理、知識圖譜、數(shù)據(jù)智能、大語言模型、多模態(tài)AI的定義及在工作生活中的應用領域;難點是理解它們之間的促進關系、對人工智能技術水平發(fā)展的關鍵作用,進一步思考當機器懂語義、會思考后,人和機器的關系可能會是什么樣的?!緝热莞庞[】【相關知識】自然語言處理與知識圖譜

什么是自然語言處理?自然語言處理的目標是彌補人類交流(自然語言)與計算機理解(機器語言)之間的差距,最終實現(xiàn)計算機在理解自然語言上像人類一樣智能,使計算機擁有能夠理解、處理、并使用人類語言的能力。一、認知自然語言處理及應用

自然語言處理的常見應用“機器翻譯”讓世界變成真正意義上的地球村,因其效率高、成本低滿足了全球各國多語言信息快速翻譯的需求。“情感分析”可以從大量數(shù)據(jù)中識別和吸收相關信息,而且能夠判斷出一段文字所表達觀點和態(tài)度的正負面性?!爸悄軉柎稹蹦軌蛑咐糜嬎銠C自動回答用戶所提出的問題?!皞€性化推薦”可以依據(jù)大數(shù)據(jù)和歷史行為記錄,學習用戶興趣愛好,實現(xiàn)對用戶意圖的精準理解,實現(xiàn)精準匹配。“文本分類”通過分析郵件中的文本內容,能夠相對準確地判斷郵件是否為垃圾郵件。一、認知自然語言處理及應用

自然語言處理的常見應用電子商務背后的自然語言處理應用分析用戶詞句個性化推薦情感分析智能問答一、認知自然語言處理及應用

自然語言處理的發(fā)展趨勢未來自然語言處理將朝著兩個互補式的方向發(fā)展:“大規(guī)模語言數(shù)據(jù)的分析處理能力”和“人-機交互方式”。1.大規(guī)模語言數(shù)據(jù)的分析處理能力:指的是建立在自然語言處理上對語言信息進行獲取、分析、推理和整合的能力。一、認知自然語言處理及應用

自然語言處理的發(fā)展趨勢2.人-機交互方式:指的是將自然語言作為人與機器交互的自然接口和統(tǒng)一的交互方式。不同的機器,通常要使用不同的開發(fā)語言或方式,這嚴重影響了人們對機器的開發(fā)與使用。只有通過采用自然語言處理,才能讓機器具有理解人類語言的能力,從而實現(xiàn)建立在自然語言基礎上的人機交互??偨Y:自然語言處理作為一門新興學科,其最終目標是為了彌補人類交流(自然語言)與計算機理解(機器語言)之間的差距,最終實現(xiàn)計算機在理解自然語言上像人類一樣智能。一、認知自然語言處理及應用

什么是知識圖譜?知識圖譜(KnowledgeGraph)是一門典型的多學科融合,通過將應用數(shù)學、圖形學、信息科學等學科理論、方法與計量學、統(tǒng)計學等方法結合,并利用可視化的圖譜形象地展示出來。其核心目標是把復雜的知識領域通過數(shù)據(jù)挖掘、信息處理、知識計量和圖形繪制顯示出來,揭示知識的動態(tài)發(fā)展規(guī)律。知識圖譜,本質上,是一種揭示實體之間關系的語義網(wǎng)絡。二、走近知識圖譜

什么是知識圖譜?在信息的基礎上,建立實體之間的聯(lián)系,就能行成“知識”。知識圖譜是由一條條知識組成,每條知識表示為一個SPO三元組(Subject-Predicate-Object主謂賓,用來表示事物的一種方法和形式),而這個三元組集合可以抽象為一張圖。大量與之相關的實體信息會不斷關聯(lián)并結構化地呈現(xiàn)出來,實現(xiàn)了數(shù)據(jù)圖譜化。二、走近知識圖譜

知識圖譜的體系架構知識圖譜的體系架構是指其構建自身模式的結構二、走近知識圖譜

知識圖譜的體系架構共分為三個步驟:知識抽?。簭囊恍┕_的半結構化、非結構化的數(shù)據(jù)中,抽取出可用的知識單元。知識單元主要包括實體抽取、關系抽取以及屬性抽取3個知識要素。知識表示:把知識客體中的知識因子與知識關聯(lián)起來,便于人們識別和理解知識,分為主觀知識表示和客觀知識表示兩種。知識融合:是高層次的知識組織,使來自不同知識源的知識在同一框架規(guī)范下進行組織,實現(xiàn)數(shù)據(jù)、信息、經驗以及人的思想的融合,形成高質量的知識庫。二、走近知識圖譜

知識圖譜的應用包括:智能搜索、社交網(wǎng)絡,網(wǎng)上購物、新聞查詢等,知識圖譜已經在我們的生活中、垂直行業(yè)應用中發(fā)揮著日益重要的作用。二、走近知識圖譜

大數(shù)據(jù)的新篇章——數(shù)據(jù)智能數(shù)據(jù)智能的目標是讓數(shù)據(jù)驅動決策,讓機器具備推理等認知能力。只有業(yè)務數(shù)據(jù)化進程的完成,才能真正進入到業(yè)務智能化,依靠數(shù)據(jù)去改變業(yè)務、指導決策。三、數(shù)據(jù)智能推動人機協(xié)同大數(shù)據(jù)行業(yè)發(fā)展階段

大數(shù)據(jù)的新篇章——數(shù)據(jù)智能讓機器具備推理能力,意味著自然語言處理、知識圖譜等認知技術需要不斷成熟。而數(shù)據(jù)驅動決策、數(shù)據(jù)驅動業(yè)務發(fā)展的新需求,標志著智能數(shù)據(jù)時代的興起。三、數(shù)據(jù)智能推動人機協(xié)同不同階段大數(shù)據(jù)與業(yè)務的關系

數(shù)據(jù)智能的定義及數(shù)據(jù)中臺的價值數(shù)據(jù)智能核心分為兩個細分領域:中臺和應用場景。其中,中臺包含技術中臺、數(shù)據(jù)中臺和業(yè)務中臺,應用場景則按照不同行業(yè)進行劃分。數(shù)字化已不可抵擋,在企業(yè)數(shù)字化轉型進程中,傳統(tǒng)企業(yè)需要具備互聯(lián)網(wǎng)公司那樣快速迭代升級的能力,因此,數(shù)據(jù)驅動業(yè)務發(fā)展的中臺建設至關重要。數(shù)據(jù)中臺的價值是將數(shù)據(jù)資產化,實現(xiàn)不同體系數(shù)據(jù)的打通,為下一步數(shù)據(jù)應用打好基礎。數(shù)據(jù)中臺涵蓋了從數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)分析等環(huán)節(jié)的所有工具及平臺,包括基礎平臺、用戶行為分析、數(shù)據(jù)報表可視化、數(shù)據(jù)科學平臺、自然語言處理和知識圖譜等諸多技術體系。三、數(shù)據(jù)智能推動人機協(xié)同

數(shù)據(jù)智能的定義及數(shù)據(jù)中臺的價值基于數(shù)據(jù)中臺有三種應用方式:數(shù)據(jù)集:主要是數(shù)據(jù)標簽、用戶畫像等;數(shù)據(jù)模型:融合數(shù)據(jù)和算法,比如銷量預測、風控建模等;數(shù)據(jù)應用:將數(shù)據(jù)能力和軟件能力封裝,形成最終數(shù)據(jù)產品。而業(yè)務中臺則是指基于數(shù)據(jù)和技術,結合行業(yè)應用場景,從行業(yè)應用切入,在大量服務垂直行業(yè)客戶,掌握大量場景需求后,逐步形成業(yè)務中臺能力。總結:未來身處競爭激烈的智能數(shù)據(jù)時代,誰能更高效利用數(shù)據(jù),誰才能贏得最后的果實與勝利,傳統(tǒng)產業(yè)數(shù)字化已在風口,已在路上。而認知智能的突破,一定不是由單個技術所完成,而是需要結合多種不同的技術持續(xù)完善和發(fā)展。三、數(shù)據(jù)智能推動人機協(xié)同數(shù)據(jù)標簽與用戶畫像什么是大語言模型?大語言模型(LargeLanguageModel,LLM)是一種人工智能模型,通常基于深度學習架構,旨在理解和生成人類語言。大語言模型在大量文本數(shù)據(jù)上進行訓練,可執(zhí)行廣泛的任務,包括文本總結、翻譯、情感分析等。其特點是規(guī)模龐大,包含數(shù)十億的參數(shù),能幫助機器學習文本數(shù)據(jù)中的復雜模式,有助于在各種自然語言處理任務上取得優(yōu)異的表現(xiàn)。ChatGPT的爆紅出圈吸引了更多人對于大語言模型的發(fā)展趨勢和現(xiàn)實應用的關注。四、大語言模型從量變到質變什么是大語言模型?常見的大語言模型有GPT-3(OpenAI):GPT-3(Generative

Pretrained

Transformer

3)是最著名的大語言模型之一,擁有1750億個參數(shù)。該模型在文本生成、翻譯和其他任務中表現(xiàn)出顯著的性能,在全球范圍內引起了熱烈的反響,目前OpenAI已迭代到GPT-4版本。BERT(谷歌):BERT(Bidirectional

Encoder

Representations

from

Transformers)是另一個流行的大語言模型,對自然語言處理研究產生了重大影響。該模型使用雙向方法從一個詞的左右兩邊捕捉上下文,提升了各種任務的性能,如情感分析和命名實體識別。ERNIE3.0文心大模型(百度):百度推出的大語言模型ERNIE3.0首次在百億級和千億級預訓練模型中引入大規(guī)模知識圖譜,提出了海量無監(jiān)督文本與大規(guī)模知識圖譜的平行預訓練方法。四、大語言模型從量變到質變什么是大語言模型?大語言模型的快速發(fā)展從人工智能的發(fā)展歷程來看,模型和算法是其不斷成長的核心驅動力。10年前語言模型是自然語言處理的某個細分方向,并不為大眾所熟知,而ChatGPT的廣泛應用則讓更多人體會到大語言模型的快速發(fā)展。四、大語言模型從量變到質變ChatGPT發(fā)展歷程什么是大語言模型?大語言模型的快速發(fā)展2018年第一代GPT并沒有引起廣泛關注。但到了2020年5月,GPT-3一經推出,情況就發(fā)生了非常大的變化,GPT-3的參數(shù)值從GPT-2的170億躍升到1750億,參數(shù)數(shù)量級是GPT-2的10倍以上,性能也有大幅提升,從而引起全球廣泛關注。大語言模型經過大量的學習,實現(xiàn)了從量變到質變的飛躍,即當數(shù)據(jù)量超過某個臨界點時,模型實現(xiàn)顯著的性能提升,并出現(xiàn)了小模型中不存在的能力,如上下文學習能力等。因此,當我們應用GPT-3及GPT-4對話時,越來越被其強大的互動能力和解決問題的能力所震驚,越來越感覺不到在和一個機器對話。這就是大語言模型快速發(fā)展所帶來的質變。四、大語言模型從量變到質變走近ChatGPTChatGPT是一個由OpenAI開發(fā)的大語言模型,它使用的是自然語言處理和深度學習技術,可以理解語言內容和語境,能夠基于在預訓練階段所見的模式和統(tǒng)計規(guī)律來生成回答,還能根據(jù)聊天的上下文進行互動,真正像人類一樣聊天交流,另外還能完成撰寫郵件、視頻腳本、文案、翻譯、代碼、論文等任務。GPT的全稱是Generative

Pre-trained

Transformer,從名稱可以看出,它是一種生成模型,擅長生成輸出;它是預訓練的,這意味著它已經從大量文本數(shù)據(jù)中學習到了知識,是Transformer的一種類型。因此,在了解GPT的原理之前,首先要認識Transformer。四、大語言模型從量變到質變走近ChatGPTTransformer架構Transformer架構是GPT的基礎。它是一種神經網(wǎng)絡,類似于人腦中的神經元。Transformer能夠通過注意力機制和自注意力機制更好地理解文本、語音或音樂等順序數(shù)據(jù)的上下文。注意力機制允許模型通過學習元素之間的相關性或相似性(通常由數(shù)字向量表示)來關注輸入和輸出中最相關的部分。如果它關注的是同一序列,則稱為自注意力。四、大語言模型從量變到質變組件功能嵌入(Embedding)位置編碼(PositionalEncoding)將單詞和它們的位置轉換為數(shù)字向量編碼器(Encoder)從輸入序列提取特征并分析其含義和上下文。它為每個輸入標記輸出一個隱藏狀態(tài)的矩陣,以傳遞給解碼器解碼器(Decoder)根據(jù)編碼器和先前的輸入標記生成輸出序列線性層和Softmax層將數(shù)字向量轉換為輸出單詞的概率分布表3-4Transformer組成走近ChatGPT從Transformer到GPT、GPT-2、GPT-3、GPT-4作為一種生成模型,GPT使用了Transformer架構中的解碼器部分,而解碼器負責預測序列中的下一個詞。GPT通過使用先前生成的結果作為輸入,反復執(zhí)行此過程以生成較長的文本,即自回歸。在訓練第一個版本的GPT時,研究人員使用了數(shù)據(jù)庫的無監(jiān)督預訓練,數(shù)據(jù)庫中包含超過7000本未經出版的書籍。在預訓練的基礎上,針對特定任務使用有監(jiān)督的微調,會向人工智能展示請求和正確答案的示例,并要求人工智能從這些示例中學習。在GPT-2中,研究人員擴大了模型(15億個參數(shù))和給模型提供的語料庫的規(guī)模,在無監(jiān)督預訓練中使用WebText,這是數(shù)百萬個網(wǎng)頁的集合。在GPT-3中,模型進一步擴展,規(guī)模達到1750億個參數(shù),并使用了來自網(wǎng)絡、書籍和維基百科的數(shù)百億個單詞構成的龐大語料庫。四、大語言模型從量變到質變大語言模型的訓練方式訓練大語言模型需要向其提供大量的文本數(shù)據(jù),模型利用這些數(shù)據(jù)來學習人類語言的結構、語法和語義。該過程通常使用自我監(jiān)督學習的技術實現(xiàn)無監(jiān)督學習。訓練過程包括兩個主要步驟:預訓練(Pre-training)和微調(Fine-tuning):在預訓練階段,模型從一個巨大的、多樣化的數(shù)據(jù)集中學習,通常包含來自不同來源的數(shù)十億詞匯,如網(wǎng)站、書籍、文章等。這個階段允許模型學習一般的語言模式和表征。在微調階段,模型在與目標任務或領域相關的更具體、更小的數(shù)據(jù)集上進一步訓練。這有助于模型微調其理解,并適應任務的特殊要求。四、大語言模型從量變到質變大語言模型的訓練方式通過訓練,大語言模型涌現(xiàn)的能力如下:上下文學習。以GPT-3為例,其正式引入了上下文學習能力。假設語言模型已提供自然語言指令和多個任務描述,它可以通過完成輸入文本的詞序列來生成測試實例的預期輸出,而無需額外的訓練或梯度更新。指令遵循。通過對自然語言描述(即指令)格式化的多任務數(shù)據(jù)集的混合進行微調,大語言模型在微小的任務上表現(xiàn)良好,這些任務也以指令的形式

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論