大語言模型基礎(chǔ)微課版課件全套 周蘇 第1-12章 大模型基礎(chǔ) -大模型產(chǎn)品評估_第1頁
大語言模型基礎(chǔ)微課版課件全套 周蘇 第1-12章 大模型基礎(chǔ) -大模型產(chǎn)品評估_第2頁
大語言模型基礎(chǔ)微課版課件全套 周蘇 第1-12章 大模型基礎(chǔ) -大模型產(chǎn)品評估_第3頁
大語言模型基礎(chǔ)微課版課件全套 周蘇 第1-12章 大模型基礎(chǔ) -大模型產(chǎn)品評估_第4頁
大語言模型基礎(chǔ)微課版課件全套 周蘇 第1-12章 大模型基礎(chǔ) -大模型產(chǎn)品評估_第5頁
已閱讀5頁,還剩995頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

浙江省普通本科高?!笆奈濉敝攸c教材建設(shè)成果之一大語言模型基礎(chǔ)什么是ChatGPTOpenAI是一家人工智能研究實驗室,進行AI研究的目的是促進和開發(fā)友好的AI。OpenAI系統(tǒng)運行在世界上第五強大的超級計算機上。馬斯克、微軟都是該組織的捐助者。2020年OpenAI發(fā)布GPT-3,這是一種在大型互聯(lián)網(wǎng)數(shù)據(jù)集上訓練的語言模型,旨在用自然語言回答問題,但它也可以在語言之間進行翻譯并連貫地生成即興文本。什么是ChatGPT2021年OpenAI推出DALL-E,這是一種深度學習模型,可以從自然語言描述中生成數(shù)字圖像。2022年12月,OpenAI推出基于GPT-3.5的新型AI聊天機器人ChatGPT,受到媒體的廣泛報道。在發(fā)布僅兩個月后就擁有1億用戶(成為史上用戶增長最快的應(yīng)用)。2023年3月14日,OpenAI發(fā)布了GPT-4聊天機器人語言模型。相比GPT3.5,GPT4.0訪問更加穩(wěn)定,數(shù)據(jù)更加準確,并且更加符合我們?nèi)祟惖乃季S方式。簡而言之,更智能!什么是MidjourneyMidjourney(簡稱MJ)是AI繪圖里實用性最強的軟件,其開發(fā)團隊是美國舊金山的小型自籌資金團隊,專注于設(shè)計、人類基礎(chǔ)設(shè)施和人工智能。MJ是一個致力于探索新的思維方式并擴展人類的想象力的人工智能繪圖平臺。它于2022年7月12日首次公測,并于2022年3月14日正式以架設(shè)在Discord上的服務(wù)器形式推出,用戶注冊Discord并加入MJ服務(wù)器即可開始AI創(chuàng)作。ChatGPT+Midjourney一雙丹鳳三角眼,兩彎柳葉吊梢眉,身量苗條,體格風騷,粉面含春威不露,丹唇未啟笑先聞。ApairofDanfengtriangleeyes,Twocurvedwillowleaveshangingeyebrows,Slimandcoquettish,Powdernoodlescontainspringpower,Dandidn'tsmileandsmellfirst.谷歌翻譯:王熙鳳ChatGPT+Midjourney一雙丹鳳三角眼,兩彎柳葉吊梢眉,身量苗條,體格風騷,粉面含春威不露,丹唇未啟笑先聞。ApairofDanfengtriangleeyes,Twocurvedwillowleaveshangingeyebrows,Slimandcoquettish,Powdernoodlescontainspringpower,Dandidn'tsmileandsmellfirst.谷歌翻譯:王熙鳳大語言模型基礎(chǔ)周蘇教授QQ:81505050第1章大模型基礎(chǔ)幾千年來,人們一直在試圖理解人類是如何思考和行動的,也就是不斷地了解人類的大腦是如何憑借它那小部分的物質(zhì)去感知、理解、預(yù)測并操縱一個遠比其自身更大更復(fù)雜的世界。隨著科技的飛速發(fā)展,“數(shù)據(jù)成為新生產(chǎn)要素,算力成為新基礎(chǔ)能源,人工智能(AI)成為新生產(chǎn)工具?!倍斯ぶ悄艽笳Z言模型(LLM,大模型)作為AI領(lǐng)域中的重要組成部分,正在引領(lǐng)著科技發(fā)展的新方向。第1章大模型基礎(chǔ)2023年被稱為生成式人工智能(GenAI)元年,以ChatGPT為代表的生成式AI技術(shù)的涌現(xiàn)獲得了前所未有的關(guān)注。大型科技公司、各類創(chuàng)業(yè)公司迅速入場,投入海量資源,推動了大模型能力和應(yīng)用的快速演進。第1章大模型基礎(chǔ)01人工智能基礎(chǔ)02大模型定義03大模型技術(shù)的形成04通用人工智能目錄/CONTENTSPART01人工智能基礎(chǔ)人工智能(AI)是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學,是一門自然科學、社會科學和技術(shù)科學交叉的邊緣學科,它涉及的學科內(nèi)容包括哲學和認知科學、數(shù)學、神經(jīng)生理學、心理學、計算機科學、信息論、控制論、不定性論、仿生學、社會結(jié)構(gòu)學與科學發(fā)展觀等。1.1人工智能基礎(chǔ)作為計算機科學的一個分支,人工智能專注于創(chuàng)建“智能系統(tǒng)”,這些系統(tǒng)具有推理、學習、適應(yīng)和自主行動的能力。人工智能是一個多元化的領(lǐng)域,圍繞著設(shè)計、研究、開發(fā)和應(yīng)用能夠展現(xiàn)出類似人類認知功能的機器而展開。具有人工智能的機器努力模仿人類的思維和行為,包括但不限于理解自然語言、識別模式、解決問題和做出決策。1.1人工智能基礎(chǔ)可以把人工智能定義為一種工具,用來幫助或者替代人類思維。它是一項計算機程序,可以獨立存在于數(shù)據(jù)中心、個人計算機,也可以通過諸如機器人之類的設(shè)備體現(xiàn)出來。它具備智能的外在特征,有能力在特定環(huán)境中有目的地獲取和應(yīng)用知識與技能。人工智能是對人的意識、思維的信息過程的模擬。人工智能不是人的智能,但能像人那樣思考,甚至也可能超過人的智能。1.1.1人工智能的實現(xiàn)途徑對于人的思維模擬的研究可以從兩個方向進行,一是結(jié)構(gòu)模擬,仿照人腦的結(jié)構(gòu)機制,制造出“類人腦”的機器;二是功能模擬,從人腦的功能過程進行模擬?,F(xiàn)代電子計算機的產(chǎn)生便是對人腦思維功能的模擬,是對人腦思維的信息過程的模擬。實現(xiàn)人工智能有三種途徑,即強人工智能、弱人工智能和實用型人工智能。1.1.1人工智能的實現(xiàn)途徑強人工智能,又稱多元智能。研究人員希望人工智能最終能成為多元智能并且超越大部分人類的能力。有些人認為要達成以上目標,可能需要擬人化的特性,如人工意識或人工大腦,這被認為是人工智能的完整性:為了解決其中一個問題,你必須解決全部的問題。即使一個簡單和特定的任務(wù),如機器翻譯,要求機器按照作者的論點(推理),知道什么是被人談?wù)摚ㄖR),忠實地再現(xiàn)作者的意圖(情感計算)。因此,機器翻譯被認為是具有人工智能完整性。1.1.1人工智能的實現(xiàn)途徑強人工智能的觀點認為有可能制造出真正能推理和解決問題的智能機器,并且這樣的機器將被認為是有知覺的,有自我意識的。強人工智能可以有兩類:(1)類人的人工智能,即機器的思考和推理就像人的思維一樣;(2)非類人的人工智能,即機器產(chǎn)生了和人完全不一樣的知覺和意識,使用和人完全不一樣的推理方式。強人工智能即便可以實現(xiàn)也很難被證實。為了創(chuàng)建具備強人工智能的計算機程序,我們首先必須清楚了解人類思維的工作原理,而想要實現(xiàn)這樣的目標,還有很長的路要走。1.1.1人工智能的實現(xiàn)途徑弱人工智能,認為不可能制造出能真正地推理和解決問題的智能機器,這些機器只不過看起來像是智能的,但是并不真正擁有智能,也不會有自主意識。它只要求機器能夠擁有智能行為,具體的實施細節(jié)并不重要。深藍就是在這樣的理念下產(chǎn)生的,它沒有試圖模仿國際象棋大師的思維,僅僅遵循既定的操作步驟。計算機每秒驗算的可能走位就高達2億個,就算思維驚人的象棋大師也不太可能達到這樣的速度。1.1.1人工智能的實現(xiàn)途徑人類擁有高度發(fā)達的戰(zhàn)略意識,這種意識將需要考慮的走位限制在幾步或是幾十步以內(nèi),而計算機的考慮數(shù)以百萬計。就弱人工智能而言,這種差異無關(guān)緊要,能證明計算機比人類更會下象棋就足夠了。如今,主流的研究活動都集中在弱人工智能上,并且一般認為這一研究領(lǐng)域已經(jīng)取得可觀的成就。1.1.1人工智能的實現(xiàn)途徑第三種途徑稱為實用型人工智能。研究者們將目標放低,不再試圖創(chuàng)造出像人類一般智慧的機器。眼下我們已經(jīng)知道如何創(chuàng)造出能模擬昆蟲行為的機器人。機械家蠅看起來似乎并沒有什么用,但即使是這樣的機器人,在完成某些特定任務(wù)時也是大有裨益的。比如,一群如狗大小,具備螞蟻智商的機器人在清理碎石和在災(zāi)區(qū)找尋幸存者時就能夠發(fā)揮很大的作用。圖1-1靠激光束驅(qū)動的RoboFly昆蟲機器人1.1.1人工智能的實現(xiàn)途徑隨著模型變得越來越精細,機器能夠模仿的生物越來越高等,最終,我們可能必須接受這樣的事實:機器似乎變得像人類一樣有智慧了。也許實用型人工智能與強人工智能殊途同歸,但考慮到一切的復(fù)雜性,我們不會相信機器人會有自我意識。1.1.1人工智能的實現(xiàn)途徑機器學習是人工智能的一個關(guān)鍵子集,是一種能夠根據(jù)輸入數(shù)據(jù)訓練模型的系統(tǒng)。它的主要目標是讓計算機系統(tǒng)能夠通過對模型進行訓練,使其能夠從新的或以前未見過的數(shù)據(jù)中得出有用的預(yù)測。換句話說,機器學習的核心是“使用算法解析數(shù)據(jù),從中學習,然后對世界上的某件事情做出決定或預(yù)測”。這意味著,與其顯式地編寫程序來執(zhí)行某些任務(wù),不如教計算機學會如何開發(fā)一個算法來完成任務(wù)。1.1.2機器學習和深度學習在機器學習中,我們不是直接編程告訴計算機如何完成任務(wù),而是提供大量的數(shù)據(jù),讓機器通過數(shù)據(jù)找出隱藏的模式或規(guī)律,然后用這些規(guī)律來預(yù)測新的、未知的數(shù)據(jù)。機器學習可以根據(jù)所處理的數(shù)據(jù)自主地學習和適應(yīng),大大減少了對顯式編程的需求。通常將人工智能看作是自主機器智能的廣泛目標,而機器學習則是實現(xiàn)這一目標的具體方法。1.1.2機器學習和深度學習比如,如果我們通過代碼告訴計算機,圖片里紅色是玫瑰,有說明的是向日葵,那么程序?qū)ǚN類的判斷就是通過人類直接編寫邏輯達成的,不屬于機器學習,機器什么也沒學。但是如果我們給計算機大量玫瑰和向日葵的圖片,讓計算機自行識別模式、總結(jié)規(guī)律,從而能對后來新輸入的圖片進行預(yù)測和判斷,這就是機器學習。1.1.2機器學習和深度學習深度學習是機器學習的一個子集,其核心在于使用人工神經(jīng)網(wǎng)絡(luò)模仿人腦處理信息的方式,通過層次化的方法提取和表示數(shù)據(jù)的特征。圖1-2深度學習示意1.1.2機器學習和深度學習雖然單層神經(jīng)網(wǎng)絡(luò)就可以做出近似預(yù)測,但是添加更多的隱藏層可以優(yōu)化預(yù)測的精度和準確性。神經(jīng)網(wǎng)絡(luò)由許多基本計算和儲存單元組成,這些單元被稱為神經(jīng)元。神經(jīng)元通過層層連接來處理數(shù)據(jù),并且深度學習模型通常有很多層,能夠?qū)W習和表示大量復(fù)雜的模式,這使它們在諸如圖像識別、語音識別和自然語言處理等任務(wù)中非常有效。1.1.2機器學習和深度學習機器學習有三種主要類型,即監(jiān)督學習、無監(jiān)督學習和強化學習。其中,監(jiān)督學習就像一個有答案的教科書,模型可以從標記的數(shù)據(jù)中學習,也就是說,它有答案可以參考學習;而無監(jiān)督學習則更像一個無答案的謎題,模型需要自己在數(shù)據(jù)中找出結(jié)構(gòu)和關(guān)系。此外,介于兩者之間的方法稱為強化學習,其模型通過經(jīng)驗學習執(zhí)行動作。1.1.3監(jiān)督與無監(jiān)督學習(1)監(jiān)督學習,也稱有導師學習,是指輸入數(shù)據(jù)中有導師信號,以概率函數(shù)、代數(shù)函數(shù)或人工神經(jīng)網(wǎng)絡(luò)為基函數(shù)模型,采用迭代計算方法,學習結(jié)果為函數(shù)。在監(jiān)督學習里,機器學習算法接收有標簽的訓練數(shù)據(jù)(標記數(shù)據(jù)),標簽就是期望的輸出值。所以每一個訓練數(shù)據(jù)點都既包括輸入特征,也包括期望的輸出值。1.1.3監(jiān)督與無監(jiān)督學習計算機使用特定的模式來識別每種標記類型的新樣本,即在機器學習過程中提供對錯指示,一般是在數(shù)據(jù)組中包含最終結(jié)果(0,1)。通過算法讓機器自我減少誤差。監(jiān)督學習從給定的訓練數(shù)據(jù)集中學習出一個函數(shù),當接收到一個新的數(shù)據(jù)時,可以根據(jù)這個函數(shù)預(yù)測結(jié)果。算法的目標是學習輸入和輸出之間的映射關(guān)系,從而在給定新的輸入特征后,能夠準確預(yù)測出相應(yīng)的輸出值。1.1.3監(jiān)督與無監(jiān)督學習監(jiān)督學習的主要類型是分類和回歸。在分類中,機器被訓練成將一個組劃分為特定的類,一個簡單例子就是電子郵件中的垃圾郵件過濾器。過濾器分析你以前標記為垃圾郵件的電子郵件,并將它們與新郵件進行比較,如果它們有一定的百分比匹配,這些新郵件將被標記為垃圾郵件并發(fā)送到適當?shù)奈募A中。1.1.3監(jiān)督與無監(jiān)督學習在回歸中,機器使用先前的(標記的)數(shù)據(jù)來預(yù)測未來,天氣應(yīng)用是回歸的好例子。使用氣象事件的歷史數(shù)據(jù)(即平均氣溫、濕度和降水量),手機天氣預(yù)報APP可以查看當前天氣,并對未來時間的天氣進行預(yù)測。例如,拿一堆貓、狗的照片和照片對應(yīng)的“貓”“狗”標簽進行訓練,然后讓模型根據(jù)沒見過的照片預(yù)測是貓還是狗,這就屬于分類。拿一些房子特征的數(shù)據(jù),比如面積、臥室數(shù)量、是否帶陽臺等和相應(yīng)的房價作為標簽進行訓練,然后讓模型根據(jù)沒見過的房子的特征預(yù)測房價——這就屬于回歸。1.1.3監(jiān)督與無監(jiān)督學習(2)無監(jiān)督學習,又稱無導師學習、歸納性學習。在無監(jiān)督學習中,學習的數(shù)據(jù)是沒有標簽的,是指輸入數(shù)據(jù)中無導師信號,采用聚類方法,學習結(jié)果為類別,所以算法的任務(wù)是自主發(fā)現(xiàn)數(shù)據(jù)里的模式或規(guī)律。典型的無導師學習有發(fā)現(xiàn)學習、聚類、競爭學習等。無監(jiān)督學習通過循環(huán)和遞減運算來減小誤差,達到分類的目的。在無監(jiān)督學習中,數(shù)據(jù)是無標簽的。由于大多數(shù)真實世界的數(shù)據(jù)都沒有標簽,這樣的算法就特別有用。比如,拿一堆新聞文章,讓模型根據(jù)主題或內(nèi)容的特征自動組織相似文章。1.1.3監(jiān)督與無監(jiān)督學習無監(jiān)督學習分為聚類和降維。聚類用于根據(jù)屬性和行為對象進行分組。這與分類不同,因為這些組不是你提供的。聚類的一個例子是將一個組劃分成不同的子組(例如,基于年齡和婚姻狀況),然后應(yīng)用到有針對性的營銷方案中。降維通過找到共同點來減少數(shù)據(jù)集的變量。大多數(shù)大數(shù)據(jù)可視化使用降維來識別趨勢和規(guī)則。1.1.3監(jiān)督與無監(jiān)督學習(3)強化學習。是讓模型在環(huán)境里采取行動,獲得結(jié)果反饋。從反饋里學習,從而能在給一定情況下采取最佳行動來最大化獎勵或是最小化損失。例如剛開始的時候,小狗會隨心所欲做出很多動作,但隨著和馴犬師的互動,小狗會發(fā)現(xiàn)某些動作能夠獲得零食,某些動作沒有零食,某些動作甚至會遭受懲罰。通過觀察動作和獎懲之間的聯(lián)系,小狗的行為會逐漸接近訓犬師的期望。在很多任務(wù)上,比如說讓模型下圍棋,獲得不同行動導致的獎勵或損失反饋,從而在一局局游戲里優(yōu)化策略,學習如何采取行動達到高分。1.1.3監(jiān)督與無監(jiān)督學習PART02大模型定義AI大語言模型(LLM)是指那些具有大規(guī)模參數(shù)和復(fù)雜結(jié)構(gòu)的深度學習模型。這些模型通常基于神經(jīng)網(wǎng)絡(luò),通過大量的數(shù)據(jù)訓練,能夠?qū)崿F(xiàn)復(fù)雜的任務(wù)。尤其在自然語言處理領(lǐng)域,這些模型的主要目標是理解和生成人類語言。為此,模型需要在大量文本數(shù)據(jù)上進行訓練,以學習語言的各種模式和結(jié)構(gòu)。例如,OpenAI推出的ChatGPT就是一個大模型的例子,它被訓練來理解和生成人類語言,以便進行有效的對話和解答各種問題。1.2大模型定義大模型可以進行預(yù)訓練,然后針對特定目標進行微調(diào)。以訓練狗為例,可以訓練它坐、跑、蹲和保持不動。但如果訓練的是警犬、導盲犬和獵犬,則需要特殊的訓練方法。大模型的訓練也采用與之類似的思路。大模型被訓練來解決通用(常見)的語言問題,如文本分類、問答、文檔總結(jié)和文本生成等。(1)文本分類:大模型可以通過對輸入文本進行分析和學習,將其歸類到一個或多個預(yù)定義的類別中。例如,可以使用大模型來分類電子郵件是否為垃圾郵件,或?qū)⒉┛臀恼職w類為積極、消極或中立。1.2.1模型預(yù)訓練和微調(diào)(2)問答:大模型可以回答用戶提出的自然語言問題。例如,可以使用大模型來回答搜索引擎中的用戶查詢,或者回答智能助手中的用戶問題。(3)文檔總結(jié):大模型可以自動提取文本中的主要信息,以生成文檔摘要或摘錄。例如,可以使用大模型來生成新聞文章的概要,或從長篇小說中提取關(guān)鍵情節(jié)和事件。(4)文本生成:大模型可以使用先前學習的模式和結(jié)構(gòu)來生成新的文本。例如,可以使用大模型來生成詩歌、短故事、或者以特定主題的文章。1.2.1模型預(yù)訓練和微調(diào)另一方面,大模型可以基于特定領(lǐng)域的小規(guī)模數(shù)據(jù)集進行訓練,來定制化解決不同領(lǐng)域如零售、金融、娛樂等的特定問題。1.2.1模型預(yù)訓練和微調(diào)在“大模型”的上下文中,“大”主要有兩層含義。一方面,它指的是模型的參數(shù)數(shù)量。在這些模型中,參數(shù)的數(shù)量通常會非常大,達到數(shù)十億甚至數(shù)百億。這使得模型能夠?qū)W習和表示非常復(fù)雜的模式。另一方面,“大”也指的是訓練數(shù)據(jù)的規(guī)模。大模型通??梢栽趤碜曰ヂ?lián)網(wǎng)、書籍、新聞等各種來源的大規(guī)模文本數(shù)據(jù)上進行訓練。1.2.2大模型的特征在大模型中,“通用”這個詞描述的是模型的應(yīng)用范圍。通用語言模型在訓練時使用了來自各種領(lǐng)域的數(shù)據(jù),因此它們能夠處理各種類型的任務(wù),不僅限于某一個特定的任務(wù)或領(lǐng)域。這使得這些模型在處理新的、未見過的任務(wù)時具有很強的泛化能力。1.2.2大模型的特征預(yù)訓練和微調(diào)。在預(yù)訓練階段,模型在大規(guī)模的通用文本數(shù)據(jù)上進行訓練,學習語言的基本結(jié)構(gòu)和各種常識。然后,在微調(diào)階段,模型在更小、更特定的數(shù)據(jù)集上進行進一步的訓練。這個數(shù)據(jù)集通常是針對某個特定任務(wù)或領(lǐng)域的,例如醫(yī)學文本、法律文本,或者是特定的對話數(shù)據(jù)。微調(diào)可以讓模型更好地理解和生成這個特定領(lǐng)域的語言,從而更好地完成特定的任務(wù)。1.2.2大模型的特征大模型的優(yōu)勢首先在于其強大的處理能力。大模型擁有強大的處理能力,能夠處理海量的數(shù)據(jù),實現(xiàn)復(fù)雜的任務(wù)。單一模型可用于不同任務(wù):由于大模型是通用的,具有強大的泛化能力,所以它們可以處理各種類型的任務(wù),能夠在訓練數(shù)據(jù)之外的場景中應(yīng)用,比如文本分類、命名實體識別、情感分析、問答系統(tǒng)、文本生成等。這意味著可以使用同一個預(yù)訓練模型來處理不同的任務(wù),只需要進行相應(yīng)的微調(diào)就可以。這大大減少了開發(fā)和維護不同模型的復(fù)雜性和成本。1.2.3大模型的優(yōu)勢微調(diào)過程只需要最小的數(shù)據(jù):盡管大模型在預(yù)訓練階段需要大量的通用文本數(shù)據(jù),但在微調(diào)階段,它們通常只需要相對較小的領(lǐng)域特定數(shù)據(jù)。這是因為模型在預(yù)訓練階段已經(jīng)學習了大量的語言知識和常識,微調(diào)階段主要是讓模型適應(yīng)特定的任務(wù)或領(lǐng)域。這使得大語言模型能夠在數(shù)據(jù)稀缺的領(lǐng)域中也能表現(xiàn)出色。1.2.3大模型的優(yōu)勢大模型的性能通常隨著訓練數(shù)據(jù)的增加和模型參數(shù)的增加而持續(xù)提升。這意味著,通過訓練更大的模型并使用更多的數(shù)據(jù),可以獲得更好的性能。這是因為更大的模型有更多的參數(shù),能夠?qū)W習和表示更復(fù)雜的模式。同時,更多數(shù)據(jù)能夠提供更豐富信息,幫助模型更好地理解語言。1.2.3大模型的優(yōu)勢PART03大模型技術(shù)的形成大模型可以用于:(1)語音識別:如智能客服、語音助手等。(2)圖像識別:如人臉識別、物體識別等。(3)自然語言處理:如機器翻譯、文本生成等。1.3大模型技術(shù)的形成大模型面臨的挑戰(zhàn)包括:(1)數(shù)據(jù)隱私和安全:大模型需要使用大量數(shù)據(jù)訓練,也使數(shù)據(jù)隱私和安全問題日益突出。(2)計算資源:大模型的訓練和推理需要大量計算資源,包括高性能計算機、大量的存儲和帶寬等。(3)算法和模型的可解釋性:大模型的復(fù)雜性和黑箱性質(zhì)使得其可解釋性成為一個挑戰(zhàn)。1.3大模型技術(shù)的形成對于多年來一直在思考人工智能的哲學家來說,GPT-4就像是一個已經(jīng)實現(xiàn)了的思維實驗。早在1981年,內(nèi)德·布洛克就構(gòu)建了一個“Blockhead(傻瓜)”假說——假定科學家們通過編程,在Blockhead內(nèi)預(yù)先設(shè)定好了近乎所有問題的答案,那么,當它回答問題的時候,人們也許就根本無法區(qū)分是Blockhead和人類在回答問題。顯然,這里的Blockhead并不被認為是智能的,因為它回答問題的方式僅僅是從其龐大的記憶知識庫中檢索并復(fù)述答案,并非通過理解問題之后給出答案。哲學家們一致認為,這樣的系統(tǒng)不符合智能的標準。1.3.1Blockhead思維實驗實際上,GPT-4的許多成就可能就是通過類似的內(nèi)存檢索操作產(chǎn)生的。GPT-4的訓練集中包括了數(shù)億個人類個體生成的對話和數(shù)以千計的學術(shù)出版物,涵蓋了潛在的問答對。研究發(fā)現(xiàn),深度神經(jīng)網(wǎng)絡(luò)多層結(jié)構(gòu)的設(shè)計使其能夠有效地從訓練數(shù)據(jù)中檢索到正確答案。這表明,GPT-4的回答其實是通過近似甚至是精確復(fù)制訓練集中的樣本生成的。1.3.1Blockhead思維實驗如果GPT-4真的是以這種方式運行,那么它就只是Blockhead的現(xiàn)實版本。由此,人們在評估大語言模型時,也就存在一個關(guān)鍵問題:它的訓練集中可能包含了評估時使用的測試問題,這被稱為“數(shù)據(jù)污染”,這些是應(yīng)該在評估前予以排除的問題。研究者指出,大模型不僅可以簡單地復(fù)述其提示的或訓練集的大部分內(nèi)容,它們還能夠靈活地融合來自訓練集的內(nèi)容,產(chǎn)生新的輸出。而許多經(jīng)驗主義哲學家提出,能夠靈活復(fù)制先前經(jīng)驗中的抽象模式,可能不僅是智能的基礎(chǔ),還是創(chuàng)造力和理性決策的基礎(chǔ)。1.3.1Blockhead思維實驗大模型的起源可以追溯到人工智能研究的開始。早期的自然語言處理主要有兩大流派:符號派和隨機學派。諾姆·喬姆斯基的轉(zhuǎn)換生成語法對符號派影響重大。該理論認為自然語言的結(jié)構(gòu)可以被一組形式化規(guī)則概括,利用這些規(guī)則可以產(chǎn)生形式正確的句子。與此同時,受香農(nóng)信息論的影響,數(shù)學家沃倫·韋弗首創(chuàng)了隨機學派。1949年,韋弗提出使用統(tǒng)計技術(shù)在計算機上進行機器翻譯的構(gòu)想。這一思路為統(tǒng)計語言模型的發(fā)展鋪平了道路,例如n-gram模型,該模型根據(jù)語料庫中單詞組合的頻率估計單詞序列的可能性。1.3.2大模型的歷史基礎(chǔ)現(xiàn)代語言模型的另一個重要基石是分布假設(shè)。該假設(shè)最早由語言學家澤利格·哈里斯在20世紀50年代提出。這一假設(shè)認為,語言單元通過與系統(tǒng)中其他單元的共現(xiàn)模式來獲得特定意義。哈里斯提出,通過了解一個詞在不同語境中的分布特性,可以推斷出這個詞的含義。1.3.2大模型的歷史基礎(chǔ)隨著分布假設(shè)研究的不斷深入,人們開發(fā)出了在高維向量空間中表示文檔和詞匯的自動化技術(shù)。之后的詞嵌入模型通過訓練神經(jīng)網(wǎng)絡(luò)來預(yù)測給定詞的上下文(或者根據(jù)上下文填詞)學習單詞的分布屬性。與先前的統(tǒng)計方法不同,詞嵌入模型將單詞編碼為密集的、低維的向量表示(見圖1-4)。由此產(chǎn)生的向量空間在保留有關(guān)詞義的語言關(guān)系的同時,大幅降低了語言數(shù)據(jù)的維度。同時,詞嵌入模型的向量空間中存在許多語義和句法關(guān)系。1.3.2大模型的歷史基礎(chǔ)

圖1-4多維向量空間中詞嵌入的一個例子1.3.2大模型的歷史基礎(chǔ)圖1-4中A部分指一個在自然語言語料庫上訓練的詞嵌入模型學會將單詞編碼成多維空間中的數(shù)值向量,為了視覺上的清晰性而簡化為兩維。在訓練過程中,上下文相關(guān)的單詞(例如“age”和“epoch”)的向量變得更加相似,而上下文無關(guān)的單詞(例如“age”和“coffee”)的向量變得不那么相似。1.3.2大模型的歷史基礎(chǔ)圖1-4中B部分指在經(jīng)過訓練的模型的二維向量空間中的詞嵌入。具有相似含義的單詞(如“age”和“epoch”)被放置在更靠近的位置,這由它們的余弦相似度得分高度表示;而具有不同含義的單詞(如“coffee”和“epoch”)則相對較遠,反映在余弦相似度得分較低上。余弦相似度是一種用于確定兩個非零向量夾角余弦的度量,反映它們之間的相似程度。余弦相似度得分越接近1,表示夾角越小,向量之間的相似度越高。1.3.2大模型的歷史基礎(chǔ)詞嵌入模型的發(fā)展是自然語言處理歷史上的一個轉(zhuǎn)折點,為基于在大型語料庫中的統(tǒng)計分布在連續(xù)向量空間中表示語言單元提供了強大而高效的手段。然而,這些模型也存在一些顯著的局限性。首先,它們無法捕捉一詞多義和同音異義,因為它們?yōu)槊總€單詞類型分配了單一的嵌入,無法考慮基于上下文的意義變化。1.3.2大模型的歷史基礎(chǔ)隨后的“深度”語言模型引入了類似記憶的機制,使其能夠記住并處理隨時間變化的輸入序列,而不是個別的孤立單詞。這些模型雖然在某些方面優(yōu)于詞嵌入模型,但它們的訓練速度較慢,處理長文本序列時表現(xiàn)也欠佳。這些問題在瓦斯瓦尼等人于2017年引入的Transformer架構(gòu)中得到解決,Transformer架構(gòu)是谷歌云TPU推薦的參考模型,為現(xiàn)代大模型奠定了基礎(chǔ)。1.3.2大模型的歷史基礎(chǔ)Transformer模型的一個關(guān)鍵優(yōu)勢在于,輸入序列中的所有單詞都是并行處理,這種架構(gòu)不僅極大地提高了訓練效率,還提高了模型處理長文本序列的能力,從而增加了可以執(zhí)行的語言任務(wù)的規(guī)模和復(fù)雜性。Transformer模型的核心是一種被稱為自注意力的機制。簡而言之,自注意力允許模型在處理序列中的每個單詞時,衡量該序列不同部分的重要性。這一機制幫助大模型通過考慮序列中所有單詞之間的相互關(guān)系,構(gòu)建對長文本序列的復(fù)雜表示。在句子層面之上,它使大模型能夠結(jié)合段落或整個文檔的主題來進行表達。1.3.3Transformer模型Transformer模型并非直接操作單詞,而是操作稱為“詞元(tokens)”的語言單位。詞元可以映射到整個單詞,也可以映射到更小的單詞片段。在將每個單詞序列提供給模型之前,首先進行標記化,將其分塊成相應(yīng)的詞元。標記化的目的是盡可能多地表示來自不同語言的單詞,包括罕見和復(fù)雜的單詞?;赥ransformer模型的最常見變體被稱為“自回歸”,包括GPT-3、GPT-4和ChatGPT。1.3.3Transformer模型自回歸模型以準確預(yù)測下一個詞元為學習目標。在每次訓練時,模型的目標是根據(jù)先前的詞元預(yù)測語料庫中抽樣序列的下一個詞元。在第一次預(yù)測時,模型使用隨機參數(shù)初始化,預(yù)測結(jié)果并不準確。隨著每次預(yù)測的進行,模型的參數(shù)逐漸調(diào)整,直至預(yù)測出的詞元和訓練集中實際的詞元的差異最小。這個過程重復(fù)數(shù)十億次,直到模型能夠準確預(yù)測從訓練集中隨機抽取的內(nèi)容的下一個詞元。1.3.3Transformer模型Transformer模型的訓練集包括百科全書、學術(shù)文章、書籍、網(wǎng)站,甚至大量計算機代碼等多樣化來源的大型語料庫,旨在概括自然語言和人工語言的廣度和深度,使Transformer模型能夠準確進行下一個詞元的預(yù)測。1.3.3Transformer模型盡管這種方式訓練的大模型在生成文本段落方面表現(xiàn)出色,但它們對真實的、有用的或無冒犯性的語言沒有固定偏好。為了讓生成的文本更符合人類語言使用規(guī)范,此后的大模型如ChatGPT,使用了“從人類反饋中進行強化學習”的微調(diào)技術(shù)來調(diào)整模型的輸出。強化學習允許開發(fā)人員更具體和可控地引導模型的輸出。這一微調(diào)過程在調(diào)整這些模型以更好地滿足人類語言使用規(guī)范方面發(fā)揮著至關(guān)重要的作用。1.3.3Transformer模型大模型具有出色的能力,能夠利用文本提示中的文本信息來引導它們的輸出。已部署的語言模型經(jīng)過預(yù)訓練,其參數(shù)在訓練后保持固定。盡管大部分架構(gòu)缺乏可編輯的長期記憶資源,但它們能夠根據(jù)所提供的內(nèi)容靈活調(diào)整輸出,包括它們未經(jīng)明確訓練的任務(wù)。這種能力可被視為一種即時學習或適應(yīng)的形式,通常被稱為“情境學習”。情境學習可被解釋為一種模式完成的形式,如果序列構(gòu)造為一個熟悉的問題或任務(wù),模型將嘗試以與其訓練一致的方式完成它??上蚰P桶l(fā)出具體的指令。1.3.3Transformer模型在“少樣本學習”中,提示的結(jié)構(gòu)包括要執(zhí)行任務(wù)的幾個示例,后面是需要響應(yīng)的新實例。在“零樣本學習”中,模型不會得到任何示例,任務(wù)直接在提示中進行概述或暗示。少樣本學習被認為是人類智能的重要方面。而老式機器學習則在少樣本學習任務(wù)中表現(xiàn)較差。然而,經(jīng)過訓練后的大模型在少樣本學習上表現(xiàn)出色。在較大的模型(如GPT-3)中觀察到,少樣本學習能力似乎與模型大小高度相關(guān)。通過強化學習精調(diào)后,大模型的零樣本學習能力得到增強。1.3.3Transformer模型大模型已經(jīng)應(yīng)用在自然語言處理領(lǐng)域的許多任務(wù)中,且有不錯的表現(xiàn)。除了傳統(tǒng)的自然語言處理任務(wù),大模型還具有執(zhí)行包括生成代碼、玩基于文本的游戲和提供數(shù)學問題答案等。由于大模型出色的信息檢索能力,它們甚至已被提議作為教育、研究、法律和醫(yī)學的工具。1.3.3Transformer模型人工神經(jīng)網(wǎng)絡(luò)(ANN,簡稱“神經(jīng)網(wǎng)絡(luò)”),包括早期的自然語言處理結(jié)構(gòu),一直是哲學討論的焦點。圍繞這些系統(tǒng)的哲學討論主要集中在它們作為建模人類認知的適用性上。具體而言,爭論的焦點在于,相比于經(jīng)典的、符號的、基于規(guī)則的對應(yīng)物模型,它們是否構(gòu)成了更好的人類認知模型。研究的核心問題之一是,設(shè)計用于預(yù)測下一個詞元的大模型是否能構(gòu)建出一個“世界模型”。在機器學習中,世界模型通常指的是模擬外部世界某些方面的內(nèi)部表征,使系統(tǒng)能夠以反映現(xiàn)實世界動態(tài)的方式理解、解釋和預(yù)測現(xiàn)象,包括因果關(guān)系和直觀的物理現(xiàn)象。1.3.4大模型的世界模型問題與智能代理通過和環(huán)境互動并接收反饋來學習的強化學習不同,大模型的學習方式能否導致構(gòu)建出世界模型。實際上這是在探討它們是否能夠內(nèi)部構(gòu)建出對世界的理解,并生成與現(xiàn)實世界知識和動態(tài)相一致的語言。這種能力對于反駁大模型僅僅是“Blockheads”的觀點至關(guān)重要。1.3.4大模型的世界模型問題評估大模型是否具有世界模型并沒有統(tǒng)一的方法,部分原因在于這個概念通常定義模糊,部分原因在于難以設(shè)計實驗來區(qū)分大模型是依賴淺層啟發(fā)式回答問題,還是使用了環(huán)境核心動態(tài)的內(nèi)部表征這一假設(shè)。盡管如此,我們還可以向大模型提出一些不能依據(jù)記憶來完成的任務(wù),來提供新的證據(jù)解決這一問題。1.3.4大模型的世界模型問題有的研究認為,大模型可能學會了模擬世界的一部分,而不僅僅是進行序列概率估計。更具體地說,互聯(lián)網(wǎng)規(guī)模的訓練數(shù)據(jù)集由大量單獨的文檔組成。對這些文本的最有效壓縮可能涉及對生成它們的隱藏變量值進行編碼:即文本的人類作者的句法知識、語義信念和交際意圖。1.3.4大模型的世界模型問題另一個有趣的問題是,大模型是否可能參與文化習得并在知識傳遞中發(fā)揮作用。一些理論家提出,人類智能的一個關(guān)鍵特征在于其獨特的文化學習能力。盡管其他靈長類動物也有類似的能力,但人類在這方面顯得更為突出。人類能夠相互合作,將知識從上一代傳到下一代,下一代能夠從上一代結(jié)束的地方繼續(xù),并在語言學、科學和社會學知識方面取得新的進展。這種方式使人類的知識積累和發(fā)現(xiàn)保持穩(wěn)步發(fā)展,與黑猩猩等其他動物相對停滯的文化演變形成鮮明對比。1.3.5文化知識傳遞和語言支持鑒于深度學習系統(tǒng)已經(jīng)在多個任務(wù)領(lǐng)域超過了人類表現(xiàn)。那么問題就變成了,大模型是否能夠模擬文化學習的許多組成部分,將它們的發(fā)現(xiàn)傳遞給人類理論家。研究發(fā)現(xiàn),現(xiàn)在主要是人類通過解釋模型來得到可傳播的知識。但是,大模型是否能夠以理論介導的方式向人類解釋它們的策略,從而參與和增強人類文化學習呢?有證據(jù)表明,基于Transformer的模型可能在某些訓練-測試分布轉(zhuǎn)變下實現(xiàn)組合泛化。但問題涉及到一種不同類型的泛化——解決真正新穎任務(wù)的能力。從現(xiàn)有證據(jù)來看,大模型似乎能夠在已知任務(wù)范圍內(nèi)處理新數(shù)據(jù),實現(xiàn)局部任務(wù)泛化。1.3.5文化知識傳遞和語言支持此外,文化的累積進步(棘輪效應(yīng):指人的消費習慣形成之后有不可逆性,即易于向上調(diào)整,而難于向下調(diào)整)不僅涉及創(chuàng)新,還包括穩(wěn)定的文化傳播。大模型是否能夠像人類一樣,不僅能夠生成新穎的解決方案,還能夠通過認識和表達它們?nèi)绾纬较惹暗慕鉀Q方案,從而“鎖定”這些創(chuàng)新?這種能力不僅涉及生成新穎的響應(yīng),還需要對解決方案的新穎性及其影響有深刻理解,類似于人類科學家不僅發(fā)現(xiàn)新事物,還能理論化、情境化和傳達他們的發(fā)現(xiàn)。1.3.5文化知識傳遞和語言支持因此,對大模型的挑戰(zhàn)不僅僅在于生成問題的新穎解決方案,還在于培養(yǎng)一種能夠反思和傳達其創(chuàng)新性質(zhì)的能力,從而促進文化學習的累積過程。這種能力可能需要更先進的交際意圖理解和世界模型構(gòu)建。雖然大模型在各種形式的任務(wù)泛化方面表現(xiàn)出有希望的跡象,但它們參與文化學習的程度似乎取決于這些領(lǐng)域的進一步發(fā)展,這可能超出了當前體系結(jié)構(gòu)的能力范圍。1.3.5文化知識傳遞和語言支持PART04通用人工智能有別于“專用(特定領(lǐng)域)人工智能”,通用人工智能(GeneralArtificialIntelligence,AGI),是指一種能夠像人類一樣思考、學習和執(zhí)行多種任務(wù)的人工智能系統(tǒng),它具有高效的學習和泛化能力、能夠根據(jù)所處的復(fù)雜動態(tài)環(huán)境自主產(chǎn)生并完成任務(wù),它具備自主感知、認知、決策、學習、執(zhí)行和社會協(xié)作等能力,且符合人類情感、倫理與道德觀念。1.4通用人工智能開發(fā)ChatGPT的OpenAI公司將AGI寫在了自己的企業(yè)使命中,OpenAI官網(wǎng)上是這樣寫的:“OpenAI的使命是確保通用人工智能,即一種高度自主且在大多數(shù)具有經(jīng)濟價值的工作上超越人類的系統(tǒng),將為全人類帶來福祉。我們不僅希望直接建造出安全的、符合共同利益的通用人工智能,而且愿意幫助其它研究機構(gòu)共同建造出這樣的通用人工智能以達成我們的使命?!?.4.1什么是通用人工智能目前,大多數(shù)人工智能系統(tǒng)是針對特定任務(wù)或領(lǐng)域進行優(yōu)化的,例如語音識別、圖像識別、自然語言處理、推薦系統(tǒng)等,這是將問題得到簡化的一種解決問題的方法。這些系統(tǒng)在其特定領(lǐng)域中可能表現(xiàn)得很出色,但它們?nèi)狈νㄓ眯院挽`活性,不能適應(yīng)各種不同的任務(wù)和環(huán)境。與專注于解決特定問題或領(lǐng)域不同,通用人工智能的目標是創(chuàng)建一個全面智能的系統(tǒng),可以解決廣泛的問題并進行多種任務(wù)。這種系統(tǒng)能夠在不同的環(huán)境中適應(yīng)和學習,并且可以從不同的來源中獲取信息,像人類一樣進行推理和決策。1.4.1什么是通用人工智能“AGI”這個詞匯最早可以追溯到2003年瑞典哲學家尼克·博斯特羅姆發(fā)表的論文“先進人工智能的倫理問題”。在該論文中,博斯特羅姆討論了超級智能的道德問題,并在其中引入了“AGI”這一概念,描述一種能夠像人類一樣思考、學習和執(zhí)行多種任務(wù)的人工智能系統(tǒng)。超級智能被定義為任何智能在幾乎所有感興趣的領(lǐng)域中都大大超過人類認知表現(xiàn)的智能。這個定義允許增強的黑猩猩或海豚也有可能成為超級智能,也允許非生物超級智能的可能性。1.4.1什么是通用人工智能因此,AGI可以被視為是一種更高級別的人工智能,是當前人工智能技術(shù)發(fā)展的一個重要方向和目標。但由于其在技術(shù)和理論方面的挑戰(zhàn),它仍然是一個較為遙遠的目標。1.4.1什么是通用人工智能大模型是一種基于深度神經(jīng)網(wǎng)絡(luò)學習技術(shù)的大型預(yù)訓練神經(jīng)網(wǎng)絡(luò)算法模型。雖然大模型已經(jīng)取得了一些驚人的進展,但它還不符合通用人工智能的要求。(1)大模型在處理任務(wù)方面的能力有限。它還只能處理文本領(lǐng)域的任務(wù),無法與物理和社會環(huán)境進行互動。這意味著像ChatGPT這樣的模型不能真正“理解”語言的含義,缺乏身體而無法體驗物理空間。中國的哲學家早就認識到“知行合一”的理念,即人對世界的“知”是建立在“行”的基礎(chǔ)上的。這也是通用智能體能否真正進入物理場景和人類社會的關(guān)鍵所在。1.4.2大模型與通用人工智能只有將人工智能體放置于真實的物理世界和人類社會中,它們才能切實了解并習得真實世界中事物之間的物理關(guān)系和不同智能體之間的社會關(guān)系,從而做到“知行合一”。(2)大模型也不具備自主能力。它需要人類來具體定義好每一個任務(wù),就像一只“巨鸚鵡”,只能模仿被訓練過的話語。(3)雖然ChatGPT已經(jīng)在不同的文本數(shù)據(jù)語料庫上進行了大規(guī)模訓練,包括隱含人類價值觀的文本,但它并不具備理解人類價值或與其保持一致的能力,即缺乏所謂的道德指南針。1.4.2大模型與通用人工智能加州大學伯克利分校教授斯圖爾特·羅素表示,關(guān)于ChatGPT,更多數(shù)據(jù)和更多算力不能帶來真正的智能。要構(gòu)建真正智能的系統(tǒng),應(yīng)當更加關(guān)注數(shù)理邏輯和知識推理,因為只有將系統(tǒng)建立在我們了解的方法之上,才能確保人工智能不會失控。擴大規(guī)模不是答案,更多數(shù)據(jù)和更多算力不能解決問題,這種想法過于樂觀,在智力上也不有趣。1.4.2大模型與通用人工智能圖靈獎得主揚·勒昆認為:語言只承載了所有人類知識的一小部分,大部分人類具有的知識都是非語言的。因此,大模型是無法接近人類水平智能的。深刻的非語言理解是語言有意義的必要條件。正是因為人類對世界有深刻的理解,所以我們可以很快理解別人在說什么。這種更廣泛、對上下文敏感的學習和知識是一種更基礎(chǔ)、更古老的知識,它是生物感知能力出現(xiàn)的基礎(chǔ),讓生存和繁榮成為可能。這也是人工智能研究者在尋找人工智能中的常識時關(guān)注的更重要的任務(wù)。1.4.2大模型與通用人工智能大模型沒有穩(wěn)定的身體可以感知,它們的知識更多是以單詞開始和結(jié)束,這種常識總是膚淺的。人類處理各種大模型的豐富經(jīng)驗清楚地表明,僅從言語中可以獲得的東西是如此之少。僅通過語言是無法讓人工智能系統(tǒng)深刻理解世界,這是錯誤的方向。1.4.2大模型與通用人工智能通過深度學習與自然語言處理的創(chuàng)新融合,諸如ChatGPT、通義千問等智能系統(tǒng)能夠理解并生成高質(zhì)量的文本內(nèi)容,人工智能結(jié)合大模型的實際應(yīng)用,重塑了信息時代的內(nèi)容創(chuàng)作生態(tài)。人工智能可以生成文字、圖片、音頻、視頻等等內(nèi)容,甚至讓人難以分清背后的創(chuàng)作者到底是人類還是人工智能。這些人工智能生成的內(nèi)容被叫做AIGC(人工智能生成內(nèi)容)。像ChatGPT生成的文章,GitHubCopilot生成的代碼、Midjourney生成的圖片等等,都屬于AIGC。在很多語境下,AIGC也被用于指代生成式人工智能。1.4.3人工智能生成內(nèi)容相關(guān)人工智能領(lǐng)域術(shù)語的關(guān)系如圖所示。這些概念共同構(gòu)成了AIGC的核心要素。圖1-5AIGC與人工智能技術(shù)譜系1.4.3人工智能生成內(nèi)容大模型的實際例子已經(jīng)非常多,比如國外的GPT、LLaMA,國內(nèi)的ERNIE、ChatGLM等,可以進行文本的理解和生成。但并不是所有生成式人工智能都是大語言模型,而所有的大語言模型是否都是生成式人工智能,也存在些許爭議。谷歌的BERT模型就是一個例子,它的參數(shù)量和序列數(shù)據(jù)很大,屬于大模型。應(yīng)用方面,BERT理解上下文的能力很強,因此被谷歌用在搜索上,用來提高搜索排名和信息摘錄的準確性。它也被用于情感分析、文本分類等任務(wù),但同時BERT不擅長文本生成,特別是連貫的長文本生成。所以有些人認為這類模型不屬于生成式人工智能的范疇。1.4.3人工智能生成內(nèi)容01人工智能基礎(chǔ)02大模型定義03大模型技術(shù)的形成04通用人工智能目錄/CONTENTS大語言模型基礎(chǔ)周蘇教授QQ:81505050第1章大模型基礎(chǔ)浙江省普通本科高?!笆奈濉敝攸c教材建設(shè)成果之一大語言模型基礎(chǔ)大語言模型基礎(chǔ)周蘇教授QQ:81505050第2章大模型與生成式AI語言模型是自然語言處理領(lǐng)域的基礎(chǔ)任務(wù)和核心問題,其目標是對自然語言的概率分布建模。大量的研究從n元語言模型、神經(jīng)語言模型以及預(yù)訓練語言模型等不同角度開展了一系列工作,這些研究在不同階段對自然語言處理任務(wù)有重要作用。隨著基于谷歌Transformer的各類語言模型的發(fā)展,以及預(yù)訓練微調(diào)范式在自然語言處理各類任務(wù)中取得突破性進展,從OpenAI發(fā)布GPT-3開始,對大語言模型的研究逐漸深入。雖然大模型的參數(shù)量巨大,通過有監(jiān)督微調(diào)和強化學習能夠完成非常多的任務(wù),但是其基礎(chǔ)理論仍然離不開對語言的建模。第2章大模型與生成式AI此外,作為一種能夠創(chuàng)造新的內(nèi)容或預(yù)測未來數(shù)據(jù)的人工智能技術(shù),生成式AI(GenerativeAI)包括用于生成文本、圖像、音頻和視頻等各種類型內(nèi)容的模型。生成式AI的一個關(guān)鍵特性是,它不僅可以理解和分析數(shù)據(jù),還可以創(chuàng)造新的、獨特的輸出,這些輸出是從學習的數(shù)據(jù)模式中派生出來的。第2章大模型與生成式AI01什么是語言模型02大模型發(fā)展三階段03Transformer模型04生成式人工智能目錄/CONTENTSPART01什么是語言模型語言模型起源于語音識別。輸入一段音頻數(shù)據(jù),語音識別系統(tǒng)通常會生成多個句子作為候選,判斷哪個句子更合理?這就需要用到語言模型對候選句子進行排序。語言模型的應(yīng)用范圍早已擴展到機器翻譯、信息檢索、問答、文摘等眾多自然語言處理領(lǐng)域。2.1什么是語言模型語言模型是這樣一個模型:對于任意的詞序列,它能夠計算出這個序列是一句話的概率。例如,詞序列A:“這個網(wǎng)站|的|文章|真|水|啊”,這個明顯是一句話,一個好的語言模型也會給出很高的概率。再看詞序列B:“這個網(wǎng)站|的|睡覺|蘋果|好快”,這明顯不是一句話,如果語言模型訓練的好,那么序列B的概率就會很小。2.1.1語言模型的定義于是,給出語言模型的較為正式的定義。假設(shè)我們要為中文創(chuàng)建一個語言模型,V表示詞典,V={貓,狗,機器,學習,語言,模型,...},wi∈V。語言模型就是這樣一個模型:給定詞典V,能夠計算出任意單詞序列w1,w2,...,wn是一句話的概率p(w1,w2,...,wn),其中,p≥0。語言模型中計算p(w1,w2,...,wn)的最簡單方法是數(shù)數(shù),假設(shè)訓練集中共有N個句子,數(shù)一下在訓練集中(w1,w2,...,wn)

出現(xiàn)的次數(shù),不妨假定為n,則p(w1,w2,...,wn)=n/N??梢韵胂蟪鲞@個模型的預(yù)測能力幾乎為0,一旦單詞序列沒有在訓練集中出現(xiàn)過,模型的輸出概率就是0。2.1.1語言模型的定義語言模型的另一種等價定義是:能夠計算p(wi|w1,w2,...,wi-1)的模型就是語言模型。從文本生成角度來看,也可以給出如下的語言模型定義:給定一個短語(一個詞組或一句話),語言模型可以生成(預(yù)測)接下來的一個詞。2.1.1語言模型的定義在統(tǒng)計學模型為主體的自然語言處理時期,語言模型任務(wù)主要是N-gram語言模型。為了簡化p(wi|w1,w2,...,wi-1)的計算,引入一階馬爾可夫假設(shè):每個詞只依賴前一個詞;也可以引入二階馬爾可夫假設(shè):每個詞依賴前兩個詞。馬爾可夫假設(shè)可以方便的計算條件概率。此外,還有前饋神經(jīng)網(wǎng)絡(luò)語言模型、循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型及其他預(yù)訓練語言模型。2.1.1語言模型的定義語言模型可用于提升語音識別和機器翻譯的性能。例如,在語音識別中,給定一段“廚房里食油用完了”的語音,有可能會輸出“廚房里食油用完了”和“廚房里石油用完了”這兩個讀音完全一樣的文本序列。如果語言模型判斷出前者的概率大于后者的概率,就可以根據(jù)相同讀音的語音輸出“廚房里食油用完了”這個文本序列。在機器翻譯中,如果對英文“yougofirst”逐詞翻譯成中文的話,可能得到“你走先”“你先走”等排列方式的文本序列。如果語言模型判斷出“你先走”的概率大于其他排列方式文本序列的概率,就可以把“yougofirst”譯成“你先走”。2.1.1語言模型的定義早期在解決機器翻譯這一類序列到序列的問題時,通常采用的做法是利用一個編碼器和一個解碼器構(gòu)建端到端的神經(jīng)網(wǎng)絡(luò)模型。但是,基于編碼解碼的神經(jīng)網(wǎng)絡(luò)存在兩個問題。拿機器翻譯作為例子:問題1:如果翻譯的句子很長很復(fù)雜,比如直接將一篇文章輸進去,模型的計算量很大,并且模型的準確率下降嚴重。問題2:在不同的翻譯語境下,同一個詞可能具有不同含義,但是網(wǎng)絡(luò)對這些詞向量并沒有區(qū)分度,沒有考慮詞與詞之間的相關(guān)性,導致翻譯效果比較差。2.1.2注意力機制同樣,在計算機視覺領(lǐng)域,如果輸入的圖像尺寸很大,做圖像分類或者識別時,模型的性能也會下降。針對這樣的問題,提出了注意力機制。早在20世紀九十年代對注意力機制就有研究,到2014年弗拉基米爾的《視覺注意力的反復(fù)模型》一文中將其應(yīng)用在視覺領(lǐng)域,后來,伴隨著2017年Transformer結(jié)構(gòu)的提出,注意力機制在自然語言處理、計算機視覺等相關(guān)問題上被廣泛應(yīng)用。2.1.2注意力機制“注意力機制”實際上就是想將人的感知方式、注意力的行為應(yīng)用在機器上,讓機器學會去感知數(shù)據(jù)中的重要和不重要的部分。比如要識別一張圖片中是一個什么動物時,我們讓機器側(cè)重于關(guān)注圖片中動物的面部特征,包括耳朵、眼睛、鼻子、嘴巴,而不用太關(guān)注其背景信息。核心目的是希望機器能注意到當前任務(wù)的關(guān)鍵信息,而減少對其他非關(guān)鍵信息的注意。同樣,在機器翻譯中,讓機器注意到每個詞向量之間的相關(guān)性,有側(cè)重地進行翻譯,模擬人類的理解過程。2.1.2注意力機制對模型的每一個輸入項,它可能是圖片中的不同部分,或者是語句中的某個單詞,分配一個權(quán)重,這個權(quán)重的大小代表了我們希望模型對該部分的關(guān)注程度。這樣,通過權(quán)重大小來模擬人在處理信息時的注意力側(cè)重,有效的提高模型的性能,并且在一定程度上降低了計算量。2.1.2注意力機制深度學習中的注意力機制通常可分為三類:軟注意(全局注意)、硬注意(局部注意)和自注意力(內(nèi)注意)。(1)軟注意機制:對每個輸入項分配的權(quán)重在0~1之間,也就是某些部分關(guān)注多一點,某些部分關(guān)注少一點。由于對大部分信息都有考慮,但考慮程度不一,所以相對計算量比較大。(2)硬注意機制:對每個輸入項分配的權(quán)重非0即1,只考慮哪部分需要關(guān)注,哪部分不關(guān)注,也就是直接舍棄掉一些不相關(guān)項。優(yōu)勢在于可以減少一定的時間和計算成本,但有可能丟失一些本應(yīng)該注意的信息。2.1.2注意力機制(3)自注意力機制:對每個輸入項分配的權(quán)重取決于輸入項之間的相互作用,即通過輸入項內(nèi)部的“表決”來決定應(yīng)該關(guān)注哪些輸入項。和前兩種相比,在處理很長的輸入時,具有并行計算的優(yōu)勢。2.1.2注意力機制大模型技術(shù)可以分為“開源”和“閉源”兩大類型。所謂“開源”,是指事物規(guī)劃為可以公開訪問的,因此人們都可以對其修改并分享。2.1.3開源還是閉源“開源”這個詞最初起源于軟件開發(fā),指的是一種開發(fā)軟件的特殊形式。但時至今天,“開源”已經(jīng)泛指一組概念——就是所謂“開源的方式”。這些概念包括開源項目、產(chǎn)品,或是自發(fā)倡導并歡迎開放變化、協(xié)作參與、快速原型、公開透明、精英體制以及面向社區(qū)開發(fā)的原則。開源軟件的源代碼任何人都可以審查、修改和增強。“源代碼”是軟件中大部分計算機用戶都沒見過的部分,程序員可以修改代碼來改變一個軟件(“程序”或“應(yīng)用”)工作的方式。程序員如果可以接觸到計算機程序源代碼,就可以通過添加功能或修復(fù)問題來改進這個軟件。2.1.3開源還是閉源PART02大模型發(fā)展三階段在很短一段時間內(nèi),人們接連迎來了ChatGPT、Gemini、Gemma和Sora等一系列大模型產(chǎn)品的發(fā)布,整個人工智能圈和科技圈都異常興奮,人工智能帶來的更像是工業(yè)革命的變革浪潮,將逐漸改變?nèi)藗兊纳詈凸ぷ鞣绞?。大模型的發(fā)展大致可以分為三個階段。2.2大模型發(fā)展三階段此階段集中在2018年至2021年。2017年瓦斯瓦尼等人提出Transformer架構(gòu),在機器翻譯任務(wù)上取得了突破性進展。2018年谷歌和OpenAI分別提出BERT和GPT-1模型,開啟了預(yù)訓練語言模型時代。BERT-Base參數(shù)量為1.1億,BERT-Large參數(shù)量為3.4億,GPT-1參數(shù)量為1.17億,相比于其他深度神經(jīng)網(wǎng)絡(luò),其參數(shù)量有了數(shù)量級上的提升。2019年OpenAI發(fā)布了GPT-2,參數(shù)量達到5億。此后,谷歌發(fā)布參數(shù)規(guī)模為110億的T5模型,2020年OpenAI進一步將語言模型參數(shù)量擴展到1750億,發(fā)布了GPT-3。2.2.1基礎(chǔ)模型階段此后,國內(nèi)也相繼推出了一系列大模型產(chǎn)品,包括百度ERNIE、華為盤古-α等。這個階段,研究主要集中在語言模型本身,包括僅編碼器、編碼器-解碼器、僅解碼器等各種類型的模型結(jié)構(gòu)都有相應(yīng)的研究。模型大小與BERT相類似的算法通常采用預(yù)訓練微調(diào)范式,針對不同下游任務(wù)進行微調(diào)。但模型參數(shù)量在10億以上時,由于微調(diào)計算量很高,這類模型的影響力在當時相較BERT類模型有不小的差距。2.2.1基礎(chǔ)模型階段此階段集中于2019年至2022年,由于大模型很難針對特定任務(wù)進行微調(diào),研究者開始探索在不針對單一任務(wù)進行微調(diào)的情況下,如何能夠發(fā)揮大模型的能力。2019年雷德福等人使用GPT-2研究大模型在零樣本情況下的任務(wù)處理能力。在此基礎(chǔ)上,Brown等人在GPT-3模型上研究通過語境學習進行少樣本學習的方法,將不同任務(wù)的少量有標注實例拼接到待分析的樣本,用語言模型根據(jù)實例理解任務(wù)并給出正確結(jié)果。包括TriviaQA、WebQS、CoQA等評測集合都展示出了非常強的能力,在有些任務(wù)中甚至超過了此前的有監(jiān)督方法。2.2.2能力探索階段上述方法不需要修改語言模型的參數(shù),模型在處理不同任務(wù)時無需花費大量計算資源進行模型微調(diào)。但是,僅依賴語言模型本身,其性能在很多任務(wù)上很難達到有監(jiān)督學習效果,因此研究人員們提出了指令微調(diào)方案,將大量各類型任務(wù),統(tǒng)一為生成式自然語言理解框架,并構(gòu)造訓練語料進行微調(diào)。2.2.2能力探索階段此階段以2022年11月ChatGPT的發(fā)布為起點。ChatGPT通過一個簡單的對話框,利用一個大模型就可以實現(xiàn)問題回答、文稿撰寫、代碼生成、數(shù)學解題等過去自然語言處理系統(tǒng)需要大量小模型訂制開發(fā)才能分別實現(xiàn)的能力。它在開放領(lǐng)域問答、各類自然語言生成式任務(wù)以及對話上文理解上所展現(xiàn)出來的能力遠超大多數(shù)人的想象。2.2.3突破發(fā)展階段2023年3月GPT-4發(fā)布,相較于ChatGPT又有了非常明顯的進步,具備了多模態(tài)理解能力。GPT-4在多種基準考試測試上的得分高于88%的應(yīng)試者,包括美國律師資格考試、法學院入學考試、學術(shù)能力評估等。它展現(xiàn)了近乎“通用人工智能(AGI)”的能力。各大公司和研究機構(gòu)也相繼發(fā)布了此類系統(tǒng),包括谷歌推出的Bard、百度的文心一言、科大訊飛的星火大模型、智譜ChatGLM等。2.2.3突破發(fā)展階段PART03Transformer模型Transformer是一種在自然語言處理領(lǐng)域中廣泛使用的深度學習模型,它源自谷歌公司在2017年發(fā)表的一篇論文“注意力就是你所需要的”。Transformer模型的主要特點是使用了“自注意力”機制,允許模型在處理序列數(shù)據(jù)時考慮到序列中所有元素的上下文關(guān)系。Transformer模型首先被應(yīng)用于機器翻譯的神經(jīng)網(wǎng)絡(luò)模型架構(gòu),目標是從源語言轉(zhuǎn)換到目標語言,它完成了對源語言序列和目標語言序列全局依賴的建模。因為適用于并行計算,使它的模型復(fù)雜程度在精度和性能上都要高于之前流行的RNN循環(huán)神經(jīng)網(wǎng)絡(luò),如今的大語言模型幾乎都基于Transformer結(jié)構(gòu)。2.3

Transformer模型可以簡單地把Transformer看成是一個黑盒子,當我們在做文本翻譯任務(wù)時,輸入一段中文,經(jīng)過這個黑盒子之后,輸出來的就是翻譯過來的英文。

圖2-2把Transformer當成黑盒子2.3.1

Transformer過程黑盒子里面主要有兩部分組成:編碼器組和解碼器組。當輸入一個文本的時候,通過編碼器模塊對該文本數(shù)據(jù)進行編碼,然后將編碼數(shù)據(jù)傳入解碼器模塊進行解碼,得到翻譯后的文本。圖2-3黑匣子里面是編碼器組和解碼器組2.3.1

Transformer過程一般情況下編碼器組模塊里邊有6個小編碼器,解碼器組里邊有6個小解碼器。編碼器里邊是自注意力機制加上一個前饋神經(jīng)網(wǎng)絡(luò)。圖2-4編碼器內(nèi)部結(jié)構(gòu)2.3.1

Transformer過程所謂前饋神經(jīng)網(wǎng)絡(luò),可以理解為是一個多層感知機,即一個包含了多個隱藏層的神經(jīng)網(wǎng)絡(luò),其中層與層之間是全連接的,相鄰兩層的任意兩個節(jié)點都有連接。圖2-5前饋神經(jīng)網(wǎng)絡(luò)示例2.3.1

Transformer過程我們通過以下步驟來解釋自注意力機制。步驟1:模型最初輸入的是詞向量形式。自注意力機制,顧名思義就是自己和自己計算一遍注意力,對每一個輸入的詞向量需要構(gòu)建自注意力機制的輸入。這里,Transformer將詞向量乘上三個矩陣,得到三個新的向量,這是為了獲得更多的參數(shù),提高模型效果。對于輸入X1(機器),乘上三個矩陣后分別得到Q1、K1、V1。同樣,對于輸入X2(學習),也乘上三個不同的矩陣得到Q2、K2、V2。2.3.1

Transformer過程步驟2:計算注意力得分。這個得分是通過計算Q與各個單詞的K向量的點積得到的。以X1為例,分別將Q1和K1、K2進行點積運算,假設(shè)分別得到得分112和96。圖2-7計算注意力得分2.3.1

Transformer過程步驟3:將得分分別除以一個特定數(shù)值8(K向量的維度的平方根,通常K向量的維度是64)這能讓梯度更加穩(wěn)定,得到結(jié)果14和12。步驟4:將上述結(jié)果進行softmax運算,得到0.88和0.12。softmax運算主要是將分數(shù)標準化,使得數(shù)都是正數(shù)并且加起來等于1。softmax從字面上來說,可以分成soft和max兩個部分。max就是最大值的意思。softmax的核心在于soft,而soft有軟的含義,與之相對的是hard硬。很多場景中需要我們找出數(shù)組所有元素中值最大的元素,實質(zhì)上都是求的hardmax。2.3.1

Transformer過程步驟5:將V向量乘上softmax的結(jié)果,主要是為了保持想要關(guān)注的單詞的值不變,而掩蓋掉那些不相關(guān)的單詞,例如將它們乘上很小的數(shù)字。圖2-8V向量乘softmax2.3.1

Transformer過程步驟6:將帶權(quán)重的各個V向量加起來。至此,產(chǎn)生在這個位置上(第一個單詞)的自注意力機制層的輸出,其余位置的自注意力機制輸出計算方式相同。將上述過程總結(jié)為一個公式。

圖2-9自注意力計算過程總結(jié)2.3.1

Transformer過程為進一步細化自注意力機制層,增加了“多頭注意力機制”的概念,從兩個方面提高自注意力層的性能。第一方面,擴展模型關(guān)注不同位置的能力,第二方面,給自注意力層多個“表示子空間”。2.3.1

Transformer過程多頭自注意力機制不止有一組Q/K/V權(quán)重矩陣,而是有多組(例如用8組),所以每個編碼器/解碼器使用8個“頭”(可以理解為8個互不干擾的自注意力機制運算),每一組的Q/K/V都不相同。然后,得到8個不同的權(quán)重矩陣Z,每個權(quán)重矩陣被用來將輸入向量投射到不同的表示子空間。經(jīng)過多頭注意力機制后,就會得到多個權(quán)重矩陣Z,將多個Z進行拼接就得到了自注意力機制層的輸出。

圖2-10自注意力機制層的輸出2.3.1

Transformer過程自注意力機制層的輸出即是前饋神經(jīng)網(wǎng)絡(luò)層的輸入,只需要一個矩陣就可以了,不需要8個矩陣,所以需要把8個矩陣壓縮成一個,這只需要把這些矩陣拼接起來,然后用一個額外的權(quán)重矩陣與之相乘即可。最終的Z就作為前饋神經(jīng)網(wǎng)絡(luò)的輸入。圖2-118個矩陣的壓縮2.3.1

Transformer過程接下來就進入小編碼器里邊的前饋神經(jīng)網(wǎng)模塊了。前饋神經(jīng)網(wǎng)絡(luò)的輸入是自注意力機制的輸出,即圖2-10中的Z,是一個維度為(序列長度×D詞向量)的矩陣。之后前饋神經(jīng)網(wǎng)絡(luò)的輸出也是同樣的維度。進一步,一個大的編碼部分就是將這個過程重復(fù)6次,最終得到整個編碼部分的輸出。然后,在Transformer中使用6個解碼器。為了解決梯度消失問題,在解碼器和編碼器中都用了殘差神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),即每一個前饋神經(jīng)網(wǎng)絡(luò)的輸入不光包含上述自注意力機制的輸出Z,還包含最原始的輸入。2.3.1

Transformer過程編碼器是對輸入(機器學習)進行編碼,使用的是自注意力機制+前饋神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。在解碼器中使用的也是同樣的結(jié)構(gòu),首先對輸出(機器學習)計算自注意力得分。不同的地方在于,執(zhí)行自注意力機制后,將其輸出與解碼器模塊的輸出計算一遍注意力機制得分,之后再進入前饋神經(jīng)網(wǎng)絡(luò)模塊。2.3.1

Transformer過程至此,通過Transformer編碼和解碼兩大模塊,完成將“機器學習”翻譯成“machinelearing”的過程。解碼器輸出本來是一個浮點型的向量,為轉(zhuǎn)化成“machinelearing”這兩個詞,這個工作是最后的線性層接上一個softmax。其中,線性層是一個簡單的全連接神經(jīng)網(wǎng)絡(luò),它將解碼器產(chǎn)生的向量投影到一個更高維度的向量上,假設(shè)模型的詞匯表是10000個詞,那么向量就有10000個維度,每個維度對應(yīng)一個唯一的詞的得分。之后的softmax層將這些分數(shù)轉(zhuǎn)換為概率。選擇概率最大的維度,并對應(yīng)地生成與之關(guān)聯(lián)的單詞作為此時間步的輸出就是最終的輸出。2.3.1

Transformer過程假設(shè)詞匯表維度是6,那么輸出最大概率詞匯的過程如下圖所示。以上的Transformer框架并沒有考慮順序信息,這里需要注意“位置編碼”概念,可以讓輸入攜帶位置信息。圖2-12最大概率詞匯過程2.3.1

Transformer過程Transformer模型主要由編碼器和解碼器兩部分組成。(1)編碼器:由多個相同的層組成,每一層都有兩個子層。第一個子層是自注意力層,它可以考慮到輸入序列中所有元素的上下文關(guān)系。第二個子層是一個前饋神經(jīng)網(wǎng)絡(luò)。每個子層后面都跟有一個殘差連接和層歸一化。編碼器的任務(wù)是將輸入序列轉(zhuǎn)換為一組連續(xù)的表示,這些表示考慮了輸入序列中每個元素的上下文。2.3.2

Transformer結(jié)構(gòu)(2)解碼器:由多個相同的層組成,每一層有三個子層。第一個子層是自注意力層,但它在處理當前元素時,只考慮到該元素及其之前的元素,不考慮其后的元素,這種機制被稱為掩碼自注意力。第二個子層是一個編碼器-解碼器注意力層,它使解碼器可以關(guān)注到編碼器的輸出。第三個子層是一個前饋神經(jīng)網(wǎng)絡(luò)。每個子層后面都跟有一個殘差連接和層歸一化。解碼器的任務(wù)是基于編碼器的輸出和前面已經(jīng)生成的元素,生成下一個元素。2.3.2

Transformer結(jié)構(gòu)基于Transformer的編碼器和解碼器結(jié)構(gòu)如圖2-13所示,左側(cè)和右側(cè)分別對應(yīng)著編碼器和解碼器結(jié)構(gòu),它們均由若干個基本的Transformer塊組成(對應(yīng)圖中的灰色框)。這里N×表示進行了N次堆疊。每個Transformer塊都接收一個向量序列{xi}作為輸入,并輸出一個等長的向量序列作為輸出{yi}。這里的xi和yi分別對應(yīng)文本序列中的一個詞元的表示。yi是當前Transformer塊對輸入xi進一步整合其上下文語義后對應(yīng)的輸出。2.3.2

Transformer結(jié)構(gòu)

圖2-13基于Transformer的編碼器和解碼器結(jié)構(gòu)2.3.2

Transformer結(jié)構(gòu)先通過輸入嵌入層將每個單詞轉(zhuǎn)換為其相對應(yīng)的向量表示。在從輸入到輸出的語義抽象過程中,主要涉及如下幾個模塊。(1)注意力層:自注意力操作是基于Transformer的機器翻譯模型的基本操作,在源語言的編碼和目標語言的生成中頻繁地被使用,以建模源語言、目標語言任意兩個單詞之間的依賴關(guān)系。使用多頭注意力機制整合上下文語義,它使得序列中任意兩個單詞之間的依賴關(guān)系可以直接被建模而不基于傳統(tǒng)的循環(huán)結(jié)構(gòu),從而更好地解決文本的長程依賴問題。2.3.3

Transformer模塊(2)位置感知前饋網(wǎng)絡(luò)層:前饋層接收自注意力子層的輸出作為輸入,并通過一個帶有ReLU激活函數(shù)的兩層全連接網(wǎng)絡(luò)對輸入文本序列中的每個單詞表示進行更復(fù)雜的非線性變換。2.3.3

Transformer模塊由Transformer結(jié)構(gòu)組成的網(wǎng)絡(luò)結(jié)構(gòu)通常都非常龐大。編碼器和解碼器均由很多層基本的Transformer塊組成,每一層中都包含復(fù)雜的非線性映射,這就導致模型的訓練比較困難。因此,研究人員在Transformer塊中進一步引入了殘差連接與層歸一化技術(shù),以進一步提升訓練的穩(wěn)定性。具體來說,殘差連接主要是指使用一條直連通道將對應(yīng)子層的輸入連接到輸出,避免在優(yōu)化過程中因網(wǎng)絡(luò)過深而產(chǎn)生潛在的梯度消失問題。2.3.3

Transformer模塊(3)殘差連接:對應(yīng)圖中的Add部分。它是一條分別作用在上述兩個子層中的直連通路,被用于連接兩個子層的輸入與輸出,使信息流動更高效,有利于模型的優(yōu)化。(4)層歸一化:對應(yīng)圖中的Norm部分。它作用于上述兩個子層的輸出表示序列,對表示序列進行層歸一化操作,同樣起到穩(wěn)定優(yōu)化的作用。2.3.3

Transformer模塊PART04生成式人工智能隨著互聯(lián)網(wǎng)、移動設(shè)備和云計算的興起,生成式AI代表了技術(shù)的重大進步。其直接的實際效益特別是在提高生產(chǎn)力和效率方面。生成式AI模型廣泛應(yīng)用于許多領(lǐng)域,這些系統(tǒng)的顯著示例和應(yīng)用體現(xiàn)在寫作、藝術(shù)、音樂和其他創(chuàng)新領(lǐng)域。生成式AI是一項變革性技術(shù),它利用神經(jīng)網(wǎng)絡(luò)來生成原始內(nèi)容,包括文本、圖像、視頻等。ChatGPT、Bard、DALL-E2、Midjourney和GitHubCopilot等知名應(yīng)用程序展示了這一突破的早期前景和潛力。2.4生成式人工智能深入了解生成式AI,探索其機制、現(xiàn)實世界的例子、市場動態(tài)以及其多個“層”的復(fù)雜性,了解這項技術(shù)的潛力,它如何塑造行業(yè),以及對最終用戶發(fā)揮作用和變革的各個層面。2.4生成式人工智能生成式AI是AI的一個子集,它利用算法來創(chuàng)建新內(nèi)容,例如文本、圖像、視頻、音頻、代碼、設(shè)計或其他形式。生成式AI模型的工作原理是利用神經(jīng)網(wǎng)絡(luò)來分析和識別所訓練的數(shù)據(jù)中的模式和結(jié)構(gòu)。利用這種理解,生成了新的內(nèi)容,既模仿類人的創(chuàng)作,又擴展了訓練數(shù)據(jù)的模式。這些神經(jīng)網(wǎng)絡(luò)的功能根據(jù)所使用的具體技術(shù)或架構(gòu)而有所不同,包括Transformer、生成對抗網(wǎng)絡(luò)(GAN)、變分自動編碼器(VAE)和擴散模型。2.4.1生成式AI定義(1)Transformer。它利用自注意機制來處理和分析數(shù)據(jù)序列,比傳統(tǒng)方法更高效。與僅關(guān)注單個句子的傳統(tǒng)AI模型不同,Transformer可以識別整個頁面、章節(jié)或書籍中單詞之間的聯(lián)系。這使得它們非常適合在大規(guī)模、未標記的數(shù)據(jù)集上進行訓練。(2)生成對抗網(wǎng)絡(luò)(GAN)。由兩部分組成:創(chuàng)建新數(shù)據(jù)的生成器和區(qū)分真實數(shù)據(jù)和計算機生成數(shù)據(jù)的鑒別器。兩個組件同時訓練。如果生成器產(chǎn)生不切實際的樣本,則生成器會受到懲罰,而鑒別器如果錯誤地識別計算機生成的示例,則會受到懲罰。2.4.1生成式AI定義(3)變分自動編碼器(VAE)。通過一組潛在變量連接的編碼器和解碼器組成。這些無監(jiān)督學習模型致力于通過將數(shù)據(jù)集壓縮為簡化形式來使輸入和輸出盡可能相同。潛在變量允許通過將隨機集輸入解碼器來生成新數(shù)據(jù),從而促進輸出的創(chuàng)造力和多樣性。(4)擴散模型。這些模型是經(jīng)過訓練的算法,通過添加隨機噪聲然后巧妙地刪除來操縱數(shù)據(jù)。它們學習如何從噪聲失真的版本中檢索原始數(shù)據(jù),這在圖像生成應(yīng)用程序中特別有用。通過剖析照片和藝術(shù)品的組成部分,擴散模型能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論