大語言模型基礎(chǔ)微課版課件匯周蘇第1-6章大模型基礎(chǔ) -大模型開發(fā)組織

上傳人：h*** IP屬地：山東上傳時(shí)間：2024-12-17 格式：PPTX 頁數(shù)：517 大?。?6.53MB 積分：50 舉報(bào) 版權(quán)申訴

大語言模型基礎(chǔ)微課版課件匯周蘇第1-6章大模型基礎(chǔ) -大模型開發(fā)組織_第2頁

大語言模型基礎(chǔ)微課版課件匯周蘇第1-6章大模型基礎(chǔ) -大模型開發(fā)組織_第3頁

大語言模型基礎(chǔ)微課版課件匯周蘇第1-6章大模型基礎(chǔ) -大模型開發(fā)組織_第4頁

大語言模型基礎(chǔ)微課版課件匯周蘇第1-6章大模型基礎(chǔ) -大模型開發(fā)組織_第5頁

已閱讀5頁，還剩512頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

浙江省普通本科高?！笆奈濉敝攸c(diǎn)教材建設(shè)成果之一大語言模型基礎(chǔ)什么是ChatGPTOpenAI是一家人工智能研究實(shí)驗(yàn)室，進(jìn)行AI研究的目的是促進(jìn)和開發(fā)友好的AI。OpenAI系統(tǒng)運(yùn)行在世界上第五強(qiáng)大的超級(jí)計(jì)算機(jī)上。馬斯克、微軟都是該組織的捐助者。2020年OpenAI發(fā)布GPT-3，這是一種在大型互聯(lián)網(wǎng)數(shù)據(jù)集上訓(xùn)練的語言模型，旨在用自然語言回答問題，但它也可以在語言之間進(jìn)行翻譯并連貫地生成即興文本。什么是ChatGPT2021年OpenAI推出DALL-E，這是一種深度學(xué)習(xí)模型，可以從自然語言描述中生成數(shù)字圖像。2022年12月，OpenAI推出基于GPT-3.5的新型AI聊天機(jī)器人ChatGPT，受到媒體的廣泛報(bào)道。在發(fā)布僅兩個(gè)月后就擁有1億用戶（成為史上用戶增長最快的應(yīng)用）。2023年3月14日，OpenAI發(fā)布了GPT-4聊天機(jī)器人語言模型。相比GPT3.5，GPT4.0訪問更加穩(wěn)定，數(shù)據(jù)更加準(zhǔn)確，并且更加符合我們?nèi)祟惖乃季S方式。簡而言之，更智能！什么是MidjourneyMidjourney（簡稱MJ）是AI繪圖里實(shí)用性最強(qiáng)的軟件，其開發(fā)團(tuán)隊(duì)是美國舊金山的小型自籌資金團(tuán)隊(duì)，專注于設(shè)計(jì)、人類基礎(chǔ)設(shè)施和人工智能。MJ是一個(gè)致力于探索新的思維方式并擴(kuò)展人類的想象力的人工智能繪圖平臺(tái)。它于2022年7月12日首次公測，并于2022年3月14日正式以架設(shè)在Discord上的服務(wù)器形式推出，用戶注冊(cè)Discord并加入MJ服務(wù)器即可開始AI創(chuàng)作。ChatGPT+Midjourney一雙丹鳳三角眼，兩彎柳葉吊梢眉，身量苗條，體格風(fēng)騷，粉面含春威不露，丹唇未啟笑先聞。ApairofDanfengtriangleeyes,Twocurvedwillowleaveshangingeyebrows,Slimandcoquettish,Powdernoodlescontainspringpower,Dandidn'tsmileandsmellfirst.谷歌翻譯：王熙鳳ChatGPT+Midjourney一雙丹鳳三角眼，兩彎柳葉吊梢眉，身量苗條，體格風(fēng)騷，粉面含春威不露，丹唇未啟笑先聞。ApairofDanfengtriangleeyes,Twocurvedwillowleaveshangingeyebrows,Slimandcoquettish,Powdernoodlescontainspringpower,Dandidn'tsmileandsmellfirst.谷歌翻譯：王熙鳳大語言模型基礎(chǔ)周蘇教授QQ：81505050第1章大模型基礎(chǔ)幾千年來，人們一直在試圖理解人類是如何思考和行動(dòng)的，也就是不斷地了解人類的大腦是如何憑借它那小部分的物質(zhì)去感知、理解、預(yù)測并操縱一個(gè)遠(yuǎn)比其自身更大更復(fù)雜的世界。隨著科技的飛速發(fā)展，“數(shù)據(jù)成為新生產(chǎn)要素，算力成為新基礎(chǔ)能源，人工智能（AI）成為新生產(chǎn)工具?！倍斯ぶ悄艽笳Z言模型（LLM，大模型）作為AI領(lǐng)域中的重要組成部分，正在引領(lǐng)著科技發(fā)展的新方向。第1章大模型基礎(chǔ)2023年被稱為生成式人工智能（GenAI）元年，以ChatGPT為代表的生成式AI技術(shù)的涌現(xiàn)獲得了前所未有的關(guān)注。大型科技公司、各類創(chuàng)業(yè)公司迅速入場，投入海量資源，推動(dòng)了大模型能力和應(yīng)用的快速演進(jìn)。第1章大模型基礎(chǔ)01人工智能基礎(chǔ)02大模型定義03大模型技術(shù)的形成04通用人工智能目錄/CONTENTSPART01人工智能基礎(chǔ)人工智能（AI）是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)，是一門自然科學(xué)、社會(huì)科學(xué)和技術(shù)科學(xué)交叉的邊緣學(xué)科，它涉及的學(xué)科內(nèi)容包括哲學(xué)和認(rèn)知科學(xué)、數(shù)學(xué)、神經(jīng)生理學(xué)、心理學(xué)、計(jì)算機(jī)科學(xué)、信息論、控制論、不定性論、仿生學(xué)、社會(huì)結(jié)構(gòu)學(xué)與科學(xué)發(fā)展觀等。1.1人工智能基礎(chǔ)作為計(jì)算機(jī)科學(xué)的一個(gè)分支，人工智能專注于創(chuàng)建“智能系統(tǒng)”，這些系統(tǒng)具有推理、學(xué)習(xí)、適應(yīng)和自主行動(dòng)的能力。人工智能是一個(gè)多元化的領(lǐng)域，圍繞著設(shè)計(jì)、研究、開發(fā)和應(yīng)用能夠展現(xiàn)出類似人類認(rèn)知功能的機(jī)器而展開。具有人工智能的機(jī)器努力模仿人類的思維和行為，包括但不限于理解自然語言、識(shí)別模式、解決問題和做出決策。1.1人工智能基礎(chǔ)可以把人工智能定義為一種工具，用來幫助或者替代人類思維。它是一項(xiàng)計(jì)算機(jī)程序，可以獨(dú)立存在于數(shù)據(jù)中心、個(gè)人計(jì)算機(jī)，也可以通過諸如機(jī)器人之類的設(shè)備體現(xiàn)出來。它具備智能的外在特征，有能力在特定環(huán)境中有目的地獲取和應(yīng)用知識(shí)與技能。人工智能是對(duì)人的意識(shí)、思維的信息過程的模擬。人工智能不是人的智能，但能像人那樣思考，甚至也可能超過人的智能。1.1.1人工智能的實(shí)現(xiàn)途徑對(duì)于人的思維模擬的研究可以從兩個(gè)方向進(jìn)行，一是結(jié)構(gòu)模擬，仿照人腦的結(jié)構(gòu)機(jī)制，制造出“類人腦”的機(jī)器；二是功能模擬，從人腦的功能過程進(jìn)行模擬。現(xiàn)代電子計(jì)算機(jī)的產(chǎn)生便是對(duì)人腦思維功能的模擬，是對(duì)人腦思維的信息過程的模擬。實(shí)現(xiàn)人工智能有三種途徑，即強(qiáng)人工智能、弱人工智能和實(shí)用型人工智能。1.1.1人工智能的實(shí)現(xiàn)途徑強(qiáng)人工智能，又稱多元智能。研究人員希望人工智能最終能成為多元智能并且超越大部分人類的能力。有些人認(rèn)為要達(dá)成以上目標(biāo)，可能需要擬人化的特性，如人工意識(shí)或人工大腦，這被認(rèn)為是人工智能的完整性：為了解決其中一個(gè)問題，你必須解決全部的問題。即使一個(gè)簡單和特定的任務(wù)，如機(jī)器翻譯，要求機(jī)器按照作者的論點(diǎn)（推理），知道什么是被人談?wù)摚ㄖR(shí)），忠實(shí)地再現(xiàn)作者的意圖（情感計(jì)算）。因此，機(jī)器翻譯被認(rèn)為是具有人工智能完整性。1.1.1人工智能的實(shí)現(xiàn)途徑強(qiáng)人工智能的觀點(diǎn)認(rèn)為有可能制造出真正能推理和解決問題的智能機(jī)器，并且這樣的機(jī)器將被認(rèn)為是有知覺的，有自我意識(shí)的。強(qiáng)人工智能可以有兩類：（1）類人的人工智能，即機(jī)器的思考和推理就像人的思維一樣；（2）非類人的人工智能，即機(jī)器產(chǎn)生了和人完全不一樣的知覺和意識(shí)，使用和人完全不一樣的推理方式。強(qiáng)人工智能即便可以實(shí)現(xiàn)也很難被證實(shí)。為了創(chuàng)建具備強(qiáng)人工智能的計(jì)算機(jī)程序，我們首先必須清楚了解人類思維的工作原理，而想要實(shí)現(xiàn)這樣的目標(biāo)，還有很長的路要走。1.1.1人工智能的實(shí)現(xiàn)途徑弱人工智能，認(rèn)為不可能制造出能真正地推理和解決問題的智能機(jī)器，這些機(jī)器只不過看起來像是智能的，但是并不真正擁有智能，也不會(huì)有自主意識(shí)。它只要求機(jī)器能夠擁有智能行為，具體的實(shí)施細(xì)節(jié)并不重要。深藍(lán)就是在這樣的理念下產(chǎn)生的，它沒有試圖模仿國際象棋大師的思維，僅僅遵循既定的操作步驟。計(jì)算機(jī)每秒驗(yàn)算的可能走位就高達(dá)2億個(gè)，就算思維驚人的象棋大師也不太可能達(dá)到這樣的速度。1.1.1人工智能的實(shí)現(xiàn)途徑人類擁有高度發(fā)達(dá)的戰(zhàn)略意識(shí)，這種意識(shí)將需要考慮的走位限制在幾步或是幾十步以內(nèi)，而計(jì)算機(jī)的考慮數(shù)以百萬計(jì)。就弱人工智能而言，這種差異無關(guān)緊要，能證明計(jì)算機(jī)比人類更會(huì)下象棋就足夠了。如今，主流的研究活動(dòng)都集中在弱人工智能上，并且一般認(rèn)為這一研究領(lǐng)域已經(jīng)取得可觀的成就。1.1.1人工智能的實(shí)現(xiàn)途徑第三種途徑稱為實(shí)用型人工智能。研究者們將目標(biāo)放低，不再試圖創(chuàng)造出像人類一般智慧的機(jī)器。眼下我們已經(jīng)知道如何創(chuàng)造出能模擬昆蟲行為的機(jī)器人。機(jī)械家蠅看起來似乎并沒有什么用，但即使是這樣的機(jī)器人，在完成某些特定任務(wù)時(shí)也是大有裨益的。比如，一群如狗大小，具備螞蟻智商的機(jī)器人在清理碎石和在災(zāi)區(qū)找尋幸存者時(shí)就能夠發(fā)揮很大的作用。圖1-1靠激光束驅(qū)動(dòng)的RoboFly昆蟲機(jī)器人1.1.1人工智能的實(shí)現(xiàn)途徑隨著模型變得越來越精細(xì)，機(jī)器能夠模仿的生物越來越高等，最終，我們可能必須接受這樣的事實(shí)：機(jī)器似乎變得像人類一樣有智慧了。也許實(shí)用型人工智能與強(qiáng)人工智能殊途同歸，但考慮到一切的復(fù)雜性，我們不會(huì)相信機(jī)器人會(huì)有自我意識(shí)。1.1.1人工智能的實(shí)現(xiàn)途徑機(jī)器學(xué)習(xí)是人工智能的一個(gè)關(guān)鍵子集，是一種能夠根據(jù)輸入數(shù)據(jù)訓(xùn)練模型的系統(tǒng)。它的主要目標(biāo)是讓計(jì)算機(jī)系統(tǒng)能夠通過對(duì)模型進(jìn)行訓(xùn)練，使其能夠從新的或以前未見過的數(shù)據(jù)中得出有用的預(yù)測。換句話說，機(jī)器學(xué)習(xí)的核心是“使用算法解析數(shù)據(jù)，從中學(xué)習(xí)，然后對(duì)世界上的某件事情做出決定或預(yù)測”。這意味著，與其顯式地編寫程序來執(zhí)行某些任務(wù)，不如教計(jì)算機(jī)學(xué)會(huì)如何開發(fā)一個(gè)算法來完成任務(wù)。1.1.2機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在機(jī)器學(xué)習(xí)中，我們不是直接編程告訴計(jì)算機(jī)如何完成任務(wù)，而是提供大量的數(shù)據(jù)，讓機(jī)器通過數(shù)據(jù)找出隱藏的模式或規(guī)律，然后用這些規(guī)律來預(yù)測新的、未知的數(shù)據(jù)。機(jī)器學(xué)習(xí)可以根據(jù)所處理的數(shù)據(jù)自主地學(xué)習(xí)和適應(yīng)，大大減少了對(duì)顯式編程的需求。通常將人工智能看作是自主機(jī)器智能的廣泛目標(biāo)，而機(jī)器學(xué)習(xí)則是實(shí)現(xiàn)這一目標(biāo)的具體方法。1.1.2機(jī)器學(xué)習(xí)和深度學(xué)習(xí)比如，如果我們通過代碼告訴計(jì)算機(jī)，圖片里紅色是玫瑰，有說明的是向日葵，那么程序?qū)ǚN類的判斷就是通過人類直接編寫邏輯達(dá)成的，不屬于機(jī)器學(xué)習(xí)，機(jī)器什么也沒學(xué)。但是如果我們給計(jì)算機(jī)大量玫瑰和向日葵的圖片，讓計(jì)算機(jī)自行識(shí)別模式、總結(jié)規(guī)律，從而能對(duì)后來新輸入的圖片進(jìn)行預(yù)測和判斷，這就是機(jī)器學(xué)習(xí)。1.1.2機(jī)器學(xué)習(xí)和深度學(xué)習(xí)深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集，其核心在于使用人工神經(jīng)網(wǎng)絡(luò)模仿人腦處理信息的方式，通過層次化的方法提取和表示數(shù)據(jù)的特征。圖1-2深度學(xué)習(xí)示意1.1.2機(jī)器學(xué)習(xí)和深度學(xué)習(xí)雖然單層神經(jīng)網(wǎng)絡(luò)就可以做出近似預(yù)測，但是添加更多的隱藏層可以優(yōu)化預(yù)測的精度和準(zhǔn)確性。神經(jīng)網(wǎng)絡(luò)由許多基本計(jì)算和儲(chǔ)存單元組成，這些單元被稱為神經(jīng)元。神經(jīng)元通過層層連接來處理數(shù)據(jù)，并且深度學(xué)習(xí)模型通常有很多層，能夠?qū)W習(xí)和表示大量復(fù)雜的模式，這使它們?cè)谥T如圖像識(shí)別、語音識(shí)別和自然語言處理等任務(wù)中非常有效。1.1.2機(jī)器學(xué)習(xí)和深度學(xué)習(xí)機(jī)器學(xué)習(xí)有三種主要類型，即監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。其中，監(jiān)督學(xué)習(xí)就像一個(gè)有答案的教科書，模型可以從標(biāo)記的數(shù)據(jù)中學(xué)習(xí)，也就是說，它有答案可以參考學(xué)習(xí)；而無監(jiān)督學(xué)習(xí)則更像一個(gè)無答案的謎題，模型需要自己在數(shù)據(jù)中找出結(jié)構(gòu)和關(guān)系。此外，介于兩者之間的方法稱為強(qiáng)化學(xué)習(xí)，其模型通過經(jīng)驗(yàn)學(xué)習(xí)執(zhí)行動(dòng)作。1.1.3監(jiān)督與無監(jiān)督學(xué)習(xí)（1）監(jiān)督學(xué)習(xí)，也稱有導(dǎo)師學(xué)習(xí)，是指輸入數(shù)據(jù)中有導(dǎo)師信號(hào)，以概率函數(shù)、代數(shù)函數(shù)或人工神經(jīng)網(wǎng)絡(luò)為基函數(shù)模型，采用迭代計(jì)算方法，學(xué)習(xí)結(jié)果為函數(shù)。在監(jiān)督學(xué)習(xí)里，機(jī)器學(xué)習(xí)算法接收有標(biāo)簽的訓(xùn)練數(shù)據(jù)（標(biāo)記數(shù)據(jù)），標(biāo)簽就是期望的輸出值。所以每一個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)都既包括輸入特征，也包括期望的輸出值。1.1.3監(jiān)督與無監(jiān)督學(xué)習(xí)計(jì)算機(jī)使用特定的模式來識(shí)別每種標(biāo)記類型的新樣本，即在機(jī)器學(xué)習(xí)過程中提供對(duì)錯(cuò)指示，一般是在數(shù)據(jù)組中包含最終結(jié)果(0,1)。通過算法讓機(jī)器自我減少誤差。監(jiān)督學(xué)習(xí)從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個(gè)函數(shù)，當(dāng)接收到一個(gè)新的數(shù)據(jù)時(shí)，可以根據(jù)這個(gè)函數(shù)預(yù)測結(jié)果。算法的目標(biāo)是學(xué)習(xí)輸入和輸出之間的映射關(guān)系，從而在給定新的輸入特征后，能夠準(zhǔn)確預(yù)測出相應(yīng)的輸出值。1.1.3監(jiān)督與無監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)的主要類型是分類和回歸。在分類中，機(jī)器被訓(xùn)練成將一個(gè)組劃分為特定的類，一個(gè)簡單例子就是電子郵件中的垃圾郵件過濾器。過濾器分析你以前標(biāo)記為垃圾郵件的電子郵件，并將它們與新郵件進(jìn)行比較，如果它們有一定的百分比匹配，這些新郵件將被標(biāo)記為垃圾郵件并發(fā)送到適當(dāng)?shù)奈募A中。1.1.3監(jiān)督與無監(jiān)督學(xué)習(xí)在回歸中，機(jī)器使用先前的（標(biāo)記的）數(shù)據(jù)來預(yù)測未來，天氣應(yīng)用是回歸的好例子。使用氣象事件的歷史數(shù)據(jù)（即平均氣溫、濕度和降水量），手機(jī)天氣預(yù)報(bào)APP可以查看當(dāng)前天氣，并對(duì)未來時(shí)間的天氣進(jìn)行預(yù)測。例如，拿一堆貓、狗的照片和照片對(duì)應(yīng)的“貓”“狗”標(biāo)簽進(jìn)行訓(xùn)練，然后讓模型根據(jù)沒見過的照片預(yù)測是貓還是狗，這就屬于分類。拿一些房子特征的數(shù)據(jù)，比如面積、臥室數(shù)量、是否帶陽臺(tái)等和相應(yīng)的房價(jià)作為標(biāo)簽進(jìn)行訓(xùn)練，然后讓模型根據(jù)沒見過的房子的特征預(yù)測房價(jià)——這就屬于回歸。1.1.3監(jiān)督與無監(jiān)督學(xué)習(xí)（2）無監(jiān)督學(xué)習(xí)，又稱無導(dǎo)師學(xué)習(xí)、歸納性學(xué)習(xí)。在無監(jiān)督學(xué)習(xí)中，學(xué)習(xí)的數(shù)據(jù)是沒有標(biāo)簽的，是指輸入數(shù)據(jù)中無導(dǎo)師信號(hào)，采用聚類方法，學(xué)習(xí)結(jié)果為類別，所以算法的任務(wù)是自主發(fā)現(xiàn)數(shù)據(jù)里的模式或規(guī)律。典型的無導(dǎo)師學(xué)習(xí)有發(fā)現(xiàn)學(xué)習(xí)、聚類、競爭學(xué)習(xí)等。無監(jiān)督學(xué)習(xí)通過循環(huán)和遞減運(yùn)算來減小誤差，達(dá)到分類的目的。在無監(jiān)督學(xué)習(xí)中，數(shù)據(jù)是無標(biāo)簽的。由于大多數(shù)真實(shí)世界的數(shù)據(jù)都沒有標(biāo)簽，這樣的算法就特別有用。比如，拿一堆新聞文章，讓模型根據(jù)主題或內(nèi)容的特征自動(dòng)組織相似文章。1.1.3監(jiān)督與無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)分為聚類和降維。聚類用于根據(jù)屬性和行為對(duì)象進(jìn)行分組。這與分類不同，因?yàn)檫@些組不是你提供的。聚類的一個(gè)例子是將一個(gè)組劃分成不同的子組（例如，基于年齡和婚姻狀況），然后應(yīng)用到有針對(duì)性的營銷方案中。降維通過找到共同點(diǎn)來減少數(shù)據(jù)集的變量。大多數(shù)大數(shù)據(jù)可視化使用降維來識(shí)別趨勢和規(guī)則。1.1.3監(jiān)督與無監(jiān)督學(xué)習(xí)（3）強(qiáng)化學(xué)習(xí)。是讓模型在環(huán)境里采取行動(dòng)，獲得結(jié)果反饋。從反饋里學(xué)習(xí)，從而能在給一定情況下采取最佳行動(dòng)來最大化獎(jiǎng)勵(lì)或是最小化損失。例如剛開始的時(shí)候，小狗會(huì)隨心所欲做出很多動(dòng)作，但隨著和馴犬師的互動(dòng)，小狗會(huì)發(fā)現(xiàn)某些動(dòng)作能夠獲得零食，某些動(dòng)作沒有零食，某些動(dòng)作甚至?xí)馐軕土P。通過觀察動(dòng)作和獎(jiǎng)懲之間的聯(lián)系，小狗的行為會(huì)逐漸接近訓(xùn)犬師的期望。在很多任務(wù)上，比如說讓模型下圍棋，獲得不同行動(dòng)導(dǎo)致的獎(jiǎng)勵(lì)或損失反饋，從而在一局局游戲里優(yōu)化策略，學(xué)習(xí)如何采取行動(dòng)達(dá)到高分。1.1.3監(jiān)督與無監(jiān)督學(xué)習(xí)PART02大模型定義AI大語言模型（LLM）是指那些具有大規(guī)模參數(shù)和復(fù)雜結(jié)構(gòu)的深度學(xué)習(xí)模型。這些模型通常基于神經(jīng)網(wǎng)絡(luò)，通過大量的數(shù)據(jù)訓(xùn)練，能夠?qū)崿F(xiàn)復(fù)雜的任務(wù)。尤其在自然語言處理領(lǐng)域，這些模型的主要目標(biāo)是理解和生成人類語言。為此，模型需要在大量文本數(shù)據(jù)上進(jìn)行訓(xùn)練，以學(xué)習(xí)語言的各種模式和結(jié)構(gòu)。例如，OpenAI推出的ChatGPT就是一個(gè)大模型的例子，它被訓(xùn)練來理解和生成人類語言，以便進(jìn)行有效的對(duì)話和解答各種問題。1.2大模型定義大模型可以進(jìn)行預(yù)訓(xùn)練，然后針對(duì)特定目標(biāo)進(jìn)行微調(diào)。以訓(xùn)練狗為例，可以訓(xùn)練它坐、跑、蹲和保持不動(dòng)。但如果訓(xùn)練的是警犬、導(dǎo)盲犬和獵犬，則需要特殊的訓(xùn)練方法。大模型的訓(xùn)練也采用與之類似的思路。大模型被訓(xùn)練來解決通用（常見）的語言問題，如文本分類、問答、文檔總結(jié)和文本生成等。（1）文本分類：大模型可以通過對(duì)輸入文本進(jìn)行分析和學(xué)習(xí)，將其歸類到一個(gè)或多個(gè)預(yù)定義的類別中。例如，可以使用大模型來分類電子郵件是否為垃圾郵件，或?qū)⒉┛臀恼職w類為積極、消極或中立。1.2.1模型預(yù)訓(xùn)練和微調(diào)（2）問答：大模型可以回答用戶提出的自然語言問題。例如，可以使用大模型來回答搜索引擎中的用戶查詢，或者回答智能助手中的用戶問題。（3）文檔總結(jié)：大模型可以自動(dòng)提取文本中的主要信息，以生成文檔摘要或摘錄。例如，可以使用大模型來生成新聞文章的概要，或從長篇小說中提取關(guān)鍵情節(jié)和事件。（4）文本生成：大模型可以使用先前學(xué)習(xí)的模式和結(jié)構(gòu)來生成新的文本。例如，可以使用大模型來生成詩歌、短故事、或者以特定主題的文章。1.2.1模型預(yù)訓(xùn)練和微調(diào)另一方面，大模型可以基于特定領(lǐng)域的小規(guī)模數(shù)據(jù)集進(jìn)行訓(xùn)練，來定制化解決不同領(lǐng)域如零售、金融、娛樂等的特定問題。1.2.1模型預(yù)訓(xùn)練和微調(diào)在“大模型”的上下文中，“大”主要有兩層含義。一方面，它指的是模型的參數(shù)數(shù)量。在這些模型中，參數(shù)的數(shù)量通常會(huì)非常大，達(dá)到數(shù)十億甚至數(shù)百億。這使得模型能夠?qū)W習(xí)和表示非常復(fù)雜的模式。另一方面，“大”也指的是訓(xùn)練數(shù)據(jù)的規(guī)模。大模型通?？梢栽趤碜曰ヂ?lián)網(wǎng)、書籍、新聞等各種來源的大規(guī)模文本數(shù)據(jù)上進(jìn)行訓(xùn)練。1.2.2大模型的特征在大模型中，“通用”這個(gè)詞描述的是模型的應(yīng)用范圍。通用語言模型在訓(xùn)練時(shí)使用了來自各種領(lǐng)域的數(shù)據(jù)，因此它們能夠處理各種類型的任務(wù)，不僅限于某一個(gè)特定的任務(wù)或領(lǐng)域。這使得這些模型在處理新的、未見過的任務(wù)時(shí)具有很強(qiáng)的泛化能力。1.2.2大模型的特征預(yù)訓(xùn)練和微調(diào)。在預(yù)訓(xùn)練階段，模型在大規(guī)模的通用文本數(shù)據(jù)上進(jìn)行訓(xùn)練，學(xué)習(xí)語言的基本結(jié)構(gòu)和各種常識(shí)。然后，在微調(diào)階段，模型在更小、更特定的數(shù)據(jù)集上進(jìn)行進(jìn)一步的訓(xùn)練。這個(gè)數(shù)據(jù)集通常是針對(duì)某個(gè)特定任務(wù)或領(lǐng)域的，例如醫(yī)學(xué)文本、法律文本，或者是特定的對(duì)話數(shù)據(jù)。微調(diào)可以讓模型更好地理解和生成這個(gè)特定領(lǐng)域的語言，從而更好地完成特定的任務(wù)。1.2.2大模型的特征大模型的優(yōu)勢首先在于其強(qiáng)大的處理能力。大模型擁有強(qiáng)大的處理能力，能夠處理海量的數(shù)據(jù)，實(shí)現(xiàn)復(fù)雜的任務(wù)。單一模型可用于不同任務(wù)：由于大模型是通用的，具有強(qiáng)大的泛化能力，所以它們可以處理各種類型的任務(wù)，能夠在訓(xùn)練數(shù)據(jù)之外的場景中應(yīng)用，比如文本分類、命名實(shí)體識(shí)別、情感分析、問答系統(tǒng)、文本生成等。這意味著可以使用同一個(gè)預(yù)訓(xùn)練模型來處理不同的任務(wù)，只需要進(jìn)行相應(yīng)的微調(diào)就可以。這大大減少了開發(fā)和維護(hù)不同模型的復(fù)雜性和成本。1.2.3大模型的優(yōu)勢微調(diào)過程只需要最小的數(shù)據(jù)：盡管大模型在預(yù)訓(xùn)練階段需要大量的通用文本數(shù)據(jù)，但在微調(diào)階段，它們通常只需要相對(duì)較小的領(lǐng)域特定數(shù)據(jù)。這是因?yàn)槟Ｐ驮陬A(yù)訓(xùn)練階段已經(jīng)學(xué)習(xí)了大量的語言知識(shí)和常識(shí)，微調(diào)階段主要是讓模型適應(yīng)特定的任務(wù)或領(lǐng)域。這使得大語言模型能夠在數(shù)據(jù)稀缺的領(lǐng)域中也能表現(xiàn)出色。1.2.3大模型的優(yōu)勢大模型的性能通常隨著訓(xùn)練數(shù)據(jù)的增加和模型參數(shù)的增加而持續(xù)提升。這意味著，通過訓(xùn)練更大的模型并使用更多的數(shù)據(jù)，可以獲得更好的性能。這是因?yàn)楦蟮哪Ｐ陀懈嗟膮?shù)，能夠?qū)W習(xí)和表示更復(fù)雜的模式。同時(shí)，更多數(shù)據(jù)能夠提供更豐富信息，幫助模型更好地理解語言。1.2.3大模型的優(yōu)勢PART03大模型技術(shù)的形成大模型可以用于：（1）語音識(shí)別：如智能客服、語音助手等。（2）圖像識(shí)別：如人臉識(shí)別、物體識(shí)別等。（3）自然語言處理：如機(jī)器翻譯、文本生成等。1.3大模型技術(shù)的形成大模型面臨的挑戰(zhàn)包括：（1）數(shù)據(jù)隱私和安全：大模型需要使用大量數(shù)據(jù)訓(xùn)練，也使數(shù)據(jù)隱私和安全問題日益突出。（2）計(jì)算資源：大模型的訓(xùn)練和推理需要大量計(jì)算資源，包括高性能計(jì)算機(jī)、大量的存儲(chǔ)和帶寬等。（3）算法和模型的可解釋性：大模型的復(fù)雜性和黑箱性質(zhì)使得其可解釋性成為一個(gè)挑戰(zhàn)。1.3大模型技術(shù)的形成對(duì)于多年來一直在思考人工智能的哲學(xué)家來說，GPT-4就像是一個(gè)已經(jīng)實(shí)現(xiàn)了的思維實(shí)驗(yàn)。早在1981年，內(nèi)德·布洛克就構(gòu)建了一個(gè)“Blockhead（傻瓜）”假說——假定科學(xué)家們通過編程，在Blockhead內(nèi)預(yù)先設(shè)定好了近乎所有問題的答案，那么，當(dāng)它回答問題的時(shí)候，人們也許就根本無法區(qū)分是Blockhead和人類在回答問題。顯然，這里的Blockhead并不被認(rèn)為是智能的，因?yàn)樗卮饐栴}的方式僅僅是從其龐大的記憶知識(shí)庫中檢索并復(fù)述答案，并非通過理解問題之后給出答案。哲學(xué)家們一致認(rèn)為，這樣的系統(tǒng)不符合智能的標(biāo)準(zhǔn)。1.3.1Blockhead思維實(shí)驗(yàn)實(shí)際上，GPT-4的許多成就可能就是通過類似的內(nèi)存檢索操作產(chǎn)生的。GPT-4的訓(xùn)練集中包括了數(shù)億個(gè)人類個(gè)體生成的對(duì)話和數(shù)以千計(jì)的學(xué)術(shù)出版物，涵蓋了潛在的問答對(duì)。研究發(fā)現(xiàn)，深度神經(jīng)網(wǎng)絡(luò)多層結(jié)構(gòu)的設(shè)計(jì)使其能夠有效地從訓(xùn)練數(shù)據(jù)中檢索到正確答案。這表明，GPT-4的回答其實(shí)是通過近似甚至是精確復(fù)制訓(xùn)練集中的樣本生成的。1.3.1Blockhead思維實(shí)驗(yàn)如果GPT-4真的是以這種方式運(yùn)行，那么它就只是Blockhead的現(xiàn)實(shí)版本。由此，人們?cè)谠u(píng)估大語言模型時(shí)，也就存在一個(gè)關(guān)鍵問題：它的訓(xùn)練集中可能包含了評(píng)估時(shí)使用的測試問題，這被稱為“數(shù)據(jù)污染”，這些是應(yīng)該在評(píng)估前予以排除的問題。研究者指出，大模型不僅可以簡單地復(fù)述其提示的或訓(xùn)練集的大部分內(nèi)容，它們還能夠靈活地融合來自訓(xùn)練集的內(nèi)容，產(chǎn)生新的輸出。而許多經(jīng)驗(yàn)主義哲學(xué)家提出，能夠靈活復(fù)制先前經(jīng)驗(yàn)中的抽象模式，可能不僅是智能的基礎(chǔ)，還是創(chuàng)造力和理性決策的基礎(chǔ)。1.3.1Blockhead思維實(shí)驗(yàn)大模型的起源可以追溯到人工智能研究的開始。早期的自然語言處理主要有兩大流派：符號(hào)派和隨機(jī)學(xué)派。諾姆·喬姆斯基的轉(zhuǎn)換生成語法對(duì)符號(hào)派影響重大。該理論認(rèn)為自然語言的結(jié)構(gòu)可以被一組形式化規(guī)則概括，利用這些規(guī)則可以產(chǎn)生形式正確的句子。與此同時(shí)，受香農(nóng)信息論的影響，數(shù)學(xué)家沃倫·韋弗首創(chuàng)了隨機(jī)學(xué)派。1949年，韋弗提出使用統(tǒng)計(jì)技術(shù)在計(jì)算機(jī)上進(jìn)行機(jī)器翻譯的構(gòu)想。這一思路為統(tǒng)計(jì)語言模型的發(fā)展鋪平了道路，例如n-gram模型，該模型根據(jù)語料庫中單詞組合的頻率估計(jì)單詞序列的可能性。1.3.2大模型的歷史基礎(chǔ)現(xiàn)代語言模型的另一個(gè)重要基石是分布假設(shè)。該假設(shè)最早由語言學(xué)家澤利格·哈里斯在20世紀(jì)50年代提出。這一假設(shè)認(rèn)為，語言單元通過與系統(tǒng)中其他單元的共現(xiàn)模式來獲得特定意義。哈里斯提出，通過了解一個(gè)詞在不同語境中的分布特性，可以推斷出這個(gè)詞的含義。1.3.2大模型的歷史基礎(chǔ)隨著分布假設(shè)研究的不斷深入，人們開發(fā)出了在高維向量空間中表示文檔和詞匯的自動(dòng)化技術(shù)。之后的詞嵌入模型通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)來預(yù)測給定詞的上下文（或者根據(jù)上下文填詞）學(xué)習(xí)單詞的分布屬性。與先前的統(tǒng)計(jì)方法不同，詞嵌入模型將單詞編碼為密集的、低維的向量表示（見圖1-4）。由此產(chǎn)生的向量空間在保留有關(guān)詞義的語言關(guān)系的同時(shí)，大幅降低了語言數(shù)據(jù)的維度。同時(shí)，詞嵌入模型的向量空間中存在許多語義和句法關(guān)系。1.3.2大模型的歷史基礎(chǔ)

圖1-4多維向量空間中詞嵌入的一個(gè)例子1.3.2大模型的歷史基礎(chǔ)圖1-4中A部分指一個(gè)在自然語言語料庫上訓(xùn)練的詞嵌入模型學(xué)會(huì)將單詞編碼成多維空間中的數(shù)值向量，為了視覺上的清晰性而簡化為兩維。在訓(xùn)練過程中，上下文相關(guān)的單詞（例如“age”和“epoch”）的向量變得更加相似，而上下文無關(guān)的單詞（例如“age”和“coffee”）的向量變得不那么相似。1.3.2大模型的歷史基礎(chǔ)圖1-4中B部分指在經(jīng)過訓(xùn)練的模型的二維向量空間中的詞嵌入。具有相似含義的單詞（如“age”和“epoch”）被放置在更靠近的位置，這由它們的余弦相似度得分高度表示；而具有不同含義的單詞（如“coffee”和“epoch”）則相對(duì)較遠(yuǎn)，反映在余弦相似度得分較低上。余弦相似度是一種用于確定兩個(gè)非零向量夾角余弦的度量，反映它們之間的相似程度。余弦相似度得分越接近1，表示夾角越小，向量之間的相似度越高。1.3.2大模型的歷史基礎(chǔ)詞嵌入模型的發(fā)展是自然語言處理歷史上的一個(gè)轉(zhuǎn)折點(diǎn)，為基于在大型語料庫中的統(tǒng)計(jì)分布在連續(xù)向量空間中表示語言單元提供了強(qiáng)大而高效的手段。然而，這些模型也存在一些顯著的局限性。首先，它們無法捕捉一詞多義和同音異義，因?yàn)樗鼈優(yōu)槊總€(gè)單詞類型分配了單一的嵌入，無法考慮基于上下文的意義變化。1.3.2大模型的歷史基礎(chǔ)隨后的“深度”語言模型引入了類似記憶的機(jī)制，使其能夠記住并處理隨時(shí)間變化的輸入序列，而不是個(gè)別的孤立單詞。這些模型雖然在某些方面優(yōu)于詞嵌入模型，但它們的訓(xùn)練速度較慢，處理長文本序列時(shí)表現(xiàn)也欠佳。這些問題在瓦斯瓦尼等人于2017年引入的Transformer架構(gòu)中得到解決，Transformer架構(gòu)是谷歌云TPU推薦的參考模型，為現(xiàn)代大模型奠定了基礎(chǔ)。1.3.2大模型的歷史基礎(chǔ)Transformer模型的一個(gè)關(guān)鍵優(yōu)勢在于，輸入序列中的所有單詞都是并行處理，這種架構(gòu)不僅極大地提高了訓(xùn)練效率，還提高了模型處理長文本序列的能力，從而增加了可以執(zhí)行的語言任務(wù)的規(guī)模和復(fù)雜性。Transformer模型的核心是一種被稱為自注意力的機(jī)制。簡而言之，自注意力允許模型在處理序列中的每個(gè)單詞時(shí)，衡量該序列不同部分的重要性。這一機(jī)制幫助大模型通過考慮序列中所有單詞之間的相互關(guān)系，構(gòu)建對(duì)長文本序列的復(fù)雜表示。在句子層面之上，它使大模型能夠結(jié)合段落或整個(gè)文檔的主題來進(jìn)行表達(dá)。1.3.3Transformer模型Transformer模型并非直接操作單詞，而是操作稱為“詞元（tokens）”的語言單位。詞元可以映射到整個(gè)單詞，也可以映射到更小的單詞片段。在將每個(gè)單詞序列提供給模型之前，首先進(jìn)行標(biāo)記化，將其分塊成相應(yīng)的詞元。標(biāo)記化的目的是盡可能多地表示來自不同語言的單詞，包括罕見和復(fù)雜的單詞?；赥ransformer模型的最常見變體被稱為“自回歸”，包括GPT-3、GPT-4和ChatGPT。1.3.3Transformer模型自回歸模型以準(zhǔn)確預(yù)測下一個(gè)詞元為學(xué)習(xí)目標(biāo)。在每次訓(xùn)練時(shí)，模型的目標(biāo)是根據(jù)先前的詞元預(yù)測語料庫中抽樣序列的下一個(gè)詞元。在第一次預(yù)測時(shí)，模型使用隨機(jī)參數(shù)初始化，預(yù)測結(jié)果并不準(zhǔn)確。隨著每次預(yù)測的進(jìn)行，模型的參數(shù)逐漸調(diào)整，直至預(yù)測出的詞元和訓(xùn)練集中實(shí)際的詞元的差異最小。這個(gè)過程重復(fù)數(shù)十億次，直到模型能夠準(zhǔn)確預(yù)測從訓(xùn)練集中隨機(jī)抽取的內(nèi)容的下一個(gè)詞元。1.3.3Transformer模型Transformer模型的訓(xùn)練集包括百科全書、學(xué)術(shù)文章、書籍、網(wǎng)站，甚至大量計(jì)算機(jī)代碼等多樣化來源的大型語料庫，旨在概括自然語言和人工語言的廣度和深度，使Transformer模型能夠準(zhǔn)確進(jìn)行下一個(gè)詞元的預(yù)測。1.3.3Transformer模型盡管這種方式訓(xùn)練的大模型在生成文本段落方面表現(xiàn)出色，但它們對(duì)真實(shí)的、有用的或無冒犯性的語言沒有固定偏好。為了讓生成的文本更符合人類語言使用規(guī)范，此后的大模型如ChatGPT，使用了“從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí)”的微調(diào)技術(shù)來調(diào)整模型的輸出。強(qiáng)化學(xué)習(xí)允許開發(fā)人員更具體和可控地引導(dǎo)模型的輸出。這一微調(diào)過程在調(diào)整這些模型以更好地滿足人類語言使用規(guī)范方面發(fā)揮著至關(guān)重要的作用。1.3.3Transformer模型大模型具有出色的能力，能夠利用文本提示中的文本信息來引導(dǎo)它們的輸出。已部署的語言模型經(jīng)過預(yù)訓(xùn)練，其參數(shù)在訓(xùn)練后保持固定。盡管大部分架構(gòu)缺乏可編輯的長期記憶資源，但它們能夠根據(jù)所提供的內(nèi)容靈活調(diào)整輸出，包括它們未經(jīng)明確訓(xùn)練的任務(wù)。這種能力可被視為一種即時(shí)學(xué)習(xí)或適應(yīng)的形式，通常被稱為“情境學(xué)習(xí)”。情境學(xué)習(xí)可被解釋為一種模式完成的形式，如果序列構(gòu)造為一個(gè)熟悉的問題或任務(wù)，模型將嘗試以與其訓(xùn)練一致的方式完成它?？上蚰Ｐ桶l(fā)出具體的指令。1.3.3Transformer模型在“少樣本學(xué)習(xí)”中，提示的結(jié)構(gòu)包括要執(zhí)行任務(wù)的幾個(gè)示例，后面是需要響應(yīng)的新實(shí)例。在“零樣本學(xué)習(xí)”中，模型不會(huì)得到任何示例，任務(wù)直接在提示中進(jìn)行概述或暗示。少樣本學(xué)習(xí)被認(rèn)為是人類智能的重要方面。而老式機(jī)器學(xué)習(xí)則在少樣本學(xué)習(xí)任務(wù)中表現(xiàn)較差。然而，經(jīng)過訓(xùn)練后的大模型在少樣本學(xué)習(xí)上表現(xiàn)出色。在較大的模型（如GPT-3）中觀察到，少樣本學(xué)習(xí)能力似乎與模型大小高度相關(guān)。通過強(qiáng)化學(xué)習(xí)精調(diào)后，大模型的零樣本學(xué)習(xí)能力得到增強(qiáng)。1.3.3Transformer模型大模型已經(jīng)應(yīng)用在自然語言處理領(lǐng)域的許多任務(wù)中，且有不錯(cuò)的表現(xiàn)。除了傳統(tǒng)的自然語言處理任務(wù)，大模型還具有執(zhí)行包括生成代碼、玩基于文本的游戲和提供數(shù)學(xué)問題答案等。由于大模型出色的信息檢索能力，它們甚至已被提議作為教育、研究、法律和醫(yī)學(xué)的工具。1.3.3Transformer模型人工神經(jīng)網(wǎng)絡(luò)（ANN，簡稱“神經(jīng)網(wǎng)絡(luò)”），包括早期的自然語言處理結(jié)構(gòu)，一直是哲學(xué)討論的焦點(diǎn)。圍繞這些系統(tǒng)的哲學(xué)討論主要集中在它們作為建模人類認(rèn)知的適用性上。具體而言，爭論的焦點(diǎn)在于，相比于經(jīng)典的、符號(hào)的、基于規(guī)則的對(duì)應(yīng)物模型，它們是否構(gòu)成了更好的人類認(rèn)知模型。研究的核心問題之一是，設(shè)計(jì)用于預(yù)測下一個(gè)詞元的大模型是否能構(gòu)建出一個(gè)“世界模型”。在機(jī)器學(xué)習(xí)中，世界模型通常指的是模擬外部世界某些方面的內(nèi)部表征，使系統(tǒng)能夠以反映現(xiàn)實(shí)世界動(dòng)態(tài)的方式理解、解釋和預(yù)測現(xiàn)象，包括因果關(guān)系和直觀的物理現(xiàn)象。1.3.4大模型的世界模型問題與智能代理通過和環(huán)境互動(dòng)并接收反饋來學(xué)習(xí)的強(qiáng)化學(xué)習(xí)不同，大模型的學(xué)習(xí)方式能否導(dǎo)致構(gòu)建出世界模型。實(shí)際上這是在探討它們是否能夠內(nèi)部構(gòu)建出對(duì)世界的理解，并生成與現(xiàn)實(shí)世界知識(shí)和動(dòng)態(tài)相一致的語言。這種能力對(duì)于反駁大模型僅僅是“Blockheads”的觀點(diǎn)至關(guān)重要。1.3.4大模型的世界模型問題評(píng)估大模型是否具有世界模型并沒有統(tǒng)一的方法，部分原因在于這個(gè)概念通常定義模糊，部分原因在于難以設(shè)計(jì)實(shí)驗(yàn)來區(qū)分大模型是依賴淺層啟發(fā)式回答問題，還是使用了環(huán)境核心動(dòng)態(tài)的內(nèi)部表征這一假設(shè)。盡管如此，我們還可以向大模型提出一些不能依據(jù)記憶來完成的任務(wù)，來提供新的證據(jù)解決這一問題。1.3.4大模型的世界模型問題有的研究認(rèn)為，大模型可能學(xué)會(huì)了模擬世界的一部分，而不僅僅是進(jìn)行序列概率估計(jì)。更具體地說，互聯(lián)網(wǎng)規(guī)模的訓(xùn)練數(shù)據(jù)集由大量單獨(dú)的文檔組成。對(duì)這些文本的最有效壓縮可能涉及對(duì)生成它們的隱藏變量值進(jìn)行編碼：即文本的人類作者的句法知識(shí)、語義信念和交際意圖。1.3.4大模型的世界模型問題另一個(gè)有趣的問題是，大模型是否可能參與文化習(xí)得并在知識(shí)傳遞中發(fā)揮作用。一些理論家提出，人類智能的一個(gè)關(guān)鍵特征在于其獨(dú)特的文化學(xué)習(xí)能力。盡管其他靈長類動(dòng)物也有類似的能力，但人類在這方面顯得更為突出。人類能夠相互合作，將知識(shí)從上一代傳到下一代，下一代能夠從上一代結(jié)束的地方繼續(xù)，并在語言學(xué)、科學(xué)和社會(huì)學(xué)知識(shí)方面取得新的進(jìn)展。這種方式使人類的知識(shí)積累和發(fā)現(xiàn)保持穩(wěn)步發(fā)展，與黑猩猩等其他動(dòng)物相對(duì)停滯的文化演變形成鮮明對(duì)比。1.3.5文化知識(shí)傳遞和語言支持鑒于深度學(xué)習(xí)系統(tǒng)已經(jīng)在多個(gè)任務(wù)領(lǐng)域超過了人類表現(xiàn)。那么問題就變成了，大模型是否能夠模擬文化學(xué)習(xí)的許多組成部分，將它們的發(fā)現(xiàn)傳遞給人類理論家。研究發(fā)現(xiàn)，現(xiàn)在主要是人類通過解釋模型來得到可傳播的知識(shí)。但是，大模型是否能夠以理論介導(dǎo)的方式向人類解釋它們的策略，從而參與和增強(qiáng)人類文化學(xué)習(xí)呢？有證據(jù)表明，基于Transformer的模型可能在某些訓(xùn)練-測試分布轉(zhuǎn)變下實(shí)現(xiàn)組合泛化。但問題涉及到一種不同類型的泛化——解決真正新穎任務(wù)的能力。從現(xiàn)有證據(jù)來看，大模型似乎能夠在已知任務(wù)范圍內(nèi)處理新數(shù)據(jù)，實(shí)現(xiàn)局部任務(wù)泛化。1.3.5文化知識(shí)傳遞和語言支持此外，文化的累積進(jìn)步（棘輪效應(yīng)：指人的消費(fèi)習(xí)慣形成之后有不可逆性，即易于向上調(diào)整，而難于向下調(diào)整）不僅涉及創(chuàng)新，還包括穩(wěn)定的文化傳播。大模型是否能夠像人類一樣，不僅能夠生成新穎的解決方案，還能夠通過認(rèn)識(shí)和表達(dá)它們?nèi)绾纬较惹暗慕鉀Q方案，從而“鎖定”這些創(chuàng)新？這種能力不僅涉及生成新穎的響應(yīng)，還需要對(duì)解決方案的新穎性及其影響有深刻理解，類似于人類科學(xué)家不僅發(fā)現(xiàn)新事物，還能理論化、情境化和傳達(dá)他們的發(fā)現(xiàn)。1.3.5文化知識(shí)傳遞和語言支持因此，對(duì)大模型的挑戰(zhàn)不僅僅在于生成問題的新穎解決方案，還在于培養(yǎng)一種能夠反思和傳達(dá)其創(chuàng)新性質(zhì)的能力，從而促進(jìn)文化學(xué)習(xí)的累積過程。這種能力可能需要更先進(jìn)的交際意圖理解和世界模型構(gòu)建。雖然大模型在各種形式的任務(wù)泛化方面表現(xiàn)出有希望的跡象，但它們參與文化學(xué)習(xí)的程度似乎取決于這些領(lǐng)域的進(jìn)一步發(fā)展，這可能超出了當(dāng)前體系結(jié)構(gòu)的能力范圍。1.3.5文化知識(shí)傳遞和語言支持PART04通用人工智能有別于“專用（特定領(lǐng)域）人工智能”，通用人工智能（GeneralArtificialIntelligence，AGI），是指一種能夠像人類一樣思考、學(xué)習(xí)和執(zhí)行多種任務(wù)的人工智能系統(tǒng)，它具有高效的學(xué)習(xí)和泛化能力、能夠根據(jù)所處的復(fù)雜動(dòng)態(tài)環(huán)境自主產(chǎn)生并完成任務(wù)，它具備自主感知、認(rèn)知、決策、學(xué)習(xí)、執(zhí)行和社會(huì)協(xié)作等能力，且符合人類情感、倫理與道德觀念。1.4通用人工智能開發(fā)ChatGPT的OpenAI公司將AGI寫在了自己的企業(yè)使命中，OpenAI官網(wǎng)上是這樣寫的：“OpenAI的使命是確保通用人工智能，即一種高度自主且在大多數(shù)具有經(jīng)濟(jì)價(jià)值的工作上超越人類的系統(tǒng)，將為全人類帶來福祉。我們不僅希望直接建造出安全的、符合共同利益的通用人工智能，而且愿意幫助其它研究機(jī)構(gòu)共同建造出這樣的通用人工智能以達(dá)成我們的使命。”1.4.1什么是通用人工智能目前，大多數(shù)人工智能系統(tǒng)是針對(duì)特定任務(wù)或領(lǐng)域進(jìn)行優(yōu)化的，例如語音識(shí)別、圖像識(shí)別、自然語言處理、推薦系統(tǒng)等，這是將問題得到簡化的一種解決問題的方法。這些系統(tǒng)在其特定領(lǐng)域中可能表現(xiàn)得很出色，但它們?nèi)狈νㄓ眯院挽`活性，不能適應(yīng)各種不同的任務(wù)和環(huán)境。與專注于解決特定問題或領(lǐng)域不同，通用人工智能的目標(biāo)是創(chuàng)建一個(gè)全面智能的系統(tǒng)，可以解決廣泛的問題并進(jìn)行多種任務(wù)。這種系統(tǒng)能夠在不同的環(huán)境中適應(yīng)和學(xué)習(xí)，并且可以從不同的來源中獲取信息，像人類一樣進(jìn)行推理和決策。1.4.1什么是通用人工智能“AGI”這個(gè)詞匯最早可以追溯到2003年瑞典哲學(xué)家尼克·博斯特羅姆發(fā)表的論文“先進(jìn)人工智能的倫理問題”。在該論文中，博斯特羅姆討論了超級(jí)智能的道德問題，并在其中引入了“AGI”這一概念，描述一種能夠像人類一樣思考、學(xué)習(xí)和執(zhí)行多種任務(wù)的人工智能系統(tǒng)。超級(jí)智能被定義為任何智能在幾乎所有感興趣的領(lǐng)域中都大大超過人類認(rèn)知表現(xiàn)的智能。這個(gè)定義允許增強(qiáng)的黑猩猩或海豚也有可能成為超級(jí)智能，也允許非生物超級(jí)智能的可能性。1.4.1什么是通用人工智能因此，AGI可以被視為是一種更高級(jí)別的人工智能，是當(dāng)前人工智能技術(shù)發(fā)展的一個(gè)重要方向和目標(biāo)。但由于其在技術(shù)和理論方面的挑戰(zhàn)，它仍然是一個(gè)較為遙遠(yuǎn)的目標(biāo)。1.4.1什么是通用人工智能大模型是一種基于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)技術(shù)的大型預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)算法模型。雖然大模型已經(jīng)取得了一些驚人的進(jìn)展，但它還不符合通用人工智能的要求。（1）大模型在處理任務(wù)方面的能力有限。它還只能處理文本領(lǐng)域的任務(wù)，無法與物理和社會(huì)環(huán)境進(jìn)行互動(dòng)。這意味著像ChatGPT這樣的模型不能真正“理解”語言的含義，缺乏身體而無法體驗(yàn)物理空間。中國的哲學(xué)家早就認(rèn)識(shí)到“知行合一”的理念，即人對(duì)世界的“知”是建立在“行”的基礎(chǔ)上的。這也是通用智能體能否真正進(jìn)入物理場景和人類社會(huì)的關(guān)鍵所在。1.4.2大模型與通用人工智能只有將人工智能體放置于真實(shí)的物理世界和人類社會(huì)中，它們才能切實(shí)了解并習(xí)得真實(shí)世界中事物之間的物理關(guān)系和不同智能體之間的社會(huì)關(guān)系，從而做到“知行合一”。（2）大模型也不具備自主能力。它需要人類來具體定義好每一個(gè)任務(wù)，就像一只“巨鸚鵡”，只能模仿被訓(xùn)練過的話語。（3）雖然ChatGPT已經(jīng)在不同的文本數(shù)據(jù)語料庫上進(jìn)行了大規(guī)模訓(xùn)練，包括隱含人類價(jià)值觀的文本，但它并不具備理解人類價(jià)值或與其保持一致的能力，即缺乏所謂的道德指南針。1.4.2大模型與通用人工智能加州大學(xué)伯克利分校教授斯圖爾特·羅素表示，關(guān)于ChatGPT，更多數(shù)據(jù)和更多算力不能帶來真正的智能。要構(gòu)建真正智能的系統(tǒng)，應(yīng)當(dāng)更加關(guān)注數(shù)理邏輯和知識(shí)推理，因?yàn)橹挥袑⑾到y(tǒng)建立在我們了解的方法之上，才能確保人工智能不會(huì)失控。擴(kuò)大規(guī)模不是答案，更多數(shù)據(jù)和更多算力不能解決問題，這種想法過于樂觀，在智力上也不有趣。1.4.2大模型與通用人工智能圖靈獎(jiǎng)得主揚(yáng)·勒昆認(rèn)為：語言只承載了所有人類知識(shí)的一小部分，大部分人類具有的知識(shí)都是非語言的。因此，大模型是無法接近人類水平智能的。深刻的非語言理解是語言有意義的必要條件。正是因?yàn)槿祟悓?duì)世界有深刻的理解，所以我們可以很快理解別人在說什么。這種更廣泛、對(duì)上下文敏感的學(xué)習(xí)和知識(shí)是一種更基礎(chǔ)、更古老的知識(shí)，它是生物感知能力出現(xiàn)的基礎(chǔ)，讓生存和繁榮成為可能。這也是人工智能研究者在尋找人工智能中的常識(shí)時(shí)關(guān)注的更重要的任務(wù)。1.4.2大模型與通用人工智能大模型沒有穩(wěn)定的身體可以感知，它們的知識(shí)更多是以單詞開始和結(jié)束，這種常識(shí)總是膚淺的。人類處理各種大模型的豐富經(jīng)驗(yàn)清楚地表明，僅從言語中可以獲得的東西是如此之少。僅通過語言是無法讓人工智能系統(tǒng)深刻理解世界，這是錯(cuò)誤的方向。1.4.2大模型與通用人工智能通過深度學(xué)習(xí)與自然語言處理的創(chuàng)新融合，諸如ChatGPT、通義千問等智能系統(tǒng)能夠理解并生成高質(zhì)量的文本內(nèi)容，人工智能結(jié)合大模型的實(shí)際應(yīng)用，重塑了信息時(shí)代的內(nèi)容創(chuàng)作生態(tài)。人工智能可以生成文字、圖片、音頻、視頻等等內(nèi)容，甚至讓人難以分清背后的創(chuàng)作者到底是人類還是人工智能。這些人工智能生成的內(nèi)容被叫做AIGC（人工智能生成內(nèi)容）。像ChatGPT生成的文章，GitHubCopilot生成的代碼、Midjourney生成的圖片等等，都屬于AIGC。在很多語境下，AIGC也被用于指代生成式人工智能。1.4.3人工智能生成內(nèi)容相關(guān)人工智能領(lǐng)域術(shù)語的關(guān)系如圖所示。這些概念共同構(gòu)成了AIGC的核心要素。圖1-5AIGC與人工智能技術(shù)譜系1.4.3人工智能生成內(nèi)容大模型的實(shí)際例子已經(jīng)非常多，比如國外的GPT、LLaMA，國內(nèi)的ERNIE、ChatGLM等，可以進(jìn)行文本的理解和生成。但并不是所有生成式人工智能都是大語言模型，而所有的大語言模型是否都是生成式人工智能，也存在些許爭議。谷歌的BERT模型就是一個(gè)例子，它的參數(shù)量和序列數(shù)據(jù)很大，屬于大模型。應(yīng)用方面，BERT理解上下文的能力很強(qiáng)，因此被谷歌用在搜索上，用來提高搜索排名和信息摘錄的準(zhǔn)確性。它也被用于情感分析、文本分類等任務(wù)，但同時(shí)BERT不擅長文本生成，特別是連貫的長文本生成。所以有些人認(rèn)為這類模型不屬于生成式人工智能的范疇。1.4.3人工智能生成內(nèi)容01人工智能基礎(chǔ)02大模型定義03大模型技術(shù)的形成04通用人工智能目錄/CONTENTS大語言模型基礎(chǔ)周蘇教授QQ：81505050第1章大模型基礎(chǔ)浙江省普通本科高?！笆奈濉敝攸c(diǎn)教材建設(shè)成果之一大語言模型基礎(chǔ)大語言模型基礎(chǔ)周蘇教授QQ：81505050第2章大模型與生成式AI語言模型是自然語言處理領(lǐng)域的基礎(chǔ)任務(wù)和核心問題，其目標(biāo)是對(duì)自然語言的概率分布建模。大量的研究從n元語言模型、神經(jīng)語言模型以及預(yù)訓(xùn)練語言模型等不同角度開展了一系列工作，這些研究在不同階段對(duì)自然語言處理任務(wù)有重要作用。隨著基于谷歌Transformer的各類語言模型的發(fā)展，以及預(yù)訓(xùn)練微調(diào)范式在自然語言處理各類任務(wù)中取得突破性進(jìn)展，從OpenAI發(fā)布GPT-3開始，對(duì)大語言模型的研究逐漸深入。雖然大模型的參數(shù)量巨大，通過有監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)能夠完成非常多的任務(wù)，但是其基礎(chǔ)理論仍然離不開對(duì)語言的建模。第2章大模型與生成式AI此外，作為一種能夠創(chuàng)造新的內(nèi)容或預(yù)測未來數(shù)據(jù)的人工智能技術(shù)，生成式AI（GenerativeAI）包括用于生成文本、圖像、音頻和視頻等各種類型內(nèi)容的模型。生成式AI的一個(gè)關(guān)鍵特性是，它不僅可以理解和分析數(shù)據(jù)，還可以創(chuàng)造新的、獨(dú)特的輸出，這些輸出是從學(xué)習(xí)的數(shù)據(jù)模式中派生出來的。第2章大模型與生成式AI01什么是語言模型02大模型發(fā)展三階段03Transformer模型04生成式人工智能目錄/CONTENTSPART01什么是語言模型語言模型起源于語音識(shí)別。輸入一段音頻數(shù)據(jù)，語音識(shí)別系統(tǒng)通常會(huì)生成多個(gè)句子作為候選，判斷哪個(gè)句子更合理？這就需要用到語言模型對(duì)候選句子進(jìn)行排序。語言模型的應(yīng)用范圍早已擴(kuò)展到機(jī)器翻譯、信息檢索、問答、文摘等眾多自然語言處理領(lǐng)域。2.1什么是語言模型語言模型是這樣一個(gè)模型：對(duì)于任意的詞序列，它能夠計(jì)算出這個(gè)序列是一句話的概率。例如，詞序列A：“這個(gè)網(wǎng)站|的|文章|真|水|啊”，這個(gè)明顯是一句話，一個(gè)好的語言模型也會(huì)給出很高的概率。再看詞序列B：“這個(gè)網(wǎng)站|的|睡覺|蘋果|好快”，這明顯不是一句話，如果語言模型訓(xùn)練的好，那么序列B的概率就會(huì)很小。2.1.1語言模型的定義于是，給出語言模型的較為正式的定義。假設(shè)我們要為中文創(chuàng)建一個(gè)語言模型，V表示詞典，V={貓,狗,機(jī)器,學(xué)習(xí),語言,模型,...}，wi∈V。語言模型就是這樣一個(gè)模型：給定詞典V，能夠計(jì)算出任意單詞序列w1,w2,...,wn是一句話的概率p(w1,w2,...,wn)，其中，p≥0。語言模型中計(jì)算p(w1,w2,...,wn)的最簡單方法是數(shù)數(shù)，假設(shè)訓(xùn)練集中共有N個(gè)句子，數(shù)一下在訓(xùn)練集中(w1,w2,...,wn)

出現(xiàn)的次數(shù)，不妨假定為n，則p(w1,w2,...,wn)=n/N?？梢韵胂蟪鲞@個(gè)模型的預(yù)測能力幾乎為0，一旦單詞序列沒有在訓(xùn)練集中出現(xiàn)過，模型的輸出概率就是0。2.1.1語言模型的定義語言模型的另一種等價(jià)定義是：能夠計(jì)算p(wi|w1,w2,...,wi-1)的模型就是語言模型。從文本生成角度來看，也可以給出如下的語言模型定義：給定一個(gè)短語（一個(gè)詞組或一句話），語言模型可以生成（預(yù)測）接下來的一個(gè)詞。2.1.1語言模型的定義在統(tǒng)計(jì)學(xué)模型為主體的自然語言處理時(shí)期，語言模型任務(wù)主要是N-gram語言模型。為了簡化p(wi|w1,w2,...,wi-1)的計(jì)算，引入一階馬爾可夫假設(shè)：每個(gè)詞只依賴前一個(gè)詞；也可以引入二階馬爾可夫假設(shè)：每個(gè)詞依賴前兩個(gè)詞。馬爾可夫假設(shè)可以方便的計(jì)算條件概率。此外，還有前饋神經(jīng)網(wǎng)絡(luò)語言模型、循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型及其他預(yù)訓(xùn)練語言模型。2.1.1語言模型的定義語言模型可用于提升語音識(shí)別和機(jī)器翻譯的性能。例如，在語音識(shí)別中，給定一段“廚房里食油用完了”的語音，有可能會(huì)輸出“廚房里食油用完了”和“廚房里石油用完了”這兩個(gè)讀音完全一樣的文本序列。如果語言模型判斷出前者的概率大于后者的概率，就可以根據(jù)相同讀音的語音輸出“廚房里食油用完了”這個(gè)文本序列。在機(jī)器翻譯中，如果對(duì)英文“yougofirst”逐詞翻譯成中文的話，可能得到“你走先”“你先走”等排列方式的文本序列。如果語言模型判斷出“你先走”的概率大于其他排列方式文本序列的概率，就可以把“yougofirst”譯成“你先走”。2.1.1語言模型的定義早期在解決機(jī)器翻譯這一類序列到序列的問題時(shí)，通常采用的做法是利用一個(gè)編碼器和一個(gè)解碼器構(gòu)建端到端的神經(jīng)網(wǎng)絡(luò)模型。但是，基于編碼解碼的神經(jīng)網(wǎng)絡(luò)存在兩個(gè)問題。拿機(jī)器翻譯作為例子：問題1：如果翻譯的句子很長很復(fù)雜，比如直接將一篇文章輸進(jìn)去，模型的計(jì)算量很大，并且模型的準(zhǔn)確率下降嚴(yán)重。問題2：在不同的翻譯語境下，同一個(gè)詞可能具有不同含義，但是網(wǎng)絡(luò)對(duì)這些詞向量并沒有區(qū)分度，沒有考慮詞與詞之間的相關(guān)性，導(dǎo)致翻譯效果比較差。2.1.2注意力機(jī)制同樣，在計(jì)算機(jī)視覺領(lǐng)域，如果輸入的圖像尺寸很大，做圖像分類或者識(shí)別時(shí)，模型的性能也會(huì)下降。針對(duì)這樣的問題，提出了注意力機(jī)制。早在20世紀(jì)九十年代對(duì)注意力機(jī)制就有研究，到2014年弗拉基米爾的《視覺注意力的反復(fù)模型》一文中將其應(yīng)用在視覺領(lǐng)域，后來，伴隨著2017年Transformer結(jié)構(gòu)的提出，注意力機(jī)制在自然語言處理、計(jì)算機(jī)視覺等相關(guān)問題上被廣泛應(yīng)用。2.1.2注意力機(jī)制“注意力機(jī)制”實(shí)際上就是想將人的感知方式、注意力的行為應(yīng)用在機(jī)器上，讓機(jī)器學(xué)會(huì)去感知數(shù)據(jù)中的重要和不重要的部分。比如要識(shí)別一張圖片中是一個(gè)什么動(dòng)物時(shí)，我們讓機(jī)器側(cè)重于關(guān)注圖片中動(dòng)物的面部特征，包括耳朵、眼睛、鼻子、嘴巴，而不用太關(guān)注其背景信息。核心目的是希望機(jī)器能注意到當(dāng)前任務(wù)的關(guān)鍵信息，而減少對(duì)其他非關(guān)鍵信息的注意。同樣，在機(jī)器翻譯中，讓機(jī)器注意到每個(gè)詞向量之間的相關(guān)性，有側(cè)重地進(jìn)行翻譯，模擬人類的理解過程。2.1.2注意力機(jī)制對(duì)模型的每一個(gè)輸入項(xiàng)，它可能是圖片中的不同部分，或者是語句中的某個(gè)單詞，分配一個(gè)權(quán)重，這個(gè)權(quán)重的大小代表了我們希望模型對(duì)該部分的關(guān)注程度。這樣，通過權(quán)重大小來模擬人在處理信息時(shí)的注意力側(cè)重，有效的提高模型的性能，并且在一定程度上降低了計(jì)算量。2.1.2注意力機(jī)制深度學(xué)習(xí)中的注意力機(jī)制通常可分為三類：軟注意（全局注意）、硬注意（局部注意）和自注意力（內(nèi)注意）。（1）軟注意機(jī)制：對(duì)每個(gè)輸入項(xiàng)分配的權(quán)重在0~1之間，也就是某些部分關(guān)注多一點(diǎn)，某些部分關(guān)注少一點(diǎn)。由于對(duì)大部分信息都有考慮，但考慮程度不一，所以相對(duì)計(jì)算量比較大。（2）硬注意機(jī)制：對(duì)每個(gè)輸入項(xiàng)分配的權(quán)重非0即1，只考慮哪部分需要關(guān)注，哪部分不關(guān)注，也就是直接舍棄掉一些不相關(guān)項(xiàng)。優(yōu)勢在于可以減少一定的時(shí)間和計(jì)算成本，但有可能丟失一些本應(yīng)該注意的信息。2.1.2注意力機(jī)制（3）自注意力機(jī)制：對(duì)每個(gè)輸入項(xiàng)分配的權(quán)重取決于輸入項(xiàng)之間的相互作用，即通過輸入項(xiàng)內(nèi)部的“表決”來決定應(yīng)該關(guān)注哪些輸入項(xiàng)。和前兩種相比，在處理很長的輸入時(shí)，具有并行計(jì)算的優(yōu)勢。2.1.2注意力機(jī)制大模型技術(shù)可以分為“開源”和“閉源”兩大類型。所謂“開源”，是指事物規(guī)劃為可以公開訪問的，因此人們都可以對(duì)其修改并分享。2.1.3開源還是閉源“開源”這個(gè)詞最初起源于軟件開發(fā)，指的是一種開發(fā)軟件的特殊形式。但時(shí)至今天，“開源”已經(jīng)泛指一組概念——就是所謂“開源的方式”。這些概念包括開源項(xiàng)目、產(chǎn)品，或是自發(fā)倡導(dǎo)并歡迎開放變化、協(xié)作參與、快速原型、公開透明、精英體制以及面向社區(qū)開發(fā)的原則。開源軟件的源代碼任何人都可以審查、修改和增強(qiáng)。“源代碼”是軟件中大部分計(jì)算機(jī)用戶都沒見過的部分，程序員可以修改代碼來改變一個(gè)軟件（“程序”或“應(yīng)用”）工作的方式。程序員如果可以接觸到計(jì)算機(jī)程序源代碼，就可以通過添加功能或修復(fù)問題來改進(jìn)這個(gè)軟件。2.1.3開源還是閉源PART02大模型發(fā)展三階段在很短一段時(shí)間內(nèi)，人們接連迎來了ChatGPT、Gemini、Gemma和Sora等一系列大模型產(chǎn)品的發(fā)布，整個(gè)人工智能圈和科技圈都異常興奮，人工智能帶來的更像是工業(yè)革命的變革浪潮，將逐漸改變?nèi)藗兊纳詈凸ぷ鞣绞健４竽Ｐ偷陌l(fā)展大致可以分為三個(gè)階段。2.2大模型發(fā)展三階段此階段集中在2018年至2021年。2017年瓦斯瓦尼等人提出Transformer架構(gòu)，在機(jī)器翻譯任務(wù)上取得了突破性進(jìn)展。2018年谷歌和OpenAI分別提出BERT和GPT-1模型，開啟了預(yù)訓(xùn)練語言模型時(shí)代。BERT-Base參數(shù)量為1.1億，BERT-Large參數(shù)量為3.4億，GPT-1參數(shù)量為1.17億，相比于其他深度神經(jīng)網(wǎng)絡(luò)，其參數(shù)量有了數(shù)量級(jí)上的提升。2019年OpenAI發(fā)布了GPT-2，參數(shù)量達(dá)到5億。此后，谷歌發(fā)布參數(shù)規(guī)模為110億的T5模型，2020年OpenAI進(jìn)一步將語言模型參數(shù)量擴(kuò)展到1750億，發(fā)布了GPT-3。2.2.1基礎(chǔ)模型階段此后，國內(nèi)也相繼推出了一系列大模型產(chǎn)品，包括百度ERNIE、華為盤古-α等。這個(gè)階段，研究主要集中在語言模型本身，包括僅編碼器、編碼器-解碼器、僅解碼器等各種類型的模型結(jié)構(gòu)都有相應(yīng)的研究。模型大小與BERT相類似的算法通常采用預(yù)訓(xùn)練微調(diào)范式，針對(duì)不同下游任務(wù)進(jìn)行微調(diào)。但模型參數(shù)量在10億以上時(shí)，由于微調(diào)計(jì)算量很高，這類模型的影響力在當(dāng)時(shí)相較BERT類模型有不小的差距。2.2.1基礎(chǔ)模型階段此階段集中于2019年至2022年，由于大模型很難針對(duì)特定任務(wù)進(jìn)行微調(diào)，研究者開始探索在不針對(duì)單一任務(wù)進(jìn)行微調(diào)的情況下，如何能夠發(fā)揮大模型的能力。2019年雷德福等人使用GPT-2研究大模型在零樣本情況下的任務(wù)處理能力。在此基礎(chǔ)上，Brown等人在GPT-3模型上研究通過語境學(xué)習(xí)進(jìn)行少樣本學(xué)習(xí)的方法，將不同任務(wù)的少量有標(biāo)注實(shí)例拼接到待分析的樣本，用語言模型根據(jù)實(shí)例理解任務(wù)并給出正確結(jié)果。包括TriviaQA、WebQS、CoQA等評(píng)測集合都展示出了非常強(qiáng)的能力，在有些任務(wù)中甚至超過了此前的有監(jiān)督方法。2.2.2能力探索階段上述方法不需要修改語言模型的參數(shù)，模型在處理不同任務(wù)時(shí)無需花費(fèi)大量計(jì)算資源進(jìn)行模型微調(diào)。但是，僅依賴語言模型本身，其性能在很多任務(wù)上很難達(dá)到有監(jiān)督學(xué)習(xí)效果，因此研究人員們提出了指令微調(diào)方案，將大量各類型任務(wù)，統(tǒng)一為生成式自然語言理解框架，并構(gòu)造訓(xùn)練語料進(jìn)行微調(diào)。2.2.2能力探索階段此階段以2022年11月ChatGPT的發(fā)布為起點(diǎn)。ChatGPT通過一個(gè)簡單的對(duì)話框，利用一個(gè)大模型就可以實(shí)現(xiàn)問題回答、文稿撰寫、代碼生成、數(shù)學(xué)解題等過去自然語言處理系統(tǒng)需要大量小模型訂制開發(fā)才能分別實(shí)現(xiàn)的能力。它在開放領(lǐng)域問答、各類自然語言生成式任務(wù)以及對(duì)話上文理解上所展現(xiàn)出來的能力遠(yuǎn)超大多數(shù)人的想象。2.2.3突破發(fā)展階段2023年3月GPT-4發(fā)布，相較于ChatGPT又有了非常明顯的進(jìn)步，具備了多模態(tài)理解能力。GPT-4在多種基準(zhǔn)考試測試上的得分高于88%的應(yīng)試者，包括美國律師資格考試、法學(xué)院入學(xué)考試、學(xué)術(shù)能力評(píng)估等。它展現(xiàn)了近乎“通用人工智能（AGI）”的能力。各大公司和研究機(jī)構(gòu)也相繼發(fā)布了此類系統(tǒng)，包括谷歌推出的Bard、百度的文心一言、科大訊飛的星火大模型、智譜ChatGLM等。2.2.3突破發(fā)展階段PART03Transformer模型Transformer是一種在自然語言處理領(lǐng)域中廣泛使用的深度學(xué)習(xí)模型，它源自谷歌公司在2017年發(fā)表的一篇論文“注意力就是你所需要的”。Transformer模型的主要特點(diǎn)是使用了“自注意力”機(jī)制，允許模型在處理序列數(shù)據(jù)時(shí)考慮到序列中所有元素的上下文關(guān)系。Transformer模型首先被應(yīng)用于機(jī)器翻譯的神經(jīng)網(wǎng)絡(luò)模型架構(gòu)，目標(biāo)是從源語言轉(zhuǎn)換到目標(biāo)語言，它完成了對(duì)源語言序列和目標(biāo)語言序列全局依賴的建模。因?yàn)檫m用于并行計(jì)算，使它的模型復(fù)雜程度在精度和性能上都要高于之前流行的RNN循環(huán)神經(jīng)網(wǎng)絡(luò)，如今的大語言模型幾乎都基于Transformer結(jié)構(gòu)。2.3

Transformer模型可以簡單地把Transformer看成是一個(gè)黑盒子，當(dāng)我們?cè)谧鑫谋痉g任務(wù)時(shí)，輸入一段中文，經(jīng)過這個(gè)黑盒子之后，輸出來的就是翻譯過來的英文。

圖2-2把Transformer當(dāng)成黑盒子2.3.1

Transformer過程黑盒子里面主要有兩部分組成：編碼器組和解碼器組。當(dāng)輸入一個(gè)文本的時(shí)候，通過編碼器模塊對(duì)該文本數(shù)據(jù)進(jìn)行編碼，然后將編碼數(shù)據(jù)傳入解碼器模塊進(jìn)行解碼，得到翻譯后的文本。圖2-3黑匣子里面是編碼器組和解碼器組2.3.1

Transformer過程一般情況下編碼器組模塊里邊有6個(gè)小編碼器，解碼器組里邊有6個(gè)小解碼器。編碼器里邊是自注意力機(jī)制加上一個(gè)前饋神經(jīng)網(wǎng)絡(luò)。圖2-4編碼器內(nèi)部結(jié)構(gòu)2.3.1

Transformer過程所謂前饋神經(jīng)網(wǎng)絡(luò)，可以理解為是一個(gè)多層感知機(jī)，即一個(gè)包含了多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)，其中層與層之間是全連接的，相鄰兩層的任意兩個(gè)節(jié)點(diǎn)都有連接。圖2-5前饋神經(jīng)網(wǎng)絡(luò)示例2.3.1

Transformer過程我們通過以下步驟來解釋自注意力機(jī)制。步驟1：模型最初輸入的是詞向量形式。自注意力機(jī)制，顧名思義就是自己和自己計(jì)算一遍注意力，對(duì)每一個(gè)輸入的詞向量需要構(gòu)建自注意力機(jī)制的輸入。這里，Transformer將詞向量乘上三個(gè)矩陣，得到三個(gè)新的向量，這是為了獲得更多的參數(shù)，提高模型效果。對(duì)于輸入X1（機(jī)器），乘上三個(gè)矩陣后分別得到Q1、K1、V1。同樣，對(duì)于輸入X2（學(xué)習(xí)），也乘上三個(gè)不同的矩陣得到Q2、K2、V2。2.3.1

Transformer過程步驟2：計(jì)算注意力得分。這個(gè)得分是通過計(jì)算Q與各個(gè)單詞的K向量的點(diǎn)積得到的。以X1為例，分別將Q1和K1、K2進(jìn)行點(diǎn)積運(yùn)算，假設(shè)分別得到得分112和96。圖2-7計(jì)算注意力得分2.3.1

Transformer過程步驟3：將得分分別除以一個(gè)特定數(shù)值8（K向量的維度的平方根，通常K向量的維度是64）這能讓梯度更加穩(wěn)定，得到結(jié)果14和12。步驟4：將上述結(jié)果進(jìn)行softmax運(yùn)算，得到0.88和0.12。softmax運(yùn)算主要是將分?jǐn)?shù)標(biāo)準(zhǔn)化，使得數(shù)都是正數(shù)并且加起來等于1。softmax從字面上來說，可以分成soft和max兩個(gè)部分。max就是最大值的意思。softmax的核心在于soft，而soft有軟的含義，與之相對(duì)的是hard硬。很多場景中需要我們找出數(shù)組所有元素中值最大的元素，實(shí)質(zhì)上都是求的hardmax。2.3.1

Transformer過程步驟5：將V向量乘上softmax的結(jié)果，主要是為了保持想要關(guān)注的單詞的值不變，而掩蓋掉那些不相關(guān)的單詞，例如將它們乘上很小的數(shù)字。圖2-8V向量乘softmax2.3.1

Transformer過程步驟6：將帶權(quán)重的各個(gè)V向量加起來。至此，產(chǎn)生在這個(gè)位置上（第一個(gè)單詞）的自注意力機(jī)制層的輸出，其余位置的自注意力機(jī)制輸出計(jì)算方式相同。將上述過程總結(jié)為一個(gè)公式。

圖2-9自注意力計(jì)算過程總結(jié)2.3.1

Transformer過程為進(jìn)一步細(xì)化自注意力機(jī)制層，增加了“多頭注意力機(jī)制”的概念，從兩個(gè)方面提高自注意力層的性能。第一方面，擴(kuò)展模型關(guān)注不同位置的能力，第二方面，給自注意力層多個(gè)“表示子空間”。2.3.1

Transformer過程多頭自注意力機(jī)制不止有一組Q/K/V權(quán)重矩陣，而是有多組（例如用8組），所以每個(gè)編碼器/解碼器使用8個(gè)“頭”（可以理解為8個(gè)互不干擾的自注意力機(jī)制運(yùn)算），每一組的Q/K/V都不相同。然后，得到8個(gè)不同的權(quán)重矩陣Z，每個(gè)權(quán)重矩陣被用來將輸入向量投射到不同的表示子空間。經(jīng)過多頭注意力機(jī)制后，就會(huì)得到多個(gè)權(quán)重矩陣Z，將多個(gè)Z進(jìn)行拼接就得到了自注意力機(jī)制層的輸出。

圖2-10自注意力機(jī)制層的輸出2.3.1

Transformer過程自注意力機(jī)制層的輸出即是前饋神經(jīng)網(wǎng)絡(luò)層的輸入，只需要一個(gè)矩陣就可以了，不需要8個(gè)矩陣，所以需要把8個(gè)矩陣壓縮成一個(gè)，這只需要把這些矩陣拼接起來，然后用一個(gè)額外的權(quán)重矩陣與之相乘即可。最終的Z就作為前饋神經(jīng)網(wǎng)絡(luò)的輸入。圖2-118個(gè)矩陣的壓縮2.3.1

Transformer過程接下來就進(jìn)入小編碼器里邊的前饋神經(jīng)網(wǎng)模塊了。前饋神經(jīng)網(wǎng)絡(luò)的輸入是自注意力機(jī)制的輸出，即圖2-10中的Z，是一個(gè)維度為（序列長度×D詞向量）的矩陣。之后前饋神經(jīng)網(wǎng)絡(luò)的輸出也是同樣的維度。進(jìn)一步，一個(gè)大的編碼部分就是將這個(gè)過程重復(fù)6次，最終得到整個(gè)編碼部分的輸出。然后，在Transformer中使用6個(gè)解碼器。為了解決梯度消失問題，在解碼器和編碼器中都用了殘差神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，即每一個(gè)前饋神經(jīng)網(wǎng)絡(luò)的輸入不光包含上述自注意力機(jī)制的輸出Z，還包含最原始的輸入。2.3.1

Transformer過程編碼器是對(duì)輸入（機(jī)器學(xué)習(xí)）進(jìn)行編碼，使用的是自注意力機(jī)制+前饋神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。在解碼器中使用的也是同樣的結(jié)構(gòu)，首先對(duì)輸出（機(jī)器學(xué)習(xí)）計(jì)算自注意力得分。不同的地方在于，執(zhí)行自注意力機(jī)制后，將其輸出與解碼器模塊的輸出計(jì)算一遍注意力機(jī)制得分，之后再進(jìn)入前饋神經(jīng)網(wǎng)絡(luò)模塊。2.3.1

Transformer過程至此，通過Transformer編碼和解碼兩大模塊，完成將“機(jī)器學(xué)習(xí)”翻譯成“machinelearing”的過程。解碼器輸出本來是一個(gè)浮點(diǎn)型的向量，為轉(zhuǎn)化成“machinelearing”這兩個(gè)詞，這個(gè)工作是最后的線性層接上一個(gè)softmax。其中，線性層是一個(gè)簡單的全連接神經(jīng)網(wǎng)絡(luò)，它將解碼器產(chǎn)生的向量投影到一個(gè)更高維度的向量上，假設(shè)模型的詞匯表是10000個(gè)詞，那么向量就有10000個(gè)維度，每個(gè)維度對(duì)應(yīng)一個(gè)唯一的詞的得分。之后的softmax層將這些分?jǐn)?shù)轉(zhuǎn)換為概率。選擇概率最大的維度，并對(duì)應(yīng)地生成與之關(guān)聯(lián)的單詞作為此時(shí)間步的輸出就是最終的輸出。2.3.1

Transformer過程假設(shè)詞匯表維度是6，那么輸出最大概率詞匯的過程如下圖所示。以上的Transformer框架并沒有考慮順序信息，這里需要注意“位置編碼”概念，可以讓輸入攜帶位置信息。圖2-12最大概率詞匯過程2.3.1

Transformer過程Transformer模型主要由編碼器和解碼器兩部分組成。（1）編碼器：由多個(gè)相同的層組成，每一層都有兩個(gè)子層。第一個(gè)子層是自注意力層，它可以考慮到輸入序列中所有元素的上下文關(guān)系。第二個(gè)子層是一個(gè)前饋神經(jīng)網(wǎng)絡(luò)。每個(gè)子層后面都跟有一個(gè)殘差連接和層歸一化。編碼器的任務(wù)是將輸入序列轉(zhuǎn)換為一組連續(xù)的表示，這些表示考慮了輸入序列中每個(gè)元素的上下文。2.3.2

Transformer結(jié)構(gòu)（2）解碼器：由多個(gè)相同的層組成，每一層有三個(gè)子層。第一個(gè)子層是自注意力層，但它在處理當(dāng)前元素時(shí)，只考慮到該元素及其之前的元素，不考慮其后的元素，這種機(jī)制被稱為掩碼自注意力。第二個(gè)子層是一個(gè)編碼器-解碼器注意力層，它使解碼器可以關(guān)注到編碼器的輸出。第三個(gè)子層是一個(gè)前饋神經(jīng)網(wǎng)絡(luò)。每個(gè)子層后面都跟有一個(gè)殘差連接和層歸一化。解碼器的任務(wù)是基于編碼器的輸出和前面已經(jīng)生成的元素，生成下一個(gè)元素。2.3.2

Transformer結(jié)構(gòu)基于Transformer的編碼器和解碼器結(jié)構(gòu)如圖2-13所示，左側(cè)和右側(cè)分別對(duì)應(yīng)著編碼器和解碼器結(jié)構(gòu)，它們均由若干個(gè)基本的Transformer塊組成（對(duì)應(yīng)圖中的灰色框）。這里N×表示進(jìn)行了N次堆疊。每個(gè)Transformer塊都接收一個(gè)向量序列{xi}作為輸入，并輸出一個(gè)等長的向量序列作為輸出{yi}。這里的xi和yi分別對(duì)應(yīng)文本序列中的一個(gè)詞元的表示。yi是當(dāng)前Transformer塊對(duì)輸入xi進(jìn)一步整合其上下文語義后對(duì)應(yīng)的輸出。2.3.2

Transformer結(jié)構(gòu)

圖2-13基于Transformer的編碼器和解碼器結(jié)構(gòu)2.3.2

Transformer結(jié)構(gòu)先通過輸入嵌入層將每個(gè)單詞轉(zhuǎn)換為其相對(duì)應(yīng)的向量表示。在從輸入到輸出的語義抽象過程中，主要涉及如下幾個(gè)模塊。（1）注意力層：自注意力操作是基于Transformer的機(jī)器翻譯模型的基本操作，在源語言的編碼和目標(biāo)語言的生成中頻繁地被使用，以建模源語言、目標(biāo)語言任意兩個(gè)單詞之間的依賴關(guān)系。使用多頭注意力機(jī)制整合上下文語義，它使得序列中任意兩個(gè)單詞之間的依賴關(guān)系可以直接被建模而不基于傳統(tǒng)的循環(huán)結(jié)構(gòu)，從而更好地解決文本的長程依賴問題。2.3.3

Transformer模塊（2）位置感知前饋網(wǎng)絡(luò)層：前饋層接收自注意力子層的輸出作為輸入，并通過一個(gè)帶有ReLU激活函數(shù)的兩層全連接網(wǎng)絡(luò)對(duì)輸入文本序列中的每個(gè)單詞表示進(jìn)行更復(fù)雜的非線性變換。2.3.3

Transformer模塊由Transformer結(jié)構(gòu)組成的網(wǎng)絡(luò)結(jié)構(gòu)通常都非常龐大。編碼器和解碼器均由很多層基本的Transformer塊組成，每一層中都包含復(fù)雜的非線性映射，這就導(dǎo)致模型的訓(xùn)練比較困難。因此，研究人員在Transformer塊中進(jìn)一步引入了殘差連接與層歸一化技術(shù)，以進(jìn)一步提升訓(xùn)練的穩(wěn)定性。具體來說，殘差連接主要是指使用一條直連通道將對(duì)應(yīng)子層的輸入連接到輸出，避免在優(yōu)化過程中因網(wǎng)絡(luò)過深而產(chǎn)生潛在的梯度消失問題。2.3.3

Transformer模塊（3）殘差連接：對(duì)應(yīng)圖中的Add部分。它是一條分別作用在上述兩個(gè)子層中的直連通路，被用于連接兩個(gè)子層的輸入與輸出，使信息流動(dòng)更高效，有利于模型的優(yōu)化。（4）層歸一化：對(duì)應(yīng)圖中的Norm部分。它作用于上述兩個(gè)子層的輸出表示序列，對(duì)表示序列進(jìn)行層歸一化操作，同樣起到穩(wěn)定優(yōu)化的作用。2.3.3

Transformer模塊PART04生成式人工智能隨著互聯(lián)網(wǎng)、移動(dòng)設(shè)備和云計(jì)算的興起，生成式AI代表了技術(shù)的重大進(jìn)步。其直接的實(shí)際效益特別是在提高生產(chǎn)力和效率方面。生成式AI模型廣泛應(yīng)用于許多領(lǐng)域，這些系統(tǒng)的顯著示例和應(yīng)用體現(xiàn)在寫作、藝術(shù)、音樂和其他創(chuàng)新領(lǐng)域。生成式AI是一項(xiàng)變革性技術(shù)，它利用神經(jīng)網(wǎng)絡(luò)來生成原始內(nèi)容，包括文本、圖像、視頻等。ChatGPT、Bard、DALL-E2、Midjourney和GitHubCopilot等知名應(yīng)用程序展示了這一突破的早期前景和潛力。2.4生成式人工智能深入了解生成式AI，探索其機(jī)制、現(xiàn)實(shí)世界的例子、市場動(dòng)態(tài)以及其多個(gè)“層”的復(fù)雜性，了解這項(xiàng)技術(shù)的潛力，它如何塑造行業(yè)，以及對(duì)最終用戶發(fā)揮作用和變革的各個(gè)層面。2.4生成式人工智能生成式AI是AI的一個(gè)子集，它利用算法來創(chuàng)建新內(nèi)容，例如文本、圖像、視頻、音頻、代碼、設(shè)計(jì)或其他形式。生成式AI模型的工作原理是利用神經(jīng)網(wǎng)絡(luò)來分析和識(shí)別所訓(xùn)練的數(shù)據(jù)中的模式和結(jié)構(gòu)。利用這種理解，生成了新的內(nèi)容，既模仿類人的創(chuàng)作，又?jǐn)U展了訓(xùn)練數(shù)據(jù)的模式。這些神經(jīng)網(wǎng)絡(luò)的功能根據(jù)所使用的具體技術(shù)或架構(gòu)而有所不同，包括Transformer、生成對(duì)抗網(wǎng)絡(luò)（GAN）、變分自動(dòng)編碼器（VAE）和擴(kuò)散模型。2.4.1生成式AI定義（1）Transformer。它利用自注意機(jī)制來處理和分析數(shù)據(jù)序列，比傳統(tǒng)方法更高效。與僅關(guān)注單個(gè)句子的傳統(tǒng)AI模型不同，Transformer可以識(shí)別整個(gè)頁面、章節(jié)或書籍中單詞之間的聯(lián)系。這使得它們非常適合在大規(guī)模、未標(biāo)記的數(shù)據(jù)集上進(jìn)行訓(xùn)練。（2）生成對(duì)抗網(wǎng)絡(luò)（GAN）。由兩部分組成：創(chuàng)建新數(shù)據(jù)的生成器和區(qū)分真實(shí)數(shù)據(jù)和計(jì)算機(jī)生成數(shù)據(jù)的鑒別器。兩個(gè)組件同時(shí)訓(xùn)練。如果生成器產(chǎn)生不切實(shí)際的樣本，則生成器會(huì)受到懲罰，而鑒別器如果錯(cuò)誤地識(shí)別計(jì)算機(jī)生成的示例，則會(huì)受到懲罰。2.4.1生成式AI定義（3）變分自動(dòng)編碼器（VAE）。通過一組潛在變量連接的編碼器和解碼器組成。這些無監(jiān)督學(xué)習(xí)模型致力于通過將數(shù)據(jù)集壓縮為簡化形式來使輸入和輸出盡可能相同。潛在變量允許通過將隨機(jī)集輸入解碼器來生成新數(shù)據(jù)，從而促進(jìn)輸出的創(chuàng)造力和多樣性。（4）擴(kuò)散模型。這些模型是經(jīng)過訓(xùn)練的算法，通過添加隨機(jī)噪聲然后巧妙地刪除來操縱數(shù)據(jù)。它們學(xué)習(xí)如何從噪聲失真的版本中檢索原始數(shù)據(jù)，這在圖像生成應(yīng)用程序中特別有用。通過剖析照片和藝術(shù)品的組成部分，擴(kuò)散模型能

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大語言模型基礎(chǔ)微課版課件匯周蘇第1-6章大模型基礎(chǔ) -大模型開發(fā)組織

文檔簡介

溫馨提示

最新文檔

評(píng)論

大語言模型基礎(chǔ)微課版課件匯 周蘇 第1-6章 大模型基礎(chǔ) -大模型開發(fā)組織

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

大語言模型基礎(chǔ)微課版課件匯周蘇第1-6章大模型基礎(chǔ) -大模型開發(fā)組織