第11章 大模型應用框架_第1頁
第11章 大模型應用框架_第2頁
第11章 大模型應用框架_第3頁
第11章 大模型應用框架_第4頁
第11章 大模型應用框架_第5頁
已閱讀5頁,還剩73頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

浙江省普通本科高?!笆奈濉敝攸c教材大語言模型通識大語言模型通識周蘇教授QQ:81505050第11章大模型應用框架大語言模型技術就像一把神奇的鑰匙,正在為產(chǎn)品開發(fā)打開新世界的大門。無論是個人開發(fā)者想要借助這項技術來提升自己的技能和打造酷炫的產(chǎn)品,還是企業(yè)團隊希望通過它在商業(yè)戰(zhàn)場上取得競爭優(yōu)勢,都得學會運用大模型輔助產(chǎn)品的全流程開發(fā)與應用。簡單來說,使用預訓練的大模型開發(fā)的主要優(yōu)勢在于簡化開發(fā)過程,降低開發(fā)難度,而傳統(tǒng)的機器學習開發(fā)則需要更多的專業(yè)知識和資源投入。第11章大模型應用框架01大模型哲學問題02大模型的構建流程03大模型的應用場景04案例:Magic突破Q算法目錄/CONTENTSPART01大模型哲學問題人工神經(jīng)網(wǎng)絡(ANN)和早期的自然語言處理(NLP)結構一直是哲學討論的焦點,聚焦在它們作為建模人類認知的適用性上。具體而言,相比于經(jīng)典的、符號的、基于規(guī)則的對應物模型,它們是否構成了更好的人類認知模型。其中有些爭論因深度學習的發(fā)展和大語言模型的成功而復蘇和轉變。11.1大模型哲學問題長期以來,研究者們批評人工神經(jīng)網(wǎng)絡無法解釋認知的核心結構,在模擬人類思維方面存在局限。批評者認為,人工神經(jīng)網(wǎng)絡要么無法捕捉經(jīng)典符號架構中可以輕松解釋的認知特征,或者實際上只是實現(xiàn)了這種符號處理的架構,但在真正理解思維過程方面并沒有提供新的見解。11.1.1組成性近年來,大模型的迅速發(fā)展挑戰(zhàn)了這種模型局限性的傳統(tǒng)觀點。大量實證研究調查了大模型在需要組合處理的任務上是否能表現(xiàn)出類人水平的性能,這些研究主要評估模型的組合泛化能力,即它們是否能夠系統(tǒng)地重新組合先前學到的元素,并將這些元素組成的新輸入映射到正確的輸出上。這對于大模型來說,本來就是一項困難的任務,因為它們通常是用龐大的自然語言語料庫訓練而成的,而這些數(shù)據(jù)可能包含了很多特定的句子模式。但研究者通過精心設計的訓練-測試劃分合成數(shù)據(jù)集,克服了這一問題。11.1.1組成性在組合泛化的合成數(shù)據(jù)集上,許多基于Transformer的模型在測試上取得了不錯的表現(xiàn)。元學習,即通過從許多相關的學習任務中進行泛化以更好地學習,也表現(xiàn)出無需進一步進行架構調整即可進行泛化的潛力。元學習讓模型接觸到多個相關任務的分布,從而幫助它們獲取通用知識。通過元學習,在一系列不同于人工訓練的Transformer模型上實現(xiàn)了系統(tǒng)性泛化,展現(xiàn)出與人類相似的準確性和錯誤模式,而且這些模型不需要明確的組合規(guī)則。這表明,要模仿人類大腦的認知結構,可能不需要嚴格的內(nèi)置規(guī)則。11.1.1組成性福多認為,思維和認知過程中涉及的信息以一種類似語言的形式存在,這種“心靈的語言”包含可以組合并且具有明確意義的符號。在福多的框架下,心理過程涉及對這些離散符號的操作,這些符號不僅在語義上可以被評估,還在認知處理中發(fā)揮直接的因果作用。哲學家和認知科學家杰里·福多也主張,心理過程應該基于離散符號。11.1.1組成性相比之下,人工神經(jīng)網(wǎng)絡使用的是連續(xù)向量,這些向量被認為缺乏離散的、語義上可評估的成分,這些成分在算法層面參與處理。在這種觀點下,人工神經(jīng)網(wǎng)絡處理的是較低層級的激活值,而不是直接操作語義上明確的符號。這引發(fā)了人工神經(jīng)網(wǎng)絡是否滿足經(jīng)典成分結構要求的質疑。主張聯(lián)結主義(通過模擬神經(jīng)元之間的相互連接和權值來實現(xiàn)人工智能。其他還有符號主義和行為主義)的人們認為人工神經(jīng)網(wǎng)絡可能建立在一種非經(jīng)典的建模認知結構之上。11.1.1組成性連續(xù)性原則認為,信息編碼和處理機制應使用可以連續(xù)變化的實數(shù)表示,而不是離散符號表示的實數(shù)進行形式化。首先,這使得對自然語言等領域進行更靈活的建模成為可能。其次,利用連續(xù)性的統(tǒng)計推理方法,如神經(jīng)網(wǎng)絡,能夠提供可處理的近似解決方案。最后,連續(xù)性允許使用深度學習技術,這些技術可以同時優(yōu)化信息編碼和模型參數(shù),以發(fā)現(xiàn)最大化性能的任務特定表示空間。11.1.1組成性總體而言,通過利用連續(xù)性的優(yōu)勢,可以解決離散符號方法在靈活性、可處理性和編碼方面長期面臨的挑戰(zhàn)。因此,基于Transformer的人工神經(jīng)為“神經(jīng)組合計算”提供了有希望的見解:表明人工神經(jīng)網(wǎng)絡可以滿足認知建模的核心約束,特別是連續(xù)和組合結構以及處理的要求。11.1.1組成性天賦觀念是哲學、美學用語,指人類生來就有的觀念。一個傳統(tǒng)爭議在于,人工神經(jīng)網(wǎng)絡語言模型是否挑戰(zhàn)了語言發(fā)展中天賦論的論點?這場爭論集中在兩個主張上:一種是較強的原則性主張,另一種是較弱的發(fā)展性主張。原則性主張認為,即使接觸再多的語言資料,也不足以使兒童迅速掌握句法知識。也就是說,如果沒有內(nèi)在的先驗語法知識,人類就無法學習語言規(guī)則。發(fā)展性主張則基于“貧乏刺激”理論,認為兒童在發(fā)展過程中,實際接觸的語言輸入的性質和數(shù)量不足以誘導出底層句法結構的正確概念,除非他們擁有先天知識。11.1.2天賦論與語言習得喬姆斯基派的語言學家認為兒童天生具有“通用語法”,這使得兒童能夠通過少量的經(jīng)驗,高效適應特定語言中的特定語法。大模型在學習語法結構上的成功,成了天賦論的反例。大模型僅通過訓練數(shù)據(jù)集,就能夠獲得復雜的句法知識。從這個意義上說,大模型提供了一種經(jīng)驗主義的證據(jù),即統(tǒng)計學習者可以在沒有先天語法的幫助下歸納出語法知識。11.1.2天賦論與語言習得然而,這并不直接與發(fā)展性主張相矛盾,因為大模型通常接收的語言輸入量比人類兒童要多上幾個數(shù)量級。而且,人類兒童面對的語言輸入和學習環(huán)境與大模型有很大不同。人類學習更具有互動性、迭代性、基礎性和體驗性。研究者逐漸通過在更接近真實學習環(huán)境中訓練較小的語言模型,提供證據(jù)來支持這種發(fā)展性主張。11.1.2天賦論與語言習得班德和科勒認為,由于語言模型僅在語言形式的方面接受訓練,它們無法直接學習到語義,因此,即便大模型能夠通過分析語言序列掌握句法結構,也并不意味著它們真的理解了語義。11.1.3語言理解與基礎相關批評與哈納德在1990年所述的“基礎問題”不謀而合。這個問題指出,自然語言處理中的語言詞元與它們在現(xiàn)實世界中所指代的對象之間存在明顯脫節(jié)。在傳統(tǒng)的自然語言處理中,單詞由任意符號表示,這些符號與現(xiàn)實世界中的指代物沒有直接聯(lián)系,它們的語義通常由外部編程者賦予。從系統(tǒng)的角度來看,它們只是嵌入語法規(guī)則中的毫無意義的詞元。11.1.3語言理解與基礎哈納德認為,要使自然語言處理系統(tǒng)中的符號具有內(nèi)在意義,需要這些內(nèi)部符號表示與符號所指代的外部世界中的對象、事件和屬性存在某種基礎聯(lián)系。如果沒有這種聯(lián)系,系統(tǒng)的表示將與現(xiàn)實脫節(jié),只能從外部解釋者的角度獲得意義。盡管這一問題最初是針對經(jīng)典符號系統(tǒng)提出的,但對僅在文本上進行訓練的現(xiàn)代大模型來說,也存在類似的問題。大模型將語言詞元處理為向量,而不是離散符號,這些向量表示同樣可能與現(xiàn)實世界脫節(jié)。盡管它們能生成對熟練的語言使用者有意義的句子,但這些句子在沒有外部解釋的情況下可能就沒有獨立的意義。11.1.3語言理解與基礎第三則批評涉及大模型是否具有交際意圖的能力。這涉及到傳統(tǒng)中兩種意義的區(qū)別:一種是與語言表達相關的、固定的、與上下文無關的意義(通常稱為語言意義),另一種是說話者通過話語傳達的意圖(通常稱為說話者意義)。大模型的輸出包含按照實際語言使用的統(tǒng)計模式組織和組合的單詞,因此具有語言意義。然而,為了實現(xiàn)有效的交流,大模型需要具有相應的交際意圖。批評的觀點認為,大模型缺乏交際意圖的基本構建塊,如內(nèi)在目標和心智理論。11.1.3語言理解與基礎語義能力通常指的是人們使用和理解一種語言中所表達的含義的能力和知識。有人提出大模型可能展現(xiàn)出一定程度的語義能力。皮安塔多西和希爾認為,大模型中詞匯項的含義與人類一樣,不取決于外部引用,而取決于相應表示之間的內(nèi)部關系,這些表示可以在高維語義空間中,以向量形式進行描述。這個向量空間的“內(nèi)在幾何”指的是不同向量之間的空間關系,例如向量間的距離、向量組之間形成的角度,以及向量在響應上下文內(nèi)容時的變化方式。11.1.3語言理解與基礎皮安塔多西和希爾認為,大模型展示的令人印象深刻的語言能力表明,它們的內(nèi)部表示空間具有大致反映人類概念空間的基本特性的幾何結構。因此,評估大模型的語義能力不能僅通過檢查它們的架構、學習目標或訓練數(shù)據(jù)來確定;相反,至少應該部分地基于系統(tǒng)向量空間的內(nèi)在幾何結構。雖然關于大模型是否獲得指稱語義能力存在爭議,但一些觀點認為,通過在語料庫上進行訓練,大模型可能在一定程度上實現(xiàn)真正的語言指稱。11.1.3語言理解與基礎雖然大模型通過它們的訓練數(shù)據(jù)與世界之間存在間接的因果關系,但這并不能保證它們的輸出是基于真實世界的實際指代。莫洛和米利埃認為,僅在文本上進行訓練的大模型實際上可能通過依據(jù)人類反饋優(yōu)化語言模型的微調,獲得涉及世界的功能。雖然經(jīng)過精細調整的大模型仍然無法直接訪問世界,但反饋信號可以將它們的輸出與實際情況聯(lián)系起來。11.1.3語言理解與基礎還有重要的一點是大模型不具有溝通意圖。大模型輸出的句子可能沒有明確的含義,句子的含義是由外部解答產(chǎn)生的。當人類給定一個外部目標時,大模型可能表現(xiàn)出類似溝通意圖的東西,但這個“意圖”完全是由人類設定的目標確定的,大模型本質上無法形成溝通意圖。11.1.3語言理解與基礎在機器學習中,世界模型通常指的是模擬外部世界某些方面的內(nèi)部表征,使系統(tǒng)能夠以反映現(xiàn)實世界動態(tài)的方式理解、解釋和預測現(xiàn)象,包括因果關系和直觀的物理現(xiàn)象。于是,一個核心問題是,設計用于預測下一個詞元的大模型是否能構建出一個“世界模型”。11.1.4世界模型與通過和環(huán)境互動并接收反饋來學習的強化學習代理不同,大模型并不是通過這種方式進行學習的。它們能否構建出世界模型,實際上是探討它們是否能夠內(nèi)部構建出對世界的理解,并生成與現(xiàn)實世界知識和動態(tài)相一致的語言。評估大模型是否具有世界模型并沒有統(tǒng)一的方法,部分原因在于這個概念通常定義模糊,部分原因在于難以設計實驗來區(qū)分大模型是依賴淺層啟發(fā)式回答問題,還是使用了環(huán)境核心動態(tài)的內(nèi)部表征這一假設。11.1.4世界模型有理論支持大模型可能學會了模擬世界的一部分,而不僅僅是進行序列概率估計。更具體地說,互聯(lián)網(wǎng)規(guī)模的訓練數(shù)據(jù)集由大量單獨的文檔組成。對這些文本的最有效壓縮可能涉及對生成它們的隱藏變量值進行編碼:即文本的人類作者的句法知識、語義信念和交際意圖。11.1.4世界模型一些理論家提出,人類智能的一個關鍵特征在于其獨特的文化學習能力。盡管其他靈長類動物也有類似的能力,但人類在這方面顯得更為突出。人類能夠相互合作,將知識從上一代傳到下一代,人類能夠從上一代結束的地方繼續(xù),并在語言學、科學和社會學知識方面取得新的進展。這種方式使人類的知識積累和發(fā)現(xiàn)保持穩(wěn)步發(fā)展,與黑猩猩等其他動物相對停滯的文化演變形成鮮明對比。這里,產(chǎn)生一個有趣的問題,大模型是否可能參與文化習得并在知識傳遞中發(fā)揮作用。11.1.5知識傳遞和語言支持鑒于深度學習系統(tǒng)已經(jīng)在多個任務領域超過了人類表現(xiàn)。那么問題就變成了,大模型是否能夠模擬文化學習的許多組成部分,將它們的發(fā)現(xiàn)傳遞給人類理論家。研究發(fā)現(xiàn),現(xiàn)在主要是人類通過解釋模型來得到可傳播的知識。也有證據(jù)表明,大模型似乎能夠在已知任務范圍內(nèi)處理新數(shù)據(jù),實現(xiàn)局部任務泛化。11.1.5知識傳遞和語言支持此外,文化的持續(xù)進步不僅涉及創(chuàng)新,還包括穩(wěn)定的文化傳播。大模型是否能夠像人類一樣,不僅生成新穎的解決方案,還能夠通過認識和表達它們?nèi)绾纬较惹暗慕鉀Q方案,從而“鎖定”這些創(chuàng)新?這種能力不僅涉及生成新穎的響應,還需要對解決方案的新穎性及其影響有深刻理解,類似于人類科學家不僅發(fā)現(xiàn)新事物,還能理論化、情境化和傳達他們的發(fā)現(xiàn)。因此,對大模型的挑戰(zhàn)不僅僅在于生成問題的新穎解決方案,還在于培養(yǎng)一種能夠反思和傳達其創(chuàng)新性質的能力,從而促進文化學習的累積過程。這種能力可能需要更先進的交際意圖理解和世界模型構建。11.1.5知識傳遞和語言支持PART02大模型的構建流程大模型正在重塑產(chǎn)業(yè)。但是,企業(yè)想要真正擁抱大模型,實現(xiàn)自建大模型,仍然面臨著很多現(xiàn)實問題:怎樣才能擁有企業(yè)專屬的領域大模型?如何高效率、低成本地處理數(shù)據(jù)?模型數(shù)據(jù)如何動態(tài)更新?私有數(shù)據(jù)如何安全地接入大模型?等等。

圖11-1構建大模型的分布指南11.2大模型的構建流程在構建大模型前期準備中,基礎設施最重要,GPU的型號以及數(shù)據(jù)直接關系到模型的訓練質量和訓練時間。例如:使用單個V100GPU訓練具有1750億個參數(shù)的GPT-3將需要約288年,更不用說現(xiàn)在的大模型動輒萬億參數(shù)。隨著更強算力資源的推出,大模型的訓練速度被大大加快。但即便是提升了單個GPU的算力,訓練超級規(guī)模的大模型也不是一件容易的事情,這是因為:(1)GPU內(nèi)存容量是有限的,使得即使在多GPU服務器上也無法適合大模型。(2)所需的計算操作的數(shù)量可能導致不切實際的長訓練時間。11.2.1確定需求大小各種模型并行性技術以及多機多卡的分布式訓練部分解決了這兩個挑戰(zhàn)。圖11-2單機多卡的訓練模式11.2.1確定需求大小使用數(shù)據(jù)并行性,每個工作人員都有一個完整模型的副本,輸入數(shù)據(jù)集被分割,工作人員定期聚合他們的梯度,以確保所有工作人員都看到權重的一致版本(見圖11-3)。對于不適合單個GPU的大模型,數(shù)據(jù)并行性可以在較小的模型碎片上使用。

圖11-3數(shù)據(jù)并行的訓練模式通過模型并行性,在多個設備之間共享模型的圖層11.2.1確定需求大小當使用相同轉換塊的模型時,每個設備可以分配相同數(shù)量的轉換層。一個批次被分割成更小的微批次;然后在微批次之間通過流水線執(zhí)行。為了精確地保留嚴格的優(yōu)化器語義,技術人員引入了周期性的管道刷新,以便優(yōu)化器步驟能夠跨設備同步。在大模型開始訓練之前,需要考慮吞吐量,估計出進行端到端訓練所需的總時間。對于搭建自有的大模型來說,訓練多大的規(guī)模參數(shù)就需要有多大規(guī)模的算力。11.2.1確定需求大小對于初代大模型來說,數(shù)據(jù)收集以及后續(xù)處理是一件非常繁瑣且棘手的事情,這一過程中需要面臨諸多問題,比如數(shù)據(jù)許可,數(shù)據(jù)集特征和覆蓋率,數(shù)據(jù)預處理的充分性,如何解決數(shù)據(jù)集偏差,如何解決數(shù)據(jù)集公平性,不同數(shù)據(jù)集的差異,數(shù)據(jù)隱私,數(shù)據(jù)安全等。11.2.2數(shù)據(jù)收集初代大模型的推出具有跨時代的意義,這不僅僅是讓人們能夠充分利用大模型的便利性,也為更多大模型的推出鋪平了道路,例如:ChatGPT訓練了幾乎所有能在公開渠道找到的數(shù)據(jù),包括全部的推特數(shù)據(jù)(事實上,推特API已經(jīng)限制了采集數(shù)量,所以后續(xù)大模型再想利用全部的推特數(shù)據(jù)來完成訓練幾乎不可能了)。這個對于后續(xù)大模型開發(fā)提供了便利,一方面后續(xù)的大模型可以借助ChatGPT更好的完成數(shù)據(jù)集收集任務,另一方面ChatGPT的成功也為后續(xù)其他大模型的數(shù)據(jù)收集提供了經(jīng)驗。11.2.2數(shù)據(jù)收集按類別劃分的數(shù)據(jù)集分布在數(shù)據(jù)收集完成之后,需要按照一定的比例對數(shù)據(jù)集進行混合,數(shù)據(jù)混合旨在增強模型的泛化能力和抵抗對抗性攻擊。這個過程通常與數(shù)據(jù)增強結合使用,有助于減輕過度擬合,提高模型的魯棒性。在進行混合時,需要為每個樣本或特征分配一個權重,這些權重可以是固定的,也可以是隨機的,權重的選擇方式取決于混合策略和具體任務。例如,對于某些圖像分類任務,更高的混合比例可能有助于提高模型的泛化能力,而對于其他任務,適度的混合比例可能就足夠了。11.2.2數(shù)據(jù)收集混合時也要考慮數(shù)據(jù)的大小和多樣性,如果數(shù)據(jù)集非常龐大,多樣性強,那么可以考慮使用較低的混合比例,因為已經(jīng)有足夠的數(shù)據(jù)來訓練模型。但是如果數(shù)據(jù)集相對較小,多樣性低,增加混合比例可能有助于增加樣本數(shù)量,減輕過擬合。11.2.2數(shù)據(jù)收集大模型具有采樣效率高的特點,但這意味著如果輸入模型的數(shù)據(jù)充滿拼寫錯誤的單詞、性質粗俗、包含大量目標語言之外的其他語言,或者具有不受歡迎的惡作劇特征,那么大模型最終的效果會存在問題?;诖耍趯Υ竽P瓦M行訓練之前,需要對收集到的數(shù)據(jù)進行預處理操作。(1)數(shù)據(jù)清洗、過濾、語句邊界檢測、標準化。11.2.3數(shù)據(jù)集預處理(2)針對訓練性能的數(shù)據(jù)轉換。在訓練機器學習模型時,需要對原始數(shù)據(jù)進行各種處理和轉換,以提高模型的性能和泛化能力。數(shù)據(jù)轉換的目標是使訓練數(shù)據(jù)更適合于模型的學習和泛化,以及減少模型的過擬合風險。例如特征縮放、特征工程、數(shù)據(jù)清洗、特征選擇、數(shù)據(jù)增強、標簽平滑、數(shù)據(jù)分割等。(3)分詞器訓練。這是自然語言處理中的重要工具,用于將連續(xù)的文本序列分解成單個詞匯或標記。分詞器訓練是為了使其能夠理解不同語言和領域中的文本,并準確地劃分詞匯。11.2.3數(shù)據(jù)集預處理通過模型并行性,模型的圖層將在多個設備之間共享。當使用相同轉換器的模型時,每個設備可以分配相同數(shù)量的轉換器層。一個批被分割成更小的微批;然后在微批次之間通過流水線執(zhí)行(見圖11-4)。為了精確地保留嚴格的優(yōu)化器語義,技術人員引入了周期性的管道刷新,以便優(yōu)化器步驟能夠跨設備同步。圖11-4默認的和交錯的管道計劃11.2.4大模型預訓練實際上,大模型預訓練的過程中需要注意的問題遠不止這么簡單。分布式訓練能夠解決小模型的訓練問題,但是隨著模型的增大,訓練數(shù)據(jù)集規(guī)模的增長,數(shù)據(jù)并行就會出現(xiàn)局限性。當訓練資源擴大到一定規(guī)模時,就會出現(xiàn)通信瓶頸,計算資源的邊際效應顯現(xiàn),增加資源也沒辦法進行加速,這就是常說的“通信墻”。11.2.4大模型預訓練除此之外,大模型訓練可能還會遇到性能墻的困擾,這是指在某個特定任務或計算資源上,模型的性能無法繼續(xù)有效提升的情況。當模型接近性能墻時,增加更多的計算資源或數(shù)據(jù)量可能不會顯著改善模型的性能,因為模型已經(jīng)達到了某種極限或瓶頸。11.2.4大模型預訓練性能墻通常表現(xiàn)為以下幾種情況:(1)訓練時間增長:隨著模型規(guī)模的增大,訓練時間也顯示出顯著增長的趨勢。這是因為更大的模型需要更多的計算資源和時間來收斂,但性能提升可能會遞減,最終趨于停滯。(2)資源利用不高:增加更多的計算資源(例如,GPU或TPU)可能會減少訓練時間,但利用率不高,因為模型可能無法有效地利用所有資源來提升性能。11.2.4大模型預訓練那么,什么是大模型訓練成功的標準呢?一般會通過定量分析和定性分析來回答這個問題。首先是定量分析。觀察大模型的訓練損失,訓練損失的減少表明模型正在學習并擬合訓練數(shù)據(jù);檢查大模型的性能指標,對于分類任務,常用的指標包括準確率、精確度、召回率等。對于回歸任務,常用的指標包括均方誤差、平均絕對誤差等。11.2.4大模型預訓練其次是定性分析。通過合并檢查點,將多個模型檢查點合并為統(tǒng)一的檢查點文件。一旦合并了檢查點,就可以從該檢查點加載模型,然后,使用加載的模型來生成文本。這時候就需要檢查生成句子的連貫性、語法、相關性、多樣性等,評估句子的生成質量。另外,也通過對驗證集和測試集的評估來觀察大模型的表現(xiàn),一來觀察大模型在處理驗證集和測試集時的各項指標,二來觀察大模型是否有過擬合的現(xiàn)象出現(xiàn)。11.2.4大模型預訓練進行預訓練之后,往往需要對大模型進行實驗和微調處理,實驗的作用是檢驗大模型是否訓練成功。如果實驗結果證明訓練是成功的,那么接下來就需要進行微調處理。微調處理的好處是可以對大模型有針對性的做出訓練,例如大模型的側重點是在情感分析還是在機器翻譯?又或者是文本分類?通過微調之后,大模型在垂直領域的適應性會更強,準確率更高。這一過程通常稱為價值觀對齊,目的就是提高模型的性能、適應性和效率,充分利用大模型的通用知識,使其更好地適應不同的任務和領域。11.2.5任務微調訓練過程中需要大量的GPU資源,在模型部署過程中也同樣需要。以175B的模型為例,不壓縮模型的情況下部署需要650GB的內(nèi)存,這個時候可以通過模型縮減和壓縮或者采用分布式部署方式來減輕部署壓力。11.2.6部署PART03大模型的應用場景以ChatGPT為代表的大語言模型在問題回答、文稿撰寫、代碼生成、數(shù)學解題等任務上展現(xiàn)出了強大的能力,引發(fā)研究人員廣泛思考如何利用這些模型來開發(fā)各種類型的應用,并修正它們在推理能力、獲取外部知識、使用工具及執(zhí)行復雜任務等方面的不足。此外,研究人員還致力于將文本、圖像、視頻、音頻等多種信息結合起來,實現(xiàn)多模態(tài)大模型,這也是一個熱門研究領域。鑒于大模型的參數(shù)量龐大,以及針對每個輸入的計算時間較長,優(yōu)化模型在推理階段的執(zhí)行速度和用戶響應時長也變得至關重要。11.3大模型的應用場景其實,“GPT們”背后的技術本質上是大模型應用。大模型利用深度學習技術,根據(jù)大量的文本數(shù)據(jù),學習語言的規(guī)律和知識,從而生成自然和流暢的文本模型。大模型具有強大的表達能力和泛化能力,可以應用于各種自然語言處理任務,如機器翻譯、文本摘要、對話系統(tǒng)、問答系統(tǒng)等。11.3大模型的應用場景大模型最簡單的應用之一就是翻譯書面文本,實現(xiàn)跨語言的高質量實時翻譯服務。例如,用戶可以向人工智能助手輸入文本,并要求它翻譯成另一種語言,然后應用就會自動開始翻譯成自然流暢的文本。一些研究表明,與市面上的一些商業(yè)翻譯產(chǎn)品相比,GPT-4等大模型的表現(xiàn)具有更強的競爭力。大模型可以根據(jù)不同的語境和文本內(nèi)容進行自適應,從而更好地處理復雜的語言表達。同時,大模型還可以應用于語音翻譯、實時翻譯等更多的應用場景。大模型技術需要大量的訓練數(shù)據(jù)來進行模型訓練,因此需要投入更多的資源和時間來構建和優(yōu)化模型。11.3.1機器翻譯、文本理解與分析此外,這方面的應用還包括:·輿情分析:挖掘用戶意見傾向和社會情緒變化?!の谋痉诸悾鹤詣訉ξ臋n進行主題歸類或情感標注。11.3.1機器翻譯、文本理解與分析大數(shù)據(jù)模型可以利用大量數(shù)據(jù)來建立模型,通過機器學習算法和數(shù)據(jù)挖掘技術,從中發(fā)現(xiàn)惡意軟件的特征和行為模式,從而更好地對惡意軟件進行檢測、分類和分析。2023年4月,谷歌推出網(wǎng)絡安全SecPaLM的大模型,展示了在惡意軟件分析中的一些用途。例如,谷歌的人工智能惡意軟件分析工具VirusTotalCodeInsight就使用了SecPaLM大模型掃描并解釋腳本的執(zhí)行邏輯,使用戶清楚了解這些腳本是否具有惡意。11.3.2惡意軟件分析文本內(nèi)容的創(chuàng)造性生成是大模型越來越常見的用途。各種大模型都可以按照用戶想法生成博客、長篇文章、短篇故事、新聞報道、摘要、腳本、問卷、調查和社交媒體帖子、商業(yè)報告等書面內(nèi)容。用戶提供的想法(提示)越詳細,模型輸出內(nèi)容的質量就越高。

圖11-5文生文示例11.3.3自然語言生成另外,可以借助大模型來幫助構思。研究顯示,很多營銷人員使用人工智能為營銷內(nèi)容生成創(chuàng)意或靈感,而其中的主要價值在于,人工智能可以加快內(nèi)容生成過程。此外,大模型還可以生成對話內(nèi)容,例如智能客服、虛擬助手對話響應的生成等。11.3.3自然語言生成除了生成文本內(nèi)容外,還有一些工具如DALL-E、MidJourney和StableDiffusion,可以讓用戶輸入文本提示來生成圖像(文生圖)甚至短視頻(Sora)。

圖11-6文生圖示例11.3.3自然語言生成許多大模型用戶嘗試將生成式人工智能作為一種替代搜索的工具。用戶只需要使用自然語言向大模型提問,程序會立即回復,并提供關于相關話題的見解和“事實”。已經(jīng)有不少搜索引擎引入大模型,帶給用戶更好的體驗。雖然使用Bard或ChatGPT等大模型作為搜索工具可以快捷獲取到大量信息,但必須注意,所響應內(nèi)容并非一直都準確無誤。在特定情況下,大模型可被惡意調教,引導捏造事實和數(shù)字。因此,使用的時候最好仔細核對大模型提供的事實信息,以免被錯誤信息誤導。11.3.4搜索與知識提取大模型還可以構建對話系統(tǒng):開發(fā)具備上下文記憶、情感識別等功能的智能聊天機器人;進行知識抽取與推理:提取文本中的實體和關系,構建和更新知識圖譜。11.3.4搜索與知識提取生成式人工智能工具不僅能生成自然語言,還能生成例如JavaScript、Python、PHP、Java和C#等編程語言的代碼。大模型的代碼生成能力使得非技術用戶也能生成一些基本的程序代碼。此外,它們還可用于幫助調試現(xiàn)有代碼,甚至生成注釋文檔。不過,目前編程人員可以讓生成式人工智能工具為一些基本的、重復性邏輯編寫代碼,但在范圍和規(guī)模更大的復雜任務中,還是有些力不從心。因此,編程人員如果在開發(fā)過程中運用了生成式人工智能工具,需要反復檢查代碼的功能和安全問題,以避免部署后出現(xiàn)問題。11.3.5代碼開發(fā)大語言模型在網(wǎng)絡安全方面的另一個用途是檢測網(wǎng)絡攻擊。這是因為大模型有能力處理在整個企業(yè)網(wǎng)絡中收集的大量數(shù)據(jù)并深度分析,判斷存在惡意網(wǎng)絡攻擊的模式,從而發(fā)出警報。一些網(wǎng)絡安全廠商已經(jīng)開始嘗試使用該技術進行威脅檢測。例如,SentinelOne公司發(fā)布了一個大模型驅動的解決方案,可以自動搜索威脅,并對惡意活動啟動自動響應。微軟的SecurityCopilot則演示了另一種允許用戶掃描其環(huán)境中的已知漏洞和漏洞利用情況的解決方案,能在幾分鐘內(nèi)生成潛在安全事件報告,以便用戶做好提前預防手段。11.3.6檢測和預防網(wǎng)絡攻擊作為虛擬助理,生成式人工智能在客戶支持領域也大有可為。麥肯錫的研究發(fā)現(xiàn),在一家擁有5000名客服人員的公司應用了生成式人工智能之后,問題解決率每小時提高了14%,處理問題的時間減少了9%。人工智能虛擬助理允許客戶即時詢問有關服務和產(chǎn)品的問題、申請退款和報告投訴。對公司的用戶來說,它縮小了獲取人工支持以及問題解決的時間,對企業(yè)來說,它使重復性的支持變成了自動化任務,減小成本。11.3.7虛擬助理和客戶支持大模型能夠將音頻或視頻文件高精度地轉錄為書面文本。Sonix等公司已經(jīng)開始使用生成式人工智能從音頻和視頻文件中轉錄文本。與傳統(tǒng)的轉錄軟件相比,大模型的優(yōu)勢之一就是自然語言處理,從而能夠精準推斷出音視頻中語句的上下文和及其隱藏含義。11.3.8轉錄生成式人工智能能夠對大型數(shù)據(jù)進行總結和推理,因此也是企業(yè)進行市場調研分析,深入了解產(chǎn)品、服務、市場、競爭對手和客戶的有用工具。語言模型通過處理用戶的文本輸入或數(shù)據(jù)集,對趨勢進行書面總結,提供對買家角色、差異化競爭、市場差距的見解,以及其他可用于長期業(yè)務增長的信息。11.3.9市場調研所謂SEO(搜索引擎優(yōu)化),是指按照搜索引擎的算法,提升你的文章在搜索引擎中的自然排名。人工智能助手在SEO關鍵詞優(yōu)化過程方面能發(fā)揮重要作用。通過工具分析,充分滿足用戶的需求特征、清晰的網(wǎng)站導航、完善的在線幫助等,在此基礎上使得網(wǎng)站功能和信息發(fā)揮最好的效果。例如,用戶可以讓生成式人工智能分析自己的網(wǎng)站博客,然后提供一些有利于搜索引擎優(yōu)化的標題列表。為了獲得最佳效果,使用ChatGPT等大模型來確定潛在關鍵詞,然后使用一些第三方SEO提供商的工具進行交叉檢查,以確保流量最大化。11.3.10SEO關鍵詞優(yōu)化雖然生成式人工智能的發(fā)展仍在早期,但也讓我們看到了未來的無限可能。依托于各類大模型的生成式人工智能將深深融入我們的工作、創(chuàng)作和娛樂方式。這些工具不僅可以幫助我們提高創(chuàng)造力和效率,也可以給我們帶來樂趣和驚喜,值得期待。11.3.10SEO關鍵詞優(yōu)化PART04案例:Magic突破Q算法據(jù)2024年2月21日媒體報道,Magic公司宣稱其能夠實現(xiàn)類似于OpenAI在2023年開發(fā)的“Q算法”的主動推理能力。隨著編程和軟件開發(fā)的需求持續(xù)增長,創(chuàng)新和高效的編碼工具可能會帶來巨大的市場需求。11.4案例:Magic突破Q算法Q算法又稱Q-Learning,是強化學習算法家族中最具代表性的基礎算法之一。經(jīng)典的Q算法相對簡單、學習快速,具有以下特點:(1)不需要理解環(huán)境,簡單方便;當然,代價是莽撞、缺乏想象力

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論