大語言模型通識微課課件:開發(fā)流程與數(shù)據(jù)組織_第1頁
大語言模型通識微課課件:開發(fā)流程與數(shù)據(jù)組織_第2頁
大語言模型通識微課課件:開發(fā)流程與數(shù)據(jù)組織_第3頁
大語言模型通識微課課件:開發(fā)流程與數(shù)據(jù)組織_第4頁
大語言模型通識微課課件:開發(fā)流程與數(shù)據(jù)組織_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大語言模型通識微課

開發(fā)流程與數(shù)據(jù)組織大語言模型如此重要,是因為:(1)高準確性:隨著模型參數(shù)的增加,模型通常能更好地學(xué)習(xí)和適應(yīng)各種數(shù)據(jù),從而提高其預(yù)測和生成的準確性。(2)多功能性:大模型通常更為通用,能夠處理更多種類的任務(wù),而不僅限于特定領(lǐng)域。(3)持續(xù)學(xué)習(xí):大模型的巨大容量使其更適合從持續(xù)的數(shù)據(jù)流中學(xué)習(xí)和適應(yīng)新知識。微課6.1開發(fā)流程與數(shù)據(jù)組織所謂大模型開發(fā),是指建設(shè)以大模型為功能核心、通過其強大的理解能力和生成能力、結(jié)合特殊的數(shù)據(jù)或業(yè)務(wù)邏輯來提供獨特功能的應(yīng)用。開發(fā)大模型相關(guān)應(yīng)用,其技術(shù)核心雖然在大模型上,但一般通過調(diào)用API或開源模型來實現(xiàn)理解與生成,通過提示工程來實現(xiàn)大模型控制,因此,大模型開發(fā)更多的是一個工程問題。圖6-2大模型開發(fā)要素6.1.1什么是大模型開發(fā)大模型開發(fā),是將大模型作為一個調(diào)用工具,通過提示工程、數(shù)據(jù)工程、業(yè)務(wù)邏輯分解等手段來充分發(fā)揮大模型能力,適配應(yīng)用任務(wù)。因此,初學(xué)者并不需要深入研究大模型內(nèi)部原理,而更需要掌握使用大模型的實踐技巧。在大模型開發(fā)中,嘗試用提示工程來替代子模型的訓(xùn)練調(diào)優(yōu),通過提示鏈路組合來實現(xiàn)業(yè)務(wù)邏輯,用一個通用大模型+若干業(yè)務(wù)提示來完成任務(wù),從而將傳統(tǒng)的模型訓(xùn)練調(diào)優(yōu)轉(zhuǎn)變成了更簡單、輕松、低成本的提示設(shè)計調(diào)優(yōu)。6.1.1什么是大模型開發(fā)同時,在評估思路上,大模型開發(fā)與傳統(tǒng)人工智能開發(fā)有質(zhì)的差異。

傳統(tǒng)AI評估

LLM評估圖6-3大模型開發(fā)與傳統(tǒng)人工智能開發(fā)的不同6.1.1什么是大模型開發(fā)通常將大模型開發(fā)分解為以下幾個流程。

圖6-4大模型開發(fā)流程6.1.2大模型開發(fā)流程(1)確定目標。開發(fā)目標即應(yīng)用場景、目標人群、核心價值。對于小型團隊,應(yīng)先設(shè)定最小化目標,從構(gòu)建最小產(chǎn)品開始,逐步完善和優(yōu)化。(2)設(shè)計功能。設(shè)計應(yīng)用所要提供的功能以及每一個功能的大體實現(xiàn)邏輯。越清晰、深入的業(yè)務(wù)邏輯理解往往能帶來更好的提示效果。對于小型團隊來說,應(yīng)先確定應(yīng)用的核心功能,然后延展其上下游功能。(3)搭建整體架構(gòu)。需要針對所設(shè)計的功能,搭建項目的整體架構(gòu),實現(xiàn)從用戶輸入到應(yīng)用輸出的全流程貫通。可以基于LangChain進行個性化定制,實現(xiàn)從用戶輸入到數(shù)據(jù)庫再到大模型最后輸出的整體架構(gòu)連接。6.1.2大模型開發(fā)流程(4)搭建數(shù)據(jù)庫。需要收集數(shù)據(jù)并進行預(yù)處理,再向量化存儲到數(shù)據(jù)庫中。數(shù)據(jù)預(yù)處理包括從多種格式向純文本的轉(zhuǎn)化,以及對錯誤數(shù)據(jù)、異常數(shù)據(jù)、臟數(shù)據(jù)進行清洗。(5)提示工程。優(yōu)質(zhì)的提示對大模型能力具有極大影響。首先明確提示設(shè)計的一般原則及技巧,構(gòu)建出一個源于實際業(yè)務(wù)的小型驗證集,以此來滿足基本要求、具備基本能力的提示。(6)驗證迭代。通過不斷發(fā)現(xiàn)壞的情況并針對性改進提示工程來提升系統(tǒng)效果、應(yīng)對邊界情況,從而不斷迭代優(yōu)化,基本實現(xiàn)目標的提示版本。6.1.2大模型開發(fā)流程(7)前后端搭建。接下來,設(shè)計產(chǎn)品頁面,讓應(yīng)用上線成為產(chǎn)品。前后端開發(fā)是非常經(jīng)典且成熟的領(lǐng)域,有兩種快速開發(fā)演示的框架。(8)體驗優(yōu)化。接下來需要進行長期的用戶體驗跟蹤,記錄壞情況,與用戶負反饋,再針對性進行優(yōu)化即可。6.1.2大模型開發(fā)流程在設(shè)計、研發(fā)、運行的過程中,大模型面臨的主要挑戰(zhàn)如下。(1)計算資源:訓(xùn)練和運行大模型需要大量的計算資源,這可能限制了許多機構(gòu)和研究者使用它的能力。(2)環(huán)境影響:大規(guī)模模型的訓(xùn)練對能源的需求是巨大的,可能會對環(huán)境造成負面影響。(3)偏見和公正性:由于大模型通常從大量的互聯(lián)網(wǎng)文本中學(xué)習(xí),它們可能會吸收并再現(xiàn)存在于這些數(shù)據(jù)中的偏見。大模型的研發(fā)流程涵蓋了從數(shù)據(jù)采集到模型訓(xùn)練的多個步驟。6.1.3大模型的數(shù)據(jù)組織(1)數(shù)據(jù)采集:是大模型項目的起點,根據(jù)訓(xùn)練需求收集大量數(shù)據(jù)。這些數(shù)據(jù)可以有多種來源,如公開的數(shù)據(jù)集、公司內(nèi)部的數(shù)據(jù)庫、用戶生成的數(shù)據(jù)、傳感器數(shù)據(jù)等。數(shù)據(jù)的類型可以多樣,包括圖像、文本、聲音、視頻等。主要內(nèi)容包括:定義數(shù)據(jù)需求、找到數(shù)據(jù)源、數(shù)據(jù)收集、數(shù)據(jù)存儲、檢查數(shù)據(jù)質(zhì)量、數(shù)據(jù)整理。這是一個持續(xù)的過程。在整個數(shù)據(jù)采集過程中,需要關(guān)注數(shù)據(jù)的質(zhì)量和一致性,同時也要注意遵守數(shù)據(jù)隱私和安全的相關(guān)規(guī)定。6.1.3大模型的數(shù)據(jù)組織(2)數(shù)據(jù)清洗和預(yù)處理。原始數(shù)據(jù)可能含有噪聲、缺失值、錯誤數(shù)據(jù)等,所以進行清洗。清洗后的數(shù)據(jù)要進行一系列預(yù)處理操作,如歸一化、編碼轉(zhuǎn)換等,使其適合輸入到模型中。主要內(nèi)容包括:數(shù)據(jù)質(zhì)量檢查、處理缺失值、處理重復(fù)值、處理異常值、數(shù)據(jù)轉(zhuǎn)換。進行數(shù)據(jù)清洗和預(yù)處理時,需要對數(shù)據(jù)有深入的理解,以便做出最好的決策。6.1.3大模型的數(shù)據(jù)組織(3)數(shù)據(jù)標注:主要用于監(jiān)督學(xué)習(xí)任務(wù),是一項為原始數(shù)據(jù)添加元信息的工作,以幫助大模型更好地理解和學(xué)習(xí)數(shù)據(jù)。主要內(nèi)容包括:制定標注規(guī)范、選擇或開發(fā)標注工具、進行數(shù)據(jù)標注、質(zhì)量檢查、反饋和修正。高質(zhì)量標注數(shù)據(jù)對訓(xùn)練出高性能的機器學(xué)習(xí)模型至關(guān)重要。因此,盡管這是一個復(fù)雜和耗時的過程,但投入在這個過程中的努力會得到回報。6.1.3大模型的數(shù)據(jù)組織(4)數(shù)據(jù)集劃分:數(shù)據(jù)通常被劃分為訓(xùn)練集、驗證集和測試集。這是大模型項目中的一個重要步驟,可以幫助更好地理解模型的性能。主要內(nèi)容包括:確定劃分策略、隨機劃分、分層抽樣、時間序列數(shù)據(jù)的劃分、分割數(shù)據(jù)、保存數(shù)據(jù)、。這個流程可能根據(jù)數(shù)據(jù)的類型和任務(wù)的需求有所不同。無論如何,正確的數(shù)據(jù)劃分策略對于避免過擬合,以及準確評估模型的性能至關(guān)重要。6.1.3大模型的數(shù)據(jù)組織(5)模型設(shè)計:是大模型項目的關(guān)鍵環(huán)節(jié),需要結(jié)合項目目標、數(shù)據(jù)特性以及算法理論選擇或設(shè)計適合任務(wù)的模型架構(gòu)??赡軙褂脧?fù)雜的深度學(xué)習(xí)架構(gòu),如Transformer等。主要內(nèi)容包括:理解問題、選擇算法、設(shè)計模型架構(gòu)、設(shè)置超參數(shù)、正則化和優(yōu)化策略、定義評估指標。這個流程需要根據(jù)具體的項目和需求進行迭代和調(diào)整,它需要技術(shù)知識、經(jīng)驗以及實驗驗證。在設(shè)計模型時,需要保持對模型復(fù)雜性和泛化能力之間平衡的認識,并始終以實現(xiàn)業(yè)務(wù)目標為導(dǎo)向。6.1.3大模型的數(shù)據(jù)組織(6)模型初始化:是大模型項目中的一個重要步驟。在訓(xùn)練開始前,需要初始化模型的參數(shù),這一般通過隨機方式進行。正確的初始化策略可以幫助模型更快地收斂,并減少訓(xùn)練過程中可能出現(xiàn)的問題。主要內(nèi)容包括:選擇初始化策略、初始化權(quán)重、初始化偏置、設(shè)置初始化參數(shù)、執(zhí)行初始化。這是一個比較技術(shù)性的主題,正確的初始化策略可能對模型的訓(xùn)練速度和性能有很大的影響。應(yīng)該了解不同的初始化策略,以便根據(jù)模型進行選擇。6.1.3大模型的數(shù)據(jù)組織(7)模型訓(xùn)練:是大模型項目中的關(guān)鍵步驟,其中包含了多個環(huán)節(jié)。主要內(nèi)容包括:設(shè)置訓(xùn)練參數(shù)、準備訓(xùn)練數(shù)據(jù)、前向傳播、反向傳播、驗證和調(diào)整、重復(fù)上述步驟、模型測試。實際操作中可能需要根據(jù)特定任務(wù)或特定模型進行相應(yīng)的調(diào)整。6.2.7模型訓(xùn)練(8)模型驗證:是大模型項目中非常關(guān)鍵的一步,目的是在訓(xùn)練過程中,評估模型的性能,定期在驗證集上測試模型的性能,監(jiān)控過擬合,根據(jù)測試和監(jiān)控結(jié)果調(diào)整模型的超參數(shù)。主要內(nèi)容包括:準備驗證集、進行模型預(yù)測、計算評估指標、比較性能、早停法、調(diào)整超參數(shù)。驗證集應(yīng)保持獨立,不能用于訓(xùn)練模型,否則就可能導(dǎo)致模型的性能評估不準確,無法真實反映模型在未見過的數(shù)據(jù)上的性能。6.2.8模型驗證(9)模型保存:是大模型項目的重要一步,讓我們能夠?qū)⒂?xùn)練好的模型存儲起來,以便于后續(xù)的測試、部署或進一步訓(xùn)練或分享。主要內(nèi)容包括:選擇保存格式、保存模型參數(shù)、保存模型架構(gòu)、保存訓(xùn)練配置、執(zhí)行保存操作、驗證保存的模型。這個流程可能會根據(jù)具體需求和所使用的工具或框架進行一些調(diào)整。6.2.9模型保存(10)模型測試:是大模型部署前的最后一步,目的是在測試集上評估模型的最終性能。主要內(nèi)容包括:準備測試集、進行模型預(yù)測、計算評估指標、分析結(jié)果、記錄和報告。測試集應(yīng)當保持獨立和未知,不能用于訓(xùn)練或驗證模型,以確保測試結(jié)果能夠真實反映模型在實際環(huán)境中的表現(xiàn)。6.2.10模型測試(11)模型部署:是將訓(xùn)練好的大模型應(yīng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論