版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
委 1 1 5 7 9 9 13 13 14 14 15 15 17 20 22 23 25 25 25 27 29 31 32 32 33 35 37 37 40 40 49 53 56 56 59 62 62 64 65 66 67 68 68 70 70 71 72 72 73 74 74 75 75 75 76 76 76 78 78 79 81 81 82 84 84 87 90 91 92 93 94 95 97 1161解由于梯度消失而導(dǎo)致的深層網(wǎng)絡(luò)難以訓(xùn)練的問(wèn)題[1],為神經(jīng)網(wǎng)絡(luò)的有效學(xué)習(xí)提供了重要的優(yōu)化途徑。此后,深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)的“標(biāo)注數(shù)據(jù)監(jiān)督學(xué)習(xí)”的任務(wù)特定模型,到“無(wú)標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練+標(biāo)注數(shù)據(jù)微調(diào)”的預(yù)訓(xùn)練模型,再到如今的“大規(guī)模無(wú)標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練+指令微調(diào)+人類對(duì)齊”的大模型,經(jīng)歷了從小數(shù)據(jù)到大數(shù)據(jù),從小21)統(tǒng)計(jì)語(yǔ)言模型:統(tǒng)計(jì)語(yǔ)言模型主要基于馬爾可夫假設(shè)建模文2)神經(jīng)語(yǔ)言模型:針對(duì)統(tǒng)計(jì)語(yǔ)言模型存在的問(wèn)題,神經(jīng)語(yǔ)言模型主要通過(guò)神經(jīng)網(wǎng)絡(luò)(MLP[7]、RNN[8])建模目標(biāo)詞匯與上下文詞模型基于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)[12]構(gòu)建,存在長(zhǎng)距離序列3下,可以僅通過(guò)提示詞或少數(shù)樣例(In-contextle(ReinforcementLearningfromHumanFeedback,RLHF)[4證了擴(kuò)大模型參數(shù)規(guī)模的有效性(擴(kuò)展法則并且探索了基于自然模型效果,提出了基于“上下文學(xué)習(xí)”的任務(wù)解決方法;CodeX[25]力;InstructGPT[21]基于人類反饋的強(qiáng)化學(xué)習(xí)技術(shù)(RLHF能夠強(qiáng)化對(duì)于人類指令的遵循能力和人類偏好的對(duì)齊能力;ChatGPT與InstructGPT的技術(shù)原理相似,進(jìn)一步引入了對(duì)話數(shù)據(jù)進(jìn)行學(xué)習(xí),從而加強(qiáng)了多輪對(duì)話能力;GPT-4[26]能夠處理更長(zhǎng)的上下文窗口,具5表明在多模態(tài)大模型中引入基于人類知識(shí)的自然語(yǔ)言能夠帶來(lái)模型大模型服務(wù)平臺(tái)正向個(gè)人開(kāi)放及商業(yè)落地應(yīng)用延伸,不同公司互地面向公眾開(kāi)放的大模型服務(wù)平臺(tái),用戶可以通過(guò)API訪問(wèn)不同的該系列模型通過(guò)無(wú)監(jiān)督預(yù)訓(xùn)練、基于人類反饋的強(qiáng)化學(xué)習(xí)和ConstitutionalAI技術(shù)基于百度文心大模型的知識(shí)增強(qiáng)語(yǔ)言大模型,提供APP、網(wǎng)頁(yè)版、訓(xùn)練優(yōu)化。6提供了分桶梯度、通信計(jì)算重疊、跳過(guò)同步等技術(shù),支持大規(guī)模的分布式集群抽象成邏輯上的超級(jí)設(shè)備,支持動(dòng)靜態(tài)圖靈活轉(zhuǎn)換,以數(shù)據(jù)+模型混合并行提升性能;DeepSpeed[29]是微軟推出的大模型訓(xùn)練框型的生成能力。Baichuan系列模型由百川智能開(kāi)發(fā),支持中英雙語(yǔ),使用高質(zhì)量訓(xùn)練數(shù)據(jù),在多個(gè)基準(zhǔn)測(cè)試上表現(xiàn)優(yōu)秀,該系列模型還開(kāi)邏輯推理等方面的能力。CPM[33][34]系列采用經(jīng)典的語(yǔ)言模型自回型+軍事可以增強(qiáng)軍事情報(bào)和決策能力,可以實(shí)現(xiàn)實(shí)時(shí)戰(zhàn)場(chǎng)翻譯,快改進(jìn)態(tài)勢(shì)感知等;大模型+教育可以賦予教育教材新式更個(gè)性化、更智能;大模型+金融可以幫助金融機(jī)構(gòu)降本增效,讓7金融服務(wù)更有溫度;大模型+醫(yī)療可以賦能醫(yī)療機(jī)構(gòu)診療全過(guò)程??偞竽P偷耐ㄓ眯允蛊浔徽J(rèn)為是可以成為未來(lái)人工智能應(yīng)用中的情景學(xué)習(xí)能力[19][37]等方面有待展開(kāi)深入研究,為大模型的大規(guī)模89將模型在大規(guī)模無(wú)標(biāo)注數(shù)據(jù)上進(jìn)行自監(jiān)督訓(xùn)練得到預(yù)訓(xùn)練模型,2)將模型在下游各種自然語(yǔ)言處理任務(wù)上的小規(guī)模有標(biāo)注數(shù)據(jù)進(jìn)行微環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)和長(zhǎng)讓模型能夠理解序列中的順序信息,引入了位置編碼。標(biāo)準(zhǔn)Transformer架構(gòu)的位置編碼方式是使用正弦和余弦函數(shù)的方法。對(duì)數(shù),那么編碼的第j個(gè)元素為sin(i/10000j/d);如果j是奇數(shù),那么編碼的第j個(gè)元素為cos(i/10000j/d)。網(wǎng)絡(luò)層,這兩部分通過(guò)殘差連接和層歸一化操作連接起來(lái),組成部分。它包含一個(gè)查詢矩陣Q∈n×dk,一個(gè)鍵矩陣K∈m×dk和一列的特征矩陣和具有序列長(zhǎng)度為m的鍵-值序列的特征矩陣分別為Xq,三個(gè)矩陣Q、K、V由三個(gè)線性變換得到被稱為自注意力機(jī)制,因?yàn)槿齻€(gè)矩陣Q、K、V都來(lái)自于前一層的相能力。多頭注意力的計(jì)算方式如下:使用了多個(gè)查詢矩陣Q(i),鍵矩陣K(i)和值矩陣V(i),最終輸出為H∈dv×do,它是通過(guò)將一系列Hi進(jìn)行Hi=Attention(Q(i),K(i),V(i))=Attention(XqWq(i),XkvWk(i),XkvWv(i)),派生出來(lái)的,而鍵矩陣K和值矩陣V是從編碼器的最后一層的輸出中2)全連接前饋層,在注意力層之后的全連接前饋層由兩個(gè)線性變換和一個(gè)非線性激活函數(shù)組成。將輸入矩陣表示為bdf置為do,df設(shè)置為di的4倍。FFN作用包活:在每個(gè)注意力模塊之后引入了非線性激活函數(shù)σ(.),這有助于增3)殘差連接和層歸一化,在每個(gè)注意力層和每個(gè)全連接前饋層化(LayerNormalization)技術(shù),這有助于在模型非常深時(shí)保留信息歸一化層定義為L(zhǎng)ayerNorm(X+f(X))?,F(xiàn)有的語(yǔ)言大模型幾乎全部是以Transformer模型作為基礎(chǔ)架角度,語(yǔ)言大模型架構(gòu)大致可以分為三類[36]:掩碼語(yǔ)言建模(MaskedLanguageModeling,MLM)是基于Transformer編碼器的雙向模型,其中BERT[11]和RoBERTa[41]是其中典型代表。這類模型通過(guò)掩碼語(yǔ)言建模任務(wù)進(jìn)行預(yù)訓(xùn)練,BERT記[CLS]和[SEP],并且隨機(jī)用[MASK]標(biāo)記替換原始序列的條件概率,即讓模型執(zhí)行“完型填空”任務(wù)。而[CLS]的最終表示自回歸語(yǔ)言模型在訓(xùn)練時(shí)通過(guò)學(xué)習(xí)預(yù)測(cè)序列中的下一個(gè)詞來(lái)建的優(yōu)化目標(biāo)為最大化對(duì)序列中每個(gè)位置的下一個(gè)詞的條件概率的預(yù)模型,即同時(shí)使用編碼器-解碼器結(jié)構(gòu),代表性模型包括T5[42]和BART[43]。這兩個(gè)模型都采用文本片段級(jí)別的掩碼語(yǔ)言模型作為主要的預(yù)訓(xùn)練任務(wù),即隨機(jī)用單個(gè)[MASK]特殊標(biāo)記替換文本中任意模型可以形式化地表示為最大化在給定掩碼的字符序列的情況下目對(duì)語(yǔ)言大模型的預(yù)訓(xùn)練。一種是在預(yù)訓(xùn)練中設(shè)計(jì)高效的優(yōu)化任務(wù)目使用1000倍至10000倍較少計(jì)算資源訓(xùn)練的小模型可靠地預(yù)測(cè)訓(xùn)練穩(wěn)定性、顯存利用等方面進(jìn)行優(yōu)化。比如,Transformer其并行Transformer模型也是顯存密集型模型,輸入序列越長(zhǎng)、占用的內(nèi)存能的基礎(chǔ)上同時(shí)實(shí)現(xiàn)模型訓(xùn)練速度、推斷速度和內(nèi)存節(jié)約的大幅提升。針對(duì)自注意力顯存消耗大,斯坦福大學(xué)在Transformer中引入Transformers[46]和Pathways[47]架構(gòu)、清華大學(xué)的MoEfication語(yǔ)言大模型由于在大規(guī)模通用領(lǐng)域數(shù)據(jù)預(yù)訓(xùn)練通常缺乏對(duì)特指令微調(diào)(InstructionTuning)[21],是一種可以幫助語(yǔ)言大模型(1)指令理解,指語(yǔ)言大模型準(zhǔn)確理解人類語(yǔ)言指令的能力,多工作采用多任務(wù)提示方式對(duì)基于指令描述的大量任務(wù)集上對(duì)語(yǔ)言(2)指令數(shù)據(jù)獲取,指如何構(gòu)建包含多樣性的任務(wù)指令數(shù)據(jù)。指令數(shù)據(jù)構(gòu)建常見(jiàn)有三種方式:i)基于公開(kāi)人工標(biāo)注數(shù)據(jù)構(gòu)建,代言大模型生成新的指令描述和問(wèn)題,然后再輸入到模型讓其輸出回假信息、追求錯(cuò)誤目標(biāo)或產(chǎn)生有偏見(jiàn)的內(nèi)容[5]。其根本原因在于,與對(duì)人類價(jià)值的對(duì)齊,InstructGPT提出了一種基于人類反饋的微調(diào)并僅微調(diào)該引入部分的參數(shù)。如適配器(Adapter)方法,旨將小規(guī)旨在原模型指定模型中部分參數(shù)為可訓(xùn)練參數(shù),并固定模型其他參參數(shù)化方法:將原模型或部分模型參數(shù)重參數(shù)化到低維度參數(shù)空間繞參數(shù)高效微調(diào)的開(kāi)源工具也被研發(fā),代表種更輕量級(jí)的下游任務(wù)適配方法。特別地,LoRA[54]已廣泛應(yīng)用于通過(guò)大規(guī)模文本數(shù)據(jù)預(yù)訓(xùn)練之后的語(yǔ)言大模型具備了作為通用GPT-3[16]中首次提出上下文提示,并發(fā)現(xiàn)GPT-3在少樣本提使之看起來(lái)更像是在語(yǔ)言大模型預(yù)訓(xùn)練過(guò)程中解決的問(wèn)題[10]。指令不同領(lǐng)域和任務(wù)上的適應(yīng)性和穩(wěn)定性。少樣本提示也存在一些挑特殊形式的少樣本提示,在問(wèn)題中隱含地包含了目標(biāo)任務(wù)和格式信思維鏈(Chain-of-Thought,CoT)[58]。推理的過(guò)程通常涉及模型的多步推理能力,被鼓勵(lì)語(yǔ)言大模型生成解決問(wèn)題的中間推理(falsepremise)的簡(jiǎn)單性常識(shí)性問(wèn)題時(shí),如類似“太陽(yáng)有幾只眼器和搜索引擎交互獲取互聯(lián)網(wǎng)信息在長(zhǎng)文本問(wèn)答上實(shí)現(xiàn)非常強(qiáng)的能支持瀏覽器實(shí)時(shí)信息獲取、代碼解釋器、PDF閱讀等能力,截至8擴(kuò)展語(yǔ)言大模型能力的方法,統(tǒng)一稱為增廣語(yǔ)言模型(Augmented提出了工具學(xué)習(xí)(ToolLearning)框架[24],指在讓模Transformer的編碼器。按照模型結(jié)構(gòu)的不同,面向理解任務(wù)的多模Transformer)層將文本和圖像特征進(jìn)行融合,最后所得到文本-圖像特流結(jié)構(gòu)的另一個(gè)代表是OpenAI公司的CLIP[65]模零樣本(zero-shot)分類能力。另一個(gè)與CLIP類型的代表性方法另一代表性方法UNITER[69],則采用了一種多任務(wù)的多模態(tài)預(yù)訓(xùn)練容的理解?,F(xiàn)有的面向理解任務(wù)的多模態(tài)大模型大多都以上面兩類結(jié)構(gòu)為3D、分子結(jié)構(gòu)等多種模態(tài)內(nèi)容的生成應(yīng)用。目前常用的方法主要是發(fā)布的一個(gè)基于4億圖文對(duì)訓(xùn)練的圖像生成模型,通過(guò)采用型的圖像生成模型是北京智源研究院所的CogView模型[75](如圖模型是最主流的方案,例如,典型方法GI多模態(tài)大模型,統(tǒng)一了圖像/視頻的描述和問(wèn)答等視覺(jué)語(yǔ)言任務(wù),它圖3-2CogView[75]模型架表達(dá),再采用擴(kuò)散模型來(lái)建模圖像隱特征分布。另一典型擴(kuò)散模型性方法有OpenAI的DALL-E2[78]與谷歌的Imagen[79]。其中,練一個(gè)獨(dú)立的映射模型將CLIP模型的文本特征映射到圖像特征空型直接編碼文本信息,然后直接用該文本編碼來(lái)生成圖像;同時(shí),Transformer編碼器通過(guò)雙向的注意力機(jī)制來(lái)學(xué)習(xí)對(duì)數(shù)據(jù)的理解時(shí)具備這兩種能力從而可以在更廣泛的下游任務(wù)上應(yīng)用,可以聯(lián)合Transformer編碼器與解碼器,設(shè)計(jì)能夠兼顧理解與生成任務(wù)的多模于針對(duì)訓(xùn)練任務(wù)與數(shù)據(jù)的不同采用不同的輸入文本與輸出文本的構(gòu)型UnifiedVLP[81],它的主要特點(diǎn)是編碼器和解碼器共享同一個(gè)Transformer網(wǎng)絡(luò)。該方法通過(guò)設(shè)大模型的語(yǔ)義對(duì)齊,通常利用大規(guī)模弱關(guān)聯(lián)的跨模態(tài)數(shù)據(jù)(如圖像-文本、視頻-文本、音頻-文本數(shù)據(jù)等基于條件文本生成任務(wù)進(jìn)行過(guò)將場(chǎng)景圖中的知識(shí)實(shí)體和關(guān)系進(jìn)行掩碼后要求模型預(yù)測(cè)所掩碼位等多種任務(wù)。另一個(gè)代表性模型KOSMOS-1[86],它將一個(gè)基于將圖像、視頻等感知模塊與LLaMA[87]等開(kāi)源的語(yǔ)言大模型對(duì)接,從而實(shí)現(xiàn)類似GPT-4的多模態(tài)理解能力。其中的一個(gè)典型模型是ChatBridge[88],它使用多個(gè)并行的感知模塊用來(lái)處理包括圖片、音構(gòu)模型顯得尤為重要。具體來(lái)說(shuō),可以通過(guò)引入編碼器-解碼器結(jié)構(gòu)以視覺(jué)-語(yǔ)言數(shù)據(jù)的聯(lián)合學(xué)習(xí)為例,多模態(tài)大模型常用的自監(jiān)督序列中的某些單詞或標(biāo)記會(huì)被替換為特殊的掩預(yù)訓(xùn)練模型被要求根據(jù)可見(jiàn)的多模態(tài)上下文來(lái)預(yù)測(cè)這些被遮蔽的單中的部分區(qū)域會(huì)被隱藏或被替換為特殊的掩碼標(biāo)記[M訓(xùn)練模型被要求在僅看到其余圖像內(nèi)容與文本等其他模態(tài)信息的情練方式促使模型學(xué)習(xí)圖像的視覺(jué)特征、多模態(tài)上下文信息和語(yǔ)義關(guān)-文本匹配任務(wù)是旨在實(shí)現(xiàn)圖像與文本的全局對(duì)齊。通常給定圖文對(duì)多模態(tài)大模型的最終目標(biāo)是適配并提升特定下游任務(wù)上的性能2)聯(lián)合提示學(xué)習(xí)的模型微調(diào)適配:設(shè)計(jì)契合上游預(yù)訓(xùn)練適配器層,使得模型可以在不同任務(wù)之間共享通用預(yù)訓(xùn)練模型的表網(wǎng)頁(yè)版、API接口等多種形式的開(kāi)放服務(wù),并通過(guò)開(kāi)放插件機(jī)制、AI技術(shù)(包含監(jiān)督訓(xùn)練和強(qiáng)化學(xué)習(xí))進(jìn)行訓(xùn)練,旨在改進(jìn)模型的有PaLM[17]系列語(yǔ)言大模型由Google開(kāi)發(fā)。其初始版本于2022種PaLM的改進(jìn)版本。Med-PaLM[89]是PaLM540B在醫(yī)療數(shù)據(jù)上包括添加數(shù)學(xué)與邏輯能力、添加代碼能力、支持更多語(yǔ)言等。2023到V2.0版,對(duì)于代碼和多模態(tài)能力進(jìn)行了提升。同時(shí)還聯(lián)合重磅發(fā)布了國(guó)內(nèi)首款支持大模型訓(xùn)練私有化的全國(guó)產(chǎn)化產(chǎn)品的產(chǎn)品體系以及廣泛的應(yīng)用場(chǎng)景使得通義千問(wèn)更具可落地性和市場(chǎng)BigScienceMPT-InstructHelixFold-SingleVIMER-UMS,VIMER-UFO使用了高效的數(shù)據(jù)并行和流水線并行技術(shù),以加速模型的訓(xùn)練和擴(kuò)模型:Falcon-7B,F(xiàn)alcon-40B,以及Falcon-180B。三個(gè)模型都是在參數(shù),并在1萬(wàn)億字符上進(jìn)行了訓(xùn)練。在發(fā)布后的兩個(gè)月里,其在HuggingFace的開(kāi)源語(yǔ)言大模型排行榜上排名第一。該系列最新的模型在推理、編碼、熟練度和知識(shí)測(cè)試等各種任務(wù)中表現(xiàn)出色,在Pythia[91]系列模型是由非營(yíng)利性人工智能實(shí)驗(yàn)室EleutherAI發(fā)的一系列生成式語(yǔ)言大模型。該系列有16個(gè)不同參數(shù)量的模型種不同的模型尺寸。一套是直接在Pile上訓(xùn)練的,另一套則在經(jīng)過(guò)字符。由于Pythia系列模型在相同架構(gòu)基礎(chǔ)上涵蓋多個(gè)不同尺寸,T5[42]模型是由GoogleBrain團(tuán)隊(duì)英文網(wǎng)頁(yè)文本數(shù)據(jù)的大規(guī)模語(yǔ)料庫(kù)。T5模型還探索了不同規(guī)模的模技術(shù),基于keys和queriesGPT-Neo[93]系列模型是由EleutherAI開(kāi)發(fā)的預(yù)訓(xùn)練語(yǔ)言大模GPT-Neo項(xiàng)目的一個(gè)獨(dú)特之處在于其強(qiáng)調(diào)開(kāi)源開(kāi)發(fā)和社區(qū)參與。OPT[94]模型是由MetaAI發(fā)布的一款decoder-only模型,與原因和動(dòng)機(jī),為研究社區(qū)的使用和進(jìn)一步研究提供了重要的參考資2019年,百度將大規(guī)模知識(shí)與海量數(shù)據(jù)融合學(xué)習(xí)的方法,在超開(kāi)源首個(gè)中文預(yù)訓(xùn)練大模型。ERNIE[96]自發(fā)布以來(lái)在語(yǔ)言理使用INT4進(jìn)行量化并且不會(huì)明顯影響模型效果。通過(guò)優(yōu)化,的中文和英文benchmark上均取得同尺寸最好的效果,其基于Baichuan-13B在Baichuan-7B的基礎(chǔ)上進(jìn)一步擴(kuò)大參數(shù)量到13040%,是當(dāng)前開(kāi)源13B尺寸下訓(xùn)練數(shù)據(jù)量最多的模型。其支持中英了部署的機(jī)器資源需求。Baichuan2-7B和Baichuan2-13B,均基于CPM系列模型由北京智源人工智能研究院和清華大學(xué)的合作研等類型。在多個(gè)公開(kāi)的中文數(shù)據(jù)集上的實(shí)驗(yàn)表明,CPM-1在對(duì)話、練模型訓(xùn)練的計(jì)算開(kāi)銷對(duì)應(yīng)用的使用限制。CPM-3是基于預(yù)訓(xùn)練技術(shù),在零樣本和少樣本場(chǎng)景中表現(xiàn)出色。CPM-Bee的是一個(gè)完全開(kāi)源、允許商用的百億參數(shù)中英文基座模型。它采用鵬程·盤(pán)古α[100]由以鵬城實(shí)驗(yàn)室為首的技術(shù)團(tuán)隊(duì)聯(lián)合協(xié)作開(kāi)閱讀理解等,并且擁有很強(qiáng)的小樣本學(xué)習(xí)能力。鵬程.盤(pán)古α收集了--開(kāi)發(fā)的多模態(tài)大模型。其中,KOSMOS-1是在大規(guī)模多模態(tài)數(shù)據(jù)集和訓(xùn)練目標(biāo)對(duì)模型進(jìn)行訓(xùn)練,并在此基礎(chǔ)上新增了對(duì)圖像局部區(qū)域版,可實(shí)現(xiàn)多模態(tài)大模型的訓(xùn)練和評(píng)估。OpenFlamingo使用交叉注BLIP-2[82]通過(guò)一個(gè)輕量級(jí)的查詢轉(zhuǎn)換器彌補(bǔ)了模態(tài)之間的差生成學(xué)習(xí)。BLIP-2在各種視覺(jué)語(yǔ)言任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能,盡管與現(xiàn)有方法相比,可訓(xùn)練的參數(shù)明顯更少。例如,BLIP-2模型在InstructBLIP[103]的特點(diǎn)是設(shè)計(jì)了一種視覺(jué)語(yǔ)言指令微調(diào)方法,導(dǎo)圖像編碼器提取不同的視覺(jué)特征。這樣的好處在于對(duì)于同一張圖力與圖像能力結(jié)合。其利用視覺(jué)編碼器和語(yǔ)言大模型Vicuna[109]進(jìn)行結(jié)合訓(xùn)練。具體地,MiniGPT-4使用一個(gè)投影層來(lái)將來(lái)自BL調(diào)階段進(jìn)行多模態(tài)指令微調(diào)以提高其生成可靠性和整體可用性。LlaMA-AdapterV2[105]是一種參數(shù)高效的視覺(jué)指令模型。具體習(xí)參數(shù)組,引入了圖像-文本對(duì)和指令跟隨數(shù)據(jù)的聯(lián)合訓(xùn)練范式。該ChatBridge[88]是一個(gè)新型的多模態(tài)對(duì)話模型,利用語(yǔ)言的表達(dá)習(xí)能力,接下來(lái)是多任務(wù)的指令微調(diào),使其與用戶的意圖對(duì)齊。文圖像-文本對(duì)進(jìn)行預(yù)訓(xùn)練。這種方法使視覺(jué)信息能夠很好地與Qwen-VL[111]是支持中英文等多種語(yǔ)言的視覺(jué)語(yǔ)言模型。Qwen-VL以通義千問(wèn)70億參數(shù)模型Qw了具備基本的圖文識(shí)別、描述、問(wèn)答及對(duì)話能力之外,Qwen-VL還地模型副本和本地優(yōu)化器,支持多機(jī)多卡的分布式訓(xùn)DDP都顯著快于DP,能達(dá)到略低于卡數(shù)的加速比,但要求每塊開(kāi)始支持FSDP技術(shù),可以更加高效的將部分使用完畢的參數(shù)移至以通過(guò)定義操作和變量在數(shù)據(jù)流圖上構(gòu)建自己的神經(jīng)網(wǎng)絡(luò)模型。此Learning)是我國(guó)較早開(kāi)源開(kāi)放、自主研發(fā)、功能完備的產(chǎn)業(yè)級(jí)深度等,既包含網(wǎng)絡(luò)復(fù)雜、稠密參數(shù)特點(diǎn)的計(jì)算機(jī)視覺(jué)(CV)自然語(yǔ)言處理(NLP)模型訓(xùn)練場(chǎng)景,又覆蓋了有著龐大的Embedding層模MindSpore:MindSpore[114]是一款適用于端邊云全深度學(xué)習(xí)訓(xùn)練/推理框架。MindSpore能很好匹配昇騰處理器算力,等。Jittor在框架層面也提供了許多優(yōu)化功能,如算子融合、自動(dòng)混OneFlow:OneFlow[116][116]能夠較好適用于多機(jī)多卡訓(xùn)練場(chǎng)景,是國(guó)內(nèi)較早發(fā)布的并行計(jì)算框架。OneFlow會(huì)把整個(gè)分布式集設(shè)備。最新版本的OneFlow和TensorFlo兼容了PyTorch,支持?jǐn)?shù)據(jù)+模Colossal-AI:“夸父”(Colossal-AI[117]提供了一系列并行組機(jī)PyTorch代碼快速擴(kuò)展到并行計(jì)算機(jī)集群上,無(wú)需關(guān)心并行編程Transformer架構(gòu)的巨型語(yǔ)言模型。針對(duì)Transformer進(jìn)行了專門(mén)的DeepSpeed[29]的超大規(guī)模模型訓(xùn)練工具,其中包含了一種新的顯存GPT3、PaLM[17]和GLaM[120]模型在訓(xùn)練數(shù)據(jù)構(gòu)造時(shí)都使用了基于少量樣本提示(Few-shot這種類型的提示需要標(biāo)注人員設(shè)RM數(shù)據(jù)集,對(duì)同一個(gè)輸入,模型會(huì)給出多PPO數(shù)據(jù)集,沒(méi)有任何人類標(biāo)簽,用作強(qiáng)當(dāng)前已經(jīng)出現(xiàn)一批大模型數(shù)據(jù)集,涵蓋多種模態(tài)。代表性主要標(biāo)注的方向包含helpful和har圖片-文本多模COCO[134]Conceptual[136]視頻-文本多模AI模型相比,非常依賴分布式技術(shù)提升效率。因此,大模型開(kāi)發(fā)的挑戰(zhàn)集中體現(xiàn)在基于深度學(xué)習(xí)框架對(duì)各類分布式并行策略進(jìn)行本地點(diǎn)優(yōu)化、混合精度浮點(diǎn)優(yōu)化[79]等方法、降低梯度計(jì)算過(guò)數(shù)據(jù)并行[143]:數(shù)據(jù)并行是每個(gè)處理器存儲(chǔ)全量的模型參數(shù)、但需要設(shè)計(jì)高效的并行算法和通信機(jī)制來(lái)確保計(jì)算的正確性和高效的“組內(nèi)參數(shù)切片+組間數(shù)據(jù)”并行,可以更合理地分配機(jī)內(nèi)和機(jī)間的硬件資源異構(gòu)性,進(jìn)一步發(fā)展出了端到端自適應(yīng)分布式訓(xùn)練架構(gòu)模型稀疏化[149][150][151]:這種方法通過(guò)將模型中的某些神經(jīng)模型參數(shù)共享:部分大型模型如ALBERT[152]采用了權(quán)重共享量化[149][153][154]:量化是一種將預(yù)訓(xùn)練模型中的權(quán)重從浮點(diǎn)數(shù)轉(zhuǎn)換為低位數(shù)的技術(shù)。通常情況下,量化的精度可被降低到8位混合并行推理,實(shí)現(xiàn)對(duì)模型結(jié)構(gòu)和計(jì)算硬件的自動(dòng)感知(AutomatedHardwareAwareness協(xié)同優(yōu)化模型推理效率自動(dòng)計(jì)算圖融合優(yōu)化:以非侵入的方式自動(dòng)匹配高性能融合算這種計(jì)算特點(diǎn),可以通過(guò)協(xié)同硬件開(kāi)展優(yōu)化,研發(fā)LLM.INT8()[67]A100,以及谷歌的TPU(TensorProcessingUni能規(guī)格各不相同。大模型除了對(duì)訓(xùn)練芯片的計(jì)算性能有一定的要求間表示(IntermediateRepresentation,IR)對(duì)接硬件的代碼生成器(Field-ProgrammableGateArray)加速也是一種重要的硬件加速技另外,云服務(wù)也為大模型訓(xùn)練提供了強(qiáng)大的計(jì)算能力和存儲(chǔ)資對(duì)已經(jīng)硬件進(jìn)行全面適配,另一方面需要開(kāi)展極致的軟硬件協(xié)同優(yōu)和少樣本學(xué)習(xí)能力,可以快速掌握新的任務(wù),實(shí)現(xiàn)對(duì)不同領(lǐng)域、不同數(shù)計(jì)算文檔和查詢的相關(guān)性,召回最相關(guān)的TopK候選文檔,然后再采以索引為核心的“索引—召回—精排”檢索架構(gòu)被廣泛應(yīng)用在各種信中國(guó)科學(xué)院自動(dòng)化研究所基于自主研發(fā)的音視頻理解大模型“聞海”和三模態(tài)預(yù)訓(xùn)練模型“紫東太初”[157],聯(lián)合新數(shù)據(jù)與大模型驅(qū)動(dòng)的多任務(wù)統(tǒng)一學(xué)習(xí)體系,實(shí)現(xiàn)了對(duì)全媒體數(shù)據(jù)的統(tǒng)一市-園區(qū)-商圈-社區(qū)-網(wǎng)點(diǎn)級(jí)別的智能計(jì)算與研判,為線上線下數(shù)實(shí)融DNA遠(yuǎn)端交互進(jìn)行基因表達(dá)和染色質(zhì)狀態(tài)預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)架構(gòu)DNA序列預(yù)測(cè)基因表達(dá)的準(zhǔn)確性。為進(jìn)一步研究美國(guó)哈佛醫(yī)學(xué)院和英國(guó)牛津大學(xué)的研究人員合作開(kāi)發(fā)出一款可可以協(xié)助用戶撰寫(xiě)各類文檔,實(shí)現(xiàn)文檔創(chuàng)作、編輯和總結(jié)等功能,用戶只需用自然語(yǔ)言提出需求,Copilot即可以快速生成或修改文檔內(nèi)在影視行業(yè),大模型技術(shù)為內(nèi)容制作和影視創(chuàng)作帶來(lái)了新的變模型能夠較好地因材施教,為學(xué)生提供全方位知識(shí)支持。8月,好未來(lái)識(shí)整合能力可滿足學(xué)生動(dòng)態(tài)需求,實(shí)現(xiàn)個(gè)性化學(xué)習(xí),與教師共同提金融發(fā)布國(guó)內(nèi)首個(gè)零售金融大模型“天鏡”,具有知識(shí)匯集、喚醒數(shù)據(jù)價(jià)值等應(yīng)用場(chǎng)景,可助力零售金融機(jī)構(gòu)實(shí)現(xiàn)智能客服、精準(zhǔn)營(yíng)銷、風(fēng)險(xiǎn)控制等能力。在模型訓(xùn)練規(guī)模不斷擴(kuò)大的背景下,金融行業(yè)大模發(fā)Med-PaLM[89]醫(yī)療大模型,其在醫(yī)學(xué)考試和開(kāi)放式問(wèn)答上達(dá)到專理解醫(yī)學(xué)多模態(tài)數(shù)據(jù),并根據(jù)個(gè)性化診療需求進(jìn)行智能決策。醫(yī)療大計(jì)過(guò)程中,設(shè)計(jì)師需要花費(fèi)很長(zhǎng)的時(shí)間設(shè)計(jì)衣服并進(jìn)行線上樣款測(cè)訓(xùn)練,對(duì)EverydayRobots將大模型常用的自監(jiān)督訓(xùn)練方式以及預(yù)訓(xùn)練-微調(diào)的訓(xùn)練部署方式延時(shí)刻的觀測(cè)/正運(yùn)動(dòng)學(xué),預(yù)測(cè)上一時(shí)刻的動(dòng)作/逆運(yùn)動(dòng)學(xué))以及一個(gè)長(zhǎng)級(jí)學(xué)術(shù)期刊《自然》(Nature)雜志正刊發(fā)表了華為云盤(pán)古大模型研發(fā)會(huì)成為人類威脅的環(huán)境”。OpenAI首席執(zhí)險(xiǎn)應(yīng)該與流行病和核戰(zhàn)爭(zhēng)等其他大規(guī)模風(fēng)險(xiǎn)一樣,成為全球優(yōu)先議型的安全監(jiān)管。習(xí)近平總書(shū)記在多次會(huì)議中指出,“要重視通用人工一代人工智能治理原則——發(fā)展負(fù)責(zé)任的人工智能》指出,“人工智智能標(biāo)準(zhǔn)體系建設(shè)指南》指出,“重點(diǎn)開(kāi)展人工智能安全術(shù)語(yǔ)、人工問(wèn)題?!钡劝l(fā)布的《生成式人工智能服務(wù)管理暫行辦法》指出,“國(guó)家堅(jiān)持發(fā)(1)辱罵仇恨:模型生成帶有辱罵、臟字臟話、仇恨言論等不(3)違法犯罪:模型生成的內(nèi)容涉及到違法、犯罪的觀點(diǎn)、行(4)敏感話題:對(duì)于一些敏感和具有爭(zhēng)議性的話題,模型輸出(6)心理傷害:模型輸出與心理健康相關(guān)的不安全的信息,包(7)隱私財(cái)產(chǎn):模型生成涉及到暴露用戶或第三方的隱私和財(cái)(8)倫理道德:模型生成的內(nèi)容認(rèn)同和鼓勵(lì)了違背道德倫理的標(biāo)簽。由于模型的黑箱特性,這種攻擊難以檢測(cè)。比如在ChatGPT為攻擊者創(chuàng)造了新的攻擊途徑[167]。因此,迫切需要研究魯棒的分大模型訪問(wèn)外部資源時(shí)引發(fā)的安全漏洞。大模型與外部數(shù)據(jù)、無(wú)意間學(xué)習(xí)并模仿數(shù)據(jù)中的價(jià)值觀。其次是有監(jiān)督微調(diào)(Supervised更具體的任務(wù)要求并調(diào)整其輸出,使之更接近人類對(duì)特定任務(wù)的期c.數(shù)據(jù)掩碼(DataMasking數(shù)據(jù)掩碼是一種將敏感信息部分過(guò)從人類反饋中學(xué)習(xí)來(lái)構(gòu)建更有用、更準(zhǔn)確和更安全的對(duì)話智能體(河貍)項(xiàng)目[170],提供了一種可復(fù)現(xiàn)的RLHF基準(zhǔn),并公開(kāi)了近端策略優(yōu)化分析其穩(wěn)定訓(xùn)練及其在大模型人類對(duì)齊中的作用機(jī)理,并發(fā)布大模型人類對(duì)齊技術(shù)報(bào)告與開(kāi)源核心代碼,以推動(dòng)中文全、負(fù)責(zé)任和合乎道德的人工智能的發(fā)展和部署,清華大學(xué)于2023導(dǎo)模型出錯(cuò),包含目標(biāo)劫持、Prompt泄露、賦予特殊的角色后發(fā)布指令、不安全/不合理的指令主題、隱含不安全觀點(diǎn)的詢問(wèn)、以及反面誘導(dǎo)?;谠摽蚣?,平臺(tái)對(duì)GPT系列、ChatGLM等主流大模型進(jìn)行了安全評(píng)估,并發(fā)現(xiàn)指令攻擊更有可能暴露所有模型的安全問(wèn)們或提供有關(guān)實(shí)施恐怖主義行為的實(shí)用指導(dǎo)。為了識(shí)別這些風(fēng)險(xiǎn),險(xiǎn)的能力,其次判斷模型多大程度上可能使用這些能力造成傷害[172]。該框架指出大模型的極端風(fēng)險(xiǎn)評(píng)估將成為安全人工智能研發(fā)在各種社會(huì)決策場(chǎng)景中的能力和道德行為,一項(xiàng)典型的評(píng)測(cè)基準(zhǔn)是再到模型高效適配,大模型技術(shù)引起機(jī)器學(xué)習(xí)范式的一系列重要革的應(yīng)用中的潛在漏洞,探討攻擊的傳遞方式以及可能造成的各種威入多種控制手段可一定程度上減少不良內(nèi)容的產(chǎn)生、緩解上述問(wèn)題[175],但依然有辦法使得該類先進(jìn)大模型生成錯(cuò)誤或極具風(fēng)險(xiǎn)的內(nèi)6RecurrentNeuralNetworkLangua66BERTBidirectionalEncoderRepresentat6EmbeddingsfromLanguage66ReinforcementLearningfromHumanF777NSPGeneralLanguageUnderstandinZeROZeroRedundancyOptiASICApplication-SpecificIntegratedCirField-ProgrammableGatewithneuralnetworks.Science,2006,313(5786):504-507.deepconvolutionalneuralnetworks.CommunicationsoftheACM,2017,modelinginspeechrecognition:Thesharedviewsoffourresearchgroups.IEEESignalprocessingmagazine,informationprocessingsystems,2013,R.(2023).AsurveyarXiv:2303.18223.ProceedingsoftheIEEE,1976,64(4):532-5model.Advancesinneuralinfbasedlanguagemodel.Interwordrepresentations."Proc.ofNAACLunderstandingbygenerativepre-training.2018.[11]DevlinJ,ChangMW,LeeK,etbidirectionaltransformersforlanguageunderstanding.arXivpreprint[12]SundermeyerM,SchlüterR,NeyH.LSTMneuralnetworkslanguagemodeling.Interspeech.2012,194-197.Advancesinneuralinformationprocessingsystems,20languagemodels.arXivpreprintarXiv:2001.08modelingwithpathways[J].arXivpreprintarXiv:2languagemodels.arXivpreprintarXiv:2206.07LanguageModelsSecretlyPerformGradientDescentasarXivpreprintarXiv:2212.1055zero-shotlearners.arXivpreprintarXiv:2109.instructionswithhumanfeedback.AdvancesProcessingSystems,2elicitsreasoninginlargelanguagemodels.arXivpsolvingwithlargelanguagemodels[J].arXivprearXivpreprintarXiv:2304trainedoncode.arXivpreprintarXiv:2107.03374,/papers/gpt-4.pdf.processingsystems,32.Abadi,M.,Agarwal,A.,Barham,P.Chen,Z.,Citro,C.,...&Zhenrmfromindustfwithover100billionparameters.InProceedingsofthe26thACMSIGKDDInternationalConferenceonKnowledgeDiscovery&DataMining(pp.3505-3506).fine-tunedchatmodels[J].arXivpreprintarXiv:23largelanguagemodelwithstate-of-the-artperformance[R].Technical[32]ZengA,LiuX,DuZ,etal.Glm-130b:Anopenbilingualpre-trainedmodel[J].arXivpreprintarXiv:2210.02414,2[33]ZhangZ,HanX,ZhouH,Chinesepre-trainedlanguagemodel[J].AIOpen,2021,2pre-trainedlanguagemodels[J].AIOpen,2021,2:216-224.[35]車萬(wàn)翔,竇志成,馮巖松,等.大模型時(shí)代的自然語(yǔ)言處理:挑systematicsurveyofpromptingmethodsinnatura[37]AkyürekE,SchuurmansD,And[38]陶建華,傅睿博,易江燕,王成龍,汪濤.語(yǔ)音偽造與鑒偽的發(fā)展與挑[39]陶建華.加強(qiáng)深度合成算法安全科研攻關(guān)推進(jìn)深度合成服務(wù)綜合治理.https://mp.weixifparameterefficientmethodsforprpreprintarXiv:2203.06904,202pretrainingapproach.arXivpreprintarXiv:1907.[42]RaffelC,ShazeerN,RobertsA,etal.Exploringlearningwithaunifiedtext-to-textTransformer[JSequence-to-SequencePre-trainingforNaturalLanguaTranslation,andComprehension[C]//ProceedingsofACL.2020:TransformerforLargeLanguageModels[J].memory-efficientexaparametermodelswithsarXiv:2101.03961,2021.[47]Google.IntroducingPathways:Anext-generatihttps://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/.layersaremixturesofexperts[J].arXivpreprintarXiv:2110.01786,2[49]HeJ,QiuJ,ZengA,etal.Fastmoe:Afastmixturesystem[J].arXivpreprintarXiv:2zero-shotlearners.arXivpreprintarXiv:2109.declarativeinstructionsoninstructionmetalearningthroughthelensofgeneralization[J].arXivpreprintarXiv:2212.12017,202languagemodels[J].arXivpreprintarXiv:2106.09FrameworkforPrompt-learning[C]//ProceedingsoftheACL:SystemParameter-efficientAdaptationofPre-trainedModels[J].aadaptingtransformers[C]//ProceedingsoftheEMNLP.202InformationProcessingSystems,[59]HanX,ZhangZ,DingN,etal.Pre-trainedmodels:Past,presefuture[J].AIOpen,2021,question-answeringwithhumanfeedback[J].webinteractionwithgInformationProcessingSystems,2022[62]OpenAI.ChatGPTPlugi/blog/chatgpt-plugins.[63]MialonG,DessìR,LomeliM,etal.Augmentedlanguagemodels:asurvey[J].arXivpreprintarXiv:[64]LuJ,BatraD,ParikhD,etal.Vilbert:Prvisiolinguisticrepresentationsforvision-and-languagetasks[J].Advancesinneuralinformationprocessingsystems,201modelsfromnaturallanguagesupervision[C]//Inteonmachinelearning.PMLR,2021:8748-8763.representationlearningwithnoisytextsupeConferenceonMachineLearning.PMLR,2021:4904-4916.NeuralInformationProcessingSystems,2021,34:Visual-LinguisticRepresentations[C]//InterLearningRepresentatrepresentationlearning[C]//ComputerVision-ECCV2020:16thEuropeanConference,Glasgow,UK,August23-28,2020,Proceediandlanguagerepresentationlearning[C]//ProceedingsoftheIEEE/CVFinternationalconferenceoncomputervision.2019:7464-representations[C]//ProceedingsoftheIEEE/CVFconferenceoncomputervisionandpatternrecognitioforcomputervisiongeneration[C]//InternationalConferenceonMachineLearninghigh-fidelityimageswithvq-vae-2[J].Advprocessingsystems,2019,32.generationviatransformers[J].AdvancesinNeuralTransformerforVisionandLanguagsynthesiswithlatentdiffusionmodelsconferenceon[78]RameshA,DhariwalP,NicholA,etal.HierarchidiffusionmodelswithdeeplanguageunderstandiNeuralInformationProcessingSystems,2022,35:[80]ChoJ,LeiJ,TanH,etal.generation[C]//InternationalConferenceonMachineLearnpre-trainingforimagecaptioningandvqa[C]//PconferenceonartificialintelligeLanguage-ImagePre-trainingwithFrozenImageEncodersandLargeLanguageModels.ArXiv./abs/23sthroughscenegraphs[C]//PrftheAAAIConferenceonArtificialIntelligence.2021,35(4):3208-321symbolicknowledgeforopen-domainknowledge-basedvqa[C]//ProceedingsoftheIEEE/CVFmodelforfew-shotlearning[J].ProcessingSystems,2022Aligningperceptionwithlanguagemodels[J].arXivpreprintarXiv:2302.14045,202foundationlanguagemodels[J].arXivpreprintarXiv:23BridgingModalitieswithLargeLanguageModelasaLanguageCatalyarXiv:2305.16103.clinicalknowledge[J].arXivpreprintarXiv:221multimodallanguagemodel[J].arXivpreprintarXiv:2303.03378Hallahan,M.A.Khan,S.Purohit,U.S.Prashanth,E.Raffetal.,“Pythia:Asuiteforanalyzinglargelanguagemodelsacrosstrainingandscaling,”arXivpreprintarXiv:2304.01373,languagemodel.arXivpreprintarXiv:2211.05100.“OPT:openpre-trainedtransformerlanguagemodels,”CoRR,vol.abs/2205.01068,2022.preprintarXiv:2108.12409(2021).(2019).Ernie:Enhancedrepresentationthintegration.arXivpreprintarXiv:1904.09223.Large-scaleknowledgeenhancedpre-trainingforlanguageunderstanding“ERNIE3.0:Large-scaleknowledgeenhancedpre-trainingforlanguageunderstandingandgeneration,”CoRR,vol.abs/2107withautoregressiveblankinP-tuningv2:Prompttuningcanbecomparabletofine-tuninguniversallyacrossscalesandtasks.arXivpreprintarXiv:2110.07602.autoregressivepretrainedChineselanguagemodelswithauto-parallelcomputation[J].arXivpreprintarXiv:2104.1LargeLanguageModeOpen-SourceFrameworkforTrainingLargeAutoregressiveVision-LanguageModels[J].arXivpreprinInstructblip:Towardsgeneral-purposevision-languagemodelswithinstructiontuning.arXivpreprintarXiv:2305.LargeLanguageModels.ArXiv./abs/Parameter-EfficientVisualIns[106]RohitGirdhar,AlImagebind:OneembeddingspacetobinarXiv:2305.05665.acrossLanguages[J].arXivpreprintarXiv:230impressinggpt-4with90%*chatgptqualitHuang,F.(2023).MPLUG-Owl:ModLanguageModelswithMultimodalVision-LanguageModelwithVersatileAbilities[J]arXiv:2308.12966,20distributedsystems.arXivpreprintarXiv:1603.04467.rmfromindustfgraphexecution.ScienceChinaInformationSc(2021).Oneflow:Redesignthedistributeddeepscratch.arXivpreprintarXiv:2110.(2021).Colossal-AI:Aunifieddeparalleltraining.arXivpreprintarXiv:2110.14883.Catanzaro,B.(2019).Megatron-lm:Trainingmulti-billionparameterlanguagemodelsusingmodelparallelism.arXivpreprintarXiv:1909.08053.https://intro-llm.github.io/,20modelswithmixture-of-experts[C]//InteMachineLearning.PMLR,2022:5547-5569.Methods,analysis&insightsfromtraininggopher[J].arXivpreprintinstructionswithhumanfeedback[J].AProcessingSystems,2Omni-ModalityFoundationModelandDataset[J].arXivpr[124]BainM,NagraniA,VarolG,etal.imageencoderforend-to-endretrieval[C]//ProceedingsoftheIEEE/CVFbooks[C]//ProceedingsoftheIEEEinternationafdiversetextforlanguagemodeling[J].arXivassistantwithreinforcementlearningfromhumanfeeinstruction-followingllamamodel[J/OL].GitHubrepository,2023./tatsu-lab/stanford_alpa[129]static-hh.https://huggingface.co/datasets/Dahoas/static-hh,2023[130]ShareGPT.https:/[131]zhihu_rlhf_3k.https://huggingface.co/datasets/liyucheng/zhihu_rlhf_[132]BeaverTails.https://humillioncaptionedphotographs[J].Advancesinneuralinformationobjectsincontext[C]//Conference,Zurich,Switzerland,September6-12,2014,Proceedings,languageandvisionusingcrowdsourceddenseimageannotations[J].Internationaljournalofcomputervision,2017,123:32-73.web-scaleimage-textpre-trainingtorecognizelong-tailvisualconcepts[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.“Coyo-700m:Image-textpairdataset,”/kakaobrain/coyo-dataset,2022.text-videoembeddingbywatchinghundrclips[C]//ProceedingsoftheIEEE/CVFinternacomputervision.2019:2630-2knowledgemodels[J].AdvancesinNeuralInformationProcessingSystems,2021,34:23634-23651.video-languagerepresentationwithlarge-scalevideotranscriptions[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognomni-perceptionpretrainingmodelandDemocratizing{Billion-Scale}modeltraining[C]/single-program-multiple-datacomputationalmodelneuralnetworksusingpipelineparallelism[J].Advancesiinformationprocessingsystems,[145]NarayananD,ShoeybiM,CasperJ,etal.Efficientlarge-scalelanguagemodeltrainingongpucmegatron-lm[C]//ProceedingsoftheInternational
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度云南省高校教師資格證之高等教育心理學(xué)綜合練習(xí)試卷A卷附答案
- 2024年度云南省高校教師資格證之高等教育心理學(xué)高分通關(guān)題庫(kù)A4可打印版
- 低空經(jīng)濟(jì)公司運(yùn)營(yíng)管理方案
- 贛南師范大學(xué)《工作室個(gè)性化課程》2021-2022學(xué)年第一學(xué)期期末試卷
- 阜陽(yáng)師范大學(xué)《證券投資學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 阜陽(yáng)師范大學(xué)《幼兒園》2022-2023學(xué)年第一學(xué)期期末試卷
- 阜陽(yáng)師范大學(xué)《圖形創(chuàng)意》2022-2023學(xué)年第一學(xué)期期末試卷
- 阜陽(yáng)師范大學(xué)《合唱指揮二》2021-2022學(xué)年第一學(xué)期期末試卷
- 蘇教版小學(xué)科學(xué)二年級(jí)下冊(cè)全冊(cè)教案教學(xué)設(shè)計(jì)(新教材)
- 人教版九年級(jí)體育教案全集
- 微機(jī)原理與單片機(jī)接口技術(shù)課后題答案詳解余發(fā)山楊凌霄主編資料
- 江蘇省硬筆書(shū)法考試專用紙(1-10級(jí))(共5頁(yè))
- 淺談壓減三金的施工企業(yè)中的重要性
- 淺談俄羅斯美術(shù)之發(fā)展
- 建筑電氣部分常用電線管規(guī)格及穿線管徑選擇表
- SolidWorks蝸桿參數(shù)方程式驅(qū)動(dòng)建模
- 河北省建設(shè)工程材料設(shè)備推廣、限制使用和淘汰產(chǎn)品目錄(2010年版)
- 完美版用友U8數(shù)據(jù)字典(包含列定義)
- 護(hù)理文書(shū)質(zhì)控 ppt課件
- 機(jī)械制圖基礎(chǔ)知識(shí)完整版
- (醫(yī)學(xué)PPT課件)ERCP中的操作技巧
評(píng)論
0/150
提交評(píng)論