![中國人工智能系列白皮書 - 大模型技術(shù)(2023 版)_第1頁](http://file4.renrendoc.com/view/8fe44b3c04940392324452de3b0960ac/8fe44b3c04940392324452de3b0960ac1.gif)
![中國人工智能系列白皮書 - 大模型技術(shù)(2023 版)_第2頁](http://file4.renrendoc.com/view/8fe44b3c04940392324452de3b0960ac/8fe44b3c04940392324452de3b0960ac2.gif)
![中國人工智能系列白皮書 - 大模型技術(shù)(2023 版)_第3頁](http://file4.renrendoc.com/view/8fe44b3c04940392324452de3b0960ac/8fe44b3c04940392324452de3b0960ac3.gif)
![中國人工智能系列白皮書 - 大模型技術(shù)(2023 版)_第4頁](http://file4.renrendoc.com/view/8fe44b3c04940392324452de3b0960ac/8fe44b3c04940392324452de3b0960ac4.gif)
![中國人工智能系列白皮書 - 大模型技術(shù)(2023 版)_第5頁](http://file4.renrendoc.com/view/8fe44b3c04940392324452de3b0960ac/8fe44b3c04940392324452de3b0960ac5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1委《中國人工智能系列白皮書----大模型2 5 5 9 11 13 13 17 17 18 18 19 19 21 24 26 27 29 29 29 31 33 35 36 363 37 39 41 41 44 44 53 57 60 60 63 66 66 68 69 70 71 72 72 74 74 75 76 76 77 78 784 79 79 79 80 80 80 82 82 83 85 85 86 88 88 91 94 95 96 97 98 99 101 1205解由于梯度消失而導(dǎo)致的深層網(wǎng)絡(luò)難以訓(xùn)練的問題[1],為神經(jīng)網(wǎng)絡(luò)的有效學(xué)習(xí)提供了重要的優(yōu)化途徑。此后,深度學(xué)習(xí)在計(jì)算機(jī)視覺的“標(biāo)注數(shù)據(jù)監(jiān)督學(xué)習(xí)”的任務(wù)特定模型,到“無標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練+6型主要通過神經(jīng)網(wǎng)絡(luò)(MLP[7]、RNN[8])建模目標(biāo)詞匯與上下文詞模型基于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)[12]構(gòu)建,存在長距離序列7(ReinforcementLearningfromHumanFeedback,RLHF)[(包括思維鏈(Chain-of-Thoughts,CoT)[22]、思維樹8證了擴(kuò)大模型參數(shù)規(guī)模的有效性(擴(kuò)展法則并且探索了基于自然化對(duì)于人類指令的遵循能力和人類偏好的對(duì)齊能力;ChatGPT與InstructGPT的技術(shù)原理相似,進(jìn)一步引入了對(duì)話數(shù)據(jù)進(jìn)行學(xué)習(xí),從而加強(qiáng)了多輪對(duì)話能力;GPT-4[26]能夠處理更長的上下文窗口,具9表明在多模態(tài)大模型中引入基于人類知識(shí)的自然語言能夠帶來模型大模型服務(wù)平臺(tái)正向個(gè)人開放及商業(yè)落地應(yīng)用延伸,不同公司互地面向公眾開放的大模型服務(wù)平臺(tái),用戶可以通過API訪問不同的該系列模型通過無監(jiān)督預(yù)訓(xùn)練、基于人類反饋的強(qiáng)化學(xué)習(xí)和基于百度文心大模型的知識(shí)增強(qiáng)語言大模型,提供APP、網(wǎng)頁版、提供了分桶梯度、通信計(jì)算重疊、跳過同步等技術(shù),支持大規(guī)模的分布式集群抽象成邏輯上的超級(jí)設(shè)備,支持動(dòng)靜態(tài)圖靈活轉(zhuǎn)換,以數(shù)據(jù)+型的生成能力。Baichuan系列模型由百川智能開發(fā),支持中英雙語,使用高質(zhì)量訓(xùn)練數(shù)據(jù),在多個(gè)基準(zhǔn)測試上表現(xiàn)優(yōu)秀,該系列模型還開型+軍事可以增強(qiáng)軍事情報(bào)和決策能力,可以實(shí)現(xiàn)實(shí)時(shí)戰(zhàn)場翻譯,快式更個(gè)性化、更智能;大模型+金融可以幫助金融機(jī)構(gòu)降本增效,讓金融服務(wù)更有溫度;大模型+醫(yī)療可以賦能醫(yī)療機(jī)構(gòu)診療全過程??偞竽P偷耐ㄓ眯允蛊浔徽J(rèn)為是可以成為未來人工智能應(yīng)用中的情景學(xué)習(xí)能力[19][37]等方面有待展開深入研究,為大模型的大規(guī)模安全[38][39]。此外,大模型存在安全與隱私問題,目前針對(duì)將模型在下游各種自然語言處理任務(wù)上的小規(guī)模有標(biāo)注數(shù)據(jù)進(jìn)行微環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)和長Transformer架構(gòu)的位置編碼方式是使用正弦和余弦函數(shù)的方法。對(duì)數(shù),那么編碼的第j個(gè)元素為sin(i/10000j/d);如果j是奇數(shù),碼的第j個(gè)元素為cos(i/10000j/d)。網(wǎng)絡(luò)層,這兩部分通過殘差連接和層歸一化操作連接起來,Transformer模塊,由自注意力層、全連接前饋層、殘差連接和層歸組成部分。它包含一個(gè)查詢矩陣Qendk,一個(gè)鍵矩陣Kemdk和一個(gè)值矩陣Vemdv,其中矩陣中的每一行對(duì)應(yīng)一個(gè)詞。注意力機(jī)制的QKT dkH=Attention(Q,K,V)=Softmax(QKT dk直觀來說,矩陣Hendv中的每一行是V中行向量的加權(quán)和,其列的特征矩陣和具有序列長度為m的鍵-值序列的特征矩陣分別為Xqend和Xkvemd,三個(gè)矩陣Q、K、V由三個(gè)線性變換得到Q=XqWq,K=XkvWk,V=XkvWv.Transformer模型采用的特定注意被稱為自注意力機(jī)制,因?yàn)槿齻€(gè)矩陣Q、K、V都來自于前一層的相同特征矩陣Xnd。能力。多頭注意力的計(jì)算方式如下:使用了多個(gè)查詢矩陣Q(i),鍵矩陣K(i)和值矩陣V(i),最終輸出為Hdvdo,它是通過將一系列Hi進(jìn)行H=MultiHead(Q,K,V)=Concat(H1,,Hh)Wo,Hi=Attention(Q(i),K(i),V(i))=Attention(XqWq(i),XkvWk(i),XkvWv(i)),派生出來的,而鍵矩陣K和值矩陣V是從編碼器的最后一層的輸出中2)全連接前饋層,在注意力層之后的全連接前饋層由兩個(gè)線性變換和一個(gè)非線性激活函數(shù)組成。將輸入矩陣表示為Xddi,前饋b置為do,df設(shè)置為di的4倍。FFN作用包3)殘差連接和層歸一化,在每個(gè)注意力層和每個(gè)全連接前饋層歸一化層定義為LayerNorm(X+f(X))?,F(xiàn)有的語言大模型幾乎全部是以Transformer模型作為基礎(chǔ)架2.2.1掩碼語言建模掩碼語言建模(MaskedLanguageModeling,MLM)是基于Transformer編碼器的雙向模型,其中BERT[11]和RoBERTa[41]是記[CLS]和[SEP],并且隨機(jī)用[MASK]標(biāo)記替換原始序列自回歸語言模型在訓(xùn)練時(shí)通過學(xué)習(xí)預(yù)測序列中的下一個(gè)詞來建的優(yōu)化目標(biāo)為最大化對(duì)序列中每個(gè)位置的下一個(gè)詞的條件概率的預(yù)2.2.3序列到序列建模模型,即同時(shí)使用編碼器-解碼器結(jié)構(gòu),代表性模型包括T5[42]和BART[43]。這兩個(gè)模型都采用文本片段級(jí)別的掩碼語言模型作為主模型可以形式化地表示為最大化在給定掩碼的字符序列的情況下目2.3.1語言大模型的預(yù)訓(xùn)練對(duì)語言大模型的預(yù)訓(xùn)練。一種是在預(yù)訓(xùn)練中設(shè)計(jì)高效的優(yōu)化任務(wù)目使用1000倍至10000倍較少計(jì)算資源訓(xùn)練的小模型可靠地預(yù)測能的基礎(chǔ)上同時(shí)實(shí)現(xiàn)模型訓(xùn)練速度、推斷速度和內(nèi)存節(jié)約的大幅提升。針對(duì)自注意力顯存消耗大,斯坦福大學(xué)在Transformer中引入Transformers[46]和Pathways[47]架構(gòu)、清華大學(xué)的MoEfication2.3.2語言大模型的適配微調(diào)語言大模型由于在大規(guī)模通用領(lǐng)域數(shù)據(jù)預(yù)訓(xùn)練通常缺乏對(duì)特指令微調(diào)(InstructionTuning)[21],是一種可以幫助語言大模型多工作采用多任務(wù)提示方式對(duì)基于指令描述的大量任務(wù)集上對(duì)語言(2)指令數(shù)據(jù)獲取,指如何構(gòu)建包含多樣性的任務(wù)指令數(shù)據(jù)。指令數(shù)據(jù)構(gòu)建常見有三種方式:i)基于公開人工標(biāo)注數(shù)據(jù)構(gòu)建,代言大模型生成新的指令描述和問題,然后再輸入到模型讓其輸出回假信息、追求錯(cuò)誤目標(biāo)或產(chǎn)生有偏見的內(nèi)容[5]。其根本原因在于,與對(duì)人類價(jià)值的對(duì)齊,InstructGPT提出了一種基于人類反饋的微調(diào)并僅微調(diào)該引入部分的參數(shù)。如適配器(Adapter)方法,旨將小規(guī)旨在原模型指定模型中部分參數(shù)為可訓(xùn)練參數(shù),并固定模型其他參繞參數(shù)高效微調(diào)的開源工具也被研發(fā),代表2.3.3語言大模型的提示學(xué)習(xí)通過大規(guī)模文本數(shù)據(jù)預(yù)訓(xùn)練之后的語言大模型具備了作為通用指令提示(InstructionPrompt也GPT-3[16]中首次提出上下文提示,并發(fā)現(xiàn)GPT-3在少樣本提使之看起來更像是在語言大模型預(yù)訓(xùn)練過程中解決的問題[10]。指令提示有三種形式1)少樣本提示,是指在一特殊形式的少樣本提示,在問題中隱含地包含了目標(biāo)任務(wù)和格式信思維鏈(Chain-of-Thought,CoT)[58]。推理的過程通常涉及模型的多步推理能力,被鼓勵(lì)語言大模型生成解決問題的中間推理2.3.4語言大模型的知識(shí)增強(qiáng)(falsepremise)的簡單性常識(shí)性問題時(shí),如類似“太陽有幾只眼2.4.5語言大模型的工具學(xué)習(xí)器和搜索引擎交互獲取互聯(lián)網(wǎng)信息在長文本問答上實(shí)現(xiàn)非常強(qiáng)的能擴(kuò)展語言大模型能力的方法,統(tǒng)一稱為增廣語言模型(Augmented提出了工具學(xué)習(xí)(ToolLearning)框架[24],指在讓模3.1.1面向理解任務(wù)的多模態(tài)大模型Transformer的編碼器。按照模型結(jié)構(gòu)的不同,面向理解任務(wù)的多模Transformer)層將文本和圖像特征進(jìn)行融合,最后所得到文本-圖像特零樣本(zero-shot)分類能力。另一個(gè)與CLIP類型的代表性方法另一代表性方法UNITER[69],則采用了一種多任務(wù)的多模態(tài)預(yù)訓(xùn)練現(xiàn)有的面向理解任務(wù)的多模態(tài)大模型大多都以上面兩類結(jié)構(gòu)為3.1.2面向生成任務(wù)的多模態(tài)大模型3D、分子結(jié)構(gòu)等多種模態(tài)內(nèi)容的生成應(yīng)用。目前常用的方法主要是發(fā)布的一個(gè)基于4億圖文對(duì)訓(xùn)練的圖像生成模型,通過采用型的圖像生成模型是北京智源研究院所的CogView模型[75](如圖模型是最主流的方案,例如,典型方法GI多模態(tài)大模型,統(tǒng)一了圖像/視頻的描述和問答等視覺語言任務(wù),它圖3-2CogView[75]模型架表達(dá),再采用擴(kuò)散模型來建模圖像隱特征分布。另一典型擴(kuò)散模型性方法有OpenAI的DALL-E2[78]與谷歌的Imagen[79]。其中,練一個(gè)獨(dú)立的映射模型將CLIP模型的文本特征映射到圖像特征空型直接編碼文本信息,然后直接用該文本編碼來生成圖像;同時(shí),3.1.3兼顧理解和生成任務(wù)的多模態(tài)大模型Transformer編碼器通過雙向的注意力機(jī)制來學(xué)習(xí)對(duì)數(shù)據(jù)的理解時(shí)具備這兩種能力從而可以在更廣泛的下游任務(wù)上應(yīng)用,可以聯(lián)合Transformer編碼器與解碼器,設(shè)計(jì)能夠兼顧理解與生成任務(wù)的多模于針對(duì)訓(xùn)練任務(wù)與數(shù)據(jù)的不同采用不同的輸入文本與輸出文本的構(gòu)型UnifiedVLP[81],它的主要特點(diǎn)是編碼器和解碼器共享同一個(gè)Transformer網(wǎng)絡(luò)。該方法通過設(shè)置注意大模型的語義對(duì)齊,通常利用大規(guī)模弱關(guān)聯(lián)的跨模態(tài)數(shù)據(jù)(如圖像-文本、視頻-文本、音頻-文本數(shù)據(jù)等基于條件文本生成任務(wù)進(jìn)行3.1.4知識(shí)增強(qiáng)的多模態(tài)大模型過將場景圖中的知識(shí)實(shí)體和關(guān)系進(jìn)行掩碼后要求模型預(yù)測所掩碼位等多種任務(wù)。另一個(gè)代表性模型KOSMOS-1[86],它將一個(gè)基于將圖像、視頻等感知模塊與LLaMA[87]等開源的語言大模型對(duì)接,從而實(shí)現(xiàn)類似GPT-4的多模態(tài)理解能力。其中的一個(gè)典型模型是ChatBridge[88],它使用多個(gè)并行的感知模塊用來處理包括圖片、音構(gòu)模型顯得尤為重要。具體來說,可以通過引入編碼器-解碼器結(jié)構(gòu)以視覺-語言數(shù)據(jù)的聯(lián)合學(xué)習(xí)為例,多模態(tài)大模型常用的自監(jiān)督序列中的某些單詞或標(biāo)記會(huì)被替換為特殊的掩預(yù)訓(xùn)練模型被要求根據(jù)可見的多模態(tài)上下文來預(yù)測這些被遮蔽的單中的部分區(qū)域會(huì)被隱藏或被替換為特殊的掩碼標(biāo)記[M訓(xùn)練模型被要求在僅看到其余圖像內(nèi)容與文本等其他模態(tài)信息的情練方式促使模型學(xué)習(xí)圖像的視覺特征、多模態(tài)上下文信息和語義關(guān)-文本匹配任務(wù)是旨在實(shí)現(xiàn)圖像與文本的全局對(duì)齊。通常給定圖文對(duì)多模態(tài)大模型的最終目標(biāo)是適配并提升特定下游任務(wù)上的性能1)面向特定任務(wù)的模型微調(diào)適配:多模態(tài)大模型的權(quán)重被作為2)聯(lián)合提示學(xué)習(xí)的模型微調(diào)適配:設(shè)計(jì)契合上游預(yù)訓(xùn)練任務(wù)的適配器層,使得模型可以在不同任務(wù)之間共享通用預(yù)訓(xùn)練模型的表PaLM[17]系列語言大模型由Google開發(fā)。其初始版本于2022包括添加數(shù)學(xué)與邏輯能力、添加代碼能力、支持更多語言等。2023還聯(lián)合重磅發(fā)布了國內(nèi)首款支持大模型訓(xùn)練私有化的全國產(chǎn)化產(chǎn)品的產(chǎn)品體系以及廣泛的應(yīng)用場景使得通義千問更具可落地性和市場4.2.1典型開源語言大模型BigScienceMPT-InstructHelixFold-SingleVIMER-UMS,VIMER-UFO使用了高效的數(shù)據(jù)并行和流水線并行技術(shù),以加速模型的訓(xùn)練和擴(kuò)參數(shù),并在1萬億字符上進(jìn)行了訓(xùn)練。在發(fā)布后的兩個(gè)月里,其在HuggingFace的開源語言大模型排行榜上排名第一。該系列最新的模型在推理、編碼、熟練度和知識(shí)測試等各種任務(wù)中表現(xiàn)出色,在Pythia[91]系列模型是由非營利性人工智能實(shí)驗(yàn)室EleutherAI開發(fā)的一系列生成式語言大模型。該系列有16個(gè)不同參數(shù)量的模型種不同的模型尺寸。一套是直接在Pile上訓(xùn)練的,另一套則在經(jīng)過T5[42]模型是由GoogleBrain團(tuán)隊(duì)在技術(shù),基于keys和queriesGPT-Neo[93]系列模型是由EleutherAI開發(fā)的預(yù)訓(xùn)練語言大模GPT-Neo項(xiàng)目的一個(gè)獨(dú)特之處在于其強(qiáng)調(diào)開源開發(fā)和社區(qū)參與。OPT[94]模型是由MetaAI發(fā)布的一款decoder-only模型,與原因和動(dòng)機(jī),為研究社區(qū)的使用和進(jìn)一步研究提供了重要的參考資開源首個(gè)中文預(yù)訓(xùn)練大模型。ERNIE[96]自發(fā)布以來在語言理使用INT4進(jìn)行量化并且不會(huì)明顯影響模型效果。通過優(yōu)化,的中文和英文benchmark上均取得同尺寸最好的效果,其基于Baichuan-13B在Baichuan-7B的基礎(chǔ)上進(jìn)一步擴(kuò)大參數(shù)量到13040%,是當(dāng)前開源13B尺寸下訓(xùn)練數(shù)據(jù)量最多的模型。其支持中英了部署的機(jī)器資源需求。Baichuan2-7B和Baichuan2-13B,均基于CPM系列模型由北京智源人工智能研究院和清華大學(xué)的合作研預(yù)訓(xùn)練技術(shù),在零樣本和少樣本場景中表現(xiàn)出色。CPM-Bee的是一鵬程·盤古α[100]由以鵬城實(shí)驗(yàn)室為首的技術(shù)團(tuán)隊(duì)聯(lián)合協(xié)作開閱讀理解等,并且擁有很強(qiáng)的小樣本學(xué)習(xí)能力。鵬程.盤古α收集了4.2.2典型開源多模態(tài)大模型--VisualGLM-6B和訓(xùn)練目標(biāo)對(duì)模型進(jìn)行訓(xùn)練,并在此基礎(chǔ)上新增了對(duì)圖像局部區(qū)域版,可實(shí)現(xiàn)多模態(tài)大模型的訓(xùn)練和評(píng)估。OpenFlamingo使用交叉注BLIP-2[82]通過一個(gè)輕量級(jí)的查詢轉(zhuǎn)換器彌補(bǔ)了模態(tài)之間的差I(lǐng)nstructBLIP[103]的特點(diǎn)是設(shè)計(jì)了一種視覺語言指令微調(diào)方法,導(dǎo)圖像編碼器提取不同的視覺特征。這樣的好處在于對(duì)于同一張圖力與圖像能力結(jié)合。其利用視覺編碼器和語言大模型Vicuna[109]進(jìn)調(diào)階段進(jìn)行多模態(tài)指令微調(diào)以提高其生成可靠性和整體可用性。LlaMA-AdapterV2[105]是一種參數(shù)高效的視覺指令模型。具體習(xí)參數(shù)組,引入了圖像-文本對(duì)和指令跟隨數(shù)據(jù)的聯(lián)合訓(xùn)練范式。該ChatBridge[88]是一個(gè)新型的多模態(tài)對(duì)話模型,利用語言的表達(dá)習(xí)能力,接下來是多任務(wù)的指令微調(diào),使其與用戶的意圖對(duì)齊。文圖像-文本對(duì)進(jìn)行預(yù)訓(xùn)練。這種方法使視覺信息能夠很好地與Qwen-VL[111]是支持中英文等多種語言的視覺語言模型。了具備基本的圖文識(shí)別、描述、問答及對(duì)話能力之外,Qwen-VL還DDP都顯著快于DP,能達(dá)到略低于卡數(shù)的加速比,但要求每塊開始支持FSDP技術(shù),可以更加高效的將部分使用完畢的參數(shù)移至以通過定義操作和變量在數(shù)據(jù)流圖上構(gòu)建自己的神經(jīng)網(wǎng)絡(luò)模型。此Learning)是我國較早開源開放、自主研發(fā)、功能完備的產(chǎn)業(yè)級(jí)深度等,既包含網(wǎng)絡(luò)復(fù)雜、稠密參數(shù)特點(diǎn)的計(jì)算機(jī)視覺(CV)自然語言MindSpore:MindSpore[114]是一款適用于端邊云全場景的開源深度學(xué)習(xí)訓(xùn)練/推理框架。MindSpore能很好匹配昇騰處理器算力,Jittor:Jittor[115]是一個(gè)基于即時(shí)編譯和元算子的高性能深度學(xué)OneFlow:OneFlow[116][116]能夠較好適用于多機(jī)多卡訓(xùn)練場景,是國內(nèi)較早發(fā)布的并行計(jì)算框架。OneFlow會(huì)把整個(gè)分布式集設(shè)備。最新版本的OneFlow和TensorFlo兼容了PyTorch,支持?jǐn)?shù)據(jù)+模Colossal-AI:“夸父”(Colossal-AI[117]提供了一系列并行組機(jī)PyTorch代碼快速擴(kuò)展到并行計(jì)算機(jī)集群上,無需關(guān)心并行編程Transformer架構(gòu)的巨型語言模型。針對(duì)Transformer進(jìn)行了專門的DeepSpeed[29]的超大規(guī)模模型訓(xùn)練工具,其中包含了一種新的顯存4.4.1大模型的訓(xùn)練數(shù)據(jù)處理流程和特點(diǎn)GPT3、PaLM[17]和GLaM[120]模型在訓(xùn)練數(shù)據(jù)構(gòu)造時(shí)都使用了基于4.4.2大模型常用的公開數(shù)據(jù)集當(dāng)前已經(jīng)出現(xiàn)一批大模型數(shù)據(jù)集,涵蓋多種模態(tài)。代表性化學(xué)習(xí)微調(diào)數(shù)圖片-文本多模COCO[134]Conceptual[136]視頻-文本多模AI模型相比,非常依賴分布式技術(shù)提升效率。因此,大模型開發(fā)的挑戰(zhàn)集中體現(xiàn)在基于深度學(xué)習(xí)框架對(duì)各類分布式并行策略進(jìn)行本地點(diǎn)優(yōu)化、混合精度浮點(diǎn)優(yōu)化[79]等方法、降低梯度計(jì)算過數(shù)據(jù)并行[143]:數(shù)據(jù)并行是每個(gè)處理器存儲(chǔ)全量的模型參數(shù)、但需要設(shè)計(jì)高效的并行算法和通信機(jī)制來確保計(jì)算的正確性和高效硬件資源異構(gòu)性,進(jìn)一步發(fā)展出了端到端自適應(yīng)分布式訓(xùn)練架構(gòu)模型稀疏化[149][150][151]:這種方法通過將模型中的某些神經(jīng)量化[149][153][154]:量化是一種將預(yù)訓(xùn)練模型中的權(quán)重從浮點(diǎn)5.2.2大模型推理與服務(wù)部署混合并行推理,實(shí)現(xiàn)對(duì)模型結(jié)構(gòu)和計(jì)算硬件的自動(dòng)感知(AutomatedHardwareAwareness協(xié)同優(yōu)化模型推理效率自動(dòng)計(jì)算圖融合優(yōu)化:以非侵入的方式自動(dòng)匹配高性能融合算這種計(jì)算特點(diǎn),可以通過協(xié)同硬件開展優(yōu)化,研發(fā)LLM.INT8()[67]A100,以及谷歌的TPU(TensorProcessingUni能規(guī)格各不相同。大模型除了對(duì)訓(xùn)練芯片的計(jì)算性能有一定的要求5.3.1大模型的軟硬件適配間表示(IntermediateRepresentation,IR)對(duì)接硬件的代碼生成器5.3.2大模型的軟硬件協(xié)同優(yōu)化(Field-ProgrammableGateArray)加速也是一種重要的硬件加速技另外,云服務(wù)也為大模型訓(xùn)練提供了強(qiáng)大的計(jì)算能力和存儲(chǔ)資對(duì)已經(jīng)硬件進(jìn)行全面適配,另一方面需要開展極致的軟硬件協(xié)同優(yōu)和少樣本學(xué)習(xí)能力,可以快速掌握新的任務(wù),實(shí)現(xiàn)對(duì)不同領(lǐng)域、不同數(shù)以索引為核心的“索引—召回—精排”檢索架構(gòu)被廣泛應(yīng)用在各種信中國科學(xué)院自動(dòng)化研究所基于自主研發(fā)的音視頻理解大模型“聞數(shù)據(jù)與大模型驅(qū)動(dòng)的多任務(wù)統(tǒng)一學(xué)習(xí)體系,實(shí)現(xiàn)了對(duì)全媒體數(shù)據(jù)的統(tǒng)一DNA遠(yuǎn)端交互進(jìn)行基因表達(dá)和染色質(zhì)狀態(tài)預(yù)測的神經(jīng)網(wǎng)絡(luò)架構(gòu)DNA序列預(yù)測基因表達(dá)的準(zhǔn)確性。為進(jìn)一步研究美國哈佛醫(yī)學(xué)院和英國牛津大學(xué)的研究人員合作開發(fā)出一款可可以協(xié)助用戶撰寫各類文檔,實(shí)現(xiàn)文檔創(chuàng)作、編輯和總結(jié)等功能,用戶只需用自然語言提出需求,Copilot即可以快速生成或修改文檔內(nèi)在影視行業(yè),大模型技術(shù)為內(nèi)容制作和影視創(chuàng)作帶來了新的變模型能夠較好地因材施教,為學(xué)生提供全方位知識(shí)支持。8月,好未來識(shí)整合能力可滿足學(xué)生動(dòng)態(tài)需求,實(shí)現(xiàn)個(gè)性化學(xué)習(xí),與教師共同提金融發(fā)布國內(nèi)首個(gè)零售金融大模型“天鏡”,具有知識(shí)匯集、喚醒數(shù)據(jù)價(jià)值等應(yīng)用場景,可助力零售金融機(jī)構(gòu)實(shí)現(xiàn)智能客服、精準(zhǔn)營銷、風(fēng)險(xiǎn)控制等能力。在模型訓(xùn)練規(guī)模不斷擴(kuò)大的背景下,金融行業(yè)大模發(fā)Med-PaLM[89]醫(yī)療大模型,其在醫(yī)學(xué)考試和開放式問答上達(dá)到專理解醫(yī)學(xué)多模態(tài)數(shù)據(jù),并根據(jù)個(gè)性化診療需求進(jìn)行智能決策。醫(yī)療大計(jì)過程中,設(shè)計(jì)師需要花費(fèi)很長的時(shí)間設(shè)計(jì)衣服并進(jìn)行線上樣款測將大模型常用的自監(jiān)督訓(xùn)練方式以及預(yù)訓(xùn)練-微調(diào)的訓(xùn)練部署方式延級(jí)學(xué)術(shù)期刊《自然》(Nature)雜志正刊發(fā)表了華為云盤古大模型研發(fā)險(xiǎn)應(yīng)該與流行病和核戰(zhàn)爭等其他大規(guī)模風(fēng)險(xiǎn)一樣,成為全球優(yōu)先議型的安全監(jiān)管。習(xí)近平總書記在多次會(huì)議中指出,“要重視通用人工一代人工智能治理原則——發(fā)展負(fù)責(zé)任的人工智能》指等發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》指出,“國7.3.1大模型自身的安全風(fēng)險(xiǎn)(1)辱罵仇恨:模型生成帶有辱罵、臟字臟話、仇恨言論等不(2)偏見歧視:模型生成對(duì)個(gè)人或群體的偏見和歧視性內(nèi)容,(3)違法犯罪:模型生成的內(nèi)容涉及到違法、犯罪的觀點(diǎn)、行(4)敏感話題:對(duì)于一些敏感和具有爭議性的話題,模型輸出(6)心理傷害:模型輸出與心理健康相關(guān)的不安全的信息,包(7)隱私財(cái)產(chǎn):模型生成涉及到暴露用戶或第三方的隱私和財(cái)(8)倫理道德:模型生成的內(nèi)容認(rèn)同和鼓勵(lì)了違背道德倫理的7.3.2大模型在應(yīng)用中衍生的安全風(fēng)險(xiǎn)標(biāo)簽。由于模型的黑箱特性,這種攻擊難以檢測。比如在ChatGPT為攻擊者創(chuàng)造了新的攻擊途徑[167]。因此,迫切需要研究魯棒的分大模型訪問外部資源時(shí)引發(fā)的安全漏洞。大模型與外部數(shù)據(jù)、7.4.1大模型的安全對(duì)齊技術(shù)無意間學(xué)習(xí)并模仿數(shù)據(jù)中的價(jià)值觀。其次是有監(jiān)督微調(diào)(Supervised更具體的任務(wù)要求并調(diào)整其輸出,使之更接近人類對(duì)特定任務(wù)的期c.數(shù)據(jù)掩碼(DataMasking數(shù)據(jù)掩碼是一種將敏感信息部分過從人類反饋中學(xué)習(xí)來構(gòu)建更有用、更準(zhǔn)確和更安全的對(duì)話智能體(河貍)項(xiàng)目[170],提供了一種可復(fù)現(xiàn)的RLHF基準(zhǔn),并公開了近端策略優(yōu)化分析其穩(wěn)定訓(xùn)練及其在大模型人類對(duì)齊中的作用機(jī)理,并發(fā)布大模型人類對(duì)齊技術(shù)報(bào)告與開源核心代碼,以推動(dòng)中文7.4.2大模型安全性評(píng)測技術(shù)導(dǎo)模型出錯(cuò),包含目標(biāo)劫持、Prompt泄露、賦予特殊的角色后發(fā)布指令、不安全/不合理的指令主題、隱含不安全觀點(diǎn)的詢問、以及反進(jìn)行了安全評(píng)估,并發(fā)現(xiàn)指令攻擊更有可能暴露所有模型的安全問們或提供有關(guān)實(shí)施恐怖主義行為的實(shí)用指導(dǎo)。為了識(shí)別這些風(fēng)險(xiǎn),險(xiǎn)的能力,其次判斷模型多大程度上可能使用這些能力造成傷害[172]。該框架指出大模型的極端風(fēng)險(xiǎn)評(píng)估將成為安全人工智能研發(fā)在各種社會(huì)決策場景中的能力和道德行為,一項(xiàng)典型的評(píng)測基準(zhǔn)是再到模型高效適配,大模型技術(shù)引起機(jī)器學(xué)習(xí)范式的一系列重要革的應(yīng)用中的潛在漏洞,探討攻擊的傳遞方式以及可能造成的各種威入多種控制手段可一定程度上減少不良內(nèi)容的產(chǎn)生、緩解上述問題[175],但依然有辦法使得該類先進(jìn)大模型生成錯(cuò)誤或極具風(fēng)險(xiǎn)的內(nèi)6RecurrentNeuralNetworkLangua66BERTBidirectionalEncoderRepresentat6EmbeddingsfromLanguage66ReinforcementLearningfromHumanF777NSPGeneralLanguageUnderstandinZeROZeroRedundancyOptiASICApplication-SpecificIntegratedCirField-ProgrammableGatewithneuralnetworks.Science,2006,313(5786):504-507.deepconvolutionalneuralnetworks.CommunicationsoftheACM,2017,modelinginspeechrecognition:Thesharedviewsoffourresearchgroups.IEEESignalprocessingmagaziinformationprocessingsystems,R.(2023).AsurveyarXiv:2303.18223.ProceedingsoftheIEEE,1976,64(4):532-5model.Advancesinneuralinformwordrepresentations."Proc.ofNAACLunderstandingbygenerativepre-training.2018.[11]DevlinJ,ChangMW,LeeK,etalbidirectionaltransformersforlanguageunderstanding.arXivpreprint[12]SundermeyerM,SchlüterR,NeyH.LSTMneuralnetworkslanguagemodeling.InterspeeAdvancesinneuralinformationprocessingsystems,20languagemodels.arXivpreprintarXiv:2001.08modelingwithpathways[J].arXivpreprintarXiv:2languagemodels.arXivpreprintarXiv:2206.07LanguageModelsSecretlyPerformGradientDescentasMarXivpreprintarXiv:2212zero-shotlearners.arXivpreprintarXiv:2109.instructionswithhumanfeedback.AdvaProcessingSystems,2solvingwithlargelanguagemodels[J].aarXivpreprintarXiv:2304trainedoncode.arXivpreprintarXiv:2107.03374,/papers/gpt-4.pdf.processingsystems,32.Abadi,M.,Agarwal,A.,Barham,P.Chen,Z.,Citro,C.,gplatformfrominfwithover100billionparameters.InProceedingsofthe26thACMSIGKDDInternationalConferenceonKnowledgeDiscovery&DataMining(pp.3505-3506).fine-tunedchatmodels[J].arXivpreprintarXiv:23largelanguagemodelwithstate-of-the-artperformance[R].Technicalreport,Technology[32]ZengA,LiuX,DuZ,etal.model[J].arXivpreprintarXiv:2210.02414,2[33]ZhangZ,HanX,ZhouH,Chinesepre-trainedlanguagemodel[J].AIOpen,2021,2pre-trainedlanguagemodels[J].AIOpen,2021,2:216-224.[35]車萬翔,竇志成,馮巖松,等.大模型時(shí)代的自然語言處理:挑systematicsurveyofpromptingmetho[37]AkyürekE,SchuurmansD,And[38]陶建華,傅睿博,易江燕,王成龍,汪濤.語音偽造與鑒偽的發(fā)展與挑[39]陶建華.加強(qiáng)深度合成算法安全科研攻關(guān)推進(jìn)深度合成服務(wù)綜合治理.https://mp.weixifparameterefficientmethodsforprpreprintarXiv:2203.06904,202pretrainingapproach.arXivpreprintarXiv:1907.[42]RaffelC,ShazeerN,RobertsA,etal.Exploringlearningwithaunifiedtext-to-textTransformeSequence-to-SequencePre-trainingforNaturalLanguaTranslation,andComprehension[C]//ProceedingsofACL.2020:TransformerforLargeLanguageModels[J].parametermodelswithsi[47]Google.IntroducingPathways:Anext-generatihttps://blog.google/technology/ai/introducing-pathways-next-generation-alayersaremixturesofexperts[J].arXivpreprin[49]HeJ,QiuJ,ZengA,etal.Fastmoe:Afastmixture-of-experttrainingsystem[J].arXivpreprintarXiv:2zero-shotlearners.arXivpreprintarXiv:2109.declarativeinstructionsoninstructionmetalearningthroughthelensofgeneralization[J].arXivpreprintarXiv:2212.12017,202languagemodels[J].arXivpreprintarXiv:2106.09FrameworkforPrompt-learning[C]//ProceedingsoftheACL:SystemParameter-efficientAdaptationofPre-trainedModels[J].aadaptingtransformers[C]//ProceedingsoftheEMNLP.202InformationProcessingSystems,[59]HanX,ZhangZ,DingN,etal.Pre-trainedmodels:Past,presentfuture[J].AIOpen,2021,question-answeringwithhumanfeedback[J].arwebinteractionwithgInformationProcessingSystems,[62]OpenAI.ChatGPTPlugi/blog/chatgpt-plugins.[63]MialonG,DessìR,LomeliM,etal.Augmentedlanguagemodels:asurvey[J].arXivpreprintarXiv:[64]LuJ,BatraD,ParikhD,etal.Vilbert:Prvisiolinguisticrepresentationsforvision-and-languagetasks[J].Advancesinneuralinformationprocessingsystemsmodelsfromnaturallanguagesupervision[C]//Inteonmachinelearning.PMLR,2021:8748representationlearningwithnoisytextsupervConferenceonMachineLearning.PMLR,2021:49NeuralInformationProcessingSystems,2021,34:Visual-LinguisticRepresentations[C]//Internationarepresentationlearning[C]//ComputerVision-ECCV2020:16thEuropeanConference,Glasgow,UK,August23-28,2020,Proceediandlanguagerepresentationlearning[C]//ProceedingsoftheIEEE/CVFinternationalconferenceoncomputervision.2019:7464-representations[C]//ProceedingsoftheIEEE/CVFconferenceoncomputervisionandpatternreforcomputervisiongeneration[C]//InternationalConferenceonMachineLearnhigh-fidelityimageswithvq-vae-2[J].Aprocessingsystems,2019,32.generationviatransformers[J].AdvancesinNeuralTransformerforVisionandLangusynthesiswithlatentdiffusionmodels[78]RameshA,DhariwalP,NicholA,etal.HierarchidiffusionmodelswithdeeplanguageNeuralInformationProcessingSystems,2022,35:[80]ChoJ,LeiJ,TanH,etal.generation[C]//InternationalConferenceonMachineLearninpre-trainingforimagecaptioningandvqa[C]//ProceLanguage-ImagePre-trainingwithFrozenImageEncodersandLargeLanguageModels.ArXiv./abs/23tionsthroughscenegraphs[C]//ProcftheAAAIConferenceonArtificialIntelligence.2021,symbolicknowledgeforopen-domainknowledge-basedvqa[C]//ProceedingsoftheIEEE/CVFCmodelforfew-shotlearning[J].ProcessingSystems,2Aligningperceptionwithlanguagemodels[J].arXivpreprintfoundationlanguageBridgingModalitieswithLargeLanguageModelasaLanguageCatalyarXiv:2305.16103.clinicalknowledge[J].arXivpreprintarXiv:221multimodallanguagemodel[J].arXivpreprintarXiv:2303.03378,2Hallahan,M.A.Khan,S.Purohit,U.S.Prashanth,E.Raffetal.,“Pythia:Asuiteforanalyzinglargelanguagemodelsacrosstrainingandscaling,”arXivpreprintarXiv:2304languagemodel.arXivpreprintarXiv:2211.05100.“OPT:openpre-trainedtransformerlanguagemodels,”CoRR,vol.preprintarXiv:2108.12409(2021).(2019).Ernie:Enhancedrepresentationthintegration.arXivpreprintarXiv:1904.09223.Large-scaleknowledgeenhancedpre-trainingforlanguageunderstanding“ERNIE3.0:Large-scaleknowledgeenhancedpre-trainingforlanguageunderstandingandgeneration,”CoRR,vol.abs/2107withautoregressiveblankinfilling[J]P-tuningv2:Prompttuningcanbecomparabletofine-tuninguniversallyacrossscalesandtasks.arXivpreprintarXiv:2110.0760autoregressivepretrainedChineselanguagemodelswithauto-parallelcomputation[J].arXivpreprintarXiv:2104.1LargeLanguageModelsOpen-SourceFrameworkforTrainingLargeAutoregVision-LanguageModels[J].arXivpreprinInstructblip:Towardsgeneral-purposevision-languagemodelswithinstructiontuning.arXivpreprintarXiv:230LargeLanguageModels.ArXiv./absParameter-EfficientVisualIns[106]RohitGirdhar,AlImagebind:OneembeddingspacetobindthemaarXiv:2305.05665.acrossLanguages[J].arXivpreprintarXiv:230impressinggpt-4with90%*chatgptqualitHuang,F.(2023).MPLUG-Owl:ModuVision-LanguageModelwithVersatileAbilities[J]distributedsystems.arXivpreprintarXiv:1603.04467.ormfrominfgraphexecution.ScienceChinaInformation(2021).Oneflow:Redesignthedistributeddeeplearscratch.arXivpreprintarXiv:2110.1(2021).Colossal-AI:Aunifieddeparalleltraining.arXivpreprintarXiv:2110.14883.Catanzaro,B.(2019).Megatron-lm:Trainingmulti-billionparameterlanguagemodelsusingmodelparallelism.arXivpreprintarXiv:1909.08053.https://intro-llm.github.io/,20modelswithmixture-of-experts[C]//InternMachineLearning.PMLR,2022:5547-5569.Methods,analysis&insightsfromtraininggopher[J].arXivpreprintinstructionswithhumanfeedback[J].ProcessingSystems,2Omni-ModalityFoundationModelandDataset[J].arXivpreprint[124]BainM,NagraniA,VarolG,etal.imageencoderforend-to-endretrieval[C]//ProceedingsoftheIEEE/CVFbooks[C]//ProceedingsoftheIEEEinternationalconferenfdiversetextforlanguagemodeling[J].arXivassistantwithreinforcementlearningfromhumanfeeinstruction-followingllamamodel[J/OL].GitHubrepository,2023./tatsu-lab/stanford_alpa[129]static-hh.https://huggingface.co/datasets/Dahoas/static-hh,2023[130]ShareGPT.https:/[131]zhihu_rlhf_3k.https://huggingface.co/datasets/liyucheng/zhihu_rlhf_[132]BeaverTails.https://humillioncaptionedphotographs[J].Advancesinneuralinformationobjectsincontext[C]//Conference,Zurich,Switzerland,Septlanguageandvisionusingcrowdsourceddenseimageannotations[J].Internationaljournalofcomputervision,2017,123:32-7web-scaleimage-textpre-trainingtorecognizelong-tailvisualconcepts[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.“Coyo-700m:Image-textpairdataset,”/kakaobrain/coyo-dataset,2022.text-videoembeddingbywatchinghundredmilliclips[C]//ProceedingsoftheIEEE/CVFinternatcomputervision.2019:knowledgemodels[J].AdvancesinNeuralInformationProcessingvideo-languagerepresentationwithlarge-scalevideotranscriptions[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatteromni-perceptionpretrainingmodelanddatasDemocratizing{Billion-Scale}modeltraining[C]//2single-program-multiple-dataneuralnetworksusingpipelineparallelism[J].Advancesinneuralinformationprocessingsystems,[145]NarayananD,ShoeybiM,CasperJ,etal.Efficientlarge-scalelanguagemodeltrainingongpucmegatron-lm[C]//ProceedingsoftheInternationalConferenceforHighoptimizationstowardtrainingtrillionparametermoInter
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 時(shí)尚品牌店裝修合同樣本
- 2025年度特種設(shè)備安全管理停薪留職協(xié)議
- 夜間快遞運(yùn)輸線路外包合同
- 保險(xiǎn)公司裝修質(zhì)量保證協(xié)議
- 產(chǎn)業(yè)園裝修貸款合同范本
- 2025年度網(wǎng)絡(luò)安全應(yīng)急響應(yīng)工程師聘請(qǐng)合同-@-1
- 學(xué)校教室半包裝修合同樣本
- 工廠車間裝修包工協(xié)議
- 家電賣場展位裝修合同書
- 保險(xiǎn)公司裝修制式合同樣本
- 自卸車司機(jī)實(shí)操培訓(xùn)考核表
- 教師個(gè)人基本信息登記表
- 中考現(xiàn)代文閱讀理解題精選及答案共20篇
- ESD測試作業(yè)指導(dǎo)書-防靜電手環(huán)
- 高頻變壓器的制作流程
- 春季開學(xué)安全第一課PPT、中小學(xué)開學(xué)第一課教育培訓(xùn)主題班會(huì)PPT模板
- JJG30-2012通用卡尺檢定規(guī)程
- 部編版人教版二年級(jí)上冊(cè)語文教材分析
- 艾賓浩斯遺忘曲線復(fù)習(xí)方法表格模板100天
- APR版制作流程
- 《C++程序設(shè)計(jì)》完整教案
評(píng)論
0/150
提交評(píng)論