計(jì)算機(jī)行業(yè)深度研究-如何實(shí)現(xiàn)AGI:大模型現(xiàn)狀及發(fā)展路徑展望_第1頁(yè)
計(jì)算機(jī)行業(yè)深度研究-如何實(shí)現(xiàn)AGI:大模型現(xiàn)狀及發(fā)展路徑展望_第2頁(yè)
計(jì)算機(jī)行業(yè)深度研究-如何實(shí)現(xiàn)AGI:大模型現(xiàn)狀及發(fā)展路徑展望_第3頁(yè)
計(jì)算機(jī)行業(yè)深度研究-如何實(shí)現(xiàn)AGI:大模型現(xiàn)狀及發(fā)展路徑展望_第4頁(yè)
計(jì)算機(jī)行業(yè)深度研究-如何實(shí)現(xiàn)AGI:大模型現(xiàn)狀及發(fā)展路徑展望_第5頁(yè)
已閱讀5頁(yè),還剩28頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

內(nèi)容目錄距離AGI還有多遠(yuǎn):語(yǔ)言大模型較為成熟,處于EmergingAGI水平 4如何實(shí)現(xiàn)Law仍有深入空間,底層算法框架有待升級(jí) 7ScalingLaw:中短期內(nèi),持續(xù)擴(kuò)大參數(shù)量仍能改善模型表現(xiàn) 9算法改進(jìn):骨干網(wǎng)絡(luò)架構(gòu)仍有創(chuàng)新空間,微調(diào)及稀疏結(jié)構(gòu)能夠提升性價(jià)比 10如何商業(yè)落地:借力模型開源及B端合作,尋找高人工替代率的場(chǎng)景 17開源模型vs閉源模型Law不再之后,找場(chǎng)景或優(yōu)于做模型 17如何定義一個(gè)好場(chǎng)景?——“幻覺”尚未消除的世界,高人工替代率或?yàn)橹攸c(diǎn) 18如何處理“幻覺”?——ScalingLaw信仰派vs引入知識(shí)圖譜改良派 19投資建議 20風(fēng)險(xiǎn)提示 23圖表目錄圖表1:AGI可以根據(jù)性能和廣泛性劃分為6個(gè)等級(jí) 4圖表2:大模型可根據(jù)功能進(jìn)行分類 4圖表3:海內(nèi)外語(yǔ)言及多模態(tài)大模型進(jìn)展概覽 5圖表4:海內(nèi)視覺及其他大模型進(jìn)展概覽 5圖表5:機(jī)器人涉及到的模型種類較多 6圖表6:將架構(gòu)應(yīng)用于機(jī)器人決策、控制等成為現(xiàn)階段重要趨勢(shì) 6圖表7:各類大模型能力現(xiàn)狀 7圖表8:以布局為例,看AGI發(fā)展路徑 8圖表9:大模型訓(xùn)練主要環(huán)節(jié) 8圖表10:多重因素決定模型性能 9圖表模型性能隨著模型大小、數(shù)據(jù)集大小和訓(xùn)練所用計(jì)算量的增加呈現(xiàn)冪律提升 9圖表12:參數(shù)規(guī)模更大的語(yǔ)言模型在訓(xùn)練過程中的樣本效率更高且性能提升更快 10圖表13:模型參數(shù)規(guī)模對(duì)于性能提升的貢獻(xiàn)度更高 10圖表14:模型結(jié)構(gòu)及自注意力機(jī)制原理 11圖表15:根據(jù)底層骨干網(wǎng)絡(luò)差異可以將大模型分為三類 12圖表16:三種骨干網(wǎng)絡(luò)特點(diǎn)對(duì)比 12圖表17:智譜在多項(xiàng)任務(wù)中能力肩GPT-4 13圖表18:Meta-Transformer模型能夠處理12種非成對(duì)的模態(tài)數(shù)據(jù) 13圖表19:擴(kuò)散模型示意圖 14圖表20:Diffusion模型結(jié)構(gòu) 14圖表21:針對(duì)的創(chuàng)新研究持續(xù)推進(jìn) 14圖表22:中的技術(shù) 15圖表23:Llama-2對(duì)的獎(jiǎng)勵(lì)模型進(jìn)行改進(jìn) 15圖表24:針對(duì)架構(gòu)大模的PEFT微調(diào)方法 16圖表25:結(jié)構(gòu)中只激活部分網(wǎng)絡(luò) 16圖表26:2023年生式融資額度與融資筆數(shù)快速提升 17圖表27:開源模型性能改善速度快于閉源模型 18圖表28:AGI演進(jìn)過程中的應(yīng)用場(chǎng)景分類 19圖表29:連接主義符號(hào)主義 20圖表30:知識(shí)圖譜通過機(jī)器學(xué)習(xí)和自然語(yǔ)言處理來構(gòu)建節(jié)點(diǎn)、邊和標(biāo)簽的全面視圖 20圖表31:大模型向AGI演進(jìn),模型訓(xùn)練產(chǎn)業(yè)鏈有望持續(xù)收益 21圖表32:算力產(chǎn)業(yè)圖譜 22圖表33:建議關(guān)注賦能細(xì)分場(chǎng)景的龍頭企業(yè) 222022月ChatGPT202320233月,G-420242Sora面世,大模型在視頻生成領(lǐng)域AGI(ArtificialgeneralIntelligence,通用人工智能)的討論熱度日益提升。本文主要盤點(diǎn)目前各類主流大模型性能情況,試圖討論大模型性能提升并最終實(shí)現(xiàn)AGI的可能路徑,并分析在實(shí)現(xiàn)AGI過程中的相關(guān)產(chǎn)業(yè)鏈投資機(jī)會(huì)。AGIEmergingAGIDeedMindAGIShaneLegg的定義,AGI能夠執(zhí)行一般人AGI水Level-0Level-56個(gè)等級(jí)。圖表1:AGI可以根據(jù)性能和廣泛性劃分為6個(gè)等級(jí)等級(jí)主要特征Level-0無人工智能(NarrowNon-AI)只能完成明確定義的任務(wù),比如計(jì)算器軟件或編譯器Level-1初現(xiàn)(EmergingAGI)某些任務(wù)上已經(jīng)達(dá)到了初現(xiàn)AGI的水平Level-2熟練(CompetentAGI)型在某些任務(wù)上已經(jīng)接近熟練AGI的水平Level-3專家(ExpertAGI)在大多數(shù)任務(wù)上能夠達(dá)到專家人類的水平Level-4大師(VirtuosoAGI)在大多數(shù)任務(wù)上能夠達(dá)到頂尖人類的水平Level-5超越人類(SuperhumanAGI)在所有任務(wù)上都能超過100%的人類來源:《LevelsofAGI:OperationalizingProgressonthePathtoAGI》,GPT-4Gemini1.5Claude3在處理能夠高質(zhì)量完成文生視頻任務(wù),圖表2:大模型可根據(jù)功能進(jìn)行分類模型分類主要內(nèi)容代表模型語(yǔ)言大模型專注于處理自然語(yǔ)言,能夠理解、生成和處理大規(guī)模文本數(shù)據(jù)用于機(jī)器翻譯、文本生成、對(duì)話系統(tǒng)等任務(wù)ChatGPT、Llama視覺大模型專注于計(jì)算機(jī)視覺任務(wù),如圖像分類、目標(biāo)檢測(cè)、圖像生成等能夠從圖像中提取有關(guān)對(duì)象、場(chǎng)景和結(jié)構(gòu)信息ViT、SAM多模態(tài)大模型多模態(tài)大模型能夠處理文圖融合、圖像描述、文生視頻等任務(wù)、Claude3策略大模型AlphaGo、RT-1/2/H來源:金科應(yīng)用研院公眾號(hào),2020發(fā)布后進(jìn)入OpenAIGPT系列、GoogleGemini系列、MetaLLaMAAnthropic旗下的aude3OusL(ndergraduateLevelnoedge、G8(GradechoolathG(utngualath8523年3月谷歌發(fā)布的aL-5,60haGT的3.2242Gemini1.5tokens(311小時(shí)視頻圖表3:海內(nèi)外語(yǔ)言及多模態(tài)大模型進(jìn)展概覽來源:《LargeLanguageModels:ASurvey》,《ASurveyofLargeLanguageModels》,洞見學(xué)堂公眾號(hào),機(jī)器之心公眾號(hào),級(jí)市平臺(tái)公眾號(hào),新智元公眾號(hào),阿里云開發(fā)者社區(qū),京東技術(shù)公眾號(hào),中國(guó)科學(xué)基金公眾號(hào),數(shù)據(jù)派THU公眾號(hào),浙江省軟件行業(yè)協(xié)會(huì)公眾號(hào),深圳大學(xué)可視計(jì)算研究中心公眾號(hào),量子位公眾號(hào),鈦媒體AGI公眾號(hào),彭博Bloomberg公眾號(hào),騰訊科技公眾號(hào),百度AI公眾號(hào),鵬城實(shí)驗(yàn)室公眾號(hào),CSDN公眾號(hào),文心大模型公眾號(hào),中國(guó)人工智能學(xué)會(huì)公眾號(hào),騰訊開發(fā)者公眾號(hào),阿里云公眾號(hào),商湯智能產(chǎn)業(yè)研究院公眾號(hào),36氪,科大訊飛公眾號(hào),科大訊飛開發(fā)者平臺(tái),GLM大模型公眾號(hào),阿里通義千問公眾號(hào),2014年的GAN框架,2021年OpenAI發(fā)布DALL-E、OpenAIDALL-E2、StabilityStable2OpenAI圖表4:海內(nèi)視覺及其他大模型進(jìn)展概覽來源:《LargeLanguageModels:ASurvey》,《Improvedproteinstructurepredictionusingpotentialsfromdeeplearning》,《High-ResolutionImageSynthesiswithLatentDiffusionModels》,機(jī)器之心公眾號(hào),新智元公眾號(hào),信息與電子工程前沿公眾號(hào),級(jí)市平臺(tái)公眾號(hào),AI科技評(píng)論公眾號(hào),AIGC開放社區(qū)公眾號(hào),騰訊研究院公眾號(hào),中國(guó)生物技術(shù)網(wǎng)公眾號(hào),數(shù)據(jù)派THU公眾號(hào),阿里云公眾號(hào),智源社區(qū)公眾號(hào),百度AI公眾號(hào),中國(guó)企業(yè)家俱樂部公眾號(hào),商湯科技SenseTime公眾號(hào),商湯智能產(chǎn)業(yè)研究院公眾號(hào),AIGC視界公眾號(hào),飛書公眾號(hào),搜狐科技公眾號(hào),AIGCResearch公眾號(hào),智東西公眾號(hào),4圖表5:機(jī)器人涉及到的模型種類較多來源:《LargeLanguageModelsforRobotics:ASurvey》,2021視覺-語(yǔ)言模型)CLIP;2022系列模型,同Transformer243FigureOpenAIFigure01提供視覺推理和語(yǔ)言理解能力,F(xiàn)igure01能夠描述看到的一切情況、規(guī)劃未來的行動(dòng)、語(yǔ)音輸出推理結(jié)果等。圖表6:將Transformer架構(gòu)應(yīng)用于機(jī)器人決策、控制等成為現(xiàn)階段重要趨勢(shì)模型名稱發(fā)布時(shí)間發(fā)布機(jī)構(gòu)功能類別主要內(nèi)容CLIP2021OpenAI感知-VLMEncoderImageEncoder兩個(gè)模塊,分別提取文本和圖像特征,然后基于比對(duì)學(xué)習(xí)讓模型學(xué)習(xí)到文本-圖像的匹配關(guān)系;CLIP使用大規(guī)模數(shù)據(jù)(4億文本-圖像對(duì))進(jìn)行訓(xùn)練,基于海量數(shù)據(jù),CLIP模型可以學(xué)習(xí)到更多通用的視覺語(yǔ)義信息,可應(yīng)用于圖像文本匹配、圖像文本檢索等任務(wù)。LM-Nav2022谷歌計(jì)劃LLM\VLM\VNM三個(gè)模型的結(jié)合,LLMVLM用于將文本地標(biāo)與圖像關(guān)聯(lián),而用于執(zhí)行導(dǎo)航任務(wù);的三個(gè)預(yù)訓(xùn)練模型得出執(zhí)行計(jì)劃。RT-12022谷歌決策、控制建立在一個(gè)transformertokenized動(dòng)作;可以以97%的成功率執(zhí)行多個(gè)訓(xùn)練指令,并且可以泛化到新的任務(wù)、干擾因素和背景。PaLM-E2023.3谷歌感知控制PaLM-540BTransformer最5620億,其訓(xùn)練數(shù)據(jù)為包含視覺、連續(xù)狀態(tài)估計(jì)和文本輸入編碼的多模式語(yǔ)句;PaLM-E不僅可以指導(dǎo)機(jī)器人完成各種復(fù)雜的任務(wù),還能生成描述圖像的語(yǔ)言。RT-22023.7谷歌控制Transformer架構(gòu)的視覺-語(yǔ)言-動(dòng)作模型,能夠從網(wǎng)絡(luò)和機(jī)器人數(shù)據(jù)中進(jìn)行學(xué)習(xí),并將這些知識(shí)轉(zhuǎn)化為機(jī)器人可以控制的通用指令32%62%RT-X2023.10谷歌感知、決策控制TransformerRT-1-XRT-2-X組成。RT-1-X模50%RT-2-X3倍,動(dòng)作指令也可從傳統(tǒng)的絕對(duì)位置拓展至相對(duì)位置RT-H2024.3谷歌控制高任務(wù)執(zhí)行的準(zhǔn)確性和學(xué)習(xí)效率;的比低大約20%據(jù)集中的離線行動(dòng)預(yù)測(cè)來源:極市平臺(tái)公眾號(hào),DeepTech深科技公眾號(hào),機(jī)器之心公眾號(hào),OSC開源社區(qū)公眾號(hào),按照DeepMind6級(jí)AGILevel-1EmergingAGI階段。具體而言,各類大模型成熟度:語(yǔ)言大模型>多模態(tài)大模型>具身智能類大模型。TransformerDecoder-only架構(gòu),結(jié)合OE和多模態(tài)ebeddngG-4Geni15、Claude3B\CDiffusionTransformer,但細(xì)節(jié)優(yōu)化空間較大,高質(zhì)量和成規(guī)模的數(shù)據(jù)集仍在發(fā)展初期;圖表:各類大模型能力現(xiàn)狀模型分類主要內(nèi)容語(yǔ)言大模型常規(guī)測(cè)試:超越入門級(jí)人類,距離特定領(lǐng)域?qū)<疫€有一定差距;常識(shí)入門數(shù)學(xué)基礎(chǔ)科學(xué)正確率高,面對(duì)復(fù)雜任務(wù)(如研究生級(jí)別、競(jìng)賽類問題等)還有差距;長(zhǎng)文本:10Mtokens代碼生成:簡(jiǎn)單任務(wù)正確率高,復(fù)雜任務(wù)(工業(yè)級(jí)、競(jìng)賽級(jí)等)仍有差距多模態(tài)理解:定性分析能力較高,但定量分析錯(cuò)誤率較高多模態(tài)大模型基本生成:風(fēng)格不穩(wěn)定較難控制;語(yǔ)義理解:prompt;清晰度:4K以上,基本滿足商業(yè)應(yīng)用但生成速度較慢;一致性連貫性:60s,但仍不夠穩(wěn)定具身智能類大模型技術(shù)路徑多,在物體距離、材質(zhì)關(guān)鍵信息的提取和識(shí)別等任務(wù)中表現(xiàn)不穩(wěn)定,需要依靠執(zhí)行過程中動(dòng)態(tài)調(diào)整;在簡(jiǎn)單任務(wù)(如家庭環(huán)境中的簡(jiǎn)單操作)多步驟任務(wù)中不可用,新任務(wù)泛化能力弱,并且延遲較為嚴(yán)重;運(yùn)控算法:hard-coding來源:彬復(fù)資本公眾號(hào),AGI:ScalingLawOpenAIAGI3個(gè)階段,目前處于多模融2AGIGPT-4Sora等。預(yù)計(jì)這兩種能力會(huì)在后續(xù)的大模型發(fā)展中進(jìn)一步融合。。因此,現(xiàn)階段討論AGI能力提升仍需聚焦于多模態(tài)大模型的訓(xùn)練和應(yīng)用,在多模理解和多模生成能力較好融合后,再推演具身智能的模型框架、訓(xùn)練方法會(huì)更加清晰。圖表8:以O(shè)penAI布局為例,看AGI發(fā)展路徑來源:階躍星辰公眾號(hào),圖表9:大模型訓(xùn)練主要環(huán)節(jié)來源:《LargeLanguageModels:ASurvey》,ScalingLaw的天花板在哪里?ScalingLaw圖表10:多重因素決定模型性能來源:ScalingLaw:中短期內(nèi),持續(xù)擴(kuò)大參數(shù)量仍能改善模型表現(xiàn)OpenAI通過研究證明,隨著模型大小、數(shù)據(jù)集大小和訓(xùn)練所用計(jì)算量的增加,語(yǔ)言模型的性能也會(huì)穩(wěn)步提高。為了獲得最佳性能,這三個(gè)因素必須同時(shí)放大:1)當(dāng)不被其他兩個(gè)因素瓶頸限制時(shí),模型性能表現(xiàn)與每個(gè)單獨(dú)的因素之間存在冪律關(guān)系;2)在其他兩個(gè)因素充足的前提下,模型表現(xiàn)和第三個(gè)因素成冪方關(guān)系。圖表11:模型性能隨著模型大小、數(shù)據(jù)集大小和訓(xùn)練所用計(jì)算量的增加呈現(xiàn)冪律提升來源:《ScalingLawsforNeuralLanguage》,Loss模型的性能越好。ScalingLaw仍是提高模型性能的最優(yōu)方法:(比n次浮點(diǎn)計(jì)算)DN不固定時(shí),OpenAI圖表12:參數(shù)規(guī)模更大的語(yǔ)言模型在訓(xùn)練過程中的樣本效率更高且性能提升更快來源:《ScalingLawsforNeuralLanguage》,圖表13:模型參數(shù)規(guī)模對(duì)于性能提升的貢獻(xiàn)度更高來源:《ScalingLawsforNeuralLanguage》,OpenAIScalingLaw88萬(wàn)億及之前ScalingLawGPT-5參數(shù)量預(yù)計(jì)達(dá)到101,30088算法改進(jìn):骨干網(wǎng)絡(luò)架構(gòu)仍有創(chuàng)新空間,微調(diào)及稀疏結(jié)構(gòu)能夠提升性價(jià)比20233基于Transformer,在架構(gòu)選擇、多模態(tài)融合、自注意力機(jī)制方面進(jìn)行創(chuàng)新2017Transformer。RNN、等多個(gè)模態(tài),Transformer的提出使得多任務(wù)、多模態(tài)的底層算法得到統(tǒng)Transformer\解碼器選擇、多模態(tài)融合、自注意力機(jī)制等方面有所創(chuàng)新。圖表14:Transformer模型結(jié)構(gòu)及自注意力機(jī)制原理來源:《AttentionIsAllYouNeed》,針對(duì)Transformer的編碼器-解碼器(Encoder-Decoder)結(jié)構(gòu)進(jìn)行拆分選擇:Transformer模型采用編碼器-;而解碼器的任Encoder-only、Encoder-Decoder、Decoder-only3Encoder-onlyBertEncoder-Decoder架構(gòu)的模型有谷歌的T5等;OpenAI的GPTAnthropicClaudeMetaLLaMADecoder-Only架構(gòu)。圖表15:根據(jù)底層骨干網(wǎng)絡(luò)差異可以將大模型分為三類來源:《HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyond》,Decoder-OnlyEncoder-Only架構(gòu)的BertMaskedLM(隨機(jī)遮蓋句子中若干token讓模型恢復(fù))SentencePrediction(),訓(xùn)練目標(biāo)與文本生成不直接對(duì)應(yīng);2)推理效率方面,Encoder-DecoderDecoder-Only架構(gòu)均能圖表16:三種骨干網(wǎng)絡(luò)特點(diǎn)對(duì)比骨干架構(gòu)主要特點(diǎn)Encoder-Only核心思想是利用神經(jīng)網(wǎng)絡(luò)對(duì)輸入文本進(jìn)行編碼,提取其特征和語(yǔ)義信息,并將編碼結(jié)果傳遞給后續(xù)處理模塊Encoder-Decoder通常用于序列到序列任務(wù),如機(jī)器翻譯、對(duì)話生成等;話生成等任務(wù)的準(zhǔn)確性;缺點(diǎn)是模型復(fù)雜度高、訓(xùn)練時(shí)間和計(jì)算資源消耗較大Decoder-Only常用于序列生成任務(wù),如文本生成、機(jī)器翻譯等,可以進(jìn)行無監(jiān)督與訓(xùn)練;能夠從已有的信息擴(kuò)展出新的內(nèi)容,但需要大量的訓(xùn)練數(shù)據(jù)來提高生成文本的質(zhì)量和多樣性來源:《HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyond》,Paperweekly公眾號(hào),極市平臺(tái)公眾號(hào),Encoder-Decoder務(wù)融合領(lǐng)域?qū)崿F(xiàn)反超。清華大學(xué)和智譜公司共同研發(fā)的GLM系列模型采用Encoder-Decoder241最新版本,模型在基礎(chǔ)能力(英文(中英GPT-490%(中文GPT-4DALLE-3GLM4智能體定制功能。圖表17:智譜GLM-4在多項(xiàng)任務(wù)中能力比肩GPT-4來源:GLM大模型公眾號(hào),Transformer+其他現(xiàn)有算法,推進(jìn)多模態(tài)性能提升:(Self-Attention)Q/K/VQ向量可以看作是某個(gè)人的關(guān)注點(diǎn),VK向量可以看作是人對(duì)QK向量的點(diǎn)乘,可以得出一個(gè)值,表示這V向量相乘,以表示事物在這和重要性,而各種模態(tài)的信息均可以通過一定方式轉(zhuǎn)化為一維長(zhǎng)序列,因而Transformer具備處理多模態(tài)問題的能力。LabMeta-Transformer12X光、紅外等。圖表18:Meta-Transformer模型能夠處理12種非成對(duì)的模態(tài)數(shù)據(jù)來源:《Meta-Transformer:AUnifiedFrameworkforMultimodalLearning》,Transformer2Sora,主要根據(jù)Diffusion(Diffusion)是一種圖DiT模型ransfrerpathesTransformer鳥瞰視圖)Transformer相結(jié)合,已經(jīng)成為目前自動(dòng)駕駛領(lǐng)域主流感知框架,并在眾多輔助駕駛產(chǎn)品中量產(chǎn)應(yīng)用。圖表擴(kuò)散模型示意圖 圖表20:DiffusionTransformer模型結(jié)構(gòu)來源:極市平臺(tái)公眾號(hào), 來源:《ScalableDiffusionModelswithTransformers》,基于結(jié)構(gòu)的探索持續(xù)推進(jìn),有望推動(dòng)骨干網(wǎng)絡(luò)升級(jí)。Transformer2017年發(fā)布后對(duì)深度學(xué)習(xí)領(lǐng)域產(chǎn)生顛覆性影響,學(xué)界在持續(xù)探索改Transformer的創(chuàng)新嘗試包括模塊Transformer架構(gòu)上做出改進(jìn),由此可以顯-π(7B)在多任務(wù)上超LLaMA210%的推理加速。圖表21:針對(duì)Transformer的創(chuàng)新研究持續(xù)推進(jìn)改進(jìn)維度相關(guān)論文改進(jìn)方法自注意力機(jī)制RethinkingAttention:ExploringShallowFeed-ForwardNeuralNetworksasanAttentionLayersinTransformersTransformer中注意力層的替代方案,通過消融FLattenTransformer:VisionTransformerusingFocusedLinearAttention使用聚焦線性注意力的視覺Transformer,該模塊適用于多種視覺轉(zhuǎn)換器,并在多個(gè)基準(zhǔn)測(cè)試中實(shí)現(xiàn)了性能提升Transformer架構(gòu)SimplifyingTransformerBlocks層,以簡(jiǎn)化結(jié)構(gòu)。在自回歸解碼器和BERT編碼器模型實(shí)驗(yàn)中,簡(jiǎn)化版Transformer15%TokenMerging:YourViTButFaster提出了令牌合并方法,使用準(zhǔn)確的匹配算法將相似標(biāo)記組合在一起,使得圖像和視頻吞吐量大幅提升,精度下降很小。EffcientLong-RangeTransformers:提出一種轉(zhuǎn)換器變體MASFormer,使用混合注意跨度來高效處理遠(yuǎn)程和短程依賴關(guān)系。在自然語(yǔ)言建模和生成任務(wù)中,MASFormer表現(xiàn)出與普通變壓器相當(dāng)?shù)男阅?,但?jì)算成本顯著降低(高達(dá)75%)YouNeedtoAttendMore,butNotNecessarilyatEveryLayer精度與效率平衡EfficientViT:MemoryEfficientVision提出了一種稱為Efficient的高速視覺Transformer,為了提高現(xiàn)有transformerTransformerwithCascadedGroupAttention來源:CDSN,

微調(diào)方法的改進(jìn)促進(jìn)模型性能和落地效率提升“基礎(chǔ)模型微調(diào)”已成為大模型開發(fā)范式,通過微調(diào)讓基礎(chǔ)模型針對(duì)特定任務(wù)類型、應(yīng)目前大模型的微調(diào)方法可以分為全量微調(diào)(FullFine-tuning)和參數(shù)高效微調(diào)(PEFT,Parameter-EfficientFine-Tuning)兩種:ChatGPT(InstructGPT)使模型輸出內(nèi)容237月,MetaLlama-2-chat圖表22:InstructGPT中的RLHF技術(shù)來源:《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,圖表23:Llama-2對(duì)RHLF的獎(jiǎng)勵(lì)模型進(jìn)行改進(jìn)來源:《Llama2:Openfoundationandfine-tunedchatmodels》,機(jī)器之心公眾號(hào),參數(shù)高效微調(diào):旨在通過最小化微調(diào)參數(shù)數(shù)量和計(jì)算復(fù)雜度,實(shí)現(xiàn)高效的遷移學(xué)習(xí)。PEFTLoRA、PrefixTuning、Prompt、Adapter等多種方LoRALoRA時(shí)可以節(jié)省33%GPU內(nèi)存。圖表24:針對(duì)Transformer架構(gòu)大模型的PEFT微調(diào)方法來源:CSDN,2.3.3使用MoE進(jìn)行任務(wù)分割,更高效地利用計(jì)算資源2種:1)使用稠密結(jié)構(gòu)的大模型在計(jì)算時(shí)需要激活整個(gè)GPT-3AI大模型中;2)稀疏結(jié)構(gòu)混合專家模型,通過將輸入數(shù)據(jù)根據(jù)任務(wù)類型分割成多個(gè)區(qū)域,圖表25:MoE結(jié)構(gòu)中只激活部分網(wǎng)絡(luò)來源:《OutrageouslyLargeNeuralNetwork》,訓(xùn)練挑戰(zhàn):化能力不足的問題,長(zhǎng)期以來易于引發(fā)過擬合現(xiàn)象。推理挑戰(zhàn):模型雖然可能擁有大量參數(shù),但在推理過程中只使用其中的一部分,如何商業(yè)落地:借力模型開源及B開源模型vs閉源模型?——Scaling不再work之后,找場(chǎng)景或優(yōu)于做模型本輪底層模型創(chuàng)業(yè)需求依賴資本密集的人才與算力持續(xù)投入。據(jù)BofAGLOBAL419~224年融資總額;2023426筆,同65.8%2023AI創(chuàng)業(yè)公大模型創(chuàng)業(yè)公司對(duì)人才、算力需求較大所致,變相說明模型創(chuàng)業(yè)相對(duì)資本密集,對(duì)于持續(xù)高額融資的需求較為旺盛。圖表26:2023年生成式AI融資額度與融資筆數(shù)快速提升0

4262542571601179916294321820125425716011799162943218

600%500%400%300%200%100%0%-100%生成式AI融資額度(億美元) 生成式AI融資筆數(shù)(筆)生成式AI融資額度YoY(右軸,%) 生成式AI融資筆數(shù)YoY(右軸,%)來源:BofAGLOBALRESEARCH,CBInsights,開源模型快速追趕閉源模型,開源模型性能優(yōu)化速度快于閉源模型。AI底層模型創(chuàng)業(yè)客觀上、依托投資人的持續(xù)投入,以支撐模型訓(xùn)練對(duì)于尖端人才與大規(guī)模算力的需求。(killerMaaS(ModelasaService,模型即服務(wù))公司都應(yīng)該自研大模型;另一方面,在國(guó)內(nèi)外眾多創(chuàng)業(yè)者投身底層模型研發(fā)的過程中,AI大模型第一梯隊(duì)的Law的世界中,開源模型遲早會(huì)追平(或無限接近)閉源模型性能不必重新造輪子,中長(zhǎng)期看找應(yīng)用場(chǎng)景優(yōu)于卷大模型。BofAGLOBALRESEARCH,目前開源模型性能優(yōu)化速度快于閉源模型,我們認(rèn)為,大模型紛紛進(jìn)軍萬(wàn)億參數(shù),且不遠(yuǎn)的將來大模型將逐步逼近十萬(wàn)億參數(shù)科技浪潮而言,找場(chǎng)景或優(yōu)于做模型。圖表27:開源模型性能改善速度快于閉源模型來源:BofAGLOBALRESEARCH,如何定義一個(gè)好場(chǎng)景?——“幻覺”尚未消除的世界,高人工替代率或?yàn)橹攸c(diǎn)廠商而言或?qū)⒊蔀楦鼉?yōu)的投入方向。結(jié)合我們上一篇AI行業(yè)研究報(bào)告——《AI應(yīng)用落地的商業(yè)模式探索》與本篇報(bào)告前述章節(jié)的討論,我們認(rèn)為AI落地場(chǎng)景大致可以分為5類:第一類-真實(shí)世界中基于具身智能的應(yīng)用場(chǎng)景。第二類-虛擬世界中場(chǎng)景更需要“生成”為主,且現(xiàn)階段可以替代人工的場(chǎng)景。第三類-虛擬世界中場(chǎng)景更需要“生成”為主,且現(xiàn)階段不可以替代人工的場(chǎng)景。第四類-虛擬世界中場(chǎng)景更需要“分析”為主,且容錯(cuò)率較低的場(chǎng)景。第五類-虛擬世界中場(chǎng)景更需要“分析”為主,且容錯(cuò)率較高的場(chǎng)景。已經(jīng)落地的場(chǎng)景往往對(duì)“幻覺”具備一定的容忍度。只有第二類和第五類場(chǎng)景是目前AI/插畫/音樂以及基于等多模態(tài)模型得到的短片。第五類場(chǎng)景例如或者Character.aiaucnatonI生成或反饋結(jié)果當(dāng)中存在的不符合常理的情況/圖像/音樂/視頻創(chuàng)作(錯(cuò)題生成也可以被視作文本創(chuàng)作的一部分偶爾出現(xiàn)不符合常理的反饋仍有一定的寬容度。圖表28:AGI演進(jìn)過程中的應(yīng)用場(chǎng)景分類來源:

(,因此天然對(duì)于“幻覺”的容忍度很低。的創(chuàng)意工作都已經(jīng)得到落地,但我們Sora的落地進(jìn)展。如何處理“幻覺”?——Scaling信仰派vs引入知識(shí)圖譜改良派在處理模型幻覺、進(jìn)而實(shí)現(xiàn)AGI的路徑方面,學(xué)界主要存在著兩派聲音——基于連接主義的“ScalingLaw信仰派”與基于符號(hào)主義的“引入知識(shí)圖譜改良派”:連接主義onnectons:又稱為神經(jīng)網(wǎng)絡(luò)或并行分布處理,是一種模仿人腦神(類似于神經(jīng)元(神經(jīng)元cangLaw符號(hào)主義ybos,也稱為邏輯主義或規(guī)則主義,是一種基于符號(hào)處理的人工則通過預(yù)設(shè)LeCun為代表的Meta、Google、Stanford模型沒有真正理解內(nèi)容。圖表29:連接主義VS符號(hào)主義來源:AI大模型有時(shí)會(huì)“很有信心”提供一些不準(zhǔn)確的信息。知AI大模型可以利用包括結(jié)構(gòu)大模型那大模型訓(xùn)練對(duì)大量標(biāo)記數(shù)據(jù)集的需求。圖表30:知識(shí)圖譜通過機(jī)器學(xué)習(xí)和自然語(yǔ)言處理來構(gòu)建節(jié)點(diǎn)、邊和標(biāo)簽的全面視圖來源:BofAGLOBALRESEARCH,投資建議EmergingAGIScalingLaw圖表31:大模型向AGI演進(jìn),模型訓(xùn)練產(chǎn)業(yè)鏈有望持續(xù)收益來源:大模型廠商:大模型上市公司包括科大訊飛、商湯等。其中科大訊飛于202351GPT-4Turbo234月發(fā)布日日新系列大模型,242月模型更V4.0128K語(yǔ)境窗口長(zhǎng)度,綜合整體評(píng)GPT-4。數(shù)據(jù)工程廠商及擁有豐富垂類數(shù)據(jù)的公司:海天瑞聲是我國(guó)語(yǔ)音類基礎(chǔ)數(shù)據(jù)服務(wù)領(lǐng)DOTS-LLM據(jù)積累的公司也有望收益。算力產(chǎn)業(yè)鏈:上游包括芯片和元器件,中游包括服務(wù)器和網(wǎng)絡(luò)設(shè)備,下游包括Plat-圖表32:算力產(chǎn)業(yè)圖譜來源:中國(guó)信通院,說明:途中藍(lán)色虛線方框內(nèi)為境外公司,紅色虛線方框內(nèi)為中國(guó)公司下游應(yīng)用廠商而言,選擇基于開源模型開發(fā),或者與海內(nèi)外頂級(jí)模型廠商進(jìn)行合圖表33:建議關(guān)注AI賦能細(xì)分場(chǎng)景的龍頭企業(yè)賦能行業(yè)受益公司基本情況AI+教育科大訊飛2356T20AI2023全周期銷售額同比增長(zhǎng)126%。競(jìng)業(yè)達(dá)助教、導(dǎo)師、數(shù)字老師等新型教育教學(xué)模式,助力教育教學(xué)全流程數(shù)字化轉(zhuǎn)型。世紀(jì)天鴻234242月已更新至4.0PPT大綱、思維導(dǎo)圖設(shè)計(jì)、教師評(píng)語(yǔ)編寫以及進(jìn)行中英互譯等多種應(yīng)用場(chǎng)景幫助老師提升工作效率。AI+企業(yè)服務(wù)泛微網(wǎng)絡(luò)e致遠(yuǎn)互聯(lián)239+包含工作智能助手、流程智能助手、智能領(lǐng)域應(yīng)用、低代碼搭建智能助手、企業(yè)級(jí)同智能應(yīng)用場(chǎng)景,助力企業(yè)提質(zhì)降本增效。用友網(wǎng)絡(luò)自然化的人機(jī)交互、智慧化的知識(shí)生成、語(yǔ)義化的應(yīng)用生成。金蝶國(guó)際OpenAI等通用大模型能力。綜合平衡企業(yè)算力成本、訓(xùn)練成本、模型能力、應(yīng)用價(jià)值等要素,設(shè)置百億級(jí)參數(shù),經(jīng)過專業(yè)訓(xùn)練和精調(diào)。AI+辦公金山辦公23WPS內(nèi)容創(chuàng)作Copilot(智慧助理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論