版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
Al
專題
·從模型視角看端側(cè)Al模型技術(shù)持續(xù)演進,交互體驗有望升級西南證券研究發(fā)展中心海外研究團隊2024年7月口基礎(chǔ)的構(gòu)建:模型實現(xiàn)高效壓縮是端側(cè)AI的第一步。模型尺寸變小、同時具備較好性能,是端側(cè)AI的前提。目前,在10B參數(shù)規(guī)模以下的模型中,7B尺寸占據(jù)主流,3B及以下小模型仍在探索,部分小模型性能正逐步接近更大參數(shù)模型,如谷歌Gemini-Nano
模型在部分測試基準上接近Gemini-
Pro、MetaLlama-3-8B模型表現(xiàn)可與Llama-2-70B匹敵。模型廠商為兼顧模型尺寸與性能,在算
法優(yōu)化上進行積極探索,在模型壓縮技術(shù)、稀疏注意力機制、多頭注意力變體等領(lǐng)域取得持續(xù)進展,
幫助模型減少參數(shù)、降低存算需求,同時保持較好的性能,為端側(cè)AI
奠定小模型的基礎(chǔ)??诼涞氐年P(guān)鍵:模型適配終端硬件是端側(cè)AI的第二步。小語言模型(SLM)不完全等于端側(cè)模型,在模型實現(xiàn)高效壓縮后,需要進一步與手機硬件進行適配,幫助小模型裝進終端。從眾多小模型論文
中可以發(fā)現(xiàn),當(dāng)前主要存在內(nèi)存、功耗、算力三大硬件瓶頸。其中,蘋果在其論文《LLM
in
aflash》中指出,70億半精度參數(shù)的語言模型,完全加載進終端需要超過14GB
的DRAM
空間;Meta在其MobileLLM
模型論文中指出,一個約有5000焦耳滿電能量的iPhone,僅支持7B模型在10
tokens/秒的AI生成速率下對話不足2小時。為解決以上問題,手機芯片廠商正加速推進AI芯片研發(fā),
在先進制程、內(nèi)存容量及帶寬、CPU
和GPU性能、以及AI服務(wù)器上發(fā)力,手機品牌商也將配備更高
性能的電池、散熱元器件,提升整體終端硬件能力,更好地支持AI模型?!躞w驗的突破:模型助力人機交互是端側(cè)AI的第三步。端側(cè)模型通常能夠支持用戶完成AI初級任務(wù),
然而更豐富、更深度的交互體驗需要UI模型、云端模型、以及系統(tǒng)級AI進行有力支撐。其中,UI模
型可以提供手機UI界面理解的基礎(chǔ),云端模型能夠幫助處理較為復(fù)雜的交互任務(wù),系統(tǒng)級AI可以實
現(xiàn)多種模型間的調(diào)用與協(xié)同。在AI時代下,模型的端側(cè)意義不止于類似ChatGPT的聊天機器人軟件
而在于賦能手機系統(tǒng)和應(yīng)用交互的系統(tǒng)級AI,
其帶來的交互體驗將成為影響用戶換機的核心。從當(dāng)前的海外合作陣營來看,可分為“蘋果+OpenAI”和“谷歌+高通+三星”兩大陣營。未來,隨著端側(cè)模型、配套硬件、AI系統(tǒng)的持續(xù)發(fā)展,終端市場有望呈現(xiàn)更多可能?!跸嚓P(guān)標(biāo)的:蘋果(AAPL.O)、三星電子(005930.KS)、高通(QCOM.O)、谷歌(GOOGL.O)等?!?/p>
風(fēng)險提示:端側(cè)AI技術(shù)進展不及預(yù)期風(fēng)險;行業(yè)競爭加劇風(fēng)險;應(yīng)用開發(fā)不及預(yù)期風(fēng)險等。WWW.SWSC.C
核心觀點
2落地的關(guān)鍵:模型適配終端硬件是端側(cè)AI的第二步
1基礎(chǔ)的構(gòu)建:模型實現(xiàn)高效壓縮是端側(cè)AI的第一步
3體驗的突破:模型助力人機交互是端側(cè)AI第三步3.2系統(tǒng)級AI:
云端模型補充交互體驗,系統(tǒng)升級支持更多AI場景2.1從小模型論文看端側(cè)硬件瓶頸:內(nèi)存/功耗/算力2.2從芯片廠商布局看硬件升級趨勢:制程/內(nèi)存/NPU/
電池/散熱3.1
UI模型:手機界面理解能力提升,任務(wù)設(shè)計為人機交互奠定基礎(chǔ)1.1十億級參數(shù)模型加速迭代,性能表現(xiàn)向百億參數(shù)模型靠攏1.2模型壓縮技術(shù)助力端側(cè)部署,注意力優(yōu)化機制降低存算需求目
錄WWW.SWSC.C2GoogleTPUv4,TPUv5eGemma-2基于Gemma-1
優(yōu)化模型具體細節(jié);Gemini-Nano
致力于在終端設(shè)備上運行;GQA
由谷歌創(chuàng)新提出MetaA100,H00Llama追求數(shù)據(jù)上的scalinglaw,
Llama-
3.1加入多模態(tài)/多語
言/長文本/實用工具
等能力;MobileLLM強調(diào)小模型的深度比寬度更重要MicrosoftA100,H100Phi-1專注于編碼;Phi-2
開始學(xué)習(xí)推
理
;Phi-3擅
長編碼和推
理;強調(diào)數(shù)據(jù)的小而精AppleA100,H100核心目標(biāo)在
于服務(wù)終端
設(shè)備及應(yīng)用Mistral算力租賃等歐
洲LLM領(lǐng)
先獨角獸
資料來源;谷歌,Meta,微軟,蘋果,Mistral,西南證券整理WWW.SWSC.C
3技術(shù)支持
技術(shù)支持模型
Gemma-2
Gemini-NanoLlama-3.1
MobileLLMPhi-3OpenELMMistral追求方向
追求方向?qū)⒛P痛笮嚎s至10B參數(shù)以下,性能向10B~100B級別參數(shù)的模型靠攏1模型實現(xiàn)高效壓縮是端側(cè)AI的第一步稀疏注意力機制:滑動窗口注意力機制、全局注意力機制等多頭注意力變體:分組查詢注意力機制、多頭
隱式注意力機制等公司訓(xùn)練GPU類型特點性能模型
模型壓縮:優(yōu)化
知識蒸餾、量技術(shù)
化、剪枝等海外小模型發(fā)展概況Flashattention等公司
模型名稱
發(fā)布日期
模型參數(shù)量(B)預(yù)訓(xùn)練數(shù)據(jù)量
(B
Tokens)預(yù)訓(xùn)練數(shù)據(jù)量與模型參數(shù)量的比值GPU型號
預(yù)訓(xùn)練耗時GoogleGemma-2-9B2024年6月27日980008894096張TPUv4/Gemma-2-2.6B訓(xùn)練中2.62000769512張TPUv5e/Gemma-1-7B2024年2月21日2024年2月21日760008574096張TPUv5e/Gemma-1-2B230001500512張TPUv5e/Gemini-Nano-3.25B2023年12月6日2023年12月6日3.25//TPUv5e
or
TPUv4/Gemini-Nano-1.8B1.8//TPUv5e
or
TPUv5/MetaLlama-3-8B2024年4月18日8150001875H1001300000小時Llama-2-7B2023年7月18日772000286A100184320小時Llama-1-7B2023年2月24日1000143A10082432小時MobileLLM-125M
2024年2月22日0.125250250200032張A100/MobileLLM-350M
2024年2月22日0.3571432張A100微軟Phi-3-small-7B2024年4月23日2024年4月23日74800686Phi-3系列模型中的Phi-3-medium(14B)模型在512塊H100上訓(xùn)練耗時42天Phi-3-mini-3.8B3.8
3300868Phi-22023年12月12日2.7140051996塊A10014天Phi-1.52023年9月11日1.31.330723A1001500小時Phi-12023年6月20日54塊A1004天蘋果OpenELM-0.27B2024年4月25日2024年4月25日2024年4月25日2024年4月25日0.270.4515001500150015005556128塊A1003天OpenELM-0.45B3333128塊H1003天OpenELM-1.08B1.081389128塊A10011天OpenELM-3.04B3.04493128塊H10013天□發(fā)展節(jié)奏:24
H1
小模型加速推出,Meta
Llama領(lǐng)先發(fā)布,微軟、谷歌相繼迭代,蘋果厚積薄發(fā)?!跄P蛥?shù):7
B模型占據(jù)主流;3B及以下小模型進一步探索,其中蘋果小模型梯隊分布明顯??谟?xùn)練數(shù)據(jù):Meta
在有限參數(shù)下追求數(shù)據(jù)量上的scalinglaw;微軟專注小而精的數(shù)據(jù)集;蘋果旗下小模型的訓(xùn)練數(shù)據(jù)量與參數(shù)量的比值不低?!?/p>
算力消耗:23年GPU大多采用A100,24
年主要采用H100;谷歌使用自研TPU;
創(chuàng)企選擇上云等。
資料來源
;
各公司官網(wǎng)
,
西南證券整理WWW.SwSC.Com.cn1.1小模型24H1
加速迭代,模型性能持續(xù)提升23H2
及24H1
海外小模型版本迭代情況4模型測試基準
Gemma-1-2.5B
Gemma-2-2.6B
Mistral-7B
LLaMA-3-8B
Gemma-1-7B
Gemma-2-9BMMLU5-shot42.351.3
62.566.664.471.3ARC-C25-shot48.555.460.559.261.168.468.6GSM8K5-shot15.123.939.645.745.951.8AGIEval3-5-shot24.230.644.044.952.8DROP3-shot,F148.552.063.858.456.369.468.2BBH3-shot,CoT35.241.956.061.159.0Winogrande5-shot66.870.978.576.179.080.681.9HellaSwag10-shot71.773.083.082.0
82.3MATH4-shot11.815.0
12.724.336.6ARC-e0-shot73.280.1
80.581.588.0PIQA0-shot77.377.882.281.281.7SIQA0-shot49.751.947.051.853.4Boolq0-shot69.472.583.283.2
84.2TriviaQA5-shot53.259.462.563.476.6NQ5-shot12.516.723.223.029.2HumanEvalpass@122.017.726.232.340.2MBPP3-shot29.2
29.640.244.452.41.1.1谷歌Gemma系列模型:基于第一代模型架構(gòu)對技術(shù)細節(jié)進行優(yōu)化□基于干張TPU集群訓(xùn)練,模型性能在同類中較為領(lǐng)先。1)Gemma-2-9B:在4096張TPUv4上進
行訓(xùn)練,在多數(shù)基準中得分超過Llama-3-8B和Mistral-7B等同類模型,MMLU5-shot、GSM8K
5-shot的測試得分相較于前一代模型Gemma-1-7B
分別有11%和32%的增長。2)
Gemma-2-2.6B:
在512張TPUv5e上進行訓(xùn)練,沿用第—代模型架構(gòu),對技術(shù)細節(jié)進一步優(yōu)化,Gemma-2-
2.6B模型較上—代Gemma-1-2.5B
模型在參數(shù)量基本不變和數(shù)據(jù)集更小的情況下實現(xiàn)更優(yōu)性能
MMLU
5-shot、GSM8K5-shot的測試得分相較于上一代模型分別有21%和58%的增長。
資料來源;谷歌,Meta,微軟,蘋果,西南證券整理WWW.SwSC.C谷歌Gemma系列模型性能情況5口專為設(shè)備部署而設(shè)計,擅長總結(jié)和閱讀理解。2023年12月6日,谷歌發(fā)布Gemini系列自研大模型,參數(shù)規(guī)模從大至小分別為Gemini-Ultra、Gemini-Pro、Gemini-Nano,其中Gemini-Nano
模型包
括兩種版本,Nano-1
參數(shù)規(guī)模為1.8B,Nano-2為3.25B,
旨在分別針對低內(nèi)存和高內(nèi)存的設(shè)備。Gemini-Nano-1和Nano-2模型與參數(shù)規(guī)模更大的Gemini-Pro模型對比來看:1)根據(jù)BoolQ
基準(主要用于衡量模型理解問題和回答問題的邏輯能力)得分,Gemini-Nano-1的準確率為71.6%
性能是Gemini-Pro的
8
1
%
,Gemini-Nano-2
的準確率為79.3%,是Gemini-Pro
的90%,更接近
Gemini-Pro的性能;2)TydiQA(GoldP)基準涉及回答復(fù)雜問題的能力,Gemini-Nano-1
和
Gemini-Nano-2
的準確率為68.9%和74.2%,分別是Gemini-Pro
的85%和91%,性能差距較小。>
Gemini-Nano-1
和Gemini-Nano-2
模型對比來看:隨著模型參數(shù)規(guī)模從Nano-1的1.8B增加至Nano-2的3.25B,
模型的性能表現(xiàn)在大多數(shù)任務(wù)性能均能得到提升。模型測試基準Gemini-Nano-1(1.8B)Gemini-Nano-2準確率(%)相對于Gemini
Pro的比例準確率(%)相對于Gemini
Pro的比例BoolQ71.681%79.390%TydiQA(GoldP)68.985%74.291%NaturalQuestions
(Retrieved)38.669%46.583%NaturalQuestions(Closed-book)18.843%24.856%BIG-Bench-Hard(3-shot)34.847%42.458%MBPP2033%27.245%MATH
(4-shot)13.541%22.870%MMLU
(5-shot)45.964%55.878%
資料來源
:
谷歌
,
西南證券整理WWw.SWSC.com.cn
61.1.2谷歌Gemini-Nano
系列模型:部分任務(wù)性能距Gemini
Pro較小谷歌Gemini-Nano
系列模型性能情況指標(biāo)Llama
3Llama
2模型階段類別基準Llama
370BLlama
38B
Llama
270B
Llama
27B預(yù)訓(xùn)練模型GeneralMMLU
(5-shot)79.566.669.745.7AGIEval
English
(3-5
shot)63.045.954.828.8CommonSenseQA
(7-shot)83.883.172.678.757.6Winogrande
(5-shot)76.181.873.3BIG-Bench
Hard
(3-shot,CoT)81.361.165.738.1ARC-Challenge
(25-shot)93.078.685.353.7Knowledge
reasoningTriviaQA-Wiki
(5-shot)89.778.587.572.172.2Reading
comprehensiveSQuAD(1-shot)85.676.4
826QuAC
(1-shot,F1)51.144.449.439.6BoolQ
(0-shot)79.079.775.773.165.5DROP
(3-shot,F1)58.470.237.9指令微調(diào)模型多任務(wù)語言理解推理MMLU
(5-shot)82.068.452.934.1專業(yè)知識推理能力GPQA(0-shot)39.534.221.021.7代碼生成能力HumanEval
(0-shot)81.762.225.67.9數(shù)學(xué)(小學(xué)數(shù)學(xué)問題)GSM-8K
(8-shot,CoT)93.079.657.525.7數(shù)學(xué)(數(shù)學(xué)工具和函數(shù))MATH
(4-shot,CoT)50.430.0
11.6
3.8□同等參數(shù)情況下性能大幅提升,較小模型可以通過擴大訓(xùn)練數(shù)據(jù)量實現(xiàn)優(yōu)秀性能。1)對比同等參數(shù)模型來看,Llama-3
的
8B和70B模型相對于Llama-2
的7B和70B模型性能均得到大幅提升。2
)
對
比Lama-3-8B
和Lama-2-70B
來看,在算力消耗基本持平的情況下,更好的模型性能可以通過在
更大規(guī)模的數(shù)據(jù)集上訓(xùn)練實現(xiàn),Llama-3-8B模型的參數(shù)量約為Llama-2-70B的1/9,但訓(xùn)練數(shù)據(jù)集
是其7.5倍,最終的模型效果基本可與70B的模型相匹敵,且經(jīng)過指令微調(diào)后,指令微調(diào)模型Llama-
3-8B
明顯超過Llama270B。
資料來源
:
Meta
,
西南證券整理WWW.SWSC.Com.cn1.1.3MetaLlama系列模型:在有限參數(shù)下追求數(shù)據(jù)上的scaling
lawMeta
Llama系列模型性能情況7125M
350MARC-e0-shot43.9
44.041.3
40.753.841.9ARC-c0-shot27.1
26.225.224.833.525.7BoolQ0-shot60.254.955.4575
61.362.454.0PIQA0-shot65.362.0
62.568.664.8SIQA0-shot42.438.941.9
41.944.742.6HellaSwag0-shot38.939.529.631.1
29.749.636.2OBQA0-shot28.231.2
31.640.033.3WinoGrande0-shot53.149.650.8
50.757.652.4RACEAcc,middle39.734.7
34.745.637.1RACEAcc,high28.927.5
27.033.828.0TQAF1
score,1-shot13.914.38.78.022.011.0TQAF1
score,5-shot9.6
7.923.912.3TQAF1
score,64-shot12.58.2
5.024.210.41.1.4
Meta
MobileLLM系列模型:強調(diào)小模型的深度比寬度更重要□模型參數(shù)進一步縮小,模型架構(gòu)追求深而窄。MobileLLM的模型參數(shù)僅為1.25億和3.5億,其技術(shù)報告聚焦干少干10億參數(shù)的sub-billion(<1B)模型,強調(diào)模型架構(gòu)對小模型的重要性,認為模型
深度比寬度更重要,并引入分組查詢注意力機制等優(yōu)化技巧,相較于同類125M/350M大小模型的
基準測試得分相比,MobileLLM
的平均分均有提高。1)Zero-Shot常識推理任務(wù)方面:在125M
參數(shù)量級下,MobileLLM的模型性能顯著優(yōu)于OPT、GPT-Neo、Calaclafa等其他模型;在350M
參數(shù)量級下,MobileLLM
的各項測試得分均優(yōu)于此前最先進的模型OPT-350M。2)
問答和閱讀理
解任務(wù)方面:根據(jù)在TQA問答的
benchmark
和
RACE閱讀理解的
benchmark
的測評結(jié)果MobileLLM-125M
和MobileLLM-350M
模型的精度比同等量級的小模型要高出較多。
資料來源:
Meta,
西南證券整理WWW.SwSC.C模型測試基準
MobileLLM-
Galactica-125M
OPT
125M
G
PT-neo-125M
MobileLLM-
OPT-350MMeta
MobileLLM系列模型性能情況8模型測試基準
Phi-3-mini-3.8b
Phi-3-small-7b
Phi-2-2.7b
Mistral-7b
Gemma-1-7b
Llama-3-In
8bMMLU5-Shot
HBK*21
68.875.756.361.763.666.5HellaSwag5-Shot
ZHB*1976.777.053.658.549.871.1ANLI7-Shot
NWD*2052.858.142.547.146.448.757.3GSM-8K8-Shot,CoT
CKB*2182.589.661.159.877.4MedQA2-Shot
JPO*2053.865.440.950.0
49.660.5AGIEval0-Shot
ZCG*2337.545.129.835.142.142.0TriviaQA5-Shot
JCWZ1764.058.145.275.272.367.7Arc-C10-Shot
CCE*1884.990.775.978.678.382.8Arc-E10-Shot
CCE*1894.697.088.590.6
91.493.4PIQA5-Shot
BZGC1984.286.960.277.7
78.175.7SociQA5-Shot
BZGC1976.679.279.168.374.665.573.9BigBench-Hard3-Shot,CoT
SRR*22
SSS*2271.759.457.359.651.5WinoGrande5-Shot
SLBBC1970.881.554.754.255.665.0OpenBookQA10-Shot
MCKS1883.288.073.679.878.682.680.9BoolQ2-Shot
CLC*1977.284.872.272.666.0CommonSenseQA10-Shot
THLB1980.280.069.376.279.0TruthfulQA10-Shot,MC2
LHE2265.070.253.052.163.2HumanEval0-Shot
CTJ*2158.561.059.028.034.160.4MBPP3-Shot
AON*2170.071.760.650.8
51.567.71.1.5微軟Phi系列模型:主要創(chuàng)新在于構(gòu)建教科書質(zhì)量的訓(xùn)練數(shù)據(jù)集□訓(xùn)練數(shù)據(jù)追求小而精,模型參數(shù)逐步擴大。2023年6月,微軟發(fā)布論文《TextbooksAreAllYou
Need》,
用規(guī)模僅為7B
tokens的“教科書質(zhì)量”的數(shù)據(jù)集,訓(xùn)練出1.3B參數(shù)、性能良好的Phi-1
模型。此后,歷代Phi模型沿用“TextbooksAreAllYouNeed”的訓(xùn)練思想,進一步使用精挑細
選的高質(zhì)量內(nèi)容和過濾的Web數(shù)據(jù)來增強訓(xùn)練語料庫,以提升模型性能。在最新迭代的模型中,
Phi-3-mini-3.8B通過3.3Ttokens的訓(xùn)練,在學(xué)術(shù)基準和內(nèi)部測試上可與經(jīng)過15Ttokens訓(xùn)練的
Llama-3-In-8B模型相匹敵。
資料來源
:
微軟
,
西南證券整理WWW.SwSC.C微軟Phi系列模型性能情況9模型測試基準MMLU
5-shotOpenELM-MobiLlama-OpenELM-MobiLlama-MobiLlama-OLMo-1.18B26.16OpenELM-1.08B27.05OpenELM-3.04B26.760.28B25.720.50B26.090.45B26.010.80B25.21.26B23.87ARC-C25-shot27.6529.52
30.230.6334.6434.4736.6942.24CrowS-Pairs25-shot66.7965.47
68.63
66.2570.2469.9571.7473.29HellaSwag10-shot52.75
53.86
54.1763.2763.8165.7173.28PIQA0-shot69.75
71.11
72.31
73.1874.8175.1475.5778.24SciQ0-shot84.7
83.6
87.2
85.989.18790.692.7WinoGrande5-shot53.83
56.2757.2256.3560.7760.4663.2267.25ARC-e0-shot45.0846.04
48.06
49.6256.6557.2855.4359.89BoolQ0-shot53.9855.72
55.7860.3461.7463.5867.4RACE0-shot30.9132.15
33.11
33.6835.0236.7536.4638.76TruthfulQA0-shot39.2437.55
40.18
38.4135.1932.9436.9834.98TruthfulQA-mc20-shot39.2437.55
40.18
38.4135.1932.9436.9834.98□
致力于服務(wù)終端設(shè)備,模型性能整體表現(xiàn)出色。OpenELM
的模型參數(shù)包括2700萬、4500萬、11億和30億四種大小,相較于市場主流的70億參數(shù)模型,更加輕巧精悍,致力于讓主流筆記本電腦和
部分高性能智能手機也能承載和運行高性能模型。根據(jù)官方信息,OpenELM在同類模型表現(xiàn)較好>
OpenELM-1.08B:在使用較少預(yù)訓(xùn)練數(shù)據(jù)(僅為艾倫人工智能研究所AI2Labs推出的先進開源模型
—OLMo-1.18B
模型的1/2)的情況下,性能超越OLMo,
提升幅度達2.36%。OpenELM-3B:
在衡量知識推理能力的ARC-C基準上,準確率為42.24%;在MMLU
和HellaSwag兩項基準測試中,得分分別為26.76%和73.28%,首批試用者反饋OpenELM
模型表現(xiàn)穩(wěn)定且一致性高,不易產(chǎn)生過于激進或不當(dāng)內(nèi)容的輸出。
資
料
來
源
:
蘋
果
,
西
南
證
券
整
理WWW.SWSC.Com.cn
101.1.6蘋果OpenELM
系列模型:核心目標(biāo)在于服務(wù)終端設(shè)備及應(yīng)用蘋果OpenELM系列小模型性能情況47.1560.03公司
模型名稱
發(fā)布日期是否進行模型壓縮?量化/剪枝/知識蒸餾是否采用稀疏注意力機制?是否采用FlashAttention
?是否采用
支持的上下文長度多頭注意力變體?
(tokens)GoogleGemma-2-9B2024年6月27日知識蒸餾
滑動窗口&全局注意力√
GQA8,192Gemma-2-2.6B訓(xùn)練中/滑動窗口&全局注意力
√GQA8,192Gemma-1-7B2024年2月21日//√√MHA8,192Gemma-1-2B2024年2月21日
//MQAMQAMQA8,192Gemini-Nano-3.25B2023年12月6日
2023年12月6日量化、知識蒸餾量化、知識蒸餾///Gemini-Nano-1.8B///MetaLlama-3-8B2024年4月18日///GQAGQA8,192Llama-2-7B2023年7月18日知識蒸餾//4,096Llama-1-7B2023年2月24日///MHA2,048MobileLLM-125M
2024年2月22日量化、知識蒸餾量化、知識蒸餾//GQAGQA/MobileLLM-350M
2024年2月22日///微軟Phi-3-small-7B2024年4月23日2024年4月23日/局部塊注意力
√
GQA8,192Phi-3-mini-3.8B量化/√
GQA4,096Phi-22023年12月12日//√√√MHAMHAMHA2,048Phi-1.52023年9月11日//2,048Phi-12023年6月20日//2,048蘋果OpenELM-0.27B2024年4月25日
2024年4月25日2024年4月25日2024年4月25日量化、知識蒸餾量化、知識蒸餾量化、知識蒸餾量化、知識蒸餾/√√√√GQAGQAGQAGQA2,048OpenELM-0.45B/2,048OpenELM-1.08B/2,048OpenELM-3.04B/2,048□為壓縮模型大小、在保持較小模型尺寸的同時實現(xiàn)高性能、以及能夠支持較長的上下文,各海外模型廠商紛紛布局小模型,并在模型算法優(yōu)化方面進行積極探索,于24H1
呈現(xiàn)出多種技術(shù)創(chuàng)新方向,
主要集中在模型壓縮技術(shù),稀疏注意力機制、多頭注意力變體三大領(lǐng)域。
資料來源;谷歌,Meta,微軟,蘋果,西南證券整理WWW.SWSC.Com.cn
111.2模型架構(gòu)持續(xù)優(yōu)化,壓縮技術(shù)不斷創(chuàng)新海外小模型架構(gòu)優(yōu)化及技術(shù)創(chuàng)新方向□模型壓縮技術(shù)持續(xù)發(fā)展,助力端側(cè)部署。模型壓縮技術(shù)旨在保持模型基本性能的情況下降低對推理算力的需求,主要包括三種方法:1)參數(shù)剪枝(Pruning)
:
刪除部分權(quán)重參數(shù)、去除神經(jīng)網(wǎng)絡(luò)
中的冗余通道、神經(jīng)元節(jié)點等;2)參數(shù)量化(Quantization
):
將浮點計算轉(zhuǎn)成低比特定點計算
業(yè)內(nèi)應(yīng)用普遍;3)知識蒸餾(Knowledge
Distilling):
將大模型作為教師模型,用其輸出訓(xùn)練
出一個性能接近、結(jié)構(gòu)更簡單的學(xué)生模型,由GeoffreyHinton等人在2015年谷歌論文《Distilling
theKnowledge
in
aNeural
Network》中提出
,目前關(guān)注較高,業(yè)內(nèi)通常使用GPT-4和Claude-3
作為教師模型。
模型壓縮的三種方法:剪枝/量化/知識蒸餾Requantization
Outputint8個int32ActivationTint32AccumulatorBiasesint32Input
Conv
Weightsint8
int8Quantizer
OutputActivationAccumulator
BiasesInput→ConvQuantizer十
Weights
資料來源:英偉達官網(wǎng),《A
White
Paperon
Neura/NetworkQuantization》,《Knowledge
Distilltion:ASurvey》,西南證券整理121.2.1模型壓縮技術(shù):參數(shù)量化運用廣泛,知識蒸餾熱點較高4個輸入/3個神經(jīng)元/2個輸出/18條網(wǎng)絡(luò)連接PruningDistillKnowledgeTransfer4個輸入/2個神經(jīng)元/2個輸出/12條網(wǎng)絡(luò)連接WWW.SWSC.C教
師
模
型學(xué)
生模型剪
枝
后剪枝前1.2.1模型壓縮技術(shù):參數(shù)量化運用廣泛,知識蒸餾熱點較高口蘋果OpenELM模型:模型微調(diào)引入量化和知識蒸餾技術(shù),提高模型泛化能力,幫助模型實現(xiàn)必要性能。根據(jù)2024年6月10日蘋果發(fā)布的研究成果:>
1)參數(shù)量化:對于設(shè)備端推理,為保持模型質(zhì)量,蘋果采用混合2-bit和4-bit的配置策略,平均參數(shù)量化至3.5-bit,以實現(xiàn)與未壓縮模型相同的準確性。>
2)知識蒸餾:蘋果結(jié)合拒絕采樣和知識蒸餾等多種技術(shù),創(chuàng)新模型微調(diào)方法——a
rejection
sampling
fine-tuning
algorithm
with
teacher
committee,其中
,Teacher
Committee(教師
委員會)是指使用多個教師模型來指導(dǎo)學(xué)生模型的學(xué)習(xí),每個教師模型可能具有不同的優(yōu)勢和專業(yè)
領(lǐng)域,通過綜合多個教師模型的知識,提供更全面、準確的指導(dǎo),幫助學(xué)生模型更好地學(xué)習(xí)。■Instruction-levelAccuracy■Prompt-levelAccuracy
■
Summarization■CompositionWWW.SwSC.C
Apple
on-Phi-3-mini
Mistral-7B
Gemma-7B
Gemma-2Bdevice蘋果端側(cè)模型在指令遵循測評上得分更高蘋果端側(cè)模型在指寫作測評上得分更高資料來源:蘋果,西南證券整理
資料來源:蘋果,西南證券整理device131.2.1模型壓縮技術(shù):參數(shù)量化運用廣泛,知識蒸餾熱點較高□Meta
MobileLLM模型:采用量化和知識蒸餾技術(shù),模型壓縮后性能差距較小。根據(jù)2024年6月27日Meta發(fā)布的MobileLLM
模型技術(shù)報告:>
1)參數(shù)量化:模型參數(shù)量化的消融實驗分別對全精度BF16和量化后的W8A8(8
位權(quán)重、8位激活)
模型進行零樣本常識推理任務(wù)測試,根據(jù)實驗結(jié)果,量化后的模型效果相較于全精度BF16的模型,性能差距均在0.5以內(nèi),模型經(jīng)過量化壓縮后性能損失較小。2)知識蒸餾:在知識蒸餾的消融實驗中,Meta將LLaMA-v2-7B作為教師模型,使用來自大型預(yù)訓(xùn)練教師模型(即LLaMA-v2-7B)
和
學(xué)生模型(MobileLLM-125M和350M模型)loaits之間的交叉
熵計算知識蒸餾損失(KDloss),再集成至小模型的預(yù)訓(xùn)練過程中。根據(jù)實驗結(jié)果,MobileLLM-
125M和350M模型經(jīng)過教師模型的知識蒸餾后,性能誤差分別分別僅為0.1和0.3。消融研究
模型
精度
ARC-e
ARC-c
BoolQ
PIQA
SIQA
HellaSwag
OBQA
WinoGrande
Avg
Gap量化MobileLLM-125MBF16
45.527.727.158.358.364.665.041.941.736.436.235.433.650.451.045.0MobileLLM-125MW8A845.244.8
0.2MobileLLM-LS-125MBF1644.444.027.027.561.560.965.164.643.043.137.637.737.837.752.051.046.1MobileLLM-LS-125MW8A845.8
0.3MobileLLM-350MBF1651.451.431.332.161.061.168.168.843.643.147.247.141.640.655.455.149.9MobileLLM-350MW8A849.90.0MobileLLM-LS-350MBFI651.951.335.233.859.659.568.969.143.443.747.247.243.343.058.457.051.0MobileLLM-LS-350MW8A850.6
0.4知識蒸餾125M
modelLabel43.128.928.558.158.562.361.642.341.134.634.531.550.143.9125M
model
Label+KD41.832.751.643.8
0.1350M
modelLabel50.231.831.856.967.767.444.345.845.940.855.549.1350M
model
Label+KD
48.760.743.238.953.748.80.3資料來源:Meta,西南證券整理WWW.SwSC.Co
14Meta
MobileLLM模型關(guān)于參數(shù)量化和知識蒸餾的消融研究口谷歌Gemini-Nano
模型:知識蒸餾+量化壓縮。Nano的1.8B和3.25B模型由更大的Gemini
模型知
識蒸餾訓(xùn)練而來,并將其量化至4-bit,以便在低內(nèi)存和高內(nèi)存的設(shè)備上部署運行。口谷歌Gemma-2
模型:通過大模型壓縮蒸餾出一個小模型,再用數(shù)據(jù)去訓(xùn)練,比從頭訓(xùn)練小模型的效果更好。根據(jù)谷歌技術(shù)報告,Gemma-2的9B和2.6B模型在訓(xùn)練策略上均采用知識蒸餾技術(shù),使
模型能夠在相同訓(xùn)練數(shù)據(jù)體量下達到更好的效果。根據(jù)消融實驗,基于500Btokens的訓(xùn)練數(shù)據(jù)集,
由7B模型知識蒸餾后的2.6B模型,相較于一個從零開始訓(xùn)練的2.6B模型,三項基準測試均分更高?!?/p>
微軟Phi-3
模型:量化壓縮。微軟將Phi-3-mini
模型量化至4-bit
,內(nèi)存占用約為1.8GB,根據(jù)其端側(cè)部署測試,該模型可在帶有蘋果A16
仿生芯片的iPhone14上以原生方式運行并完全離線。Phi-3-mini-4k-instruct-q4
⑤-3-mini-4k-instruct-q4
⑤③Phi-3-mini-4k-instruct-q4at
are11yr
old
kidNritea
tite
for
the
paper
where
eachletterstarts
withpovwhispers
soft,a
riddle's
danceCryptic
rhymes
in
convoluted
stanceguetwister's
treacherous
lureMelodtangled,hearts
unsureThroughsyllablesthatslylytangleand
knot,Echoing
chorusesofa
labyrinthicthought,With
pitchesso
high
they
baffle
the
earlengetovoC
rontierFor
in
poemwherewordsentaticsongthatdares
not
alignTo
sing
lead
one
dowbigger
oneHerearesomemust-doactivities
in
the
Houston,TXathatwillbeenjoyablefor
a
11-year
old1.SpaceCenter
Houston:This
isanamazingspaTitle:"Pinnacle
Potential:Powering
Progressives-on
experiences
related
toastronautics,rought
back
from
ApollThis
title
encapsulates
the
essence
of
apaper
focusedan
advanced,small-scale
language
model
exhibitingpredictive
capabilities.Byusingeachlettertostartsuccessive
words
and
highlighting
itssuperior
potential("Pinnacle
Potential"),it
emphasizeskthroughnatureofsuchtechnologycomptolargermodels("Powering
Progressive
Paradigms").e
inclusion
of"with
Pristine
Predictiveres
the
e
prediction
abilitymodel
apart1.2.1模型壓縮技術(shù):參數(shù)量化運用廣泛,知識蒸餾熱點較高Gemma-2-2.6B知識蒸餾后三項測試均分更高Phi-3-mini量化后在A16
仿生芯片iPhone
上運行資料來源:谷歌,西南證券整理
資料來源
:
微軟
,
西南證券整理from
scratch
distilled(7B)WWW.SWSC.Com.cnvery
small
anguage
model
that
is
moreProwess"that
sets
thittleprogram
displaysiveexh
bitsanc15輸入高通驍龍峰會在第二次請求高通驍龍峰會在十高通驍龍峰會在十月KV
Cache高通驍龍峰會在十月舉第n次請求...□KV
cache:通過緩存中間計算結(jié)果,以“內(nèi)存空間”換“計算時間”。當(dāng)前,主流的大語言模型
基本采用Transformer
decoder-only架構(gòu),其推理過程主要包括預(yù)填充和解碼階段。1)預(yù)填充階
段
:根據(jù)用戶提出的prompt,
生成第一個token;2)解碼階段:在生成第一個token
之后,開始
采用自回歸方式逐個生成后續(xù)的token,每個token的生成均需要依賴并attention此前的token
因此,隨著解碼過程的進行,需要向此前生成的token的關(guān)注會越來越多,計算量也逐漸增大。□
為減少解碼過程中的重復(fù)計算,可以通過引入KV
Cache,即緩存中間結(jié)果、在后續(xù)計算中直接從
Cache中讀取而非重新計算,從而實現(xiàn)“以空間換時間”,使顯存占用增加、但計算需求減少。新輸入
輸出KV
Cache
新
輸
入
輸
出1.2.2多頭注意力變體:減少注意力頭數(shù)量,降低內(nèi)存占用LLM
在多輪對話場景中引入KV
CacheLLM自回歸推理過程示意圖
資料來源:西南證券
資料來源:大模型生態(tài)圈,
西南證券整理KV
Cache第三次請求第一次請求輸入
輸出十
月
舉
行自
回歸推
理預(yù)填充
階段WWW.SWSC.Com.cn解碼階段輸出161.2.2多頭注意力變體:減少注意力頭數(shù)量,降低內(nèi)存占用□為平衡模型性能與存算成本,產(chǎn)生多種注意力變體。對比各注意力變體的特征來看:①
多頭注意力機制(
MHA)
:1個Que
ry
Head
對應(yīng)1個KV
Head,模型效果更好,但隨著模型參數(shù)
增長、以及更長的上下文,會形成過大的KV
cache,從而帶來明顯的訪存瓶頸。②
多查詢注意力機制(MQA):
只保留一個KVHead,通過多個QueryHeads共享相同的KVHead,
使模型內(nèi)存占用減少、推理速度更快,但是性能損失較大。③
分組查詢注意力機制(GQA)
:
將Query
Heads進行分組,每組Query
Heads對應(yīng)一個KVHead,
介于MHA
和MQA
之間,由多個Query
共享一組KV,
在減少內(nèi)存占用的同時,提升數(shù)據(jù)處理速度,保持模型處理下游任務(wù)的性能。④
多頭隱式注意力機制(MLA):
將
KV值壓縮至低維空間,減少模型推理的內(nèi)存占用和計算需求。LLM
推理中有關(guān)KV
Cache的注意力機制及改進
I
Cached
During
InferenceMulti-Head
Attention(MHA)
Grouuped-Query
Attention(GQA)Multi-Query
Attention
(MQA)
Multi-Head
LatentAttention
(MLA)ValprojectionKeysCompressed
Latent
KVQueries資料來源:《DeepSeek-V2:A
Strong,Economical,and
Efficient
Mixture-of-ExpertsLanguage
Model》,西南證券整理WwW.SWSC.com.cn17□GQA由谷歌率先提出,成為當(dāng)前主流注意力變體。GQA
技術(shù)由Google
Research團隊于2023年12
月提出,根據(jù)論文《GQA:TrainingGeneralizedMulti-QueryTransformerModelsfromMulti-
Head
Checkpoints》中關(guān)于各種注意力變體的表現(xiàn)來看,MHA基準測試均分最高、但推理耗時較
長
,MQA
推理時間最短,但模型性能略差,而GQA
能夠平衡模型性能和推理速度,在較短的推理
時間內(nèi)取得較好的表現(xiàn)性能。從模型當(dāng)前采用程度來看,截至24H1,GQA
僅提出約半年時間,便
在主流小模型中得到廣泛采用,谷歌的Gemma-2,
微軟的Phi-3、Meta的Llama-3和MobileLLM
模型、蘋果的端側(cè)模型OpenELM,以及法國創(chuàng)企Mistral-7B更新版本均采用分組查詢注意力機制。公司模型名稱發(fā)布日期注意力機制(Attention
variant)GoogleGemma-2-9B2024年6月27日GQAGQAGQAGQAGQAGQAGemma-2-2.6B訓(xùn)練中MetaLlama-3-8B2024年4月18日Llama-2-7B2023年7月18日MobileLLM-125M2024年2月22日MobileLLM-350M
2024年2月22日微軟Phi-3-small-7B2024年4月23日2024年4月23日GQAGQAGQAGQAGQAGQAPhi-3-mini-3.8B蘋果OpenELM-0.27B2024年4月25日2024年4月25日2024年4月25日2024年4月25日OpenELM-0.45BOpenELM-1.08BOpenELM-3.04BMistralMistral-7B-v0.32024年5月22日GQAGQAMistral-7B-v0.22024年3月24日資料來源:《GQA:Training
Generalized
Multi-Query
TransformerModels
from
Multi-HeadCheckpoints》,
資料來源:各公司官網(wǎng),西南證券整理
西南證券整WWW.SwSC.ComCn1.2.2多頭注意力變體:減少注意力頭數(shù)量,降低內(nèi)存占用MHA、GQA、MQA對比采用GQA
技術(shù)的主流小模型平均基準測試得分推理時間(s)181.2.3稀疏注意力機制:選擇性處理信息,降低計算需求□稀疏注意力(Sparse
Attention)機制:選取一部分信息進行交互,節(jié)省注意力機制成本。在當(dāng)前主流模型架構(gòu)Transformer
中,注意力矩陣可以通過限制Query-Key
對的數(shù)量來減少計算復(fù)雜度,即
將注意力機制稀疏化。稀疏注意力機制主要采用基于位置信息和基于內(nèi)容的稀疏化方法,其中,基
于位置信息的稀疏注意力方法更加主流,主要包括全局/帶狀/膨脹/隨機/局部塊五種類型。近年來
隨著大語言模型的加速發(fā)展,計算和存儲壓力增大,使得稀疏注意力機制不斷優(yōu)化,逐步衍生出基
于以上稀疏注意力機制的復(fù)合模式,涌現(xiàn)出Longformer
等稀疏注意力模型。k,
k;kj
k;k;qi
qiqi
qi
qiGlobal
Attention
(BandAttention)(Dilated
Attention)(RandomAttention)加入全局節(jié)點以增
限制Query只與相鄰
通過增加空隙以獲
通過隨機采樣,提升強長距離依賴關(guān)系
節(jié)點進行交互
取更大的感受野
非局部的交互全局注意力
帶狀注意力
膨脹注意力
隨機注意力
局部塊注意力基于位置信息的注意力機制稀疏化方法(Block
Attention)使用多個不重疊的
塊來限制信息交互資料來源:《大規(guī)模語言模型:從理論到實踐》,西南證券整理WWW.SWSC.Com.cn19口滑動窗口注意力(Sliding
ow
Attention-SWA)
機制:關(guān)注臨近位置信息,簡化計算步驟。1)Mistral-7B:創(chuàng)新使用SWA機制,解決長文本問題。SWA作為一種稀疏注意力機制,在輸入序
列中的每個token
周圍使用一個固定大小的窗口,其計算復(fù)雜度為O(s×w)
(
其
中s是輸入序列的長度,
w
是固定的窗口大小,且w<s),
相較于計算復(fù)雜度為O(s×s)的完全自注意力機制,會更加高效。在長文本情況下,一般相鄰tokens
的相關(guān)性更大,因此,在文本生成時并不需要對所有tokens
計算注意力值,只需計算每個token
前的n個tokens
的注意力值,從而在更長的上下文情況下不增加KVCache
緩存的大小。2)Gemma-2:
交替使用局部滑動窗口和全局注意力,捕捉細節(jié)的同時保證全
局理解。Gemma-2
在架構(gòu)上基本沿用第一代模型設(shè)計,在注意力機制上進行細節(jié)優(yōu)化,實現(xiàn)局部
滑動窗口和全局注意力的交替使用,其中,滑動窗口大小設(shè)置為4096tokens,
而全局注意力窗口
為8192
tokens,滑動窗口注意力機制可以確保模型能夠精確捕捉文本細節(jié),全局注意力機制有助
于保持模型對上下文的正確理解。The
cat
sat
on
the100001
1
0
0
0111001
111
01
1
1VanillaAttentionThe
cat
sat
onthe1
0
0
0
01
1
0
0
01
11
00
111
00
0
1SlidingWindowAttentionEffectiveContext
Length1.2.3稀疏注意力機制:選擇性處理信息,降低計算需求Gemma-2:
調(diào)整滑動窗口大小對困惑度影響較小Mistral-7B:
采用SWA機制解決長文本問題資料來源:Mistral《Mistral7B》,
西南證券整理
資料來源:谷歌,西南證券整理滑動窗口注意力機制Thecat
satontheperplexityWWW.SWSC.Com.cnSlidingow20
2落地的關(guān)鍵:模型適配終端硬件是端側(cè)AI的第二步
1基礎(chǔ)的構(gòu)建:模型實現(xiàn)高效壓縮是端側(cè)AI的第一步
3體驗的突破:模型助力人機交互是端側(cè)AI第三步1.1十億級參數(shù)模型加速迭代,性能表現(xiàn)向百億參數(shù)模型靠攏3.2系統(tǒng)級AI:
云端模型補充交互體驗,系統(tǒng)升級支持更多AI場景3.1
UI模型:手機界面理解能力提升,任務(wù)設(shè)計為人機交互奠定基礎(chǔ)2.2從芯片廠商布局看硬件升級趨勢:制程/內(nèi)存/NPU/
電池/散熱2.1從小模型論文看端側(cè)硬件瓶頸:內(nèi)存/功耗/算力1.2模型壓縮技術(shù)助力端側(cè)部署,注意力優(yōu)化機制降低存算需求目
錄WWW.SwSC.C21硬件瓶頸
硬件瓶頸先進制程
最大顯存最大內(nèi)存最大帶寬
L2-Cache
L3-Cache
AI算力
TDP手機終端硬件發(fā)展概況Meta
MobileLLM論文指出:一個約有5000焦耳滿電能量的iPhone,可支持7B模型在10
tokens/秒的
AI生成速率下進行對話不到2小時■■■硬件升級廠
硬件升級一■蘋果論文《LLM
in
a
flash》指出:7B參數(shù)、半精度的
LLM,
完全加載進終端所
需
的DRAM空間超過1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大班保育工作計劃大班保育秋季工作計劃
- 七年級下冊地理教學(xué)工作計劃
- 大班綜合科教學(xué)計劃
- 2025外科護士長2月份工作計劃
- 2025年度第一學(xué)期綜合教研組工作計劃
- 中小學(xué)教師職業(yè)道德個人總結(jié)工作計劃
- 公司員工銷售培訓(xùn)工作計劃
- 九年級英語教學(xué)計劃范本
- 七年級上冊人教版數(shù)學(xué)教學(xué)計劃從算式到方程
- 《城鎮(zhèn)土地價格》課件
- 管道爬壁機器人設(shè)計說明書
- 《大學(xué)英語跨文化交際》課程教案
- 新員工職業(yè)素養(yǎng)培訓(xùn)
- 二年級安全教育期末測試題
- 2022電大《建筑材料(A)》期末試題及答案
- 團隊合作能力和創(chuàng)新團隊建設(shè)試題100分標(biāo)準答案
- 22秋中傳媒《傳播學(xué)概論》作業(yè)考核答卷
- 商務(wù)英語視聽說知到章節(jié)答案智慧樹2023年山東外國語職業(yè)技術(shù)大學(xué)
- C++程序設(shè)計智慧樹知到答案章節(jié)測試2023年咸陽師范學(xué)院
- 五年級上冊道德與法治課件-第8課第四課時 影響深遠的漢字人教部編版
- GB/T 23604-2009鈦及鈦合金產(chǎn)品力學(xué)性能試驗取樣方法
評論
0/150
提交評論