版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
Al
專題
·從模型視角看端側Al模型技術持續(xù)演進,交互體驗有望升級西南證券研究發(fā)展中心海外研究團隊2024年7月口基礎的構建:模型實現(xiàn)高效壓縮是端側AI的第一步。模型尺寸變小、同時具備較好性能,是端側AI的前提。目前,在10B參數(shù)規(guī)模以下的模型中,7B尺寸占據主流,3B及以下小模型仍在探索,部分小模型性能正逐步接近更大參數(shù)模型,如谷歌Gemini-Nano
模型在部分測試基準上接近Gemini-
Pro、MetaLlama-3-8B模型表現(xiàn)可與Llama-2-70B匹敵。模型廠商為兼顧模型尺寸與性能,在算
法優(yōu)化上進行積極探索,在模型壓縮技術、稀疏注意力機制、多頭注意力變體等領域取得持續(xù)進展,
幫助模型減少參數(shù)、降低存算需求,同時保持較好的性能,為端側AI
奠定小模型的基礎。口落地的關鍵:模型適配終端硬件是端側AI的第二步。小語言模型(SLM)不完全等于端側模型,在模型實現(xiàn)高效壓縮后,需要進一步與手機硬件進行適配,幫助小模型裝進終端。從眾多小模型論文
中可以發(fā)現(xiàn),當前主要存在內存、功耗、算力三大硬件瓶頸。其中,蘋果在其論文《LLM
in
aflash》中指出,70億半精度參數(shù)的語言模型,完全加載進終端需要超過14GB
的DRAM
空間;Meta在其MobileLLM
模型論文中指出,一個約有5000焦耳滿電能量的iPhone,僅支持7B模型在10
tokens/秒的AI生成速率下對話不足2小時。為解決以上問題,手機芯片廠商正加速推進AI芯片研發(fā),
在先進制程、內存容量及帶寬、CPU
和GPU性能、以及AI服務器上發(fā)力,手機品牌商也將配備更高
性能的電池、散熱元器件,提升整體終端硬件能力,更好地支持AI模型?!躞w驗的突破:模型助力人機交互是端側AI的第三步。端側模型通常能夠支持用戶完成AI初級任務,
然而更豐富、更深度的交互體驗需要UI模型、云端模型、以及系統(tǒng)級AI進行有力支撐。其中,UI模
型可以提供手機UI界面理解的基礎,云端模型能夠幫助處理較為復雜的交互任務,系統(tǒng)級AI可以實
現(xiàn)多種模型間的調用與協(xié)同。在AI時代下,模型的端側意義不止于類似ChatGPT的聊天機器人軟件
而在于賦能手機系統(tǒng)和應用交互的系統(tǒng)級AI,
其帶來的交互體驗將成為影響用戶換機的核心。從當前的海外合作陣營來看,可分為“蘋果+OpenAI”和“谷歌+高通+三星”兩大陣營。未來,隨著端側模型、配套硬件、AI系統(tǒng)的持續(xù)發(fā)展,終端市場有望呈現(xiàn)更多可能?!跸嚓P標的:蘋果(AAPL.O)、三星電子(005930.KS)、高通(QCOM.O)、谷歌(GOOGL.O)等。□
風險提示:端側AI技術進展不及預期風險;行業(yè)競爭加劇風險;應用開發(fā)不及預期風險等。WWW.SWSC.C
核心觀點
2落地的關鍵:模型適配終端硬件是端側AI的第二步
1基礎的構建:模型實現(xiàn)高效壓縮是端側AI的第一步
3體驗的突破:模型助力人機交互是端側AI第三步3.2系統(tǒng)級AI:
云端模型補充交互體驗,系統(tǒng)升級支持更多AI場景2.1從小模型論文看端側硬件瓶頸:內存/功耗/算力2.2從芯片廠商布局看硬件升級趨勢:制程/內存/NPU/
電池/散熱3.1
UI模型:手機界面理解能力提升,任務設計為人機交互奠定基礎1.1十億級參數(shù)模型加速迭代,性能表現(xiàn)向百億參數(shù)模型靠攏1.2模型壓縮技術助力端側部署,注意力優(yōu)化機制降低存算需求目
錄WWW.SWSC.C2GoogleTPUv4,TPUv5eGemma-2基于Gemma-1
優(yōu)化模型具體細節(jié);Gemini-Nano
致力于在終端設備上運行;GQA
由谷歌創(chuàng)新提出MetaA100,H00Llama追求數(shù)據上的scalinglaw,
Llama-
3.1加入多模態(tài)/多語
言/長文本/實用工具
等能力;MobileLLM強調小模型的深度比寬度更重要MicrosoftA100,H100Phi-1專注于編碼;Phi-2
開始學習推
理
;Phi-3擅
長編碼和推
理;強調數(shù)據的小而精AppleA100,H100核心目標在
于服務終端
設備及應用Mistral算力租賃等歐
洲LLM領
先獨角獸
資料來源;谷歌,Meta,微軟,蘋果,Mistral,西南證券整理WWW.SWSC.C
3技術支持
技術支持模型
Gemma-2
Gemini-NanoLlama-3.1
MobileLLMPhi-3OpenELMMistral追求方向
追求方向將模型大小壓縮至10B參數(shù)以下,性能向10B~100B級別參數(shù)的模型靠攏1模型實現(xiàn)高效壓縮是端側AI的第一步稀疏注意力機制:滑動窗口注意力機制、全局注意力機制等多頭注意力變體:分組查詢注意力機制、多頭
隱式注意力機制等公司訓練GPU類型特點性能模型
模型壓縮:優(yōu)化
知識蒸餾、量技術
化、剪枝等海外小模型發(fā)展概況Flashattention等公司
模型名稱
發(fā)布日期
模型參數(shù)量(B)預訓練數(shù)據量
(B
Tokens)預訓練數(shù)據量與模型參數(shù)量的比值GPU型號
預訓練耗時GoogleGemma-2-9B2024年6月27日980008894096張TPUv4/Gemma-2-2.6B訓練中2.62000769512張TPUv5e/Gemma-1-7B2024年2月21日2024年2月21日760008574096張TPUv5e/Gemma-1-2B230001500512張TPUv5e/Gemini-Nano-3.25B2023年12月6日2023年12月6日3.25//TPUv5e
or
TPUv4/Gemini-Nano-1.8B1.8//TPUv5e
or
TPUv5/MetaLlama-3-8B2024年4月18日8150001875H1001300000小時Llama-2-7B2023年7月18日772000286A100184320小時Llama-1-7B2023年2月24日1000143A10082432小時MobileLLM-125M
2024年2月22日0.125250250200032張A100/MobileLLM-350M
2024年2月22日0.3571432張A100微軟Phi-3-small-7B2024年4月23日2024年4月23日74800686Phi-3系列模型中的Phi-3-medium(14B)模型在512塊H100上訓練耗時42天Phi-3-mini-3.8B3.8
3300868Phi-22023年12月12日2.7140051996塊A10014天Phi-1.52023年9月11日1.31.330723A1001500小時Phi-12023年6月20日54塊A1004天蘋果OpenELM-0.27B2024年4月25日2024年4月25日2024年4月25日2024年4月25日0.270.4515001500150015005556128塊A1003天OpenELM-0.45B3333128塊H1003天OpenELM-1.08B1.081389128塊A10011天OpenELM-3.04B3.04493128塊H10013天□發(fā)展節(jié)奏:24
H1
小模型加速推出,Meta
Llama領先發(fā)布,微軟、谷歌相繼迭代,蘋果厚積薄發(fā)?!跄P蛥?shù):7
B模型占據主流;3B及以下小模型進一步探索,其中蘋果小模型梯隊分布明顯。口訓練數(shù)據:Meta
在有限參數(shù)下追求數(shù)據量上的scalinglaw;微軟專注小而精的數(shù)據集;蘋果旗下小模型的訓練數(shù)據量與參數(shù)量的比值不低?!?/p>
算力消耗:23年GPU大多采用A100,24
年主要采用H100;谷歌使用自研TPU;
創(chuàng)企選擇上云等。
資料來源
;
各公司官網
,
西南證券整理WWW.SwSC.Com.cn1.1小模型24H1
加速迭代,模型性能持續(xù)提升23H2
及24H1
海外小模型版本迭代情況4模型測試基準
Gemma-1-2.5B
Gemma-2-2.6B
Mistral-7B
LLaMA-3-8B
Gemma-1-7B
Gemma-2-9BMMLU5-shot42.351.3
62.566.664.471.3ARC-C25-shot48.555.460.559.261.168.468.6GSM8K5-shot15.123.939.645.745.951.8AGIEval3-5-shot24.230.644.044.952.8DROP3-shot,F148.552.063.858.456.369.468.2BBH3-shot,CoT35.241.956.061.159.0Winogrande5-shot66.870.978.576.179.080.681.9HellaSwag10-shot71.773.083.082.0
82.3MATH4-shot11.815.0
12.724.336.6ARC-e0-shot73.280.1
80.581.588.0PIQA0-shot77.377.882.281.281.7SIQA0-shot49.751.947.051.853.4Boolq0-shot69.472.583.283.2
84.2TriviaQA5-shot53.259.462.563.476.6NQ5-shot12.516.723.223.029.2HumanEvalpass@122.017.726.232.340.2MBPP3-shot29.2
29.640.244.452.41.1.1谷歌Gemma系列模型:基于第一代模型架構對技術細節(jié)進行優(yōu)化□基于干張TPU集群訓練,模型性能在同類中較為領先。1)Gemma-2-9B:在4096張TPUv4上進
行訓練,在多數(shù)基準中得分超過Llama-3-8B和Mistral-7B等同類模型,MMLU5-shot、GSM8K
5-shot的測試得分相較于前一代模型Gemma-1-7B
分別有11%和32%的增長。2)
Gemma-2-2.6B:
在512張TPUv5e上進行訓練,沿用第—代模型架構,對技術細節(jié)進一步優(yōu)化,Gemma-2-
2.6B模型較上—代Gemma-1-2.5B
模型在參數(shù)量基本不變和數(shù)據集更小的情況下實現(xiàn)更優(yōu)性能
MMLU
5-shot、GSM8K5-shot的測試得分相較于上一代模型分別有21%和58%的增長。
資料來源;谷歌,Meta,微軟,蘋果,西南證券整理WWW.SwSC.C谷歌Gemma系列模型性能情況5口專為設備部署而設計,擅長總結和閱讀理解。2023年12月6日,谷歌發(fā)布Gemini系列自研大模型,參數(shù)規(guī)模從大至小分別為Gemini-Ultra、Gemini-Pro、Gemini-Nano,其中Gemini-Nano
模型包
括兩種版本,Nano-1
參數(shù)規(guī)模為1.8B,Nano-2為3.25B,
旨在分別針對低內存和高內存的設備。Gemini-Nano-1和Nano-2模型與參數(shù)規(guī)模更大的Gemini-Pro模型對比來看:1)根據BoolQ
基準(主要用于衡量模型理解問題和回答問題的邏輯能力)得分,Gemini-Nano-1的準確率為71.6%
性能是Gemini-Pro的
8
1
%
,Gemini-Nano-2
的準確率為79.3%,是Gemini-Pro
的90%,更接近
Gemini-Pro的性能;2)TydiQA(GoldP)基準涉及回答復雜問題的能力,Gemini-Nano-1
和
Gemini-Nano-2
的準確率為68.9%和74.2%,分別是Gemini-Pro
的85%和91%,性能差距較小。>
Gemini-Nano-1
和Gemini-Nano-2
模型對比來看:隨著模型參數(shù)規(guī)模從Nano-1的1.8B增加至Nano-2的3.25B,
模型的性能表現(xiàn)在大多數(shù)任務性能均能得到提升。模型測試基準Gemini-Nano-1(1.8B)Gemini-Nano-2準確率(%)相對于Gemini
Pro的比例準確率(%)相對于Gemini
Pro的比例BoolQ71.681%79.390%TydiQA(GoldP)68.985%74.291%NaturalQuestions
(Retrieved)38.669%46.583%NaturalQuestions(Closed-book)18.843%24.856%BIG-Bench-Hard(3-shot)34.847%42.458%MBPP2033%27.245%MATH
(4-shot)13.541%22.870%MMLU
(5-shot)45.964%55.878%
資料來源
:
谷歌
,
西南證券整理WWw.SWSC.com.cn
61.1.2谷歌Gemini-Nano
系列模型:部分任務性能距Gemini
Pro較小谷歌Gemini-Nano
系列模型性能情況指標Llama
3Llama
2模型階段類別基準Llama
370BLlama
38B
Llama
270B
Llama
27B預訓練模型GeneralMMLU
(5-shot)79.566.669.745.7AGIEval
English
(3-5
shot)63.045.954.828.8CommonSenseQA
(7-shot)83.883.172.678.757.6Winogrande
(5-shot)76.181.873.3BIG-Bench
Hard
(3-shot,CoT)81.361.165.738.1ARC-Challenge
(25-shot)93.078.685.353.7Knowledge
reasoningTriviaQA-Wiki
(5-shot)89.778.587.572.172.2Reading
comprehensiveSQuAD(1-shot)85.676.4
826QuAC
(1-shot,F1)51.144.449.439.6BoolQ
(0-shot)79.079.775.773.165.5DROP
(3-shot,F1)58.470.237.9指令微調模型多任務語言理解推理MMLU
(5-shot)82.068.452.934.1專業(yè)知識推理能力GPQA(0-shot)39.534.221.021.7代碼生成能力HumanEval
(0-shot)81.762.225.67.9數(shù)學(小學數(shù)學問題)GSM-8K
(8-shot,CoT)93.079.657.525.7數(shù)學(數(shù)學工具和函數(shù))MATH
(4-shot,CoT)50.430.0
11.6
3.8□同等參數(shù)情況下性能大幅提升,較小模型可以通過擴大訓練數(shù)據量實現(xiàn)優(yōu)秀性能。1)對比同等參數(shù)模型來看,Llama-3
的
8B和70B模型相對于Llama-2
的7B和70B模型性能均得到大幅提升。2
)
對
比Lama-3-8B
和Lama-2-70B
來看,在算力消耗基本持平的情況下,更好的模型性能可以通過在
更大規(guī)模的數(shù)據集上訓練實現(xiàn),Llama-3-8B模型的參數(shù)量約為Llama-2-70B的1/9,但訓練數(shù)據集
是其7.5倍,最終的模型效果基本可與70B的模型相匹敵,且經過指令微調后,指令微調模型Llama-
3-8B
明顯超過Llama270B。
資料來源
:
Meta
,
西南證券整理WWW.SWSC.Com.cn1.1.3MetaLlama系列模型:在有限參數(shù)下追求數(shù)據上的scaling
lawMeta
Llama系列模型性能情況7125M
350MARC-e0-shot43.9
44.041.3
40.753.841.9ARC-c0-shot27.1
26.225.224.833.525.7BoolQ0-shot60.254.955.4575
61.362.454.0PIQA0-shot65.362.0
62.568.664.8SIQA0-shot42.438.941.9
41.944.742.6HellaSwag0-shot38.939.529.631.1
29.749.636.2OBQA0-shot28.231.2
31.640.033.3WinoGrande0-shot53.149.650.8
50.757.652.4RACEAcc,middle39.734.7
34.745.637.1RACEAcc,high28.927.5
27.033.828.0TQAF1
score,1-shot13.914.38.78.022.011.0TQAF1
score,5-shot9.6
7.923.912.3TQAF1
score,64-shot12.58.2
5.024.210.41.1.4
Meta
MobileLLM系列模型:強調小模型的深度比寬度更重要□模型參數(shù)進一步縮小,模型架構追求深而窄。MobileLLM的模型參數(shù)僅為1.25億和3.5億,其技術報告聚焦干少干10億參數(shù)的sub-billion(<1B)模型,強調模型架構對小模型的重要性,認為模型
深度比寬度更重要,并引入分組查詢注意力機制等優(yōu)化技巧,相較于同類125M/350M大小模型的
基準測試得分相比,MobileLLM
的平均分均有提高。1)Zero-Shot常識推理任務方面:在125M
參數(shù)量級下,MobileLLM的模型性能顯著優(yōu)于OPT、GPT-Neo、Calaclafa等其他模型;在350M
參數(shù)量級下,MobileLLM
的各項測試得分均優(yōu)于此前最先進的模型OPT-350M。2)
問答和閱讀理
解任務方面:根據在TQA問答的
benchmark
和
RACE閱讀理解的
benchmark
的測評結果MobileLLM-125M
和MobileLLM-350M
模型的精度比同等量級的小模型要高出較多。
資料來源:
Meta,
西南證券整理WWW.SwSC.C模型測試基準
MobileLLM-
Galactica-125M
OPT
125M
G
PT-neo-125M
MobileLLM-
OPT-350MMeta
MobileLLM系列模型性能情況8模型測試基準
Phi-3-mini-3.8b
Phi-3-small-7b
Phi-2-2.7b
Mistral-7b
Gemma-1-7b
Llama-3-In
8bMMLU5-Shot
HBK*21
68.875.756.361.763.666.5HellaSwag5-Shot
ZHB*1976.777.053.658.549.871.1ANLI7-Shot
NWD*2052.858.142.547.146.448.757.3GSM-8K8-Shot,CoT
CKB*2182.589.661.159.877.4MedQA2-Shot
JPO*2053.865.440.950.0
49.660.5AGIEval0-Shot
ZCG*2337.545.129.835.142.142.0TriviaQA5-Shot
JCWZ1764.058.145.275.272.367.7Arc-C10-Shot
CCE*1884.990.775.978.678.382.8Arc-E10-Shot
CCE*1894.697.088.590.6
91.493.4PIQA5-Shot
BZGC1984.286.960.277.7
78.175.7SociQA5-Shot
BZGC1976.679.279.168.374.665.573.9BigBench-Hard3-Shot,CoT
SRR*22
SSS*2271.759.457.359.651.5WinoGrande5-Shot
SLBBC1970.881.554.754.255.665.0OpenBookQA10-Shot
MCKS1883.288.073.679.878.682.680.9BoolQ2-Shot
CLC*1977.284.872.272.666.0CommonSenseQA10-Shot
THLB1980.280.069.376.279.0TruthfulQA10-Shot,MC2
LHE2265.070.253.052.163.2HumanEval0-Shot
CTJ*2158.561.059.028.034.160.4MBPP3-Shot
AON*2170.071.760.650.8
51.567.71.1.5微軟Phi系列模型:主要創(chuàng)新在于構建教科書質量的訓練數(shù)據集□訓練數(shù)據追求小而精,模型參數(shù)逐步擴大。2023年6月,微軟發(fā)布論文《TextbooksAreAllYou
Need》,
用規(guī)模僅為7B
tokens的“教科書質量”的數(shù)據集,訓練出1.3B參數(shù)、性能良好的Phi-1
模型。此后,歷代Phi模型沿用“TextbooksAreAllYouNeed”的訓練思想,進一步使用精挑細
選的高質量內容和過濾的Web數(shù)據來增強訓練語料庫,以提升模型性能。在最新迭代的模型中,
Phi-3-mini-3.8B通過3.3Ttokens的訓練,在學術基準和內部測試上可與經過15Ttokens訓練的
Llama-3-In-8B模型相匹敵。
資料來源
:
微軟
,
西南證券整理WWW.SwSC.C微軟Phi系列模型性能情況9模型測試基準MMLU
5-shotOpenELM-MobiLlama-OpenELM-MobiLlama-MobiLlama-OLMo-1.18B26.16OpenELM-1.08B27.05OpenELM-3.04B26.760.28B25.720.50B26.090.45B26.010.80B25.21.26B23.87ARC-C25-shot27.6529.52
30.230.6334.6434.4736.6942.24CrowS-Pairs25-shot66.7965.47
68.63
66.2570.2469.9571.7473.29HellaSwag10-shot52.75
53.86
54.1763.2763.8165.7173.28PIQA0-shot69.75
71.11
72.31
73.1874.8175.1475.5778.24SciQ0-shot84.7
83.6
87.2
85.989.18790.692.7WinoGrande5-shot53.83
56.2757.2256.3560.7760.4663.2267.25ARC-e0-shot45.0846.04
48.06
49.6256.6557.2855.4359.89BoolQ0-shot53.9855.72
55.7860.3461.7463.5867.4RACE0-shot30.9132.15
33.11
33.6835.0236.7536.4638.76TruthfulQA0-shot39.2437.55
40.18
38.4135.1932.9436.9834.98TruthfulQA-mc20-shot39.2437.55
40.18
38.4135.1932.9436.9834.98□
致力于服務終端設備,模型性能整體表現(xiàn)出色。OpenELM
的模型參數(shù)包括2700萬、4500萬、11億和30億四種大小,相較于市場主流的70億參數(shù)模型,更加輕巧精悍,致力于讓主流筆記本電腦和
部分高性能智能手機也能承載和運行高性能模型。根據官方信息,OpenELM在同類模型表現(xiàn)較好>
OpenELM-1.08B:在使用較少預訓練數(shù)據(僅為艾倫人工智能研究所AI2Labs推出的先進開源模型
—OLMo-1.18B
模型的1/2)的情況下,性能超越OLMo,
提升幅度達2.36%。OpenELM-3B:
在衡量知識推理能力的ARC-C基準上,準確率為42.24%;在MMLU
和HellaSwag兩項基準測試中,得分分別為26.76%和73.28%,首批試用者反饋OpenELM
模型表現(xiàn)穩(wěn)定且一致性高,不易產生過于激進或不當內容的輸出。
資
料
來
源
:
蘋
果
,
西
南
證
券
整
理WWW.SWSC.Com.cn
101.1.6蘋果OpenELM
系列模型:核心目標在于服務終端設備及應用蘋果OpenELM系列小模型性能情況47.1560.03公司
模型名稱
發(fā)布日期是否進行模型壓縮?量化/剪枝/知識蒸餾是否采用稀疏注意力機制?是否采用FlashAttention
?是否采用
支持的上下文長度多頭注意力變體?
(tokens)GoogleGemma-2-9B2024年6月27日知識蒸餾
滑動窗口&全局注意力√
GQA8,192Gemma-2-2.6B訓練中/滑動窗口&全局注意力
√GQA8,192Gemma-1-7B2024年2月21日//√√MHA8,192Gemma-1-2B2024年2月21日
//MQAMQAMQA8,192Gemini-Nano-3.25B2023年12月6日
2023年12月6日量化、知識蒸餾量化、知識蒸餾///Gemini-Nano-1.8B///MetaLlama-3-8B2024年4月18日///GQAGQA8,192Llama-2-7B2023年7月18日知識蒸餾//4,096Llama-1-7B2023年2月24日///MHA2,048MobileLLM-125M
2024年2月22日量化、知識蒸餾量化、知識蒸餾//GQAGQA/MobileLLM-350M
2024年2月22日///微軟Phi-3-small-7B2024年4月23日2024年4月23日/局部塊注意力
√
GQA8,192Phi-3-mini-3.8B量化/√
GQA4,096Phi-22023年12月12日//√√√MHAMHAMHA2,048Phi-1.52023年9月11日//2,048Phi-12023年6月20日//2,048蘋果OpenELM-0.27B2024年4月25日
2024年4月25日2024年4月25日2024年4月25日量化、知識蒸餾量化、知識蒸餾量化、知識蒸餾量化、知識蒸餾/√√√√GQAGQAGQAGQA2,048OpenELM-0.45B/2,048OpenELM-1.08B/2,048OpenELM-3.04B/2,048□為壓縮模型大小、在保持較小模型尺寸的同時實現(xiàn)高性能、以及能夠支持較長的上下文,各海外模型廠商紛紛布局小模型,并在模型算法優(yōu)化方面進行積極探索,于24H1
呈現(xiàn)出多種技術創(chuàng)新方向,
主要集中在模型壓縮技術,稀疏注意力機制、多頭注意力變體三大領域。
資料來源;谷歌,Meta,微軟,蘋果,西南證券整理WWW.SWSC.Com.cn
111.2模型架構持續(xù)優(yōu)化,壓縮技術不斷創(chuàng)新海外小模型架構優(yōu)化及技術創(chuàng)新方向□模型壓縮技術持續(xù)發(fā)展,助力端側部署。模型壓縮技術旨在保持模型基本性能的情況下降低對推理算力的需求,主要包括三種方法:1)參數(shù)剪枝(Pruning)
:
刪除部分權重參數(shù)、去除神經網絡
中的冗余通道、神經元節(jié)點等;2)參數(shù)量化(Quantization
):
將浮點計算轉成低比特定點計算
業(yè)內應用普遍;3)知識蒸餾(Knowledge
Distilling):
將大模型作為教師模型,用其輸出訓練
出一個性能接近、結構更簡單的學生模型,由GeoffreyHinton等人在2015年谷歌論文《Distilling
theKnowledge
in
aNeural
Network》中提出
,目前關注較高,業(yè)內通常使用GPT-4和Claude-3
作為教師模型。
模型壓縮的三種方法:剪枝/量化/知識蒸餾Requantization
Outputint8個int32ActivationTint32AccumulatorBiasesint32Input
Conv
Weightsint8
int8Quantizer
OutputActivationAccumulator
BiasesInput→ConvQuantizer十
Weights
資料來源:英偉達官網,《A
White
Paperon
Neura/NetworkQuantization》,《Knowledge
Distilltion:ASurvey》,西南證券整理121.2.1模型壓縮技術:參數(shù)量化運用廣泛,知識蒸餾熱點較高4個輸入/3個神經元/2個輸出/18條網絡連接PruningDistillKnowledgeTransfer4個輸入/2個神經元/2個輸出/12條網絡連接WWW.SWSC.C教
師
模
型學
生模型剪
枝
后剪枝前1.2.1模型壓縮技術:參數(shù)量化運用廣泛,知識蒸餾熱點較高口蘋果OpenELM模型:模型微調引入量化和知識蒸餾技術,提高模型泛化能力,幫助模型實現(xiàn)必要性能。根據2024年6月10日蘋果發(fā)布的研究成果:>
1)參數(shù)量化:對于設備端推理,為保持模型質量,蘋果采用混合2-bit和4-bit的配置策略,平均參數(shù)量化至3.5-bit,以實現(xiàn)與未壓縮模型相同的準確性。>
2)知識蒸餾:蘋果結合拒絕采樣和知識蒸餾等多種技術,創(chuàng)新模型微調方法——a
rejection
sampling
fine-tuning
algorithm
with
teacher
committee,其中
,Teacher
Committee(教師
委員會)是指使用多個教師模型來指導學生模型的學習,每個教師模型可能具有不同的優(yōu)勢和專業(yè)
領域,通過綜合多個教師模型的知識,提供更全面、準確的指導,幫助學生模型更好地學習?!鯥nstruction-levelAccuracy■Prompt-levelAccuracy
■
Summarization■CompositionWWW.SwSC.C
Apple
on-Phi-3-mini
Mistral-7B
Gemma-7B
Gemma-2Bdevice蘋果端側模型在指令遵循測評上得分更高蘋果端側模型在指寫作測評上得分更高資料來源:蘋果,西南證券整理
資料來源:蘋果,西南證券整理device131.2.1模型壓縮技術:參數(shù)量化運用廣泛,知識蒸餾熱點較高□Meta
MobileLLM模型:采用量化和知識蒸餾技術,模型壓縮后性能差距較小。根據2024年6月27日Meta發(fā)布的MobileLLM
模型技術報告:>
1)參數(shù)量化:模型參數(shù)量化的消融實驗分別對全精度BF16和量化后的W8A8(8
位權重、8位激活)
模型進行零樣本常識推理任務測試,根據實驗結果,量化后的模型效果相較于全精度BF16的模型,性能差距均在0.5以內,模型經過量化壓縮后性能損失較小。2)知識蒸餾:在知識蒸餾的消融實驗中,Meta將LLaMA-v2-7B作為教師模型,使用來自大型預訓練教師模型(即LLaMA-v2-7B)
和
學生模型(MobileLLM-125M和350M模型)loaits之間的交叉
熵計算知識蒸餾損失(KDloss),再集成至小模型的預訓練過程中。根據實驗結果,MobileLLM-
125M和350M模型經過教師模型的知識蒸餾后,性能誤差分別分別僅為0.1和0.3。消融研究
模型
精度
ARC-e
ARC-c
BoolQ
PIQA
SIQA
HellaSwag
OBQA
WinoGrande
Avg
Gap量化MobileLLM-125MBF16
45.527.727.158.358.364.665.041.941.736.436.235.433.650.451.045.0MobileLLM-125MW8A845.244.8
0.2MobileLLM-LS-125MBF1644.444.027.027.561.560.965.164.643.043.137.637.737.837.752.051.046.1MobileLLM-LS-125MW8A845.8
0.3MobileLLM-350MBF1651.451.431.332.161.061.168.168.843.643.147.247.141.640.655.455.149.9MobileLLM-350MW8A849.90.0MobileLLM-LS-350MBFI651.951.335.233.859.659.568.969.143.443.747.247.243.343.058.457.051.0MobileLLM-LS-350MW8A850.6
0.4知識蒸餾125M
modelLabel43.128.928.558.158.562.361.642.341.134.634.531.550.143.9125M
model
Label+KD41.832.751.643.8
0.1350M
modelLabel50.231.831.856.967.767.444.345.845.940.855.549.1350M
model
Label+KD
48.760.743.238.953.748.80.3資料來源:Meta,西南證券整理WWW.SwSC.Co
14Meta
MobileLLM模型關于參數(shù)量化和知識蒸餾的消融研究口谷歌Gemini-Nano
模型:知識蒸餾+量化壓縮。Nano的1.8B和3.25B模型由更大的Gemini
模型知
識蒸餾訓練而來,并將其量化至4-bit,以便在低內存和高內存的設備上部署運行??诠雀鐶emma-2
模型:通過大模型壓縮蒸餾出一個小模型,再用數(shù)據去訓練,比從頭訓練小模型的效果更好。根據谷歌技術報告,Gemma-2的9B和2.6B模型在訓練策略上均采用知識蒸餾技術,使
模型能夠在相同訓練數(shù)據體量下達到更好的效果。根據消融實驗,基于500Btokens的訓練數(shù)據集,
由7B模型知識蒸餾后的2.6B模型,相較于一個從零開始訓練的2.6B模型,三項基準測試均分更高。□
微軟Phi-3
模型:量化壓縮。微軟將Phi-3-mini
模型量化至4-bit
,內存占用約為1.8GB,根據其端側部署測試,該模型可在帶有蘋果A16
仿生芯片的iPhone14上以原生方式運行并完全離線。Phi-3-mini-4k-instruct-q4
⑤-3-mini-4k-instruct-q4
⑤③Phi-3-mini-4k-instruct-q4at
are11yr
old
kidNritea
tite
for
the
paper
where
eachletterstarts
withpovwhispers
soft,a
riddle's
danceCryptic
rhymes
in
convoluted
stanceguetwister's
treacherous
lureMelodtangled,hearts
unsureThroughsyllablesthatslylytangleand
knot,Echoing
chorusesofa
labyrinthicthought,With
pitchesso
high
they
baffle
the
earlengetovoC
rontierFor
in
poemwherewordsentaticsongthatdares
not
alignTo
sing
lead
one
dowbigger
oneHerearesomemust-doactivities
in
the
Houston,TXathatwillbeenjoyablefor
a
11-year
old1.SpaceCenter
Houston:This
isanamazingspaTitle:"Pinnacle
Potential:Powering
Progressives-on
experiences
related
toastronautics,rought
back
from
ApollThis
title
encapsulates
the
essence
of
apaper
focusedan
advanced,small-scale
language
model
exhibitingpredictive
capabilities.Byusingeachlettertostartsuccessive
words
and
highlighting
itssuperior
potential("Pinnacle
Potential"),it
emphasizeskthroughnatureofsuchtechnologycomptolargermodels("Powering
Progressive
Paradigms").e
inclusion
of"with
Pristine
Predictiveres
the
e
prediction
abilitymodel
apart1.2.1模型壓縮技術:參數(shù)量化運用廣泛,知識蒸餾熱點較高Gemma-2-2.6B知識蒸餾后三項測試均分更高Phi-3-mini量化后在A16
仿生芯片iPhone
上運行資料來源:谷歌,西南證券整理
資料來源
:
微軟
,
西南證券整理from
scratch
distilled(7B)WWW.SWSC.Com.cnvery
small
anguage
model
that
is
moreProwess"that
sets
thittleprogram
displaysiveexh
bitsanc15輸入高通驍龍峰會在第二次請求高通驍龍峰會在十高通驍龍峰會在十月KV
Cache高通驍龍峰會在十月舉第n次請求...□KV
cache:通過緩存中間計算結果,以“內存空間”換“計算時間”。當前,主流的大語言模型
基本采用Transformer
decoder-only架構,其推理過程主要包括預填充和解碼階段。1)預填充階
段
:根據用戶提出的prompt,
生成第一個token;2)解碼階段:在生成第一個token
之后,開始
采用自回歸方式逐個生成后續(xù)的token,每個token的生成均需要依賴并attention此前的token
因此,隨著解碼過程的進行,需要向此前生成的token的關注會越來越多,計算量也逐漸增大。□
為減少解碼過程中的重復計算,可以通過引入KV
Cache,即緩存中間結果、在后續(xù)計算中直接從
Cache中讀取而非重新計算,從而實現(xiàn)“以空間換時間”,使顯存占用增加、但計算需求減少。新輸入
輸出KV
Cache
新
輸
入
輸
出1.2.2多頭注意力變體:減少注意力頭數(shù)量,降低內存占用LLM
在多輪對話場景中引入KV
CacheLLM自回歸推理過程示意圖
資料來源:西南證券
資料來源:大模型生態(tài)圈,
西南證券整理KV
Cache第三次請求第一次請求輸入
輸出十
月
舉
行自
回歸推
理預填充
階段WWW.SWSC.Com.cn解碼階段輸出161.2.2多頭注意力變體:減少注意力頭數(shù)量,降低內存占用□為平衡模型性能與存算成本,產生多種注意力變體。對比各注意力變體的特征來看:①
多頭注意力機制(
MHA)
:1個Que
ry
Head
對應1個KV
Head,模型效果更好,但隨著模型參數(shù)
增長、以及更長的上下文,會形成過大的KV
cache,從而帶來明顯的訪存瓶頸。②
多查詢注意力機制(MQA):
只保留一個KVHead,通過多個QueryHeads共享相同的KVHead,
使模型內存占用減少、推理速度更快,但是性能損失較大。③
分組查詢注意力機制(GQA)
:
將Query
Heads進行分組,每組Query
Heads對應一個KVHead,
介于MHA
和MQA
之間,由多個Query
共享一組KV,
在減少內存占用的同時,提升數(shù)據處理速度,保持模型處理下游任務的性能。④
多頭隱式注意力機制(MLA):
將
KV值壓縮至低維空間,減少模型推理的內存占用和計算需求。LLM
推理中有關KV
Cache的注意力機制及改進
I
Cached
During
InferenceMulti-Head
Attention(MHA)
Grouuped-Query
Attention(GQA)Multi-Query
Attention
(MQA)
Multi-Head
LatentAttention
(MLA)ValprojectionKeysCompressed
Latent
KVQueries資料來源:《DeepSeek-V2:A
Strong,Economical,and
Efficient
Mixture-of-ExpertsLanguage
Model》,西南證券整理WwW.SWSC.com.cn17□GQA由谷歌率先提出,成為當前主流注意力變體。GQA
技術由Google
Research團隊于2023年12
月提出,根據論文《GQA:TrainingGeneralizedMulti-QueryTransformerModelsfromMulti-
Head
Checkpoints》中關于各種注意力變體的表現(xiàn)來看,MHA基準測試均分最高、但推理耗時較
長
,MQA
推理時間最短,但模型性能略差,而GQA
能夠平衡模型性能和推理速度,在較短的推理
時間內取得較好的表現(xiàn)性能。從模型當前采用程度來看,截至24H1,GQA
僅提出約半年時間,便
在主流小模型中得到廣泛采用,谷歌的Gemma-2,
微軟的Phi-3、Meta的Llama-3和MobileLLM
模型、蘋果的端側模型OpenELM,以及法國創(chuàng)企Mistral-7B更新版本均采用分組查詢注意力機制。公司模型名稱發(fā)布日期注意力機制(Attention
variant)GoogleGemma-2-9B2024年6月27日GQAGQAGQAGQAGQAGQAGemma-2-2.6B訓練中MetaLlama-3-8B2024年4月18日Llama-2-7B2023年7月18日MobileLLM-125M2024年2月22日MobileLLM-350M
2024年2月22日微軟Phi-3-small-7B2024年4月23日2024年4月23日GQAGQAGQAGQAGQAGQAPhi-3-mini-3.8B蘋果OpenELM-0.27B2024年4月25日2024年4月25日2024年4月25日2024年4月25日OpenELM-0.45BOpenELM-1.08BOpenELM-3.04BMistralMistral-7B-v0.32024年5月22日GQAGQAMistral-7B-v0.22024年3月24日資料來源:《GQA:Training
Generalized
Multi-Query
TransformerModels
from
Multi-HeadCheckpoints》,
資料來源:各公司官網,西南證券整理
西南證券整WWW.SwSC.ComCn1.2.2多頭注意力變體:減少注意力頭數(shù)量,降低內存占用MHA、GQA、MQA對比采用GQA
技術的主流小模型平均基準測試得分推理時間(s)181.2.3稀疏注意力機制:選擇性處理信息,降低計算需求□稀疏注意力(Sparse
Attention)機制:選取一部分信息進行交互,節(jié)省注意力機制成本。在當前主流模型架構Transformer
中,注意力矩陣可以通過限制Query-Key
對的數(shù)量來減少計算復雜度,即
將注意力機制稀疏化。稀疏注意力機制主要采用基于位置信息和基于內容的稀疏化方法,其中,基
于位置信息的稀疏注意力方法更加主流,主要包括全局/帶狀/膨脹/隨機/局部塊五種類型。近年來
隨著大語言模型的加速發(fā)展,計算和存儲壓力增大,使得稀疏注意力機制不斷優(yōu)化,逐步衍生出基
于以上稀疏注意力機制的復合模式,涌現(xiàn)出Longformer
等稀疏注意力模型。k,
k;kj
k;k;qi
qiqi
qi
qiGlobal
Attention
(BandAttention)(Dilated
Attention)(RandomAttention)加入全局節(jié)點以增
限制Query只與相鄰
通過增加空隙以獲
通過隨機采樣,提升強長距離依賴關系
節(jié)點進行交互
取更大的感受野
非局部的交互全局注意力
帶狀注意力
膨脹注意力
隨機注意力
局部塊注意力基于位置信息的注意力機制稀疏化方法(Block
Attention)使用多個不重疊的
塊來限制信息交互資料來源:《大規(guī)模語言模型:從理論到實踐》,西南證券整理WWW.SWSC.Com.cn19口滑動窗口注意力(Sliding
ow
Attention-SWA)
機制:關注臨近位置信息,簡化計算步驟。1)Mistral-7B:創(chuàng)新使用SWA機制,解決長文本問題。SWA作為一種稀疏注意力機制,在輸入序
列中的每個token
周圍使用一個固定大小的窗口,其計算復雜度為O(s×w)
(
其
中s是輸入序列的長度,
w
是固定的窗口大小,且w<s),
相較于計算復雜度為O(s×s)的完全自注意力機制,會更加高效。在長文本情況下,一般相鄰tokens
的相關性更大,因此,在文本生成時并不需要對所有tokens
計算注意力值,只需計算每個token
前的n個tokens
的注意力值,從而在更長的上下文情況下不增加KVCache
緩存的大小。2)Gemma-2:
交替使用局部滑動窗口和全局注意力,捕捉細節(jié)的同時保證全
局理解。Gemma-2
在架構上基本沿用第一代模型設計,在注意力機制上進行細節(jié)優(yōu)化,實現(xiàn)局部
滑動窗口和全局注意力的交替使用,其中,滑動窗口大小設置為4096tokens,
而全局注意力窗口
為8192
tokens,滑動窗口注意力機制可以確保模型能夠精確捕捉文本細節(jié),全局注意力機制有助
于保持模型對上下文的正確理解。The
cat
sat
on
the100001
1
0
0
0111001
111
01
1
1VanillaAttentionThe
cat
sat
onthe1
0
0
0
01
1
0
0
01
11
00
111
00
0
1SlidingWindowAttentionEffectiveContext
Length1.2.3稀疏注意力機制:選擇性處理信息,降低計算需求Gemma-2:
調整滑動窗口大小對困惑度影響較小Mistral-7B:
采用SWA機制解決長文本問題資料來源:Mistral《Mistral7B》,
西南證券整理
資料來源:谷歌,西南證券整理滑動窗口注意力機制Thecat
satontheperplexityWWW.SWSC.Com.cnSlidingow20
2落地的關鍵:模型適配終端硬件是端側AI的第二步
1基礎的構建:模型實現(xiàn)高效壓縮是端側AI的第一步
3體驗的突破:模型助力人機交互是端側AI第三步1.1十億級參數(shù)模型加速迭代,性能表現(xiàn)向百億參數(shù)模型靠攏3.2系統(tǒng)級AI:
云端模型補充交互體驗,系統(tǒng)升級支持更多AI場景3.1
UI模型:手機界面理解能力提升,任務設計為人機交互奠定基礎2.2從芯片廠商布局看硬件升級趨勢:制程/內存/NPU/
電池/散熱2.1從小模型論文看端側硬件瓶頸:內存/功耗/算力1.2模型壓縮技術助力端側部署,注意力優(yōu)化機制降低存算需求目
錄WWW.SwSC.C21硬件瓶頸
硬件瓶頸先進制程
最大顯存最大內存最大帶寬
L2-Cache
L3-Cache
AI算力
TDP手機終端硬件發(fā)展概況Meta
MobileLLM論文指出:一個約有5000焦耳滿電能量的iPhone,可支持7B模型在10
tokens/秒的
AI生成速率下進行對話不到2小時■■■硬件升級廠
硬件升級一■蘋果論文《LLM
in
a
flash》指出:7B參數(shù)、半精度的
LLM,
完全加載進終端所
需
的DRAM空間超過1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 川教版(2020)八年級上冊信息技術2.1 初識人臉 教案
- 人教版七年級音樂下冊(簡譜)第二單元《百鳥朝鳳》教學設計
- 2022年廣西百色中考滿分作文《好習慣是成功的關鍵》
- 安徽省合肥市長豐縣七年級生物上冊 2.2.1《細胞通過分裂產生新細胞》教案4 (新版)新人教版
- 2020天津民族職專高中安全教育主題班會教案
- 小學校園欺凌的認知與預防教育
- 3《不懂就要問》(教學設計)2024-2025學年統(tǒng)編版語文三年級上冊
- 山東省郯城縣郯城街道初級中學初中信息技術 Flash基本操作教案
- Unit 2 My week (教學設計)-2024-2025學年人教版PEP英語五年級上冊
- Unit6 Work quietly(教學設計)-2023-2024學年人教PEP版英語五年級下冊
- 英漢國內外翻譯現(xiàn)狀
- 血小板血漿(PRP)課件
- 水利工程咨詢、勘測設計費收費標準及計算程序
- GB/T 5374-2023摩托車和輕便摩托車可靠性試驗方法
- 標識標志及表面色管理規(guī)定
- 7社會主義核心價值觀(公正)
- JJG 966-2010手持式激光測距儀
- GB/T 4852-2002壓敏膠粘帶初粘性試驗方法(滾球法)
- GB/T 39499-2020大氣有害物質無組織排放衛(wèi)生防護距離推導技術導則
- GB/T 34940.1-2017靜態(tài)切換系統(tǒng)(STS)第1部分:總則和安全要求
- NB-T 10908-2021 風電機組混凝土-鋼混合塔筒施工規(guī)范
評論
0/150
提交評論