2024 AI專題:從模型視角看端側AI模型技術持續(xù)演進交互體驗有望升級_第1頁
2024 AI專題:從模型視角看端側AI模型技術持續(xù)演進交互體驗有望升級_第2頁
2024 AI專題:從模型視角看端側AI模型技術持續(xù)演進交互體驗有望升級_第3頁
2024 AI專題:從模型視角看端側AI模型技術持續(xù)演進交互體驗有望升級_第4頁
2024 AI專題:從模型視角看端側AI模型技術持續(xù)演進交互體驗有望升級_第5頁
已閱讀5頁,還剩50頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Al

專題

·從模型視角看端側Al模型技術持續(xù)演進,交互體驗有望升級西南證券研究發(fā)展中心海外研究團隊2024年7月口基礎的構建:模型實現(xiàn)高效壓縮是端側AI的第一步。模型尺寸變小、同時具備較好性能,是端側AI的前提。目前,在10B參數(shù)規(guī)模以下的模型中,7B尺寸占據主流,3B及以下小模型仍在探索,部分小模型性能正逐步接近更大參數(shù)模型,如谷歌Gemini-Nano

模型在部分測試基準上接近Gemini-

Pro、MetaLlama-3-8B模型表現(xiàn)可與Llama-2-70B匹敵。模型廠商為兼顧模型尺寸與性能,在算

法優(yōu)化上進行積極探索,在模型壓縮技術、稀疏注意力機制、多頭注意力變體等領域取得持續(xù)進展,

幫助模型減少參數(shù)、降低存算需求,同時保持較好的性能,為端側AI

奠定小模型的基礎。口落地的關鍵:模型適配終端硬件是端側AI的第二步。小語言模型(SLM)不完全等于端側模型,在模型實現(xiàn)高效壓縮后,需要進一步與手機硬件進行適配,幫助小模型裝進終端。從眾多小模型論文

中可以發(fā)現(xiàn),當前主要存在內存、功耗、算力三大硬件瓶頸。其中,蘋果在其論文《LLM

in

aflash》中指出,70億半精度參數(shù)的語言模型,完全加載進終端需要超過14GB

的DRAM

空間;Meta在其MobileLLM

模型論文中指出,一個約有5000焦耳滿電能量的iPhone,僅支持7B模型在10

tokens/秒的AI生成速率下對話不足2小時。為解決以上問題,手機芯片廠商正加速推進AI芯片研發(fā),

在先進制程、內存容量及帶寬、CPU

和GPU性能、以及AI服務器上發(fā)力,手機品牌商也將配備更高

性能的電池、散熱元器件,提升整體終端硬件能力,更好地支持AI模型?!躞w驗的突破:模型助力人機交互是端側AI的第三步。端側模型通常能夠支持用戶完成AI初級任務,

然而更豐富、更深度的交互體驗需要UI模型、云端模型、以及系統(tǒng)級AI進行有力支撐。其中,UI模

型可以提供手機UI界面理解的基礎,云端模型能夠幫助處理較為復雜的交互任務,系統(tǒng)級AI可以實

現(xiàn)多種模型間的調用與協(xié)同。在AI時代下,模型的端側意義不止于類似ChatGPT的聊天機器人軟件

而在于賦能手機系統(tǒng)和應用交互的系統(tǒng)級AI,

其帶來的交互體驗將成為影響用戶換機的核心。從當前的海外合作陣營來看,可分為“蘋果+OpenAI”和“谷歌+高通+三星”兩大陣營。未來,隨著端側模型、配套硬件、AI系統(tǒng)的持續(xù)發(fā)展,終端市場有望呈現(xiàn)更多可能?!跸嚓P標的:蘋果(AAPL.O)、三星電子(005930.KS)、高通(QCOM.O)、谷歌(GOOGL.O)等。□

風險提示:端側AI技術進展不及預期風險;行業(yè)競爭加劇風險;應用開發(fā)不及預期風險等。WWW.SWSC.C

核心觀點

2落地的關鍵:模型適配終端硬件是端側AI的第二步

1基礎的構建:模型實現(xiàn)高效壓縮是端側AI的第一步

3體驗的突破:模型助力人機交互是端側AI第三步3.2系統(tǒng)級AI:

云端模型補充交互體驗,系統(tǒng)升級支持更多AI場景2.1從小模型論文看端側硬件瓶頸:內存/功耗/算力2.2從芯片廠商布局看硬件升級趨勢:制程/內存/NPU/

電池/散熱3.1

UI模型:手機界面理解能力提升,任務設計為人機交互奠定基礎1.1十億級參數(shù)模型加速迭代,性能表現(xiàn)向百億參數(shù)模型靠攏1.2模型壓縮技術助力端側部署,注意力優(yōu)化機制降低存算需求目

錄WWW.SWSC.C2GoogleTPUv4,TPUv5eGemma-2基于Gemma-1

優(yōu)化模型具體細節(jié);Gemini-Nano

致力于在終端設備上運行;GQA

由谷歌創(chuàng)新提出MetaA100,H00Llama追求數(shù)據上的scalinglaw,

Llama-

3.1加入多模態(tài)/多語

言/長文本/實用工具

等能力;MobileLLM強調小模型的深度比寬度更重要MicrosoftA100,H100Phi-1專注于編碼;Phi-2

開始學習推

;Phi-3擅

長編碼和推

理;強調數(shù)據的小而精AppleA100,H100核心目標在

于服務終端

設備及應用Mistral算力租賃等歐

洲LLM領

先獨角獸

資料來源;谷歌,Meta,微軟,蘋果,Mistral,西南證券整理WWW.SWSC.C

3技術支持

技術支持模型

Gemma-2

Gemini-NanoLlama-3.1

MobileLLMPhi-3OpenELMMistral追求方向

追求方向將模型大小壓縮至10B參數(shù)以下,性能向10B~100B級別參數(shù)的模型靠攏1模型實現(xiàn)高效壓縮是端側AI的第一步稀疏注意力機制:滑動窗口注意力機制、全局注意力機制等多頭注意力變體:分組查詢注意力機制、多頭

隱式注意力機制等公司訓練GPU類型特點性能模型

模型壓縮:優(yōu)化

知識蒸餾、量技術

化、剪枝等海外小模型發(fā)展概況Flashattention等公司

模型名稱

發(fā)布日期

模型參數(shù)量(B)預訓練數(shù)據量

(B

Tokens)預訓練數(shù)據量與模型參數(shù)量的比值GPU型號

預訓練耗時GoogleGemma-2-9B2024年6月27日980008894096張TPUv4/Gemma-2-2.6B訓練中2.62000769512張TPUv5e/Gemma-1-7B2024年2月21日2024年2月21日760008574096張TPUv5e/Gemma-1-2B230001500512張TPUv5e/Gemini-Nano-3.25B2023年12月6日2023年12月6日3.25//TPUv5e

or

TPUv4/Gemini-Nano-1.8B1.8//TPUv5e

or

TPUv5/MetaLlama-3-8B2024年4月18日8150001875H1001300000小時Llama-2-7B2023年7月18日772000286A100184320小時Llama-1-7B2023年2月24日1000143A10082432小時MobileLLM-125M

2024年2月22日0.125250250200032張A100/MobileLLM-350M

2024年2月22日0.3571432張A100微軟Phi-3-small-7B2024年4月23日2024年4月23日74800686Phi-3系列模型中的Phi-3-medium(14B)模型在512塊H100上訓練耗時42天Phi-3-mini-3.8B3.8

3300868Phi-22023年12月12日2.7140051996塊A10014天Phi-1.52023年9月11日1.31.330723A1001500小時Phi-12023年6月20日54塊A1004天蘋果OpenELM-0.27B2024年4月25日2024年4月25日2024年4月25日2024年4月25日0.270.4515001500150015005556128塊A1003天OpenELM-0.45B3333128塊H1003天OpenELM-1.08B1.081389128塊A10011天OpenELM-3.04B3.04493128塊H10013天□發(fā)展節(jié)奏:24

H1

小模型加速推出,Meta

Llama領先發(fā)布,微軟、谷歌相繼迭代,蘋果厚積薄發(fā)?!跄P蛥?shù):7

B模型占據主流;3B及以下小模型進一步探索,其中蘋果小模型梯隊分布明顯。口訓練數(shù)據:Meta

在有限參數(shù)下追求數(shù)據量上的scalinglaw;微軟專注小而精的數(shù)據集;蘋果旗下小模型的訓練數(shù)據量與參數(shù)量的比值不低?!?/p>

算力消耗:23年GPU大多采用A100,24

年主要采用H100;谷歌使用自研TPU;

創(chuàng)企選擇上云等。

資料來源

;

各公司官網

,

西南證券整理WWW.SwSC.Com.cn1.1小模型24H1

加速迭代,模型性能持續(xù)提升23H2

及24H1

海外小模型版本迭代情況4模型測試基準

Gemma-1-2.5B

Gemma-2-2.6B

Mistral-7B

LLaMA-3-8B

Gemma-1-7B

Gemma-2-9BMMLU5-shot42.351.3

62.566.664.471.3ARC-C25-shot48.555.460.559.261.168.468.6GSM8K5-shot15.123.939.645.745.951.8AGIEval3-5-shot24.230.644.044.952.8DROP3-shot,F148.552.063.858.456.369.468.2BBH3-shot,CoT35.241.956.061.159.0Winogrande5-shot66.870.978.576.179.080.681.9HellaSwag10-shot71.773.083.082.0

82.3MATH4-shot11.815.0

12.724.336.6ARC-e0-shot73.280.1

80.581.588.0PIQA0-shot77.377.882.281.281.7SIQA0-shot49.751.947.051.853.4Boolq0-shot69.472.583.283.2

84.2TriviaQA5-shot53.259.462.563.476.6NQ5-shot12.516.723.223.029.2HumanEvalpass@122.017.726.232.340.2MBPP3-shot29.2

29.640.244.452.41.1.1谷歌Gemma系列模型:基于第一代模型架構對技術細節(jié)進行優(yōu)化□基于干張TPU集群訓練,模型性能在同類中較為領先。1)Gemma-2-9B:在4096張TPUv4上進

行訓練,在多數(shù)基準中得分超過Llama-3-8B和Mistral-7B等同類模型,MMLU5-shot、GSM8K

5-shot的測試得分相較于前一代模型Gemma-1-7B

分別有11%和32%的增長。2)

Gemma-2-2.6B:

在512張TPUv5e上進行訓練,沿用第—代模型架構,對技術細節(jié)進一步優(yōu)化,Gemma-2-

2.6B模型較上—代Gemma-1-2.5B

模型在參數(shù)量基本不變和數(shù)據集更小的情況下實現(xiàn)更優(yōu)性能

MMLU

5-shot、GSM8K5-shot的測試得分相較于上一代模型分別有21%和58%的增長。

資料來源;谷歌,Meta,微軟,蘋果,西南證券整理WWW.SwSC.C谷歌Gemma系列模型性能情況5口專為設備部署而設計,擅長總結和閱讀理解。2023年12月6日,谷歌發(fā)布Gemini系列自研大模型,參數(shù)規(guī)模從大至小分別為Gemini-Ultra、Gemini-Pro、Gemini-Nano,其中Gemini-Nano

模型包

括兩種版本,Nano-1

參數(shù)規(guī)模為1.8B,Nano-2為3.25B,

旨在分別針對低內存和高內存的設備。Gemini-Nano-1和Nano-2模型與參數(shù)規(guī)模更大的Gemini-Pro模型對比來看:1)根據BoolQ

基準(主要用于衡量模型理解問題和回答問題的邏輯能力)得分,Gemini-Nano-1的準確率為71.6%

性能是Gemini-Pro的

8

1

%

,Gemini-Nano-2

的準確率為79.3%,是Gemini-Pro

的90%,更接近

Gemini-Pro的性能;2)TydiQA(GoldP)基準涉及回答復雜問題的能力,Gemini-Nano-1

Gemini-Nano-2

的準確率為68.9%和74.2%,分別是Gemini-Pro

的85%和91%,性能差距較小。>

Gemini-Nano-1

和Gemini-Nano-2

模型對比來看:隨著模型參數(shù)規(guī)模從Nano-1的1.8B增加至Nano-2的3.25B,

模型的性能表現(xiàn)在大多數(shù)任務性能均能得到提升。模型測試基準Gemini-Nano-1(1.8B)Gemini-Nano-2準確率(%)相對于Gemini

Pro的比例準確率(%)相對于Gemini

Pro的比例BoolQ71.681%79.390%TydiQA(GoldP)68.985%74.291%NaturalQuestions

(Retrieved)38.669%46.583%NaturalQuestions(Closed-book)18.843%24.856%BIG-Bench-Hard(3-shot)34.847%42.458%MBPP2033%27.245%MATH

(4-shot)13.541%22.870%MMLU

(5-shot)45.964%55.878%

資料來源

谷歌

,

西南證券整理WWw.SWSC.com.cn

61.1.2谷歌Gemini-Nano

系列模型:部分任務性能距Gemini

Pro較小谷歌Gemini-Nano

系列模型性能情況指標Llama

3Llama

2模型階段類別基準Llama

370BLlama

38B

Llama

270B

Llama

27B預訓練模型GeneralMMLU

(5-shot)79.566.669.745.7AGIEval

English

(3-5

shot)63.045.954.828.8CommonSenseQA

(7-shot)83.883.172.678.757.6Winogrande

(5-shot)76.181.873.3BIG-Bench

Hard

(3-shot,CoT)81.361.165.738.1ARC-Challenge

(25-shot)93.078.685.353.7Knowledge

reasoningTriviaQA-Wiki

(5-shot)89.778.587.572.172.2Reading

comprehensiveSQuAD(1-shot)85.676.4

826QuAC

(1-shot,F1)51.144.449.439.6BoolQ

(0-shot)79.079.775.773.165.5DROP

(3-shot,F1)58.470.237.9指令微調模型多任務語言理解推理MMLU

(5-shot)82.068.452.934.1專業(yè)知識推理能力GPQA(0-shot)39.534.221.021.7代碼生成能力HumanEval

(0-shot)81.762.225.67.9數(shù)學(小學數(shù)學問題)GSM-8K

(8-shot,CoT)93.079.657.525.7數(shù)學(數(shù)學工具和函數(shù))MATH

(4-shot,CoT)50.430.0

11.6

3.8□同等參數(shù)情況下性能大幅提升,較小模型可以通過擴大訓練數(shù)據量實現(xiàn)優(yōu)秀性能。1)對比同等參數(shù)模型來看,Llama-3

8B和70B模型相對于Llama-2

的7B和70B模型性能均得到大幅提升。2

)

比Lama-3-8B

和Lama-2-70B

來看,在算力消耗基本持平的情況下,更好的模型性能可以通過在

更大規(guī)模的數(shù)據集上訓練實現(xiàn),Llama-3-8B模型的參數(shù)量約為Llama-2-70B的1/9,但訓練數(shù)據集

是其7.5倍,最終的模型效果基本可與70B的模型相匹敵,且經過指令微調后,指令微調模型Llama-

3-8B

明顯超過Llama270B。

資料來源

Meta

,

西南證券整理WWW.SWSC.Com.cn1.1.3MetaLlama系列模型:在有限參數(shù)下追求數(shù)據上的scaling

lawMeta

Llama系列模型性能情況7125M

350MARC-e0-shot43.9

44.041.3

40.753.841.9ARC-c0-shot27.1

26.225.224.833.525.7BoolQ0-shot60.254.955.4575

61.362.454.0PIQA0-shot65.362.0

62.568.664.8SIQA0-shot42.438.941.9

41.944.742.6HellaSwag0-shot38.939.529.631.1

29.749.636.2OBQA0-shot28.231.2

31.640.033.3WinoGrande0-shot53.149.650.8

50.757.652.4RACEAcc,middle39.734.7

34.745.637.1RACEAcc,high28.927.5

27.033.828.0TQAF1

score,1-shot13.914.38.78.022.011.0TQAF1

score,5-shot9.6

7.923.912.3TQAF1

score,64-shot12.58.2

5.024.210.41.1.4

Meta

MobileLLM系列模型:強調小模型的深度比寬度更重要□模型參數(shù)進一步縮小,模型架構追求深而窄。MobileLLM的模型參數(shù)僅為1.25億和3.5億,其技術報告聚焦干少干10億參數(shù)的sub-billion(<1B)模型,強調模型架構對小模型的重要性,認為模型

深度比寬度更重要,并引入分組查詢注意力機制等優(yōu)化技巧,相較于同類125M/350M大小模型的

基準測試得分相比,MobileLLM

的平均分均有提高。1)Zero-Shot常識推理任務方面:在125M

參數(shù)量級下,MobileLLM的模型性能顯著優(yōu)于OPT、GPT-Neo、Calaclafa等其他模型;在350M

參數(shù)量級下,MobileLLM

的各項測試得分均優(yōu)于此前最先進的模型OPT-350M。2)

問答和閱讀理

解任務方面:根據在TQA問答的

benchmark

RACE閱讀理解的

benchmark

的測評結果MobileLLM-125M

和MobileLLM-350M

模型的精度比同等量級的小模型要高出較多。

資料來源:

Meta,

西南證券整理WWW.SwSC.C模型測試基準

MobileLLM-

Galactica-125M

OPT

125M

G

PT-neo-125M

MobileLLM-

OPT-350MMeta

MobileLLM系列模型性能情況8模型測試基準

Phi-3-mini-3.8b

Phi-3-small-7b

Phi-2-2.7b

Mistral-7b

Gemma-1-7b

Llama-3-In

8bMMLU5-Shot

HBK*21

68.875.756.361.763.666.5HellaSwag5-Shot

ZHB*1976.777.053.658.549.871.1ANLI7-Shot

NWD*2052.858.142.547.146.448.757.3GSM-8K8-Shot,CoT

CKB*2182.589.661.159.877.4MedQA2-Shot

JPO*2053.865.440.950.0

49.660.5AGIEval0-Shot

ZCG*2337.545.129.835.142.142.0TriviaQA5-Shot

JCWZ1764.058.145.275.272.367.7Arc-C10-Shot

CCE*1884.990.775.978.678.382.8Arc-E10-Shot

CCE*1894.697.088.590.6

91.493.4PIQA5-Shot

BZGC1984.286.960.277.7

78.175.7SociQA5-Shot

BZGC1976.679.279.168.374.665.573.9BigBench-Hard3-Shot,CoT

SRR*22

SSS*2271.759.457.359.651.5WinoGrande5-Shot

SLBBC1970.881.554.754.255.665.0OpenBookQA10-Shot

MCKS1883.288.073.679.878.682.680.9BoolQ2-Shot

CLC*1977.284.872.272.666.0CommonSenseQA10-Shot

THLB1980.280.069.376.279.0TruthfulQA10-Shot,MC2

LHE2265.070.253.052.163.2HumanEval0-Shot

CTJ*2158.561.059.028.034.160.4MBPP3-Shot

AON*2170.071.760.650.8

51.567.71.1.5微軟Phi系列模型:主要創(chuàng)新在于構建教科書質量的訓練數(shù)據集□訓練數(shù)據追求小而精,模型參數(shù)逐步擴大。2023年6月,微軟發(fā)布論文《TextbooksAreAllYou

Need》,

用規(guī)模僅為7B

tokens的“教科書質量”的數(shù)據集,訓練出1.3B參數(shù)、性能良好的Phi-1

模型。此后,歷代Phi模型沿用“TextbooksAreAllYouNeed”的訓練思想,進一步使用精挑細

選的高質量內容和過濾的Web數(shù)據來增強訓練語料庫,以提升模型性能。在最新迭代的模型中,

Phi-3-mini-3.8B通過3.3Ttokens的訓練,在學術基準和內部測試上可與經過15Ttokens訓練的

Llama-3-In-8B模型相匹敵。

資料來源

微軟

西南證券整理WWW.SwSC.C微軟Phi系列模型性能情況9模型測試基準MMLU

5-shotOpenELM-MobiLlama-OpenELM-MobiLlama-MobiLlama-OLMo-1.18B26.16OpenELM-1.08B27.05OpenELM-3.04B26.760.28B25.720.50B26.090.45B26.010.80B25.21.26B23.87ARC-C25-shot27.6529.52

30.230.6334.6434.4736.6942.24CrowS-Pairs25-shot66.7965.47

68.63

66.2570.2469.9571.7473.29HellaSwag10-shot52.75

53.86

54.1763.2763.8165.7173.28PIQA0-shot69.75

71.11

72.31

73.1874.8175.1475.5778.24SciQ0-shot84.7

83.6

87.2

85.989.18790.692.7WinoGrande5-shot53.83

56.2757.2256.3560.7760.4663.2267.25ARC-e0-shot45.0846.04

48.06

49.6256.6557.2855.4359.89BoolQ0-shot53.9855.72

55.7860.3461.7463.5867.4RACE0-shot30.9132.15

33.11

33.6835.0236.7536.4638.76TruthfulQA0-shot39.2437.55

40.18

38.4135.1932.9436.9834.98TruthfulQA-mc20-shot39.2437.55

40.18

38.4135.1932.9436.9834.98□

致力于服務終端設備,模型性能整體表現(xiàn)出色。OpenELM

的模型參數(shù)包括2700萬、4500萬、11億和30億四種大小,相較于市場主流的70億參數(shù)模型,更加輕巧精悍,致力于讓主流筆記本電腦和

部分高性能智能手機也能承載和運行高性能模型。根據官方信息,OpenELM在同類模型表現(xiàn)較好>

OpenELM-1.08B:在使用較少預訓練數(shù)據(僅為艾倫人工智能研究所AI2Labs推出的先進開源模型

—OLMo-1.18B

模型的1/2)的情況下,性能超越OLMo,

提升幅度達2.36%。OpenELM-3B:

在衡量知識推理能力的ARC-C基準上,準確率為42.24%;在MMLU

和HellaSwag兩項基準測試中,得分分別為26.76%和73.28%,首批試用者反饋OpenELM

模型表現(xiàn)穩(wěn)定且一致性高,不易產生過于激進或不當內容的輸出。

,

西

理WWW.SWSC.Com.cn

101.1.6蘋果OpenELM

系列模型:核心目標在于服務終端設備及應用蘋果OpenELM系列小模型性能情況47.1560.03公司

模型名稱

發(fā)布日期是否進行模型壓縮?量化/剪枝/知識蒸餾是否采用稀疏注意力機制?是否采用FlashAttention

?是否采用

支持的上下文長度多頭注意力變體?

(tokens)GoogleGemma-2-9B2024年6月27日知識蒸餾

滑動窗口&全局注意力√

GQA8,192Gemma-2-2.6B訓練中/滑動窗口&全局注意力

√GQA8,192Gemma-1-7B2024年2月21日//√√MHA8,192Gemma-1-2B2024年2月21日

//MQAMQAMQA8,192Gemini-Nano-3.25B2023年12月6日

2023年12月6日量化、知識蒸餾量化、知識蒸餾///Gemini-Nano-1.8B///MetaLlama-3-8B2024年4月18日///GQAGQA8,192Llama-2-7B2023年7月18日知識蒸餾//4,096Llama-1-7B2023年2月24日///MHA2,048MobileLLM-125M

2024年2月22日量化、知識蒸餾量化、知識蒸餾//GQAGQA/MobileLLM-350M

2024年2月22日///微軟Phi-3-small-7B2024年4月23日2024年4月23日/局部塊注意力

GQA8,192Phi-3-mini-3.8B量化/√

GQA4,096Phi-22023年12月12日//√√√MHAMHAMHA2,048Phi-1.52023年9月11日//2,048Phi-12023年6月20日//2,048蘋果OpenELM-0.27B2024年4月25日

2024年4月25日2024年4月25日2024年4月25日量化、知識蒸餾量化、知識蒸餾量化、知識蒸餾量化、知識蒸餾/√√√√GQAGQAGQAGQA2,048OpenELM-0.45B/2,048OpenELM-1.08B/2,048OpenELM-3.04B/2,048□為壓縮模型大小、在保持較小模型尺寸的同時實現(xiàn)高性能、以及能夠支持較長的上下文,各海外模型廠商紛紛布局小模型,并在模型算法優(yōu)化方面進行積極探索,于24H1

呈現(xiàn)出多種技術創(chuàng)新方向,

主要集中在模型壓縮技術,稀疏注意力機制、多頭注意力變體三大領域。

資料來源;谷歌,Meta,微軟,蘋果,西南證券整理WWW.SWSC.Com.cn

111.2模型架構持續(xù)優(yōu)化,壓縮技術不斷創(chuàng)新海外小模型架構優(yōu)化及技術創(chuàng)新方向□模型壓縮技術持續(xù)發(fā)展,助力端側部署。模型壓縮技術旨在保持模型基本性能的情況下降低對推理算力的需求,主要包括三種方法:1)參數(shù)剪枝(Pruning)

:

刪除部分權重參數(shù)、去除神經網絡

中的冗余通道、神經元節(jié)點等;2)參數(shù)量化(Quantization

):

將浮點計算轉成低比特定點計算

業(yè)內應用普遍;3)知識蒸餾(Knowledge

Distilling):

將大模型作為教師模型,用其輸出訓練

出一個性能接近、結構更簡單的學生模型,由GeoffreyHinton等人在2015年谷歌論文《Distilling

theKnowledge

in

aNeural

Network》中提出

,目前關注較高,業(yè)內通常使用GPT-4和Claude-3

作為教師模型。

模型壓縮的三種方法:剪枝/量化/知識蒸餾Requantization

Outputint8個int32ActivationTint32AccumulatorBiasesint32Input

Conv

Weightsint8

int8Quantizer

OutputActivationAccumulator

BiasesInput→ConvQuantizer十

Weights

資料來源:英偉達官網,《A

White

Paperon

Neura/NetworkQuantization》,《Knowledge

Distilltion:ASurvey》,西南證券整理121.2.1模型壓縮技術:參數(shù)量化運用廣泛,知識蒸餾熱點較高4個輸入/3個神經元/2個輸出/18條網絡連接PruningDistillKnowledgeTransfer4個輸入/2個神經元/2個輸出/12條網絡連接WWW.SWSC.C教

型學

生模型剪

后剪枝前1.2.1模型壓縮技術:參數(shù)量化運用廣泛,知識蒸餾熱點較高口蘋果OpenELM模型:模型微調引入量化和知識蒸餾技術,提高模型泛化能力,幫助模型實現(xiàn)必要性能。根據2024年6月10日蘋果發(fā)布的研究成果:>

1)參數(shù)量化:對于設備端推理,為保持模型質量,蘋果采用混合2-bit和4-bit的配置策略,平均參數(shù)量化至3.5-bit,以實現(xiàn)與未壓縮模型相同的準確性。>

2)知識蒸餾:蘋果結合拒絕采樣和知識蒸餾等多種技術,創(chuàng)新模型微調方法——a

rejection

sampling

fine-tuning

algorithm

with

teacher

committee,其中

,Teacher

Committee(教師

委員會)是指使用多個教師模型來指導學生模型的學習,每個教師模型可能具有不同的優(yōu)勢和專業(yè)

領域,通過綜合多個教師模型的知識,提供更全面、準確的指導,幫助學生模型更好地學習?!鯥nstruction-levelAccuracy■Prompt-levelAccuracy

Summarization■CompositionWWW.SwSC.C

Apple

on-Phi-3-mini

Mistral-7B

Gemma-7B

Gemma-2Bdevice蘋果端側模型在指令遵循測評上得分更高蘋果端側模型在指寫作測評上得分更高資料來源:蘋果,西南證券整理

資料來源:蘋果,西南證券整理device131.2.1模型壓縮技術:參數(shù)量化運用廣泛,知識蒸餾熱點較高□Meta

MobileLLM模型:采用量化和知識蒸餾技術,模型壓縮后性能差距較小。根據2024年6月27日Meta發(fā)布的MobileLLM

模型技術報告:>

1)參數(shù)量化:模型參數(shù)量化的消融實驗分別對全精度BF16和量化后的W8A8(8

位權重、8位激活)

模型進行零樣本常識推理任務測試,根據實驗結果,量化后的模型效果相較于全精度BF16的模型,性能差距均在0.5以內,模型經過量化壓縮后性能損失較小。2)知識蒸餾:在知識蒸餾的消融實驗中,Meta將LLaMA-v2-7B作為教師模型,使用來自大型預訓練教師模型(即LLaMA-v2-7B)

學生模型(MobileLLM-125M和350M模型)loaits之間的交叉

熵計算知識蒸餾損失(KDloss),再集成至小模型的預訓練過程中。根據實驗結果,MobileLLM-

125M和350M模型經過教師模型的知識蒸餾后,性能誤差分別分別僅為0.1和0.3。消融研究

模型

精度

ARC-e

ARC-c

BoolQ

PIQA

SIQA

HellaSwag

OBQA

WinoGrande

Avg

Gap量化MobileLLM-125MBF16

45.527.727.158.358.364.665.041.941.736.436.235.433.650.451.045.0MobileLLM-125MW8A845.244.8

0.2MobileLLM-LS-125MBF1644.444.027.027.561.560.965.164.643.043.137.637.737.837.752.051.046.1MobileLLM-LS-125MW8A845.8

0.3MobileLLM-350MBF1651.451.431.332.161.061.168.168.843.643.147.247.141.640.655.455.149.9MobileLLM-350MW8A849.90.0MobileLLM-LS-350MBFI651.951.335.233.859.659.568.969.143.443.747.247.243.343.058.457.051.0MobileLLM-LS-350MW8A850.6

0.4知識蒸餾125M

modelLabel43.128.928.558.158.562.361.642.341.134.634.531.550.143.9125M

model

Label+KD41.832.751.643.8

0.1350M

modelLabel50.231.831.856.967.767.444.345.845.940.855.549.1350M

model

Label+KD

48.760.743.238.953.748.80.3資料來源:Meta,西南證券整理WWW.SwSC.Co

14Meta

MobileLLM模型關于參數(shù)量化和知識蒸餾的消融研究口谷歌Gemini-Nano

模型:知識蒸餾+量化壓縮。Nano的1.8B和3.25B模型由更大的Gemini

模型知

識蒸餾訓練而來,并將其量化至4-bit,以便在低內存和高內存的設備上部署運行??诠雀鐶emma-2

模型:通過大模型壓縮蒸餾出一個小模型,再用數(shù)據去訓練,比從頭訓練小模型的效果更好。根據谷歌技術報告,Gemma-2的9B和2.6B模型在訓練策略上均采用知識蒸餾技術,使

模型能夠在相同訓練數(shù)據體量下達到更好的效果。根據消融實驗,基于500Btokens的訓練數(shù)據集,

由7B模型知識蒸餾后的2.6B模型,相較于一個從零開始訓練的2.6B模型,三項基準測試均分更高。□

微軟Phi-3

模型:量化壓縮。微軟將Phi-3-mini

模型量化至4-bit

,內存占用約為1.8GB,根據其端側部署測試,該模型可在帶有蘋果A16

仿生芯片的iPhone14上以原生方式運行并完全離線。Phi-3-mini-4k-instruct-q4

⑤-3-mini-4k-instruct-q4

⑤③Phi-3-mini-4k-instruct-q4at

are11yr

old

kidNritea

tite

for

the

paper

where

eachletterstarts

withpovwhispers

soft,a

riddle's

danceCryptic

rhymes

in

convoluted

stanceguetwister's

treacherous

lureMelodtangled,hearts

unsureThroughsyllablesthatslylytangleand

knot,Echoing

chorusesofa

labyrinthicthought,With

pitchesso

high

they

baffle

the

earlengetovoC

rontierFor

in

poemwherewordsentaticsongthatdares

not

alignTo

sing

lead

one

dowbigger

oneHerearesomemust-doactivities

in

the

Houston,TXathatwillbeenjoyablefor

a

11-year

old1.SpaceCenter

Houston:This

isanamazingspaTitle:"Pinnacle

Potential:Powering

Progressives-on

experiences

related

toastronautics,rought

back

from

ApollThis

title

encapsulates

the

essence

of

apaper

focusedan

advanced,small-scale

language

model

exhibitingpredictive

capabilities.Byusingeachlettertostartsuccessive

words

and

highlighting

itssuperior

potential("Pinnacle

Potential"),it

emphasizeskthroughnatureofsuchtechnologycomptolargermodels("Powering

Progressive

Paradigms").e

inclusion

of"with

Pristine

Predictiveres

the

e

prediction

abilitymodel

apart1.2.1模型壓縮技術:參數(shù)量化運用廣泛,知識蒸餾熱點較高Gemma-2-2.6B知識蒸餾后三項測試均分更高Phi-3-mini量化后在A16

仿生芯片iPhone

上運行資料來源:谷歌,西南證券整理

資料來源

微軟

,

西南證券整理from

scratch

distilled(7B)WWW.SWSC.Com.cnvery

small

anguage

model

that

is

moreProwess"that

sets

thittleprogram

displaysiveexh

bitsanc15輸入高通驍龍峰會在第二次請求高通驍龍峰會在十高通驍龍峰會在十月KV

Cache高通驍龍峰會在十月舉第n次請求...□KV

cache:通過緩存中間計算結果,以“內存空間”換“計算時間”。當前,主流的大語言模型

基本采用Transformer

decoder-only架構,其推理過程主要包括預填充和解碼階段。1)預填充階

:根據用戶提出的prompt,

生成第一個token;2)解碼階段:在生成第一個token

之后,開始

采用自回歸方式逐個生成后續(xù)的token,每個token的生成均需要依賴并attention此前的token

因此,隨著解碼過程的進行,需要向此前生成的token的關注會越來越多,計算量也逐漸增大。□

為減少解碼過程中的重復計算,可以通過引入KV

Cache,即緩存中間結果、在后續(xù)計算中直接從

Cache中讀取而非重新計算,從而實現(xiàn)“以空間換時間”,使顯存占用增加、但計算需求減少。新輸入

輸出KV

Cache

出1.2.2多頭注意力變體:減少注意力頭數(shù)量,降低內存占用LLM

在多輪對話場景中引入KV

CacheLLM自回歸推理過程示意圖

資料來源:西南證券

資料來源:大模型生態(tài)圈,

西南證券整理KV

Cache第三次請求第一次請求輸入

輸出十

行自

回歸推

理預填充

階段WWW.SWSC.Com.cn解碼階段輸出161.2.2多頭注意力變體:減少注意力頭數(shù)量,降低內存占用□為平衡模型性能與存算成本,產生多種注意力變體。對比各注意力變體的特征來看:①

多頭注意力機制(

MHA)

:1個Que

ry

Head

對應1個KV

Head,模型效果更好,但隨著模型參數(shù)

增長、以及更長的上下文,會形成過大的KV

cache,從而帶來明顯的訪存瓶頸。②

多查詢注意力機制(MQA):

只保留一個KVHead,通過多個QueryHeads共享相同的KVHead,

使模型內存占用減少、推理速度更快,但是性能損失較大。③

分組查詢注意力機制(GQA)

:

將Query

Heads進行分組,每組Query

Heads對應一個KVHead,

介于MHA

和MQA

之間,由多個Query

共享一組KV,

在減少內存占用的同時,提升數(shù)據處理速度,保持模型處理下游任務的性能。④

多頭隱式注意力機制(MLA):

KV值壓縮至低維空間,減少模型推理的內存占用和計算需求。LLM

推理中有關KV

Cache的注意力機制及改進

I

Cached

During

InferenceMulti-Head

Attention(MHA)

Grouuped-Query

Attention(GQA)Multi-Query

Attention

(MQA)

Multi-Head

LatentAttention

(MLA)ValprojectionKeysCompressed

Latent

KVQueries資料來源:《DeepSeek-V2:A

Strong,Economical,and

Efficient

Mixture-of-ExpertsLanguage

Model》,西南證券整理WwW.SWSC.com.cn17□GQA由谷歌率先提出,成為當前主流注意力變體。GQA

技術由Google

Research團隊于2023年12

月提出,根據論文《GQA:TrainingGeneralizedMulti-QueryTransformerModelsfromMulti-

Head

Checkpoints》中關于各種注意力變體的表現(xiàn)來看,MHA基準測試均分最高、但推理耗時較

,MQA

推理時間最短,但模型性能略差,而GQA

能夠平衡模型性能和推理速度,在較短的推理

時間內取得較好的表現(xiàn)性能。從模型當前采用程度來看,截至24H1,GQA

僅提出約半年時間,便

在主流小模型中得到廣泛采用,谷歌的Gemma-2,

微軟的Phi-3、Meta的Llama-3和MobileLLM

模型、蘋果的端側模型OpenELM,以及法國創(chuàng)企Mistral-7B更新版本均采用分組查詢注意力機制。公司模型名稱發(fā)布日期注意力機制(Attention

variant)GoogleGemma-2-9B2024年6月27日GQAGQAGQAGQAGQAGQAGemma-2-2.6B訓練中MetaLlama-3-8B2024年4月18日Llama-2-7B2023年7月18日MobileLLM-125M2024年2月22日MobileLLM-350M

2024年2月22日微軟Phi-3-small-7B2024年4月23日2024年4月23日GQAGQAGQAGQAGQAGQAPhi-3-mini-3.8B蘋果OpenELM-0.27B2024年4月25日2024年4月25日2024年4月25日2024年4月25日OpenELM-0.45BOpenELM-1.08BOpenELM-3.04BMistralMistral-7B-v0.32024年5月22日GQAGQAMistral-7B-v0.22024年3月24日資料來源:《GQA:Training

Generalized

Multi-Query

TransformerModels

from

Multi-HeadCheckpoints》,

資料來源:各公司官網,西南證券整理

西南證券整WWW.SwSC.ComCn1.2.2多頭注意力變體:減少注意力頭數(shù)量,降低內存占用MHA、GQA、MQA對比采用GQA

技術的主流小模型平均基準測試得分推理時間(s)181.2.3稀疏注意力機制:選擇性處理信息,降低計算需求□稀疏注意力(Sparse

Attention)機制:選取一部分信息進行交互,節(jié)省注意力機制成本。在當前主流模型架構Transformer

中,注意力矩陣可以通過限制Query-Key

對的數(shù)量來減少計算復雜度,即

將注意力機制稀疏化。稀疏注意力機制主要采用基于位置信息和基于內容的稀疏化方法,其中,基

于位置信息的稀疏注意力方法更加主流,主要包括全局/帶狀/膨脹/隨機/局部塊五種類型。近年來

隨著大語言模型的加速發(fā)展,計算和存儲壓力增大,使得稀疏注意力機制不斷優(yōu)化,逐步衍生出基

于以上稀疏注意力機制的復合模式,涌現(xiàn)出Longformer

等稀疏注意力模型。k,

k;kj

k;k;qi

qiqi

qi

qiGlobal

Attention

(BandAttention)(Dilated

Attention)(RandomAttention)加入全局節(jié)點以增

限制Query只與相鄰

通過增加空隙以獲

通過隨機采樣,提升強長距離依賴關系

節(jié)點進行交互

取更大的感受野

非局部的交互全局注意力

帶狀注意力

膨脹注意力

隨機注意力

局部塊注意力基于位置信息的注意力機制稀疏化方法(Block

Attention)使用多個不重疊的

塊來限制信息交互資料來源:《大規(guī)模語言模型:從理論到實踐》,西南證券整理WWW.SWSC.Com.cn19口滑動窗口注意力(Sliding

ow

Attention-SWA)

機制:關注臨近位置信息,簡化計算步驟。1)Mistral-7B:創(chuàng)新使用SWA機制,解決長文本問題。SWA作為一種稀疏注意力機制,在輸入序

列中的每個token

周圍使用一個固定大小的窗口,其計算復雜度為O(s×w)

(

中s是輸入序列的長度,

w

是固定的窗口大小,且w<s),

相較于計算復雜度為O(s×s)的完全自注意力機制,會更加高效。在長文本情況下,一般相鄰tokens

的相關性更大,因此,在文本生成時并不需要對所有tokens

計算注意力值,只需計算每個token

前的n個tokens

的注意力值,從而在更長的上下文情況下不增加KVCache

緩存的大小。2)Gemma-2:

交替使用局部滑動窗口和全局注意力,捕捉細節(jié)的同時保證全

局理解。Gemma-2

在架構上基本沿用第一代模型設計,在注意力機制上進行細節(jié)優(yōu)化,實現(xiàn)局部

滑動窗口和全局注意力的交替使用,其中,滑動窗口大小設置為4096tokens,

而全局注意力窗口

為8192

tokens,滑動窗口注意力機制可以確保模型能夠精確捕捉文本細節(jié),全局注意力機制有助

于保持模型對上下文的正確理解。The

cat

sat

on

the100001

1

0

0

0111001

111

01

1

1VanillaAttentionThe

cat

sat

onthe1

0

0

0

01

1

0

0

01

11

00

111

00

0

1SlidingWindowAttentionEffectiveContext

Length1.2.3稀疏注意力機制:選擇性處理信息,降低計算需求Gemma-2:

調整滑動窗口大小對困惑度影響較小Mistral-7B:

采用SWA機制解決長文本問題資料來源:Mistral《Mistral7B》,

西南證券整理

資料來源:谷歌,西南證券整理滑動窗口注意力機制Thecat

satontheperplexityWWW.SWSC.Com.cnSlidingow20

2落地的關鍵:模型適配終端硬件是端側AI的第二步

1基礎的構建:模型實現(xiàn)高效壓縮是端側AI的第一步

3體驗的突破:模型助力人機交互是端側AI第三步1.1十億級參數(shù)模型加速迭代,性能表現(xiàn)向百億參數(shù)模型靠攏3.2系統(tǒng)級AI:

云端模型補充交互體驗,系統(tǒng)升級支持更多AI場景3.1

UI模型:手機界面理解能力提升,任務設計為人機交互奠定基礎2.2從芯片廠商布局看硬件升級趨勢:制程/內存/NPU/

電池/散熱2.1從小模型論文看端側硬件瓶頸:內存/功耗/算力1.2模型壓縮技術助力端側部署,注意力優(yōu)化機制降低存算需求目

錄WWW.SwSC.C21硬件瓶頸

硬件瓶頸先進制程

最大顯存最大內存最大帶寬

L2-Cache

L3-Cache

AI算力

TDP手機終端硬件發(fā)展概況Meta

MobileLLM論文指出:一個約有5000焦耳滿電能量的iPhone,可支持7B模型在10

tokens/秒的

AI生成速率下進行對話不到2小時■■■硬件升級廠

硬件升級一■蘋果論文《LLM

in

a

flash》指出:7B參數(shù)、半精度的

LLM,

完全加載進終端所

的DRAM空間超過1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論