2024 AI專題：從模型視角看端側(cè)AI模型技術(shù)持續(xù)演進交互體驗有望升級

上傳人：緣*** IP屬地：四川上傳時間：2024-09-26 格式：PPTX 頁數(shù)：55 大?。?3.88MB 積分：12 舉報 版權(quán)申訴

2024 AI專題：從模型視角看端側(cè)AI模型技術(shù)持續(xù)演進交互體驗有望升級_第2頁

2024 AI專題：從模型視角看端側(cè)AI模型技術(shù)持續(xù)演進交互體驗有望升級_第3頁

2024 AI專題：從模型視角看端側(cè)AI模型技術(shù)持續(xù)演進交互體驗有望升級_第4頁

2024 AI專題：從模型視角看端側(cè)AI模型技術(shù)持續(xù)演進交互體驗有望升級_第5頁

已閱讀5頁，還剩50頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

專題

·從模型視角看端側(cè)Al模型技術(shù)持續(xù)演進，交互體驗有望升級西南證券研究發(fā)展中心海外研究團隊2024年7月口基礎(chǔ)的構(gòu)建：模型實現(xiàn)高效壓縮是端側(cè)AI的第一步。模型尺寸變小、同時具備較好性能，是端側(cè)AI的前提。目前，在10B參數(shù)規(guī)模以下的模型中，7B尺寸占據(jù)主流，3B及以下小模型仍在探索，部分小模型性能正逐步接近更大參數(shù)模型，如谷歌Gemini-Nano

模型在部分測試基準上接近Gemini-

Pro、MetaLlama-3-8B模型表現(xiàn)可與Llama-2-70B匹敵。模型廠商為兼顧模型尺寸與性能，在算

法優(yōu)化上進行積極探索，在模型壓縮技術(shù)、稀疏注意力機制、多頭注意力變體等領(lǐng)域取得持續(xù)進展，

幫助模型減少參數(shù)、降低存算需求，同時保持較好的性能，為端側(cè)AI

奠定小模型的基礎(chǔ)?？诼涞氐年P(guān)鍵：模型適配終端硬件是端側(cè)AI的第二步。小語言模型(SLM)不完全等于端側(cè)模型，在模型實現(xiàn)高效壓縮后，需要進一步與手機硬件進行適配，幫助小模型裝進終端。從眾多小模型論文

中可以發(fā)現(xiàn)，當(dāng)前主要存在內(nèi)存、功耗、算力三大硬件瓶頸。其中，蘋果在其論文《LLM

aflash》中指出，70億半精度參數(shù)的語言模型，完全加載進終端需要超過14GB

的DRAM

空間；Meta在其MobileLLM

模型論文中指出，一個約有5000焦耳滿電能量的iPhone,僅支持7B模型在10

tokens/秒的AI生成速率下對話不足2小時。為解決以上問題，手機芯片廠商正加速推進AI芯片研發(fā)，

在先進制程、內(nèi)存容量及帶寬、CPU

和GPU性能、以及AI服務(wù)器上發(fā)力，手機品牌商也將配備更高

性能的電池、散熱元器件，提升整體終端硬件能力，更好地支持AI模型?！躞w驗的突破：模型助力人機交互是端側(cè)AI的第三步。端側(cè)模型通常能夠支持用戶完成AI初級任務(wù)，

然而更豐富、更深度的交互體驗需要UI模型、云端模型、以及系統(tǒng)級AI進行有力支撐。其中，UI模

型可以提供手機UI界面理解的基礎(chǔ)，云端模型能夠幫助處理較為復(fù)雜的交互任務(wù)，系統(tǒng)級AI可以實

現(xiàn)多種模型間的調(diào)用與協(xié)同。在AI時代下，模型的端側(cè)意義不止于類似ChatGPT的聊天機器人軟件

而在于賦能手機系統(tǒng)和應(yīng)用交互的系統(tǒng)級AI,

其帶來的交互體驗將成為影響用戶換機的核心。從當(dāng)前的海外合作陣營來看，可分為“蘋果+OpenAI”和“谷歌+高通+三星”兩大陣營。未來，隨著端側(cè)模型、配套硬件、AI系統(tǒng)的持續(xù)發(fā)展，終端市場有望呈現(xiàn)更多可能?！跸嚓P(guān)標(biāo)的：蘋果(AAPL.O)、三星電子(005930.KS)、高通(QCOM.O)、谷歌(GOOGL.O)等?！?/p>

風(fēng)險提示：端側(cè)AI技術(shù)進展不及預(yù)期風(fēng)險；行業(yè)競爭加劇風(fēng)險；應(yīng)用開發(fā)不及預(yù)期風(fēng)險等。WWW.SWSC.C

核心觀點

2落地的關(guān)鍵：模型適配終端硬件是端側(cè)AI的第二步

1基礎(chǔ)的構(gòu)建：模型實現(xiàn)高效壓縮是端側(cè)AI的第一步

3體驗的突破：模型助力人機交互是端側(cè)AI第三步3.2系統(tǒng)級AI:

云端模型補充交互體驗，系統(tǒng)升級支持更多AI場景2.1從小模型論文看端側(cè)硬件瓶頸：內(nèi)存/功耗/算力2.2從芯片廠商布局看硬件升級趨勢：制程/內(nèi)存/NPU/

電池/散熱3.1

UI模型：手機界面理解能力提升，任務(wù)設(shè)計為人機交互奠定基礎(chǔ)1.1十億級參數(shù)模型加速迭代，性能表現(xiàn)向百億參數(shù)模型靠攏1.2模型壓縮技術(shù)助力端側(cè)部署，注意力優(yōu)化機制降低存算需求目

錄WWW.SWSC.C2GoogleTPUv4,TPUv5eGemma-2基于Gemma-1

優(yōu)化模型具體細節(jié)；Gemini-Nano

致力于在終端設(shè)備上運行；GQA

由谷歌創(chuàng)新提出MetaA100,H00Llama追求數(shù)據(jù)上的scalinglaw,

Llama-

3.1加入多模態(tài)/多語

言/長文本/實用工具

等能力；MobileLLM強調(diào)小模型的深度比寬度更重要MicrosoftA100,H100Phi-1專注于編碼；Phi-2

開始學(xué)習(xí)推

理

；Phi-3擅

長編碼和推

理；強調(diào)數(shù)據(jù)的小而精AppleA100,H100核心目標(biāo)在

于服務(wù)終端

設(shè)備及應(yīng)用Mistral算力租賃等歐

洲LLM領(lǐng)

先獨角獸

資料來源；谷歌，Meta,微軟，蘋果，Mistral,西南證券整理WWW.SWSC.C

3技術(shù)支持

技術(shù)支持模型

Gemma-2

Gemini-NanoLlama-3.1

MobileLLMPhi-3OpenELMMistral追求方向

追求方向?qū)⒛Ｐ痛笮嚎s至10B參數(shù)以下，性能向10B~100B級別參數(shù)的模型靠攏1模型實現(xiàn)高效壓縮是端側(cè)AI的第一步稀疏注意力機制：滑動窗口注意力機制、全局注意力機制等多頭注意力變體：分組查詢注意力機制、多頭

隱式注意力機制等公司訓(xùn)練GPU類型特點性能模型

模型壓縮：優(yōu)化

知識蒸餾、量技術(shù)

化、剪枝等海外小模型發(fā)展概況Flashattention等公司

模型名稱

發(fā)布日期

模型參數(shù)量(B)預(yù)訓(xùn)練數(shù)據(jù)量

Tokens)預(yù)訓(xùn)練數(shù)據(jù)量與模型參數(shù)量的比值GPU型號

預(yù)訓(xùn)練耗時GoogleGemma-2-9B2024年6月27日980008894096張TPUv4/Gemma-2-2.6B訓(xùn)練中2.62000769512張TPUv5e/Gemma-1-7B2024年2月21日2024年2月21日760008574096張TPUv5e/Gemma-1-2B230001500512張TPUv5e/Gemini-Nano-3.25B2023年12月6日2023年12月6日3.25//TPUv5e

TPUv4/Gemini-Nano-1.8B1.8//TPUv5e

TPUv5/MetaLlama-3-8B2024年4月18日8150001875H1001300000小時Llama-2-7B2023年7月18日772000286A100184320小時Llama-1-7B2023年2月24日1000143A10082432小時MobileLLM-125M

2024年2月22日0.125250250200032張A100/MobileLLM-350M

2024年2月22日0.3571432張A100微軟Phi-3-small-7B2024年4月23日2024年4月23日74800686Phi-3系列模型中的Phi-3-medium(14B)模型在512塊H100上訓(xùn)練耗時42天Phi-3-mini-3.8B3.8

3300868Phi-22023年12月12日2.7140051996塊A10014天Phi-1.52023年9月11日1.31.330723A1001500小時Phi-12023年6月20日54塊A1004天蘋果OpenELM-0.27B2024年4月25日2024年4月25日2024年4月25日2024年4月25日0.270.4515001500150015005556128塊A1003天OpenELM-0.45B3333128塊H1003天OpenELM-1.08B1.081389128塊A10011天OpenELM-3.04B3.04493128塊H10013天□發(fā)展節(jié)奏：24

小模型加速推出，Meta

Llama領(lǐng)先發(fā)布，微軟、谷歌相繼迭代，蘋果厚積薄發(fā)?！跄Ｐ蛥?shù)：7

B模型占據(jù)主流；3B及以下小模型進一步探索，其中蘋果小模型梯隊分布明顯?？谟?xùn)練數(shù)據(jù)：Meta

在有限參數(shù)下追求數(shù)據(jù)量上的scalinglaw;微軟專注小而精的數(shù)據(jù)集；蘋果旗下小模型的訓(xùn)練數(shù)據(jù)量與參數(shù)量的比值不低?！?/p>

算力消耗：23年GPU大多采用A100,24

年主要采用H100;谷歌使用自研TPU;

創(chuàng)企選擇上云等。

資料來源

；

各公司官網(wǎng)

，

西南證券整理WWW.SwSC.Com.cn1.1小模型24H1

加速迭代，模型性能持續(xù)提升23H2

及24H1

海外小模型版本迭代情況4模型測試基準

Gemma-1-2.5B

Gemma-2-2.6B

Mistral-7B

LLaMA-3-8B

Gemma-1-7B

Gemma-2-9BMMLU5-shot42.351.3

62.566.664.471.3ARC-C25-shot48.555.460.559.261.168.468.6GSM8K5-shot15.123.939.645.745.951.8AGIEval3-5-shot24.230.644.044.952.8DROP3-shot,F148.552.063.858.456.369.468.2BBH3-shot,CoT35.241.956.061.159.0Winogrande5-shot66.870.978.576.179.080.681.9HellaSwag10-shot71.773.083.082.0

82.3MATH4-shot11.815.0

12.724.336.6ARC-e0-shot73.280.1

80.581.588.0PIQA0-shot77.377.882.281.281.7SIQA0-shot49.751.947.051.853.4Boolq0-shot69.472.583.283.2

84.2TriviaQA5-shot53.259.462.563.476.6NQ5-shot12.516.723.223.029.2HumanEvalpass@122.017.726.232.340.2MBPP3-shot29.2

29.640.244.452.41.1.1谷歌Gemma系列模型：基于第一代模型架構(gòu)對技術(shù)細節(jié)進行優(yōu)化□基于干張TPU集群訓(xùn)練，模型性能在同類中較為領(lǐng)先。1)Gemma-2-9B:在4096張TPUv4上進

行訓(xùn)練，在多數(shù)基準中得分超過Llama-3-8B和Mistral-7B等同類模型，MMLU5-shot、GSM8K

5-shot的測試得分相較于前一代模型Gemma-1-7B

分別有11%和32%的增長。2)

Gemma-2-2.6B:

在512張TPUv5e上進行訓(xùn)練，沿用第—代模型架構(gòu)，對技術(shù)細節(jié)進一步優(yōu)化，Gemma-2-

2.6B模型較上—代Gemma-1-2.5B

模型在參數(shù)量基本不變和數(shù)據(jù)集更小的情況下實現(xiàn)更優(yōu)性能

MMLU

5-shot、GSM8K5-shot的測試得分相較于上一代模型分別有21%和58%的增長。

資料來源；谷歌，Meta,微軟，蘋果，西南證券整理WWW.SwSC.C谷歌Gemma系列模型性能情況5口專為設(shè)備部署而設(shè)計，擅長總結(jié)和閱讀理解。2023年12月6日，谷歌發(fā)布Gemini系列自研大模型，參數(shù)規(guī)模從大至小分別為Gemini-Ultra、Gemini-Pro、Gemini-Nano,其中Gemini-Nano

模型包

括兩種版本，Nano-1

參數(shù)規(guī)模為1.8B,Nano-2為3.25B,

旨在分別針對低內(nèi)存和高內(nèi)存的設(shè)備。Gemini-Nano-1和Nano-2模型與參數(shù)規(guī)模更大的Gemini-Pro模型對比來看：1)根據(jù)BoolQ

基準(主要用于衡量模型理解問題和回答問題的邏輯能力)得分，Gemini-Nano-1的準確率為71.6%

性能是Gemini-Pro的

,Gemini-Nano-2

的準確率為79.3%,是Gemini-Pro

的90%,更接近

Gemini-Pro的性能；2)TydiQA(GoldP)基準涉及回答復(fù)雜問題的能力，Gemini-Nano-1

和

Gemini-Nano-2

的準確率為68.9%和74.2%,分別是Gemini-Pro

的85%和91%,性能差距較小。>

Gemini-Nano-1

和Gemini-Nano-2

模型對比來看：隨著模型參數(shù)規(guī)模從Nano-1的1.8B增加至Nano-2的3.25B,

模型的性能表現(xiàn)在大多數(shù)任務(wù)性能均能得到提升。模型測試基準Gemini-Nano-1(1.8B)Gemini-Nano-2準確率(%)相對于Gemini

Pro的比例準確率(%)相對于Gemini

Pro的比例BoolQ71.681%79.390%TydiQA(GoldP)68.985%74.291%NaturalQuestions

(Retrieved)38.669%46.583%NaturalQuestions(Closed-book)18.843%24.856%BIG-Bench-Hard(3-shot)34.847%42.458%MBPP2033%27.245%MATH

(4-shot)13.541%22.870%MMLU

(5-shot)45.964%55.878%

資料來源

：

谷歌

，

西南證券整理WWw.SWSC.com.cn

61.1.2谷歌Gemini-Nano

系列模型：部分任務(wù)性能距Gemini

Pro較小谷歌Gemini-Nano

系列模型性能情況指標(biāo)Llama

3Llama

2模型階段類別基準Llama

370BLlama

38B

Llama

270B

Llama

27B預(yù)訓(xùn)練模型GeneralMMLU

(5-shot)79.566.669.745.7AGIEval

English

(3-5

shot)63.045.954.828.8CommonSenseQA

(7-shot)83.883.172.678.757.6Winogrande

(5-shot)76.181.873.3BIG-Bench

Hard

(3-shot,CoT)81.361.165.738.1ARC-Challenge

(25-shot)93.078.685.353.7Knowledge

reasoningTriviaQA-Wiki

(5-shot)89.778.587.572.172.2Reading

comprehensiveSQuAD(1-shot)85.676.4

826QuAC

(1-shot,F1)51.144.449.439.6BoolQ

(0-shot)79.079.775.773.165.5DROP

(3-shot,F1)58.470.237.9指令微調(diào)模型多任務(wù)語言理解推理MMLU

(5-shot)82.068.452.934.1專業(yè)知識推理能力GPQA(0-shot)39.534.221.021.7代碼生成能力HumanEval

(0-shot)81.762.225.67.9數(shù)學(xué)(小學(xué)數(shù)學(xué)問題)GSM-8K

(8-shot,CoT)93.079.657.525.7數(shù)學(xué)(數(shù)學(xué)工具和函數(shù))MATH

(4-shot,CoT)50.430.0

11.6

3.8□同等參數(shù)情況下性能大幅提升，較小模型可以通過擴大訓(xùn)練數(shù)據(jù)量實現(xiàn)優(yōu)秀性能。1)對比同等參數(shù)模型來看，Llama-3

的

8B和70B模型相對于Llama-2

的7B和70B模型性能均得到大幅提升。2

)

對

比Lama-3-8B

和Lama-2-70B

來看，在算力消耗基本持平的情況下，更好的模型性能可以通過在

更大規(guī)模的數(shù)據(jù)集上訓(xùn)練實現(xiàn)，Llama-3-8B模型的參數(shù)量約為Llama-2-70B的1/9,但訓(xùn)練數(shù)據(jù)集

是其7.5倍，最終的模型效果基本可與70B的模型相匹敵，且經(jīng)過指令微調(diào)后，指令微調(diào)模型Llama-

3-8B

明顯超過Llama270B。

資料來源

：

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2024 AI專題：從模型視角看端側(cè)AI模型技術(shù)持續(xù)演進交互體驗有望升級

文檔簡介

溫馨提示

最新文檔

評論

2024 AI專題：從模型視角看端側(cè)AI模型技術(shù)持續(xù)演進交互體驗有望升級

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔