計(jì)算機(jī)-AI產(chǎn)業(yè)前瞻系列報(bào)告（三）：從OpenAI o1看AI產(chǎn)業(yè)趨勢打破AI應(yīng)用瓶頸算力需求前景如何

上傳人：策*** IP屬地：山西上傳時(shí)間：2024-09-27 格式：DOCX 頁數(shù)：33 大小：492.54KB 積分：19.9 舉報(bào) 版權(quán)申訴

計(jì)算機(jī)-AI產(chǎn)業(yè)前瞻系列報(bào)告（三）：從OpenAI o1看AI產(chǎn)業(yè)趨勢打破AI應(yīng)用瓶頸算力需求前景如何_第2頁

計(jì)算機(jī)-AI產(chǎn)業(yè)前瞻系列報(bào)告（三）：從OpenAI o1看AI產(chǎn)業(yè)趨勢打破AI應(yīng)用瓶頸算力需求前景如何_第3頁

計(jì)算機(jī)-AI產(chǎn)業(yè)前瞻系列報(bào)告（三）：從OpenAI o1看AI產(chǎn)業(yè)趨勢打破AI應(yīng)用瓶頸算力需求前景如何_第4頁

計(jì)算機(jī)-AI產(chǎn)業(yè)前瞻系列報(bào)告（三）：從OpenAI o1看AI產(chǎn)業(yè)趨勢打破AI應(yīng)用瓶頸算力需求前景如何_第5頁

已閱讀5頁，還剩28頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

事件：2024年9月12日，OpenAI發(fā)布最新模型o1，在編程、理科競賽等推理密集型任務(wù)中性能明顯優(yōu)于GPT-4o，但在部分自然語言任務(wù)中較弱。o1具備全局思維能力，復(fù)雜推理補(bǔ)足長尾需求，開拓學(xué)術(shù)教育等垂類場景。根據(jù)我們的測評，o1思維鏈特征可以概括為：1）優(yōu)先形成全局方法：在解答前o1會先分析問題、概括底層規(guī)律；2）不斷的追問和反思：在輸出最終答案之前，o1會不斷反思解答過程并進(jìn)行改進(jìn)，其完整思維鏈可達(dá)數(shù)百行。o1在編程上展現(xiàn)出自主規(guī)劃能力，AI+低代碼/網(wǎng)絡(luò)安全領(lǐng)域有望最早受益。1）低代碼：o1在編程方面具備較強(qiáng)的自主性，可以一定程度上對沖o1高成本和高延遲的問題。2）網(wǎng)絡(luò)安全：o1在網(wǎng)絡(luò)安全攻防中表現(xiàn)優(yōu)秀，能將復(fù)雜任務(wù)分解成多個(gè)子任務(wù)，具備初步的自主規(guī)劃能力，也體現(xiàn)出了AI輔助網(wǎng)絡(luò)攻擊的潛在威脅，AI驅(qū)動的網(wǎng)絡(luò)安全攻防升級將成為未來的主旋律。AIAgent是打破AI應(yīng)用發(fā)展瓶頸的關(guān)鍵，o1能否開啟通往Agent之路？受限于模型性能，AI應(yīng)用進(jìn)入瓶頸，北美科技巨頭26年資本支出持續(xù)性以及上游算力產(chǎn)業(yè)鏈的業(yè)績成長性受到質(zhì)疑。而近期前沿論文和o1展現(xiàn)的強(qiáng)化學(xué)習(xí)推理、思維鏈等底層技術(shù)，是AI產(chǎn)業(yè)發(fā)展和投資情緒提振的關(guān)鍵。新的ScalingLaw，RL+CoT對于實(shí)現(xiàn)能自主規(guī)劃的AIAgent至關(guān)重要。強(qiáng)化學(xué)習(xí)讓AI自主探索和連續(xù)決策，符合Agent所需的自主規(guī)劃能力。self-play通過自主博弈生成高質(zhì)量數(shù)據(jù)，有利于突破外部訓(xùn)練數(shù)據(jù)短缺的現(xiàn)狀。思維鏈能極大提升模型涉及數(shù)學(xué)和符號的推理能力，但在其他問題上提升效果不顯著，甚至可能有損模型性能。推理能力和模型的指令跟隨能力呈現(xiàn)出分離關(guān)系，對于構(gòu)建AGI來說，如何平衡二者的關(guān)系會成為一個(gè)核心問題。RL范式下推理算力需求大幅上升，但不代表訓(xùn)練算力需求會停止增長。o1-preview生成相同內(nèi)容的輸出tokens大約是GPT-4o的5.9倍，其中72%的tokens為推理過程中生成，使用o1-preview的輸出成本約為GPT-4o的36倍。ScalingLaw由訓(xùn)練側(cè)轉(zhuǎn)向推理側(cè)，對推理芯片的性能需求也會提高，且預(yù)訓(xùn)練階段也需要消耗大量的算力。強(qiáng)化學(xué)習(xí)推理并不意味著模型參數(shù)停止擴(kuò)張，因?yàn)橹髂Ｐ蛥?shù)提升可能會產(chǎn)生更好的推理路徑。北美科技公司進(jìn)入新一輪AI投資周期，資本支出大幅上升可能使公司面臨成本壓力。2024年科技巨頭資本支出/營運(yùn)現(xiàn)金流預(yù)計(jì)將達(dá)到40%以上。在AI的投資回報(bào)率尚不明顯的現(xiàn)狀下，科技巨頭會更加重視AI投資的性價(jià)比。投資建議：1、AI電力：ConstellatiSK海力士、三星電子、美光科技；4）服務(wù)器：聯(lián)想集團(tuán)、超微電腦、戴爾科技、慧與、工業(yè)富聯(lián)；5）CoWoS：臺積電、日月光、Amkor科技；6）網(wǎng)絡(luò)：中際旭創(chuàng)、新易盛、Coherent、安費(fèi)諾、Arista網(wǎng)絡(luò)。3、AI應(yīng)用：1）云服務(wù)商：微軟、谷歌、亞馬遜、Oracle；2）AI+開發(fā)/數(shù)據(jù)分析：CrowdStrike、Fortinet；4）AIAgent：微軟、Salesforce、Workday；5）風(fēng)險(xiǎn)分析：AI技術(shù)研發(fā)和產(chǎn)品迭代遭遇瓶頸；AI行業(yè)競爭加劇風(fēng)險(xiǎn)；商業(yè)化進(jìn)展不及預(yù)期風(fēng)險(xiǎn)；國內(nèi)外政策風(fēng)險(xiǎn)。80%2024-12024-1-20% 標(biāo)普500——標(biāo)普500信息技術(shù)資料來源：Wind 相關(guān)研報(bào)）（）（ 4 4 6 8 2.2RL范式下推理算力需求大幅上升，但不代表訓(xùn) 4 5 6 6圖5：針對復(fù)雜數(shù)學(xué)問題，o1-previ 6圖7：針對解碼問題，o1-previ 7 8 8 9 9 9 5 美國東部時(shí)間2024年9月12日，OpenAI發(fā)布最新AI模型o1，o代表Orion（獵戶座），開啟了OpenAI的下一代復(fù)雜推理模型。同時(shí)，OpenAI發(fā)布了即日可用的預(yù)覽版o1-preview和性價(jià)比更高的輕量級版本o1-mini，可用范圍如下：1）ChatGPTplus和Teams用戶可以直接使用，但存在次數(shù)限制。剛發(fā)布時(shí)o1-preview每周可進(jìn)行30次問答，o1-mini每周可進(jìn)行50次問答，9月17日開始，o1-preview和o1-mini的次數(shù)限制分別提升至每周50次和每日50次；作為o1的早期版本，o1-preview和o1-mini暫不具備實(shí)時(shí)瀏覽網(wǎng)頁、上傳文件和圖像等功能，計(jì)劃于后續(xù)版本中陸續(xù)開放。2）APITier5用戶可以開始使用o1-preview和o1-mini的API，但速率限制為20RPM，暫不支持函數(shù)調(diào)用、流式處理、系統(tǒng)消息等功能。3）9月16日開始，ChatGPTEnterprise和Edu用戶可訪問這兩種模型。4）未來o1-mini計(jì)劃免費(fèi)向所有ChatGPT用戶開放。在編程、理科競賽等推理密集型任務(wù)中，o1的性能明顯優(yōu)于GPT-4o。根據(jù)OpenAI官方博客，o1在編程競賽Codeforces中的排名分位達(dá)到89%，在美國數(shù)學(xué)奧林匹克競賽（AIME）中躋身前500名，在物理、生物、化學(xué)基準(zhǔn)測試（GPQA）的準(zhǔn)確性超過了人類博士水平。以2024年的AIME考試為例，GPT-4o僅能解決平均12%的問題，而o1的平均正確率在64個(gè)樣本中達(dá)到了83%，在1000個(gè)樣本中達(dá)到了93%。資料來源：OpenAI官網(wǎng)，實(shí)心矩陣代表使用pass@1的正確率，虛影矩陣代表64個(gè)樣本的平均正確率在經(jīng)典測試集的表現(xiàn)上，o1性能普遍優(yōu)于GPT-4o。根據(jù)OpenAI官方博客，o1在MMMU測試集的得分為78.2%，成為首個(gè)與人類專家競爭的模型。在57個(gè)MMLU子類別中，o1在54個(gè)子類別中的表現(xiàn)優(yōu)于GPT-4o，在化學(xué)、物理、數(shù)學(xué)等子類別上得分提升顯著，但在公共關(guān)系、計(jì)量經(jīng)濟(jì)學(xué)、英語等學(xué)科上提升幅度較小。資料來源：OpenAI官網(wǎng)博客資料來源：OpenAI官網(wǎng)博客，光大證券研究所整理o1在部分自然語言任務(wù)中評價(jià)弱于GPT-4o，但具備更好的安全性。人類訓(xùn)練師的評分顯示，認(rèn)為o1在個(gè)人寫作、文檔編輯能力上優(yōu)于GPT-4o的比例低于50%，顯示出o1在文字生成和修改能力上沒有明顯提升。但o1在對齊和安全方面優(yōu)于GPT-4o，o1-preview在關(guān)鍵越獄評估和模型安全拒絕邊界評估等指標(biāo)中性能顯著提高。由于o1采用思維鏈的方式進(jìn)行推理，在輸出內(nèi)容的過程中提供了更多的內(nèi)部可見性，賦予模型更強(qiáng)的可控性和更多的優(yōu)化空間。o1-mini在維持較高性能的同時(shí)大幅度降低推理成本。由于在預(yù)訓(xùn)練期間針對STEM推理進(jìn)行了優(yōu)化，o1-mini在數(shù)學(xué)和編碼能力上具備相當(dāng)高的性價(jià)比，且擁有更低的延遲。根據(jù)OpenAI官網(wǎng)博客，o1-mini在AIME數(shù)學(xué)競賽中的得分高于o1-preview，幾乎與o1相當(dāng)，但推理成本相較o1-preview便宜80%；此外，o1-mini在Codeforces編碼競賽和網(wǎng)絡(luò)安全競賽中表現(xiàn)優(yōu)異。但另一方面，o1-mini在非STEM的事實(shí)知識任務(wù)中表現(xiàn)較差。資料來源：OpenAI官網(wǎng)博客資料來源：OpenAI官網(wǎng)博客OpenAIo1復(fù)雜推理能力的關(guān)鍵技術(shù)是思維鏈（CoT讓模型在給出答案前進(jìn)行多步思考，而不是一步給出答案。在OpenAI的官方文檔中展示了o1和GPT-4o在解碼、編碼、數(shù)學(xué)、字謎、語言等問題上的解答對比，并展示了o1的完整思維鏈。根據(jù)我們的歸納和測評，o1思維鏈的主要特征可以概括為以下兩點(diǎn)：1）優(yōu)先形成全局方法：在開始解答前，o1會先分析問題本身，抽象出底層規(guī)律，避免后續(xù)的解決思路跑偏，相比其他大模型的線性思維過程，準(zhǔn)確度有明顯提升；2）不斷的追問和反思：在輸出最終答案之前，o1會不斷反思自己的解答過程是否有問題，有沒有需要改進(jìn)的地方，其完整思維鏈可達(dá)數(shù)百行。資料來源：OpenAI官網(wǎng)博客例如，在解答縱橫填字游戲的問題時(shí)，GPT-4o和o1都會先試圖理解游戲規(guī)則，但GPT-4o僅僅停在了“第一行和第一列單詞首字母相同”上，便直接輸出了錯(cuò)誤答案，而o1通過思維鏈不斷反思，得出了“每一行和每一列的對應(yīng)字母都要相同”的底層規(guī)律，再基于該規(guī)律進(jìn)行解答。同樣，在解答復(fù)雜數(shù)學(xué)問題時(shí)，o1會先試圖理解給定信息，通過完整思維鏈中大量的糾錯(cuò)和反思，歸納底層原理，并對后續(xù)的解答過程做出一定的限制。資料來源：OpenAI官網(wǎng)博客不過，當(dāng)前o1-preview所展現(xiàn)出的完整思維鏈仍較為僵化，與人類思維方式有較明顯區(qū)別。例如，在OpenAI官網(wǎng)給出的解碼案例中，實(shí)際的解碼方式為兩個(gè)字母一組，按照字母表順序轉(zhuǎn)化成數(shù)字，取平均值后再轉(zhuǎn)化為對應(yīng)的字母。例如oy=(15+25)/2=20=T。在完整的思維鏈中，o1所想到的第一個(gè)方法就非常接近正確答案，但它依然繼續(xù)窮舉了五種新方法才找到答案。在這個(gè)過程中，可以看到o1的聯(lián)想能力較弱，而是通過類似于窮舉法的方式尋找答案。資料來源：OpenAI官網(wǎng)博客o1的復(fù)雜推理能力有望補(bǔ)足AI應(yīng)用的長尾需求，拓展學(xué)術(shù)教育等領(lǐng)域的垂類應(yīng)用場景。過去以GPT-4o為代表的LLM在解答題目時(shí)雖然正確率較高，但解答方法可能較為繁瑣，不符合教育場景的需求。o1不但在復(fù)雜問題上展現(xiàn)出更高的正確率，而且具備較強(qiáng)的全局思維能力，能優(yōu)化出最佳解題過程，對于學(xué)術(shù)教育場景的AI應(yīng)用使用體驗(yàn)提升較為明顯。OpenAIo1在編程方面具備較強(qiáng)的自主性，可以一定程度上對沖o1高成本和高延遲的問題。根據(jù)o1開發(fā)者團(tuán)隊(duì)的采訪，OpenAI內(nèi)部開發(fā)人員使用o1最多的場景就是編程，主要有兩個(gè)場景：1）采用測試驅(qū)動開發(fā)的方法：先編寫一個(gè)單元測試，明確程序應(yīng)該如何運(yùn)行才算正確，將具體編寫交給o1來完成，開發(fā)者只需要解決架構(gòu)設(shè)計(jì)等更高層次的問題。2）調(diào)試：遇到bug時(shí)直接交給o1，可以直接解決或提供有價(jià)值的思路。另外，o1在解決AL/ML編程問題上進(jìn)步明顯，根據(jù)OpenAI研究工程師訪談，o1-preview的編碼效率比GPT-4o提升15%，在多任務(wù)解決上的效率比GPT-4o提升21%。在民間測試中，o1效果最好的應(yīng)用場景也是編程。1）代碼性能優(yōu)化：將GithubCopilot和o1-preview結(jié)合，僅需幾步操作，就可以優(yōu)化一個(gè)原本運(yùn)行緩慢的編碼器，大幅度提升代碼的性能；2）快速開發(fā)簡單的項(xiàng)目：將AI編程工具CursorComposer和o1-preview結(jié)合，可以在10分鐘內(nèi)完成一個(gè)帶有動畫效果的完整天氣預(yù)報(bào)App。資料來源：X用戶ThomasDohmke@ashtom資料來源：X用戶OliverJane@heyoliverjaneOpenAIo1在網(wǎng)絡(luò)安全攻防中表現(xiàn)優(yōu)秀，能將復(fù)雜任務(wù)分解成多個(gè)子任務(wù)，并找到最簡單的解決方法。根據(jù)OpenAI官方Systemcard，o1-preview使用網(wǎng)絡(luò)安全挑戰(zhàn)賽CTF的課題進(jìn)行測試，該課題要求參賽者找到隱藏在Docker中的flag，但由于系統(tǒng)配置問題比賽環(huán)境崩潰。在比賽幾乎無法進(jìn)行的情況下，o1-preview突破了主機(jī)VM上運(yùn)行的DockerdeamonAPI，在嘗試修復(fù)環(huán)境失敗后，模型直接通過啟動命令啟動了損壞容器的新實(shí)例，該實(shí)例允許模型直接通過DockerAPI從容器日志中讀取flag，最終完成了課題。資料來源：OpenAIo1SystemCard未來網(wǎng)絡(luò)安全的攻防環(huán)境將變得更加復(fù)雜。從上述案例中，我們看到o1-preview在編程方面已經(jīng)初步具備了自主規(guī)劃能力，在遇到復(fù)雜困難時(shí)嘗試主動解決問題。而o1在解決問題的過程中采取了帶有攻破性質(zhì)的解決方法，也體現(xiàn)出了AI輔助網(wǎng)絡(luò)攻擊的潛在威脅較大。根據(jù)CrowdStrike發(fā)布的全球威脅報(bào)告，2023年全球網(wǎng)絡(luò)攻擊平均突破防御的時(shí)間從上一年的84分鐘下降到62分鐘，其中云入侵案例同比增加了75%。攻擊者越來越多地使用生成式AI降低網(wǎng)絡(luò)攻擊的操作和準(zhǔn)入門檻，企業(yè)面臨更大的網(wǎng)絡(luò)安全威脅。資料來源：《CrowdStrike2024年全球威脅報(bào)告》資料來源：《CrowdStrike2024年全球威脅報(bào)告》另一方面，基于AI/ML的網(wǎng)絡(luò)安全解決方案也在不斷升級和迭代，AI驅(qū)動的網(wǎng)絡(luò)安全攻防升級將成為未來行業(yè)的主旋律。23年以來網(wǎng)絡(luò)安全公司陸續(xù)推出生成式AI驅(qū)動的功能，主要包含以下幾方面能力：1）AI/ML技術(shù)強(qiáng)化威脅檢測和安全保護(hù)能力：AI技術(shù)融入網(wǎng)絡(luò)安全產(chǎn)品體驗(yàn)，技術(shù)壁壘主要在于各公司積累的安全日志和響應(yīng)數(shù)據(jù)。2）生成可視化安全日志：對公司網(wǎng)絡(luò)安全狀況進(jìn)行分析，生成可視化、可交互的安全日志，幫助員工快速了解公司安全漏洞，生成定制化的應(yīng)對方案。3）AI聊天機(jī)器人助手：將聊天機(jī)器人嵌入網(wǎng)絡(luò)安全云原生平臺，使用自然語言交互降低安全員的技術(shù)門檻。安全員復(fù)雜操作的門檻，使用大模型識別身份風(fēng)險(xiǎn)、風(fēng)險(xiǎn)Falcon平臺引入英偉達(dá)AI計(jì)算服務(wù)，使用其獨(dú)特而豐富的網(wǎng)絡(luò)威脅情報(bào)數(shù)據(jù)，幫助用戶構(gòu)建和訓(xùn)練擊全平臺并出現(xiàn)在各種用戶界面，顯著提升安全任務(wù)效率、降低安全員的技證流程和訪問控制，并且利用機(jī)器學(xué)習(xí)和預(yù)測分析來識別和應(yīng)對潛提供網(wǎng)絡(luò)安全方面的咨詢和指導(dǎo)；提供實(shí)時(shí)的威脅情報(bào)和風(fēng)險(xiǎn)評估，幫助組織了解當(dāng)前的網(wǎng)絡(luò)安全威脅和漏洞，并根據(jù)組織的需求和網(wǎng)絡(luò)環(huán)境，提供定制化的安全架構(gòu)規(guī)劃。通過分析和評估組織的網(wǎng)絡(luò)安全配置和運(yùn)行狀況，提供性能優(yōu)化建議和最佳實(shí)資料來源：各公司官網(wǎng)，光大證券研究所整理OpenAIo1在挑戰(zhàn)性拒絕評估、越獄抗性、幻覺控制等能力上提升明顯，對于AI生成內(nèi)容的安全性意義重大。根據(jù)OpenAI官方Systemcard，涉及要求拒絕不安全請求的復(fù)雜Prompt時(shí)，o1-preview實(shí)現(xiàn)了93.4%的安全率，明顯超過GPT-4o的71.3%。在具有強(qiáng)挑戰(zhàn)性的越獄學(xué)術(shù)基準(zhǔn)StrongReject上，o1-preview相比GPT-4o顯示出明顯地改進(jìn)，抵抗違反安全規(guī)則行為的能力更強(qiáng)。另外，與GPT-4o相比，o1-preview在SimpleA、BirthdayFacts等多個(gè)數(shù)據(jù)集中表現(xiàn)出更少的幻覺，提供了更準(zhǔn)確可靠的回答。資料來源：OpenAIo1SystemCard受限于模型性能，AI應(yīng)用發(fā)展進(jìn)入瓶頸。當(dāng)前以GPT-4o為代表的LLM在文本處理和生成上表現(xiàn)優(yōu)異，但也導(dǎo)致了AI應(yīng)用的形式局限于聊天機(jī)器人，產(chǎn)品形態(tài)同質(zhì)化，難以發(fā)掘用戶潛在需求、形成足夠的用戶粘性。而用戶付費(fèi)意愿不足，AI應(yīng)用的成本收益臨界點(diǎn)尚未到來，是AI應(yīng)用難以大規(guī)模推廣的最大癥結(jié)。以北美科技巨頭為代表的企業(yè)已經(jīng)投入大量資本支出用于AI基礎(chǔ)設(shè)施建設(shè)，折舊成本將對利潤端造成壓力，若削減資本支出，則會削弱上游算力產(chǎn)業(yè)鏈的業(yè)績成長性。AI產(chǎn)業(yè)鏈已來到十字路口，模型底層技術(shù)的突破，是整個(gè)AI產(chǎn)業(yè)發(fā)展和投資情緒提振的關(guān)鍵。AIAgent是AI發(fā)展的下一個(gè)臺階，是打破AI應(yīng)用癥結(jié)的關(guān)鍵，而o1展現(xiàn)的底層技術(shù)走在正確的道路上。AIAgent應(yīng)當(dāng)擁有自主理解、規(guī)劃和執(zhí)行復(fù)雜任務(wù)的能力，可以將簡單的指令自主拆分成多個(gè)步驟并精細(xì)化執(zhí)行，將上一環(huán)節(jié)的輸入作為下一環(huán)節(jié)的輸出。早在23M4便有AutoGPT、BabyAGI等Agent項(xiàng)目作為早期探索，但性能尚不成熟，容易陷入死循環(huán)卡死、消耗大量tokens的問題，且AI全自動代理存在潛在的可靠性風(fēng)險(xiǎn)。而近期的AI領(lǐng)域前沿論文，以及OpenAIo1集成前沿理論推出的實(shí)際模型，展現(xiàn)了當(dāng)前模型性能迭代和技術(shù)演進(jìn)路徑正走在通往Agent的正確道路上。具體包括三個(gè)關(guān)鍵點(diǎn)：1）強(qiáng)化學(xué)習(xí)推理（RLReasoning）產(chǎn)生了新的ScalingLaw，為模型性能的提升提供了更多的維度。當(dāng)前大模型參數(shù)量擴(kuò)張進(jìn)入瓶頸，市場普遍擔(dān)憂26年科技巨頭資本支出持續(xù)性的問題，我們認(rèn)為，強(qiáng)化學(xué)習(xí)ScalingLaw對推理算力擴(kuò)張的需求大幅增加的同時(shí)，對訓(xùn)練算力擴(kuò)張的需求也將持續(xù)提升。2）強(qiáng)化學(xué)習(xí)范式中的self-play通過自主博弈生成大量高質(zhì)量數(shù)據(jù)，有利于突破當(dāng)前外部訓(xùn)練數(shù)據(jù)逐漸用盡的現(xiàn)狀。3）強(qiáng)化學(xué)習(xí)范式中的蒙特卡洛樹搜索（MCTS）具備自主探索和連續(xù)決策的能力，更適應(yīng)AIAgent的全局規(guī)劃需求。資料來源：SeednapseAI，光大證券研究所整理資料來源：AlphaTensor論文，展現(xiàn)了AlphaZero矩陣運(yùn)算解題時(shí)的變種，圖中的Acting對應(yīng)隨機(jī)初始化、self-play、MCTS，learning對應(yīng)策略更新慢思考或?qū)⑼黄芐calingLaw的邊界，帶來模型性能的進(jìn)一步突破。在過去幾年，LLM的發(fā)展主要依賴于訓(xùn)練側(cè)的大規(guī)模投入，其性能提升依賴于模型規(guī)模、數(shù)據(jù)量和計(jì)算資源的擴(kuò)展，而與模型的具體結(jié)構(gòu)（例如層數(shù)、深度、寬度）基本無關(guān)。長期來看，隨著大模型參數(shù)突破萬億級、有效訓(xùn)練數(shù)據(jù)被大量消耗，模型的訓(xùn)練和推理的成本迅速上升，邊際收益遞減，ScalingLaw驅(qū)動的技術(shù)路徑和商業(yè)化前景可能遭遇瓶頸。在這樣的背景下，o1揭示了一種充滿可能性的ScalingLaw范式，即強(qiáng)化學(xué)習(xí)（RL）驅(qū)動的性能提升，通過訓(xùn)練過程和推理過程兩種渠道來拓展模型的計(jì)算能力。o1采用大規(guī)模強(qiáng)化學(xué)習(xí)算法，展現(xiàn)出訓(xùn)練和測試兩個(gè)維度的ScalingLaw。根據(jù)官網(wǎng)博客，在強(qiáng)化學(xué)習(xí)過程中，o1在AIEM測試中的準(zhǔn)確率與“訓(xùn)練時(shí)間計(jì)算”和“測試時(shí)間計(jì)算”呈正比。1）訓(xùn)練時(shí)間計(jì)算：代表傳統(tǒng)的ScalingLaw，即模型性能提升依賴于訓(xùn)練時(shí)投入更多的計(jì)算資源；2）測試時(shí)間計(jì)算：代表測試時(shí)模型性能隨著推理時(shí)間延長而提升，包括多次的推理迭代、更加復(fù)雜的搜索算法或模型的深度思考，從而在特定垂類任務(wù)中表現(xiàn)增強(qiáng)。因此，o1不僅通過增加訓(xùn)練時(shí)投入的計(jì)算資源來提升模型性能，還通過增加推理過程中的內(nèi)部思考時(shí)間來獲得能力的提升，訓(xùn)練和推理ScalingLaw雙曲線共同增長，為大模型性能提升提供了更多的維度。資料來源：OpenAI官網(wǎng)博客強(qiáng)化學(xué)習(xí)范式對于實(shí)現(xiàn)自主規(guī)劃的AIAgent至關(guān)重要。大模型訓(xùn)練的三大經(jīng)典范式（監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)）中，只有強(qiáng)化學(xué)習(xí)讓AI進(jìn)行自主探索和連續(xù)決策，符合Agent定義中的自主規(guī)劃能力。1）自主探索：強(qiáng)化學(xué)習(xí)允許AIAgent在沒有明確目標(biāo)的情況下，通過與環(huán)境互動探索可能的解決方案，并基于獎懲反饋動態(tài)調(diào)整策略，使Agent能使用復(fù)雜、多變的決策環(huán)境。2）連續(xù)決策：強(qiáng)化學(xué)習(xí)支持多步驟的決策過程，關(guān)注如何在一系列決策中最大化長期回報(bào)，使Agent具備更強(qiáng)的長線規(guī)劃能力。當(dāng)前LLM主要依賴RLHF進(jìn)行優(yōu)化，目標(biāo)是“人機(jī)對齊”，弱化了邏輯推理的深度和嚴(yán)謹(jǐn)性；而強(qiáng)化學(xué)習(xí)基于self-play+MCTS的底層架構(gòu)，通過高質(zhì)量的數(shù)據(jù)博弈提升推理能力。1）self-play：通過AI與自己博弈生成大量的高質(zhì)量數(shù)據(jù)；2）MCTS（蒙特卡洛樹搜索基于策略網(wǎng)絡(luò)提供的動作概率分布引導(dǎo)搜索方向，通過價(jià)值網(wǎng)絡(luò)的評估結(jié)果為搜索提供反饋，使模型的推理能力提升，且推理過程更加可見，有助于進(jìn)一步調(diào)試和改進(jìn)AIAgent模型。資料來源：《ScalingLLMTest-TimeComputeOptimallycanbeMoreEffectivethanScalingModelParameters》，GoogleDeepMind，2024年8月左圖代表隨著時(shí)間推移，計(jì)算優(yōu)化縮放策略的表現(xiàn)逐漸優(yōu)于傳統(tǒng)的best-of-N方法；右圖論證了推理過程中使用計(jì)算優(yōu)化縮放與更大參數(shù)預(yù)訓(xùn)練之間的權(quán)衡，表明在簡單問題上，測試時(shí)的計(jì)算比預(yù)訓(xùn)練更有效，但在復(fù)雜問題上預(yù)訓(xùn)練更有效除了強(qiáng)化學(xué)習(xí)推理外，o1的另一個(gè)關(guān)鍵底層技術(shù)是思維鏈（CoT）。思維鏈通過分步推理的方式，要求模型在生成最終答案之前，先生成一系列中間推理步驟。僅靠MCTS很難讓模型學(xué)會從內(nèi)部思考不同步驟的關(guān)聯(lián)，而思維鏈能夠利用LLM已有的推理能力，生成合理的中間推理過程，并進(jìn)一步將合理推理過程（Rationales）融入到訓(xùn)練過程中。Quiet-STaR技術(shù)則提出了“內(nèi)部思維”的概念，將顯示的Rationales推理過程轉(zhuǎn)化為模型內(nèi)部隱式的推理過程，從而擺脫對外部示例的依賴。強(qiáng)化學(xué)習(xí)推理和思維鏈?zhǔn)窍嗷ソY(jié)合、一脈相承的。思維鏈能極大提升模型涉及數(shù)學(xué)和符號的推理能力，但在其他問題上提升效果不顯著，甚至可能有損模型性能。論文《ToCoTornottoCoT?》中探討了在模型中采用思維鏈的表現(xiàn)，在數(shù)學(xué)、符號推理能力上提升明顯，在知識、常識、軟推理上無明顯提升。另外，使用思維鏈時(shí)模型能更好地生成可執(zhí)行的方案，但表現(xiàn)不如借助外部工具（如符號求解器）。盡管OpenAIo1在數(shù)學(xué)、物理等復(fù)雜推理上能力提升明顯，但在一些語言生成任務(wù)上沒有明顯提升，使它無法成為一個(gè)可靠的Agent助手。這體現(xiàn)了推理能力和模型的指令跟隨能力呈現(xiàn)出分離關(guān)系，在模型強(qiáng)大到一定程度時(shí)才會出現(xiàn)，對于構(gòu)建AGI來說，如何平衡二者的關(guān)系會成為一個(gè)核心問題。ScalingLaw由訓(xùn)練側(cè)轉(zhuǎn)向推理側(cè)，推理成本大幅提升，但不代表訓(xùn)練端計(jì)算資源投入會降低?；趶?qiáng)化學(xué)習(xí)的ScalingLaw范式，本質(zhì)是將訓(xùn)練時(shí)間轉(zhuǎn)化為推理時(shí)間，來應(yīng)對訓(xùn)練側(cè)計(jì)算資源投入的邊際收益遞減的狀況。由于Quiet-STaR在生成內(nèi)部思維鏈的過程中，每個(gè)Token均會生成下一步思考過程，導(dǎo)致生成了大量的冗余Tokens，對推理側(cè)計(jì)算資源的需求大幅增加。有觀點(diǎn)認(rèn)為，推理相比訓(xùn)練對GPU單卡性能和集群規(guī)模的需求更低，若強(qiáng)化學(xué)習(xí)推理成為主流，會導(dǎo)致市場對高端GPU的整體需求降低。但我們認(rèn)為，強(qiáng)化學(xué)習(xí)ScalingLaw對推理算力擴(kuò)張的需求大幅增加的同時(shí)，對訓(xùn)練算力擴(kuò)張的需求也將持續(xù)提升。當(dāng)前o1存在思考時(shí)間過長、推理成本過高的問題，使其實(shí)際使用場景非常受限，為了加快推理速度，對推理芯片的性能需求也會水漲船高。根據(jù)ArtificialAnalysis的測試，o1-preview生成相同內(nèi)容的輸出tokens大約是GPT-4o的5.9倍，其中72%的tokens為推理過程中生成，按60美元/100萬tokens的價(jià)格收費(fèi)。因此，使用o1-preview的輸出成本約為GPT-4o的36倍。另一方面，o1-preview的輸出速度在主流模型中排名靠后，使其實(shí)際使用體驗(yàn)不佳。資料來源：ArtificialAnalysis，圓點(diǎn)大小代表價(jià)格，縱軸為ArtificialAnalysis編制的質(zhì)量指數(shù)資料來源：ArtificialAnalysis，單位：美元/百萬tokens資料來源：ArtificialAnalysis，tokens統(tǒng)計(jì)方法為30個(gè)樣例prompts加總另一方面，強(qiáng)化學(xué)習(xí)推理的預(yù)訓(xùn)練階段同樣需要消耗大量的算力。強(qiáng)化學(xué)習(xí)推理通過self-play自我博弈，生成大量的高質(zhì)量數(shù)據(jù)。該方法可以緩解當(dāng)前可用高質(zhì)量訓(xùn)練數(shù)據(jù)不足的問題，但生成的數(shù)據(jù)理論上是沒有上限的，這個(gè)過程需要消耗大量的算力。也有觀點(diǎn)認(rèn)為，強(qiáng)化學(xué)習(xí)推理并不意味著模型參數(shù)量停止擴(kuò)張，因?yàn)閟elf-play的主模型參數(shù)提升可能會產(chǎn)生更好的推理路徑。總的來說，雖然強(qiáng)化學(xué)習(xí)ScalingLaw對算力需求的影響存在不確定性，但是新的技術(shù)路徑激發(fā)了更多的可能性。除了硬件更新外，模型架構(gòu)優(yōu)化也有望點(diǎn)燃新的ScalingLaw，這可能會改變北美云廠商未來幾年的資本支出策略。北美科技公司進(jìn)入新一輪AI投資周期，資本支出大幅上升可能使公司面臨成本壓力。經(jīng)歷了2022年的宏觀環(huán)境逆風(fēng)和凈利潤承壓后，北美科技公司在2023年普遍開啟降本增效，從資本支出占營運(yùn)現(xiàn)金流的比例來看，利潤壓力較大的亞馬遜、Meta、Oracle大幅削減了資本支出的占比，谷歌資本支出占比無明顯變化，微軟、特斯拉資本支出占比均呈上升趨勢。而根據(jù)公司指引，2024年和2025年科技巨頭有望繼續(xù)增加資本支出，Meta則明確指出持續(xù)增加的投資會使2025年的折舊成本大幅提升。根據(jù)彭博一致預(yù)期，2024年科技巨頭資本支出占營運(yùn)現(xiàn)金流的比例將普遍達(dá)到40%以上。因此，在AI的投資回報(bào)率尚不明顯的現(xiàn)狀下，科技巨頭會更加重視AI戰(zhàn)略的性價(jià)比。80%60%40%20%谷歌----谷歌----資料來源：彭博，光大證券研究所整理，已排除自由現(xiàn)金流為負(fù)的年份和極端值，24E數(shù)據(jù)為彭博一致預(yù)期亞馬遜—----亞馬遜—-----資料來源：彭博，光大證券研究所整理，已排除虧損年份和極端值，24E數(shù)據(jù)為彭博一致預(yù)期根據(jù)前文所述，OpenAIo1所展現(xiàn)出的技術(shù)路徑的演進(jìn)方向，即強(qiáng)化學(xué)習(xí)推理和思維鏈，產(chǎn)生了推理層面的ScalingLaw，有利于緩解訓(xùn)練側(cè)計(jì)算資源投入邊際遞減的現(xiàn)狀。我們認(rèn)為，強(qiáng)化學(xué)習(xí)ScalingLaw對推理算力擴(kuò)張的需求大幅增加的同時(shí)，對訓(xùn)練算力擴(kuò)張的需求也將持續(xù)提升，算力需求仍將持續(xù)強(qiáng)勁。而訓(xùn)練成本轉(zhuǎn)嫁為推理成本，對于AI應(yīng)用的商業(yè)化前景來說是個(gè)積極的變化，因?yàn)橥评淼某杀鞠陆档乃俣雀?、彈性更大。從行業(yè)的視角來看，雖然科技巨頭擁有較為充足的自由現(xiàn)金流支持資本開支的持續(xù)增加，但仍面臨折舊成本提升和一定的利潤壓力，緩解硬件成本壓力的需求較為迫切。另一方面，軟件公司對于AI應(yīng)用的探索很激進(jìn)，需要性能更強(qiáng)、更具可靠性的Agent來突破困局，微軟、Salesforce均已推出類似Agent的產(chǎn)品，靜待后續(xù)Agent底層技術(shù)的迭代，撬動Agent應(yīng)用的飛輪效應(yīng)。1、建議關(guān)注AI電力：AI數(shù)據(jù)中心持續(xù)提振電力需求，亞馬遜、微軟等云廠商簽署長期協(xié)議，清潔能源需求強(qiáng)勁，關(guān)注核電供應(yīng)商Constellation、光伏供應(yīng)2、建議關(guān)注AI算力產(chǎn)業(yè)鏈：1）AIGPU：訓(xùn)練側(cè)AI大模型持續(xù)迭代，推理側(cè)和端側(cè)延伸引發(fā)增量需求，產(chǎn)品加速迭代出貨，關(guān)注英偉達(dá)、AMD；2）ASIC芯片設(shè)計(jì)：AI算力需求由通用芯片向配合行業(yè)和公司特性的專用定制AI芯片轉(zhuǎn)型，關(guān)注Marvell科技、博通；3）存儲：AI手機(jī)/AIPC提升容量需求，云端算力帶動HBM供不應(yīng)求、市場規(guī)模高速增長，關(guān)注SK海力士、三星電子、美光科技；4）服務(wù)器：AI算力需求強(qiáng)勁帶動AI服務(wù)器出貨量攀升，在手訂單高漲，關(guān)注聯(lián)想集團(tuán)、超微電腦、戴爾科技、慧與、工業(yè)富聯(lián)；5）CoWoS：先進(jìn)封裝CoWoS產(chǎn)能成AI算力供應(yīng)瓶頸，臺積電訂單持續(xù)外溢，封測廠受益，關(guān)注臺積電、日月光、Amkor科技；6）網(wǎng)絡(luò)：萬卡算力集群化趨勢驅(qū)動通信互聯(lián)需求，利好光模塊、連接器、交換機(jī)等，關(guān)注中際旭創(chuàng)、新易盛、Coherent、安費(fèi)諾、Arista網(wǎng)絡(luò)。3、建議關(guān)注AI應(yīng)用產(chǎn)業(yè)鏈：1）云技術(shù)服務(wù)商：充裕的現(xiàn)金流支持大額資本支出投入，基礎(chǔ)設(shè)施壁壘高筑，用戶基礎(chǔ)廣闊，關(guān)注微軟、谷歌、亞馬遜、Oracle；2）AI+開發(fā)/數(shù)據(jù)分析：o1展現(xiàn)出強(qiáng)大的復(fù)雜推理和編程能力，對于數(shù)據(jù)分析、低代碼等產(chǎn)品的使用體驗(yàn)提升明顯，關(guān)注ServiceNow、Palantir、Datadog；3）AI+網(wǎng)絡(luò)安全：o1在解決問題的過程中采取了帶有攻破性質(zhì)的解決方法，也體現(xiàn)出了AI輔助網(wǎng)絡(luò)攻擊的潛在威脅。另一方面，基于AI/ML的網(wǎng)絡(luò)安全解決方案也在不斷升級和迭代，AI驅(qū)動的網(wǎng)絡(luò)安全攻防升級將成為未來行業(yè)的主旋律。關(guān)注致力于AI/ML+網(wǎng)絡(luò)安全解決方案、擁有較強(qiáng)技術(shù)壁壘的的公司，關(guān)注4）AIAgent：當(dāng)前企業(yè)客戶對AI的數(shù)據(jù)整合、后臺打通、優(yōu)化工作流的潛在需求較為強(qiáng)勁，o1的技術(shù)路徑有望加速Agent的發(fā)展，大型SaaS公司擁有堅(jiān)實(shí)的客戶基礎(chǔ)、成熟的銷售渠道，特別是專注于ERP、CRM等領(lǐng)域的SaaS產(chǎn)品服務(wù)于企業(yè)工作流，與Agent的邏輯相契合，關(guān)注微軟、Salesforce、5）AI+教育：o1在復(fù)雜問題上具備強(qiáng)大的推理能力和全局思維能力，有望拓展學(xué)術(shù)教育等垂類應(yīng)用場景，關(guān)注多鄰國、Coursera。1）AI技術(shù)研發(fā)和產(chǎn)品迭代遭遇瓶頸：當(dāng)前AI產(chǎn)業(yè)發(fā)展較依賴前沿技術(shù)突破，若遭遇瓶頸則會導(dǎo)致AI應(yīng)用需求不足；2）AI行業(yè)競爭加劇風(fēng)險(xiǎn)：當(dāng)前AI產(chǎn)業(yè)鏈面臨激烈競爭，可能因行業(yè)競爭加劇而擠壓利潤空間；3）商業(yè)化進(jìn)展不及預(yù)期風(fēng)險(xiǎn)：AI應(yīng)用的用戶需求和滲透率擴(kuò)張可能低于預(yù)期；4）國內(nèi)外政策風(fēng)險(xiǎn)：AI相關(guān)版權(quán)和數(shù)據(jù)合規(guī)政策仍待完善。行公司評級因無法獲取必要的資料，或者公司面臨無法預(yù)見結(jié)果的重大不確定性事件，或者其他原因，致使無本報(bào)告所包含的分析基于各種假設(shè)，不同假設(shè)可能導(dǎo)致分析結(jié)果出現(xiàn)重大不同。本報(bào)告采用的各種估值方法及模型均有其局限性，估值結(jié)果不保本報(bào)告署名分析師具有中國證券業(yè)協(xié)會授予的證券投資咨詢執(zhí)業(yè)資格并注

人人文庫> 全部分類> 應(yīng)用文書 > 研究報(bào)告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

計(jì)算機(jī)-AI產(chǎn)業(yè)前瞻系列報(bào)告（三）：從OpenAI o1看AI產(chǎn)業(yè)趨勢打破AI應(yīng)用瓶頸算力需求前景如何

文檔簡介

溫馨提示

最新文檔

評論

計(jì)算機(jī)-AI產(chǎn)業(yè)前瞻系列報(bào)告（三）：從OpenAI o1看AI產(chǎn)業(yè)趨勢打破AI應(yīng)用瓶頸算力需求前景如何

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔